[{"data":1,"prerenderedAt":288},["ShallowReactive",2],{"content-\u002Fcontents\u002Fagentic-skills-eval":3,"surroundPost-\u002Fcontents\u002Fagentic-skills-eval":279},{"id":4,"title":5,"body":6,"createdAt":262,"description":263,"draft":264,"extension":265,"meta":266,"navigation":267,"path":268,"seo":269,"stem":270,"tags":271,"thumbnail":277,"updatedAt":262,"__hash__":278},"contents\u002Fcontents\u002Fagentic-skills-eval.md","A Framework for Evaluating Agentic Skills at Scale",{"type":7,"value":8,"toc":233},"minimark",[9,13,17,20,23,26,29,32,35,38,41,44,47,50,53,56,59,62,65,68,71,74,77,80,83,86,89,92,96,99,102,105,108,111,114,117,120,123,139,142,159,163,167,170,174,177,181,184,188,191,195,198,202,205,209,212,216,219,223,226,230],[10,11,12],"h2",{"id":12},"この論文の何がいいか",[14,15,16],"p",{},"この論文の良さは、skill を「便利そうな手順書」から「測定可能な外部状態」に引き上げているところにある。skill を増やすほど context は重くなり、選択ミスや古さも増える。だから、どの skill がどの行動を変えたかを測れないと、skill registry はすぐに散らかる。",[14,18,19],{},"実務で大事なのは、agent がタスクを解けたかだけではない。2026 年の agent では、タスクをどの手順で、どの規約で、どの安全境界を守って解いたかが重要になる。この論文は、その「how」を rubric に落とし、with-skill \u002F without-skill の差分として読む方法を与えている。",[14,21,22],{},"個人 AI assistant や coding agent の運用では、learn-from-logs、paper-watch、article-page-publisher、GitHub 作業 skill のような長い手順が増えていく。これらを保守するには、ログから反省を追記するだけでなく、代表タスク、隠し rubric、差分診断、退役判断を持つ必要がある。",[10,24,25],{"id":25},"どんな論文か",[14,27,28],{},"LLM agent の能力を拡張する方法として、Skills \u002F SKILL.md のような再利用可能な知識 artifact が広がっている。そこには API の使い方、ドメイン固有の workflow、命名規則、避けるべき実装、好みの手順などが書かれる。",[14,30,31],{},"ただし、skill を書いたあとに残る実務上の問いは単純ではない。その skill は本当に agent の行動を変えたのか。変えたとして、成果も良くなったのか。大きい model なら skill なしでも同じことができるのか。逆に、安い model に skill を渡せば十分なのか。",[14,33,34],{},"この論文は、その問いに答えるために、任意の skill から現実的な評価タスクを生成し、実行環境と入力 artifact を整え、隠し rubric で goal completion と instruction following を採点する枠組みを提案する。",[14,36,37],{},"評価は約 500 の実世界 skill、約 1,000 の生成タスク、19 の agent-model 構成で行われる。結果として、skill は agent の行動を有意に変え、特に instruction-following 側で 5〜22 ポイントの改善を生むと報告されている。",[14,39,40],{},"A Framework for Evaluating Agentic Skills at Scale は、agent skill の価値を測るための評価フレームワークを提案する論文である。",[14,42,43],{},"対象は、Skill \u002F SKILL.md のような構造化された再利用可能な知識 artifact。これらは agent に domain workflow、API usage、coding convention、best practices、opinionated choices を注入する。",[14,45,46],{},"既存 benchmark は、一般的な agent 能力や固定タスクの達成を測るものが多く、任意の新しい skill が本当に効いているかを測る仕組みが弱い。",[10,48,49],{"id":49},"課題と貢献",[14,51,52],{},"任意の skill から現実的で実行可能な評価タスクを自動合成する framework を提案している。",[14,54,55],{},"タスクには入力 folder、実行環境、goal-completion rubric、instruction-following rubric が付く。rubric は solver には隠され、judge だけが使う。",[14,57,58],{},"同じタスクを with-skill と without-skill の条件で解かせることで、skill が成果と行動のどちらに効いたかを分けて見る。",[14,60,61],{},"約 500 の実世界 skill と約 1,000 の生成タスクで、19 の agent-model 構成を比較している。",[14,63,64],{},"aggregate benchmark だけでなく、個別 skill の弱点診断にも使える点を示している。",[10,66,67],{"id":67},"手法のしくみ",[14,69,70],{},"入力は、評価したい skill と、必要ならユーザーが指定する intent である。",[14,72,73],{},"Environment engineering agent が、CLI tool、MCP、外部ネットワーク、認証、runtime、既存 repo、database、browser、local service などの依存を分類する。",[14,75,76],{},"Task generation agent が、skill の内容から現実的な user request、入力 artifact、想定 workspace を作る。PDF、script、config、既存コードなど、必要な入力もここで用意する。",[14,78,79],{},"Validation agent が、環境が満たせるか、タスクが曖昧でないか、rubric や解法が task description に漏れていないかを確認する。",[14,81,82],{},"Solver agent が同じタスクを二回解く。一方は skill あり、もう一方は skill なしで実行する。",[14,84,85],{},"Verification agent が、隠し rubric に基づいて solution と logs を採点する。goal completion は成果物の正しさ、instruction following は skill が要求する手順・形式・禁止事項への従い方を見る。",[14,87,88],{},"最後に、with-skill と without-skill の差分を rubric 単位で見て、skill utility、重複している知識、効いていない指示、弱い項目を診断する。",[10,90,91],{"id":91},"検証結果",[93,94,95],"h3",{"id":95},"大規模評価",[14,97,98],{},"約 500 の実世界 skill から約 1,000 の評価タスクを生成し、19 の agent-model 構成で比較している。",[93,100,101],{"id":101},"スキルの効果",[14,103,104],{},"アクセス可能な relevant skill は、aggregate で 5〜22 ポイントの改善を生み、主に instruction-following の向上に支えられていると報告されている。",[93,106,107],{"id":107},"モデル差",[14,109,110],{},"skill があっても、モデルごとに skill instruction への従い方が大きく異なる。高価な frontier model が高得点を出す一方、安価な model でも skill により差を詰める例がある。",[14,112,113],{},"領域差。media \u002F file processing、security \u002F compliance のような具体的 workflow を持つ skill は改善が大きい。一方、抽象的な guideline や best practice 中心の skill は改善が小さい。",[93,115,116],{"id":116},"診断可能性",[14,118,119],{},"Hugging Face hf-cli skill の例では、legacy command を使わず新しい hf command へ移行する、といった rubric ごとの差分が見える。これにより skill のどの文が行動を変えたかを確認できる。",[10,121,122],{"id":122},"課題と議論",[124,125,126,130,133,136],"ul",{},[127,128,129],"li",{},"with-skill 条件では、skill の関連性が solver に明示される。実運用では skill が registry にあっても選ばれないことがあるため、skill selection 能力は別途評価が必要になる。",[127,131,132],{},"採点は Sonnet 4.6 の LLM-as-judge に依存している。rubric は具体的でも、judge bias や aesthetic \u002F stylistic criteria の揺れは残る。",[127,134,135],{},"公開 skill の分布は software engineering に偏っている。ほかの領域にも使える可能性はあるが、経験的主張はこの分布を前提に読む必要がある。",[127,137,138],{},"database、MCP server、multi-turn interaction、pre-populated service state など、再現が難しい環境を必要とする skill はフィルタされている。実運用の重い skill ほど今後の課題に残る。",[10,140,141],{"id":141},"次に読むなら",[124,143,144,147,150,153,156],{},[127,145,146],{},"まず Introduction を読み、なぜ既存 benchmark では任意の新 skill の価値が測れないのかを押さえる。",[127,148,149],{},"次に Evaluation Framework を読み、environment engineering、task generation、validation、paired solve、hidden rubric の流れを見る。",[127,151,152],{},"結果を見る時は、goal completion と instruction following を分ける。skill が知識を足したのか、手順・規約への従い方を変えたのかが違う。",[127,154,155],{},"個人運用に持ち込むなら、1つの skill につき 2〜3 個の代表タスクと rubric を作り、with \u002F without で実行差分を見るところから始める。",[127,157,158],{},"関連して読むなら、SkillOpt、SkillPyramid、Counterfactual Trace Auditing、How to Interpret Agent Behavior を並べると、skill の作成・統合・監査・行動分析がつながる。",[10,160,162],{"id":161},"読後qa","読後Q&A",[93,164,166],{"id":165},"この論文の中心問いは","この論文の中心問いは？",[14,168,169],{},"任意の agent skill が、実際に agent の行動や成果を改善しているかを、どう測るか。",[93,171,173],{"id":172},"既存-benchmark-と何が違う","既存 benchmark と何が違う？",[14,175,176],{},"固定タスクで一般能力を見るのではなく、評価対象の skill から realistic task と hidden rubric を作り、その skill 自体の utility を測る。",[93,178,180],{"id":179},"goal-completion-と-instruction-following-は何が違う","goal completion と instruction following は何が違う？",[14,182,183],{},"goal completion は成果物が正しいか、instruction following は skill が指定した手順、形式、禁止事項、規約に従ったかを測る。",[93,185,187],{"id":186},"なぜ-with-skill-without-skill-比較が重要","なぜ with-skill \u002F without-skill 比較が重要？",[14,189,190],{},"skill がなくても model が解けるタスクなら、skill の追加価値は小さい。差分を見ることで、skill が本当に行動を変えたかを確認できる。",[93,192,194],{"id":193},"どんな規模で評価している","どんな規模で評価している？",[14,196,197],{},"約 500 の実世界 open-source skill、約 1,000 の生成タスク、19 の agent-model 構成で評価している。",[93,199,201],{"id":200},"主な結果は","主な結果は？",[14,203,204],{},"relevant skill は 5〜22 ポイントの aggregate 改善を生み、特に instruction-following に効く。モデルごとの skill adherence 差も大きい。",[93,206,208],{"id":207},"どんな-skill-が効きやすい","どんな skill が効きやすい？",[14,210,211],{},"具体的な手順、入出力形式、CLI の使い方、検証手順を持つ workflow 型 skill は効きやすい。抽象的な best-practice 型 skill は効果が小さくなりやすい。",[93,213,215],{"id":214},"skill-author-には何がうれしい","skill author には何がうれしい？",[14,217,218],{},"aggregate score だけでなく、どの rubric で差が出たかを見て、効いている指示、効いていない指示、消してよい部分を診断できる。",[93,220,222],{"id":221},"おい丸運用にどう効く","おい丸運用にどう効く？",[14,224,225],{},"scheduled-ops や article-page-publisher のような長い skill に代表タスクと rubric を付け、更新後に with \u002F without で行動差を確認する運用へ進める。",[93,227,229],{"id":228},"注意点は","注意点は？",[14,231,232],{},"with-skill 条件では skill 関連性が明示されるため、実運用の skill selection 問題は別に残る。LLM-as-judge 依存や software engineering 偏りにも注意が必要。",{"title":234,"searchDepth":235,"depth":235,"links":236},"",2,[237,238,239,240,241,248,249,250],{"id":12,"depth":235,"text":12},{"id":25,"depth":235,"text":25},{"id":49,"depth":235,"text":49},{"id":67,"depth":235,"text":67},{"id":91,"depth":235,"text":91,"children":242},[243,245,246,247],{"id":95,"depth":244,"text":95},3,{"id":101,"depth":244,"text":101},{"id":107,"depth":244,"text":107},{"id":116,"depth":244,"text":116},{"id":122,"depth":235,"text":122},{"id":141,"depth":235,"text":141},{"id":161,"depth":235,"text":162,"children":251},[252,253,254,255,256,257,258,259,260,261],{"id":165,"depth":244,"text":166},{"id":172,"depth":244,"text":173},{"id":179,"depth":244,"text":180},{"id":186,"depth":244,"text":187},{"id":193,"depth":244,"text":194},{"id":200,"depth":244,"text":201},{"id":207,"depth":244,"text":208},{"id":214,"depth":244,"text":215},{"id":221,"depth":244,"text":222},{"id":228,"depth":244,"text":229},"2026-06-17","Agent skills \u002F SKILL.md のような再利用可能な手順書が、実際に agent の振る舞いと成果を変えているかを測るための評価フレームワーク。skill 由来の実行可能タスク、隠し rubric、with-skill \u002F without-skill 比較で、skill の価値と弱点を診断する。",false,"md",{},true,"\u002Fcontents\u002Fagentic-skills-eval",{"title":5,"description":263},"contents\u002Fagentic-skills-eval",[272,273,274,275,276],"論文まとめ","Agent Skills","Skill Evaluation","Instruction Following","Rubrics","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fagentic-skills-eval.png","aGQuiiAemQJMgpEp4x0lBTDSKmUhwAMMbGbzyr6d9SY",[280,284],{"title":281,"path":282,"stem":283,"children":-1},"Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads","\u002Fcontents\u002Fagent-memory-characterization","contents\u002Fagent-memory-characterization",{"title":285,"path":286,"stem":287,"children":-1},"AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases","\u002Fcontents\u002Fagenticrag-enterprise-knowledge-bases","contents\u002Fagenticrag-enterprise-knowledge-bases",1782055096896]