SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

2026-06-05

2026-06-23

これは何の論文か

SkillEvolBench の中心問いは、LLMエージェントが残す一回ごとの作業経験を、後続タスクで使える手続き的スキルへ変換できるのか、というものです。過去ログを保存して再利用できることと、そこから一般化された手順を抽出できることは別問題だ、という切り分けが出発点です。

ベンチマークは 6 つの現実的なエージェント環境、各環境 5 つの手続きファミリ、各ファミリ 6 つのロールで構成されます。前半の canonical、enriched、variant タスクで経験を集め、検証フィードバックを使ってスキルライブラリを更新します。その後、ライブラリを凍結して文脈 shift、adversarial、組み立てタスクで評価します。

実験結果はかなり慎重なものです。スキルベース条件は学習タスクや再生では改善することがある一方、凍結デプロイで安定して強いわけではありません。むしろ Raw-Trajectory、つまり過去軌跡を直接再利用する条件が、蒸留されたスキルをしばしば上回ります。

この結果は、スキル運用で本当に難しいのは保存容量でも更新頻度でもなく、何を残し何を捨てるかという選択的な手続き抽象化だと示しています。スキルを増やすだけでは、エピソード固有のノイズや古い前提も一緒に残ってしまいます。

この論文は、エージェントスキルのような外部スキル成果物が、実際にエージェントの経験から育つのかを測るベンチマークを提案しています。既存研究がよく扱う「スキルがあると性能が上がるか」ではなく、「経験からスキルを形成できるか」に焦点を置いています。

各タスクファミリは、同じ潜在手続きを共有しつつ、表面形や失敗モードが変わるように設計されています。これにより、単なるタスク局所の修正ではなく、関連タスクへ持ち越せる手続きが形成されたかを見ます。

何が問題だったのか

エージェントが経験からスキルを作ったと言っても、そのスキルが本当に再利用できる手続き知になったのかは分かりにくい。過去の軌跡をそのまま読ませただけで解けているのか、特定タスクの近道を覚えただけなのか、未知の状況でも使える抽象化ができたのかを分ける必要がある。

特に難しいのは、スキルを使う能力と、スキルを作る能力を混同しやすいことだ。評価中にもスキルを更新できるなら、後半の成功が事前に形成されたスキルのおかげなのか、その場の追加学習のおかげなのかが分からない。

また、スキルが有効に見えても、文脈が少し変わると壊れることがある。表面だけ通る近道に頼っていたり、複数スキルを組み合わせる場面で失敗したりする。単一の成功率だけでは、どの壊れ方なのかを読めない。

SkillEvolBench が扱う問題は、エージェントの経験が、本当にあとで使えるスキルへ変わったかをどう評価するかである。

既存の評価では、スキルを使った時に成功率が上がるかは見えても、スキルがどの段階で形成され、どの条件で再利用できるかは見えにくかった。過去の軌跡を直接参照する方法と、抽象化されたスキルを使う方法を分けないと、スキル形成の効果を過大評価してしまう。

また、通常のベンチマークは平均成功率に寄りがちで、文脈シフト、近道、スキル合成のどこで失敗しているかを切り分けにくい。SkillEvolBench は、凍結デプロイと複数の失敗条件を入れることで、スキルが本当に手続き知として残ったかを測ろうとする。

SkillEvolBench は、その不足を、経験を集める段階と、凍結したスキルライブラリで未知条件に移す段階を分けることで補う。ここを押さえると、このベンチマークは「スキルを使えば性能が上がるか」ではなく、「経験から作った手続きが、後で本当に再利用できるか」を測っていると分かる。

提案手法の中身

入力は、複数環境にまたがるタスク系列、エージェントの実行軌跡、検証フィードバック、更新対象のスキル library である。

学習フェーズでは、canonical、enriched、variant のタスクから軌跡と検証結果を集める。ホスト側のスキル Author はそれを読み、新しいスキルを書く、既存スキルを修正する、今回は何もしない、のいずれかを選ぶ。

次に、評価フェーズではスキル library を凍結する。ここでは新しいスキルを追加できないため、評価中の成功は、学習フェーズまでに形成されたスキルの効果として読みやすくなる。

評価タスクは、単に似た問題を解かせるだけではない。文脈シフトでは、広い依頼文の中から必要なスキルを呼び出せるかを見る。adversarial タスクでは、浅い近道に頼らず本質的な条件を満たせるかを見る。組み立てタスクでは、対象スキルを他のスキルと組み合わせられるかを見る。

条件は No-スキル、Raw-Trajectory、Curated-Static、Curated-Revision、SelfGen-Zero-Shot、SelfGen-Revision、SelfGen-Always などに分かれます。さらに Tier-3 アブレーションでは、スクリプト、references、assets のような追加リソースを強制して、容量を増やすだけで改善するかを調べます。

どうやって確かめたのか

評価では、180タスク、6環境を使い、経験から手続き的スキルが形成されるかを見る。学習中の改善と、スキルだけを持たせて凍結デプロイした時の転移を分けて測る。

比較対象は、スキルなし、過去軌跡の直接利用、人手スキル、自己生成スキルである。過去軌跡をそのまま再利用する条件を入れることで、スキルに抽象化すること自体が本当に価値を出しているかを確かめる。

測る指標は、学習成功率、再生成功率、凍結デプロイ時の ESR、CSSR、ARSR、CompSR である。局所的な改善が、文脈変化、近道、組み合わせ課題へ転移するかが焦点になる。

結果はどうだったのか

主結果は、現在のエージェントは局所的には適応できるが、再利用可能な手続き的スキルの形成はまだ不安定、というものです。学習成功率や再生成功率が伸びても、凍結デプロイの ESR、CSSR、ARSR、CompSR に一貫して転移するとは限りません。

Raw-Trajectory との比較では、多くのモデルと条件で、蒸留されたスキルよりも過去軌跡の直接再利用が強く出ています。これは、抽象化の過程で、将来タスクにも効く文脈的・手続き的な手がかりが落ちている可能性を示します。

Tier-3 リソースを増やすとライブラリのファイル数は増えますが、凍結評価は安定して改善しません。増えたリソースが、安定した手続きではなく、エピソード固有の仮定や古い文脈を保存してしまう場合があるからです。

限界・注意点

この論文の結果は、評価したモデル、ハーネス、タスク構成に依存します。新しいモデルでは傾向が変わる可能性があります。
ただし、凍結評価、Raw-Trajectory 対照、文脈シフト・近道・合成の分解という評価設計は、個人のエージェントスキル運用にもそのまま使える示唆があります。
実務上は、ログから学びを残すときに、具体エピソードをそのまま圧縮してスキル化するだけでは足りません。再利用条件、検証方法、捨てるべき局所情報を明示する必要があります。

おい丸のようなエージェントにどう使えるか

おい丸のような作業支援エージェントでは、スキルは増えるほど便利になる一方で、重複、古さ、選択ミス、局所最適が起きやすい。だから、スキルを作ったかどうかだけでなく、凍結した状態で別タスクへ持ち出しても効くかを見る必要がある。

この論文を使うなら、スキルを単なる自然言語メモではなく、評価・統合・退役の対象として扱う。新しい経験をそのまま追記するのではなく、既存スキルへ統合するのか、原子的なルールへ分けるのか、検証タスクを作るのかを決める。

注意点として、実運用では、スキルを増やす判断だけでなく、消す判断、まとめる判断、効いているかを測る判断まで必要になる。

SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

これは何の論文か

何が問題だったのか

提案手法の中身

どうやって確かめたのか

結果はどうだったのか

限界・注意点

おい丸のようなエージェントにどう使えるか

Q&A

この論文は何を測っているの？

なぜ Raw-Trajectory が重要なの？

スキルをたくさん追加すればよくなる？

一番参考になる評価設計は？

自分のエージェント運用にはどう使える？

この論文の結論は楽観的？

Curated スキルは効かないの？

この論文のキーワードを一つにまとめるなら？

関連する記事