Shepherd | Paper Summary

2026-05-12 UTC

2026-06-23

これは何の論文か

Shepherd: A Runtime Substrate Empowering Meta-エージェント with a Formalized Execution Traceは、エージェントをただ実行するのではなく、その実行をあとから操作できる対象として扱うための実行環境基盤を提案する論文。

普通のエージェント実行では、モデルが考え、ツールを呼び、ファイルや環境を変更し、ログが残る。失敗したら、そのログを人間や別エージェントが眺めて「次はこうしよう」と考える。しかし Shepherd は一歩進めて、実行途中の状態を分岐し、別の分岐を走らせ、必要なら元に戻し、過去の地点から再生することを実行環境の基本操作にする。

重要なのは、これは単なるログ管理ではないこと。論文は、エージェントの行動を型つきイベントとして Git風の実行トレースに記録し、エージェントプロセスとファイルシステムを一緒に分岐 / 再生できるようにする。つまり、会話履歴だけでなく、環境の状態まで含めて「その時点のエージェント」を再利用可能にする。

ざっくり言うと、Shepherd は「エージェントの実行を Gitのブランチのように扱えるようにする」論文。メタエージェントはそのブランチを見て、介入し、分岐させ、良い経路を選べる。

何が問題だったのか

メタエージェントが作業エージェントを改善・監督・学習に使おうとしても、現在の実行基盤では過去状態への正確な復帰や分岐が難しい。

普通のログは、あとから読む記録としては役に立つ。しかし、実行中のある地点へ戻り、別の判断を試し、その差分を監督や学習に使うには弱い。外部世界への作用、可逆性、スコープ、履歴の整合性を扱えないと、危ない地点から分岐して試すことができない。

Shepherd が扱う問題は、エージェントを賢くすることではなく、エージェントを監督、分岐、再生、学習に使える実行基盤をどう作るかである。

既存のエージェント実行基盤は、実行を前へ進めることには向いているが、過去状態へ戻って別経路を試すことや、作用を型つきで管理することは弱い。ログは残っていても、それがそのまま再実行可能な状態になるわけではない。

また、監督、反実仮想最適化、強化学習訓練は別々に扱われがちだった。Shepherd は、どれも「実行履歴を分岐・再生できるか」という同じ基盤問題として見る。

Shepherd は、その不足を実行トレースそのものの扱い方から変える。ログをあとで読むだけではなく、タスク、作用、スコープ、実行履歴を分岐や再生の対象にすることで、監督役が危ない地点から別経路を試せるようにする。

提案手法の中身

4つの基本単位

Shepherdは関数型プログラミングの発想をエージェント型実行に持ち込み、作用を伴う処理を「何をするか」と「どう世界に反映するか」に分ける。論文では、エージェント実行を扱うために4つの単位を第一級にする。

Task

エージェントの振る舞いそのもの。単なるプロンプトではなく、実行可能な関数として扱われる。

Effect

エージェントの行動。意図と結果を分けて記録し、可逆なもの、補償可能なもの、不可逆なものを区別する。

スコープ

エージェントが走る環境。サンドボックス、モデルプロバイダ、ツール面を含み、分岐 / 統合 / 破棄の対象になる。

Execution トレース

過去の状態を Git風のコミットグラフとして残す。過去地点へ戻り、そこから別の分岐を走らせられる。

分岐 / 再生が何を変えるか

失敗したエージェント実行を改善したい時、普通は最初から再実行するか、ログを読んでプロンプトやコードを直す。Shepherd では、失敗直前の地点を分岐して、別の一手だけを試すことができる。これはデバッグ、監督、RL 実行のいずれにも効く。

論文で面白いのは、ファイルシステムだけでなくエージェントプロセスとメッセージ接頭辞も一緒に扱うこと。これにより再生時にプロンプトキャッシュを再利用しやすく、メタエージェントが多数の分岐を試す時のコストを抑えられる。

どうやって確かめたのか

評価は、分岐と再生が実際に監督、最適化、訓練の役に立つかを見るために組まれている。CooperBench のライブ監督、過去地点から別経路を探す反実仮想最適化、TerminalBench-2 の Tree-RL 訓練という3つの使い方で確認する。

比較対象は、分岐や再生を持たない通常の実行、既存のメタ最適化手法、通常の強化学習設定である。測る指標は、タスク成功率、過去地点からやり直した時の改善、訓練で得られる方策の性能である。

この節では、Shepherd が単一ベンチマーク専用の小技ではなく、実行を巻き戻して別経路を試せる基盤として複数の改善ループに使えるかを見る。

結果はどうだったのか

論文は Shepherd を3つの使い方で評価する。どれも「実行を分岐できる」ことが直接効く設計になっている。

ライブ監督

CooperBenchのペアコーディングで、ライブ監督役による介入により成功率が 28.8% から 54.7% へ上がる。

反実仮想最適化

メタエージェントが過去地点から別経路を探索し、4 ベンチマークで MetaHarnessや GEPA を上回る。最大 11 ポイント改善し、実時間も最大 58% 下がる。

Tree-RL訓練

メタエージェントが選んだターンから実行を分岐し、TerminalBench-2で Qwen3.5-35B-A3B の性能を 34.2% から 39.4% に上げる。

結果の読みどころは、単にベンチマークスコアが上がったことではない。分岐/再生可能な実行基盤があると、監督、探索、訓練が同じ基盤の上に乗る、という点が強い。

限界・注意点

Shepherdは存在証明色が強い。つまり、これがそのまま全エージェント基盤の最終形というより、メタエージェントが実行トレースを操作できると何が可能になるかを示す論文として読むのがよい。

不可逆な作用、たとえば外部送信や支払いなどは巻き戻しできず、監査対象として記録するしかない。
反実仮想再生は、過去の編集と副作用が弱く結合していることをある程度仮定する。
メタエージェント自体のコストや品質が結果に影響するため、基盤と監督役の知能の寄与を分けて読む必要がある。
エージェントがこの基盤を自分で使いこなすには、事後訓練や UI / API 設計がさらに必要になる。

それでも、エージェントを「一回走らせてログを読むもの」から「分岐可能な実行成果物を残すもの」へ移す補助線としてかなり強い。記憶、スキル、評価をまとめる下層として読める。

Shepherd | Paper Summary

これは何の論文か

何が問題だったのか

提案手法の中身

4つの基本単位

Task

Effect

スコープ

Execution トレース

分岐 / 再生が何を変えるか

どうやって確かめたのか

結果はどうだったのか

ライブ監督

反実仮想最適化

Tree-RL訓練

限界・注意点

おい丸のようなエージェントにどう使えるか

まず Abstract と Figure 1

次に Section 3

最後に Section 5

Q&A

Q. この論文の一番大きい主張は？

Q. 記憶論文なの？

Q. Git風トレースとは何？

Q. ただのチェックポイント / 復元と違う？

Q. 結果は何が強かった？

Q. 自分の運用にどう効く？

Q. スキルとどうつながる？

Q. ハーネス設計的には？

Q. 読後に残る一言は？

関連する記事

Remember the Decision, Not the Description

SkillEvolver

ComplexMCP