モデル単体ではなく、文脈管理、ツール制御、検証、状態外部化を含む実行基盤として読む記事です。
13件の記事
LLMエージェントが実行中に生んだ行動軌跡を、別のエージェントが検索して再利用できる共有記憶として扱う論文。
AI科学者の研究過程をモデル内部に閉じず、証拠、アイデア、実験、修復、主張監査を外部成果物として残す論文。
長期LLMエージェントの文脈管理を、削るだけでなく、プロンプトキャッシュが効く入力配置として安定させる論文。
エージェントの性能をモデル単体ではなく、プロンプト、ツール、記憶、制御からなるハーネスの設計・適応・進化問題として扱う論文。
長大なコーパスを扱う時に、サブエージェントを再帰的に呼び出すハーネス設計を扱う論文。裸のモデル呼び出しではなく、実行基盤ごと分割する。
エージェントハーネスという曖昧な言葉を、モデルを実行可能なエージェントにする境界層として定義する概念分析の論文。
長時間動くLLMエージェントを、状態・権限・再開・監査を持つ実行主体として扱う実行環境の論文。道具を渡すだけでなく、権限境界と永続状態をどう設計するかが焦点になる。
検索エージェントの状態をモデル内に抱え込ませず、ハーネス側の作業記憶へ外出しする論文。方策を検索判断に集中させる設計を扱う。
コードをLLMの最終成果物ではなく、エージェントが推論、行動、状態保持、検証、協調を行うための実行基盤として捉え直すサーベイ。
エージェントのツール実行やセッション開始・終了に、決まったフック処理を差し込む考え方。プロンプト頼みではなく、保護ファイル、禁止操作、記録、確認を実行環境側で制御する。
エージェント検索の性能を、grepかベクトル検索かだけでなく、ハーネスや検索結果の渡し方込みで比較する論文。
長時間動くエージェントの記録を、成功率だけでなく行動分類として読む論文。計画、検索、実行、検証、記憶などの分布から失敗理由を見つける。
Shepherdは、エージェントの作業を別の監督役が観察し、危ない分岐や失敗の兆候を見つけて介入する仕組み。長い自律作業を任せる時に、いつ止め、いつ戻し、いつ人へ確認するかを考える入口になる。