実行ログや失敗経験から、スキル、記憶、ハーネスを更新する方向の研究を扱う記事です。
8件の記事
長い文脈や複雑なルールから、あとで再利用できる自然言語スキルを作れるかを扱う論文。課題生成、回答、採点、更新を回してスキル化を試す。
エージェントの性能をモデル単体ではなく、プロンプト、ツール、記憶、制御からなるハーネスの設計・適応・進化問題として扱う論文。
長大なコーパスを扱う時に、サブエージェントを再帰的に呼び出すハーネス設計を扱う論文。裸のモデル呼び出しではなく、実行基盤ごと分割する。
エージェントのスキル集合を、平らな保存庫ではなく、原子的スキルと抽象スキルの階層として整理する論文。
エージェントのスキルを、一度きりの生成物ではなく、作成、記憶、管理、評価、改善のライフサイクルで育てる論文。
自然言語のエージェントスキルを、凍結モデルの外側にある改善可能な状態として扱い、実行、反省、編集、検証ゲートで育てる手法。
長期記憶を、保存内容だけでなく検索設定、証拠の束ね方、回答検証まで含めて失敗ログから自己改善する論文。記憶システムを評価つきで育てる。
外部スキルを増やし続けるのではなく、維持、退役、拡張を選びながら管理する論文。どのスキルが今のタスクに貢献しているかを評価する。