自然言語の手順、SOP、ガイダンス、失敗から育つスキルをどう作り、評価し、運用するかを扱う記事です。
14件の記事
AIエージェントの経験を、同じ場面だけでなく別タスクや別モデルにも移せる手続き記憶として測る論文。
AGENTS.mdのようなリポジトリガイダンスを、書いて終わりではなく、失敗プローブで穴を見つけて改善する運用資産として扱う論文。
長い文脈や複雑なルールから、あとで再利用できる自然言語スキルを作れるかを扱う論文。課題生成、回答、採点、更新を回してスキル化を試す。
エージェントスキルやSKILL.mdのような手順書が、本当に行動と成果を変えているかを測る評価フレームワーク。代表タスク、隠し評価基準、スキルあり/なし比較で効き方を見る。
Text-to-SQLの失敗経験を構造化されたヒント集に変換し、実行時に関連ヒントを検索してSQL生成を改善するシステム。
LLMエージェントのスキル更新を、成功ログの足し算ではなく、検証済み軌跡に基づく事後分布の更新として扱う論文。追記、分割、圧縮、退役を更新候補として見る。
コーディングエージェントの過去トレースから、次のスキルと検証タスクを作る論文。ログを読むだけで終えず、実行検証へ戻す。
一回のタスク経験が、未来のエージェントで使える手続き的スキルへ育つかを測るベンチマーク。経験の再利用とスキル形成を分けて見る。
エージェントのスキル集合を、平らな保存庫ではなく、原子的スキルと抽象スキルの階層として整理する論文。
エージェントのスキルを、一度きりの生成物ではなく、作成、記憶、管理、評価、改善のライフサイクルで育てる論文。
自然言語のエージェントスキルを、凍結モデルの外側にある改善可能な状態として扱い、実行、反省、編集、検証ゲートで育てる手法。
エージェントスキルを自然言語の塊ではなく、呼び出し条件、実行手順、副作用、再利用リスクを分けた構造として扱う論文。
スキルあり/なしの実行軌跡を比べ、成功率だけでは見えない探索、編集、検証の違いを監査する論文。エージェントの振る舞いが本当に変わったかを見る。
外部スキルを増やし続けるのではなく、維持、退役、拡張を選びながら管理する論文。どのスキルが今のタスクに貢献しているかを評価する。