ベンチマーク、診断、監査など、エージェントの振る舞いや改善をどう確かめるかを扱う記事です。
6件の記事
エージェントスキルやSKILL.mdのような手順書が、本当に行動と成果を変えているかを測る評価フレームワーク。代表タスク、隠し評価基準、スキルあり/なし比較で効き方を見る。
変化し続ける端末、ソフトウェア、好みに対して、LLMエージェントの記憶が現在状態へ追従できるかを測る論文。静的ベンチマークでは見えない記憶の劣化を見る。
一回のタスク経験が、未来のエージェントで使える手続き的スキルへ育つかを測るベンチマーク。経験の再利用とスキル形成を分けて見る。
長期記憶を持つAIエージェントが、古くなった記憶を見抜き、古い前提を退け、現在の状態に合わせて行動できるかを評価する論文。
長時間動くエージェントの記録を、成功率だけでなく行動分類として読む論文。計画、検索、実行、検証、記憶などの分布から失敗理由を見つける。
スキルあり/なしの実行軌跡を比べ、成功率だけでは見えない探索、編集、検証の違いを監査する論文。エージェントの振る舞いが本当に変わったかを見る。