公開している論文解説記事をまとめて読む入口です。
46件の記事
AIエージェントの経験を、同じ場面だけでなく別タスクや別モデルにも移せる手続き記憶として測る論文。
AGENTS.mdのようなリポジトリガイダンスを、書いて終わりではなく、失敗プローブで穴を見つけて改善する運用資産として扱う論文。
LLMエージェントが実行中に生んだ行動軌跡を、別のエージェントが検索して再利用できる共有記憶として扱う論文。
長い文脈や複雑なルールから、あとで再利用できる自然言語スキルを作れるかを扱う論文。課題生成、回答、採点、更新を回してスキル化を試す。
AI科学者の研究過程をモデル内部に閉じず、証拠、アイデア、実験、修復、主張監査を外部成果物として残す論文。
企業ナレッジベースの上で、LLMが検索、閲覧、要約を使い分けるエージェント型RAGの論文。固定検索だけでは届かない質問に、どこまで自律探索を足すべきかを見る。
エージェントスキルやSKILL.mdのような手順書が、本当に行動と成果を変えているかを測る評価フレームワーク。代表タスク、隠し評価基準、スキルあり/なし比較で効き方を見る。
長期LLMエージェントの文脈管理を、削るだけでなく、プロンプトキャッシュが効く入力配置として安定させる論文。
エージェントの性能をモデル単体ではなく、プロンプト、ツール、記憶、制御からなるハーネスの設計・適応・進化問題として扱う論文。
研究エージェントに渡す知識を、論文リストや要約ではなく、主張・証拠・手法のつながりとして構築する論文。調査の出典、系譜、根拠をエージェントが辿れる形にする。
長大なコーパスを扱う時に、サブエージェントを再帰的に呼び出すハーネス設計を扱う論文。裸のモデル呼び出しではなく、実行基盤ごと分割する。
変化し続ける端末、ソフトウェア、好みに対して、LLMエージェントの記憶が現在状態へ追従できるかを測る論文。静的ベンチマークでは見えない記憶の劣化を見る。
Text-to-SQLの失敗経験を構造化されたヒント集に変換し、実行時に関連ヒントを検索してSQL生成を改善するシステム。
エージェントハーネスという曖昧な言葉を、モデルを実行可能なエージェントにする境界層として定義する概念分析の論文。
LLMエージェントのスキル更新を、成功ログの足し算ではなく、検証済み軌跡に基づく事後分布の更新として扱う論文。追記、分割、圧縮、退役を更新候補として見る。
コーディングエージェントの過去トレースから、次のスキルと検証タスクを作る論文。ログを読むだけで終えず、実行検証へ戻す。
個人AIエージェントの長期記憶検索を、単なる類似度検索ではなく信頼境界として扱う論文。危ない記憶を文脈に入る前に止める。
長期タスクのLLMエージェントで使われる記憶システムを、精度だけでなく構築コスト、検索遅延、鮮度、保存量の負荷として測る論文。記憶を入れれば賢くなる、で止めないための整理。
一回のタスク経験が、未来のエージェントで使える手続き的スキルへ育つかを測るベンチマーク。経験の再利用とスキル形成を分けて見る。
エージェントのスキル集合を、平らな保存庫ではなく、原子的スキルと抽象スキルの階層として整理する論文。
長時間動くLLMエージェントを、状態・権限・再開・監査を持つ実行主体として扱う実行環境の論文。道具を渡すだけでなく、権限境界と永続状態をどう設計するかが焦点になる。
検索エージェントの状態をモデル内に抱え込ませず、ハーネス側の作業記憶へ外出しする論文。方策を検索判断に集中させる設計を扱う。
長期エージェント記憶を、保存箱や検索システムではなく、時間とともに更新される状態管理として捉え直す論文。忘却、改訂、整合性を扱う。
長期対話やエージェントアプリの記憶を、過去メモではなく永続状態を管理する記憶基盤として設計する論文。
多段の試行錯誤検索を、語彙補強とコーパス統計にもとづく1回の強い検索へ圧縮する検索エージェントの論文。
エージェントのスキルを、一度きりの生成物ではなく、作成、記憶、管理、評価、改善のライフサイクルで育てる論文。
自然言語のエージェントスキルを、凍結モデルの外側にある改善可能な状態として扱い、実行、反省、編集、検証ゲートで育てる手法。
エージェント型RAGが、従来の強化されたRAGより常に優れているわけではないことを実験で示す論文。効果、コスト、時間の釣り合いを見る。
コードをLLMの最終成果物ではなく、エージェントが推論、行動、状態保持、検証、協調を行うための実行基盤として捉え直すサーベイ。
エージェントスキルを自然言語の塊ではなく、呼び出し条件、実行手順、副作用、再利用リスクを分けた構造として扱う論文。
長期会話エージェントの記憶を、孤立した事実ではなく、時刻つきの出来事と出来事どうしの関係として構造化する論文。
RAGの失敗を再検索回数の問題ではなく、失敗状態を診断して適切な検索スキルを選ぶ問題として扱う論文。
長期エージェント記憶を、重い知識グラフではなく、型つき意味記憶、矛盾解決、時間履歴、広めの検索で作る論文。
深掘り調査を、並列検索の寄せ集めではなく、足りない証拠を見つけて補う証拠グラフの組み立てとして扱う論文。未確認・矛盾・不足を見つけ、次の探索へつなげる。
画像とテキストが混ざる複数セッション会話で、長期記憶を持つ視覚言語モデルや記憶エージェントが本当に視覚証拠を使えるかを測る論文。
長期記憶を、保存内容だけでなく検索設定、証拠の束ね方、回答検証まで含めて失敗ログから自己改善する論文。記憶システムを評価つきで育てる。
エージェントのツール実行やセッション開始・終了に、決まったフック処理を差し込む考え方。プロンプト頼みではなく、保護ファイル、禁止操作、記録、確認を実行環境側で制御する。
長期記憶を持つAIエージェントが、古くなった記憶を見抜き、古い前提を退け、現在の状態に合わせて行動できるかを評価する論文。
エージェント検索の性能を、grepかベクトル検索かだけでなく、ハーネスや検索結果の渡し方込みで比較する論文。
長時間動くエージェントの記録を、成功率だけでなく行動分類として読む論文。計画、検索、実行、検証、記憶などの分布から失敗理由を見つける。
スキルあり/なしの実行軌跡を比べ、成功率だけでは見えない探索、編集、検証の違いを監査する論文。エージェントの振る舞いが本当に変わったかを見る。
外部スキルを増やし続けるのではなく、維持、退役、拡張を選びながら管理する論文。どのスキルが今のタスクに貢献しているかを評価する。
調査エージェントが過去の探索結果や証拠を記憶バンクとして再利用する論文。深掘り調査で何を残し、どう取り出すかを見る。
Shepherdは、エージェントの作業を別の監督役が観察し、危ない分岐や失敗の兆候を見つけて介入する仕組み。長い自律作業を任せる時に、いつ止め、いつ戻し、いつ人へ確認するかを考える入口になる。
検索結果の要約を読むだけでなく、エージェントがコーパスを直接歩き、必要な箇所を探し直す方法を扱う論文。RAGを検索器単体ではなく探索行動として見る。
外部記憶だけに頼るエージェントの限界を整理し、良い経験をモデル重みやスキルへ戻す必要を論じる記事。文脈、記憶、学習の役割分担を考える。