Memento | Paper Summary

2026-05-12 UTC

2026-06-23

これは何の論文か

Memento: Fine-調整 LLMエージェント without Fine-調整 LLMsは、LLMエージェントの「学習」を、モデル重みの更新ではなく、経験の保存・選択・再利用として設計する論文。狙いは、長い調査やツール利用を行うエージェントが、毎回ゼロから考えるのではなく、過去の似た課題で何を計画し、何が成功し、何が失敗したかを使って次の行動を良くすることにある。

従来のエージェント改善には大きく二つの寄り道がある。ひとつは、固定された reflection や手書きワークフローを増やす方向。これは狭いタスクでは効くが、環境が変わると硬い。もうひとつは、LLM 自体を強化学習や教師あり学習でファインチューニングする方向。こちらは柔軟だが、計算コストが高く、継続的に運用しながら学ぶには重い。

Memento はその間に入る。モデル本体は固定したまま、過去の実行軌跡を「事例」として外部記憶に保存し、現在のタスクに似た事例を取り出して planner に渡す。つまり、学習するのは「どの事例を参照すると良いか」という選択方針であり、LLM の重みではない。

この論文が面白いのは、単なる RAG ではなく、古典的な事例-based 推論と強化学習をつないでいるところ。過去の文書を検索するのではなく、過去の状態・計画・報酬を持つ経験を検索し、それを計画の材料にする。

読む前の見取り図としては、コーパスを直接歩く検索エージェントが「資料庫をどう歩くか」、Shepherd が「実行履歴をどう分岐・再生するか」なら、Memento は「成功・失敗した実行経験を、次の計画にどう効かせるか」を扱う論文だと思うと入りやすい。

何が問題だったのか

調査エージェントは、似た失敗や似た探索を何度も繰り返しやすい。過去にどんな計画で成功したか、どんな道具の使い方で失敗したかを覚えられれば、次のタスクをもっと良く始められる。

しかし、運用中のエージェントを毎回ファインチューニングするのは重い。コストが高く、失敗経験をどう安全に学習させるかも難しい。かといって、生ログをそのまま保存しても、次の計画で使いやすい経験にはなりにくい。

Memento が扱う問題は、モデルの重みを更新せずに、過去の経験を「次の計画に使える事例」としてどう保存し、どう選ぶかである。経験をただ残すのではなく、状態、行動、結果のまとまりとして扱う必要がある。

提案手法の中身

1. 過去の経験を事例として保存する

Mementoは、現在のタスク、作った計画、結果の成否を事例として保存する。論文中では事例を状態、行動、報酬の組として扱う。これにより、単なる会話ログではなく「この状況で、この計画を使ったら、うまくいった / 失敗した」という再利用可能な経験になる。

2. planner が事例を読んで計画を作る

新しいタスクが来ると、planner は事例記憶から関連する過去ケースを読む。非パラメトリック版では意味的類似度で近い事例を取る。パラメトリック版では、どの事例が成功に効きやすいかを Q 関数で学び、その値に基づいて事例を選ぶ。

3. executorが MCP 経由でツールを使う

planner が作った subtaskを executor が実行する。検索、Webクロール、画像、音声、PDF、表計算、コード実行などを MCP 経由で扱う構成になっている。実行中の subtask やツール呼び出しは別の記憶に保存され、planner は途中結果を見ながら再計画する。

4. 成功・失敗を次の記憶更新に使う

タスクが終わると、結果を事例 bank に追加する。パラメトリック版では同時に Q 関数を更新し、「どの事例が次の計画で役に立つか」の選択方針を改善する。ここが、単に事例を増やすだけの RAG と違うところ。

どうやって確かめたのか

評価は、事例ベースの記憶が長い調査やツール利用の計画をどれだけ助けるかを見るために組まれている。GAIA と DeepResearcher 系のオープンドメイン QA タスクを使い、計画、検索、ツール利用を含む長めの実行で確認する。

比較対象は、記憶なしの調査エージェント、過去事例を検索して使う Memento、事例選択やオンライン実行器を入れた構成である。分布外の課題でも効くかを見るため、訓練時と違う種類の質問も含める。

測る指標は、Pass@3、F1、完全一致に近い部分一致指標、計画の成功率、事例選択を足した時の差分である。

結果はどうだったのか

Mementoは GAIA 検証で 87.88% Pass@3 を出し、論文中の時点でトップ水準として報告されている。private テストでも 79.40%。 DeepResearcher 系の7つの open-領域 QA では平均 66.6% F1、80.4% PMで、訓練-based な DeepResearcher を上回る。

GAIA

長いツール利用と計画の評価。検証で高い値を出す一方、Level 3 のような長い課題はまだ難しい。

DeepResearcher

web 調査と複数段QA で強い。事例-based 記憶が特に効く領域として読める。

OOD generalization

Musique、Bamboogle、PopQA で事例-based 記憶が 4.7から 9.6 ポイントの絶対改善を足している。

切り分け実験では、online executor だけを足してもノイズが増える場合がある。計画を入れると大きく改善し、さらに事例-based 推論を足すと追加で伸びる。つまり「外部情報がある」だけでは足りず、「計画」と「経験の選択」が必要だ、という結果になっている。

限界・注意点

事例 bank が増え続けると、検索コストや質の劣化が問題になる。論文も swamping problem に触れている。
報酬が正しく付く前提が強い。実運用では「成功したように見えるが危険」な事例をどう扱うかが難しい。
Deep 調査エージェントとしての評価が中心なので、会話記憶や個人アシスタント記憶へそのまま移せるとは限らない。
結果は強いが、GPT-4.1 / o3 / o4-mini と豊富なツール stack を使っているため、記憶だけの効果として読むと過大評価しやすい。

読みどころは、記憶を「取り出す知識」ではなく「次の計画を選ぶための経験」として扱う点。記憶とスキルの劣化の文脈では、事例を増やすだけでなく、どの事例を残すか、どの事例を危険として退けるかまで考えたくなる。

おい丸のようなエージェントにどう使えるか

おい丸のような作業支援エージェントでは、記憶は「たくさん保存すればよい」ものではない。継続学習を外部化する LLM の重みを更新せず、経験を事例 bank に保存して、類似課題の計画に使う。 M-MDP として定式化通常の MDP に記憶 space を加え、状態、行動、報酬を持つ事例を読み書きするエージェントとして表す。

この論文を使うなら、記憶を保存箱ではなく、検索、鮮度、信頼境界、更新、削除まで含む状態管理として設計する。どの記憶をいつ使うか、古い記憶をどう扱うか、検索結果をそのまま文脈に入れてよいかを分けて考える。

注意点もある。つまり、個人向けエージェントに持ち込む時は、記憶の量よりも、使える条件、使ってはいけない条件、検証できる形を一緒に持たせることが重要になる。

Memento | Paper Summary

これは何の論文か

何が問題だったのか

提案手法の中身

1. 過去の経験を事例として保存する

2. planner が事例を読んで計画を作る

3. executorが MCP 経由でツールを使う

4. 成功・失敗を次の記憶更新に使う

どうやって確かめたのか

結果はどうだったのか

GAIA

DeepResearcher

OOD generalization

限界・注意点

おい丸のようなエージェントにどう使えるか

Q&A

Q. Memento は何をファインチューニングしているの？

Q. RAG と何が違う？

Q. 事例-based 推論って何？

Q. M-MDP のポイントは？

Q. parametric 記憶は LLM の重み更新？

Q. どこで一番効いている？

Q. なぜ online executor だけでは不十分？

Q. 失敗事例も保存する意味は？

Q. 記憶とスキルの劣化とどうつながる？

Q. Shepherd と比べると？

Q. 実務に持ち込むなら？

Q. 読後に残る一言は？

関連する記事

Shepherd: エージェント作業を横から見守る監督役

スキルを構造として管理する

Remember the Decision, Not the Description