[{"data":1,"prerenderedAt":375},["ShallowReactive",2],{"content-\u002Fcontents\u002Fmulti-agent-transactive-memory":3,"surroundPost-\u002Fcontents\u002Fmulti-agent-transactive-memory":366},{"id":4,"title":5,"body":6,"createdAt":349,"description":350,"draft":351,"extension":352,"meta":353,"navigation":354,"path":355,"seo":356,"stem":357,"tags":358,"thumbnail":364,"updatedAt":349,"__hash__":365},"contents\u002Fcontents\u002Fmulti-agent-transactive-memory.md","Multi-Agent Transactive Memory",{"type":7,"value":8,"toc":319},"minimark",[9,14,21,24,28,31,34,37,40,43,46,49,53,56,59,62,65,68,71,100,103,120,123,126,129,132,135,138,141,144,147,150,153,156,159,162,165,168,171,174,177,180,183,186,189,192,195,198,201,204,207,210,213,227,230,244,248,253,256,260,263,267,270,274,277,281,284,288,291,295,298,302,305,309,312,316],[10,11,13],"h2",{"id":12},"_30秒で言うと","30秒で言うと",[15,16,17],"ul",{},[18,19,20],"li",{},"agent が解いた手順を毎回捨てず、共有リポジトリに入れて、別の agent が今の状態に近い軌跡を取り出して再利用する論文。",[10,22,23],{"id":23},"人に説明する順番",[25,26,27],"p",{},"まず、LLM agent は行動・観察・失敗・修正の軌跡を大量に作るが、多くは一回で捨てられると説明する。",[25,29,30],{},"次に、RAG は人間が書いた文書を agent に読ませるが、MATM は agent が作った手続き的 artifact を別の agent に読ませる点が違うと置く。",[25,32,33],{},"その上で、producer agent、共有リポジトリ、consumer agent、状態に応じた検索、reranking の順に仕組みを説明する。",[25,35,36],{},"最後に、ALFWorld と WebArena で成功率とステップ効率が改善し、cross-task retrieval やメモリサイズの効果も見た、と結果をまとめる。",[10,38,39],{"id":39},"主張マップ",[25,41,42],{},"agent-generated trajectories は、後続 agent が使える手続き知識になりうる。。MATM retrieval は ALFWorld と WebArena の両方で no-retrieval より成功率と効率を改善した。 ログを監査用に残すだけでなく、将来の agent 行動を改善する shared memory として扱える。",[25,44,45],{},"単純な類似検索だけでなく、trajectory の下流効用を予測する reranking が効く。。ALFWorld では single-stage retrieval の成功率 55.1% に対し、SVMRank reranking は 64.3% まで上がった。 agent memory 検索では、意味的に近いかだけでなく、その consumer agent に本当に役立つかを見る必要がある。",[25,47,48],{},"共有メモリの価値は、同じ task type や強い producer だけに閉じない。。cross-task retrieval でも no-retrieval baseline を上回り、capability gap だけでは retrieval benefit を説明しきれないと論じている。 異種 agent \u002F 異種 task の経験を共有する設計に意味がある。",[10,50,52],{"id":51},"_3分で紹介するなら","3分で紹介するなら",[25,54,55],{},"この論文は、エージェントの実行ログを『終わったら捨てるもの』ではなく『次のエージェントが使える手続き知識』として見る論文です。",[25,57,58],{},"普通の RAG は、人間が書いた文書を検索して agent に読ませます。MATM は一歩進めて、agent が環境とやり取りして生んだ trajectory、つまり行動と観察の列を共有リポジトリに入れます。",[25,60,61],{},"新しい agent は、自分のタスク説明と直近の状態を検索キーにして、似た状況の軌跡チャンクを取り出します。さらに producer の信頼度、consumer の特性、検索スコア、軌跡長、query と軌跡の類似度などを使って rerank します。",[25,63,64],{},"結果として、ALFWorld では成功率が 47.1% から 55.1%、SVMRank reranking で 64.3% まで上がり、平均ステップも減っています。WebArena でも改善は控えめながら出ています。",[25,66,67],{},"実務的には、agent のログを単なる監査ログで終わらせず、再利用できる trajectory chunk、skill seed、失敗回避例として保存する設計に使えます。",[10,69,70],{"id":70},"誤解しやすい点",[15,72,73,84,92],{},[18,74,75,79,80,83],{},[76,77,78],"strong",{},"誤解:"," これは普通の RAG を agent ログに適用しただけである。\n",[76,81,82],{},"実際:"," 単なる文書検索ではなく、現在状態に条件づけた action-observation trajectory の検索と、下流効用に基づく reranking を扱う。",[18,85,86,88,89,91],{},[76,87,78],{}," 強い agent のログを弱い agent に渡すだけの話である。\n",[76,90,82],{}," 論文は capability gap だけでは効果が説明できず、benefit が population に広く分布すると論じている。",[18,93,94,96,97,99],{},[76,95,78],{}," メモリを大きくすれば常に単調に良くなる。\n",[76,98,82],{}," ALFWorld では単調改善が見えるが、WebArena の成功率は中間サイズで一度落ちる。ノイズ候補や環境差への注意が必要。",[10,101,102],{"id":102},"理解チェック",[15,104,105,108,111,114,117],{},[18,106,107],{},"MATM は RAG と何が違うか説明できるか。",[18,109,110],{},"producer agent と consumer agent の役割を説明できるか。",[18,112,113],{},"state-conditioned key-value indexing が何を key \u002F value にするか説明できるか。",[18,115,116],{},"LTR reranking がなぜ必要か説明できるか。",[18,118,119],{},"ALFWorld と WebArena で結果の強さが違う理由を説明できるか。",[10,121,122],{"id":122},"この論文の何がいいか",[25,124,125],{},"この論文の良さは、agent の実行軌跡をログ保管や反省材料に閉じず、他の agent が直接使える手続き知識として扱う点にある。長時間タスクを何度も走らせる運用では、同じ探索や同じ失敗を何度も繰り返すことがコストになる。",[25,127,128],{},"ゆうきの文脈では、paper-watch、article-page-publisher、GitHub 作業、wiki query、scheduled-ops の実行ログがすでに大量の trajectory を生んでいる。MATM は、それらを『あとで読むログ』ではなく、『別の実行が途中で検索して使う経験チャンク』として見るための地図になる。",[25,130,131],{},"特に刺さるのは、producer trust modeling と consumer personalization である。同じ trajectory でも、どの agent が作ったか、どの consumer agent が使うか、どのタスク状態で取り出すかによって価値は変わる。これは skill や wiki メモの検索にもそのまま戻せる。",[10,133,134],{"id":134},"どんな論文か",[25,136,137],{},"Multi-Agent Transactive Memory は、LLM エージェントの経験を個別 agent 内の記憶ではなく、集団で共有される手続き知識として扱う論文である。agent はタスクを解く過程で、行動、観察、失敗、修正、次の一手のような rich な軌跡を生む。しかし多くのシステムでは、その軌跡は一回の実行で捨てられるか、作った agent だけに閉じる。",[25,139,140],{},"著者らは、人間の集団が『誰が何を知っているか』を手がかりに知識を分散利用する transactive memory の発想を、LLM agent population に持ち込む。producer agent は自分が作った trajectory を共有リポジトリへ投稿し、consumer agent は現在のタスクと状態に近い trajectory chunk を取り出して、次の行動を決める。",[25,142,143],{},"ここで重要なのは、検索対象が人間の文書ではなく agent-generated artifacts であることだ。RAG は人間が書いた文章を agent に渡すが、MATM は agent が実際に環境とやり取りした action-observation history を再利用する。これは、説明文ではなく手続き知識を検索する設計に近い。",[25,145,146],{},"論文は、ALFWorld と WebArena という interactive environment で MATM を評価する。単純な single-stage retrieval でも成功率とステップ効率が改善し、さらに learning-to-rank reranking を入れると、特に ALFWorld で効果が大きくなる。",[25,148,149],{},"読む価値は、agent memory を『個体の長期記憶』から『集団の経験リポジトリ』へ広げる点にある。これは、おい丸の scheduled-ops、subagent、paper-watch、wiki、skill 更新ログを、単なる記録ではなく次の agent が使える reusable trajectory として扱う見方につながる。",[25,151,152],{},"この論文は、異種 LLM agent population のための共有メモリ基盤 MATM を提案する。対象は、自然言語のメモだけではなく、環境との interaction trajectory、つまり action-observation の列である。",[25,154,155],{},"従来の memory や thought reuse は、作った agent 自身の再利用に閉じがちだった。MATM は、agent が自由に参加する open ecosystem を想定し、producer が作った軌跡を consumer が取り出せる shared repository として設計する。",[25,157,158],{},"論文の主張は、agent-generated artifacts は人間文書とは違う種類の検索対象であり、agent が消費しやすい procedural knowledge を含むという点にある。",[10,160,161],{"id":161},"課題と貢献",[25,163,164],{},"第一の貢献は、agent trajectory を population-level memory として蓄積・検索する MATM の枠組みを定義したこと。",[25,166,167],{},"第二の貢献は、タスク説明と直近の action-observation history を key にし、次の interaction segment を value として保存する state-conditioned key-value indexing を使ったこと。",[25,169,170],{},"第三の貢献は、producer metadata、consumer metadata、検索スコア、query feature、trajectory feature、query-trajectory interaction feature を使う Learning To Rank Trajectories を導入したこと。",[25,172,173],{},"第四の貢献は、ALFWorld と WebArena で、shared trajectory retrieval が成功率と効率を改善し、cross-task retrieval や memory scaling でも有用性を示したこと。",[10,175,176],{"id":176},"手法のしくみ",[25,178,179],{},"まず、各 agent は interactive environment でタスクを解く。その過程で、観察、行動、次の観察という系列が trajectory として記録される。",[25,181,182],{},"次に、その trajectory を共有リポジトリに入れる。producer agent は経験を投稿する側、consumer agent は検索して使う側であり、同じ agent が状況によって両方の役割を持つ。",[25,184,185],{},"検索では、タスク記述と直近の interaction history を query \u002F key として使う。取り出される value は、その状態から先の数ステップの trajectory chunk である。これにより、consumer は単なる似たタスクではなく、現在状態に近い手順を参照できる。",[25,187,188],{},"初段検索は dense retriever などで候補を出す。その後、learning-to-rank reranker が候補を並べ替える。特徴量には、producer agent の能力情報、consumer agent の ID、検索スコア、query 長、trajectory 長、query と trajectory の類似度などが含まれる。",[25,190,191],{},"reranker の教師信号は、意味的に似ているかではなく、その trajectory chunk を注入した時に consumer agent の成果が no-retrieval よりどれだけ良くなるかという marginal utility に基づく。",[10,193,194],{"id":194},"検証結果",[25,196,197],{},"ALFWorld では、no retrieval の success rate 47.1% に対し、single-stage retrieval は 55.1% へ改善した。SVMRank reranking を入れると 64.3% まで上がり、平均ステップも 11.77 から 10.35 へ減少した。",[25,199,200],{},"WebArena では、no retrieval の success rate 18.2% に対し、single-stage retrieval と一部 reranker が 20.5% へ改善した。効果は ALFWorld より控えめで、長い horizon と初期ステップのエラー感度が影響している可能性がある。",[25,202,203],{},"capability gap の分析では、retrieval benefit は単に強い producer から弱い consumer への移転だけでは説明できない。効果は population 全体に広く分布する。",[25,205,206],{},"retrieval scope の実験では、full retrieval が最も強い一方、cross-task retrieval でも no-retrieval を上回る。これは、trajectory がタスク境界を越えて再利用できる手続きパターンを含むことを示す。",[25,208,209],{},"memory size の実験では、ALFWorld はメモリが大きくなるほど単調に改善する。WebArena は中間サイズで一度落ちるが、full scale で回復し、ノイズ候補と coverage のバランスが重要だと分かる。",[10,211,212],{"id":212},"課題と議論",[15,214,215,218,221,224],{},[18,216,217],{},"MATM は、agent memory を個別 agent の私的状態ではなく、shared artifact storage として見る。そのため、検索だけでなく、誰が良い trajectory を投稿するのか、どう信頼するのか、どう報酬づけるのかが課題になる。",[18,219,220],{},"producer metadata が reranking に効くことは、trajectory 選択が producer trust modeling の問題でもあることを示す。ただし、環境ごとに重要特徴量は違い、固定の ranking policy では足りない。",[18,222,223],{},"WebArena のような複雑な環境では、もっともらしいが役に立たない候補が混ざりやすい。shared memory は大きければよいだけではなく、検索・reranking・consumer personalization の設計が必要になる。",[18,225,226],{},"おい丸運用へ引くなら、実行ログを丸ごと積むのではなく、再利用しやすい trajectory chunk、成功条件、失敗条件、producer context、使える場面を一緒に保存する必要がある。",[10,228,229],{"id":229},"次に読むなら",[15,231,232,235,238,241],{},[18,233,234],{},"SkillEvolBench や MUSE-Autoskill と並べると、trajectory から skill へ抽象化する前段の shared memory として MATM を読める。",[18,236,237],{},"Agent Memory: Characterization and System Implications と並べると、個別 agent memory workload と population-level memory infrastructure の違いが見える。",[18,239,240],{},"TokenPilot や PACMS と並べると、長い agent workflow で何を context に残し、何を外部 memory から引くかという設計に接続できる。",[18,242,243],{},"paper-watch の後処理では、良い候補を選んだ理由だけでなく、次の agent が使える trajectory \u002F evidence \u002F retrieval clue として何を残すかを見るとよい。",[10,245,247],{"id":246},"読後qa","読後Q&A",[249,250,252],"h3",{"id":251},"この論文の中心問いは","この論文の中心問いは？",[25,254,255],{},"LLM agent が作った行動軌跡を、個別 agent の一時ログではなく、異種 agent population が共有・検索・再利用できる memory infrastructure にできるか、という問い。",[249,257,259],{"id":258},"matm-は普通の-rag-と何が違う","MATM は普通の RAG と何が違う？",[25,261,262],{},"普通の RAG は主に人間が書いた文書を検索する。MATM は agent が環境とやり取りして作った action-observation trajectory を検索し、次の行動に使う。",[249,264,266],{"id":265},"producer-agent-と-consumer-agent-とは","producer agent と consumer agent とは？",[25,268,269],{},"producer agent は自分の task execution でできた trajectory を共有リポジトリへ投稿する agent。consumer agent は現在のタスクや状態に合う trajectory を検索して使う agent。",[249,271,273],{"id":272},"state-conditioned-retrieval-とは","state-conditioned retrieval とは？",[25,275,276],{},"元のタスク説明だけでなく、直近の行動・観察履歴を検索キーにして、今の状態から参考になる次の trajectory segment を取り出す方法。",[249,278,280],{"id":279},"なぜ-reranking-が必要","なぜ reranking が必要？",[25,282,283],{},"意味的に近い trajectory が必ず役に立つとは限らないため。producer の信頼度、consumer の特性、trajectory の長さ、query との関係などを使い、下流で役に立つ候補を上げる必要がある。",[249,285,287],{"id":286},"実験では何が良くなった","実験では何が良くなった？",[25,289,290],{},"ALFWorld と WebArena で、no-retrieval より success rate と step efficiency が改善した。ALFWorld では SVMRank reranking により成功率が 64.3% まで上がった。",[249,292,294],{"id":293},"cross-task-retrieval-に意味はある","cross-task retrieval に意味はある？",[25,296,297],{},"ある。full retrieval が最も良いが、cross-task retrieval でも no-retrieval baseline を上回り、異なる task type の trajectory にも転用可能な手続きパターンが含まれることを示している。",[249,299,301],{"id":300},"一番の限界は","一番の限界は？",[25,303,304],{},"環境によって効果や最適 reranker が違い、WebArena のような複雑な環境では改善が控えめになる。メモリが増えるとノイズ候補も増えるため、検索と reranking の設計が重要。",[249,306,308],{"id":307},"おい丸運用にはどう効く","おい丸運用にはどう効く？",[25,310,311],{},"scheduled-ops や subagent の実行ログを、単なる記録ではなく、別の作業が検索して再利用できる trajectory chunk や skill seed として保存する発想に使える。",[249,313,315],{"id":314},"この論文を一言でいうと","この論文を一言でいうと？",[25,317,318],{},"agent の経験は捨てるログではなく、集団で検索・再利用できる手続き知識にできる、という論文。",{"title":320,"searchDepth":321,"depth":321,"links":322},"",2,[323,324,325,326,327,328,329,330,331,332,333,334,335,336],{"id":12,"depth":321,"text":13},{"id":23,"depth":321,"text":23},{"id":39,"depth":321,"text":39},{"id":51,"depth":321,"text":52},{"id":70,"depth":321,"text":70},{"id":102,"depth":321,"text":102},{"id":122,"depth":321,"text":122},{"id":134,"depth":321,"text":134},{"id":161,"depth":321,"text":161},{"id":176,"depth":321,"text":176},{"id":194,"depth":321,"text":194},{"id":212,"depth":321,"text":212},{"id":229,"depth":321,"text":229},{"id":246,"depth":321,"text":247,"children":337},[338,340,341,342,343,344,345,346,347,348],{"id":251,"depth":339,"text":252},3,{"id":258,"depth":339,"text":259},{"id":265,"depth":339,"text":266},{"id":272,"depth":339,"text":273},{"id":279,"depth":339,"text":280},{"id":286,"depth":339,"text":287},{"id":293,"depth":339,"text":294},{"id":300,"depth":339,"text":301},{"id":307,"depth":339,"text":308},{"id":314,"depth":339,"text":315},"2026-06-19","この論文は、LLM エージェントが実行中に生んだ行動軌跡を、個別 agent の一時ログではなく、異種 agent population が検索・再利用できる共有メモリとして扱う。",false,"md",{},true,"\u002Fcontents\u002Fmulti-agent-transactive-memory",{"title":5,"description":350},"contents\u002Fmulti-agent-transactive-memory",[359,360,361,362,363],"論文まとめ","Agent Memory","Trajectory Retrieval","Learning to Rank","ALFWorld・WebArena","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fmulti-agent-transactive-memory.png","jLJd3tvMeynqlNpxWzQWU_OtbkO6CI-1-PJYYz9gvJ8",[367,371],{"title":368,"path":369,"stem":370,"children":-1},"【機械学習】初心者がKaggleのtitanicで勉強してみた(モデル評価編)","\u002Fcontents\u002Fml_titanic_part4","contents\u002Fml_titanic_part4",{"title":372,"path":373,"stem":374,"children":-1},"MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation","\u002Fcontents\u002Fmuse-autoskill","contents\u002Fmuse-autoskill",1782055096894]