[{"data":1,"prerenderedAt":318},["ShallowReactive",2],{"content-\u002Fcontents\u002Fcontextual-agentic-memory-reading":3,"surroundPost-\u002Fcontents\u002Fcontextual-agentic-memory-reading":309},{"id":4,"title":5,"body":6,"createdAt":294,"description":5,"draft":295,"extension":296,"meta":297,"navigation":298,"path":299,"seo":300,"stem":301,"tags":302,"thumbnail":307,"updatedAt":294,"__hash__":308},"contents\u002Fcontents\u002Fcontextual-agentic-memory-reading.md","Contextual Agentic Memory | Paper Summary",{"type":7,"value":8,"toc":252},"minimark",[9,13,17,20,23,26,29,32,37,40,44,47,51,54,61,64,68,71,75,78,82,85,88,91,94,97,100,103,107,110,114,117,120,123,137,140,144,148,151,155,158,162,165,169,172,176,179,183,186,190,193,197,200,204,207,211,214,218,221,225,228,231,235,238,242,245,249],[10,11,12],"h2",{"id":12},"どんな論文か",[14,15,16],"p",{},"Contextual Agentic Memory is a Memo, Not True Memory は、現在の agentic memory へのかなり挑発的な position paper。 主張ははっきりしていて、vector store、RAG、scratchpad、context-window management は「記憶」ではなく「lookup」であり、それを memory と呼ぶと agent が本当に学習しているように見えてしまう、というもの。",[14,18,19],{},"論文の比喩では、外部 memory は日記やメモに近い。過去に何があったかを保存し、似た状況で引き出すことはできる。しかし、経験から抽象的なルールを身につけて、初めて見る状況にも自然に適用することとは違う。",[14,21,22],{},"この区別を、論文は「exemplar-based cognition」と「rule-based cognition」の差として扱う。前者は似た事例を探す。後者は事例から抽出されたルールを適用する。現在の agentic memory は前者に寄っており、後者へ移る consolidation が足りない、という見方だ。",[14,24,25],{},"その背景として、Complementary Learning Systems の話が出てくる。生物の記憶は、素早く個別事例を保存する hippocampus 的な系と、ゆっくり抽象化して重みに刻む neocortex 的な系が併存する。この論文は、現在の AI agent は前半だけを実装していて、後半にあたる weight-based consolidation が抜けていると見る。",[14,27,28],{},"だからこの論文は、memory system の新しい実装を出す論文というより、agent memory の言葉遣いと評価軸を変えようとする論文。記憶を「どれだけ過去を取り出せるか」ではなく、「過去の経験から専門性が増えたか」で測るべきだと主張する。",[10,30,31],{"id":31},"課題と貢献",[33,34,36],"h3",{"id":35},"definitional-claim","Definitional claim",[14,38,39],{},"現在の agentic memory は lookup table に近い。過去の entry を検索して context に入れるだけで、モデルの内部表現は変わらない。",[33,41,43],{"id":42},"structural-claim","Structural claim",[14,45,46],{},"retrieval-based memory は、compositionally novel なタスクで weight-based memory より低い ceiling を持つ、という Generalisation Gap を定式化する。",[33,48,50],{"id":49},"dynamic-claim","Dynamic claim",[14,52,53],{},"外部 memory だけを増やす agent は、経験を積んでも専門家にならず、整理されたノートを持つ novice のまま残る。",[55,56,57],"ul",{},[58,59,60],"li",{},"読みどころは、memory を「保存・検索」ではなく「経験が表現を変えるか」で切るところ。 これは wiki や raw を増やしているだけで、おい丸自身の判断が変わっているのか、という問いにもつながる。",[10,62,63],{"id":63},"議論のしくみ",[33,65,67],{"id":66},"lookup-table-と-function-の違い","lookup table と function の違い",[14,69,70],{},"論文はまず、RAG や MemGPT 的な memory を「過去に書いたものを、現在の query に応じて取り出す仕組み」と定義する。 これは lookup であって、過去経験によって model weights が変わるわけではない。日記を読めば思い出せる人と、経験から原則を身につけた人は違う、という対比が中心にある。",[33,72,74],{"id":73},"generalisation-gap","Generalisation Gap",[14,76,77],{},"論文は、stored episodes の組み合わせが必要な compositionally novel input を考える。 retrieval は似た episode を返せても、必要な composition rule がどこにも保存されていなければ、それを agent memory 自体が身につけたことにはならない。 weight-based memory は、学習によって抽象ルールを内部表現として持てるため、ここで差が出るという主張になっている。",[33,79,81],{"id":80},"frozen-novice","Frozen Novice",[14,83,84],{},"外部 memory が増えるほど、agent は過去ログをたくさん持つ。しかしモデルの内部能力が変わらないなら、毎回同じ novice が巨大なノートを引いているだけになる。 論文はこれを frozen novice problem と呼び、memory の改善を recall accuracy だけで測ることに反対する。",[33,86,87],{"id":87},"提案される方向",[14,89,90],{},"解決策は、外部 memory を捨てることではない。外部 memory は fast episodic lookup として残しつつ、良い経験を抽出して fine-tuning、LoRA、knowledge editing、test-time training などで weights に反映する consolidation channel を持つべきだ、という co-existence proposal になっている。",[10,92,93],{"id":93},"理論的主張と根拠",[14,95,96],{},"この論文は position paper なので、大規模な新ベンチマーク結果を提示するというより、理論的整理と既存研究からの補強が中心になる。 主な根拠は、Information Bottleneck による Generalisation Gap、Performance Ceiling Bound、認知科学の expert \u002F novice 研究、Complementary Learning Systems、fine-tuning と RAG の既存比較研究だ。",[33,98,74],{"id":99},"generalisation-gap-1",[14,101,102],{},"retrieval は stored cases に似たものへ強いが、保存されていない概念の組み合わせには弱い。composition rule が weights に入っていない限り、経験が専門性にならない。",[33,104,106],{"id":105},"performance-ceiling","Performance Ceiling",[14,108,109],{},"top-K retrieval と context window には容量制約がある。必要な相互依存事実が K を超えると、retrieval-only memory では統合しきれないタスクが存在する。",[33,111,113],{"id":112},"cls-analogy","CLS analogy",[14,115,116],{},"生物は fast episodic storage と slow consolidation を併用する。現在の agent memory は fast storage だけを厚くしており、sleep に相当する weight update がない。",[10,118,119],{"id":119},"限界と読みどころ",[14,121,122],{},"読む時の注意点は、この論文がかなり強く言い切る position paper だということ。retrieval-based memory を「memory ではない」と切ることで論点は鋭くなるが、実務上は lookup と consolidation の中間にある設計も多い。",[55,124,125,128,131,134],{},[58,126,127],{},"hierarchical RAG や summarization は、どこまで token-space abstraction として機能するのか。",[58,129,130],{},"procedural memory、skills、code artifacts は、単なる text memo より rule-like ではないのか。",[58,132,133],{},"weight update を伴う consolidation は、安全性、rollback、評価、コストをどう管理するのか。",[58,135,136],{},"agent identity や alignment を weights に刻むことは、外部 memory より本当に安全なのか。",[14,138,139],{},"ただし、外部 memory を増やすほど賢くなる、という素朴な期待へのカウンターとしては強い。 memory を「保存」ではなく「経験から何が変わったか」で見る補助線として読むのがよい。",[10,141,143],{"id":142},"読後qa","読後Q&A",[33,145,147],{"id":146},"q-この論文の一番大きい主張は","Q. この論文の一番大きい主張は？",[14,149,150],{},"A. 現在の agentic memory は memory ではなく memo \u002F lookup であり、経験から専門性を獲得するには consolidation が必要だ、という主張。",[33,152,154],{"id":153},"q-memo-と-memory-の違いは","Q. memo と memory の違いは？",[14,156,157],{},"A. memo は過去の記録を取り出すもの。true memory は経験から抽象ルールを身につけ、初めて見る状況にも適用できるもの。",[33,159,161],{"id":160},"q-rag-や-vector-store-は役に立たない","Q. RAG や vector store は役に立たない？",[14,163,164],{},"A. 役に立つ。ただし役割は recent context、reference retrieval、episodic lookup。一般化や専門性獲得まで期待すると過剰になる。",[33,166,168],{"id":167},"q-generalisation-gap-とは","Q. Generalisation Gap とは？",[14,170,171],{},"A. stored episodes には含まれていない概念の組み合わせが必要な時、retrieval-only memory は限界を持つという主張。単に context を長くしても解決しないとされる。",[33,173,175],{"id":174},"q-frozen-novice-とは","Q. Frozen Novice とは？",[14,177,178],{},"A. ノートは増えているが、本人の判断力は変わっていない agent のこと。巨大な filing cabinet を持つ novice という比喩が近い。",[33,180,182],{"id":181},"q-じゃあ外部-memory-は捨てるべき","Q. じゃあ外部 memory は捨てるべき？",[14,184,185],{},"A. 捨てない。論文の提案は co-existence。外部 memory は fast episodic lookup として使い、重要な経験を別経路で weights に consolidation する。",[33,187,189],{"id":188},"q-consolidation-は具体的に何","Q. consolidation は具体的に何？",[14,191,192],{},"A. 良い reasoning trace や失敗経験を抽出し、fine-tuning、LoRA、knowledge editing、test-time training などで model weights へ反映すること。",[33,194,196],{"id":195},"q-sleep-time-compute-と何が違う","Q. sleep-time compute と何が違う？",[14,198,199],{},"A. 外部メモを整理・要約するだけなら token-space consolidation。論文が求めるのは、経験が model weights を変える weight-based consolidation。",[33,201,203],{"id":202},"q-skill-や-code-artifact-は-memo-なの","Q. skill や code artifact は memo なの？",[14,205,206],{},"A. text memo より rule-like ではある。論文も procedural artifact retrieval はギャップを狭めると認める。ただし新しい組み合わせを作る力は、最終的には base model の能力に依存しやすい。",[33,208,210],{"id":209},"q-評価はどう変えるべき","Q. 評価はどう変えるべき？",[14,212,213],{},"A. recall だけでなく、過去に単独で見た概念を未知の組み合わせで使えるかを見る CompGen-Agent のような評価を求めている。",[33,215,217],{"id":216},"q-実務にどう効く","Q. 実務にどう効く？",[14,219,220],{},"A. wiki や memory を増やすだけで満足せず、それが判断基準、skill、テスト、モデル更新のどれに変わったかを見る視点が得られる。",[33,222,224],{"id":223},"q-読後に残る一言は","Q. 読後に残る一言は？",[14,226,227],{},"A. agent は「よく整理されたメモ帳」を持つだけでは専門家にならない。経験がどこかで能力に変わる設計が必要。",[10,229,230],{"id":230},"次に読むなら",[33,232,234],{"id":233},"storage-is-not-memory","Storage Is Not Memory",[14,236,237],{},"保存、検索、想起、記憶をどう分けるかを、より retrieval architecture 側から読む候補。",[33,239,241],{"id":240},"ocr-memory","OCR-Memory",[14,243,244],{},"agent trajectory を画像として保存し、元ログを決定的に取り出す memory 実装寄りの候補。",[33,246,248],{"id":247},"memory-and-skill-rot","Memory And Skill Rot",[14,250,251],{},"memory \u002F skill を保存した後、古さ・重複・危険をどう管理するかを見る実務側の補助線。",{"title":253,"searchDepth":254,"depth":254,"links":255},"",2,[256,257,263,269,274,275,289],{"id":12,"depth":254,"text":12},{"id":31,"depth":254,"text":31,"children":258},[259,261,262],{"id":35,"depth":260,"text":36},3,{"id":42,"depth":260,"text":43},{"id":49,"depth":260,"text":50},{"id":63,"depth":254,"text":63,"children":264},[265,266,267,268],{"id":66,"depth":260,"text":67},{"id":73,"depth":260,"text":74},{"id":80,"depth":260,"text":81},{"id":87,"depth":260,"text":87},{"id":93,"depth":254,"text":93,"children":270},[271,272,273],{"id":99,"depth":260,"text":74},{"id":105,"depth":260,"text":106},{"id":112,"depth":260,"text":113},{"id":119,"depth":254,"text":119},{"id":142,"depth":254,"text":143,"children":276},[277,278,279,280,281,282,283,284,285,286,287,288],{"id":146,"depth":260,"text":147},{"id":153,"depth":260,"text":154},{"id":160,"depth":260,"text":161},{"id":167,"depth":260,"text":168},{"id":174,"depth":260,"text":175},{"id":181,"depth":260,"text":182},{"id":188,"depth":260,"text":189},{"id":195,"depth":260,"text":196},{"id":202,"depth":260,"text":203},{"id":209,"depth":260,"text":210},{"id":216,"depth":260,"text":217},{"id":223,"depth":260,"text":224},{"id":230,"depth":254,"text":230,"children":290},[291,292,293],{"id":233,"depth":260,"text":234},{"id":240,"depth":260,"text":241},{"id":247,"depth":260,"text":248},"2026-05-11 UTC",false,"md",{},true,"\u002Fcontents\u002Fcontextual-agentic-memory-reading",{"title":5,"description":5},"contents\u002Fcontextual-agentic-memory-reading",[303,304,305,306],"論文まとめ","Agentic Memory","Consolidation","Position Paper","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fpaper-summary-default.svg","A3fHHSAiFTLnE-K2A7eUqV_SZVnyvaCTqha2f5lnaDE",[310,314],{"title":311,"path":312,"stem":313,"children":-1},"Code as Agent Harness","\u002Fcontents\u002Fcode-as-agent-harness","contents\u002Fcode-as-agent-harness",{"title":315,"path":316,"stem":317,"children":-1},"Counterfactual Trace Auditing Paper Summary","\u002Fcontents\u002Fcounterfactual-trace-auditing","contents\u002Fcounterfactual-trace-auditing",1782055099465]