[{"data":1,"prerenderedAt":372},["ShallowReactive",2],{"content-\u002Fcontents\u002Fsignals-structure-memory-language-emergence":3,"surroundPost-\u002Fcontents\u002Fsignals-structure-memory-language-emergence":363},{"id":4,"title":5,"body":6,"createdAt":349,"description":350,"draft":351,"extension":352,"meta":353,"navigation":354,"path":355,"seo":356,"stem":357,"tags":358,"thumbnail":32,"updatedAt":349,"__hash__":362},"contents\u002Fcontents\u002Fsignals-structure-memory-language-emergence.md","From Signals to Structure: How Memory Architecture Drives Language Emergence in LLM Agents",{"type":7,"value":8,"toc":329},"minimark",[9,19,22,26,33,36,39,47,50,53,56,59,62,65,68,71,74,77,84,87,121,128,131,134,137,146,149,152,155,158,164,172,180,183,188,194,203,206,209,212,216,219,226,229,232,235,238,241,244,247,250,253,256,260,265,268,272,275,279,282,286,289,293,296,299],[10,11,12,13],"p",{},"元論文: ",[14,15,5],"a",{"href":16,"rel":17},"https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.00233",[18],"nofollow",[10,20,21],{},"このページは、おい丸(AI)による要約・構成案をもとに、人間が確認・加筆する前提の公開メモです。内容を正確に確認したい場合は、元論文もあわせて参照してください。",[23,24,25],"h2",{"id":25},"これは何の論文か",[10,27,28],{},[29,30],"img",{"alt":31,"src":32},"From Signals to Structure のグラレコ","\u002Fimg\u002Fsignals-structure-memory-language-emergence\u002Fgraphic-recording.png",[10,34,35],{},"AIエージェント同士が、事前に意味を決めずに記号だけでやり取りしたら、共有言語は生まれるのか。",[10,37,38],{},"この論文は、その問いを Lewis signaling game で調べます。sender は対象物を見て記号列を送り、receiver は同じ候補の中から対象を当てる。正解・不正解と真の対象だけが毎回フィードバックされます。",[10,40,41,42,46],{},"ここで重要なのは、記号の意味は最初から決まっていないことです。たとえば ",[43,44,45],"code",{},"A B"," が赤い丸を意味するのか、青い四角を意味するのかは、繰り返しの成功と失敗を通じて二体のエージェントが作っていく。",[10,48,49],{},"著者らの主張はかなり明快です。共有言語の安定性は、単に信号の容量で決まるのではない。相互作用の履歴をどう記憶するか、つまり memory architecture が大きく効く。",[23,51,52],{"id":52},"何が問題だったのか",[10,54,55],{},"創発的コミュニケーションの研究では、channel capacity がよく見られます。記号の種類や長さがどれくらいあるか、という話です。",[10,57,58],{},"直感的には、容量が小さすぎると区別できない。容量が大きすぎると、規則を共有しにくい。ちょうどよい bottleneck があるのでは、と思いたくなります。",[10,60,61],{},"この論文は、その見方に memory architecture を足します。",[10,63,64],{},"LLM エージェントは、過去のやり取りを文脈として読めます。でも、rolling window だけだと、古い慣習は窓の外へ落ちます。逆に、private notebook のような持続的なメモがあれば、学んだ対応関係を外に残せます。",[10,66,67],{},"同じ信号容量でも、履歴をどう残すかで、エージェントの振る舞いは変わる。そこを実験で切り分けたのがこの論文です。",[23,69,70],{"id":70},"提案手法の中身",[10,72,73],{},"実験では、二体の LLM エージェントが 200 rounds の signaling game を行います。",[10,75,76],{},"対象物は 8 種類です。色は赤\u002F青、形は丸\u002F四角、サイズは小\u002F大。毎 round、sender は 4 つの候補と正解対象を見て、固定長の記号列を送ります。receiver は同じ 4 候補と記号列を見て、正解対象を選びます。chance accuracy は 0.25 です。",[10,78,79,80,83],{},"全条件で、エージェントには直近 20 回の ",[43,81,82],{},"(message, target, success)"," が rolling window として渡されます。その上で、追加の記憶構造を変えます。",[10,85,86],{},"比較した memory architecture は 5 種類です。",[88,89,90,97,103,109,115],"ul",{},[91,92,93,96],"li",{},[43,94,95],{},"memory only",": 直近 20 回の rolling window だけ。",[91,98,99,102],{},[43,100,101],{},"env board",": 環境が成功例から共有の convention table を作り、両 agent が読む。",[91,104,105,108],{},[43,106,107],{},"scratchpad",": 各 agent が 150 語以内の private notebook を持ち、毎 round 全体を書き直す。",[91,110,111,114],{},[43,112,113],{},"codebook",": 10 slot の固定リストを、append \u002F edit \u002F none で更新する。",[91,116,117,120],{},[43,118,119],{},"codebook meta",": codebook に加えて、抽象的な meta-note を持つ。",[10,122,123,124,127],{},"信号容量は ",[43,125,126],{},"|V|^L"," で扱われ、容量 4、8、9、16、25、27、64、125 が試されます。",[23,129,130],{"id":130},"どうやって確かめたのか",[10,132,133],{},"実験は 3 つあります。",[10,135,136],{},"Study 1 では、capacity 27 に固定して 5 つの memory architecture を比較します。",[10,138,139,140,142,143,145],{},"Study 2 では、",[43,141,107],{}," と ",[43,144,95],{}," に絞り、capacity 4 から 125 まで sweep します。共有ボードは精度が高くても、環境が作った表を読むだけなので、private convention formation の分析対象からは外されます。",[10,147,148],{},"Study 3 では、rolling window の長さを 5、10、20、40 に変えます。高容量で memory only が崩れるのは「履歴が短すぎるから」なのか、それとも「持続的に統合できないから」なのかを切り分けるためです。",[10,150,151],{},"評価指標は、late-game window、つまり rounds 151-200 を中心に見ます。",[10,153,154],{},"主な指標は accuracy です。加えて、意味空間と信号空間の対応を見る TopSim、token position と特徴の相互情報量を見る Best MI、複数対象が同じ message に潰れる collision rate も使われています。",[23,156,157],{"id":157},"結果はどうだったのか",[10,159,160,161,163],{},"まず、Study 1 では ",[43,162,101],{}," が late-game accuracy 0.827±0.09 と最も高くなります。ただしこれは、共有の public table を読む条件です。TopSim はほぼゼロで、共有言語を内側に作ったというより、外部表を参照して当てている状態です。",[10,165,166,167,142,169,171],{},"private memory の中では、",[43,168,107],{},[43,170,95],{}," が違う形で強みを見せます。",[10,173,174,176,177,179],{},[43,175,107],{}," は mid-game でよく伸びますが、capacity 27 の late-game では 0.653±0.095。",[43,178,95],{}," は 0.660±0.020 と安定しています。ただし collision rate は 0.750 と高く、きれいな global convention というより、4 候補の局所文脈で曖昧さを解いている面があります。",[10,181,182],{},"Study 2 が一番おもしろいところです。",[10,184,185,187],{},[43,186,107],{}," は capacity が増えるほど、おおむね強くなります。single seed の sweep では、2-token 系で 0.54→0.88、3-token 系で 0.40→0.90 へ上がります。",[10,189,190,191,193],{},"一方、",[43,192,95],{}," は capacity 25 で 0.80 まで上がったあと、capacity 64 で 0.52 へ落ちます。collision rate は 1.0、つまり各 object の代表 message が他 object と衝突している状態になります。",[10,195,196,197,199,200,202],{},"複数 seed での replication では、",[43,198,107],{}," は capacity 25 で 0.867±0.023 と最も安定します。",[43,201,95],{}," も capacity 25 では 0.747±0.076 と悪くありませんが、capacity 64 では 0.580±0.140 まで落ちます。",[10,204,205],{},"そして cap=8 は、予想される「ちょうどよい bottleneck」ではありませんでした。8 objects に対して 8 signals なので、理論上はぴったり区別できそうです。でも実際には、early collision を修復する余裕がなく、結果が二峰性になります。うまくいく run と低く止まる run に割れる。論文では cap=8 を optimum ではなく fragility point と呼んでいます。",[10,207,208],{},"Study 3 では、rolling window を伸ばせば memory only の崩壊が直るのかを見ています。capacity 64 では、memory only は window size を 5、10、20、40 に変えても 0.50、0.34、0.52、0.52 と低いままです。20 から 40 に伸ばしても改善しません。",[10,210,211],{},"一方、scratchpad は capacity 64 で window size 10 でも 0.94 に達します。つまり、高容量で必要なのは raw history を長く見ることではなく、学んだ convention を持続的に統合することだと読めます。",[23,213,215],{"id":214},"限界注意点","限界・注意点",[10,217,218],{},"この論文は、かなり絞った実験です。",[10,220,221,222,225],{},"使っている model は ",[43,223,224],{},"gpt-5.4-mini"," の単一モデル。対象物は 8 種類。sender \u002F receiver の役割は固定。毎 round の選択も 4 候補からです。",[10,227,228],{},"また、多くの capacity 条件は single seed です。重要条件の一部は replicated されていますが、著者ら自身も、結果は統計的に確定した結論というより、傾向として読むべきだと述べています。",[10,230,231],{},"もう一つ大事なのは、notebook にも失敗モードがあることです。scratchpad は高容量で強い一方、同じ token sequence を途中で別 object に再割り当てしてしまう convention drift が起きることがあります。記憶があるから常に安定する、ではありません。",[23,233,234],{"id":234},"おい丸のようなエージェントにどう使えるか",[10,236,237],{},"この論文は、作業支援エージェントの記憶を考える時にかなり示唆的です。",[10,239,240],{},"記憶は、ただ履歴を長く渡すことではありません。",[10,242,243],{},"重要なのは、過去のやり取りから生まれた convention を、次のやり取りでも使える形に安定化することです。",[10,245,246],{},"これは人間との共同作業でも同じです。たとえば、ユーザーが「これはこう呼ぶ」「この作業ではこの粒度でまとめる」「このファイルは source of truth」と何度か言った時、それを rolling context の中で毎回読み直すだけでは弱い。どこかに安定した notebook、rule、wiki、schema として置かなければ、同じ合意を何度も再発明することになります。",[10,248,249],{},"一方で、固定の codebook だけでも危ない。古い mapping や矛盾した slot が残ると、むしろ混乱します。必要なのは、ただ記憶を増やすことではなく、慣習を安定化しつつ、古い対応関係をどう更新するかです。",[10,251,252],{},"AutoMem が「記憶操作は学習できるスキル」と言っていたのに対して、この論文は「記憶構造はエージェント間の慣習を支える」と言っているように見えます。",[10,254,255],{},"個人AIアシスタントに引くなら、memory architecture は、単なる保存先ではなく、共同作業の言語を保つ装置です。",[23,257,259],{"id":258},"qa","Q&A",[261,262,264],"h3",{"id":263},"q-この論文の中心結論は","Q. この論文の中心結論は？",[10,266,267],{},"LLM エージェント同士が共有言語を作る時、信号の容量だけでは説明できず、履歴をどう記憶するかが大きく効く、という結論です。",[261,269,271],{"id":270},"q-cap8-はなぜ最適ではなかった","Q. cap=8 はなぜ最適ではなかった？",[10,273,274],{},"8 objects に 8 signals なので理論上はぴったりですが、余裕がありません。初期に衝突が起きると、別の未使用 signal へ修復する余地が少なく、run ごとに結果が割れます。",[261,276,278],{"id":277},"q-scratchpad-が効いた理由は","Q. scratchpad が効いた理由は？",[10,280,281],{},"学んだ convention を private notebook として持ち越せるからです。rolling window だけだと古い対応関係が窓の外へ落ちますが、notebook は要約された規則を次 round へ残せます。",[261,283,285],{"id":284},"q-env-board-が一番強いならそれでよいのでは","Q. env board が一番強いなら、それでよいのでは？",[10,287,288],{},"env board は環境が成功例から共有表を作る条件です。精度は高いですが、agent の内側で共有言語が形成されたというより、外部の public table を読む設定に近い。論文では compositionality 分析から外しています。",[261,290,292],{"id":291},"q-実務に一言で活かすなら","Q. 実務に一言で活かすなら？",[10,294,295],{},"履歴を長く持つだけではなく、共同作業で生まれた呼び名、判断基準、ファイルの役割を安定した notebook や wiki に落とすこと。記憶は保存ではなく、慣習を保つ構造です。",[23,297,298],{"id":298},"関連する記事",[88,300,301,308,315,322],{},[91,302,303,307],{},[14,304,306],{"href":305},"\u002Fcontents\u002Fautomem-memory-cognitive-skill","AutoMem: Automated Learning of Memory as a Cognitive Skill"," は、記憶管理そのものを学習できるスキルとして扱う論文です。",[91,309,310,314],{},[14,311,313],{"href":312},"\u002Fcontents\u002Fagent-native-memory-system","Are We Ready For An Agent-Native Memory System?"," は、エージェント記憶を保存・抽出・検索・保守のデータ管理システムとして評価します。",[91,316,317,321],{},[14,318,320],{"href":319},"\u002Fcontents\u002Fcontextual-agentic-memory-reading","Contextual Agentic Memory | Paper Summary"," は、外部記憶と本当の学習の違いを考えるための補助線になります。",[91,323,324,325],{},"arXiv: ",[14,326,328],{"href":16,"rel":327},[18],"From Signals to Structure",{"title":330,"searchDepth":331,"depth":331,"links":332},"",2,[333,334,335,336,337,338,339,340,348],{"id":25,"depth":331,"text":25},{"id":52,"depth":331,"text":52},{"id":70,"depth":331,"text":70},{"id":130,"depth":331,"text":130},{"id":157,"depth":331,"text":157},{"id":214,"depth":331,"text":215},{"id":234,"depth":331,"text":234},{"id":258,"depth":331,"text":259,"children":341},[342,344,345,346,347],{"id":263,"depth":343,"text":264},3,{"id":270,"depth":343,"text":271},{"id":277,"depth":343,"text":278},{"id":284,"depth":343,"text":285},{"id":291,"depth":343,"text":292},{"id":298,"depth":331,"text":298},"2026-07-03","LLMエージェント同士が共有言語を作る時、信号の容量よりも履歴をどう記憶するかが効くという論文。",false,"md",{},true,"\u002Fcontents\u002Fsignals-structure-memory-language-emergence",{"title":5,"description":350},"contents\u002Fsignals-structure-memory-language-emergence",[359,360,361],"論文まとめ","エージェント記憶","AIエージェント","fPOV6LbpOUjs6ebxwzbFHPMs_fFeBhPHhsPYoOg3r0w",[364,368],{"title":365,"path":366,"stem":367,"children":-1},"【学び】「思考の整理学」を読んだ感想","\u002Fcontents\u002Fshikou-no-seirigaku","contents\u002Fshikou-no-seirigaku",{"title":369,"path":370,"stem":371,"children":-1},"Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval","\u002Fcontents\u002Fsira-retrieval-agent","contents\u002Fsira-retrieval-agent",1783218568701]