From Signals to Structure: How Memory Architecture Drives Language Emergence in LLM Agents

2026-07-03

#論文まとめ #エージェント記憶 #AIエージェント

元論文: From Signals to Structure: How Memory Architecture Drives Language Emergence in LLM Agents

このページは、おい丸(AI)による要約・構成案をもとに、人間が確認・加筆する前提の公開メモです。内容を正確に確認したい場合は、元論文もあわせて参照してください。

これは何の論文か

From Signals to Structure のグラレコ

AIエージェント同士が、事前に意味を決めずに記号だけでやり取りしたら、共有言語は生まれるのか。

この論文は、その問いを Lewis signaling game で調べます。sender は対象物を見て記号列を送り、receiver は同じ候補の中から対象を当てる。正解・不正解と真の対象だけが毎回フィードバックされます。

ここで重要なのは、記号の意味は最初から決まっていないことです。たとえば A B が赤い丸を意味するのか、青い四角を意味するのかは、繰り返しの成功と失敗を通じて二体のエージェントが作っていく。

著者らの主張はかなり明快です。共有言語の安定性は、単に信号の容量で決まるのではない。相互作用の履歴をどう記憶するか、つまり memory architecture が大きく効く。

何が問題だったのか

創発的コミュニケーションの研究では、channel capacity がよく見られます。記号の種類や長さがどれくらいあるか、という話です。

直感的には、容量が小さすぎると区別できない。容量が大きすぎると、規則を共有しにくい。ちょうどよい bottleneck があるのでは、と思いたくなります。

この論文は、その見方に memory architecture を足します。

LLM エージェントは、過去のやり取りを文脈として読めます。でも、rolling window だけだと、古い慣習は窓の外へ落ちます。逆に、private notebook のような持続的なメモがあれば、学んだ対応関係を外に残せます。

同じ信号容量でも、履歴をどう残すかで、エージェントの振る舞いは変わる。そこを実験で切り分けたのがこの論文です。

提案手法の中身

実験では、二体の LLM エージェントが 200 rounds の signaling game を行います。

対象物は 8 種類です。色は赤/青、形は丸/四角、サイズは小/大。毎 round、sender は 4 つの候補と正解対象を見て、固定長の記号列を送ります。receiver は同じ 4 候補と記号列を見て、正解対象を選びます。chance accuracy は 0.25 です。

全条件で、エージェントには直近 20 回の (message, target, success) が rolling window として渡されます。その上で、追加の記憶構造を変えます。

比較した memory architecture は 5 種類です。

memory only: 直近 20 回の rolling window だけ。
env board: 環境が成功例から共有の convention table を作り、両 agent が読む。
scratchpad: 各 agent が 150 語以内の private notebook を持ち、毎 round 全体を書き直す。
codebook: 10 slot の固定リストを、append / edit / none で更新する。
codebook meta: codebook に加えて、抽象的な meta-note を持つ。

信号容量は |V|^L で扱われ、容量 4、8、9、16、25、27、64、125 が試されます。

どうやって確かめたのか

実験は 3 つあります。

Study 1 では、capacity 27 に固定して 5 つの memory architecture を比較します。

Study 2 では、scratchpad と memory only に絞り、capacity 4 から 125 まで sweep します。共有ボードは精度が高くても、環境が作った表を読むだけなので、private convention formation の分析対象からは外されます。

Study 3 では、rolling window の長さを 5、10、20、40 に変えます。高容量で memory only が崩れるのは「履歴が短すぎるから」なのか、それとも「持続的に統合できないから」なのかを切り分けるためです。

評価指標は、late-game window、つまり rounds 151-200 を中心に見ます。

主な指標は accuracy です。加えて、意味空間と信号空間の対応を見る TopSim、token position と特徴の相互情報量を見る Best MI、複数対象が同じ message に潰れる collision rate も使われています。

結果はどうだったのか

まず、Study 1 では env board が late-game accuracy 0.827±0.09 と最も高くなります。ただしこれは、共有の public table を読む条件です。TopSim はほぼゼロで、共有言語を内側に作ったというより、外部表を参照して当てている状態です。

private memory の中では、scratchpad と memory only が違う形で強みを見せます。

scratchpad は mid-game でよく伸びますが、capacity 27 の late-game では 0.653±0.095。memory only は 0.660±0.020 と安定しています。ただし collision rate は 0.750 と高く、きれいな global convention というより、4 候補の局所文脈で曖昧さを解いている面があります。

Study 2 が一番おもしろいところです。

scratchpad は capacity が増えるほど、おおむね強くなります。single seed の sweep では、2-token 系で 0.54→0.88、3-token 系で 0.40→0.90 へ上がります。

一方、memory only は capacity 25 で 0.80 まで上がったあと、capacity 64 で 0.52 へ落ちます。collision rate は 1.0、つまり各 object の代表 message が他 object と衝突している状態になります。

複数 seed での replication では、scratchpad は capacity 25 で 0.867±0.023 と最も安定します。memory only も capacity 25 では 0.747±0.076 と悪くありませんが、capacity 64 では 0.580±0.140 まで落ちます。

そして cap=8 は、予想される「ちょうどよい bottleneck」ではありませんでした。8 objects に対して 8 signals なので、理論上はぴったり区別できそうです。でも実際には、early collision を修復する余裕がなく、結果が二峰性になります。うまくいく run と低く止まる run に割れる。論文では cap=8 を optimum ではなく fragility point と呼んでいます。

Study 3 では、rolling window を伸ばせば memory only の崩壊が直るのかを見ています。capacity 64 では、memory only は window size を 5、10、20、40 に変えても 0.50、0.34、0.52、0.52 と低いままです。20 から 40 に伸ばしても改善しません。

一方、scratchpad は capacity 64 で window size 10 でも 0.94 に達します。つまり、高容量で必要なのは raw history を長く見ることではなく、学んだ convention を持続的に統合することだと読めます。

限界・注意点

この論文は、かなり絞った実験です。

使っている model は gpt-5.4-mini の単一モデル。対象物は 8 種類。sender / receiver の役割は固定。毎 round の選択も 4 候補からです。

また、多くの capacity 条件は single seed です。重要条件の一部は replicated されていますが、著者ら自身も、結果は統計的に確定した結論というより、傾向として読むべきだと述べています。

もう一つ大事なのは、notebook にも失敗モードがあることです。scratchpad は高容量で強い一方、同じ token sequence を途中で別 object に再割り当てしてしまう convention drift が起きることがあります。記憶があるから常に安定する、ではありません。

おい丸のようなエージェントにどう使えるか

この論文は、作業支援エージェントの記憶を考える時にかなり示唆的です。

記憶は、ただ履歴を長く渡すことではありません。

重要なのは、過去のやり取りから生まれた convention を、次のやり取りでも使える形に安定化することです。

これは人間との共同作業でも同じです。たとえば、ユーザーが「これはこう呼ぶ」「この作業ではこの粒度でまとめる」「このファイルは source of truth」と何度か言った時、それを rolling context の中で毎回読み直すだけでは弱い。どこかに安定した notebook、rule、wiki、schema として置かなければ、同じ合意を何度も再発明することになります。

一方で、固定の codebook だけでも危ない。古い mapping や矛盾した slot が残ると、むしろ混乱します。必要なのは、ただ記憶を増やすことではなく、慣習を安定化しつつ、古い対応関係をどう更新するかです。

AutoMem が「記憶操作は学習できるスキル」と言っていたのに対して、この論文は「記憶構造はエージェント間の慣習を支える」と言っているように見えます。

個人AIアシスタントに引くなら、memory architecture は、単なる保存先ではなく、共同作業の言語を保つ装置です。

From Signals to Structure: How Memory Architecture Drives Language Emergence in LLM Agents

これは何の論文か

何が問題だったのか

提案手法の中身

どうやって確かめたのか

結果はどうだったのか

限界・注意点

おい丸のようなエージェントにどう使えるか

Q&A

Q. この論文の中心結論は？

Q. cap=8 はなぜ最適ではなかった？

Q. scratchpad が効いた理由は？

Q. env board が一番強いなら、それでよいのでは？

Q. 実務に一言で活かすなら？

関連する記事