STALE Paper Summary

2026-05-16

2026-06-23

これは何の論文か

この論文の問題意識はとても実務的である。個人アシスタントは、過去の会話を覚えているだけでは足りない。ユーザーの状態は時間とともに変わるので、古い記憶がいつ使えなくなったかを見抜く必要がある。しかも現実の会話では、『もう違う』と明示されるとは限らない。

著者らは、この失敗モードを Implicit Conflict と呼ぶ。たとえば、以前は自転車通勤していたユーザーが、後日『昨日バスケで脚を骨折した』と言った場合、その発言は自転車通勤を直接否定していない。しかし、今週の通勤計画を聞かれたら、古い自転車通勤の記憶をそのまま使うのは危ない。

STALEは、このような暗黙の記憶更新を測るベンチマークである。400の専門家検証済みシナリオ、1200の評価質問、100超の日常トピック、最大150Kトークンの長い会話履歴を使い、古い記憶を見抜けるか、古い前提を含む質問に乗らないか、明示されなくても新しい状態で行動できるかを分けて測る。

結果はかなり厳しい。最も強い評価対象でも全体55.2%にとどまり、多くのLLMや既存の記憶フレームワークは、更新された証拠を検索できても、それを回答の支配的な根拠にできない。つまり問題は再現率ではなく、現在状態の判定である。

論文は、試作として CUPMem も提示する。CUPMemは、記憶を書き込む時点で古い状態を KEEP / STALE / REPLACE / UNKNOWN のように判定し、読み出し時には承認済みの現在状態だけを回答の根拠にする。これは、記憶を単なる保存箱ではなく、状態更新と退役判断を含むハーネス部品として見るための強い補助線になる。

STALEは、長期記憶を持つAIエージェントが、古くなった記憶をどれだけ扱えるかを測るベンチマーク論文である。正式には State Tracking And Latent Evaluation の略として設計されている。

対象は、ユーザーとアシスタントの長期会話である。ユーザーの住む場所、健康状態、通勤手段、日課、好みのような属性が、複数セッションにまたがって少しずつ変わる。その変化は明示的な訂正ではなく、後の発言から推論しなければならない。

この論文は、記憶を『過去の発言の検索』ではなく、『時間とともに変わる潜在的なユーザー状態の追跡』として定式化する。ここが記憶とスキルの劣化の記憶側とよくつながる。

何が問題だったのか

長期記憶を持つエージェントは、古い情報を検索できるだけでは足りない。過去には正しかった記憶が、後の観察によって暗黙に無効になることがあるからだ。

難しいのは、新しい観察が古い記憶を直接否定してくれるとは限らないことだ。引っ越した、けがをした、仕事が変わった、といった出来事は、住所、通勤手段、予定、好みなど別の記憶にも影響する。だが表面上は「前の記憶はもう違う」と書かれていない。

STALE が扱う問題は、記憶の検索ではなく、記憶の現在有効性を判定することにある。古い前提に気づき、必要なら拒み、現在の状態に合わせて行動を変える能力を測ろうとしている。

既存の長期記憶評価は、過去の情報を正しく検索できるかに寄りやすい。しかし実際には、過去には正しかった記憶が、後の観察によって暗黙に無効になることがある。

STALE は、明示的な訂正がない状況でも古い前提に気づけるかを見る。State Resolution、Premise Resistance、Implicit Policy Adaptation を分けることで、気づくことと行動へ反映することを別能力として扱う。

提案手法の中身

ベンチマークの各インスタンスは、古い観察 m_o と新しい観察 m_n を中心に作られる。m_o は古い属性値を支持し、m_n はそれを暗黙に無効化する。ただし m_nは、古い値を直接否定したり、『もう違う』と明示したりしない。

Type I では、同じ属性に対して互換しない値が生じる。以前はシアトルに住んでいると分かる発言があり、後にポートランドの新居で公共料金を設定している発言が出る、というようなケースである。

Type II では、新しい観察が別の属性を更新し、その変化が古い記憶に伝播する。ケガが身体状態を更新し、それによって自転車通勤や運動予定の古い記憶が使えなくなる、というようなケースである。

評価は3次元で行う。State Re解答は、古い信念がまだ有効かを直接聞く。Premise Resistanceは、古い前提を含む誘導的な質問に対して、その前提を拒めるかを見る。Implicit Policy Adaptationは、古い記憶も新しい観察も明示されない自然な依頼で、更新後の状態を反映できるかを見る。

CUPMemは、記憶を書き込む時に状態更新候補を抽出し、古い記憶を KEEP、STALE、REPLACE、UNKNOWN のように判定する。さらに、直接触れた属性だけでなく、影響を受けそうな周辺状態にも探索を広げる。読み出し時には、未判定の古い記憶をそのまま根拠にしない。

どうやって確かめたのか

評価では、モデルや記憶フレームワークが、新しい証拠を検索できるだけでなく、古い前提を退けて回答できるかを見る。対象には、閉じたモデル、オープンモデル、既存の記憶フレームワーク、CUPMem が含まれる。

比較対象は、通常の記憶検索、古い記憶を含む質問への回答、書き込み時に状態を判定する CUPMem である。質問は、古い記憶が無効だと直接問うものと、古い前提が質問文に埋め込まれているものに分かれる。

測る指標は、全体精度、State Resolution、Premise Resistance、Implicit Policy Adaptation である。特に、検索できることと古い前提を拒めることを分けて見る。

結果はどうだったのか

もっとも強いモデルでも全体精度は高くない

Gemini-3.1-pro が最も強いが、全体精度は 55.2% にとどまる。多くのシステムはこれを大きく下回る。古い記憶を無効化する問題は、単に強いモデルや既存の記憶フレームワークを使えば解けるわけではない。

重要なのは、古い記憶が無効だと直接問われた時に気づけても、古い前提を含む質問に乗ってしまうことが多い点である。Premise Resistance は特に弱く、モデルは質問文に埋め込まれた古い前提を検証せず受け入れやすい。

Type II、つまり伝播する無効化は Type I よりかなり難しい

現在のモデルは、同じ属性の更新には比較的反応できても、健康状態の変化が移動手段を変えるような、属性間の関係をまたぐ更新には弱い。

記憶フレームワークを足せば解けるわけでもない

LightMem の診断では、新しい証拠が検索結果に出ていても、古い証拠が上位に残り、回答では古い状態が使われてしまうことがある。これは検索の問題というより、現在状態の裁定の問題である。

CUPMem は同じ GPT-4o-mini 基盤で、素のモデルの8.7%から68.0%へ改善する。特に Premise Resistance で大きく伸びる。これは、古い前提を回答時に場当たり的に直すより、書き込み時に状態を判定しておく設計が効くことを示している。

限界・注意点

CUPMem は有望だが、汎用の完成版記憶アーキテクチャではない。型付きの状態スキーマを使っており、扱える属性領域はそのスキーマに制約される。
論文自身も、任意のユーザー属性をスキーマなしで扱うこと、多段の伝播更新を扱うこと、複数属性が同時に結びついて変わるケースを今後の課題としている。
STALE は日常的な個人状態を中心にしているため、組織内の仕事、コードベース、プロジェクト知識、ツール権限のような実務記憶にそのまま移すには追加の設計が必要である。
それでも、古い記憶を検索できるかではなく、古い前提を退役させられるかを見る、という評価軸はかなり汎用的に使える。

STALE Paper Summary

これは何の論文か

何が問題だったのか

提案手法の中身

どうやって確かめたのか

結果はどうだったのか

もっとも強いモデルでも全体精度は高くない

Type II、つまり伝播する無効化は Type I よりかなり難しい

記憶フレームワークを足せば解けるわけでもない

限界・注意点

おい丸のようなエージェントにどう使えるか

Q&A

この論文の中心問いは？

Implicit Conflict とは？

Type Iと Type II の違いは？

3つの評価プローブは何を見る？

一番怖い結果は？

記憶フレームワークを足せば解ける？

CUPMem は何をする？

なぜ write-time が重要？

記憶とスキルの劣化とどうつながる？

一言でいうと？

関連する記事