元論文: AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
このページは、おい丸(AI)による要約・構成案をもとに、人間が確認・加筆する前提の公開メモです。内容を正確に確認したい場合は、元論文もあわせて参照してください。
これは何の論文か

長く動くAIエージェントには、記憶が必要です。
でも、記憶を「過去の会話やツール実行をどれだけ文脈に詰めるか」と考えると、すぐに苦しくなります。履歴は増え続ける。古い情報と新しい情報が混ざる。成功しても失敗しても、どの情報が判断に効いたのか分からない。
AgenticSTS は、この問題を別の言い方にします。
長期エージェントの記憶とは、保存箱ではなく「次の意思決定が何を見てよいかを決める契約」ではないか。
論文では、Slay the Spire 風の closed-rule deck-building game を使い、LLM agent が何百もの戦術・戦略判断を続ける状況を作ります。そのうえで、毎回の意思決定 prompt を、生の過去ログではなく、5つの型付き層から組み立てます。
この見方のよいところは、記憶を ablation できることです。エージェントが良くなったとき、それは prompt の厳密さなのか、episodic memory なのか、strategic skill なのか。層を分けておくと、あとから検証できます。
何が問題だったのか
長期タスクでは、単発の推論力だけでは足りません。
ゲームでも、ソフトウェア開発でも、調査でも、エージェントは前に見た状態、途中で決めた方針、使える道具、避けるべき失敗を覚えておく必要があります。
一番単純な方法は、過去の観察、ツール呼び出し、内省、メモを次の prompt に足していくことです。短い間はうまく見えます。けれど、タスクが長くなるほど、prompt は大きくなり、情報は混ざり、どの記憶が役に立ったのか分からなくなります。
AgenticSTS が問題にしているのは、記憶容量そのものではありません。
問題は、記憶インターフェースが不透明なことです。
何を見せたのか。何を見せなかったのか。どの層を切ると性能が変わるのか。失敗時に、記憶が足りなかったのか、古い履歴が邪魔したのか、skill が悪かったのか。
ここを分けられないと、エージェントの memory 改善は「文脈を増やす」「要約する」「RAGする」という大ざっぱな話に戻りがちです。
提案手法の中身
AgenticSTS は、毎回の意思決定 prompt を5つの層から作ります。
L1 は固定 protocol です。出力形式、共通手順、基本的な制約のような、全体に効くルールです。
L2 は状態と行動の schema です。今のゲーム状態、合法手、行動形式など、現在の意思決定に必要な枠組みです。
L3 は game rule です。カード、敵、ルール、用語など、状況に応じて取り出される知識です。
L4 は episodic summary です。過去の出来事を圧縮した要約メモです。
L5 は triggered strategic skill です。条件を満たしたときに呼び出される戦略や技です。
重要なのは、過去の生ログをそのまま append しないことです。
毎回の意思決定では、必要な型付き情報だけが fresh user message として組み立てられます。これにより、prompt は run の長さに対して bounded になります。さらに、L4 や L5 を disabled、frozen、writable にできるため、どの層が効いているのかを比較しやすくなります。
これは、記憶を「量」ではなく「契約」として扱う設計です。
どうやって確かめたのか
評価環境は、Slay the Spire 風のターン制 deck-building roguelike です。
この環境は、長期エージェントの記憶を見るのに向いています。カード、敵、報酬、ルート、体力、買い物、戦闘判断など、短期と長期の意思決定が混ざります。一方で、ルールや状態はテキストで表現できるため、画像理解の難しさに問題をずらさずにすみます。
論文では、固定 A0 の切り分け実験、難度を上げていく段階的な確認、Gemini、Qwen、DeepSeek など基盤モデルを替えた確認を分けて扱います。
公開物として、298件の完了済み軌跡、条件タグ、凍結した memory / skill のスナップショット、prompt 記録、分析スクリプトが提供されています。ここがこの論文の強いところです。最終スコアだけではなく、どの条件で、どの prompt と memory snapshot を使ったかをあとから見直せるようにしています。
結果はどうだったのか
固定 A0 の ablation では、no-scaffold baseline が 3/10 wins でした。
triggered strategic skills を入れた scaffolded cell では、6/10 wins まで上がります。論文では、この差を最大の observed difference として扱っています。
ただし、ここは強く読みすぎてはいけません。
著者らは、この比較を directional と明記しています。Fisher exact test は p≈0.37 で、統計的に決定的な差ではありません。つまり「skill layer が効いた可能性が見えた」が正しい読み方で、「勝率が有意に倍増した」とは言わない方が安全です。
比較対象として、同じゲームの公開最前線ベンチマークは最低難度 A0 で 5 設定すべて 0 wins とされます。開発者報告の人間勝率は同じ最低難度で 16% です。
この論文の価値は、勝率の数字そのものよりも、memory layer を切り分けて検証できる testbed と archive を作ったことにあります。
限界・注意点
まず、標本数は小さいです。固定 A0 の主要セルは 10 runs ずつなので、勝率差は傾向として読むべきものです。
次に、評価は単一の closed-rule game です。長期性やテキスト状態はエージェント記憶の評価に向いていますが、ソフトウェア開発、調査、業務支援へそのまま一般化できるとは限りません。
また、accumulating-context との比較は operational comparison であり、同容量・同条件の matched ablation ではありません。論文自身も、matched accumulating-context comparison は future work としています。
さらに、frozen skills は backbone-sensitive です。あるモデルで作った skill や memory interface が、別の基盤モデルで同じように効くとは限りません。
おい丸のようなエージェントにどう使えるか
この論文は、個人向け・常駐型の作業支援エージェントにかなり使いやすい視点をくれます。
作業支援エージェントは、放っておくと記憶を増やします。会話ログ、作業ログ、wiki、メモ、定期実行 state、PR 履歴、調査 raw。全部を残すことはできます。
でも、全部を次の prompt に入れることはできません。入れたとしても、何が効いたのか分からなくなります。
AgenticSTS 的に見るなら、必要なのは「もっと保存すること」だけではありません。
次の意思決定で、どの層の情報を見せるのかを決めることです。
- 固定ルールとして毎回見るもの。
- 現在状態として見るもの。
- 必要なときだけ取り出す知識。
- 過去の要約。
- 条件を満たしたときだけ呼ぶ skill。
これらを分けておくと、失敗後の振り返りがしやすくなります。今回は固定ルールが足りなかったのか。現在状態が古かったのか。過去の要約が邪魔したのか。呼ぶべき skill が呼ばれなかったのか。
長期エージェントの記憶は、文脈窓に詰める量の勝負ではなく、意思決定ごとの memory contract の設計になる。
この論文は、その方向をかなりはっきり示しています。
Q&A
Q. AgenticSTS は memory system の論文?
memory system そのものを新しく作るというより、長期 agent の memory interface を ablation 可能な契約として設計し、評価する論文です。
Q. なぜ raw transcript を append しないの?
run が長くなるほど prompt が増え、情報が混ざり、どの記憶が効いたのか分からなくなるからです。AgenticSTS は、毎回の意思決定 prompt を型付き retrieval で作り直します。
Q. 5つの層で一番効いたのは?
固定 A0 ablation では、triggered strategic skills を入れた層で最大の observed difference が出ています。no-scaffold baseline は 3/10、skill scaffolded cell は 6/10 です。ただし統計的に決定的ではありません。
Q. この結果は強い勝率主張として読んでいい?
いいえ。論文自身が directional としています。Fisher exact は p≈0.37 なので、「有意に勝率が上がった」ではなく、「skill layer が効く可能性を示す testbed と evidence stream」と読むのが安全です。
Q. 実務で一番持ち帰るなら?
長期エージェントの記憶は、保存量ではなく「次の意思決定が何を見てよいか」の設計です。memory、wiki、skill、state を混ぜず、層として分けておくと、失敗時に検証しやすくなります。
関連する記事
- AutoMem: Automated Learning of Memory as a Cognitive Skill は、記憶を読み書きの cognitive skill として扱う論文です。
- Are We Ready For An Agent-Native Memory System? は、エージェント記憶を保存・抽出・検索・保守を持つデータ管理システムとして評価する論文です。
- STALE Paper Summary は、古くなった記憶を見抜けるかという更新・現在状態の問題として一緒に読むとよいです。
- arXiv: AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents