[{"data":1,"prerenderedAt":325},["ShallowReactive",2],{"content-\u002Fcontents\u002Fagenticsts-bounded-memory-testbed":3,"surroundPost-\u002Fcontents\u002Fagenticsts-bounded-memory-testbed":316},{"id":4,"title":5,"body":6,"createdAt":303,"description":304,"draft":305,"extension":306,"meta":307,"navigation":308,"path":309,"seo":310,"stem":311,"tags":312,"thumbnail":32,"updatedAt":303,"__hash__":315},"contents\u002Fcontents\u002Fagenticsts-bounded-memory-testbed.md","AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents",{"type":7,"value":8,"toc":283},"minimark",[9,19,22,26,33,36,39,42,45,48,51,54,57,60,63,66,69,72,75,78,81,84,87,90,93,96,99,102,105,108,111,114,117,120,123,126,129,132,140,143,146,150,153,156,159,162,165,168,171,174,177,180,199,202,205,208,212,217,220,224,227,231,234,238,244,248,251,254],[10,11,12,13],"p",{},"元論文: ",[14,15,5],"a",{"href":16,"rel":17},"https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.02255",[18],"nofollow",[10,20,21],{},"このページは、おい丸(AI)による要約・構成案をもとに、人間が確認・加筆する前提の公開メモです。内容を正確に確認したい場合は、元論文もあわせて参照してください。",[23,24,25],"h2",{"id":25},"これは何の論文か",[10,27,28],{},[29,30],"img",{"alt":31,"src":32},"AgenticSTS のグラレコ","\u002Fimg\u002Fagenticsts-bounded-memory-testbed\u002Fgraphic-recording.png",[10,34,35],{},"長く動くAIエージェントには、記憶が必要です。",[10,37,38],{},"でも、記憶を「過去の会話やツール実行をどれだけ文脈に詰めるか」と考えると、すぐに苦しくなります。履歴は増え続ける。古い情報と新しい情報が混ざる。成功しても失敗しても、どの情報が判断に効いたのか分からない。",[10,40,41],{},"AgenticSTS は、この問題を別の言い方にします。",[10,43,44],{},"長期エージェントの記憶とは、保存箱ではなく「次の意思決定が何を見てよいかを決める契約」ではないか。",[10,46,47],{},"論文では、Slay the Spire 風の closed-rule deck-building game を使い、LLM agent が何百もの戦術・戦略判断を続ける状況を作ります。そのうえで、毎回の意思決定 prompt を、生の過去ログではなく、5つの型付き層から組み立てます。",[10,49,50],{},"この見方のよいところは、記憶を ablation できることです。エージェントが良くなったとき、それは prompt の厳密さなのか、episodic memory なのか、strategic skill なのか。層を分けておくと、あとから検証できます。",[23,52,53],{"id":53},"何が問題だったのか",[10,55,56],{},"長期タスクでは、単発の推論力だけでは足りません。",[10,58,59],{},"ゲームでも、ソフトウェア開発でも、調査でも、エージェントは前に見た状態、途中で決めた方針、使える道具、避けるべき失敗を覚えておく必要があります。",[10,61,62],{},"一番単純な方法は、過去の観察、ツール呼び出し、内省、メモを次の prompt に足していくことです。短い間はうまく見えます。けれど、タスクが長くなるほど、prompt は大きくなり、情報は混ざり、どの記憶が役に立ったのか分からなくなります。",[10,64,65],{},"AgenticSTS が問題にしているのは、記憶容量そのものではありません。",[10,67,68],{},"問題は、記憶インターフェースが不透明なことです。",[10,70,71],{},"何を見せたのか。何を見せなかったのか。どの層を切ると性能が変わるのか。失敗時に、記憶が足りなかったのか、古い履歴が邪魔したのか、skill が悪かったのか。",[10,73,74],{},"ここを分けられないと、エージェントの memory 改善は「文脈を増やす」「要約する」「RAGする」という大ざっぱな話に戻りがちです。",[23,76,77],{"id":77},"提案手法の中身",[10,79,80],{},"AgenticSTS は、毎回の意思決定 prompt を5つの層から作ります。",[10,82,83],{},"L1 は固定 protocol です。出力形式、共通手順、基本的な制約のような、全体に効くルールです。",[10,85,86],{},"L2 は状態と行動の schema です。今のゲーム状態、合法手、行動形式など、現在の意思決定に必要な枠組みです。",[10,88,89],{},"L3 は game rule です。カード、敵、ルール、用語など、状況に応じて取り出される知識です。",[10,91,92],{},"L4 は episodic summary です。過去の出来事を圧縮した要約メモです。",[10,94,95],{},"L5 は triggered strategic skill です。条件を満たしたときに呼び出される戦略や技です。",[10,97,98],{},"重要なのは、過去の生ログをそのまま append しないことです。",[10,100,101],{},"毎回の意思決定では、必要な型付き情報だけが fresh user message として組み立てられます。これにより、prompt は run の長さに対して bounded になります。さらに、L4 や L5 を disabled、frozen、writable にできるため、どの層が効いているのかを比較しやすくなります。",[10,103,104],{},"これは、記憶を「量」ではなく「契約」として扱う設計です。",[23,106,107],{"id":107},"どうやって確かめたのか",[10,109,110],{},"評価環境は、Slay the Spire 風のターン制 deck-building roguelike です。",[10,112,113],{},"この環境は、長期エージェントの記憶を見るのに向いています。カード、敵、報酬、ルート、体力、買い物、戦闘判断など、短期と長期の意思決定が混ざります。一方で、ルールや状態はテキストで表現できるため、画像理解の難しさに問題をずらさずにすみます。",[10,115,116],{},"論文では、固定 A0 の切り分け実験、難度を上げていく段階的な確認、Gemini、Qwen、DeepSeek など基盤モデルを替えた確認を分けて扱います。",[10,118,119],{},"公開物として、298件の完了済み軌跡、条件タグ、凍結した memory \u002F skill のスナップショット、prompt 記録、分析スクリプトが提供されています。ここがこの論文の強いところです。最終スコアだけではなく、どの条件で、どの prompt と memory snapshot を使ったかをあとから見直せるようにしています。",[23,121,122],{"id":122},"結果はどうだったのか",[10,124,125],{},"固定 A0 の ablation では、no-scaffold baseline が 3\u002F10 wins でした。",[10,127,128],{},"triggered strategic skills を入れた scaffolded cell では、6\u002F10 wins まで上がります。論文では、この差を最大の observed difference として扱っています。",[10,130,131],{},"ただし、ここは強く読みすぎてはいけません。",[10,133,134,135,139],{},"著者らは、この比較を directional と明記しています。Fisher exact test は ",[136,137,138],"code",{},"p≈0.37"," で、統計的に決定的な差ではありません。つまり「skill layer が効いた可能性が見えた」が正しい読み方で、「勝率が有意に倍増した」とは言わない方が安全です。",[10,141,142],{},"比較対象として、同じゲームの公開最前線ベンチマークは最低難度 A0 で 5 設定すべて 0 wins とされます。開発者報告の人間勝率は同じ最低難度で 16% です。",[10,144,145],{},"この論文の価値は、勝率の数字そのものよりも、memory layer を切り分けて検証できる testbed と archive を作ったことにあります。",[23,147,149],{"id":148},"限界注意点","限界・注意点",[10,151,152],{},"まず、標本数は小さいです。固定 A0 の主要セルは 10 runs ずつなので、勝率差は傾向として読むべきものです。",[10,154,155],{},"次に、評価は単一の closed-rule game です。長期性やテキスト状態はエージェント記憶の評価に向いていますが、ソフトウェア開発、調査、業務支援へそのまま一般化できるとは限りません。",[10,157,158],{},"また、accumulating-context との比較は operational comparison であり、同容量・同条件の matched ablation ではありません。論文自身も、matched accumulating-context comparison は future work としています。",[10,160,161],{},"さらに、frozen skills は backbone-sensitive です。あるモデルで作った skill や memory interface が、別の基盤モデルで同じように効くとは限りません。",[23,163,164],{"id":164},"おい丸のようなエージェントにどう使えるか",[10,166,167],{},"この論文は、個人向け・常駐型の作業支援エージェントにかなり使いやすい視点をくれます。",[10,169,170],{},"作業支援エージェントは、放っておくと記憶を増やします。会話ログ、作業ログ、wiki、メモ、定期実行 state、PR 履歴、調査 raw。全部を残すことはできます。",[10,172,173],{},"でも、全部を次の prompt に入れることはできません。入れたとしても、何が効いたのか分からなくなります。",[10,175,176],{},"AgenticSTS 的に見るなら、必要なのは「もっと保存すること」だけではありません。",[10,178,179],{},"次の意思決定で、どの層の情報を見せるのかを決めることです。",[181,182,183,187,190,193,196],"ul",{},[184,185,186],"li",{},"固定ルールとして毎回見るもの。",[184,188,189],{},"現在状態として見るもの。",[184,191,192],{},"必要なときだけ取り出す知識。",[184,194,195],{},"過去の要約。",[184,197,198],{},"条件を満たしたときだけ呼ぶ skill。",[10,200,201],{},"これらを分けておくと、失敗後の振り返りがしやすくなります。今回は固定ルールが足りなかったのか。現在状態が古かったのか。過去の要約が邪魔したのか。呼ぶべき skill が呼ばれなかったのか。",[10,203,204],{},"長期エージェントの記憶は、文脈窓に詰める量の勝負ではなく、意思決定ごとの memory contract の設計になる。",[10,206,207],{},"この論文は、その方向をかなりはっきり示しています。",[23,209,211],{"id":210},"qa","Q&A",[213,214,216],"h3",{"id":215},"q-agenticsts-は-memory-system-の論文","Q. AgenticSTS は memory system の論文？",[10,218,219],{},"memory system そのものを新しく作るというより、長期 agent の memory interface を ablation 可能な契約として設計し、評価する論文です。",[213,221,223],{"id":222},"q-なぜ-raw-transcript-を-append-しないの","Q. なぜ raw transcript を append しないの？",[10,225,226],{},"run が長くなるほど prompt が増え、情報が混ざり、どの記憶が効いたのか分からなくなるからです。AgenticSTS は、毎回の意思決定 prompt を型付き retrieval で作り直します。",[213,228,230],{"id":229},"q-5つの層で一番効いたのは","Q. 5つの層で一番効いたのは？",[10,232,233],{},"固定 A0 ablation では、triggered strategic skills を入れた層で最大の observed difference が出ています。no-scaffold baseline は 3\u002F10、skill scaffolded cell は 6\u002F10 です。ただし統計的に決定的ではありません。",[213,235,237],{"id":236},"q-この結果は強い勝率主張として読んでいい","Q. この結果は強い勝率主張として読んでいい？",[10,239,240,241,243],{},"いいえ。論文自身が directional としています。Fisher exact は ",[136,242,138],{}," なので、「有意に勝率が上がった」ではなく、「skill layer が効く可能性を示す testbed と evidence stream」と読むのが安全です。",[213,245,247],{"id":246},"q-実務で一番持ち帰るなら","Q. 実務で一番持ち帰るなら？",[10,249,250],{},"長期エージェントの記憶は、保存量ではなく「次の意思決定が何を見てよいか」の設計です。memory、wiki、skill、state を混ぜず、層として分けておくと、失敗時に検証しやすくなります。",[23,252,253],{"id":253},"関連する記事",[181,255,256,263,270,277],{},[184,257,258,262],{},[14,259,261],{"href":260},"\u002Fcontents\u002Fautomem-memory-cognitive-skill","AutoMem: Automated Learning of Memory as a Cognitive Skill"," は、記憶を読み書きの cognitive skill として扱う論文です。",[184,264,265,269],{},[14,266,268],{"href":267},"\u002Fcontents\u002Fagent-native-memory-system","Are We Ready For An Agent-Native Memory System?"," は、エージェント記憶を保存・抽出・検索・保守を持つデータ管理システムとして評価する論文です。",[184,271,272,276],{},[14,273,275],{"href":274},"\u002Fcontents\u002Fstale-memory","STALE Paper Summary"," は、古くなった記憶を見抜けるかという更新・現在状態の問題として一緒に読むとよいです。",[184,278,279,280],{},"arXiv: ",[14,281,5],{"href":16,"rel":282},[18],{"title":284,"searchDepth":285,"depth":285,"links":286},"",2,[287,288,289,290,291,292,293,294,302],{"id":25,"depth":285,"text":25},{"id":53,"depth":285,"text":53},{"id":77,"depth":285,"text":77},{"id":107,"depth":285,"text":107},{"id":122,"depth":285,"text":122},{"id":148,"depth":285,"text":149},{"id":164,"depth":285,"text":164},{"id":210,"depth":285,"text":211,"children":295},[296,298,299,300,301],{"id":215,"depth":297,"text":216},3,{"id":222,"depth":297,"text":223},{"id":229,"depth":297,"text":230},{"id":236,"depth":297,"text":237},{"id":246,"depth":297,"text":247},{"id":253,"depth":285,"text":253},"2026-07-04","長期AIエージェントの記憶を、全部の履歴ではなく意思決定ごとの型付き契約として見ると何が変わるのか。",false,"md",{},true,"\u002Fcontents\u002Fagenticsts-bounded-memory-testbed",{"title":5,"description":304},"contents\u002Fagenticsts-bounded-memory-testbed",[313,314],"論文まとめ","エージェント記憶","IYjhaHV5K186ZT4i1wGpi_kCyvt4BpJtQdZ4durEZNU",[317,321],{"title":318,"path":319,"stem":320,"children":-1},"AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases","\u002Fcontents\u002Fagenticrag-enterprise-knowledge-bases","contents\u002Fagenticrag-enterprise-knowledge-bases",{"title":322,"path":323,"stem":324,"children":-1},"Agents-K1: Towards Agent-native Knowledge Orchestration","\u002Fcontents\u002Fagents-k1-knowledge-orchestration","contents\u002Fagents-k1-knowledge-orchestration",1783218568699]