[{"data":1,"prerenderedAt":258},["ShallowReactive",2],{"content-\u002Fcontents\u002Fbayesian-agent":3,"surroundPost-\u002Fcontents\u002Fbayesian-agent":249},{"id":4,"title":5,"body":6,"createdAt":233,"description":234,"draft":235,"extension":236,"meta":237,"navigation":238,"path":239,"seo":240,"stem":241,"tags":242,"thumbnail":246,"updatedAt":247,"__hash__":248},"contents\u002Fcontents\u002Fbayesian-agent.md","Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses",{"type":7,"value":8,"toc":209},"minimark",[9,13,17,20,23,26,29,32,35,38,41,44,47,50,53,56,59,62,65,68,71,74,77,80,84,97,100,103,106,110,115,118,122,125,129,132,136,139,143,146,150,153,157,160,164,167,171,174,177],[10,11,12],"h2",{"id":12},"これは何の論文か",[14,15,16],"p",{},"Bayesian-Agentは、LLMエージェントのスキルや SOP をどう更新するかを扱う論文だ。中心にあるのは、スキルを単なるプロンプト断片や手順書ではなく、ある条件下でエージェントが成功するかについての仮説として扱う見方である。",[14,18,19],{},"既存の自己改善型エージェントは、成功\u002F失敗の軌跡を集めて反省文を作ったり、プロンプトを足したり、ルールを増やしたりしがちだ。しかし、その更新がどの条件で効くのか、どの失敗を直すのか、いつ退役させるべきかは曖昧になりやすい。",[14,21,22],{},"この論文は、検証済みの実行軌跡から特徴条件つきのカテゴリ事後分布を更新し、その事後分布に基づいてスキル \u002F SOP への編集アクションを選ぶ。更新はパッチ、分割、圧縮、退役、探索のような形で整理され、あとから監査しやすい監査要約として残せる。",[14,24,25],{},"読む価値は、エージェントの改善を「よさそうな反省の追記」から「条件つきで信じられる手順の更新」へ変えるところにある。作業支援エージェントやコーディングエージェントで、スキルを増やす、分ける、圧縮する、退役させる判断に使いやすい。",[10,27,28],{"id":28},"何が問題だったのか",[14,30,31],{},"エージェントの失敗ログからルールを足すのは簡単だが、それだけではスキルがすぐ膨らむ。似たような注意書きが増え、どの条件で効くのか、どの条件では邪魔になるのかが分かりにくくなる。",[14,33,34],{},"特に問題なのは、成功や失敗が条件つきで起きることだ。同じスキルでも、タスク特徴、モデル、ツール、文脈、ハーネス条件が変われば効き方は変わる。成功ログをそのまま一般ルールにすると、別の状況で回帰を起こす可能性がある。",[14,36,37],{},"また、スキル更新には追記以外の選択肢も必要になる。既存スキルを少し直すのか、別スキルに分けるのか、圧縮するのか、退役させるのか、追加探索するのかを分けないと、長期運用では手順書が読みにくくなる。",[14,39,40],{},"Bayesian-Agent の問題意識は、スキルを固定文書ではなく「どの条件で成功しそうか」という仮説として扱い、検証済み軌跡に基づいて更新することにある。",[10,42,43],{"id":43},"提案手法の中身",[14,45,46],{},"入力は、エージェントが実行した軌跡、成功\u002F失敗の検証結果、タスクや環境の特徴、既存スキル \u002F SOP の状態である。",[14,48,49],{},"まず、実行軌跡からスキルがどの条件で効いたか、どの失敗モードで壊れたかを証拠として集める。",[14,51,52],{},"次に、その証拠を使って特徴条件つきのカテゴリ事後分布を更新する。ここでスキルは、単なるテキストではなく、条件つき信念の対象になる。",[14,54,55],{},"事後分布の変化に応じて、パッチ、分割、圧縮、退役、探索などの編集アクションを選ぶ。全部を足すのではなく、直すべきか、分けるべきか、圧縮すべきか、退役させるべきかを決める。",[14,57,58],{},"更新後のスキル \u002F SOPは実行可能なガードレールや失敗モードのパッチとしてハーネスに戻され、次の実行でまた検証される。最後に監査要約が残るので、なぜその更新をしたか追いやすい。",[10,60,61],{"id":61},"どうやって確かめたのか",[14,63,64],{},"評価では、SOP-Bench、Lifelong AgentBench、RealFin-Bench を使い、段階的なスキル \u002F SOP 更新が性能を改善するかを見る。対象モデルには DeepSeek-V4-Flash が使われている。",[14,66,67],{},"比較対象は、更新前の SOP、段階的に修復された SOP、複数の実行バックエンドである。",[14,69,70],{},"測る指標は、各ベンチマークの成功率、修復ステップ後の改善幅、ネイティブバックエンド、GenericAgent、mini-swe-agent、Claude Code などの複数ハーネスで改善が再現するかである。",[10,72,73],{"id":73},"結果はどうだったのか",[14,75,76],{},"論文では、DeepSeek-V4-Flash を使った段階的な修復で、SOP-Bench が 80% から 95%、Lifelong AgentBench が 90% から 100%、RealFin-Bench が 45% から 65% に改善したと報告されている。",[14,78,79],{},"バックエンドはネイティブバックエンド、GenericAgent、mini-swe-agent、Claude Code などが扱われる。つまり、特定のエージェント実装だけでなく、ハーネスをまたいだスキル \u002F SOP 更新として評価している点が重要だ。",[10,81,83],{"id":82},"限界注意点","限界・注意点",[85,86,87,91,94],"ul",{},[88,89,90],"li",{},"この論文の魅力は、スキルを足し続ける誘惑にブレーキをかける点にある。成功ログや失敗ログをそのまま規則化すると、手順は増えるが、どの条件で効くかが曖昧になる。",[88,92,93],{},"一方で、事後分布に基づく方法にも限界はある。検証信号が弱い環境、成功\u002F失敗のラベルが曖昧なタスク、長期的な副作用があとから出るスキルでは、事後分布自体が過信を生む可能性がある。",[88,95,96],{},"そのため実務では、事後分布更新と合わせて、退役条件、回帰テスト、手動レビュー、公開できない情報の扱いを設計する必要がある。",[10,98,99],{"id":99},"おい丸のようなエージェントにどう使えるか",[14,101,102],{},"おい丸のような作業支援エージェントでは、スキルは増えるほど便利になる一方で、重複、古さ、選択ミス、局所最適が起きやすい。この論文を使うなら、失敗ログをすぐルール化する前に、「どの条件で効く仮説なのか」「パッチで足りるのか」「分割や退役が必要なのか」を見る。",[14,104,105],{},"新しい経験をそのまま追記するのではなく、既存スキルへ統合するのか、原子的なルールへ分けるのか、検証タスクを作るのかを決める。特に長期運用では、スキルを増やす判断だけでなく、消す判断、まとめる判断、効いているかを測る判断まで必要になる。",[10,107,109],{"id":108},"qa","Q&A",[111,112,114],"h3",{"id":113},"この論文の中心問いは","この論文の中心問いは？",[14,116,117],{},"LLMエージェントのスキル \u002F SOPを、成功\u002F失敗ログの単純な蓄積ではなく、検証済み軌跡に基づく条件つき事後分布としてどう更新するか。",[111,119,121],{"id":120},"スキルを信念として扱うとはどういうこと","スキルを信念として扱うとはどういうこと？",[14,123,124],{},"スキルを固定の手順書ではなく、あるタスク特徴、文脈、ハーネス条件で成功しそうだという仮説として扱い、証拠に応じて確信度を更新するということ。",[111,126,128],{"id":127},"既存の反省型自己改善と何が違う","既存の反省型自己改善と何が違う？",[14,130,131],{},"反省文やルールを足すだけでなく、どの条件で効くか、どの失敗を直すか、退役させるべきかを事後分布と編集アクションで分ける点が違う。",[111,133,135],{"id":134},"更新アクションには何がある","更新アクションには何がある？",[14,137,138],{},"論文では、パッチ、分割、圧縮、退役、探索のようなアクションが扱われる。追記だけでなく、分割、圧縮、退役、探索も更新の選択肢になる。",[111,140,142],{"id":141},"ハーネスはどこで効く","ハーネスはどこで効く？",[14,144,145],{},"スキル \u002F SOP はモデル単体ではなく、プロンプト、ツール、記憶、ワークフロー、検証を含むハーネスの中で実行される。更新もその実行条件と結びつけて扱われる。",[111,147,149],{"id":148},"評価で何が示された","評価で何が示された？",[14,151,152],{},"SOP-Bench、Lifelong AgentBench、RealFin-Benchで段階的な修復による改善が報告されている。特に RealFin-Bench では 45% から 65% への改善が示されている。",[111,154,156],{"id":155},"個人アシスタント運用にどう使える","個人アシスタント運用にどう使える？",[14,158,159],{},"失敗ログからルールを足す前に、どの条件で失敗したか、既存スキルのパッチで足りるか、分割や退役が必要かを判断する枠組みとして使える。",[111,161,163],{"id":162},"注意点は","注意点は？",[14,165,166],{},"事後分布は証拠の質に依存する。検証信号が曖昧なタスクでは、数式っぽい更新に見えても過信になる可能性がある。",[111,168,170],{"id":169},"読む順番は","読む順番は？",[14,172,173],{},"まず Abstract と手法の事後分布更新、次に更新行動、最後にベンチマークと監査要約を読むと、実務への接続がつかみやすい。",[10,175,176],{"id":176},"関連する記事",[85,178,179,206],{},[88,180,181,182,187,188,187,192,196,197,199,200,202,203,205],{},"関連して、",[183,184,186],"a",{"href":185},"\u002Fcontents\u002Fskillopt","自然言語スキルを検証しながら改善する","、",[183,189,191],{"href":190},"\u002Fcontents\u002Fsocratic-swe","コーディングエージェントのスキルをトレースから育てる",[183,193,195],{"href":194},"\u002Fcontents\u002Fmuse-autoskill","スキルの作成・記憶・管理・評価を回す"," と並べるとよい。",[183,198,186],{"href":185}," はスキル文書の編集と検証ゲート、",[183,201,191],{"href":190}," はトレース由来スキル、",[183,204,195],{"href":194}," はスキルライフサイクルを扱う。",[88,207,208],{},"実務に落とすなら、まず既存スキルに対して、パッチ \u002F 分割 \u002F 圧縮 \u002F 退役 \u002F 探索のどれが必要かをログごとに分類する小さな表から始めるのがよさそうだ。",{"title":210,"searchDepth":211,"depth":211,"links":212},"",2,[213,214,215,216,217,218,219,220,232],{"id":12,"depth":211,"text":12},{"id":28,"depth":211,"text":28},{"id":43,"depth":211,"text":43},{"id":61,"depth":211,"text":61},{"id":73,"depth":211,"text":73},{"id":82,"depth":211,"text":83},{"id":99,"depth":211,"text":99},{"id":108,"depth":211,"text":109,"children":221},[222,224,225,226,227,228,229,230,231],{"id":113,"depth":223,"text":114},3,{"id":120,"depth":223,"text":121},{"id":127,"depth":223,"text":128},{"id":134,"depth":223,"text":135},{"id":141,"depth":223,"text":142},{"id":148,"depth":223,"text":149},{"id":155,"depth":223,"text":156},{"id":162,"depth":223,"text":163},{"id":169,"depth":223,"text":170},{"id":176,"depth":211,"text":176},"2026-06-09","LLMエージェントのスキル更新を、成功ログの足し算ではなく、検証済み軌跡に基づく事後分布の更新として扱う論文。追記、分割、圧縮、退役を更新候補として見る。",false,"md",{},true,"\u002Fcontents\u002Fbayesian-agent",{"title":5,"description":234},"contents\u002Fbayesian-agent",[243,244,245],"論文まとめ","エージェントスキル","コーディングエージェント","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fbayesian-agent.png","2026-06-24","AzRbaL6SAfS6ie5GOtrxUo35F5N-R_JTtMgYVwx_Bb0",[250,254],{"title":251,"path":252,"stem":253,"children":-1},"AWS Lambdaを使ったツイート収集システム","\u002Fcontents\u002Faws-lambda-upload-docker","contents\u002Faws-lambda-upload-docker",{"title":255,"path":256,"stem":257,"children":-1},"自然言語処理：BERTでSHAPを使用した説明性可視化","\u002Fcontents\u002Fbertshap","contents\u002Fbertshap",1782329026821]