[{"data":1,"prerenderedAt":325},["ShallowReactive",2],{"content-\u002Fcontents\u002Fmuse-autoskill":3,"surroundPost-\u002Fcontents\u002Fmuse-autoskill":316},{"id":4,"title":5,"body":6,"createdAt":299,"description":300,"draft":301,"extension":302,"meta":303,"navigation":304,"path":305,"seo":306,"stem":307,"tags":308,"thumbnail":314,"updatedAt":299,"__hash__":315},"contents\u002Fcontents\u002Fmuse-autoskill.md","MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation",{"type":7,"value":8,"toc":269},"minimark",[9,13,17,20,32,35,38,41,44,47,51,54,57,62,65,72,76,83,86,89,92,95,101,110,113,116,119,122,125,128,131,134,137,141,144,147,163,166,183,186,207,211,215,218,222,225,229,232,236,239,243,246,250,255,259,262,266],[10,11,12],"h2",{"id":12},"どんな論文か",[14,15,16],"p",{},"MUSE-Autoskill の中心的な発想は、agent skill を「便利な手順書」ではなく、作成され、記憶を持ち、管理され、テストされ、失敗から改善される長寿命の資産として扱うことにある。モデル重みを更新するのではなく、モデルの外側にあるスキルバンクと運用ループを育てる。",[14,18,19],{},"問題意識はかなり実務寄りである。既存の自動スキル生成は、作成と利用が分離しやすく、スキルごとの経験が残らず、単体テストや実行時フィードバックで継続改善されにくい。結果として、スキルは増えても、再利用性や信頼性が伸びにくい。",[14,21,22,23,27,28,31],{},"MUSE-Autoskill はこの問題を、スキルのライフサイクルとして定式化する。エージェントは ReAct ループの中で、既存スキルを探し、足りなければ ",[24,25,26],"code",{},"skill_create"," で新しいスキルを作り、",[24,29,30],{},"SKILL.md","、scripts、tests、resources を含むパッケージとして保存する。登録前にはテストを走らせ、失敗すれば修正する。",[14,33,34],{},"面白いのは、スキル単位の記憶を持つ点である。全体の長期記憶とは別に、各スキルが過去の注意点、失敗モード、入力形式の癖、性能上の caveat を持つ。これにより、スキル本体を肥大化させすぎず、経験だけを横に育てられる。",[14,36,37],{},"LLM エージェントが使うスキルを、作って終わりの静的 artifact ではなく、creation、memory、management、evaluation、refinement の lifecycle で扱う論文である。",[14,39,40],{},"MUSE-Autoskill は、スキルをオンデマンドで作成し、タスクをまたいで保存・再利用し、単体テストと実行フィードバックで改善する。さらに、各スキルに紐づく経験を蓄積する skill-level memory を導入する。",[14,42,43],{},"評価では SkillsBench の 51 タスクを使い、GPT-5.5 を背骨にした MUSE-Autoskill、Codex、Hermes を比較している。モデル能力ではなく、エージェントシステム設計とスキル運用の差を見る構成である。",[10,45,46],{"id":46},"課題と貢献",[48,49,50],"h3",{"id":50},"スキルライフサイクルを定義する",[14,52,53],{},"作成、記憶、管理、評価、改善を、実用的な skill-centric agent system の必須段階として整理する。",[48,55,56],{"id":56},"実行ループ内でスキルを作る",[14,58,59,61],{},[24,60,26],{}," をランタイムの中から呼び出し、実行時文脈に合ったスキルパッケージを作成する。",[48,63,64],{"id":64},"スキル単位の記憶を持つ",[14,66,67,68,71],{},"各スキルに ",[24,69,70],{},".memory.md"," を紐づけ、既知の失敗モードや入力形式の癖を後続タスクで使えるようにする。",[48,73,75],{"id":74},"テストで登録を-gate-する","テストで登録を gate する",[14,77,78,79,82],{},"生成されたスキルは ",[24,80,81],{},"tests\u002F"," を通過した時だけスキルバンクに登録され、失敗した場合は修正ループに入る。",[48,84,85],{"id":85},"生成スキルの転移を評価する",[14,87,88],{},"MUSE が作ったスキルを別エージェントの Hermes に入れても性能が上がることを確認している。",[10,90,91],{"id":91},"手法のしくみ",[14,93,94],{},"エージェントは ReAct ループで、計画、行動、観察を繰り返す。",[14,96,97,98,100],{},"既存スキルで足りる場合は、スキルカタログから該当スキルを選び、",[24,99,30],{}," を読んで実行する。",[14,102,103,104,106,107,109],{},"足りない場合は ",[24,105,26],{}," が、目的、入力、期待出力から ",[24,108,30],{},"、scripts、resources、tests を含むスキルパッケージを作る。",[14,111,112],{},"評価器がスキルの単体テストを sandbox 内で実行し、通った場合だけスキルバンクへ登録する。",[14,114,115],{},"失敗した場合は、エラー情報をもとに更新器がスキルを修正し、再びテストする。",[14,117,118],{},"スキル利用時の観察、失敗、入力形式の癖などは、そのスキルに紐づく記憶へ追記される。",[14,120,121],{},"長いタスクでは、会話履歴を DAG として保持しつつ、アクティブ文脈だけを段階的に圧縮する。",[10,123,124],{"id":124},"検証結果",[14,126,127],{},"人間が作ったスキルを入れると、MUSE-Autoskill、Codex、Hermes のすべてで成功率が 13〜15 ポイント程度改善した。",[14,129,130],{},"MUSE-Autoskill は人間スキルありで 68.40% に到達し、三つのエージェントの中で最も高い全体スコアだった。",[14,132,133],{},"MUSE-Autoskill が成功軌跡からスキルを生成できた 35 タスクでは、生成スキル利用時に 87.94% に到達し、人間スキル利用時を上回った。",[14,135,136],{},"生成スキルを Hermes にそのまま注入しても +10.51pp の改善があり、スキルが特定ランタイムだけの振る舞いではなく、外部化された知識資産として働く可能性を示した。",[48,138,140],{"id":139},"一方で16-タスクでは成功軌跡がなくスキル生成に失敗した","一方で、16 タスクでは成功軌跡がなくスキル生成に失敗した",[14,142,143],{},"さらに、特定 run の前提に寄りすぎて退行するスキルもあった。",[10,145,146],{"id":146},"限界と読みどころ",[148,149,150,154,157,160],"ul",{},[151,152,153],"li",{},"評価は SkillsBench の 51 タスクに限られる。94 タスク全体ではなく、除外タスクにはより複雑な Docker 環境が含まれる可能性がある。",[151,155,156],{},"生成スキルは単一の成功軌跡から作られるため、その run に固有の前提やノイズへ過適合する可能性がある。",[151,158,159],{},"別エージェントへの転移は MUSE-Autoskill から Hermes 方向で確認されているが、より多くの agent runtime での一般性は未確認である。",[151,161,162],{},"スキル単位の記憶を共有するか、個人・環境ごとに分けるかは運用上の設計論点である。論文でもスキル本体と経験記憶は分けられている。",[10,164,165],{"id":165},"読みながら見る図表や節",[148,167,168,171,174,177,180],{},[151,169,170],{},"Figure 1 は、三つの GPT-5.5-backed agents を SkillsBench の領域別 accuracy で比較する。MUSE-Autoskill は全体で 68.4% と最も高い。",[151,172,173],{},"Figure 2 は、スキル作成、記憶、管理、評価、改善が一つのライフサイクルとして回る構造を示す。ここがこの論文の中心図である。",[151,175,176],{},"agent flow の図は、retrieve-or-create、evaluate、refine、memory append の運用ループを見るために重要である。",[151,178,179],{},"skill anatomy の分析では、MUSE 生成スキルが人間スキルより長く、手順、失敗モード、検証方法を細かく書く傾向が示される。",[151,181,182],{},"cost \u002F latency 図では、スキルがトークンを増やす一方で、探索や試行錯誤を減らし、遅延や turn 数を下げる場合があることが示される。",[10,184,185],{"id":185},"次に読むなら",[148,187,188,191,194,197,200],{},[151,189,190],{},"SkillOpt とセットで読む。SkillOpt はスキル文書をどう最適化するか、MUSE-Autoskill はスキルバンクをどう運用するかを扱う。",[151,192,193],{},"From Raw Experience to Skill Consumption を読むと、生成スキルがいつ効き、いつ負の転移を起こすかの見取り図が作れる。",[151,195,196],{},"Dynamic Skill Lifecycle Management を読むと、retain \u002F retire \u002F expand のようなスキル退役・拡張管理へ進める。",[151,198,199],{},"Counterfactual Trace Auditing を読むと、スキルが成功率以外に agent trajectory をどう変えるかを監査する視点が得られる。",[151,201,202,203,206],{},"おい丸運用へ引き込むなら、",[24,204,205],{},"learn-from-logs"," の出力を、全体 MEMORY、特定 skill の経験記憶、テスト、退役候補に分ける設計を試したい。",[10,208,210],{"id":209},"読後qa","読後Q&A",[48,212,214],{"id":213},"この論文の中心問いは","この論文の中心問いは？",[14,216,217],{},"エージェントのスキルを、作って終わりの文書ではなく、作成・記憶・管理・評価・改善を通じて育つ資産として扱えるか、という問いである。",[48,219,221],{"id":220},"skillopt-と何が違う","SkillOpt と何が違う？",[14,223,224],{},"SkillOpt はスキル文書をどう編集して性能を上げるかに焦点がある。MUSE-Autoskill は、スキルをどう作り、保存し、選び、テストし、改善し、別エージェントへ移すかという運用基盤に焦点がある。",[48,226,228],{"id":227},"スキル単位の記憶は何が嬉しい","スキル単位の記憶は何が嬉しい？",[14,230,231],{},"全体の長期記憶だけだと、その学びがどのスキルに効くのかが埋もれやすい。スキル単位の記憶にすると、そのスキルを使う時だけ過去の注意点や失敗モードを読める。",[48,233,235],{"id":234},"自動生成スキルが人間スキルを上回った理由は","自動生成スキルが人間スキルを上回った理由は？",[14,237,238],{},"論文の分析では、MUSE 生成スキルは人間スキルより長く、入力出力形式、失敗モード、検証方法、手順をより細かく書く傾向がある。その詳細さが、毎回の試行錯誤を減らす手順として効いた可能性がある。",[48,240,242],{"id":241},"どこが危ない","どこが危ない？",[14,244,245],{},"単一の成功軌跡から作ったスキルは、その時だけ効いた前提を含むことがある。論文でも hvac-control のように、元 run に寄りすぎた手順が別 run で退行する例がある。",[48,247,249],{"id":248},"おい丸の運用にどう効く","おい丸の運用にどう効く？",[14,251,252,254],{},[24,253,30],{}," を直接太らせるのではなく、スキルごとの経験記憶、テスト、失敗ログ、採用・退役ルールを分けて持つ設計に繋がる。learn-from-logs の出力も、全体ルールと特定スキルの経験に分けるとよさそう。",[48,256,258],{"id":257},"実務で読むならどこから","実務で読むならどこから？",[14,260,261],{},"まず Figure 2 のライフサイクル図、次に skill-level memory、create-evaluate-register loop、generated skill transfer の実験を見るのがよい。",[48,263,265],{"id":264},"次に何を読むべき","次に何を読むべき？",[14,267,268],{},"SkillOpt と From Raw Experience to Skill Consumption が自然な次読候補である。前者は最適化、後者は生成スキルの有効性と負の転移を見る地図になる。",{"title":270,"searchDepth":271,"depth":271,"links":272},"",2,[273,274,282,283,286,287,288,289],{"id":12,"depth":271,"text":12},{"id":46,"depth":271,"text":46,"children":275},[276,278,279,280,281],{"id":50,"depth":277,"text":50},3,{"id":56,"depth":277,"text":56},{"id":64,"depth":277,"text":64},{"id":74,"depth":277,"text":75},{"id":85,"depth":277,"text":85},{"id":91,"depth":271,"text":91},{"id":124,"depth":271,"text":124,"children":284},[285],{"id":139,"depth":277,"text":140},{"id":146,"depth":271,"text":146},{"id":165,"depth":271,"text":165},{"id":185,"depth":271,"text":185},{"id":209,"depth":271,"text":210,"children":290},[291,292,293,294,295,296,297,298],{"id":213,"depth":277,"text":214},{"id":220,"depth":277,"text":221},{"id":227,"depth":277,"text":228},{"id":234,"depth":277,"text":235},{"id":241,"depth":277,"text":242},{"id":248,"depth":277,"text":249},{"id":257,"depth":277,"text":258},{"id":264,"depth":277,"text":265},"2026-05-27","MUSE-Autoskill は、エージェントのスキルを一度きりの生成物ではなく、作成・記憶・管理・評価・改善のライフサイクルで育てるフレームワーク。スキルを長く生きる、経験を持つ、テスト可能で転移できる資産として読む論文。",false,"md",{},true,"\u002Fcontents\u002Fmuse-autoskill",{"title":5,"description":300},"contents\u002Fmuse-autoskill",[309,310,311,312,313],"論文まとめ","Agent Skills","Skill Lifecycle","Skill-level Memory","Paper Watch 本命","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fmuse-autoskill.png","hCgA8A2GIqPxqm2tBXmPSNhJRPYYXKfHuZZS_9bq82I",[317,321],{"title":318,"path":319,"stem":320,"children":-1},"Multi-Agent Transactive Memory","\u002Fcontents\u002Fmulti-agent-transactive-memory","contents\u002Fmulti-agent-transactive-memory",{"title":322,"path":323,"stem":324,"children":-1},"初心者が学ぶNext.js + Typescriptの使い方","\u002Fcontents\u002Fnextjs-typescript","contents\u002Fnextjs-typescript",1782055098854]