MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

2026-05-27

#論文まとめ #Agent Skills #Skill Lifecycle #Skill-level Memory #Paper Watch 本命

どんな論文か

MUSE-Autoskill の中心的な発想は、agent skill を「便利な手順書」ではなく、作成され、記憶を持ち、管理され、テストされ、失敗から改善される長寿命の資産として扱うことにある。モデル重みを更新するのではなく、モデルの外側にあるスキルバンクと運用ループを育てる。

問題意識はかなり実務寄りである。既存の自動スキル生成は、作成と利用が分離しやすく、スキルごとの経験が残らず、単体テストや実行時フィードバックで継続改善されにくい。結果として、スキルは増えても、再利用性や信頼性が伸びにくい。

MUSE-Autoskill はこの問題を、スキルのライフサイクルとして定式化する。エージェントは ReAct ループの中で、既存スキルを探し、足りなければ skill_create で新しいスキルを作り、SKILL.md、scripts、tests、resources を含むパッケージとして保存する。登録前にはテストを走らせ、失敗すれば修正する。

面白いのは、スキル単位の記憶を持つ点である。全体の長期記憶とは別に、各スキルが過去の注意点、失敗モード、入力形式の癖、性能上の caveat を持つ。これにより、スキル本体を肥大化させすぎず、経験だけを横に育てられる。

LLM エージェントが使うスキルを、作って終わりの静的 artifact ではなく、creation、memory、management、evaluation、refinement の lifecycle で扱う論文である。

MUSE-Autoskill は、スキルをオンデマンドで作成し、タスクをまたいで保存・再利用し、単体テストと実行フィードバックで改善する。さらに、各スキルに紐づく経験を蓄積する skill-level memory を導入する。

評価では SkillsBench の 51 タスクを使い、GPT-5.5 を背骨にした MUSE-Autoskill、Codex、Hermes を比較している。モデル能力ではなく、エージェントシステム設計とスキル運用の差を見る構成である。

課題と貢献

スキルライフサイクルを定義する

作成、記憶、管理、評価、改善を、実用的な skill-centric agent system の必須段階として整理する。

実行ループ内でスキルを作る

skill_create をランタイムの中から呼び出し、実行時文脈に合ったスキルパッケージを作成する。

スキル単位の記憶を持つ

各スキルに .memory.md を紐づけ、既知の失敗モードや入力形式の癖を後続タスクで使えるようにする。

テストで登録を gate する

生成されたスキルは tests/ を通過した時だけスキルバンクに登録され、失敗した場合は修正ループに入る。

生成スキルの転移を評価する

MUSE が作ったスキルを別エージェントの Hermes に入れても性能が上がることを確認している。

手法のしくみ

エージェントは ReAct ループで、計画、行動、観察を繰り返す。

既存スキルで足りる場合は、スキルカタログから該当スキルを選び、SKILL.md を読んで実行する。

足りない場合は skill_create が、目的、入力、期待出力から SKILL.md、scripts、resources、tests を含むスキルパッケージを作る。

評価器がスキルの単体テストを sandbox 内で実行し、通った場合だけスキルバンクへ登録する。

失敗した場合は、エラー情報をもとに更新器がスキルを修正し、再びテストする。

スキル利用時の観察、失敗、入力形式の癖などは、そのスキルに紐づく記憶へ追記される。

長いタスクでは、会話履歴を DAG として保持しつつ、アクティブ文脈だけを段階的に圧縮する。

検証結果

人間が作ったスキルを入れると、MUSE-Autoskill、Codex、Hermes のすべてで成功率が 13〜15 ポイント程度改善した。

MUSE-Autoskill は人間スキルありで 68.40% に到達し、三つのエージェントの中で最も高い全体スコアだった。

MUSE-Autoskill が成功軌跡からスキルを生成できた 35 タスクでは、生成スキル利用時に 87.94% に到達し、人間スキル利用時を上回った。

生成スキルを Hermes にそのまま注入しても +10.51pp の改善があり、スキルが特定ランタイムだけの振る舞いではなく、外部化された知識資産として働く可能性を示した。

一方で、16 タスクでは成功軌跡がなくスキル生成に失敗した

さらに、特定 run の前提に寄りすぎて退行するスキルもあった。

限界と読みどころ

評価は SkillsBench の 51 タスクに限られる。94 タスク全体ではなく、除外タスクにはより複雑な Docker 環境が含まれる可能性がある。
生成スキルは単一の成功軌跡から作られるため、その run に固有の前提やノイズへ過適合する可能性がある。
別エージェントへの転移は MUSE-Autoskill から Hermes 方向で確認されているが、より多くの agent runtime での一般性は未確認である。
スキル単位の記憶を共有するか、個人・環境ごとに分けるかは運用上の設計論点である。論文でもスキル本体と経験記憶は分けられている。

読みながら見る図表や節

Figure 1 は、三つの GPT-5.5-backed agents を SkillsBench の領域別 accuracy で比較する。MUSE-Autoskill は全体で 68.4% と最も高い。
Figure 2 は、スキル作成、記憶、管理、評価、改善が一つのライフサイクルとして回る構造を示す。ここがこの論文の中心図である。
agent flow の図は、retrieve-or-create、evaluate、refine、memory append の運用ループを見るために重要である。
skill anatomy の分析では、MUSE 生成スキルが人間スキルより長く、手順、失敗モード、検証方法を細かく書く傾向が示される。
cost / latency 図では、スキルがトークンを増やす一方で、探索や試行錯誤を減らし、遅延や turn 数を下げる場合があることが示される。

次に読むなら

SkillOpt とセットで読む。SkillOpt はスキル文書をどう最適化するか、MUSE-Autoskill はスキルバンクをどう運用するかを扱う。
From Raw Experience to Skill Consumption を読むと、生成スキルがいつ効き、いつ負の転移を起こすかの見取り図が作れる。
Dynamic Skill Lifecycle Management を読むと、retain / retire / expand のようなスキル退役・拡張管理へ進める。
Counterfactual Trace Auditing を読むと、スキルが成功率以外に agent trajectory をどう変えるかを監査する視点が得られる。
おい丸運用へ引き込むなら、learn-from-logs の出力を、全体 MEMORY、特定 skill の経験記憶、テスト、退役候補に分ける設計を試したい。

MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

どんな論文か

課題と貢献

スキルライフサイクルを定義する

実行ループ内でスキルを作る

スキル単位の記憶を持つ

テストで登録を gate する

生成スキルの転移を評価する

手法のしくみ

検証結果

一方で、16 タスクでは成功軌跡がなくスキル生成に失敗した

限界と読みどころ

読みながら見る図表や節

次に読むなら

読後Q&A

この論文の中心問いは？

SkillOpt と何が違う？

スキル単位の記憶は何が嬉しい？

自動生成スキルが人間スキルを上回った理由は？

どこが危ない？

おい丸の運用にどう効く？

実務で読むならどこから？

次に何を読むべき？