Counterfactual Trace Auditing Paper Summary

2026-05-14

#論文まとめ #Agent Skills #Trace Auditing #SWE-Skills-Bench #Claude Sonnet 4.5

どんな論文か

この論文の中心問いは、agent skill が最終的な成功率をどれだけ上げたかではなく、agent の行動をどのように変えたかをどう測るかである。多くの skill 評価は、skill を付ける前後の pass rate を比較する。しかし pass rate は、すでに解けるタスクでは ceiling effect に潰され、助ける効果と壊す効果が同時に起きた場合にも差分が見えにくい。

Counterfactual Trace Auditing、略して CTA は、同じタスク・同じベース agent について、skill ありの実行 trace と skill なしの実行 trace を対にして比較する。trace を Orientation、Implementation、Validation、Debugging、Finalization の段階に分け、段階と intent 単位で揃え、差分を divergence record として取り出す。

そのうえで CTA は、差分を Skill Influence Pattern、つまり SIP として分類する。SIP は、Procedural Scaffolding、Edge-case Prompting、Redundant Exploration、Surface Anchoring、Concept Bleed の5種類で、constructive / neutral / destructive な影響を trace 上の観測可能な形で表す。

実験は SWE-Skills-Bench の49タスクで、Claude Sonnet 4.5 を skill あり/なしで走らせた paired trace を使う。平均 pass-rate delta は +0.3 percentage points とほぼ動かない一方で、CTA は696件の behavioral divergence と522件の SIP instance を見つける。つまり、skill は結果だけ見ると効いていないように見えても、実行過程はかなり変えている。

読後に残るポイントは、skill 評価を outcome evaluation だけで終わらせず、trace-level characterization として扱うべきだということ。これは個人 assistant や Codex skills の運用でも効く。skill を増やすだけでなく、それが agent の探索・編集・検証・終了判断をどう歪めたかを見る必要がある。

Counterfactual Trace Auditing of LLM Agent Skills は、LLM agent に外部 skill を付けたときの影響を、最終成功率ではなく実行 trace の変化として測るための論文である。

対象にしている skill は、Markdown などで書かれた手順、テンプレート、例、コード片のような procedural knowledge で、agent がタスク実行時に読み込むもの。論文は、この skill が agent のファイル探索、編集、テスト実行、デバッグ、終了判断にどう効くかを監査対象にする。

使っているデータは SWE-Skills-Bench の paired trace で、同じタスクを skill あり/なしで実行したもの。著者らは Claude Sonnet 4.5 で49タスクを監査し、pass rate ではほぼ見えない skill の行動影響を取り出している。

課題と貢献

第一の貢献は、skill あり trace と skill なし trace を比較し、段階ごとの差分を取り出す CTA framework である。trace を typed events に変換し、phase segmentation、phase alignment、intent alignment、divergence extraction を行う。

第二の貢献は、Skill Influence Pattern、SIP の taxonomy である。Procedural Scaffolding と Edge-case Prompting は constructive、Redundant Exploration は neutral、Surface Anchoring と Concept Bleed は destructive な影響として扱われる。

第三の貢献は、SWE-Skills-Bench 49タスクでの observational study である。平均 pass-rate delta は +0.3 pp にすぎないが、696 divergence と522 SIP が観測され、skill が実行過程を大きく変えていることを示す。

第四の貢献は、case study によって pass rate だけでは読めない機構を示したこと。たとえば、skill が defensive shell template をほぼそのまま適用して pass rate を上げるケースや、skill の完了手順が agent の validation loop を早く閉じてしまう premature closure が見つかる。

手法のしくみ

CTA の入力は paired trace bundle である。各 bundle には、タスク仕様、skill あり trace、skill なし trace、skill document、skill あり/なしの pass rate が含まれる。

M1 では raw trace を read、write、execute、search、think の typed event stream に変換する。M2 では trace を Orientation、Implementation、Validation、Debugging、Finalization の5段階へ分割する。

M3 では、skill あり trace と skill なし trace を段階単位で揃え、さらに reasoning text の TF-IDF cosine similarity を使って intent window を対応づける。対応した action window の target、content、outcome が違う場合や、一方にしかない action がある場合に divergence record を作る。

M4 では divergence record を SIP に分類する。分類器は学習済みモデルではなく、決定的な rule-based detector で、スコアが閾値を超えた SIP を付与する。1つの divergence に複数 SIP が付くことも、何も付かないこともある。

重要なのは、CTA が causal identification を主張しているわけではないこと。著者らは counterfactual を、同じタスク・同じベースモデルの skill あり/なし paired trace という操作的な意味で使っている。sampling や platform variation までは完全に統制していない。

検証結果

全49タスクで、平均 pass-rate delta は +0.34 percentage points、中央値は0だった。45タスクは pass rate が変わらず、改善は3タスク、悪化は1タスクだけだった。

一方で、同じ paired trace からは696件の behavioral divergence と522件の SIP instance が見つかった。1タスク平均では divergence が14.2件、SIP が10.7件で、pass rate だけでは見えない行動変化がかなり多い。

baseline pass rate が0.9以上の ceiling task は37件あり、全SIPの約80%にあたる415件を含んでいた。しかしこの群の平均 pass-rate delta は -0.5 pp で、成功率では skill の影響をほとんど表現できない。

mid-range task は10件で、平均 pass-rate delta は +3.6 pp と改善の主な余地を持っていた。ただし token overhead は平均2.77倍で、skill が役に立つ場合でもかなり高い読み込み・探索コストを伴うことがある。

SIP の分布も baseline bucket ごとに違う

ceiling task では Surface Anchoring が最多で、mid / floor task では Edge-case Prompting が目立つ。つまり、どの skill effect が起きやすいかは、タスクの難易度や baseline の余地と結びついている。

限界と読みどころ

一番大きな制約は、モデルとベンチマークが限定されていること。実験は Claude Sonnet 4.5 と SWE-Skills-Bench に基づくため、SIP の頻度を他モデルや他ドメインへそのまま一般化するのは危ない。
各タスクの実行は skill あり/なしそれぞれ1回で、反復実行による分散推定はない。論文は全49タスクをカバーすることを優先しており、r=1 の観測研究として読む必要がある。
SIP detector は deterministic rule ensemble であり、人手ラベルの gold set で検証された分類器ではない。再現性と解釈性は高いが、taxonomy にない失敗は拾えない。実際、premature closure は既存5 SIP では検出されない重要ケースとして出てくる。
CTA は trace が残っていることを前提にする。agent harness が reasoning、tool call、file write、test execution を十分な粒度で記録していない場合、同じ監査は難しい。これは CTA の限界であると同時に、agent harness 側に必要な observability 要件でもある。

読みながら見る図表や節

Figure 1 は CTA pipeline の全体図。paired trace を typed event にし、phase segmentation、alignment、divergence extraction、SIP annotation へ流す構造を確認するのに向いている。
Table 1 は baseline bucket ごとの pass-rate delta、token overhead、divergence 数、SIP 数を並べている。特に ceiling task が415 SIP を含むのに pass rate ではほぼ動かない点を見ると、この論文の主張がつかみやすい。
Table 2 は SIP category の分布。Surface Anchoring、Edge-case Prompting、Concept Bleed などが baseline bucket ごとにどう変わるかを見る表で、skill がどのように効くかを読む入口になる。
case study section は、pass-rate gain と望ましくない機構が同時に起きる例、token cost だけ増える例、premature closure のように taxonomy 外の失敗が起きる例を具体的に見る場所。

次に読むなら

この論文は、agent skill を作る話ではなく、作った skill が agent の実行過程をどう変えたかを監査する話として読むとよい。
次に読むなら、SWE-Skills-Bench、SkillTester、TRACE、SWE-PRM のような trajectory / skill evaluation 系の論文と並べると位置づけが見えやすい。
実務に引くなら、skill を追加したあとに pass/fail だけを見るのではなく、読み込み量、探索先、余計な artifact、validation loop、終了条件を比較する mini CTA を作れないか、という方向に考えるのがよい。

Counterfactual Trace Auditing Paper Summary

どんな論文か

課題と貢献

手法のしくみ

検証結果

SIP の分布も baseline bucket ごとに違う

限界と読みどころ

読みながら見る図表や節

次に読むなら

読後Q&A

この論文の中心問いは？

なぜ pass rate だけでは足りないの？

CTA は何を比較する？

Skill Influence Pattern とは？

constructive な SIP はどれ？

destructive な SIP はどれ？

実験で一番大きな発見は？

ceiling task で何が起きた？

mid-range task はどう違う？

この論文を自分の skill 運用に使うなら？

この論文の注意点は？

一言でいうと？