Direct Corpus Interaction | Paper Summary

2026-05-11 UTC

#論文まとめ #Agentic Search #Direct Corpus Interaction

どんな論文か

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction は、 agentic search における retrieval を、単なる semantic similarity のランキング問題としてではなく、エージェントが corpus と直接やり取りする探索問題として見直す論文。

中心にあるのは、固定の top-k retrieval だけでは複雑な調査に必要な証拠を集めきれないのではないか、という問い。 agent が grep、file read、shell command、軽量 script のような操作で資料集合を直接たどる場面を、 retrieval の拡張として扱う。

従来の retrieval では、検索対象はしばしば passage や document chunk として扱われる。ユーザーの質問を query に変換し、意味的に近い chunk を取り出し、それをモデルの context に入れる。この流れは多くの質問応答では有効だが、調査タスクでは「最初の query が十分に良い」「必要な証拠が上位に出る」「取れた chunk だけで判断できる」という前提が崩れやすい。

agentic search では、検索は一回の retrieval call では終わらない。最初に見つけた情報から別の語を試し、ファイル構造を見て、関連箇所を開き、足りない証拠を探し直す。つまり、検索は ranking ではなく、観察と行動を繰り返すプロセスになる。この論文の Direct Corpus Interaction は、そのプロセスを retrieval の外側の実装都合ではなく、中心的な能力として扱う。

重要なのは、corpus を「embedding index の裏側にある文字列集合」としてではなく、agent が操作できる環境として見ること。 corpus にディレクトリ、ファイル、見出し、引用、表、ログ、コード、メタデータがあるなら、それらの構造を使って探索できる。そのため、retrieval の評価も「近い文書を当てたか」だけでは足りず、「調査に必要な証拠へ到達できたか」に寄っていく。

この見方は、RAG を否定するというより、RAG だけでは表しにくかった agent の探索行動を前に出すもの。検索器、tool use、 corpus design、evidence tracking、評価タスクをひと続きに見直すための論文として読むと入りやすい。

対象

agentic search、retrieval、evidence gathering、tool use。

問題設定

意味的に近い文書を取るだけでは、調査に必要な証拠集合を作れない場面がある。

提案の方向

agent に corpus を直接操作する行動を与え、途中結果から探索を進める。

課題と貢献

課題: semantic similarity だけでは調査が浅くなる

query に近い文書を取るだけだと、複数の証拠を組み合わせる調査や、途中で探索方針を変える作業に弱い。

課題: agentic search は一回の検索で終わらない

agent は調べながら仮説を変え、次に読む場所や探す語を変える。その過程自体を retrieval として扱う必要がある。

貢献: Direct Corpus Interaction という見方

corpus を直接操作する行動を retrieval の中核に置き、agentic search の設計対象として扱う。

貢献のポイントは、検索器のスコアを少し上げることではなく、 search agent が資料集合をどう触れるべきかを問題設定として前に出しているところにある。

手法のしくみ

この整理では、論文の方法を「query を投げる retrieval」から「corpus に対する行動列」へ広げるものとして読む。 agent は最初の検索結果だけを読むのではなく、得られた手がかりから次の操作を選ぶ。

従来型 retrieval

query を作る
embedding や lexical search で上位文書を取る
取れた文書を回答に使う

Direct Corpus Interaction

corpus の構造を見ながら探索する
grep、file read、shell、軽量 script のような操作で証拠を探す
途中結果から次の探索行動を変える

見るべきキーワード

direct corpus interaction semantic similarity agentic search tool use evidence evaluation

検証結果

本文では、agentic search tasks に対して、semantic similarity retrieval と direct corpus interaction 的な探索がどのように比較されているかを確認したい。特に重要なのは、単一 passage の関連度ではなく、調査に必要な証拠をどれだけ集められるかという評価軸。

確認点 1

評価タスクは、単発検索ではなく複数ステップの調査を要求しているか。

確認点 2

agent が使える corpus 操作は何で、どこまで自由度があるか。

確認点 3

性能差は retrieval スコアではなく、最終回答や証拠集合の質として見られているか。

限界と読みどころ

direct corpus interaction は強いが、自由度を増やすほど、無駄な探索、誤った手がかりへの固執、再現性の低下も起きやすい。そのため、本文では「どんな corpus 操作を許すか」「探索過程をどう評価するか」「tool use のコストをどう扱うか」を見るのが大事。

semantic retrieval が失敗しやすいケースは、実務の wiki 探索にも似ているか。
直接操作できる corpus は、どう整理されている必要があるか。
agent が corpus を歩くとき、どこで無駄読みや hallucination が増えるか。
探索行動のログや証拠の引用は、再現可能な形で残るか。

読後Q&A

Q. RAG と何が違う？

A. RAG が外部文書を検索して回答に使う枠組みだとすると、この論文は agent が corpus を操作しながら探索する行動面を強く見る。

Q. ただの tool use では？

A. tool use ではある。ただし焦点は、tool を呼ぶこと自体ではなく、corpus から証拠を集める search protocol にある。

Q. 何が難しい？

A. 探索の自由度が増えるほど、コスト、再現性、評価、誤探索の制御が難しくなる。

Q. semantic similarity は不要になる？

A. 不要ではない。最初の候補を出す、探索の入口を作る、関連箇所を絞る用途では有効。ただし、それだけで調査全体を完結させるには弱い場面がある。

Q. なぜ top-k retrieval だけでは足りない？

A. 複雑な調査では、必要な証拠が一つの chunk にまとまっていないことが多い。複数箇所を見比べたり、途中で query を変えたりする必要がある。

Q. corpus を直接触るとは何をすること？

A. ファイル一覧を見る、検索語で grep する、該当箇所を開く、周辺文脈を読む、必要なら軽い script で集計する、といった操作を指す。

Q. ここでいう interface は何？

A. agent が corpus にアクセスする窓口のこと。従来は query を投げて top-k chunk を受け取る retrieval API が窓口になりがちだったが、この論文は file read や grep のように corpus 自体を操作できる窓口へ広げる。

Q. agentic search は既に corpus を歩くものでは？

A. 広い意味ではそう言える。ただしこの論文が批判している既存の agentic search は、agent が query を改善して retriever に投げる形が中心。agent が corpus のファイル構造や本文を直接たどる動きは、Direct Corpus Interaction 側の主張として扱われている。

Q. 最近のコーディングエージェントがやっていることと同じ？

A. 大枠では同じと見てよい。grep する、ファイルを読む、shell で絞る、周辺文脈を見る、仮説を立ててまた検索する、という行動は Claude Code、Codex、SWE-agent 系のコーディングエージェントがすでに日常的にやっている。

A. ただし、この論文の価値は新しいアルゴリズムを出したことより、そうした実務的な探索行動を Direct Corpus Interaction として定式化し、検索・RAG の文脈で評価したところにある。検索品質を「近い文書を取れるか」だけでなく「エージェントがどの粒度で証拠を観察・検証・操作できるか」で見る、という検索インターフェース解像度の言語化がいちばんおいしい。

Q. 普段の wiki / repo 探索とはどちらに近い？

A. grep して、catalog を見て、raw や pages を開き、途中で探し方を変える探索は、この論文の分類では Direct Corpus Interaction に近い。だから実務感覚としては「それ普段やっているやつでは？」と感じやすい。

Q. 問題設定の提起が主な貢献？

A. 主な貢献の一つ。新しい巨大モデルを出すというより、agentic search のボトルネックを model reasoning だけでなく corpus access interface にも置き直した点が大きい。そのうえで、直接操作できる setup が有効な場面を実験で示している。

Q. 結論は何？

A. agentic search では、retriever に query を投げて top-k chunk を受け取るだけでは狭すぎる場面がある。agent に corpus を直接操作する手段を渡すと、複数ステップの調査や証拠探索で強くなる可能性がある。

Q. 結果として、どういう時に強い？

A. 複数ステップで証拠を探す時に強い。multi-hop QA、reasoning-intensive retrieval、BrowseComp 系のように、最初の semantic top-k だけでは必要な証拠が揃わないタスクで差が出ている。

Q. multi-hop QA では何が効いている？

A. 一つの chunk に答えがまとまっていない時、agent が手がかりを見つけ、別の場所へ移り、証拠をつなぐ動きが効く。論文側の表では DCI-Agent-Lite が平均で既存 retrieval agent を大きく上回り、DCI-Agent-CC はさらに伸びている。

Q. IR ranking ではどこが強い？

A. BRIGHT のような reasoning-heavy な検索で強い。単語や意味の近さだけでなく、問題の条件を解きほぐして文書を探す必要があるため、corpus を直接たどれることが効いている。

Q. 逆に弱い、または過剰な場面は？

A. 答えが素直に semantic retrieval で取れる fact lookup、関連 chunk が明確に近い場所にある検索、コストをかけたくない短い質問では、普通の retriever の方が速くて十分なことがある。

Q. 実務感覚ではどう読めばいい？

A. rg して、ファイルを開いて、catalog を見て、raw に戻り、別キーワードで探すような探索が必要な時に DCI は強い。近い chunk を一つ取れば終わるなら、従来 retrieval でよい。

Q. この論文の評価で見たい点は？

A. 直接操作できることで、最終回答の正しさだけでなく、必要な証拠へ到達できているか、探索過程が妥当かがどう扱われているか。

Q. agent に自由に探索させると危なくない？

A. 危ない。無駄な探索、誤った証拠への固執、出典の取り違え、コスト増が起きる。だから操作の設計、ログ、評価、停止条件が重要になる。

Q. corpus 側には何が求められる？

A. 構造が見えること、リンクや見出しが壊れていないこと、元資料と整理済みメモを辿れること、同じ情報が重複して迷子にならないこと。

Q. これは deep research agent とどうつながる？

A. deep research agent は、検索、読解、比較、引用、再検索を繰り返す。Direct Corpus Interaction は、その探索部分をより明示的に設計する考え方になる。

Q. 実装では何をログに残すべき？

A. どの query を試したか、どのファイルや箇所を開いたか、どの証拠を採用・棄却したか、最終回答のどこに使ったかを残したい。

Q. 読後に一番残る見方は？

A. retrieval は「近い文書を取る機能」ではなく、agent が資料環境を歩いて証拠を作るプロセスとして設計できる、という見方。

次に読むなら

LongSeeker

長期探索中に context をどう圧縮・巻き戻し・整理するかを見る候補。

Rethinking Reasoning-Intensive Retrieval

agentic search に必要な evidence portfolio を retrieval 側から考える候補。

AgenticRAG

enterprise search の上に agent harness を重ねる実用品寄りの候補。

← 前ページへCtx2Skill → 次ページへ初心者から中級者のためのDocker理解