[{"data":1,"prerenderedAt":282},["ShallowReactive",2],{"content-\u002Fcontents\u002Fxcientist-research-harness":3,"surroundPost-\u002Fcontents\u002Fxcientist-research-harness":276},{"id":4,"title":5,"body":6,"createdAt":259,"description":260,"draft":261,"extension":262,"meta":263,"navigation":264,"path":265,"seo":266,"stem":267,"tags":268,"thumbnail":274,"updatedAt":259,"__hash__":275},"contents\u002Fcontents\u002Fxcientist-research-harness.md","Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness",{"type":7,"value":8,"toc":229},"minimark",[9,13,17,20,23,26,29,32,35,38,41,44,47,50,53,56,59,62,65,68,71,74,77,80,83,86,90,93,96,99,103,106,109,112,115,131,134,148,152,156,159,163,166,170,173,177,180,184,187,191,194,198,201,205,208,212,215,219,222,226],[10,11,12],"h2",{"id":12},"この論文の何がいいか",[14,15,16],"p",{},"この論文の良さは、AI scientist を魔法の自動論文生成器ではなく、証拠と検証を持つ作業環境として見直している点にある。研究支援 AI で本当に怖いのは、失敗することそのものより、どこで根拠から離れたかが見えないことだ。",[14,18,19],{},"ゆうきの文脈では、paper-watch、wiki、article-page-publisher、グラレコ、公開ページ化がすでに小さな research harness になっている。Xcientist は、それをより明示的に、paper graph、idea state、validation contract、repair trace、claim audit といった部品へ分ける語彙をくれる。",[14,21,22],{},"特に使えるのは、最終成果物ではなく過程を評価する視点だ。論文候補を選ぶ、読む、要約する、公開ページにする、運用改善へ戻す。この流れで、どこに証拠があり、どこが推測で、どこから次の実験に進むのかを分けられるようになる。",[10,24,25],{"id":25},"どんな論文か",[14,27,28],{},"この論文の中心は、AI scientist を単に論文を生成するシステムとして見るのではなく、研究過程そのものを外部化された harness として設計することにある。研究には、先行研究の読解、問題の立て方、アイデア生成、実装、実験、失敗修復、結果解釈、最終主張の境界づけが含まれる。著者らは、この一連の過程をモデル内部の暗黙推論に閉じず、検査できるアーティファクトとして残す。",[14,30,31],{},"提案システムの Xcientist は、研究合成と実験検証を分けて扱う。研究合成では、論文から証拠や制約を取り出し、paper graph や idea state として蓄積する。実験検証では、実装計画、評価条件、ablation、修復履歴、主張監査を validation contract として扱う。ここが普通の AI scientist 論文と違って、最終 artifact だけではなく、artifact へ至る足場が主役になる。",[14,33,34],{},"読みどころは claim drift という問題設定だ。AI がもっともらしい研究アイデアや手法説明を作っても、実際に走るコード、評価、ablation、結果解釈がその主張とずれていくことがある。Xcientist は、証拠、設計、実装、実験、修復、主張境界をつないで、最後の論文的な説明がどこまで検証済みかを追えるようにする。",[14,36,37],{},"これは、おい丸の paper-watch や article-page-publisher にかなり近い。毎日の論文候補選定も、ただ面白い論文を拾うだけなら探索ログで終わる。だが、読んだ論文を公開ページ、wiki、グラレコ、次の運用改善へつなげるなら、証拠と判断の流れを残す harness が必要になる。この論文は、その作業を research harness として言語化する地図になる。",[14,39,40],{},"もちろん、これは簡単な仕組みではない。外部化されたアーティファクトを持つほど、証拠の品質、contract の設計、修復履歴の扱い、最終主張の慎重さが重くなる。けれど、AI に研究や調査を任せるなら、最終出力の華やかさより、途中の証拠が追えることを評価する必要がある、という主張は強い。",[14,42,43],{},"Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness は、AI scientist の研究過程を、検査可能な外部アーティファクトとして残すためのシステム論文である。",[14,45,46],{},"論文の焦点は、研究アイデアを作ることだけではない。先行研究からの証拠、アイデア状態、検証契約、ablation、修復履歴、最終主張の監査までをつなぎ、研究のどの部分が何に支えられているかを追えるようにする。",[14,48,49],{},"著者らの問題意識は、AI が作る研究 artifact がもっともらしく見えても、最終的な主張、実装、実験結果、機構説明がずれる claim drift を起こしうることにある。",[10,51,52],{"id":52},"課題と貢献",[14,54,55],{},"第一の貢献は、AI scientist の research synthesis と validation を、モデル内部ではなく research harness 側の永続状態として外部化したこと。",[14,57,58],{},"第二の貢献は、paper graph、idea state、validation contract、ablation、repair trace、claim audit といった中間アーティファクトを、研究過程の説明責任を担う部品として整理したこと。",[14,60,61],{},"第三の貢献は、training-free memory systems、graph-structured traffic forecasting、multi-scale physics-informed neural networks という複数領域で、問題設定から機構設計、検証、限定された改訂までの軌跡を残す設計を示したこと。",[14,63,64],{},"第四の貢献は、AI scientist の評価軸を、最終的な論文らしさやスコアだけでなく、証拠に基づく主張境界、修復可能性、component attribution に広げていること。",[10,66,67],{"id":67},"手法のしくみ",[14,69,70],{},"まず、先行研究や関連証拠から paper graph を作る。これは単なる参考文献リストではなく、どの主張、制約、既存手法、未解決点が今回の研究アイデアを支えるかを辿るための grounding state になる。",[14,72,73],{},"次に、idea state を進化させる。研究アイデアは一発の文章ではなく、仮説、対象タスク、機構、評価条件、期待される差分を持つ状態として扱われる。後の実装や検証は、この状態に対して行われる。",[14,75,76],{},"実装と実験では validation contract を使う。何を実装すべきか、何を評価すべきか、どの ablation が必要か、どの結果なら主張できるかを契約として置き、実行 artifact と照合する。",[14,78,79],{},"失敗や不整合が出た場合は、単に再生成するのではなく repair trace として残す。どの証拠、どの実装、どの評価が問題で、どのような限定的修正をしたかを後から見られるようにする。",[14,81,82],{},"最後に claim audit を行う。最終説明や論文的な主張が、実験で支えられる範囲を超えていないか、mechanism claim と runnable artifact がずれていないかを確認する。",[10,84,85],{"id":85},"検証結果",[87,88,89],"h3",{"id":89},"研究領域の幅",[14,91,92],{},"論文は、training-free memory systems、graph-structured traffic forecasting、multi-scale physics-informed neural networks の三つの方向で、Xcientist の研究軌跡を示している。",[87,94,95],{"id":95},"過程の追跡可能性",[14,97,98],{},"見るべき結果は単一スコアだけではなく、問題設定、機構提案、実装、評価、ablation、修復、最終主張がアーティファクトとしてつながることにある。",[87,100,102],{"id":101},"claim-drift-への対処","claim drift への対処",[14,104,105],{},"生成された研究説明と実際の executable artifact がずれるリスクに対し、validation contract と claim audit によって、どこまで言えるかを制限する設計になっている。",[87,107,108],{"id":108},"実務的な示唆",[14,110,111],{},"AI に研究や調査を任せる場合、最終レポートだけでなく、証拠グラフ、変更履歴、検証条件、失敗修復、未確認の境界を残すことが重要だと示している。",[10,113,114],{"id":114},"課題と議論",[116,117,118,122,125,128],"ul",{},[119,120,121],"li",{},"仕組みは重い。Paper graph、idea state、validation contract、repair trace、claim audit をすべて持つには、単発の要約よりずっと多くの状態管理が必要になる。",[119,123,124],{},"証拠品質に依存する。外部化された形を持っていても、元の論文理解や evidence extraction が弱いと、きれいな artifact に弱い根拠が載るだけになる。",[119,126,127],{},"validation contract の設計が難しい。何を検証すれば主張できるのかは分野ごとに違うため、汎用テンプレだけでは足りない。",[119,129,130],{},"AI scientist の自動化を強く進めるほど、人間がどこで判断し、どこを保留し、どこから公開してよいかという governance も必要になる。",[10,132,133],{"id":133},"次に読むなら",[116,135,136,139,142,145],{},[119,137,138],{},"Code as Agent Harness と並べると、code harness と research harness の違いが見える。前者は実行基盤、後者は研究証拠と検証過程の外部化に重心がある。",[119,140,141],{},"Argus: Evidence Assembly for Scalable Deep Research Agents と並べると、deep research を証拠グラフとして組み立てる視点と接続できる。",[119,143,144],{},"Agents-K1 と並べると、agent-native knowledge graph と research harness の関係が見える。",[119,146,147],{},"paper-watch の運用では、本命候補を選んだあと、なぜその論文が後続 artifact になるのか、どの証拠を確認するのか、どこが未確認なのかを残す方向に使える。",[10,149,151],{"id":150},"読後qa","読後Q&A",[87,153,155],{"id":154},"この論文の中心問いは","この論文の中心問いは？",[14,157,158],{},"AI scientist の研究過程を、モデル内部の暗黙推論ではなく、証拠、アイデア、検証、修復、主張監査を持つ外部 harness として設計できるか、という問い。",[87,160,162],{"id":161},"research-harness-とは何","research harness とは何？",[14,164,165],{},"研究の入力、証拠、仮説、実装、実験、修復、主張境界を、検査可能なアーティファクトとして保持し、AI の研究行動を支える外部実行基盤。",[87,167,169],{"id":168},"普通の-ai-scientist-論文と何が違う","普通の AI scientist 論文と何が違う？",[14,171,172],{},"最終的な論文生成や実験自動化だけでなく、研究がどの証拠から始まり、どんな idea state を経て、どの validation contract で検証され、どこを修復したかを残す点が違う。",[87,174,176],{"id":175},"claim-drift-とは","claim drift とは？",[14,178,179],{},"生成された説明や機構主張が、実際の実装、評価、ablation、結果から少しずつずれていくこと。最終出力だけを見るともっともらしくても、根拠との接続が弱くなる。",[87,181,183],{"id":182},"paper-graph-は何に使う","paper graph は何に使う？",[14,185,186],{},"先行研究の主張、制約、未解決点、関連手法を、今回のアイデアや検証条件へつなげる grounding state として使う。単なる参考文献リストではない。",[87,188,190],{"id":189},"validation-contract-は何をする","validation contract は何をする？",[14,192,193],{},"実装、評価、ablation、修復、最終主張の条件を明示し、研究アイデアが executable artifact と実験結果でどこまで支えられるかを確認する。",[87,195,197],{"id":196},"repair-trace-を残す意味は","repair trace を残す意味は？",[14,199,200],{},"失敗したときに再生成で流さず、どこが問題で、何を直し、主張範囲がどう変わったかを追えるようにするため。",[87,202,204],{"id":203},"実務で使える読み方は","実務で使える読み方は？",[14,206,207],{},"AI に調査や論文読みを任せる時、最終要約だけではなく、証拠、未確認、判断、修正履歴、主張境界を成果物に残す設計として読む。",[87,209,211],{"id":210},"おい丸運用にはどう効く","おい丸運用にはどう効く？",[14,213,214],{},"paper-watch で本命を選ぶ、wiki に保存する、公開ページを作る、グラレコを生成するという流れを、単なる作業列ではなく research harness として整理できる。",[87,216,218],{"id":217},"一番注意すべき限界は","一番注意すべき限界は？",[14,220,221],{},"外部化されたアーティファクトがあるだけでは十分ではないこと。証拠抽出、contract 設計、検証、主張監査が弱ければ、見た目だけ整った不確かな研究過程になる。",[87,223,225],{"id":224},"この論文を一言でいうと","この論文を一言でいうと？",[14,227,228],{},"AI に研究させるなら、最終論文ではなく、証拠から主張までの研究過程をハーネスとして残そう、という論文。",{"title":230,"searchDepth":231,"depth":231,"links":232},"",2,[233,234,235,236,237,244,245,246],{"id":12,"depth":231,"text":12},{"id":25,"depth":231,"text":25},{"id":52,"depth":231,"text":52},{"id":67,"depth":231,"text":67},{"id":85,"depth":231,"text":85,"children":238},[239,241,242,243],{"id":89,"depth":240,"text":89},3,{"id":95,"depth":240,"text":95},{"id":101,"depth":240,"text":102},{"id":108,"depth":240,"text":108},{"id":114,"depth":231,"text":114},{"id":133,"depth":231,"text":133},{"id":150,"depth":231,"text":151,"children":247},[248,249,250,251,252,253,254,255,256,257,258],{"id":154,"depth":240,"text":155},{"id":161,"depth":240,"text":162},{"id":168,"depth":240,"text":169},{"id":175,"depth":240,"text":176},{"id":182,"depth":240,"text":183},{"id":189,"depth":240,"text":190},{"id":196,"depth":240,"text":197},{"id":203,"depth":240,"text":204},{"id":210,"depth":240,"text":211},{"id":217,"depth":240,"text":218},{"id":224,"depth":240,"text":225},"2026-06-18","この論文は、AI scientist の研究過程をモデル内部の暗黙推論に閉じ込めず、証拠、アイデア、実験、修復、主張監査を永続アーティファクトとして外部化する research harness として読むと面白い。",false,"md",{},true,"\u002Fcontents\u002Fxcientist-research-harness",{"title":5,"description":260},"contents\u002Fxcientist-research-harness",[269,270,271,272,273],"論文まとめ","AI Scientist","Research Harness","Evidence Artifacts","Validation","\u002Farticle-pages\u002Fdocs\u002Fassets\u002Fgraphic-recordings\u002Fxcientist-research-harness.png","1E6NgQrE2BkcvxRQt4D_BKCuhPmLtDL4gX5PRNc8_Sw",[277,281],{"title":278,"path":279,"stem":280,"children":-1},"【学び】「なぜ、あなたの仕事は終わらないのか」を読んだ感想など","\u002Fcontents\u002Fwhy_not_finish_job","contents\u002Fwhy_not_finish_job",null,1782055096895]