LLM・AIエージェント論文でよく見るベンチマークの読み方
LLM や AI エージェントの論文を読んでいると、評価表にたくさんのベンチマーク名が並びます。MMLU、GPQA、HumanEval、SWE-bench、Terminal-Bench、LongMemEval、SkillEvolBench。名前は見たことがあっても、「このベンチマークで改善した」と言われたときに、それが何の改善なのかをすぐ説明するのは意外と難しいです。
同じ「性能向上」でも、MMLU が伸びた話と SWE-bench が伸びた話では意味が違います。前者は知識問題や推論問題の話で、後者は既存リポジトリを読んで修正する能力の話です。Terminal-Bench ならターミナル環境で作業を進める力、LongMemEval なら長期記憶、SkillEvolBench なら経験を再利用可能な手順に変える力が論点になります。
この記事では、LLM・AI エージェント論文でよく出てくるベンチマークを、評価対象ごとに整理します。目的は、ベンチ名を暗記することではありません。評価表を見たときに、「この論文は何ができるようになったと言いたいのか」を切り分けるための地図として使うことです。
モデル基礎性能系
新モデル発表でまず目に入るのが、知識・推論・数学・マルチモーダル理解を測るベンチです。モデルの基礎能力を見るには便利ですが、実際のコードベースを直したり、ターミナルで作業を完走したりできるかは別の評価で見る必要があります。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| MMLU | 幅広い分野の知識と問題解決能力 | 基礎能力の共通言語として便利。ただし上位モデルでは差が出にくくなりやすい | 2020-09 |
| MMLU-Pro | MMLU より難しい知識・推論問題 | 選択肢数を増やし、より推論寄りにした評価として読む | 2024-06 |
| GPQA | 専門家レベルの科学知識と推論 | Diamond サブセットは、特に難しい評価として使われることが多い | 2023-11 |
| GSM8K | 小中学校レベルの文章題での多段計算 | 最近の強いモデルでは飽和しやすく、差を見るには弱くなることがある | 2021-10 |
| MATH / AIME 系 | 競技数学寄りの問題解決 | 解答だけを見るのか、途中推論や採点形式まで見るのかで意味が変わる | 2021-03 以降 |
| MMMU / MathVista | 画像を含む専門知識・数学推論 | 画像理解と推論能力が混ざるため、どちらで伸びたかを分けて見る | 2023-10 以降 |
このカテゴリで高いスコアが出ているなら、知識問題や推論問題には強いと読めます。ただし、実務やエージェント用途ではここだけでは足りません。モデルが知っていることと、環境の中で行動できることは別物です。
コード生成系
コード生成ベンチは、自然言語の仕様から短いコードを書き、テストに通るかを見るものが中心です。小さな関数生成や競技プログラミング寄りの力を見るには便利ですが、既存の大きなリポジトリを読んで修正する評価とは分けて読みます。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| HumanEval | 関数の説明文から Python 関数を生成する能力 | 小さな関数生成の指標。実務コード修正とは別物として読む | 2021-07 |
| MBPP | 基本的な Python プログラム合成 | 入門的な問題が中心で、基礎的なコード生成力の目安になる | 2021-08 |
| LiveCodeBench | 新しい競技プログラミング問題への対応 | 継続的に新問を集めるため、古典的なベンチより汚染対策に強い | 2024-03 |
| BigCodeBench | 複雑な指示と関数呼び出しを含むコード生成 | HumanEval より実用寄りだが、リポジトリ単位の修正とはまだ違う | 2024-06 |
ここで改善しているなら、短いコードを書く力は伸びたと読めます。実務で欲しい「調べる、編集する、テストする、失敗から戻る」まで含む力を見るなら、次のコーディングエージェント系を見ます。
コーディングエージェント系
コーディングエージェント系では、モデルが既存リポジトリを読み、GitHub の課題を理解し、ファイルを編集し、テストを通せるかを見ます。ここからは、モデルそのものだけでなく、エージェント実装、使えるツール、実行環境、再試行回数が結果に大きく影響します。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| SWE-bench | GitHub の課題を解決するリポジトリ修正能力 | コードベースと課題説明から修正差分を生成し、テストで検証する。単なるコード生成ベンチではない | 2023-10 |
| SWE-bench Verified / Pro 系 | 人手確認済みの一部データセットや、より難しいソフトウェア開発タスク | データの範囲、実行基盤、ツール、評価条件を合わせて見ないと比較しにくい | 2024-08 以降 |
| Aider Polyglot | 複数言語でのコード編集・修正能力 | テスト結果のフィードバックや複数回試行の扱いまで確認する | 2024-12 |
このカテゴリの改善は、開発者にとって実感に近いです。ただし、同じモデルでもエージェント実装が違えばスコアは変わります。論文を読むときは、モデル名だけでなく、利用ツール、ステップ上限、テスト実行の扱い、失敗時のリカバリ方針まで見た方が安全です。
ターミナル・作業環境系
Terminal-Bench や OSWorld のようなベンチは、モデルが「答える」だけでなく、環境の中で作業できるかを見ます。コマンドを実行し、エラーを読み、ファイルを調べ、必要なら方針を変える。AI エージェントの評価では重要度が高い領域です。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| Terminal-Bench | ターミナル環境での長めの作業遂行 | ソフトウェア開発、機械学習、セキュリティ、データ分析などの作業をシェル上で進める。エージェントの実行基盤の影響が大きい | 2026-01 |
| OSWorld | GUI や OS 上での自由度の高い PC 操作 | 成功率だけでなく、ステップ数、時間、操作の安定性も実用上は重要 | 2024-04 |
| WebArena | 現実に近い Web 環境での操作能力 | Web 操作の正しさを見る。単なるブラウザ検索による質問応答とは違う | 2023-07 |
| tau-bench / tau2-bench | ユーザー対話、ポリシー遵守、ツール利用 | 顧客対応などで、会話しながら API を使い、ルールを守れるかを見る | 2024-06 以降 |
| BrowseComp | Web 閲覧を伴う情報探索 | モデル知識より、探索方針、証拠選択、ブラウザ操作が効く | 2025-04 |
SWE-bench がリポジトリ修正に寄った評価だとすれば、Terminal-Bench はターミナルを作業環境として使えるかを広く見ます。どちらもエージェント系なので、モデル単体のランキングとして読みすぎない方がよいです。
長文・検索・RAG 系
長いコンテキストを扱えることと、その中から必要な情報を使えることは違います。長文・検索系のベンチは、長い入力、複数文書、埋もれた情報、検索結果をどこまで扱えるかを評価します。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| LongBench | 長文理解の総合力 | 単一文書の質問応答、複数文書の質問応答、要約、少数例プロンプト、コード補完などを見る | 2023-08 |
| LongBench v2 | 長文での深い理解と推論 | 検索だけでなく、長文上の推論も見る | 2024-12 |
| RULER | 実効コンテキスト長と長文内の操作能力 | 単純な埋もれた情報の検索だけでなく、複数段階の追跡や集約も見る | 2024-04 |
| Needle-in-a-Haystack 系 | 長文内の埋もれた情報を拾えるか | 分かりやすいが、現実の乱雑な検索より単純。これだけで長文理解とは言いにくい | 2023 頃 |
| エージェント型 RAG 評価 | 検索を一回で終えず、証拠探索を反復できるか | RAG の処理構成というより、検索エージェントの設計込みで見る | 2025-01 以降 |
このカテゴリでは、コンテキスト長だけを見ない方がよいです。長く入るモデルでも、関係ない情報が増えると必要な情報を使えなくなることがあります。検索器、再ランキング、文書の分割単位、ツール使用回数の上限が結果に混ざっていないかを確認します。
記憶系
記憶系は長文系に似ていますが、焦点が違います。長文系が「与えられた長い入力を処理できるか」を見るのに対し、記憶系は「過去の会話や経験を保存し、必要なときに引き出し、古くなった情報を更新できるか」を見ます。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| LongMemEval | チャットアシスタントの長期記憶 | 情報抽出、複数セッション推論、時間推論、知識更新、回答を控える判断を見る | 2024-10 |
| LoCoMo | 長期会話記憶 | 長い会話からの質問応答、出来事の要約、対話生成を見る。個人向け AI に近い | 2024-02 |
| MemoryBench 系 | 記憶と継続学習 | 保存、検索、更新のどこを測っているかを分けて見る | 2025-10 以降 |
| STALE / EvoArena / STATE-Bench 系 | 古くなった記憶、変化する環境、経験による改善 | 静的な記憶ではなく、時間変化や更新失敗を扱えるかを見る | 2026-05 以降 |
記憶系では、「覚えているか」だけを見ると読み違えます。古くなった記憶を捨てられるか、矛盾を扱えるか、ユーザーの状態変化を反映できるかで差が出ます。個人向け AI や長期運用するエージェントでは、この差が効いてきます。
スキル・手続き知識系
スキル系は記憶系と近いですが、見ているものは違います。記憶が「何を知っているか」を扱うなら、スキルは「どう動くか」を扱います。過去の実行履歴や手順を、後続タスクでも使える手続き的知識に変えられるかを見る領域です。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| SkillsBench | 人手で整えたスキルがエージェントの性能を上げるか | スキルあり、スキルなし、自動生成スキルを比較する。スキルの質が重要 | 2026-02 |
| SkillEvolBench | 経験を再利用可能な手続き的スキルに変換できるか | 実行履歴のそのまま再利用と、抽出・整理したスキルの差を見る。きれいに手順化すれば常に勝つとは限らない | 2026-05 |
| SRA-Bench | 大量のスキルから必要なスキルを探して使えるか | 検索できても、読む、採用する、実タスクで使う、までできるとは限らない | 2026-04 |
| エージェント型スキル評価 / 調査論文系 | スキルの定義、評価方法、安全性 | ベンチマークそのものより、評価観点や分類として読むことが多い | 2026-02 以降 |
スキル系は、新モデル発表の定番スコアというより、エージェント、記憶、自己改善型システムの論文でよく出る評価軸です。ここで改善したという主張は、「モデルが賢くなった」ではなく、「経験を手順に変え、探し、呼び、再利用する仕組みが良くなった」と読む方が自然です。
実務価値・専門領域系
最近は、学術問題やコード問題だけでなく、実際の仕事や専門領域に近いベンチも増えています。これらは現実に近い一方で、採点方法、採点基準、専門家評価、LLM による採点の信頼性を慎重に見る必要があります。
| ベンチマーク | 主に見るもの | 読むときの注意 | 出た時期 |
|---|---|---|---|
| GDPval | 経済的価値のある実務タスク | 仕事全体ではなく、切り出された成果物の評価として読む | 2025-10 |
| HealthBench | 医療シナリオでの応答品質と安全性 | 医療は高リスク領域のため、スコアだけで実運用可否を判断しない | 2025-05 |
| FinanceBench | 財務文書に基づく資料参照型の質問応答 | RAG や長文コンテキストの構成で結果が変わる。誤生成に注意する | 2023-11 |
| PaperBench | AI 研究論文を再現できるか | 研究支援エージェントの長期作業能力を見るが、採点基準と採点役への依存も大きい | 2025-04 |
このカテゴリは一番「実用に近い」ように見えます。ただし、現実の仕事そのものではなく、現実の仕事から切り出した評価タスクです。現場で使えるかを見るには、反復、レビュー、権限、失敗時の戻し方まで含めて別途考える必要があります。
古いベンチの使い道
MMLU は 2020 年、HumanEval は 2021 年、SWE-bench は 2023 年に出たベンチです。新しいモデルやエージェントの論文を読むときに、「それ、もう学習データに入っているのでは」と疑うのは自然です。
公開ベンチは、論文、GitHub、リーダーボード、ブログ、解説記事、実装例として広く出回ります。大規模モデルは公開 Web やコードを含む巨大なデータで学習されるため、評価データや周辺情報が混ざる可能性があります。これは評価データ汚染の問題です。
ただし、古いベンチが無意味になるわけではありません。役割が変わります。
| 役割 | 古いベンチで見られること | 読み方 |
|---|---|---|
| 共通言語 | 過去モデルとの比較、基礎能力の大きな差 | 研究やモデル発表の座標軸として使う |
| 回帰テスト | 定番タスクで大きく崩れていないか | 低い場合は基礎的な知識・推論や学習の偏りを疑う |
| 軽量モデル比較 | 最先端モデルでは飽和しても、小型モデルでは差が出る | 小型・特化モデルではまだ有効なことがある |
| 評価カテゴリの目印 | 知識、数学、短いコード生成などのカテゴリ | 「何の話か」を切る手がかりとして使う |
弱くなるのは、古いベンチだけで最先端モデルの優劣を決める読み方です。古いベンチは「高いから強い」ではなく、「低いなら注意、高いだけでは足りない」と読む方が安全です。
よくある疑問
MMLU が伸びたら、そのモデルは実務でも強い?
知識問題や推論問題に強くなった可能性はありますが、それだけでは実務に強いとは言い切れません。リポジトリ修正なら SWE-bench、ターミナル作業なら Terminal-Bench、長期の個人化なら LongMemEval や LoCoMo を合わせて見ます。
SWE-bench と Terminal-Bench は何が違う?
SWE-bench は GitHub の課題を解決するリポジトリ修正を主に見ます。Terminal-Bench は、ターミナル環境で調査、設定、デバッグ、データ処理などを進める評価です。どちらもエージェントの実行基盤の影響が大きいので、モデル単体の順位としては読みすぎない方がよいです。
長文系と記憶系は何が違う?
長文系は「与えられた長い入力から必要な情報を使えるか」を見ます。記憶系は「過去の会話や経験を保存し、必要なときに引き出し、古くなった情報を更新・破棄できるか」を見ます。個人向け AI への関心なら、単なる長文処理より記憶系の方が近いです。
スキル系は記憶系の一部?
近いですが、見ているものが違います。記憶は主に「何を知っているか」、スキルは「どう動くか」です。SkillEvolBench や SRA-Bench は、経験を手順に変える、必要な手順を探す、実タスクで呼び出す、といった手続き的知識の扱いを見ます。
新しいモデル発表の評価表では、まずどこを見る?
まず、上がっているベンチが何を評価しているかを見ます。次に、比較条件が同じかを見ます。エージェント系ならツール、再試行、実行環境、コンテキスト長、Web アクセスの有無まで確認します。最後に、古いベンチでの高スコアなら、飽和やデータ汚染の可能性も考えます。
公式リンクが論文ではなくリーダーボードやブログの場合はどう読む?
ベンチマークが論文として固定されたものではなく、継続更新される評価環境の場合があります。その場合は、問題セット、採点ルール、実行条件、いつのリーダーボードかを合わせて見ます。動的ベンチは新しさが強みである一方、比較の再現性は論文ベンチより揺れやすいです。
まとめ
ベンチマークは、モデルの強さ表ではなく、何ができるようになったのかを読むための地図です。MMLU や GPQA が上がったなら知識問題や専門的な推論、HumanEval や LiveCodeBench なら短いコード生成、SWE-bench なら既存リポジトリの修正、Terminal-Bench ならターミナル環境での作業遂行を見ます。
LongMemEval や LoCoMo なら長期記憶の検索や更新、SkillEvolBench や SRA-Bench なら経験を手続きに変え、必要なスキルを探して使う仕組みが論点です。
論文で「ベンチマークが改善した」と出てきたら、まず「何ができるようになったと言いたいのか」を見る。そこから読むと、評価表はただの数字の羅列ではなく、その研究がどの問題を解こうとしているのかを示す地図になります。