LLMベンチマーク完全解説2026｜MMLU飽和問題とGPQA/SWE-bench Verified/AIME/ARC-AGIの正しい読み方

LLMベンチマークとは｜公開スコアの正しい読み方

LLMベンチマークは、大規模言語モデルの能力を客観的・比較可能な形で評価する標準テストセットです。各社は新モデル発表時に必ずベンチマークスコアを提示しますが、スコアを鵜呑みにすると実業務で期待外れになることが頻発します。2026年時点の主要論点は次の3つ:

MMLUは飽和(88〜94%)してトップモデルの差別化能力を失った
GPQA Diamond / SWE-bench Verified / AIME 2025 / Humanity's Last Exam等の次世代ベンチが主役に
英語ベンチの高スコア ≠ 日本語性能というギャップが依然として存在

本記事では主要ベンチマーク(MMLU/MMLU-Pro/GPQA Diamond/HumanEval/SWE-bench Verified/AIME 2025/ARC-AGI/Humanity's Last Exam/MT-Bench/Chatbot Arena Elo/JGLUE/Japanese MT-Bench等)の解説、業務シーン別の読み方、そしてrenue独自視点として「ベンチマークに騙されない6原則」を解説します。モデル選定全体はLLM API徹底比較、評価指標の設計はLLM評価指標、RAG評価はRAG評価も参照してください。

主要ベンチマーク15選と意味

ベンチマーク	評価内容	2026年の位置付け
MMLU	57科目15,000問、汎用知識・多肢選択	飽和(88〜94%)、差別化能力低
MMLU-Pro	12,000問×10択(MMLUは4択)、14領域、難化版	推奨の後継指標
GPQA Diamond	博士レベル科学(生物/化学/物理)448問、非専門博士でも34%	科学推論の主力指標、2026年の差別化軸
HumanEval	164 Pythonコーディングタスク+単体テスト	コーディングの古典、ほぼ飽和
SWE-bench	GitHub実Issueを修正、リポジトリ理解必要	実務コーディング評価のデファクト
SWE-bench Verified	SWE-benchの人手検証版、品質保証	2026年のコーディング主力指標
AIME 2025	米国高校数学オリンピック予選問題	数学推論の新主力
GSM8K	小学算数レベル文章題8,000問	飽和、古典的指標
ARC-AGI	抽象推論・パターン認識、人間は80%+	汎用知能の指標、o3が96.7%
Humanity's Last Exam	各分野の博士レベル最難問	2025-2026年の最難ベンチ
MT-Bench	GPT-4が採点する対話品質マルチターン80問	対話品質の目安
Chatbot Arena(Elo)	人間のブラインド対戦で評価	総合力の体感指標
JGLUE	日本語版GLUE、分類・QA・推論	日本語の基礎指標
Japanese MT-Bench	日本語対話品質	日本語対話の主要指標
FrontierMath	研究者レベル数学問題	最難数学、モデル能力の限界測定

2026年のスコア例(公開情報)

業界レポートやベンダー発表から、2026年時点の主要ベンチマーク上位スコアは以下の水準です(参考値として公開情報を整理)。

GPQA Diamond:Gemini 3.1 Pro 94.3% / Claude Opus 4.6 91.3% / Qwen3.5-plus 88.4% / GPT-5.3 Codex 81% 等が報告(BenchLM等の集計)
ARC-AGI:OpenAI o3が96.7%を突破と公表
SWE-bench Verified:Claude Opus 4.6がコーディング首位級と報告

スコアは随時更新されるため、必ず各社公式と公開Leaderboard(Vellum LLM Leaderboard/LLM-Stats/BenchLM.ai等)で最新値を確認してください。

業務シーン別の読み方

業務	重視すべきベンチ	無視してよいベンチ
チャットボット・対話UX	Chatbot Arena Elo / MT-Bench / Japanese MT-Bench	MMLU / HumanEval
コーディングエージェント	SWE-bench Verified > HumanEval	GSM8K / MMLU
データ分析・推論	GPQA Diamond / AIME 2025 / ARC-AGI	HumanEval / Chatbot Arena
日本語RAG・QA	JGLUE / Japanese MT-Bench + 自データ評価	MMLU単体
数学・研究	AIME 2025 / FrontierMath / Humanity's Last Exam	GSM8K
企業文書処理	Japanese MT-Bench + 自データLLM-as-a-Judge	HumanEval

ベンチマーク選定の鉄則は「自分の業務と相関する指標だけを見る」ことです。HumanEvalが高くても対話UXでの使い勝手は保証されません。

ベンチマークの3つの罠

罠1: データ汚染(Benchmark Contamination)

ベンチマーク問題がモデルの学習データに混入している場合、見かけ上のスコアが実能力を上回ります。SWE-bench Verifiedのような継続的に新規問題を追加する設計のベンチがこの対策です。古いベンチマーク(MMLU/HumanEval)はデータ汚染リスクが高いことを知っておくべきです。

罠2: 飽和(Saturation)

MMLU等の古典ベンチは上位モデルが88〜94%に達しており、モデル間の差がノイズレベルになっています。飽和指標で選定しても意味ある差は出ません。GPQA Diamond/SWE-bench/FrontierMath等の未飽和指標で比較します。

罠3: 英語偏重

MMLU/HumanEval/GPQA等は全て英語ベンチです。これらで高スコアでも、日本語での実運用性能は保証されません。日本語RAG・日本語QAを扱う場合はJGLUE/Japanese MT-Bench + 自データ評価を必ず併用します(Reranker・Embeddingも日本語特化で選ぶ必要あり)。

主要Leaderboardサイト比較

サイト	特徴
Chatbot Arena (LMSYS)	人間ブラインド対戦Elo、体感指標のデファクト
Vellum LLM Leaderboard	複数ベンチを統合、定期更新
LLM-Stats / BenchLM.ai	185モデル×126ベンチの統合比較
Open LLM Leaderboard (HF)	OSSモデル中心の評価
Artificial Analysis	コスト・レイテンシ・精度の3軸比較
llm.extractum.io	モデル仕様とベンチを横断検索

自社評価とベンチマークの関係

重要な実務原則は「公開ベンチマークは初期スクリーニング、最終判断は自データ評価」です。GPQA Diamondで上位だからといって自社業務で上位とは限りません。公開ベンチマークは候補絞り込みに使い、上位3〜5モデルに対して自社のGolden Set(50〜500問)で評価するのが鉄則です(LLM評価指標)。

renueの視点｜ベンチマークに騙されない6原則

renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等を複数自社運用する中で、公開ベンチマークとの付き合い方を6原則にまとめています。

(1) 飽和指標(MMLU/HumanEval/GSM8K)で選定しない:これらは差別化能力を失っています。代わりにMMLU-Pro/SWE-bench Verified/GPQA Diamond/AIME 2025を見ます。

(2) 業務相関指標だけを見る:コーディングならSWE-bench、対話ならChatbot Arena、数学ならAIME、科学推論ならGPQA Diamond。業務と無関係の指標で選定すると期待外れが起きます。

(3) 日本語業務は必ず日本語ベンチ+自データ:JGLUE/Japanese MT-Bench + 50〜200問の自社Golden Setで確認。英語ベンチ単体は危険です。

(4) データ汚染の疑いがある古いベンチは割り引く:HumanEval/MMLUは学習データ混入の疑いが指摘されています。SWE-bench VerifiedやFrontierMath等の新規ベンチを重視します。

(5) コスト・レイテンシと一緒に見る:精度だけでなくArtificial Analysis等でコスト/レイテンシも確認し、「精度の割に安いモデル」を探します(FinOps for AI)。

(6) 最終判断は必ず自社PoC:公開ベンチで上位3モデルに絞り、自社のGolden SetでLLM-as-a-Judge評価。この2段階で精度・コスト・レイテンシの最適解を決めます(AI RFPの評価プロセスと統合)。

よくある失敗パターン

MMLUだけで選定:飽和指標を主な判断材料にする
英語ベンチ高=日本語高と誤解:日本語運用で痛い目に遭う
ベンダー資料の数字を鵜呑み:自社データで検証せずに決定
コスト・レイテンシを見ない:精度特化でも運用で破綻
公開Leaderboardの更新漏れ:古い情報で選定
ベンチとユースケースのミスマッチ:コーディングしないのにSWE-benchで選ぶ等

よくある質問（FAQ）

Q1. MMLUは本当にもう見るべきでないですか？

初期スクリーニングで軽く見るのは構いませんが、差別化判断には使えません。MMLU-ProまたはGPQA Diamondに切り替えるのが2026年の推奨です。

Q2. 日本語特化のベンチマークは何を見るべきですか？

JGLUE(基礎)+Japanese MT-Bench(対話)が標準です。ただし自社業務データでの検証が最重要です。

Q3. 推論モデル(o3/Claude Extended Thinking)はどのベンチで測りますか？

GPQA Diamond / AIME 2025 / ARC-AGI / Humanity's Last Exam が推論能力の差別化指標です(推論モデル)。

Q4. Chatbot Arena Eloは信頼できますか？

人間ブラインド対戦の体感指標としては最も信頼できる部類ですが、特定業務の能力を表すわけではありません。総合力の目安として使います。

Q5. renueはベンチマーク解析と選定を支援していますか？

はい。複数AIエージェント自社運用経験から、業務に応じたベンチマーク選定・自社評価セット設計・PoC評価まで一貫して支援しています。

LLMベンチマーク解析・モデル選定のご相談はrenueへ

renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、業務に応じたベンチマーク選定・自社評価セット設計・PoC実力評価までワンストップで支援しています。公開ベンチに振り回されない実務的なモデル選定でお困りの方はお気軽にご相談ください。

AIエージェント導入の事例を見る