renue

ARTICLE

LLMベンチマーク完全解説2026|MMLU飽和問題とGPQA/SWE-bench Verified/AIME/ARC-AGIの正しい読み方

公開日: 2026/4/6

LLMベンチマークとは|公開スコアの正しい読み方

LLMベンチマークは、大規模言語モデルの能力を客観的・比較可能な形で評価する標準テストセットです。各社は新モデル発表時に必ずベンチマークスコアを提示しますが、スコアを鵜呑みにすると実業務で期待外れになることが頻発します。2026年時点の主要論点は次の3つ:

  • MMLUは飽和(88〜94%)してトップモデルの差別化能力を失った
  • GPQA Diamond / SWE-bench Verified / AIME 2025 / Humanity's Last Exam等の次世代ベンチが主役に
  • 英語ベンチの高スコア ≠ 日本語性能というギャップが依然として存在

本記事では主要ベンチマーク(MMLU/MMLU-Pro/GPQA Diamond/HumanEval/SWE-bench Verified/AIME 2025/ARC-AGI/Humanity's Last Exam/MT-Bench/Chatbot Arena Elo/JGLUE/Japanese MT-Bench等)の解説、業務シーン別の読み方、そしてrenue独自視点として「ベンチマークに騙されない6原則」を解説します。モデル選定全体はLLM API徹底比較、評価指標の設計はLLM評価指標、RAG評価はRAG評価も参照してください。

主要ベンチマーク15選と意味

ベンチマーク評価内容2026年の位置付け
MMLU57科目15,000問、汎用知識・多肢選択飽和(88〜94%)、差別化能力低
MMLU-Pro12,000問×10択(MMLUは4択)、14領域、難化版推奨の後継指標
GPQA Diamond博士レベル科学(生物/化学/物理)448問、非専門博士でも34%科学推論の主力指標、2026年の差別化軸
HumanEval164 Pythonコーディングタスク+単体テストコーディングの古典、ほぼ飽和
SWE-benchGitHub実Issueを修正、リポジトリ理解必要実務コーディング評価のデファクト
SWE-bench VerifiedSWE-benchの人手検証版、品質保証2026年のコーディング主力指標
AIME 2025米国高校数学オリンピック予選問題数学推論の新主力
GSM8K小学算数レベル文章題8,000問飽和、古典的指標
ARC-AGI抽象推論・パターン認識、人間は80%+汎用知能の指標、o3が96.7%
Humanity's Last Exam各分野の博士レベル最難問2025-2026年の最難ベンチ
MT-BenchGPT-4が採点する対話品質マルチターン80問対話品質の目安
Chatbot Arena(Elo)人間のブラインド対戦で評価総合力の体感指標
JGLUE日本語版GLUE、分類・QA・推論日本語の基礎指標
Japanese MT-Bench日本語対話品質日本語対話の主要指標
FrontierMath研究者レベル数学問題最難数学、モデル能力の限界測定

2026年のスコア例(公開情報)

業界レポートやベンダー発表から、2026年時点の主要ベンチマーク上位スコアは以下の水準です(参考値として公開情報を整理)。

  • GPQA Diamond:Gemini 3.1 Pro 94.3% / Claude Opus 4.6 91.3% / Qwen3.5-plus 88.4% / GPT-5.3 Codex 81% 等が報告(BenchLM等の集計)
  • ARC-AGI:OpenAI o3が96.7%を突破と公表
  • SWE-bench Verified:Claude Opus 4.6がコーディング首位級と報告

スコアは随時更新されるため、必ず各社公式と公開Leaderboard(Vellum LLM Leaderboard/LLM-Stats/BenchLM.ai等)で最新値を確認してください。

業務シーン別の読み方

業務重視すべきベンチ無視してよいベンチ
チャットボット・対話UXChatbot Arena Elo / MT-Bench / Japanese MT-BenchMMLU / HumanEval
コーディングエージェントSWE-bench Verified > HumanEvalGSM8K / MMLU
データ分析・推論GPQA Diamond / AIME 2025 / ARC-AGIHumanEval / Chatbot Arena
日本語RAG・QAJGLUE / Japanese MT-Bench + 自データ評価MMLU単体
数学・研究AIME 2025 / FrontierMath / Humanity's Last ExamGSM8K
企業文書処理Japanese MT-Bench + 自データLLM-as-a-JudgeHumanEval

ベンチマーク選定の鉄則は「自分の業務と相関する指標だけを見る」ことです。HumanEvalが高くても対話UXでの使い勝手は保証されません。

ベンチマークの3つの罠

罠1: データ汚染(Benchmark Contamination)

ベンチマーク問題がモデルの学習データに混入している場合、見かけ上のスコアが実能力を上回ります。SWE-bench Verifiedのような継続的に新規問題を追加する設計のベンチがこの対策です。古いベンチマーク(MMLU/HumanEval)はデータ汚染リスクが高いことを知っておくべきです。

罠2: 飽和(Saturation)

MMLU等の古典ベンチは上位モデルが88〜94%に達しており、モデル間の差がノイズレベルになっています。飽和指標で選定しても意味ある差は出ません。GPQA Diamond/SWE-bench/FrontierMath等の未飽和指標で比較します。

罠3: 英語偏重

MMLU/HumanEval/GPQA等は全て英語ベンチです。これらで高スコアでも、日本語での実運用性能は保証されません。日本語RAG・日本語QAを扱う場合はJGLUE/Japanese MT-Bench + 自データ評価を必ず併用します(RerankerEmbeddingも日本語特化で選ぶ必要あり)。

主要Leaderboardサイト比較

サイト特徴
Chatbot Arena (LMSYS)人間ブラインド対戦Elo、体感指標のデファクト
Vellum LLM Leaderboard複数ベンチを統合、定期更新
LLM-Stats / BenchLM.ai185モデル×126ベンチの統合比較
Open LLM Leaderboard (HF)OSSモデル中心の評価
Artificial Analysisコスト・レイテンシ・精度の3軸比較
llm.extractum.ioモデル仕様とベンチを横断検索

自社評価とベンチマークの関係

重要な実務原則は「公開ベンチマークは初期スクリーニング、最終判断は自データ評価」です。GPQA Diamondで上位だからといって自社業務で上位とは限りません。公開ベンチマークは候補絞り込みに使い、上位3〜5モデルに対して自社のGolden Set(50〜500問)で評価するのが鉄則です(LLM評価指標)。

renueの視点|ベンチマークに騙されない6原則

renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等を複数自社運用する中で、公開ベンチマークとの付き合い方を6原則にまとめています。

(1) 飽和指標(MMLU/HumanEval/GSM8K)で選定しない:これらは差別化能力を失っています。代わりにMMLU-Pro/SWE-bench Verified/GPQA Diamond/AIME 2025を見ます。

(2) 業務相関指標だけを見る:コーディングならSWE-bench、対話ならChatbot Arena、数学ならAIME、科学推論ならGPQA Diamond。業務と無関係の指標で選定すると期待外れが起きます。

(3) 日本語業務は必ず日本語ベンチ+自データ:JGLUE/Japanese MT-Bench + 50〜200問の自社Golden Setで確認。英語ベンチ単体は危険です。

(4) データ汚染の疑いがある古いベンチは割り引く:HumanEval/MMLUは学習データ混入の疑いが指摘されています。SWE-bench VerifiedやFrontierMath等の新規ベンチを重視します。

(5) コスト・レイテンシと一緒に見る:精度だけでなくArtificial Analysis等でコスト/レイテンシも確認し、「精度の割に安いモデル」を探します(FinOps for AI)。

(6) 最終判断は必ず自社PoC:公開ベンチで上位3モデルに絞り、自社のGolden SetでLLM-as-a-Judge評価。この2段階で精度・コスト・レイテンシの最適解を決めます(AI RFPの評価プロセスと統合)。

よくある失敗パターン

  • MMLUだけで選定:飽和指標を主な判断材料にする
  • 英語ベンチ高=日本語高と誤解:日本語運用で痛い目に遭う
  • ベンダー資料の数字を鵜呑み:自社データで検証せずに決定
  • コスト・レイテンシを見ない:精度特化でも運用で破綻
  • 公開Leaderboardの更新漏れ:古い情報で選定
  • ベンチとユースケースのミスマッチ:コーディングしないのにSWE-benchで選ぶ等

よくある質問(FAQ)

Q1. MMLUは本当にもう見るべきでないですか?

初期スクリーニングで軽く見るのは構いませんが、差別化判断には使えません。MMLU-ProまたはGPQA Diamondに切り替えるのが2026年の推奨です。

Q2. 日本語特化のベンチマークは何を見るべきですか?

JGLUE(基礎)+Japanese MT-Bench(対話)が標準です。ただし自社業務データでの検証が最重要です。

Q3. 推論モデル(o3/Claude Extended Thinking)はどのベンチで測りますか?

GPQA Diamond / AIME 2025 / ARC-AGI / Humanity's Last Exam が推論能力の差別化指標です(推論モデル)。

Q4. Chatbot Arena Eloは信頼できますか?

人間ブラインド対戦の体感指標としては最も信頼できる部類ですが、特定業務の能力を表すわけではありません。総合力の目安として使います。

Q5. renueはベンチマーク解析と選定を支援していますか?

はい。複数AIエージェント自社運用経験から、業務に応じたベンチマーク選定・自社評価セット設計・PoC評価まで一貫して支援しています。

関連記事

LLMベンチマーク解析・モデル選定のご相談はrenueへ

renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、業務に応じたベンチマーク選定・自社評価セット設計・PoC実力評価までワンストップで支援しています。公開ベンチに振り回されない実務的なモデル選定でお困りの方はお気軽にご相談ください。

AIエージェント導入の事例を見る

本記事の参考情報