1. これは何の話?

世界50カ国1000人の専門家による2500問

AIの能力を正確に測りたい研究者や企業の開発チーム向けに、Humanity's Last Exam(HLE)という新しいベンチマークが公開されました。Center for AI Safetyとスケール社が共同で運営し、世界50カ国500以上の機関に所属する約1000人の専門家(教授、研究者、博士号保持者)が問題を作成しています。出題範囲は100以上の学術分野にわたり、合計2500問で構成されます。従来のMMLUなどのベンチマークでは90%を超える正答率が当たり前になっていましたが、HLEでは最新のフロンティアモデルでも依然として低い正答率にとどまっています。

2. 何がわかったか

AIモデルの正答率はまだ低い

公開されているスコアボードによると、GPT-5、GPT-5-mini、Grok 4、Gemini 3 Pro、Gemini 2.5 Pro、Claude 4.5 Sonnet、DeepSeek-R1といった主要な最先端モデルが評価対象となっています。いずれのモデルも正答率は低く、従来ベンチマークの「飽和」問題(モデル間の差がつかない状態)を解消しています。また、各モデルの「自信度」と実際の正答率を比較する校正誤差(Calibration Error)も測定しており、AIが過信・過小評価していないかも評価対象です。HLEはマルチモーダル対応ですが、テキストのみの部分評価も可能なため、画像入力に対応していないモデルも参加できます。

3. 他とどう違うのか

従来ベンチマークとHLEの比較

MMLUやGSM8Kなど既存のベンチマークは、すでに多くのモデルが90%以上を達成し、差別化が困難でした。HLEは「人類の知識の最前線」を問う設計で、簡単には飽和しない難易度を目指しています。また、公開問題2500問に加え、過学習を検出するための非公開テストセットを別途保持する点も特徴です。問題作成者が世界中の専門家であり、特定企業や国のバイアスを排除した構成になっています。

4. なぜこれが重要か

AIの進歩速度を客観的に測る「ものさし」がなくなりつつあったところに、HLEは新しい共通基準を提供します。科学者や政策立案者がAI能力の発展度合いを正しく把握し、リスク評価や規制議論を行うための根拠になります。HLEで高得点を取れるようになったとしても、それだけでは自律的な研究能力やAGIを意味しないと明記されていますが、学術知識と推論力を測る最も厳しい試験として機能します。

5. 未来の展開・戦略性

2025年末に50%超えの可能性

論文では、AI開発の急速な進展を踏まえ、2025年末までにHLEの正答率が50%を超える可能性を示唆しています。HLEが「最後の学術試験」になるかもしれないと名付けられている背景には、近い将来、既存の学術問題形式では測れない領域(オープンエンドな研究や創造的問題解決)に評価の焦点が移るという予測があります。各AIラボがHLEを戦略的なマイルストーンとして活用し始めれば、技術競争の方向性にも影響を与えそうです。

6. どう考え、どう動くか

今日やることチェックリスト

例えば、自社でLLMを導入検討している開発チームは、HLEのスコアをモデル選定の参考指標に加えることで、単なるベンチマーク数値に惑わされない判断ができます。

指針:

  • HLEのリーダーボードを定期的に確認し、各モデルの進歩を追う。
  • 自社ユースケースがHLEの出題分野(科学・数学・人文学など)とどう重なるか検討する。
  • 校正誤差にも注目し、モデルの「自信度」が信頼できるか評価する。

次の一歩:

  • 今日やること:HLE公式サイトでサンプル問題を1つ確認する。
  • 今週やること:主要モデルのHLEスコアを3回チェックし、変動を記録する。

7. 限界と未確定

  • HLEは閉じた問いへの回答力を測定しており、オープンエンドな研究能力やクリエイティブな問題解決は対象外です。
  • 非公開テストセットの詳細は明かされておらず、どの程度の過学習検出力があるかは今後の検証次第です。
  • 出題分野のバランスや難易度分布について、詳細な統計はarXiv論文で確認が必要です。

8. 用語ミニ解説

  • 校正誤差(Calibration Error):AIが「何%の自信で正解」と答えた予測確率と、実際の正答率のずれを測る指標です。

9. 出典と日付

Center for AI Safety(公開日:2025-01-24/最終確認日:2025-12-23):https://agi.safe.ai/

arXiv(公開日:2025-01-24):https://arxiv.org/abs/2501.14249