これは何の話?

GPT-5.2 vs Gemini 3 ベンチマーク比較

DeepLearning.aiが発行するAIニュースレター「The Batch」Issue 332号から、GPT-5.2とGemini 3のベンチマーク比較、および少数例でLLMをマルチモーダル化する新技術「SEMI」について取り上げます。最新モデルの性能差やAI研究の動向を追うエンジニア・研究者向けに、要点を整理します。

Issue 332の主要トピック
┌────────────────────────────────────────┐
│  1. GPT-5.2 vs Gemini 3 ベンチマーク   │
│     ↳ ARC-AGI-2、Intelligence Index   │
│  2. SEMI技術                           │
│     ↳ 32例でマルチモーダル拡張可能     │
└────────────────────────────────────────┘

何がわかったか

SEMI(Sample-Efficient Modality Integration)の仕組み

最も注目されるのはGPT-5.2とGemini 3のベンチマーク比較です。

ARC-AGI-2(抽象的な視覚パズルで暗記を防ぐ設計のベンチマーク)において、GPT-5.2 Pro(高推論設定)は54.2%の正答率を記録しました。1タスクあたり約15.72ドルのコストがかかりましたが、GPT-5.1 Thinking(高設定、17.6%、17.6ドル/タスク)と比較して約3倍の精度を低コストで達成しています。

より簡単なARC-AGI-1では、GPT-5.2 Pro(超高設定)が90.5%で初めて90%を超え、Gemini 3 Deep Think Preview(87.5%、推定44.26ドル/タスク)を上回りました。

Artificial Analysisの知能指数(10ベンチマークの加重平均)では、GPT-5.2(超高設定)はスコア73でGemini 3 Pro Previewと同点、Claude Opus 4.5(70)を上回りました。

コスト効率の進歩も顕著です。1年前、ARC-AGI-1で88%を達成するには1タスクあたり約4,500ドルかかりましたが、GPT-5.2 Proは90.5%を約12ドルで実現しており、約390倍のコスト効率改善が見られます。

もう一つの注目記事は「SEMI(Sample-Efficient Modality Integration)」です。従来、LLMにテキスト以外のデータ(画像、音声など)を処理させるには、数千~数百万のペアデータが必要でした。SEMIは、適切なエンコーダがあれば、わずか32例で新しいデータ型やドメインに対応させることが可能な手法です。

SEMIの仕組みは、まずプロジェクタ(ニューラルネットワーク)を豊富なデータ型で学習させ、次にLoRAジェネレータが少数例から適切なアダプタを生成します。新しいデータ型(分子グラフなど)にも、既存のエンコーダと数十例があれば対応できます。

他とどう違うのか

GPT-5.2の登場はGemini 3発表直後のタイミングであり、OpenAIの「Code Red」発令(競争激化への警戒)を背景にしています。一方、SEMI技術は従来の「データ量こそ正義」という常識を覆し、データが少ない専門領域でもAI活用を可能にする点で画期的です。

なぜこれが重要か

GPT-5.2の結果は、拡張推論の経済性が急速に改善していることを示しています。今日は高価すぎるアプローチ(問題ごとに数百回の推論試行など)が、数年以内に手頃になる可能性が見えてきました。

SEMIは、医療画像や専門的なセンサーデータなど、ペアデータが少ない分野でのAI導入を加速させる可能性があります。

未来の展開・戦略性

拡張推論のコスト低減が続けば、複雑な問題を「数千回の試行」で解くアプローチが現実的になります。また、SEMI技術の普及により、ニッチな専門分野でもマルチモーダルAIの恩恵を受けやすくなるでしょう。

どう考え、どう動くか

AI研究者やエンジニアの視点で考えると、ベンチマーク結果を鵜呑みにせず、自分のユースケースでの評価が重要です。

  • GPT-5.2のAPI料金と自社タスクでの精度を比較検証する。
  • SEMIのような少数例学習が自社の専門データに適用可能か、論文を精読する。
  • モデル選定では、コスト対効果を具体的な数値で算出する習慣をつける。

次の一歩:

  • 今日やること:SEMI論文(arXiv:2509.04606)のAbstractとIntroductionを読む。
  • 今週やること:GPT-5.2とGemini 3を同一タスクで比較し、コストと精度をメモする。

限界と未確定

  • ARC-AGIベンチマークは抽象推論に特化しており、実務タスクへの適用性は別途検証が必要。
  • SEMIの品質は、使用するエンコーダの質に依存する。
  • 次に確認すべきは、GPT-5.2の公式技術レポートとSEMI論文の実験詳細。

用語ミニ解説

事前学習済みLLMに、少ないパラメータで新しい能力を追加する手法(LoRA / Low-Rank Adaptation)は、効率的なモデルカスタマイズに広く使われています。

出典と日付

DeepLearning.AI The Batch Issue 332(公開日:2025-12-20):https://www.deeplearning.ai/the-batch/issue-332/