これは何の話?

DeepLearning.aiが発行するAIニュースレター「The Batch」Issue 332号から、GPT-5.2とGemini 3のベンチマーク比較、および少数例でLLMをマルチモーダル化する新技術「SEMI」について取り上げます。最新モデルの性能差やAI研究の動向を追うエンジニア・研究者向けに、要点を整理します。
Issue 332の主要トピック
┌────────────────────────────────────────┐
│ 1. GPT-5.2 vs Gemini 3 ベンチマーク │
│ ↳ ARC-AGI-2、Intelligence Index │
│ 2. SEMI技術 │
│ ↳ 32例でマルチモーダル拡張可能 │
└────────────────────────────────────────┘
何がわかったか

最も注目されるのはGPT-5.2とGemini 3のベンチマーク比較です。
ARC-AGI-2(抽象的な視覚パズルで暗記を防ぐ設計のベンチマーク)において、GPT-5.2 Pro(高推論設定)は54.2%の正答率を記録しました。1タスクあたり約15.72ドルのコストがかかりましたが、GPT-5.1 Thinking(高設定、17.6%、17.6ドル/タスク)と比較して約3倍の精度を低コストで達成しています。
より簡単なARC-AGI-1では、GPT-5.2 Pro(超高設定)が90.5%で初めて90%を超え、Gemini 3 Deep Think Preview(87.5%、推定44.26ドル/タスク)を上回りました。
Artificial Analysisの知能指数(10ベンチマークの加重平均)では、GPT-5.2(超高設定)はスコア73でGemini 3 Pro Previewと同点、Claude Opus 4.5(70)を上回りました。
コスト効率の進歩も顕著です。1年前、ARC-AGI-1で88%を達成するには1タスクあたり約4,500ドルかかりましたが、GPT-5.2 Proは90.5%を約12ドルで実現しており、約390倍のコスト効率改善が見られます。
もう一つの注目記事は「SEMI(Sample-Efficient Modality Integration)」です。従来、LLMにテキスト以外のデータ(画像、音声など)を処理させるには、数千~数百万のペアデータが必要でした。SEMIは、適切なエンコーダがあれば、わずか32例で新しいデータ型やドメインに対応させることが可能な手法です。
SEMIの仕組みは、まずプロジェクタ(ニューラルネットワーク)を豊富なデータ型で学習させ、次にLoRAジェネレータが少数例から適切なアダプタを生成します。新しいデータ型(分子グラフなど)にも、既存のエンコーダと数十例があれば対応できます。
他とどう違うのか
GPT-5.2の登場はGemini 3発表直後のタイミングであり、OpenAIの「Code Red」発令(競争激化への警戒)を背景にしています。一方、SEMI技術は従来の「データ量こそ正義」という常識を覆し、データが少ない専門領域でもAI活用を可能にする点で画期的です。
なぜこれが重要か
GPT-5.2の結果は、拡張推論の経済性が急速に改善していることを示しています。今日は高価すぎるアプローチ(問題ごとに数百回の推論試行など)が、数年以内に手頃になる可能性が見えてきました。
SEMIは、医療画像や専門的なセンサーデータなど、ペアデータが少ない分野でのAI導入を加速させる可能性があります。
未来の展開・戦略性
拡張推論のコスト低減が続けば、複雑な問題を「数千回の試行」で解くアプローチが現実的になります。また、SEMI技術の普及により、ニッチな専門分野でもマルチモーダルAIの恩恵を受けやすくなるでしょう。
どう考え、どう動くか
AI研究者やエンジニアの視点で考えると、ベンチマーク結果を鵜呑みにせず、自分のユースケースでの評価が重要です。
- GPT-5.2のAPI料金と自社タスクでの精度を比較検証する。
- SEMIのような少数例学習が自社の専門データに適用可能か、論文を精読する。
- モデル選定では、コスト対効果を具体的な数値で算出する習慣をつける。
次の一歩:
- 今日やること:SEMI論文(arXiv:2509.04606)のAbstractとIntroductionを読む。
- 今週やること:GPT-5.2とGemini 3を同一タスクで比較し、コストと精度をメモする。
限界と未確定
- ARC-AGIベンチマークは抽象推論に特化しており、実務タスクへの適用性は別途検証が必要。
- SEMIの品質は、使用するエンコーダの質に依存する。
- 次に確認すべきは、GPT-5.2の公式技術レポートとSEMI論文の実験詳細。
用語ミニ解説
事前学習済みLLMに、少ないパラメータで新しい能力を追加する手法(LoRA / Low-Rank Adaptation)は、効率的なモデルカスタマイズに広く使われています。
出典と日付
DeepLearning.AI The Batch Issue 332(公開日:2025-12-20):https://www.deeplearning.ai/the-batch/issue-332/




