1. これは何の話?

Googleは2026年3月、Gemini 3シリーズの新モデルとしてGemini 3.1 Flash-Liteをプレビュー公開した。大量処理を前提に設計されたモデルで、開発者がコストを抑えながら高頻度の推論タスクを回すことを主眼としている。

Google AI StudioとVertex AIで即日プレビュー利用が可能で、翻訳・コンテンツモデレーション・UI自動生成・シミュレーション生成といった高ボリュームな用途が主な対象だ。

Gemini 3.1 Flash-Lite 概要

2. 何がわかったか

価格は入力$0.25/1Mトークン、出力$1.50/1Mトークンで、Gemini 3シリーズで最も安いラインだ。Artificial Analysisのベンチマークによると、2.5 Flashと比べて初回応答時間が2.5倍短縮され、出力速度は45%速くなっている。

品質指標も旧世代を上回った。推論ベンチマークのGPQA Diamondで86.9%、マルチモーダル理解のMMMU Pro で76.8%を記録し、どちらも2.5 Flashを超えている。Arena.aiリーダーボードのEloスコアは1432だ。

コスト・速度比較

3. 他とどう違うのか

2.5 Flashとの最大の差は、速度とコストを下げながら品質も前世代より高くなった点だ。安価で速いモデルは品質を犠牲にするのが普通だが、3.1 Flash-LiteはGPQA DiamondでもMMMU Proでも2.5 Flashを上回っている。削減と向上が同時に起きたことがこのモデルの核心だ。

思考レベルの切り替えがAI StudioとVertex AIで標準搭載されている点も差別化になる。推論量をタスクの複雑さに応じて調整できるため、単純な翻訳から多段階のシミュレーション生成まで同じモデルで手がけられる。

ベンチマーク実績

4. なぜこれが重要か

APIコストは大量処理を扱うサービスの採算に直結する。入力$0.25/1Mトークンというラインは、月に数億トークンを回すサービスでも経費をかなり圧縮できる水準だ。そこに速度2.5倍と旧世代を超えるベンチマークが組み合わさることで、コストか品質かのトレードオフだったAI導入の判断が変わる可能性がある。

早期アクセスしたLatitude・Cartwheel・Wheringが「大型モデル並みの精度で複雑な入力を処理できる」と評価していることも、その方向性を裏付けている。

5. 未来の展開・戦略性

GoogleはGemini 3シリーズの拡充を続ける方針で、Flash-LiteはAPIエコシステムへの開発者獲得を担うエントリーポイントとして機能する。低コスト帯のモデル競争はOpenAIやAnthropicとの競争軸でもあり、各社が価格を下げながら品質を維持する動きは今後も続く見通しだ。

思考レベル制御の標準搭載は将来のモデルにも受け継がれる可能性が高い。推論量をAPI側から制御できる設計は、コスト管理と品質のバランスを追う開発者に好まれる方向性だ。

6. どう考え、どう動くか

例えば大量の商品説明文を多言語に翻訳するEC事業者の場合、2.5 Flashを使っていたなら3.1 Flash-Liteへの切り替えでトークンコストを削減しながら処理速度も上げられる可能性がある。

指針:

  • Google AI Studioで3.1 Flash-Liteのプレビューにアクセスし、自社ユースケースのレイテンシとコストを実測する。
  • 翻訳・分類・コンテンツモデレーションなど高頻度かつコスト敏感なタスクで優先的に評価する。
  • 思考レベルの切り替え機能を活用し、タスクの複雑さに応じたコストチューニングを試みる。

次の一歩:

  • 今日やること:Google AI Studioでgemini-3.1-flash-lite-previewにアクセスし、既存の翻訳・要約タスクに試用する。
  • 今週やること:現在使用中のモデルと3.1 Flash-Liteでコストとレスポンス品質を比較し、切り替え可否を判断する。

最適ユースケース

7. 限界と未確定

  • プレビュー段階での公開であり、一般提供(GA)の時期や最終的な価格設定は未発表。
  • Artificial Analysisによるベンチマークはサードパーティ評価だが、独自の測定環境に基づくため実環境での再現性は確認が必要。
  • 日本語を含む多言語での品質評価は公式にはまだ詳しく示されていない。

8. 用語ミニ解説

  • モデルが最初のトークンを返すまでの時間。(初回応答時間 / Time to First Answer Token)
  • 推論過程を複数のステップで段階的に実行する調整機能。(思考レベル / Thinking Level)

9. 出典と日付

Google(公開日:2026-03-03):https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/