1. これは何の話?

LLM研究者やエッジAI開発者向けに、Google が T5Gemma 2 を発表しました。これは Gemma 3 をベースにしたエンコーダー・デコーダー型のモデルファミリーで、初のマルチモーダル対応とロングコンテキスト対応を実現したエンコーダー・デコーダーモデルです。270M-270M(約370Mパラメータ)から4B-4B(約7Bパラメータ)までの3サイズが公開されています。
2. 何がわかったか

- アーキテクチャ革新 ─ エンコーダーとデコーダーで埋め込みを共有(Tied Embeddings)し、デコーダーでは自己注意とクロス注意を統合。パラメータ削減と並列化効率の向上を実現しています。
- マルチモーダル ─ 高効率なビジョン・エンコーダーを搭載し、画像とテキストを両方処理可能。Visual QAやマルチモーダル推論タスクに対応します。
- 128Kコンテキスト ─ Gemma 3のローカル・グローバル交互注意機構を活用し、128Kトークンの長大なコンテキストを処理できます。
- 140言語以上 ─ より大規模で多様なデータセットで訓練され、多言語対応が大幅に拡張されています。
3. 他とどう違うのか
従来のT5Gemmaがテキストのみ対応だったのに対し、T5Gemma 2は画像理解が可能です。また、デコーダー専用モデル(Gemma 3そのもの)と比較して、ロングコンテキスト問題での精度が向上しており、エンコーダーを持つメリットが発揮されています。
4. なぜこれが重要か
エンコーダー・デコーダー構造は、入力の「理解」と「生成」を分離できるため、特定タスクへのファインチューニングで高い効率を発揮します。コンパクトなサイズでマルチモーダル+ロングコンテキストを実現したことで、オンデバイスAI研究の新たな基盤となる可能性があります。
5. 未来の展開・戦略性
プレトレーニング済みチェックポイントとして公開されており、研究者は独自タスク向けにファインチューニングして利用することを想定しています。エッジデバイス向けの特化モデル開発が活発化すると、スマートフォンやIoTデバイスでの高度なAI処理が広がるでしょう。
6. どう考え、どう動くか
例えばドキュメント読解やマルチモーダルな質問応答システムを構築したい研究者は、デコーダー専用モデルより効率的な推論を期待できます。
指針:
- arXiv論文(arXiv:2512.14856)を読み、アーキテクチャ詳細を理解する。
- Kaggle / Hugging Faceからチェックポイントをダウンロードし、手元で動作確認する。
- 自社のドメイン特化タスクでのファインチューニング可能性を検討する。
次の一歩:
- 今日やること:arXiv論文の概要を読み、T5Gemma 2の設計思想を把握する。
- 今週やること:Colabノートブックでサンプル推論を試す。
7. 限界と未確定
- 公開されているのはプレトレーニング済みモデルのみで、ファインチューニング済み(IT)チェックポイントは含まれていません。
- ビジョン・エンコーダーのパラメータ数は総パラメータ数に含まれていないため、実際のメモリ使用量は表示より大きくなります。
- 日本語を含む多言語性能の具体的なベンチマーク結果は論文参照が必要です。
8. 用語ミニ解説
- 入力を圧縮して表現を作る「エンコーダー」と、その表現から出力を生成する「デコーダー」を組み合わせたモデル構造です。(Encoder-Decoder / エンコーダー・デコーダー)
9. 出典と日付
Google The Keyword「T5Gemma 2: The next generation of encoder-decoder models」(公開日:2025-12-18):https://blog.google/technology/developers/t5gemma-2/ arXiv「T5Gemma 2」(公開日:2025-12-18):https://arxiv.org/abs/2512.14856










