1. これは何の話?
LLM導入を検討する開発チーム向けに、Googleから新しい埋め込みモデル(Embedding Model)「Gemini Embedding 2」のパブリックプレビュー版が公開されました。これはGeminiアーキテクチャをベースにした、Google初の「ネイティブなマルチモーダル埋め込みモデル」です。
テキストだけでなく、画像、動画、音声、PDFドキュメントなどを一度に読み込み、すべてを同じ「単一のベクトル空間」へマッピングできるようになったことが最大の特徴です。現在はGemini APIおよびVertex AIを通じて利用可能となっています。
2. 何がわかったか
Gemini Embedding 2は、1回のリクエストで複数種類のデータ形式を同時に処理できる強力なスペックを誇ります。具体的には、テキストは最大8,192トークン、画像はPNGやJPEG形式で最大6枚、動画はMP4やMOV形式で最大120秒、PDFは最大6ページまで対応しています。音声についても、今までのように「話した内容を一旦テキストに書き起こす」といった中間処理を挟むことなく、生の音声データを直接読み込んでベクトル化することが可能です。
さらに、「マトリョーシカ表現学習(Matryoshka Representation Learning)」という技術を採用しており、ベクトル次元の大きさを3072次元・1536次元・768次元といった形で柔軟に出力できます。
3. 他とどう違うのか

従来の埋め込みモデルの多くは「テキスト専用」であったため、画像や動画を検索に使う場合は、それぞれの形式ごとに異なるモデルや複雑な構成を用意する必要がありました。
しかしGemini Embedding 2は「初めからマルチモーダル」として設計されているため、「画像+テキスト」のような複合的な情報を1つのリクエストで流し込み、メディア間の複雑な関係性を正確にとらえた統合的なベクトルを作ることができます。
4. なぜこれが重要か
企業がRAG(検索拡張生成)システムを構築する際のハードルを大きく下げる点が、本モデル最大の価値です。
テキスト、画像、音声などバラバラの形式で保存されている社内データを、単一のシステムで一元的にベクトル化・検索できるようになるため、開発の仕組みがシンプルになり、より高精度でリッチな検索・分析ができるようになります。
5. 未来の展開・戦略性

LangChainやLlamaIndexなどの主要プラットフォームもすでにGemini Embedding 2をサポートしており、今後は文書検索だけでなく、センチメント分析、データのクラスタリング、マルチメディア横断検索などへと応用が急速に広がっていくと予測されます。さまざまな入力情報をシームレスに結びつけるこの基盤技術は、次世代の高度なAI体験を支える標準になる可能性を秘めています。
6. どう考え、どう動くか
まずは、テキストと画像が混在した手元のPDFなどをGemini Embedding 2に通し、実際にどのような精度で検索できるか検証してみるのが有効です。
指針:
- GitHub等で公開されているColabノートブックのデモを動かし、検索精度を体感する。
- 動画や音声データを大量に持つ事業領域(メディア、カスタマーサポート等)で導入余地を探る。
- 自社のRAGシステムで「マルチモーダル化」が求められるユースケースがないかを洗い出す。
次の一歩:
- 今日やること:Gemini APIのドキュメントで、本モデルのリファレンスに目を通す。
- 今週やること:社内のテストデータ(文章と画像)を用いて、ベクトル化と類似度検索を一度試す。
7. 限界と未確定
- 言語サポート:100言語以上に対応しているとされていますが、マイナー言語や特定方言での精度は未確定です。
- クォータ制限:プレビュー期間中における具体的なリクエスト制限や大規模利用時のコスト構造が十分には明らかではありません。
- 今後APIドキュメント上で利用枠や詳細な課金体系を確認する必要があります。
8. 用語ミニ解説
- 大きな次元の情報を損なわずに小さな次元へ圧縮する技術。(マトリョーシカ表現学習 / Matryoshka Representation Learning)
9. 出典と日付
Google(公開日:2026-03-10):https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/








