1. これは何の話?

Agentic Vision機能追加

GoogleがGemini 3 Flashに新しい画像理解能力「Agentic Vision」を追加しました。これは、AIモデルが与えられた画像をただ「見る」だけでなく、能動的に詳しく「調べる」ことができる機能です。

モデル自身がPythonコードを生成・実行して画像を操作(クロップ、回転、アノテーションなど)し、その結果を再度観察することで、より深いコンテキスト理解と正確な回答を導き出します。

2. 何がわかったか

Agentic Visionは以下の「Think, Act, Observe」ループで動作します。

  1. Think: ユーザーのクエリと画像を分析し、計画を立てる。
  2. Act: 画像を操作・分析するためのPythonコードを実行(例:屋根の端を拡大する、指に番号を振って数える)。
  3. Observe: 変換された画像をモデルのコンテキストに追加し、再確認する。

具体的なユースケースとして以下が紹介されています:

  • ズームと検査: 建築図面の細部(屋根の端など)を自動でクロップして拡大確認し、規制準拠をチェックする。
  • 画像の注釈(アノテーション): 指の数を数える際に、実際にバウンディングボックスと番号を描画して「数え間違い」を防ぐ。
  • 視覚的な数学とプロット: 画像内の高密度な表データを読み取り、決定論的なPython計算で正規化してグラフを描画する(LLMの計算ミスであるハルシネーションを防ぐ)。

3. 他とどう違うのか

従来のマルチモーダルモデル(GPT-4Vなど)は、画像を静的な入力として一度だけ処理するのが一般的です。対してAgentic Visionは、モデルが主体的に「見たい部分を見る」「補助線を引いて考える」といった能動的な視覚探索を行う点が革新的です。

特に「Pythonコード実行」を視覚認識プロセスに組み込んでいる点がユニークです。計算やカウントといったLLMが苦手なタスクを、コード実行という確実な手段にオフロードすることで精度を飛躍的に高めています。

4. なぜこれが重要か

「AIが見ているつもりで見落とす」という幻覚(ハルシネーション)問題への強力な解決策となります。人間が複雑な図面を見るときにルーペを使ったり、数を数えるときに指差したりするのと同様のプロセスをAIが実行できるようになったためです。

また、開発者は複雑な画像処理パイプラインを自前で組む必要がなく、Geminiに「詳細を確認して」と指示するだけで、高度な視覚的推論をアプリに実装できます。

5. 未来の展開・戦略性

現在はGemini 3 Flash(軽量モデル)での提供ですが、将来的には他のモデルサイズへの拡張も計画されています。また、現在は明示的な指示が必要な操作(回転など)も、今後はモデルが自律的に判断して実行する「完全な暗黙的動作」へ進化する予定です。

Web検索や逆画像検索などのツールとも統合される見込みで、AIエージェントが現実世界を理解するための「目」としての機能が強化されていきます。

6. どう考え、どう動くか

画像認識を含むアプリケーションを開発している場合、Gemini 3 FlashのAgentic Visionは精度の壁を突破する鍵になるかもしれません。特に図面の検証、精密なカウント、データ化などのタスクで威力を発揮します。

指針:

  • 現在の画像認識タスクで「細部が見えていない」「カウントミス」がある場合、Agentic Visionを試す。
  • Google AI Studioのデモアプリで挙動を確認する。

次の一歩:

  • 今日やること:Google AI StudioでAgentic Visionのデモ(Visual Thinking)を触ってみる。
  • 今週やること:自社の画像データを使って、従来の認識精度と比較検証する。

7. 限界と未確定

  • ズーム以外の操作(回転など)はまだ明示的なプロンプトが必要な場合がある。
  • コード実行を伴うため、推論レイテンシ(応答速度)が通常の画像認識より長くなる可能性がある。
  • 具体的なAPIコストへの言及はブログ内にはない。

8. 用語ミニ解説

  • Agentic Vision(エージェンティック・ビジョン): AIがエージェント(代理人)のように自律的に視覚情報を探索・操作して理解する手法。
  • Grounding(グラウンディング): AIの回答を、実際のデータや事実に基づいて根拠付けること。ここでは画像への書き込みやコード実行結果に基づいて回答すること。

9. 出典と日付

Google(2026-01-28):https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/