これは何の話? — 事実

Metaは、画像および動画内のオブジェクトを検出、セグメンテーション、追跡するための統合モデル「Segment Anything Model 3 (SAM 3)」を発表しました。同時に、モデルをブラウザ上で手軽に試せる「Segment Anything Playground」や、3D再構成向けの「SAM 3D」も公開されています。[1]

一行図解: SAM 3 Workflow 画像・動画入力 →(SAM 3)→ テキスト/視覚プロンプトで指示 → 高精度なセグメンテーション・追跡。

何がわかったか — 事実

SAM 3は、前モデル(SAM 2)の動画対応をさらに進化させ、以下の機能を提供します。

  • マルチモーダルプロンプト: テキスト、クリック、ボックス、マスクなど多様な入力で対象を指定可能。
  • 動画追跡の統合: 画像でのセグメンテーションと同じ感覚で、動画内のオブジェクトを時間軸に沿って追跡できます。
  • ファインチューニング対応: 特定のドメイン(医療画像など)向けに、少量のデータで適応させるためのコードと手法が公開されました。
  • SAM 3D: 1枚の画像から3Dオブジェクトや人体形状を再構成する技術も併せて発表されました。[1]

他とどう違うのか — 比較

SAM 3の最大の特徴は、画像と動画をシームレスに扱う「統一性」と、テキストプロンプトによる「操作性」の向上です。また、オープンソース(Apache 2.0など)としてモデルとコードが公開されており、研究者や開発者が自由に利用・改良できる点が、クローズドな商用モデルとの大きな違いです。

なぜこれが重要か — So What?

コンピュータビジョン分野において、SAMシリーズは事実上の標準(デファクトスタンダード)となりつつあります。SAM 3によって動画編集、ロボット工学、AR/VRなどの分野で、オブジェクト認識・切り抜きの精度と効率が飛躍的に向上する可能性があります。特に「Playground」の公開により、非エンジニアでも最新AIの能力を体験できるようになった点は普及を加速させるでしょう。

未来の展開・戦略性 — 展望

MetaはSAM 3を、InstagramやFacebookなどの自社サービス(動画エフェクト、Marketplaceでの商品表示など)に組み込んでいく方針です。また、オープンソースコミュニティを通じて、医療、科学、保全活動(野生動物モニタリングなど)といった多様な分野での応用が広がることが期待されます。

どう考え、どう動くか — 見解

具体例: 画像処理や動画編集に関わるエンジニアは、GitHubのリポジトリをチェックし、自社のパイプラインにSAM 3を組み込めるか検証すべきです。

指針:

  • 検証ポイント: 動画内でのオブジェクト追跡の安定性、処理速度、特定ドメインへの適応能力。
  • 活用イメージ: 動画編集ツールの自動切り抜き機能、監視カメラ映像の解析、ロボットの視覚システム。

次の一歩:

  • 今日やること: Segment Anything Playgroundにアクセスし、手持ちの動画や画像でセグメンテーション精度を試す。
  • 今週やること: Hugging Faceからモデルをダウンロードし、ローカル環境での動作確認を行う。

出典と日付

[1] Meta AI Blog "Introducing Meta Segment Anything Model 3 and Segment Anything Playground" (2025-11-21): https://ai.meta.com/blog/segment-anything-model-3-sam3/ (※URLはt.coからのリダイレクト先を想定)