1. これは何の話?

Metaが音声セグメンテーションAIモデル「SAM Audio」を発表し、オープンソースとして公開しました。画像セグメンテーションで有名なSegment Anythingシリーズの音声版であり、複雑な音声ミックスから特定の音を直感的に分離できます。

このモデルは、人間が自然に音を認識する方法を模倣した設計になっています。「犬の鳴き声を消して」「このバンド映像からギターだけ抽出して」といった操作を、専門的な編集スキルなしで実行可能にします。

2. 何がわかったか

SAM Audioは3種類のプロンプト方式をサポートしています。1つ目はテキストプロンプトで、「犬の鳴き声」「歌声」などの言葉で抽出したい音を指定します。2つ目は映像プロンプトで、動画中の人物やオブジェクトをクリックするとその発する音だけを分離できます。

3つ目は業界初となる時間スパンプロンプトで、「この時間帯に聞こえる音」を指定して抽出することが可能です。これら3方式は単独でも組み合わせでも使用でき、精密な音声コントロールを実現しています。

3. 他とどう違うのか

従来の音声分離ツールは「ボーカル除去」「ノイズ除去」など単一目的のものが多く、汎用的な分離には複数ツールの併用が必要でした。SAM Audioは統合モデルとして、あらゆる分離シナリオに1つで対応できます。

また、映像との連動やテキスト指示という自然なインターフェースにより、オーディオエンジニアでなくても高度な編集が可能になった点が画期的です。

4. なぜこれが重要か

音楽制作、ポッドキャスト編集、映像制作、アクセシビリティ、科学研究といった幅広い分野でプロレベルの音声編集が民主化されます。特にコンテンツクリエイターにとって、ノイズ除去や特定パートの抽出が格段に容易になります。

Metaは次世代クリエイティブツールの構築にSAM Audioを活用することを明言しており、Instagram Reelsなどへの統合も視野に入っていると考えられます。

5. 未来の展開・戦略性

SAM Audioがオープンソースであることから、サードパーティによる音楽制作ソフトや動画編集ソフトへの統合が進む可能性があります。また、Metaの既存製品(InstagramやWhatsApp)への機能統合も予想されます。

Segment Anythingシリーズは画像、3D、そして今回の音声と拡張を続けており、将来的には動画全体(映像+音声)をシームレスに操作できる統合AIへと発展するかもしれません。

6. どう考え、どう動くか

例えば、屋外撮影した動画から風切り音や交通音を除去したいVloggerにとって、SAM Audioは強力なツールになります。

指針:

  • Segment Anything Playgroundで実際に音声分離を試してみる。
  • 自分のワークフロー(ポッドキャスト編集など)への組み込み可能性を検討する。
  • GitHubからモデルをダウンロードしてローカル環境で性能を検証する。

次の一歩:

  • 今日やること:Segment Anything Playgroundにアクセスし、サンプル音声で分離を試す。
  • 今週やること:自分のプロジェクト素材でノイズ除去や音声抽出を実験する。

7. 限界と未確定

  • 複雑な音声ミックスでの分離精度の限界は未詳細公開。
  • リアルタイム処理への対応可否は不明。
  • 商用製品への組み込み時のライセンス条件は要確認。

8. 用語ミニ解説

  • 音声データを意味のある単位(声、楽器、環境音など)に分割すること。(音声セグメンテーション / audio segmentation)

9. 出典と日付

Meta Newsroom(公開日:2025-12-16):https://about.fb.com/news/2025/12/our-new-sam-audio-model-transforms-audio-editing/