1. これは何の話?
ElevenLabsが、音声だけでなく画像・動画まで含めて完パケできる「Image & Video」ベータを公開しました。NanobananaやFlux Kontext、GPT Image、Seedreamなどの画像モデルと、Veo・Sora・Kling・Wan・Seedanceなどの動画モデルを一つのUIから選べます。生成した絵や動画はElevenLabs Studioに直接送り、ナレーションやBGM、効果音を重ねて書き出せる構成です。音声プラットフォームからワンストップの映像制作環境へ広げる第一歩となります。
2. 何がわかったか
Image & Videoはクリエイティブプラットフォーム内の機能として提供され、画像生成→動画生成→アップスケール→リップシンク→Studio編集までを連続で扱えます。静止画はNanobananaやFlux Kontextなど複数モデルを切り替え、ストーリーボードやサムネとして再利用可能です。動画はVeoやSoraなど高品質モデルを選び、生成後にElevenLabsの音声・音楽ライブラリと合成できます。AIBaseのレポートでは、30秒のブランド広告を数分で4K書き出ししたデモ例が紹介されました(ベンダー条件下)。
3. 他とどう違うのか
RunwayやPikaが自社モデル中心なのに対し、Image & Videoは外部のトップ動画モデル群へのハブとして機能します。音声プラットフォームだったElevenLabs内で完結するため、多言語ナレーションやBGMとの連携コストが低い点も差別化です。複数モデルの比較・差し替えを同一タイムラインで試せるのは、制作チームにとって大きな運用メリットになります。
4. なぜこれが重要か
動画モデルの使い分けと音声制作を別サービスで渡り歩く必要が薄れ、1アカウントで完結することで手戻りが減ります。社内チームは「台本→映像→音声」をElevenLabs上で閉じられるため、外注コストや修正のラウンドトリップを圧縮できます。個人クリエイターにとっても、ショート動画制作の敷居が下がり、プロンプト試行に時間を割ける環境になります。
5. 未来の展開・戦略性
機能が安定すれば、「どの動画モデルを使うか」より「ElevenLabsタイムラインでどう構成するか」が重視され、編集ソフトに近い世界観へ寄っていきます。マーケットプレイス的なテンプレやプリセットが乗れば、VeoやSoraを直接触らない層がElevenLabs経由で利用する構造も生まれそうです。ElevenLabsは音声マーケットプレイスとも連動できるため、映像と音の束ね役としてのロックイン効果が高まります。
6. どう考え、どう動くか
具体例:30秒のTikTok広告を、Nanobananaでキービジュアル→Soraで動き→ElevenLabsでナレーションとBGMを付け、縦長で書き出す一連を試作する。
指針:
- まず短尺(15〜30秒)と既存テンプレで1本作り、速度と画質、音合わせのしやすさを体感する。
- 同じプロンプト・同じ尺でVeo/Sora/Klingを切り替え、ノイズ感と動きの滑らかさ、レンダリング時間を記録する。
- 音声・多言語化との相性を見るため、複数言語ナレーションを差し替えたバリエーションを比較する。
次の一歩: ・今日やること:Image & Videoの公式ブログを読み、利用可能な画像・動画モデルの一覧をメモする。 ・今週やること:Image & Video+Studioだけで30〜60秒の解説ショートを1本作り、既存ワークフローとの工数差を測る。
7. 限界と未確定
- 各モデルの秒数・解像度・料金の上限はモデル提供元に依存し、組み合わせ別の細かな上限は未整理です。
- ベータ版のためUIやモデルラインナップが変動する前提で、長期運用には追従コストを見込む必要があります。
- 外部モデル依存が大きく、特定モデルの提供停止時の代替パスは現状不透明です。
8. 用語ミニ解説
- マルチモーダル:テキスト・画像・音声・動画など複数の情報形式をまとめて扱う性質。
9. 出典と日付
ElevenLabs(公開日/最終確認日:2025-11-25/2025-11-28):https://elevenlabs.io/blog/introducing-elevenlabs-image-and-video