これは何の話? — 事実
XPENGはAI Day 2025で、物理世界向けの視覚‐言語‐行動モデル「VLA 2.0」を軸にヒューマノイドロボット「IRON」、ロボタクシー、飛行体を同時展開するロードマップを公開しました。[1] 一行図解:視覚+言語入力 →(VLA 2.0)→ ヒューマノイド/ロボタクシー/飛行体。自動車メーカーとしての枠を超え、「グローバル身体知能企業」への再定位も宣言しています。[2]
何がわかったか — 事実
VLA 2.0は視覚信号から直接行動命令を出し、言語変換の中間工程を省くとXPENGは説明しています。[1] 3種類の装置(乗用車・ヒューマノイド・飛行体)を共通モデルで制御する計画で、2026年末までにヒューマノイド量産、2026年にロボタクシー試運用を開始すると公表されました。[2][3] VLA 2.0を搭載したヒューマノイドの試作機「IRON」や、飛行体のデザインモックも同時に披露されています。[1]
他とどう違うのか — 比較
多くのロボティクス/モビリティ企業は乗り物かヒューマノイドのどちらかに注力していますが、XPENGは1つのモデルで複数カテゴリを横串に通す戦略を明示しました。[2] さらに視覚→行動を言語を介さずに実装する方向性を掲げ、従来の「視覚→言語→行動」の分業型アプローチとの差分を打ち出しています。[1]
なぜこれが重要か — So What?
1社が「物理世界用AIモデル+ハードウェア+量産計画」をセットで示したことで、ロボティクスが研究段階から製品化フェーズへ移行したことを象徴します。[2] 共通モデル化が実現すれば、装置ごとの個別最適ではなく知能基盤のスケール戦略が競争軸になり、プラットフォーム主導の時代に入る可能性があります。[3]
未来の展開・戦略性 — 展望
XPENGがロードマップ通りに進めば、車・ロボ・飛行体の垂直領域を同時に押さえる新しい“身体知能プラットフォーム”が誕生し、他社も同様の横断モデルを開発せざるを得なくなります。[2] その際、データ収集や安全認証を装置間で共有できるプレイヤーが優位に立つと考えられます。
どう考え、どう動くか — 見解
例:搬送や検査など視覚から直接行動に落とし込める業務を棚卸しし、共通モデルで扱えるか評価する。
- 視覚→行動生成が実効性を持つ社内作業(搬送、分拣、検査など)を洗い出す。
- 車やロボットなど複数装置を抱える領域で、共通モデル適用余地を優先評価する。
- XPENG以外のVLA/VLA類似モデルのロードマップを継続的に監視する。
次の一歩:
・今日やること:XPENG AI Day 2025の公式資料を1枚に整理する。
・今週やること:他社(Tesla、Figure、Agilityなど)の共通モデル戦略を3件比較する。
限界と未確定 — 事実
- 視覚→行動モデルが実運用レベルで安定するかどうかは、実機データが未公開です。
- ヒューマノイドや飛行体の量産コストや価格帯はまだ明かされていません。
- 装置ごとに安全要件が異なるため、単一モデルで認証を通せるかは不透明です。
用語ミニ解説
視覚‐言語‐行動モデル(VLA / Vision-Language-Action):カメラ入力とテキスト指示から行動を決定する物理AIモデル。
出典と日付
[1] XPENG Newsroom(公開日:2025-11-05/最終確認日:2025-11-09):https://www.xpeng.com/en/newsroom/vla-2-ai-day-2025
[2] LiveScience(公開日:2025-11-07/最終確認日:2025-11-09):https://www.livescience.com/technology/robotics/xpeng-vla-2-strategy
[3] Financial Times(公開日:2025-11-05/最終確認日:2025-11-09):https://www.ft.com/content/xpeng-robotics-roadmap