1. これは何の話?

ゲームAIエージェントや基盤モデルの開発に関心を持つ研究者・開発者向けに、NVIDIAが公開した新しいオープンモデルについて解説します。

NVIDIAのAI研究チームは2025年12月28日、汎用ゲームAIエージェント向けの基盤モデル「NitroGen」をオープンソースで公開しました。NitroGenは、インターネット上のゲームプレイ動画から学習し、画面のピクセルとコントローラー入力だけで商用ゲームをプレイできます。約4.93億パラメータを持ち、SigLIP 2ビジョントランスフォーマーとDiffusion Transformer(DiT)を組み合わせたアーキテクチャを採用しています。

NitroGen記事全体像

2. 何がわかったか

NitroGenは、7万1000時間の動画から厳選した4万時間のゲームプレイデータで学習しています。対象は1000以上のゲームで、アクションRPG(34.9%)、プラットフォーマー(18.4%)、アクションアドベンチャー(9.2%)などのジャンルをカバーしています。データは818人のクリエイターが配信した3万8739本の動画から収集されました。

コントローラー入力の抽出には、テンプレートマッチング、SegFormerベースの解析、座標正規化という3段階のパイプラインを使用しています。ジョイスティック予測でR²0.84、ボタン認識で96%のフレーム精度を達成しています。

従来AIとの比較

3. 他とどう違うのか

従来のゲームAIは、個別のゲームごとに専用の学習環境を構築する必要がありました。NitroGenは、Web上の動画から行動クローニングで学習するため、ゲーム側のAPIやシミュレータに依存しません。

また、GR00T N1パターンを踏襲したアーキテクチャにより、256×256ピクセルの画像を256トークンに変換し、16ステップ先の行動を一括で生成します。これにより、リアルタイム性と汎用性を両立しています。

入力抽出パイプライン

4. なぜこれが重要か

この研究は、大規模な行動クローニングがゲームAI分野でも有効であることを実証しました。ゼロショットでゲーム固有のファインチューニングなしに、戦闘やナビゲーションなどのタスクで45〜60%の完了率を達成しています。

これは、特定のゲームに縛られない「汎用ゲームAI」の実現可能性を示しており、ゲーム開発やテスト自動化への応用が期待されます。

転移学習の効果

5. 未来の展開・戦略性

NitroGenの公開により、ゲームAI研究のベースラインが引き上げられます。研究者は既存のモデルをファインチューニングするだけで、新しいゲームへの適応を高速化できます。

NVIDIAのロボティクス基盤モデル「GR00T」との技術的な共通点も多く、ゲームAIからロボット制御への知見転移も進むと考えられます。

モデルアーキテクチャ

6. どう考え、どう動くか

例えば、ゲームQAの自動化を検討している開発チームは、NitroGenをベースにしたテスト自動化の可能性を探れます。

指針:

  • NitroGenの公開リポジトリとドキュメントを確認する。
  • 自社のゲームジャンルがデータセットに含まれているか調べる。
  • 転移学習の効果(最大52%向上)が自社課題に適用できるか検討する。

次の一歩:

  • 今日やること:NitroGenのGitHubリポジトリをクローンし、サンプルを動かす。
  • 今週やること:自社タイトルの類似ゲームでゼロショット性能を確認する。

7. 限界と未確定

  • 学習データは公開ストリーマーの動画に依存しており、非公開ゲームやニッチなジャンルへの汎化性能は未検証です。
  • リアルタイム推論の遅延や必要なGPUスペックについては、論文で詳細が示されていません。
  • ゲーム内イベントへの反応速度や長期的な戦略立案能力は、今後の評価が必要です。

8. 用語ミニ解説

  • 画面を見て操作を学ぶAIの仕組みです。(ビジョン-アクション基盤モデル / Vision-Action Foundation Model)
  • 一度の推論で複数ステップの行動を出力する手法です。(条件付きフローマッチング / Conditional Flow Matching)

9. 出典と日付

MarkTechPost(公開日:2025-12-28):https://www.marktechpost.com/2025/12/28/nvidia-ai-researchers-release-nitrogen-an-open-vision-action-foundation-model-for-generalist-gaming-agents/