これは何の話? — 事実
Google Cloudは第7世代TPU「Ironwood」とArmベースの「Axion」VMを正式公開し、推論と大規模訓練を同一クラウドで最適化する“AI Hypercomputer”アーキテクチャを前面に出しました。[1] Ironwoodは推論応答の遅延とコストを削り、Axionは一般計算と推論の土台をArm化することで、GPU依存の外部供給リスクを抑えようとしています。[1][2] 一行図解:モデル推論・訓練 →(自社チップ+トポロジー制御VM)→ 低遅延・低コスト・スケーラブルなクラウド。
何がわかったか — 事実
Ironwoodは1チップ当たり4,614 FP8 TFLOPSと192GBのHBM3E(7.37TB/s)を備え、9,216枚ポッドで42.5 FP8 ExaFLOPSを叩き出します。[1] 3DトーラスICIと光学スイッチを使った再構成型ネットワークで“キューブ→ポッド→スーパー ポッド”へ階層拡張し、1.77PBの共有HBMを高速RDMAで扱えるようにしました。[2] Axion VMはArm Neoverse V2をベースに、x86比で最大50%性能・60%電力効率・30%高いArm対Arm性能を謳い、C4A(72 vCPU)/N4A(64 vCPU)/C4A Metal(96 vCPU)の構成を提供します。[1] ソフト面ではXLAコンパイラとPyTorchネイティブ体験、JAX/Pallasによるカスタムカーネル記述が統合され、MaxTextやvLLMなど推論基盤もTPUに最適化済みです。[2]
他とどう違うのか — 比較
多くのクラウドはNVIDIA H100やGB300に依存していますが、Googleは推論重視のチップとArm VMをセットで自前化し、OCIやL3トポロジーまで最適化した点が異なります。[1][2] IronwoodのFP8性能や1.77PB共有メモリはBlackwell NVL72(0.36 FP8 ExaFLOPS)より桁違いで、推論ワークロードでもGPUよりも低コスト・高密度を打ち出しています。[1] AxionもTitaniumコントローラと組み合わせてI/OやセキュリティをCPU外に逃がし、従来x86中心だったVM層をArmで再設計しているのが特徴です。[1]
なぜこれが重要か — So What?
生成AIのボトルネックは「推論コストと待ち時間」です。FP8に最適化したTPUとArm VMを一体で提供することで、Googleは推論あたり電力とクラウド料金を圧縮しつつ、モデル提供者(Anthropicなど)に大量TPUを貸し出す新たな商機を得ます。[1] 同時にAxionで一般処理をArm化すれば、GPUやx86の供給制約を受けづらくなり、マルチテナント運用やSLA遵守を自社設計で担保できます。[2] これは“モデル性能だけでなく、推論インフラが競争優位になる”局面を象徴します。
未来の展開・戦略性 — 展望
GoogleはIronwoodポッドを再構成できる光学スイッチとKubernetes Cluster Directorで、停止リスクを握りつつ数十万TPU規模のクラスターを運用する計画です。[1][2] Anthropicが最大100万TPUを利用するなどエコシステムが付いてくれば、AI Hypercomputerは「クラウド原価×ROI = 353%」というIDC試算を武器にエンプラ獲得を進めるでしょう。[1] Axion VMのラインナップも、データ処理→推論→エージェント実行をArmネイティブで回す前提に変わる可能性が高いです。
どう考え、どう動くか — 見解
例:大量のチャット応答や生成APIを抱えるSaaSが、Axion+C4A構成とTPU推論を組み合わせて遅延・原価を同時に抑える。
- まず自社の推論SKU(コンテキスト長、待ち時間SLO、データ転送量)を棚卸しし、FP8推論に向くかどうかを判定する。
- ArmベースVMで動くアプリ層(推論連携API、バッチETL)をリストアップし、Titanium I/Oと相性の良い処理を抽出する。
- AnthropicやLightricksのようなTPU利用ケースを調べ、モデル供給側とのコストシェアや予約プランを交渉材料にする。
次の一歩:
・今日やること:既存推論ジョブのPrecision/型(FP16/INT8等)を洗い直し、FP8移行時の精度評価項目をまとめる。
・今週やること:Axion VMのC4A/N4A料金と現行x86 VMのTCOを比較し、切り替え候補ワークロードを1枚に整理する。
限界と未確定 — 事実
- 4,614 FP8 TFLOPSや42.5 FP8 ExaFLOPSはピーク値であり、実際のSLAやキュー遅延はまだ公表されていません。[1]
- Axion VMは現状プレビュー構成を含むため、リージョンやサポートOSが限定されます。[1]
- ソフトウェア最適化(PyTorch eager+XLAやPallasカーネル)が現場でどれだけ使いやすいかは実証段階です。[2]
用語ミニ解説
“Ironwood TPU”:Google第7世代の推論・訓練兼用TPU。FP8特化設計と3DトーラスICIで大規模ポッドを再構成できる。
“Axion CPU”:Arm Neoverse V2ベースのGoogle自社サーバーCPU。Titaniumコントローラと組み合わせ、x86比で高効率を狙う。
出典と日付
[1] Tom’s Hardware(公開日:2025-11-06/最終確認日:2025-11-09):https://www.tomshardware.com/tech-industry/artificial-intelligence/google-deploys-new-axion-cpus-and-seventh-gen-ironwood-tpu-training-and-inferencing-pods-beat-nvidia-gb300-and-shape-ai-hypercomputer-model
[2] StartupHub.ai(公開日:2025-11-09/最終確認日:2025-11-09):https://www.startuphub.ai/ai-news/ai-research/2025/inside-ironwood-ai-stack-googles-bet-on-co-design-for-scale/