1. これは何の話?

LLM導入を検討する開発チームやSRE向けに
、GoogleのSRE(Site Reliability Engineering)チームが、Gemini CLIと最新モデルGemini 3を活用して、実際の障害対応(Outage)プロセスをどのように変革しているかを解説した事例です。
"Eliminate Toil(労苦の排除)"を掲げる同チームが、単なるスクリプト化を超え、AIエージェントをターミナルに統合することで、アラート検知から緩和措置、原因特定、事後分析(ポストモーテム)までのサイクルをいかに高速化・自動化しているかが詳述されています。
特に、ユーザーへの悪影響時間を示す指標「Bad Customer Minutes」を最小化するために、AIを安全な「Copilot(副操縦士)」として組み込む実践的なアーキテクチャが示されています。
2. 何がわかったか
Google SREの現場において、Gemini CLIがオペレーションの中核ツールとして機能し、以下の4段階のインシデント対応をAIが主導・支援できることが示されました。
- ページング(調査): アラート受信後、ProdAgent(内部エージェント)と連携し、ログ分析や時系列データの相関分析を自動実行して状況を分類。
- 緩和(Mitigation): 「Borgタスクの再起動」のような緩和策(Playbook)をAIが提案し、人間が承認後、安全に実行して「止血」を行う。

- 根本原因(Root Cause): インフラが健全な場合、AIが特定のソースコード変更履歴を分析し、論理エラーのあるコミットを特定して修正パッチ(CL)を自動生成。

- ポストモーテム: 対応履歴やログをスクレイピングし、時系列(CSV)整理、Markdownドキュメント生成、Action Itemsのチケット化までを自動化。
これらのプロセスにより、従来は手動で数分かかっていたコンテキストスイッチや情報収集が数秒で完了し、平均緩和時間(MTTM)の大幅な短縮が可能であることが確認されています。
3. 他とどう違うのか
既存のChatOpsや単純な自動化スクリプトとの決定的な違いは、「MCP(Model Context Protocol)によるツール連携」と「多層的な安全性(Safety Layers)」にあります。
従来のチャットボットがテキストのアドバイスに留まりがちなのに対し、Gemini CLIは明確に型定義されたツール(Deterministic Tools)を直接操作し、実際のインフラに変更を加える能力を持ちます。同時に、AIが勝手に実行するのではなく、リスク評価(Risk Assessment)、ポリシー強制(Policy Enforcement)、そして必ず人間が承認するHuman-in-the-Loopの承認フローを強制することで、「AIの自律性」と「運用の安全性」を両立させている点が特徴です。
4. なぜこれが重要か
この事例は、AIエージェントが「実験的なアシスタント」から「実運用に耐えうるインフラ操作インターフェース」へと進化していることを証明しているため重要です。
特に、障害対応における最大のコストである「タイムロス(Bad Customer Minutes)」を、AIの推論能力とツール実行能力を組み合わせることで物理的に削減できる点は、企業の信頼性向上に直結します。また、Google内部の高度なツールチェーンだけでなく、Gemini CLIやMCPといった公開技術をベースに誰でも同様のワークフローを構築可能であると示された点は、全スケーラビリティエンジニアにとって大きな意味を持ちます。
5. 未来の展開・戦略性
SREの業務フロー全体が、AIエージェントを前提とした「Agentic Workflow」へと再構築されていくことが予想されます。
現在は「人間がAIの提案を承認する」フェーズですが、将来的には信頼スコアの高い定型的な緩和策については、より高度な安全装置(Agentic Safety Systems)の下で完全自動化される領域が拡大するでしょう。
また、MCPサーバーのエコシステムが拡大することで、Grafana、Prometheus、PagerDuty、Kubernetesといった外部ツールがGemini CLI経由でシームレスに連携し、どの企業でも「GoogleクラスのSRE自動化」が再現可能になる戦略的な転換点と言えます。
6. どう考え、どう動くか
SREやDevOps担当者は、単に監視ツールを増やすのではなく、「オペレーション自体をAIにどう委譲するか」という設計思想への転換が必要です。
まず手元の定型作業(ログ調査や定型レポート作成)をAIエージェント化し、徐々に権限範囲を広げていくアプローチが有効です。
指針:
- MCP対応ツールの導入・開発: 自社の監視・デプロイツールのAPIをMCPサーバー化し、AIから操作可能な状態にする。
- ポストモーテムの自動化検討: 過去の障害対応ログを活用し、事後分析のドキュメント作成をAIに任せることから始める。
- Human-in-the-Loopの設計: AIにどこまで自律させ、どこで人間の承認を挟むかのポリシー(承認フロー)を明確に定義する。
次の一歩:
- 今日やること:Gemini CLIをインストールし、Custom Commandsで簡単なログ調査コマンドを1つ作成して試す。
- 今週やること:チーム内の直近の障害対応フローを見直し、AIエージェントが代替・支援できそうなプロセス(情報の集約や特定手順の実行)を3つリストアップする。
7. 限界と未確定
- ツールの網羅性: 記事ではGoogle内部ツール(ProdAgent, Borgなど)が前提となっており、一般的なOSSツール(Kubernetes, Terraform等)だけで同等の安全性を即座に確保できるかは、各ツールのMCP対応状況に依存します。
- 複雑な障害への対応: 既知のパターン(Playbook)に当てはまらない未知の障害や、複合的な要因による障害において、AIがどこまで正しい推論を行えるかは検証が必要です。
- コストと遅延: 緊急時のAPIコールにおけるレイテンシや、大量のログ処理に伴うトークンコストについては、大規模環境での実測値による検証が求められます。
8. 用語ミニ解説
- Bad Customer Minutes: サービスの品質低下によりユーザーが悪影響を受けた時間の総量。SREにおいて最小化すべき重要指標。
- MCP (Model Context Protocol): AIモデルと外部ツール(データソースや機能)を標準的な方法で接続するためのオープンなプロトコル。これによりAIが安全にツールを利用できる。
9. 出典と日付
Google Cloud Blog(公開日:2026-02-01※推定):https://cloud.google.com/blog/topics/developers-practitioners/how-google-sres-use-gemini-cli-to-solve-real-world-outages?hl=en









