Googleは、「Gemini CLI」を活用してインシデント対応を高速化する実践手法を公開した。アラートの受信から緩和策の実行、根本原因の特定、事後検証報告(ポストモーテム)の作成までの全工程にわたって活用しているという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2026年1月22日(米国時間)、同社のSRE(Site Reliability Engineering)チームが大規模言語モデル(LLM)「Gemini」をターミナルで利用できる「Gemini CLI」を活用し、障害対応を省力化・効率化している実践手法を公式ブログで公開した。
GoogleのSREチームが日常的に直面している障害と、Gemini CLIを用いた対応について、そのワークフローを解説したものだ。
公開されたワークフローは、コアSREが直面する障害への対応だ。GoogleにおいてコアSREは、安全性、セキュリティ、アカウント管理、データバックエンドなど、Google全製品の基盤インフラを支えている。
このレイヤーでの障害は、Googleのほとんど全てのサービスに波及するため、平均緩和時間(MTTM:Mean Time to Mitigation)の短縮が最重要指標になっているという。
通常、アラート(ページ)を受信してから5分以内に確認するというSLO(サービスレベル目標)が設定されており、SREは極限のプレッシャーの中で即座に緩和策を実行することが求められている。
コアSREのインシデント対応は主に以下の4ステップで構成されている。
アラート受信後の最優先事項はコードの修正ではなく、ユーザーへの影響を緩和することだ。GoogleのSREチームは、トラフィックのドレイン(退避)、ロールバック、再起動、容量追加といった標準的な対応パターンを「汎用(はんよう)的緩和策」として体系化している。
SREチームがターミナルでGemini CLIを起動すると、同社内のエージェントフレームワーク「ProdAgent」からfetch_playbook関数を呼び出す。この関数は複数のツールを連鎖させてコンテキストを構築する。
シナリオでは、上記の分析に基づき、Gemini CLIが「borg_task_restart playbook」(タスクの再起動)を即時緩和策として提案する。SREがプランを確認し、再起動を承認すると、安全な再起動プロセスが即時実行される。
ヒューマンインザループ(人間による確認)を維持することで、緩和策が適切かつ安全であることを検証しているという。
本番インフラでは自律エージェントの動作は制限される。ある条件で安全なコマンドが、別の状況では安全でない場合があるためだ。下記の取り組みを通じて、Gemini CLIをオートパイロット(自動操縦)ではなくコパイロット(副操縦士)として機能させているという。
再起動が失敗した場合、手作業による対応では大きなコンテキストスイッチが発生する。別のダッシュボードを開き直し、手作業でログを検索(grep)しなければならず、その間に貴重な時間が失われてMTTMは悪化する。しかし、Gemini CLIは再起動エラーをキャッチしてもワークフローを中断せず、即座に障害の分析を継続する。
分析の結果、Gemini CLIはあるパターンを発見する。対象のセル内において、自分たちのジョブだけが失敗しており、他のジョブは正常稼働していた。これは極めて重要な事実となる。特定のバイナリや設定に起因する障害だと切り分けられるからだ。
Gemini CLIがこの切り分けを数分ではなく数秒で完了させることで、SREチームは見当違いの調査に時間を奪われるのを回避できる。
単純な再起動では解決しない場合、アプリケーションロジックにあるバグを探す必要がある。Gemini CLIにソースコードの調査を指示する際、Googleのような巨大なモノレポ(モノリシックリポジトリ)を運用している環境では、特定のフォルダだけをコンテキストとして渡せる機能が極めて有効に働くという。
Gemini CLIはファイルを取得し、最近の変更を分析し、先ほど取得した本番ログと照合する。2分以内に原因(シナリオでは、最近の設定プッシュにおけるロジックエラー)を特定する。
SREチームが修正のCL(Changelist:GitHubのプルリクエストに相当)の作成を依頼すると、Gemini CLIは不正な設定を元に戻し、セーフガードを適用するパッチを生成する。CLのレビューと承認、提出、自動ロールアウトの待機という手順が示され、コードが修正されてサービスが復旧する。
障害は収束したが、SRE文化の根幹となる「ポストモーテム」のプロセスが残っている。タイムスタンプの収集、ログへのリンク、具体的な対応の記録といった作業は手間がかかる。
そこで、ProdAgent内にポストモーテム作成を支援するカスタムコマンドが、この作業を大きく簡略化させているという。このツールは以下の処理を実行する。
さらにGemini CLIは、MCPを使用して課題追跡システムと連携し、アクションアイテムをバグとして登録し、担当エンジニアにアサインする。最終的なポストモーテムはGoogle ドキュメントにエクスポートする。
Googleは、Gemini CLIを使用することで、「Gemini 3」の推論能力を運用データに接続し、ライブログの分析、コードパッチの生成、本番環境へのロールアウトまでを一貫してターミナル上で完結できると説明している。この直接的な統合により、MTTMの短縮が可能になるという。
「4つのステップはGoogle内部の障害対応手法だが、汎用的なものであり、誰でもGemini CLIを通じて取り組むことができる。MCPサーバを通じて、『Grafana』『Prometheus』『PagerDuty』『Kubernetes』との連携も可能だ」(Google)
日々の障害対応を経て生成されたポストモーテムがトレーニングデータとなり、AIにフィードバックすることで、「これまで起きたインシデントが明日のソリューションに活用される」という好循環が生まれると、Googleは今後の展望を語っている。
AIコーディングはなぜ後から苦しくなるのか? 技術負債に続く「理解負債」「認知負債」という新たな落とし穴
「膨大なログ調査も自然言語で」 生成AIとRAGを使った運用効率化
“音声入力は使えない”派が認めた「Aqua Voice」とは? 2026年、プログラミングの常識が変わる
コードが書けなくても大丈夫? 生成AI×MCPで「インフラ構築自動化」を実現する方法Copyright © ITmedia, Inc. All Rights Reserved.
編集部からのお知らせ