
クラウド運用体制の構築方法
まず決めるのは運用スコープとSLO——“どこまで面倒を見るか”を明文化
クラウド運用は、費用・責任・手順の境界が曖昧だとすぐに破綻します。最初に決めるべきは「対象システムの範囲」「可用性の目標」「復旧の目標」「費用の上限」です。ここが曖昧だと、アラート設定もオンコール設計も揃いません。
SLI/SLOの決め方
ユーザー体験に直結するSLIを2〜3個に絞ります。例:API成功率、p95レイテンシ、決済成功率。SLOは、B2Cなら可用性99.9%(月間エラーバジェット約43分)、B2B基幹なら99.95%(約22分)を起点に、業務時間帯に重み付けします。SLOを超過しそうなときは、リリース凍結や機能フラグでリスクを抑える運用ルールもセットで定義します。
責任分界の線引き
RACIで「誰が見るか」を明確にします。例:クラウド基盤(VPC/ネットワーク/セキュリティ)はプラットフォーム担当がResponsible、アプリ障害は各サービスチーム、コスト最適化はFinOpsが主担当。バックアップ/DRはRPO(例:15分)とRTO(例:60分)を決め、演習を四半期ごとに実施します。
役割分担とオンコール設計——24/7を無理なく回す仕組み
最小編成のモデル
5〜20名規模なら、SRE(プラットフォーム)2〜4名、アプリ担当3〜8名、セキュリティ1名、FinOps兼務1名が現実的です。週次で「運用当番」を回し、日中は当番が一次受付、夜間/休日はオンコールが一次対応します。
オンコールの仕組み
一次オンコールは1週間単位のローテーション、二次はSRE固定。エスカレーションSLAは「重大度SEV1: 5分で受付、15分で指揮確立、60分以内に暫定復旧」。PagerDutyなどに業務時間帯のスケジュールを登録し、Slackの専用チャンネル(例:#inc-sev1)へ自動連携。Runbookは「切り戻し手順」「リトライ回数」「判断基準」をコマンド単位で記述し、ChatGPTで初稿を生成→運用レビューで現実に寄せると整備が進みます。
インシデント運用
重大度はSEV1〜SEV3に分類。インシデントコマンダー、コミュニケーション担当、テクニカルリードをその場で指名し、30分ごとに状況更新。恒久対策は「検知強化」「自動化」「設計変更」にタグ付けし、次スプリントに投入。ポストモーテムはノーブレームで、MTTR/MTBFの推移を四半期でレビューします。
監視・ログ・自動化の標準スタック——“見える・鳴る・直る”を揃える
観測性とアラート設計
メトリクス/ログ/トレースは統合して可視化します。DatadogやAWS CloudWatchでGolden Signals(レイテンシ/エラー/トラフィック/サチュレーション)をダッシュボード化。アラートは「SLOベース(ユーザー影響)」「リソース閾値(予兆)」「健全性(ジョブ/バックアップ)」を層で分け、ノイズはアグリゲーション(5分窓口で1件化)と抑止(デプロイ中はミュート)で削減します。
連携と自動化
通知はSlackに集約し、/ops コマンドでRunbookを呼び出すChatOpsを導入。一次自動復旧は「Pod再起動」「ASGのインスタンス切替」「キャッシュフラッシュ」をLambdaやRunbook Automationで実装します。IaCはTerraformで環境差分をゼロにし、CI/CDはCanaryリリース+自動ロールバックを標準化。コストはタグ基準(env:prod, svc:orders, owner:team-a)を必須化し、月次でユニットコスト(1注文あたり円)を追います。
セキュリティと権限管理
最小権限で運用ロールを作成し、Break-Glassアカウントは金庫管理+監査ログ必須。アラート/設定変更/権限昇格は監査可能にし、CloudTrailの保持期間は1年以上。秘密情報はマネージドKMS/Secrets Managerに統一し、キーのローテーションは90日サイクルで自動化します。
身近な企業活用例:中小EC「ハチドリ商店」の失敗と改善
社員50名のEC事業者ハチドリ商店は、繁忙期にたびたびサイト遅延が発生。監視はAWS CloudWatchの基本アラームのみ、オンコール不在で「夜中に気づいた人が対応」状態。ある夜、単一AZ障害で2時間ダウンし、機会損失が拡大しました。
改善では、まずSLOを「チェックアウト成功率99.9%、p95レイテンシ800ms以下」に設定し、エラーバジェットを運用判断に組み込みました。監視はDatadogへ集約、SLOダッシュボードと異常検知を整備。PagerDutyで一次/二次オンコールを週替わりに設定し、Slackの#inc-sev1へ自動連携。RunbookはChatGPTで雛形を作り、実機検証でコマンドと期待結果を明文化。インフラはマルチAZ化し、オートスケールの閾値をCPU60%・p95レイテンシ700msでトリガーするよう調整しました。結果、MTTRは120分→18分、誤報アラートは70%削減、繁忙期の落ち込みも解消。コストはタグ運用と夜間スケールインで15%削減できました。
意思決定に効いたのは「SLOから逆算した設計」「オンコールのSLA明文化」「Runbookの具体化」の3点でした。ツール選定自体より、運用ルールを先に言語化したことが成功要因です。
クラウド運用体制は、SLOと責任分界を起点に、オンコールと観測性、自動化を最小セットで回し、データで継続改善するのが近道です。ここで述べた考え方と仕組みは、サーバ監視運用事業の現場で磨かれてきた定石でもあります。規模や業種に応じて数値と役割を調整し、自社の“鳴ってから慌てない”体制を育てていきましょう。