
監視KPIとMTTR改善策
MTTRを軸にKPIを設計し直す
障害対応の体感は「長かった/短かった」ですが、意思決定の単位は数字です。まずはMTTR(平均復旧時間)を最上位に据え、検知から復旧までの各工程をKPIで切り分けます。ボトルネックがどこかを特定できれば、投資も運用変更も迷いません。
分解KPIと推奨目標
- MTTD(検知までの平均時間):クリティカルは2分未満
- MTTA(着手までの平均時間):有事時間帯で5分未満、夜間15分未満
- 診断時間(原因仮説が立つまで):P50で10分、P95で30分
- 修復時間(施策実行〜回復確認):サービス特性に応じてP95 60分目安
- アラート誤検知率(閉じて終わり比率):週次5%未満
- ランブック網羅率(主要アラートに手順紐付け):80%以上
計測の起点と終点も統一します。例えば「最初のユーザ影響アラート発火時刻」を開始、「復旧確認アラートの連続成功5分」を終了と定義すると、チーム間で比較可能になります。
KPIツリーで優先順位を決める
MTTR=MTTD+MTTA+診断時間+修復時間とし、最も寄与が大きい項目から着手します。誤検知率が高いならMTTD短縮よりアラート品質を先に。診断時間が長いなら観測点の追加や初動自動化が優先です。投資は「1週間で10%短縮できる施策」を3本並走させ、四半期でP95の改善を見ます。
MTTRを縮める運用実装5ステップ
1. 症状ベース+SLO連動のアラートへ
CPU90%やディスク残量だけではノイズが出ます。ユーザ影響に近い症状(p95レイテンシ、エラーレート、キュー遅延)を主アラートにし、SLOと閾値を接続します。例:SLOが「エラーレート1%」なら「5分平均が0.7%超で警告、1%超で重大」。原因系アラート(CPU高騰など)は相関ルールで添付情報に回し、ページャは鳴らさない方針が有効です。
2. 通知と当番の設計をやり直す
当番の一次は必ず個人に到達、二次は5分で自動エスカレーション。サイレンスは変更ウィンドウに自動設定。メッセージは「何が壊れたか・どれだけ悪いか・次の一手」を1行目に固定します。MTTAは運用設計でしか縮まりません。
3. 初動の自動化と文脈同梱
アラート発火時に自動で調査を走らせ、結果を同じチケットに添付します。直近のデプロイ差分、依存サービスのヘルス、主要クエリの遅延上位、Pod再起動履歴など「最初の5分で見るもの」をスクリプト化します。ログの要約や相関のあたり付けはChatGPTやGeminiに投げ、長文ログから「異常が始まった時刻とスクリーン名」を抽出しておくと診断時間が目に見えて縮みます。小さなテストやクエリ生成はCopilotで下書きし、レビューで安全性を担保します。
4. 自動復旧と安全なロールバック
再起動やキュー退避、機能フラグOFF、スケールアウトなど、失敗しても戻せる手当を自動化します。ガードレールとして「1回だけ試す」「改善なければ人へエスカレーション」「影響時間をログ計測」を必ず実装。復旧確認はユーザ視点のヘルスチェックにします。
5. ふりかえりでKPIに反映
重大障害は72時間以内にポストモーテム。タイムライン、再発防止、削除すべきアラート、追加すべき観測点をKPIと紐付けて記録します。要点整理はClaudeでドラフト化すると、レビューに時間を回せます。翌スプリントのバックログに必ず落とし、完了まで追跡します。
ダッシュボードとレビューの型
経営向けと現場向けの二階層
経営向けは「サービスごとのSLO達成率、MTTR P50/P95、重大件数、誤検知率」を月次で。現場向けは「アラート発火数、チケット化率、初動自動化添付率、診断時間分布、最近の改善で削減できた分」を日次で。デプロイや構成変更の注釈を全グラフに出すと、変化点の特定が速くなります。
レビューの定着
毎週30分のOpsレビューで、先週の最長MTTR案件の分解、誤検知トップ3の削除、ランブック未整備アラートの担当割り当てを回します。数値はP95で見る癖をつけ、平均値に騙されない運用にします。
身近な企業活用例:中堅EC「マーブルマーケット」の立て直し
地方発のEC企業「マーブルマーケット」(従業員90名、エンジニア7名)。監視はCPU/メモリ中心で、セール時に警告が雪崩のように発生。重大なカート障害に気づくまで平均30分、MTTRはP95で110分。アラートの40%が誤検知で当番が疲弊していました。
対策は3週間スプリントで段階導入。1週目に主アラートを「チェックアウトp95レイテンシ」「決済エラー率」に刷新、原因系は添付情報に格下げ。2週目に初動自動化を整備し、発火と同時に直近のデプロイ差分やRDSの接続失敗数、S3のスロットリング率を収集。ログの長文はGeminiで要約し、異常開始時刻と共通エラーパターンを抽出。3週目に機能フラグで決済連携を段階停止できるスイッチを用意し、ロールバックを安全に。
あわせて、ランブックの初版はChatGPTで骨子を生成、Copilotでヘルスチェックと計測スクリプトを下書きしてレビュー短縮。ポストモーテムのドラフトはClaudeが時系列を要約し、KPIの差分を自動挿入する形にしました。
6週間後、誤検知率は40%→8%、MTTDは7分→1.6分、MTTRはP95で110分→38分に短縮。セール時の見落としもゼロに。週次レビューでは「削除したアラート数」と「自動復旧で救った件数」を可視化し、改善の手応えが当番の負担軽減として実感できる状態になりました。
監視のKPIは道具の数より定義と計測の一貫性で決まります。MTTRを頂点に分解し、SLO連動の症状ベース設計、初動自動化、ふりかえりの定着までを小さく速く回す。こうした地に足のついた運用が、サーバ監視運用事業の現場価値を底上げし、障害を「起きるが速く直る」状態へ近づけます。