コンテンツにスキップ

監視対象が適切に設計され、異常時の通知が設定されているか?

Type: DeepDive
Category: 非機能要件・運用 Audience: 設計リーダー / SRE / インフラ設計者 / レビュー担当者


背景・概要

障害の兆候を早期に察知するには、設計時点での監視ポイント定義が極めて重要

リトライ回数、エラーレート、レスポンス遅延、CPU使用率など、「どこを見れば異常がわかるか?」を明確にし、通知基準と通知先まで決めておく


  • キューサイズが一定以上に膨らんだらSlack通知されるよう監視設定
  • Cloud Logging(GCP)・CloudWatch Logs(AWS)・Azure Monitor Logsなどのエラーログが特定条件を満たすとPagerDutyへ連携
  • 重要APIの99パーセンタイルのレスポンスタイムを監視ダッシュボードで可視化

よくある失敗例

  • 障害は起きていたが、通知が来ずユーザー報告で発覚
  • 通知は来たが誤検知が多く、アラート疲れで無視されていた
  • アラートがAPI単位でなくインフラ単位でしか取れず、原因調査に時間がかかる

FAQ

Q. どのレイヤーを監視すべき?

A. インフラ(CPU/メモリ)、アプリケーション(エラーレート)、ビジネス(処理件数の異常)など、複数レイヤーを俯瞰してカバーすべき

Q. 通知先はどう決める?

A. システムの重要度・担当範囲に応じてSlack/メール/インシデント管理ツール(例:PagerDuty)などを使い分ける。自動化できる運用フローが望ましい


関連観点