顧客インシデント管理ポリシー
Cloudflareは、オープン性と透明性がサービス提供に不可欠であると信じており、顧客やインターネットコミュニティ全体の信頼を確立することに専念しています。Cloudflareは、数億人の人々の生活と繁栄に影響を与えるグローバルネットワークを運営しており、その責任を非常に重く受け止めています。
この標準作業手順書(SOP)は、Cloudflareが本番環境に影響を与えるすべてのインシデントや問題にどのように対処し、計画的および非計画的なインシデントの性質と影響をエンタープライズ顧客にどのように伝えるかを定義しています。この手順は、以下の目的のために一貫して実施される方法を指定します。
- 環境の稼働時間を最大化すること
- 顧客への影響を最小限に抑えること
- 修復までの時間を短縮すること
- 顧客やインターネットコミュニティと情報を共有すること
このSOPは、Cloudflareの顧客および顧客が利用する顧客サービスに適用されます。このSOPは、Cloudflareのすべての顧客本番環境に適用され、以下を含みます。
- Cloudflareの公開ウェブサイト(www.cloudflare.com ↗)
- CloudflareのAPI(アプリケーションプログラミングインターフェース)
- 外部のサードパーティインターフェース(例:クレジットカード承認など)
- Cloudflareが本番サービスのために所有または管理するネットワークインフラストラクチャ
- Cloudflareの本番環境に影響を与えるベンダーのソフトウェア、ハードウェア、サービス
Cloudflareは、より良いインターネットを構築したいと考えています。数百万のインターネットユーザーに改善された体験を提供するために、Cloudflareの内部運営は優れたサービス提供プロセスと手順に従う必要があります。したがって、Cloudflareの手順は、多くの業界標準のベストプラクティスに従い、その中には情報ライブラリインフラストラクチャ技術(ITIL)のパターンに特に従うものもあります。このSOPは、ITILの問題管理手法のベストプラクティスに従っています。
主要なインシデント用語のカテゴリ:すべてのイベントはアラートを引き起こす条件であり、一部のアラートは注目すべきインシデントであり(そうでないものもある)、すべてのインシデントはトリアージされなければならず(時には自動化を通じて、時には人間の相互作用を通じて)、一部のインシデントは問題であり、一部の問題のサブセットは「重大」であり、ステータスページの更新を引き起こします。一部の重大インシデントは高い優先度(P1)を持ち、インシデントレポートの作成を必要とします。
主要な用語:
イベント
Cloudflareの本番アプリケーションまたはシステムによってログに記録できる、識別可能で明確な事象
アラート
Cloudflareの監視システムを通じて特定され、通知される潜在的に重要なイベント
インシデント
Cloudflareの本番システムに影響を与える高い確率を持つ報告またはアラート、または影響を受けたサービスが問題条件が特定される前に回復するため、短期間のみ存在するアラート条件
問題
Cloudflareの本番システムまたはアプリケーションの最適な健康状態および/またはパフォーマンスに悪影響を与える、特定され分類されたインシデント
インシデントレポート
サービスの問題の性質、Cloudflareの問題に対する全体的な対応、および将来の影響を減少または排除するための努力を説明する公開レポート
ポストモーテムレビュー
重大および/またはクリティカルな問題に応じて開始されるレビュー会議。すべてのポストモーテム会議は、問題の性質に適切に対処するためのスキルまたは経験を持つCloudflareエンジニアによって生成されたインシデントレポートの詳細に焦点を当てます。
SRE
システム信頼性エンジニアは、すべてのインシデントの一次サポートを担当するグループです。
CSUP
カスタマーサポートグループは、すべての顧客生成リクエストに応答し、特定された問題の間のすべての顧客コミュニケーションを担当するチームです。
JIRA
インシデント、作業指示、問題の追跡に使用されるCloudflareのチケッティングシステム
重大度 / 優先度レベル
Cloudflareネットワークおよび顧客に影響を与える問題の重大度に基づく「P0、P1、P2またはP3」の値
SLA
サービスレベル契約 – 特定のサービスレベルに対する内部または契約上の義務(通常は時間単位のアクションで測定される)
SLO
サービスレベル目標 – 特定のサービスレベルに対する内部または契約上の目標(通常は時間単位のアクションで測定される)
インシデントコマンダー
問題が適切に対処されていること、時間が管理されていること、エスカレーションが行われていること、クライアントが更新されていること、必要に応じてリソースが関与していることを確認するCloudflareのリソース
インターネットコミュニティ
Cloudflareの主要なステークホルダーグループ。Cloudflareは460万以上のウェブサイトを保護および最適化しており、平均的なインターネットユーザーは週に500回以上Cloudflareのウェブサイトと対話します。
サードパーティ
Cloudflareと提携してクライアントにシステムやサービスを提供する非Cloudflareのベンダーまたはサービスプロバイダー
ステークホルダー
インシデントの影響を受ける人、グループ、または会社(提供者(例:Cloudflareの人、サードパーティ)または消費者(クライアント)として)
RCA
根本原因分析 – 問題の根本的な原因の徹底的なレビュー
修復
問題の根本原因を解決し、再発を防ぐために必要なすべての手順
ステータスページ
Cloudflareがサービス提供およびCloudflareサービスに影響を与えるインシデントや問題に関する情報を公開するために使用する主要なツール:https://www.cloudflarestatus.com ↗
ステータスページは、Cloudflareのサービスの運用に依存しないサードパーティ(Statuspage.io ↗)によってホストされています。
Cloudflare内のインシデント管理に関連する役割と責任は以下の通りです。
Cloudflare管理
手順をレビューおよび承認します。すべてのスタッフが手順について訓練を受けていることを確認します。必要に応じて、手順における顧客およびサードパーティの役割を通知します。重要なインシデントレポートのポストモーテムレビューを開始および監督します。
オンコールSRE
すべての重要なアラートに応答するためにオンコールシフトに割り当てられた1人以上のSRE。インシデントを特定し、インシデントの重大度を評価および分類し、影響を与えるインシデントを問題としてエスカレーションする可能性があります。問題の開始から終了までのエスカレーションと管理を行います。
オンコールネットワークエンジニア
重要なアラートに応答するためにオンコールシフトに割り当てられた1人以上のネットワークエンジニア。特定された問題の間に主要なインシデントマネージャーを提供するSREチームと調整します。
オンコールCSUP
すべての顧客リクエストに応答するためにシフトに割り当てられた1人以上のCSUPエンジニア。すべての特定された問題の間の顧客コミュニケーションを担当します。すべての計画されたメンテナンスを通知する責任があります。
SREチーム
オンコールSREの努力をサポートする全体のシステム信頼性エンジニアリングチーム。特定された問題の間にインシデントマネージャーの役割を引き受けます。問題を解決するために適切なCloudflareサポートの本番変更を実施します。
Cloudflareエンジニアリングチーム(DBA、ネットワーク、nginx、セキュリティなど)
問題解決中のインシデントマネージャーをサポートします。要求があればブリッジコールに参加します。問題を診断および修正する際に文書が記録され、他の責任あるグループへの適切なエスカレーションが実行されることを確認します。Cloudflare管理者からの要求に応じて、一部のインシデントレポートのポストモーテムレビューに参加します。
このセクションでは、インシデントおよび問題管理の手順を詳述します。高レベルでは、これらのプロセスは次のように関連しています。
-
インシデント管理:アラートを観察し応答するための全体的なプロセス。これには、インシデントの潜在的な影響と重大度を評価し、インシデントを問題として分類し、問題に優先度を割り当てること、または問題条件が特定できない場合はインシデントを影響のないイベントとして却下することが含まれます。
-
問題管理:問題の範囲と程度を特定し、適切な重大度レベル(P0、P1、P2、P3)を割り当て、問題を解決し本番サービスの最適な状態を回復するためのアクション、および問題を適切な関係者に通知するプロセス。
-
解決管理:問題条件を引き起こす原因と条件を調査し、問題がどのように管理され解決されたかについて報告し、将来の問題の条件と原因を防ぐ方法についての分析を行うプロセス。
インシデント管理の主な目標は、潜在的な問題をできるだけ早く特定し反応することであり、それによって本番サービスへの影響を最小限に抑え、可能な限り最高のサービス品質と可用性を提供することです。可能な限り最高のサービス品質と可用性は、すべてのサービスが設計通りに100%の時間稼働し、100%の時間利用可能であることです。
私たちは、私たちの制御内の力と制御外の力の組み合わせが最終的にサービスの健康に影響を与えることを受け入れているため、サービスレベル目標(SLO)とサービスレベル契約(SLA)を定義し、Cloudflareのネットワーク内のさまざまなサービスに対して許容されるサービス健康の劣化を説明します。SLAとSLOは、時間の割合(毎月および毎年)として表現されます。
インシデントに関する情報のレベルは異なる場合がありますが、インシデントが分類され優先順位が付けられる前に、以下の情報を収集する必要があります。
- 提出者のソース(監視アラートまたは代替ソース)
- 顧客(該当する場合)
- システムまたはアプリケーション(およびホスト名、該当する場合)
- アラートの時間
- 影響の範囲:影響を受けるシステム、ユーザー、または地域の推定数
- 影響の種類:サービスの障害の一般的な範囲(例:すべてのアクセスの喪失、パフォーマンスの低下、依存アプリケーションへの影響、観察された顧客への影響)
P0またはP1の優先度を持つ問題として分類されるすべてのインシデントは、CloudflareのチケッティングシステムであるJIRAに記録されます。一部のアラートは、サービスレベルに即座に影響を与えない可能性のある条件を示し、必要に応じてP2またはP3の優先度を持つ問題として分類されます。
JIRAシステムは、すべてのインシデント情報の記録システムであり、問題に関する他のすべての文書ソース(例:アラート履歴、スクリーンショット、作業ログ、チャット会話)は、インシデントに応じて作成された元のJIRAチケットに添付されます。
アラートを認識した後、SREはすぐにアラートをトリアージし、カテゴリと優先度レベルに関連付けます。高優先度(P0およびP1)の問題に対して新しいJIRAチケットを作成する際、SREは各チケットがカテゴリと優先度を含むように正しく分類されていることを確認します。
すべてのチケットは、以下の4つの優先度レベルに従って分類されます。以下に示す基準は一般的なガイドラインです。以下の条件は優先度レベルを明示的に定義する必要がありますが、SREまたはCloudflare管理者の裁量により、問題には必要に応じてより高い優先度が割り当てられる場合があります。
P0
- CloudflareアプリケーションまたはAPIへの完全なアクセス喪失。
- CloudflareアプリケーションまたはAPIへのアクセスの低下(⪯ 98%の世界的または主要地域からの測定)。
- Tier-1データセンターへの完全なアクセス喪失または重大なパフォーマンス低下。
- いずれかのTier-1グローバルトランジットプロバイダーのパフォーマンス低下(⪰ 20%のパケットロスが世界的または30%のパケットロスが主要地域から)。
- 重要なシステムへのアクセスまたはパフォーマンスの低下。
P1
- サイト全体のパフォーマンスの断続的または低下。
- レポートなどの重要な機能の喪失。
- ソーシャルメディアまたは外部CloudflareウェブサイトからのCloudflareアプリケーションへのアクセスの喪失。
- 重要な外部サードパーティインターフェースの障害。
- 企業クライアントまたは流通パートナーのサイトの非稼働。
- 顧客データの破損または喪失。
P2
- 断続的または局所的なパフォーマンスの問題。
- 目立った顧客への影響がないシステムの問題(例:高CPU)。
- 単一の顧客の障害/低下。
P3
- エンドユーザーにほとんどまたは全く影響を与えず、利用可能な場合に処理できる運用上の問題、手続き上の問題、またはサービスリクエスト。
- まだレビューされていないか、重大度レベルが割り当てられていないすべてのチケットにデフォルトで割り当てられる重大度。
適切な追跡とコミュニケーションのために、高優先度(P0およびP1)の問題にはカテゴリが割り当てられます。これらのカテゴリ(チケットラベル)は、Cloudflareの公開ステータスページに公表されたカテゴリに対応しています。
低優先度(P2およびP3)のチケットは、Cloudflare内のさまざまなエンジニアリングおよび非エンジニアリングチームに特有のラベルや名称を使用して分類される場合があります。これらのさまざまなラベルとカテゴリは、この文書には記載されていません。
セキュリティおよびプライバシーのカテゴリに分類されるインシデントは、特別な取り扱いと手順が必要であることを理解することが重要です。顧客は、Cloudflareに直接これらのインシデントを報告する必要があります。Cloudflareサポートに連絡する ↗ことで、Cloudflareのセキュリティおよびプライバシーチームによって定義された指定されたインシデント手順が実行されます。
P0およびP1のインシデントは、ビジネスに対する影響が明らかであり、したがって、できるだけ迅速に処理されることを保証するために特別な前提条件があります。
すべてのP0およびP1の問題について、当番のインシデントマネージャーに直ちに連絡する必要があります。インシデントマネージャーのスケジュールが掲示され、SREがいつでも誰に連絡すべきかを知ることができます。インシデントマネージャーは、以下の責任を持つ重要なリソースです。
- 問題の重大度の検証
- 提出から解決までの問題の追跡
- 顧客の最善の利益の代表
- すべてのアクションと時間の記録
- 可能な限り迅速な解決に向けた人員の指導
- 事前に定められた時間内に顧客および内部管理にステータスを通知することを保証
- 時間制限が超過する場合や適切な進捗がない場合に顧客、内部またはサードパーティのエスカレーションを実施
- 解決時にチケットに意味のある説明を適用することを保証
- チケットが閉じられる前に、初期の提出者が問題が解決されたことに同意することを確認
インシデント中の外部コミュニケーションは、以下のために重要です。
- Cloudflareが問題を認識し、解決に向けて取り組んでいることをステークホルダーに通知すること
- 顧客に対して、問題がレビュー中であり、Cloudflareが顧客の最善の利益を考慮していることを安心させること
- 問題が不必要に引き延ばされず、適切なエスカレーションが行われていること
- 重要なインシデントについての重要な内部ステークホルダーに通知すること
インシデント中の主要なコミュニケーションの種類には、以下が含まれます。
- ステータスページ ↗
- サポートチケット
- インシデントレポート
Status Pageは、インシデントが特定され次第、CSUPチームのオンコールメンバーによってテンプレートを使用して作成されます。
Cloudflareは、すべての重大な問題が再発しないべきだと考えています。そのため、すべてのP0問題はインシデントレポート(IR)の公開を引き起こし、問題の根本原因分析(RCA)およびインシデントに至るまでの全体的な要因が含まれます。すべてのIRの公開は、エンジニアとマネージャーがIRの詳細、RCAの結論、および問題の再発を防ぐために取られるフォローアップの是正措置についてレビューし合意するポストモーテム会議に続きます。
問題管理は、インシデント管理とは異なり、その主な目標はインシデントの根本原因を検出し、その後の解決と予防を行うことです。
RCAは根本原因分析レポートです。Jira問題チケットは、RCAが必要とされる可能性のあるイベントの記録と追跡です。これは、特定の分野の専門家(SME)がP0またはP1の問題をレビューし、問題の根本原因を探るプロセスです。この原因が特定されると、SMEはその原因に対処するための是正計画を作成する必要があります。最終的な成果物は、是正措置の完了を追跡するための十分に文書化されたチケットであり、必要に応じて内部チームやクライアントに送信される十分に書かれたインシデントレポートです。
上記のポイントは、RCAを提供するのが第三者のプロバイダーやベンダーであっても適用されます。第三者からRCA情報を受け取った場合、問題チケットは、追跡すべきすべての関連情報を含むように更新される必要があります。
インシデントレポート(“IR”)は、問題に関するクライアントへの主要なコミュニケーション手段であり、チケット内に記載されている内容の一部またはすべてを含む場合があります。
レポートを書く人は、問題の重大性や責任のある分野によって異なります。ドラフトレポートが完成したら、内容、コミットメント、専門的なプレゼンテーションのためにCloudflareの管理者によってレビューされることが重要です。レポートが承認されると、クライアントに公開される可能性があります。
上記のセクションでは、インシデントの処理と恒久的な是正を確保するための根本原因プロセスについて詳述しました。インシデントおよび問題管理プロセスの最後の部分は、主要な指標、トレンド、および報告が正しく行われていることを確認し、SLAが満たされ、潜在的な問題が見逃されていないことを保証することです。
オープンおよびクローズされたチケットの両方について報告する必要があるチケット基準は以下の通りです:
- Severity
- Category/Sub-category
- Responsible Group
- Age/Days Open
可能な限り、このデータは視覚的なトレンドを示すためにグラフィカルに報告されるべきです。これらのレポートは、内部のCloudflareマネージャーおよびエリアオーナーに公開されるべきです。
チケットの各エリアオーナーは、チケットが所定のまたは合理的な時間枠内でクローズされることを保証するだけでなく、レポートをレビューし、トレンド、懸念、再発問題を探る責任があります。この分析に基づいて、P0またはP1を介して表面化しなかった問題を是正するために、さらなる問題チケットを開くべきです。これにより継続的な改善が可能になり、根本原因に対処することで新しいチケットの数を最終的に減少させることができます。
すべての部門のスタッフ会議の一環として、グループマネージャーは以下の目的でチケットのオープンおよびトレンドレポートをレビューするべきです:
- 成功または懸念のある分野の議論
- エリアオーナーによる改善の機会のレビュー
- 是正措置の追跡のために新しい問題チケットを開く必要がある分野についての合意