ITサービスのサービス継続管理の進め方|RTO・RPO設定と設計ポイント

ITサービス

サービス継続管理は地震や火災などの災害が発生した場合に復旧をするためのプロセスです。
本書はサービス継続管理の目的や活動内容を説明します。
なお、サービス継続性管理は。ITSCM:IT Service Continuity Managementと略すこともあります。

サービス継続管理の目的

サービス継続性管理の目的は、火災、地震、大規模停電、テロなどの「災害」によってITサービスが停止した場合でも業務を継続させることです。
サービス継続性管理の目的を細かく説明すると次のようになります。

  • 災害発生により、ITサービスの停止が発生しても必要なITサービスが速やかに復旧できるようにすること。
  • サービスの中断や障害が発生した際に迅速に復旧することで、顧客やビジネスパートナーからの信頼を維持・向上させる。
  • サービス継続に関するリスク(自然災害、システム障害、サイバー攻撃など)を予測し、それらに対する対策を事前に講じることで、リスクが発生した際の影響を軽減

可用性管理とサービス継続管理の違い

可用性管理とサービス継続管理は、どちらも「サービスが止まらないようにすること」を目的としていますが、そのアプローチと範囲が異なります。

可用性管理サービス継続管理
焦点サービスの可用性(稼働率)を高めるための最適化や改善大規模な障害が発生した場合に備えたリスク管理と復旧計画
対策例・サービスが99.9%の稼働率を維持するために、サーバーの冗長化やバックアップ電源の確保などを行う。
・定期的なパフォーマンスチューニングや監視を通じて、サービスのダウンタイムを最小化。
・障害発生時に、バックアップシステムを使用してサービスを復旧する。
・自然災害やサイバー攻撃を受けた場合に、事前に定めた手順に従って、サービスをできるだけ迅速に復旧させる。

BCMとBCP

サービス継続管理は、BCP、BCMという活動の中の一環です。

BCPとは「事業継続計画(Business Continuity Plan)」の略で、緊急時にどう業務を継続・復旧するかの「計画」のことです。
BCMとは「事業継続マネジメント(Business Continuity Management)」の略で、BCPを継続的に運用していく活動や管理がBCMです。


■BCPの例 (青字は具体例です。)

1.目的・方針
(1)対象とするリスク
 ・工場とデータセンターが設置されている地区の大規模な地震、火災にによりデータセンター倒壊
 ・サイバー攻撃によるシステム停止
(2)方針
 ・重要業務は2日以内に復旧する
 ・間接用務は5日以内に復旧する

2.BIA(Business Impact Analysis:事業影響分析)
(1)業務の優先順位
 ・重要業務
   ・製品の製造と出荷
 ・復旧まで許容できる停止時間(RTO)
 ・許容データ損失量(RPO)
 ・停止時の業務への定量的影響(売上・法的リスクなど)
 
3.リスクアセスメント
 ・災害(地震・火災)
   影響度:高
   頻度:低
   優先度:高
 ・サイバー攻撃
   :
 ・人的要因(感染症、ストライキ)
   :


4.継続・復旧戦略(リカバリ戦略)
 ・代替施設の確保
 ・在宅勤務やオフサイトの利用
 ・ITシステムの冗長化やバックアップ
 ・外部委託先の代替

5.復旧手順(運用計画)
 ・発災時の初動対応
 ・連絡体制(緊急連絡網)
 ・復旧の手順書(DR手順、業務復旧手順)
 ・必要な資源(人員・設備)

6.訓練・演習
 ・災害対応訓練
 ・ITシステムのDRテスト
 ・机上演習

7.維持管理
 ・計画の定期見直し
 ・更新履歴の管理


BIA(Business Impact Analysis、ビジネス影響分析)
組織の業務活動やサービスが中断された場合に、どの業務やサービスが最も影響を受け、どの程度の損害が発生するのかを明確にし、重要な業務やサービスの優先順位を決定し、緊急時にどのような対策を講じるべきかを計画することをBIAといいます。


サービス継続管理の活動内容

サービス継続管理の活動は次の流れで進めます。

  • リスクアセスメント
  • 要求事項を挙げる
  • 設計と実装
  • 試験
  • 評価

各活動について説明をします。

①リスクアセスメント

リスクアセスメントは、最初の重要なステップで、潜在的なリスクを挙げて、脅威を評価、優先度決めをすることから始まります。

リスクを挙げる

業務に影響を与える可能性のあるリスクや脅威を特定します。

■リスクの例

  • 自然災害
    • 地震や火災により、サーバーが設置されているデータセンターが被災する。
    • 地震や火災により、利用者が執務している事務所が被災する。
  • サイバー攻撃
    • ・・・

アセスメント(評価)

挙げられたリスクについて、影響や評価をします。

■アセスメントの例

リスク影響評価と優先度
地震や火災により、サーバーが設置されている関東のデータセンターが被災する。データセンターには以下の生産に関するシステムのサーバがあり、これらのシステム停止やデータが消失する。
・生産管理システム(ERP)
・製造工程管理システム
また、以下の品質管理や統計分析のためのシステム停止やデータが消失する。
・検査記録データベース
・設備稼働記録データベース
データセンターに設置されている生産に関するシステムの喪失は業務継続に大きな影響を与えるため、優先度は高い。
上で述べた優先度が高いシステムを最優先とするため、品質管理や統計分析のためのシステムの優先度は中とする。
地震や火災により、利用者が執務している関東事務所が被災して、業務が停止する。対象の事務所では以下の業務をしており、すべて事務所のPCを使っているので、対象業務の停止が発生する。
・受注業務
・販売業務
・顧客対応
事務所が被災すると、物理的な営業活動や連絡が制限されるため、優先度は高とする。
・・・・・・・・・

②要求事項を挙げる

リスクアセスメントの内容をもとに要求事項を挙げます。

カテゴリ要求事項の例
業務復旧目標(RTO)・データセンターが被災して全滅した場合でも以下の内容で復旧させること
 優先度:高のシステムは1日以内に復旧
 優先度:中のシステムは5日以内に復旧
データの損失を防ぐ・生産に関するシステムにおいて、業務に必要なデータが完全に失われないようにすること。
・復旧後、生産に関するシステム群は、各システムと他のシステムで整合性が取れた状態にすること。
・品質管理や統計分析のためのシステムのデータは災害発生当日またはその1日前の状態に戻せるようにすること。
・ランサムウエアに備え、バックアップはオフサイトにも取ること。
体制と役割の明確化業務継続計画に基づいた従業員の役割分担や対応方法を明確にし、障害発生時にどの業務担当者がどのように対応するべきかを事前に周知しておくこと。
スキル確保・訓練・生産業務については、バックアッププランとして、手動での業務実施に対応できるスキルを持つ人員やリソース(マニュアル、道具、テンプレート等)を確保しておくこと。
・定期的に訓練を実施すること。

③設計と実装

要求事項に基づいて設計を行い、次の要素に注力します。

災害を想定したシナリオ作成

災害、サイバー攻撃などを想定したシナリオを作成します。
シナリオは、何が(地震、火災、サイバー攻撃など)、どこに(データセンター、事務所など)によって複数のパターンを作成することが必要になります。

以下はデータセンターが被災した場合のシナリオ例です。

例:データセンター被災

シナリオを作成する場合は絵での説明もあると良いです。

例:構成図
例:構成図(データセンター被災)

ソリューションの選定

シナリオが作成出来たらそれを実現するための製品を選定します。

手順書の作成

災害などが発生した場合の手順書を作成します。
すでに作成済みでも、定期的に行われる訓練の評価をもとに見直しをする場合もあります。

  • サーバ構築に必要な設計書や手順書
    データセンターが被災した場合、また最初からサーバを購入して構築することが必要になります。
    最初にサーバを購入して構築した資料があれば良いので、作成済みであればそれを収集しておくということになります。
    よって最初にシステムを構築する際は、これを想定してまた同じシステムが構築できるよう以下のドキュメントを作成して保管しておくべきです。
    発注の際の注文依頼書とその見積書など、ネットワーク・ハードウエアの構築設計書、ミドルウエアのインストール手順書やパラメータシート
  • リカバリ手順書
    システムのOSレベルでバックアップをしている場合、災害でサーバが壊れた際にはリカバリ手順書をもとに復旧をするこちになります。
    リカバリーソフトを使って復旧する場合、リカバリーソフトの手順書を見ればよいのですが、固有の設定があったり、復旧順序がシステムによって異なったりする場合もあるので、システムごとに手順書を作成しておきます。
    できれば、システム構築をして運用開始前に実際にリカバリーテストを実施してみて作成しておきます。

③試験

設計で作成したシナリオや手順に沿った試験を実施します。

④評価

サービス継続に関するパフォーマンス指標(RTO(目標復旧時間)やRPO(目標復旧点)など)に対して、実際の成果がどれだけ達成されたかを評価します。
評価結果を関係者にフィードバックし、報告書を作成します。この報告には、実施した活動の評価、発見された問題点、次回に向けた提案などが含まれます。

まとめ

  • サービス継続性の目的:災害(火災、地震、大規模停電、テロなど)によってITサービスが停止しても、業務を継続できるようにすることが主な目的
  • リスクの予測と対策:自然災害、システム障害、サイバー攻撃などのリスクを予測し、それに対する対策を事前に講じることで、リスク発生時の影響を最小限に抑える
  • 可用性管理との違い:可用性管理はサービスの稼働率を高めることに焦点を当てるのに対し、サービス継続管理は大規模な障害時のリスク管理と復旧計画に特化している。
  • BCP(事業継続計画)とBCM(事業継続マネジメント):サービス継続管理はBCPとBCMの活動の一部であり、BCPは緊急時にどう業務を継続するかを定める計画、BCMはその計画を継続的に運用する管理活動。
  • サービス継続管理の活動フロー:サービス継続管理は、リスクアセスメント、要求事項の挙げ、設計と実装、試験、評価という流れで進められます。それぞれの段階で必要な手順を実行し、最終的に評価を行い、次回に向けた改善点を見つけ出す

コメント

タイトルとURLをコピーしました