ITサービス:インシデント管理の目的と活動内容

ITサービス

インシデント管理は、ITサービスで発生する障害を対処するための大事なプロセスです。

インシデントの定義

ITILでは「インシデントとは、ITサービスの正常な運用を妨げる、または妨げる恐れのある予期しないイベントのこと」と定義しています。

インシデントは必ずしも障害(故障)が原因とは限らず、ユーザにとってサービス利用に支障が出る、またはその恐れがある状態を指し、次の3つがインシデントに該当します。

  • サービスにまだ影響していない事象(例:ディスク容量が90%に達しているアラート)
  • サービス品質低下(例:アプリが非常に遅くなった)
  • サービスの中断(例:サーバーダウンでシステムが使えない)

インシデント管理の目的

ITILではインシデント管理の目的は「インシデントが発生した際に、可能な限り迅速に通常のサービス運用を回復させ、ビジネスへの影響を最小限に抑えること」とあります。
次の2つがポイントです。

  • 迅速な復旧
  • ビジネスへの影響最小化

とにかく早く回復するのが目的(応急処置でもOK)

インシデント管理の活動内容

インシデント管理の活動内容は次の通りです。

  • 記録と分類
  • 優先付け
  • 初期サポート
  • 調査と診断
  • 解決と復旧

①記録と分類

■インシデントの種類

インシデントの種類の例説明
サーバ停止サーバーダウン、システムが全く動作しないなど
アプリケーション障害画面が表示されない、機能が使えないなど
パフォーマンス低下レスポンスが遅いなど
セキュリティ関連ウイルス感染、不正アクセス、情報漏洩の疑いなど
※セキュリティ関連については、必要に応じて情報セキュリティ管理プロセスと連携

■影響度(どこに影響が出ているか)

影響範囲の例説明
高:全ユーザ全体的な障害
中:特定部門・グループ部署やチーム単位で発生
中:特定機能利用者○○業務担当者
低:影響なし例えば次のような場合です。
・サーバのストレージ障害だが冗長構成のため影響なし
・現在使用されていない機能のみに影響

■緊急性

例えば次のように高(緊急対応)、中(早急対応)、低(通常対応)などで設定をします。

  • 高(例:全社員の業務が停止、本日期限の決算処理)
  • 中(例:代替手段はあるが非効率)
  • 低(例:レポートを出力したいがすぐ必要ではない)

②優先付け

優先度は基本的に影響度と緊急性をもとに設定をします。
下の図のように、優先度マトリックスを用意しておきます。

優先度は予めの定義をしておき、SLAにも記載をします。
次は優先度の例になります。

  • 優先度:高・・・他のインシデント対応よりも優先して対応
  • 優先度:中・・・後回し可能だが、優先度:低よりも優先して対応
  • 優先度:低・・・優先度:高、中が完了したら対応

③初期サポート

運用マニュアルや、過去のインシデント記録を参照して既知の内容かどうかを確認します。
サービスデスクで解決できない内容であれば、専門部隊へエスカレーションします。

④調査と診断

調査と診断では、原因を確認し、恒久対策に向けた準備をします。
調査と診断で実施する内容としては次のような例があります。

  • ログファイル、システムの状態、構成情報(最近実施したリリースや設定変更など)などを確認
  • 同じ条件でインシデントが再現できるか試す

⑤解決と復旧

解決と復旧は、通常の業務状態に戻すためのフェーズです。
ここでは、根本解決に時間がかかる場合は、暫定処置(応急処置)を実施します。
暫定処置(応急処置)のことをワークアラウンドと言います。
■ワークアラウンドの例

状況ワークアラウンド
ブラウザがEdgeだとフォームの送信が動作しない。Firefoxを使って送信するように指示。
ログイン後にフリーズする。一度ログアウトしてから再ログインすると正常に動作するため、毎回その操作を行うようアナウンスする。

インシデント管理では、恒久対策よりも早期復旧を優先します。
ワークアラウンドは恒久対策ではなく、一時的に影響を回避・軽減する手段です。恒久対策は、問題管理プロセスで対応されます。

解決と復旧での活動は次の通りです。

  • ソフトウェアの修正、設定変更、再起動、リソース増強など
    修正後に問題が再発していないか、ユーザー操作に支障がないか動作確認
  • ユーザへ対応完了の報告(必要があれば注意点なども共有)

インシデントの原因調査や復旧手順は、インシデント管理(専用のツール、DB、Excelなど)に残し、再発した場合に備えるようにします。
また、残すべき手順は運用マニュアルに残すことで他メンバーへの共有、別の担当者へ引継ぎなどが楽になります。

まとめ

  • インシデントは「ITサービスの正常な運用を妨げる予期しないイベント」であり、障害に限らず、パフォーマンス低下や予兆的な事象も含まれます。
  • インシデント管理の目的は、迅速なサービス復旧とビジネスへの影響の最小化であり、恒久対策よりも回復のスピードを優先します。
  • インシデントの分類・優先付けには、「影響度」と「緊急性」の観点が重要であり、優先度マトリクスを活用して一貫した判断を行います。
  • ワークアラウンド(応急処置)は、恒久対策ではないが、早期復旧のために有効な手段として活用されます。
  • セキュリティ関連のインシデントは、必要に応じて情報セキュリティ管理プロセスと連携し、適切な対応体制を整えます。

コメント

タイトルとURLをコピーしました