システムの障害対応マニュアルとは?必要な記載事項から作成時のポイントまでわかりやすく解説
2022/10/28
携帯電話の電波がつながらない、金融機関のATMが使用できない、アプリが利用できないなど、企業のシステム障害は毎月のように発生しています。特に近年はIT化が進み、システムどうしの統合が頻繁に行われており、システム障害は特殊なものではなく必ず起こるものだと認識されつつあります。
どんな障害が起こり得るかを想定し、リカバリー方法を策定してマニュアルを作成する。マニュアルに基づいて発生時の訓練を行い、運用担当者間で情報共有する。この流れをしっかり行うことで備えができ、システム障害に対応できるようになります。
そこで今回は、システムの障害対応マニュアルでカバーすべき内容や作成時の注意点について解説します。今後、システム障害対応マニュアルを作成する方のご参考になれば幸いです。
- 「KnowledgeSh@re」活用ガイド
- 『作業手順書で進捗確認や履歴管理ができる!
クラウド型マニュアル管理プラットフォーム』 - 作業履歴の記録・管理でお悩みの方へ
- 作業もれ・作業ミスなどを抑止する仕組みについて
ご紹介しています。 - 資料ダウンロード
システムの障害対応マニュアルとは?
システムの障害対応マニュアルとは、システムが不具合や故障などを起こし、平常時のような使用ができない状態に陥ったときに参照する、原因やその解決策を記載したマニュアルのことです。
システムに障害が発生する原因はさまざまなものがあります。例えば、日常業務において、エンドユーザーが想定外の手順で入力していたり、運用担当者が作業ミスをしたりすることがあります。老朽化して電源が接触不良となる、通信ケーブルが寸断するなどの物理的な原因も考えられますし、システム統合やプログラム更改などのイベント時には、プログラムのバグや初期設定でのミス、テストケースの不足によるエラーなどがあるかもしれません。また、第三者からの不正アクセスやサイバー攻撃によってトラブルが発生するケースもあります。
こういった原因に対して、トラブル発生の検知から解消までの流れや手順、役割分担などを記載し、障害発生時に活用するのが障害対応マニュアルです。
システムの障害対応マニュアルが必要な理由
システムの障害対応マニュアルが必要な理由は、障害の原因を突き止めて迅速に対応策を実施し、少しでも早くトラブルを解消して業務やサービスを平常運行のレベルに復旧させるためです。
システム障害はいつ発生するかわからないので、どの担当者も対応できるよう、必要な情報や知識を共有しておくことが大切です。そのために、マニュアルの形で情報共有し、新たな事例が発生した際に内容を更新していきます。
例えば、対象のシステムの開発時には予定されていなかった、他システムとの統合があるなど、企業の事業展開によって状況が変わることがありますから、当初想定していないケースが出てくれば障害対応マニュアルに追加していきます。そして、マニュアルに基づいて障害発生のテストや訓練を行うことによって、実際にシステム障害が発生した際に、業務への影響を最小限に抑えつつ復旧するのです。
システムの障害対応マニュアルでカバーすべき内容
システムの障害対応マニュアルでカバーすべき内容には、大きく分けて、次の3つの要素があります。
- 障害発生時の作業手順
- システム障害検知時の連絡先
- 平常時の運用作業スケジュール
それぞれどのような内容なのか、一つずつ見ていきましょう。
障害発生時の作業手順
1つ目は、障害発生時の作業手順です。
障害検知や初動対応、原因調査、復旧対応を経て、復旧後の対応まで、一連の流れに沿って、作業手順を記載します。
- 障害検知、初動対応
いつどこで障害を検知するか、その可能性を示します。例えば、システムのエンドユーザーがエラー画面を見て気づくのか、システム運用担当者がシステム監視のプロセスにおいて気づくのかなど、さまざまなパターンがあります。障害を検知したときどんな事象が起こったか、初動はどうすべきなのか、回避策はあるのかなどを具体的に記載します。 - 原因調査
検知した状況やエラーメッセージの種類を記載し、原因調査に役立つ情報や調査手順を記載します。原因が複数ある場合もありますから、事例があればそれも盛り込み、原因の絞り込みができるような内容にします。 - 復旧対応
障害を解消し、復旧させるための操作手順を記載します。すぐにトラブルが解消され平常運用に戻る場合や、バックアップは中断しているものの一部作業はできる場合、復旧に何日間かかかる場合など、さまざまな状況に応じた対応策が挙げられます。 - 事後対応
復旧後に何をすべきかについて記載します。例えば報告書の作成や関係各所への連絡、暫定的に対処した部分の修正、テスト環境でテストすべき点があれば実施するなど、必要と思われる処置を挙げ、漏れのないよう促します。
システム障害検知時の連絡先
2つ目は、システム障害検知時の連絡先です。
システム障害を検知するのは、エンドユーザーの場合もありますし、システム運用担当者の場合もあります。どこで検知したとしても、障害対応の司令塔となる部署に連絡する必要がありますから、その部署の担当者の連絡先を記載します。
また、障害検知後の連絡先としては、システムを使用するエンドユーザーやシステム間の連携があり影響を受けるエンドユーザー、経営層など、関係部署が挙げられます。製品を納入できなくなるなど取引先への連絡が必要になれば、営業部署にも影響があります。さらに、システム開発や導入を行ったのが自社ではなく他のメーカーやベンダーである場合は、それらの問い合わせ先や緊急連絡先についても、マニュアルに記載するといざというときに役立ちます。
これらの連絡先を記載することで、システム障害に関する関係者の一覧化ができますし、障害発生連絡の流れの確認にもなりますので、障害対応マニュアルに欠かせない要素です。
平常時の運用作業スケジュール
3つ目は、平常時の運用作業スケジュールです。
平常時の運用作業スケジュールとは、時刻を決めて稼働するバッチ処理やバックアップ処理や、何かの作業後に連動して稼働する処理などの、運用作業のタイムスケジュールのことです。
障害が発生したとき、そういった自動作業があることを想定し、必要があれば稼働を停止するなどして復旧対応にあたらないと、復旧作業が手戻ったり複雑化したりする可能性があります。マニュアルには常に最新のスケジュールを記載しておくことが求められます。
システムの障害対応マニュアルを作成するときの注意点
システムの障害対応マニュアルを作成し運用していくにあたっては、次の4つのポイントに注意すると、一刻を争う復旧作業の際に役立つマニュアルとなります。
- マニュアルを参照する人に合わせて作成する
- ロールプレイをしてマニュアルの内容を確認する
- 定期的な更新を行う
- 機密情報は適切なアクセス管理を行う
それぞれの注意点について、ご説明します。
マニュアルを参照する人に合わせて作成する
マニュアルを作成する際は、マニュアルを参照する人のレベルに合わせましょう。
障害対応マニュアルを作成するのは、開発担当者など、システムに精通し熟練した技術を持つ担当者であるケースが多いものです。一方で、マニュアルを参照するのはさまざまな運用担当者ですから、新入社員や異動したての新任担当者など、経験がまだ少ない担当者かもしれません。
そのため、経験の浅い担当者にもわかりやすいような表現で記載するよう心掛けましょう。障害発生時の作業手順については特に、誰もが理解できるレベルにします。専門用語には解説を付け、5W1H「いつ(When)·どこで(Where)·誰が(Who)·何を(What)·なぜ?(Why)·どのように(How)」を意識して書くなどの工夫をしてみてください。
ロールプレイをしてマニュアルの内容を確認する
障害対応マニュアル作成後はロールプレイを行い、実際にマニュアルの記載通りに行動できるか、内容に不足はないかを確認しましょう。
ロールプレイとは、複数人で想定の役割を演じることで、想定が現実化したときに対応できるように訓練するものです。システム障害が発生したという想定でマニュアルに基づいてロールプレイを行い、どの担当者も迅速に対応できるよう、避難訓練のように準備しておくことが重要です。なぜなら、システム障害は復旧が長引けば長引くほど影響が大きくなるため、発生した際は早期に解消して影響を最小限に食い止めることが求められるからです。
ロールプレイを行うことで担当者の障害対応スキルが向上しますし、マニュアルに足りていない部分や改善すべき手順があれば、テスト環境でロールプレイを行うことで確認できます。障害の原因となりそうな現象をさらに洗い出すことにもつながりますから、できれば全員がさまざまな役割でロールプレイを行うのが理想的です。
定期的な更新を行う
障害対応マニュアルは、定期的な更新を行いましょう。
マニュアルは、一般的には、業務に変更のあった際の随時更新と半年に一度などの定期更新を併せて行うと、最新の状態に維持できます。障害対応マニュアルについても、システムのバージョンアップや仕様の変更、業務手順の変更があればその都度更新し、その他に年に1~2回の定期的な更新を行います。
ロールプレイを行い、手順の見直しや改善点があれば、それらを漏れなくマニュアルに反映させます。また、平常時の運用作業スケジュールの部分は特に、運用業務についてのマニュアルは更新しても障害対応マニュアルを更新し忘れると、復旧作業に大きな影響が出るおそれがありますから、定期的な更新時に見直すとよいでしょう。
機密情報は適切なアクセス管理を行う
障害対応に必要な機密情報は、マニュアルにそのまま記載せず、アクセス管理を行いましょう。
機密情報とは、例えば各機器のIPアドレスや管理者権限のパスワードなどを指します。マネージャーなど、任命された担当者が適切に管理すべき情報であり、もし外部に漏洩すれば不正アクセスなどがあり得るため、アクセス権限を適切に管理する必要があります。
障害対応マニュアルには、障害発生時に誰がどのような情報を使って何をすべきかを記載するにとどめ、機密情報をそのまま記載しないよう注意しましょう。
まとめ
この記事では、システムの障害対応マニュアルについて、記載する内容や作成時の注意点についてご紹介しました。
障害対応マニュアルは、障害発生時の作業手順や連絡先、平常時の運用作業スケジュールなどが記載され、障害が発生した際に迅速に原因究明と復旧作業が完了するように準備するものです。障害対応マニュアルを作成し活用する際の注意点としては、新任担当者にもわかりやすい表現でマニュアルを作成することやマニュアルに基づきロールプレイをして内容を確認すること、マニュアル内容の定期更新や機密情報の適切な管理などが挙げられます。
システム障害は、どのようなシステムであっても発生するものであり、さまざまな原因が考えられるものです。そのため、原因やその解決策をマニュアルにできる限り盛り込み、マニュアルに基づいて訓練を繰り返すことで、障害発生時の影響を最小化するよう務めていきましょう。
マニュアル作成ツールのKnowledgeSh@re(ナレッジシェア)には、障害対応マニュアル作成に役立つ次のような機能があります。
- マニュアルを世代ごとにバージョン管理し、新旧の差分を比較できるため、レガシーシステムの過去のノウハウが取り出しやすい
- チェックリスト機能(チェックリストのボックスをチェックしないと次の工程に進めない機能)によって訓練時に手順を間違えない
お役立ち資料:『『業務マニュアルをクラウド化するメリットとは?』~業務マニュアルクラウドツールをお悩みの方は必見!~』
富士通ラーニングメディアの「KnowledgeSh@re」
障害対応マニュアル作成にもKnowledgeSh@re(ナレッジシェア)が役立ちます。どのようなツールなのか、60日間の無料体験で確認できます。
マニュアル作成・共有ツール「KnowledgeSh@re」を60日間お試しいただけます。
『KnowledgeSh@re無料トライアル』
※資料はこちら