最強SEのシステムトラブル対応~基本編~

経験の差が出るシステムトラブル対応

トラブルを起こさないITシステムはないといっても過言ではない。

 

システムトラブルの原因は、アプリケーションに作りこまれたロジックの不具合であったり、ユーザによる操作ミス、ユーザ数増加による過負荷など様々だが、状況に応じたタイムリーな対応が必要になるシステムトラブル対応はSEの仕事なかでも特に大切な業務である。

 

 

本稿では、システムトラブル対応の基本的な進め方について考えてみたい。

 

 

システムトラブル対応の基本

 

[システムトラブルの定義]

まず、システムトラブルとはどういった状況を言うのか、その対応として何をすべきなのかを考えよう。

 

システムトラブルの定義
情報システムに何らかの不具合が発生したり、ユーザの操作ミスなどにより、情報システムを使ったユーザの業務に影響がでている。もしくは出る恐れがあるもの。

 

システムトラブル対応とは、ユーザ影響を最小限にしつつシステムトラブルを解消させることである。

 

<システムトラブル対応時の役割分担>

システムトラブルに対応する場合は、役割分担を行いチームで対応することが効果的である。役割分担を行う一番の理由は、調査と情報展開を並行して行うためだ。

 

 

システムトラブルが発生した場合、まずは何が起こっていて、影響範囲がどこまで及ぶのかを確認する必要がある。それには、システムのログに出力されている内容や、アプリケーションやシステム基盤の稼動状態をチェックし、事実を確認することが出発点となる。

 

 

一方で、システムトラブルが発生すると、その影響は各所に及ぶ。そうなると、ユーザからの問い合わせに対する対応だけでなく、関係者に対して適切に現在の状況を連絡していくことが非常に重要だ。

 

 

「調査」と「情報展開」これらの二つの動きはどちらか一つではダメで、必ず両輪として機能しなければならない

 

 

このとき、携帯電話で通話しながら自動車を運転することが危険なように、両方を一人の人間が行うとミスが発生しやすい。そのため、最低でもこの2つの役割は別々の人間が対応するようにすべきである。

 

 

それぞれの役割の詳細と、具体的にどのように動くべきかということについては、以下の記事を参考にして欲しい。

 

<システムトラブル対応の流れ>

システムトラブル対応は、大きく以下の流れ行う。

 

 1.事象の確認

 2.影響範囲の特定/原因調査

 3.暫定対策の実施

 4.本質的な原因の追究

 5.本格対策の実施

 

それぞれの段階で、最優先される事項は異なる。例えば優先順位の判断ミスの例として以下のようなケースを見てみよう。

 

例題:

システムAで出力される帳票に記載されている数値を元に、ユーザが別のシステムBへの入力業務を行っている。

 

ある日、システムAでシステムトラブルが発生し、「帳票が画面に表示されない」という不具合が発生している。

 

調査したところ帳票の元データは正常に準備できているが、画面への表示部分にのみ問題が発生していることがわかった。また、顧客がシステムBへの入力するのに必要な数値は、元データを参照して確認することができた。

 

この場合、優先順位を鑑みて、とるべき行動を考えてみよう。

 

 悪い例

続けて画面が表示されない原因を、ソースコードを追って調査を行う。

 

 良い例

まずは顧客に元データから得た数値を提供することで業務が継続できるかを打診し、その後で画面が表示されない原因を調べる。

 

本質的な原因の追究や対策、再発の防止などシステムトラブル発生時に対応すべき事項は多いが、上記のように、「顧客が情報システムを使ってやりたかったことをフォローする」ことが最優先事項となることを念頭においておこう。

 

 

ケースによっては暫定対策がそのまま本格対策になるという場合もあるが、基本的には、情報システムが提供しているサービスの継続(=ユーザの業務を先に進める)を最優先することを意識して行動しよう。

 

 

各段階における対応の詳細と対応時のポイントについては、以下の記事を参考にして欲しい。

 

参考記事:

最強SEのシステムトラブル対応~対応の流れ~ (近日公開予定)

 

まとめ

システムトラブルはいつ起こるかわからない。いざ発生したときに落ち着いて適切な動きが出来るよう、どのような役割分担で、どのような流れで対応するのかということを事前に確認しておくことが大切だ。

 

 

勿論、机上で理解したからといってすぐにシステムトラブル対応が出来るようになるわけではなく、臨機応変な対応が出来るようになるためには実地経験の積み重ねが必要だ。実地経験を積み重ねることで、自分の中で理論と実践が組み合わさり、再現可能なスキルとして身につくのだ。

 

 

システムトラブルの撲滅に、本稿の内容が参考になれば幸いである。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください