最強SEのシステムトラブル対応~チームワーク編~

システムトラブル対応時はチームワークが大切

システムトラブルが発生した際、対応の初動においては基本編でも触れたように「調査」と「情報展開」という二つの動きを同時並行して行う必要がある。

 

そして、この二つの動きは体制のない時間帯にトラブルが発生した場合など特別な事情を除き、基本的には別々の人間が担当すべきである。二つの役割以外にも、対応にあたることが出来る要員が増えれば、その分システムトラブルを早く収束させることが可能である。

 

ただしそれは、適切な役割分担を行ってチームワークが機能しているという前提のもとである。いくら対応にあたることが出来る人を集めたとしても、皆で一つのことをしていては効率的に進めることは出来ない。

 

本稿では、システムトラブル対応における、チームワークについて、役割毎の動きの詳細と気をつけるべきポイントを考えてみたい。

 

 

 

システムトラブル対応時の役割分担

システムトラブルに対応する場合は、役割分担を行いチームで対応することが効果的である。役割分担を行う一番の理由は、調査と情報展開を並行して行うためである。

 

ここでは、調査やシステムの復旧作業を行う担当者を「作業員」と定義し、情報展開と、作業員への指示出しを行う担当者を「統括担当」と定義する。

 

下の図は、システムトラブル対応時の体制図を示したものだ。

 

システムトラブル対応時の体制図

 

図を見るとわかるように、システムトラブルの関係者は非常に多く、調査を進めながら適切な関係者に情報展開を行うことが難しいということがわかるだろう。

 

この体制の中で、特に重要な役割を担っている統括担当と作業員の役割としては以下のようなものがあげられる。

 

 

[統括担当の役割]

  • 状況の整理と把握

作業員から収集した情報をもとに、状況を整理し、次にとるべきアクションを検討する。この役割のポイントは2つある。

 

1つ目は、自分だけでなく周囲に一目して状況が把握できるようにすること。
グループウェアやホワイトボードを使って、関係者全員が同じ情報をもとに行動できる状態にしておくことが大切だ。

 

2つ目は、状況をアップデートすることだ。作業員へ指示した結果の確認や、顧客からの問い合わせなどにより、状況は刻一刻と変化していく。それらをタイムリーに整理し、情報を発信することが統括担当の重要な役割だ。

 

  • 顧客への報告と作業承認依頼

整理した情報から現在の状況を整理し、影響範囲や復旧見込みを顧客窓口担当へ報告する。また、稼働中のシステムへの暫定対応を行う場合や、顧客の情報資産であるデータを変更する必要がある場合には顧客へ説明を行い、作業の承認を依頼する。

 

  • 代替オペレーションの提案

システムの復旧が困難と判断され、自社での暫定対応も難しい場合には、顧客ユーザ部門へ業務を継続させるための代替オペレーションの提案を行い、顧客窓口担当経由で連絡する。

 

  • 関連チーム、本部への報告および調整

自身の上司や関係チーム(ユーザ業務的もしくは、システム的に関連の有るチーム)に対し、報告を行い、情報を共有する。

 

  • 作業員への調査指示

作業員へ直接、もしくは調査チームを編成する場合にはチームリーダーである作業員リーダーに対して調査の指示を行う。現場の作業員の混乱を避けるため、作業指示は、統括担当が一元的に行うことがポイントだ。

 

  • 作業員への復旧指示

システム復旧のための対応策の実行指示を行う。例として、問題となったモジュールの差し替えであったり、データの変更、プロセスの起動/停止操作などがあげられる。もし、該当の操作が顧客に影響のあるものだった場合は、顧客の承認を得た上で行う。

 

 

 

[作業員の役割]

  • システムの調査

システムのログに出力されている内容や、アプリケーションやシステム基盤の稼動状態を確認し、影響範囲やシステムトラブルの原因調査を行う。

 

  • システム復旧

統括担当からの指示を受け、システムの復旧作業を行う。例として、問題となったモジュールの差し替えであったり、データの変更、プロセスの起動/停止操作などがあげられる。

 

  • 暫定対応の実施

システム復旧に時間がかかることがわかっており、顧客業務への影響を最小限に抑えたい場合には、暫定対応を実施する。システム復旧と同様に、統括担当からの指示で行う。システム復旧との違いは、システム復旧がシステムトラブルの根本的な原因を除去する(=今後は起こらない)のに対し、暫定対応はあくまで一時的な対応であるため、後日、根本的な原因を取り除く必要があることである。

 

  • 統括担当への状況報告

調査結果やシステム復旧、暫定対応の作業結果を統括担当へ報告する。事実と意見を明確に区別して報告を行うことがポイントだ。

 

 


 

 

これらの重要な2つの役割を効果的に機能させるためのポイントは、役割を超えた動きをしないことだ。特に、統括担当はその役割の重要性から、経験が豊富なSEが担当する場合が多く、担当システムへの知識も豊富であるため、つい自分で調査に入ってしまうことがあるが、情報連携のハブとしての機能が疎かにならないよう、注意する必要がある。

 

[その他の関係者]

 

関係チーム統括担当&作業員

システムトラブルの発生したシステムに関係するシステムが存在する場合は、同様の体制を各システムでもとることになる。この場合、各システムの統括担当同士が情報を共有するハブとして機能する必要がある。

 

上長

統括担当からの報告を受け、システムトラブル対応への人的リソースの投入や顧客上層部への報告を行う。

 

システムトラブルの規模が大きい場合、顧客上長への早めの報告が重要であるが、統括担当から顧客の窓口担当へ連絡している内容と矛盾が生じないよう、内容は内部でよく認識あわせをしておく必要がある。

 

顧客ユーザ部門

情報システムの利用者。業務の継続のために必要な情報(業務の時限や制約)を顧客窓口担当で提供してもらう。また、統括担当は顧客ユーザ部門に対し、代替オペレーションの提案をする場合があるが。この場合、ユーザ部門は必ずしもIT技術に見識があるとは限らない。統括担当は、ユーザ部門向けには専門用語を使わず平易な言葉で説明することも求められる。

 

まとめ

システムトラブルが発生した場合には、多くの関係者が協力し合って対応を進める必要がある。特に、システムトラブル対応の中心となる「統括担当」と「作業員」の役割は、事前によく確認しておこう。

 

また、システムトラブル対応時は、関係者が協力し合い、一丸となることが早期解決の鍵となる。非常事態にスムーズなコミュニケーションが取れるよう、普段から関係者とは良い関係性を築いておくことも重要だ。

 

トラブルを起こさないITシステムは無いといっても過言ではないが、システムトラブルによる顧客への被害を少しでも減らすことに、本稿の内容が参考になれば幸いである。

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です