コーヒータイム -Learning Optimism-

本を読むということは、これまで自分のなかになかったものを取りこみ、育ててゆくこと。多読乱読、英語書や中国語書もときどき。

システム障害はなぜ二度起きたか (日経コンピュータ編)

みずほが東日本大震災直後に引き起こした大規模なシステム障害は、大ニュースになったため私の記憶に残っている。当時は義援金振込が殺到したためシステムダウンしたらしい、くらいの認識だったが、この本を読んで、その考えが間違っていたことがわかった。

本書では、根本的な原因は、みずほとみずほフィナンシャルグループの歴代経営陣のIT軽視、あるいはITへの理解不足にあるとする。自社の情報システムとそれを支えるシステム部門の強みや弱み、課題などを把握していない、知ろうとしていない点だ、と言い切っている。

東日本大震災直後のシステム障害は、みずほ銀行口座への義援金振込が殺到したことがきっかけで、取引明細の件数が一日に格納できる上限値を超えたことから始まった。ここで最初の問題が起こる。まず義援金振込のような件数がとんでもないことになることがわかりきっている口座の場合、上限値なしの口座種類にすべきだったが、そうなっていなかった。

閉店後、みずほ銀行は未処理の振込情報を一括処理しようとした。ここで次の問題が起こる。一括処理にも上限値があり、さらにシステム担当者はそれを知らなかった。おまけに一括処理が異常終了したことでなんと振込データの一部が破損し、データ復元に大わらわになる。

最後の大問題が、しだいに明るみに出るのはこのころだ。一括処理が正常終了しなければ、次の日の業務開始のためのオンライン処理が始められない。23年前にシステムが設計された当時からこうなっていた。

雪だるまが転がるうちにだんだん大きくなるように、問題が徐々に大きくなっていった。店舗営業開始時間になってもコンピュータが立ち上がらない、一部ATM不具合を経て、ついにATM全面停止、インターネットバンキング停止、振込大幅遅れなどの事態になだれこんだ。

大規模障害が問題になったことがあるのはなにもみずほ銀行だけではない。東京消防庁の消防車・救急車出動支援情報システム、羽田空港の航空管制システム、いずれも大規模障害を経験している。ではなぜこういうことが起こるのか? 著者は、老朽化や肥大化により企業情報システムの規模と複雑さと範囲が自己管理できる限界を超えつつあること、さらにプロジェクトマネジメントができる人材がいないからシステム開発プロジェクトがうまくいかないのだと指摘する。だが一番欠けているのは、情報システムの問題は、経営の問題であって、技術の問題ではないという認識だ。