みずほ銀行、「システムに精通した技術者を営業に回して口減らししていた」と報道される。
度重なるシステム障害で信用が失墜し、金融庁がシステムの直接管理に乗り出すのでは、
という異例の事態に突入しかけているみずほ銀行ですが、金融庁に提出した障害原因報告書で
ある程度故障の原因が明かされています。
8月20日の障害では、19日夜に店頭での取引を処理するシステムにある富士通の機器が故障。機器は予備も含めて同時に壊れた。バックアップのサーバーにもデータが正しく複製されなかったため、災害対策用の拠点に切り替えた。翌日の開店までに復旧が間に合わず、全店での窓口業務が一時できなくなった。
HDDが2台同時に死亡し、バックアップサーバーへの切り替えも失敗したのが原因とのこと。
ちなみにバックアップサーバーへの切り替えが失敗した原因は、
この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。
http://a.msn.com/01/ja-jp/AAPhzbd?ocid=st
入力追加の指示を省略したため、とのこと。こんなの人災やんけ。
あれほと手順書を守れ、と口酸っぱく言われるのにさぁ・・・
特に慣れてきた中堅社員にあるあるのやつですね。
災害対策拠点での復旧を目指すも、障害が起きた一部システムだけを移行させるマニュアルもなく、
復旧に時間を要した、とのこと。
6年前のHDDが2台同時に逝きました:
ちなみに故障したHDDは6年前の型式で、経年劣化が原因と観られています。
そりゃ6年間、どのぐらいの頻度で書き込み読み込みしていたかは不明ですが、
6年持てば十分だろ・・・コンシューマ用途でも6年使えば死ぬことは十分にあるのに、
それを銀行の基幹系に使って適宜交換していないとな・・・
みずほFGによると、ディスク装置が2重に故障することは極めてまれで、「ITベンダーからは4000年に1回と言われた」(石井哲執行役デジタルイノベーション担当兼IT・システムグループ長兼事務グループ長)。富士通が故障したディスクを分解するなどして解析した結果、特定の型番において、読み取り不良などによる故障率が足元で高まっていたことが分かったという。
データセンターを切り替えずとも復旧できた、みずほ銀行が「5度目」障害で見解 | 日経クロステック(xTECH)
サクッと「ITベンダーからは4000年に1回と言われた」と発言し、他人事のように言っていますが、
いやいや、君のところのシステムだからね。
あと、MTBFを二乗して4000年に1度という計算かもしれませんが、6年使ったHDDが2台同時に壊れる確率って
そんなに低いかな?もうちょい壊れそうなものだけど。
新品のHDDならいざしらず、6年運用したRAID1が同時に逝く、
というのは運用面でもう少し目撃事例がありそう。
そもそもITベンダー側も特定のHDDの型番は経年劣化で故障率が激増するという情報は持っているはず
(逆に持ってないとITベンダーとして失格だろうし、Backblazeなどは公開している。)、
それをみずほ側に提供し、みずほに交換を要求するような保守体制になっていたかは不明。
この辺、金がかかる割に対費用効果がいまいち見えにくいところですから、
ITベンダー側から提案はしてみたものの、みずほ側が蹴った可能性は十分に有り得そう。
優秀な技術者は営業に回して口減らしへ:
また、情シス部門の人員削減と口減らしも報道されています。
システムに精通した人材が営業などの部署に移り、担当者を減らした弊害が出ている。
保守運用を担うベンダーとの連携も課題だ。再発防止策ではベンダー出身者の採用や出向をさらに増やすことも明確にした。
これはあるあるだな・・・開発に携わった人が、プロジェクトの消滅に伴い、
他の部門に異動したりさせられたり、日本企業でよく見る光景です。
本当に優秀な人で引く手あまたの人は、社内の別の設計部門に
回されたりするのですが、普通~ちょい優秀ぐらいの人だと会社の都合が優先されて、
全く畑違いの部署に飛ばされ、「嫌ならやめてね、自己都合退職で」という、
いつもの日本企業あるあるです。
という訳で、何時の時代も冷遇される日本の技術者、英語さえ出来れば海外に飛び出したほうが、
こんな永久に終わらない泥舟プロジェクトに関わること無く、年収も2倍になり、
幸せな人生を遅れそうです。
まだオンプレで消耗してるの?
日本の基幹システムをクラウドにあげるのか?
SalesforceもAWSもこの前、普通に障害を起こしていたしな。
どれだけシステムが優れていようが、人間のうっかりは防げない。
銀行の出世コースは支店長を見ていれば分かるが、いかに潰れない会社に金を貸し、会社(銀行)に利益をもたらしたかが出世コース。
裏方である技術屋はとても軽視されている業界。
…とは言っても、みずほが特に酷いだけで、ほかはここまでではないのだろうけども。
まあ言い訳はいろいろあるだろうけど、システムの安全性を軽視する体質ってなかなか変わらないだろうし、大口顧客が逃げ出すかもですね
東電の柏崎刈羽原発の体たらくとその辺は同じですね
社内の体質とか、頭すげかえて管理職の選別や一般社員のリストラをしないと変わらん
新品のHDDならいざしらず、6年運用したRAID1が同時に逝く、
というのは運用面でもう少し目撃事例がありそう。
ねえよそんなの。適当抜かすな。
故障検知してからすぐに交換すればリビルドなんざ最大でも二時間がいいところだ。手配云々といっても銀行のシステムならその場に予備のHDDがあるし人も張り付きに近い形で見てるから、ロスタイム含めても精々3、4時間。いくら同時期に製造したHDDでもその狭いタイミングで同時に壊れることなどほとんど無い。
そのレベルの故障確率となると銀行はおろかsierにも何らデータがない。根拠となる統計データを持っているのはHDDメーカーのみだ。だから「4000年に一度」と言ったのはメーカーだろうし、伝聞形式での回答になるのも当然のことだな。
ですね。
記事の主はなぜ
> MTBFを二乗
という意味不明な計算式を思いついたのでしょう。
(それじゃ「時間の二乗」という次元の謎数字が得られてしまうんですが)
どういう基礎値から弾き出されたかはともかく、「一台故障~復旧完了に至るリードタイム(せいぜいN時間程度)内にもう一台が故障する、という事象の発生する平均的な周期」を指しているものと思います。
(統計疎いんで、「平均」じゃないかもしれませんが)
4000年が長いか短いか私には分かりませんが、少なくとも一生に一度でも身近で経験したら相当レアな部類でしょう。
とはいえ、みずほについては「そりゃあ災難だったね仕方ないね」に終わらず、4000をもっと小さい値に至らしめた別の要因があったのでは、という気もします。
運用者じゃないHDDメーカーがそんなデータ持ってるとは思えんな。サーバー屋ならともかく。メーカーが自社の故障状況とか公開しないだろ普通。
お前こそ適当なこと吹かしてんじゃねえ
だって富士通×HDDだもん
2台同時という事はシーゲイトのDMシリーズの2~3TB辺りのバグ持ちBIOS搭載のHDDか?
共通原因で壊れないように普通は生産者、原産国、生産日をずらしたものを使うけど、日本の会社はそれが普通ではないのかな?
品質が同じなら同じ時期に壊れそうって思った
みずほ銀行には、つべこべ言わずに2年に1回はHDD交換しろ!異常が無くても交換だ!
と言いたい。
この業界は、予防保全って概念は無いのかな?
事が起きてからギャーギャー騒いでも手遅れだ。
当事者は他人事なんだよな。偉い人達だ。
起こったことは仕方がないとして、今はどうしてるんでしょうね。
しかし、HDDの寿命って短すぎる。
まぁ、NAS専用なら少しは長持ちするんだろうけど・・・
それでも、HDDって改めて消耗品だなって思った次第。
HDD2台が同じ部屋にあるならその時点で4000年は無いわ。災害にあったら同時に逝くやろ
× 寿命4000年
〇 故障発生頻度が4000年に1回
HDDが2台同時に壊れたんじゃなくて、本当は”2台目は人間が壊した”とかじゃないの?
統計的にもさすがにないだろってことが実際に起きるのがシステム運用なんだよな。銀行に限らずだが、システムがなきゃ業務全く成り立たないにも関わらず技術者の待遇が悪すぎるよ日本は。半沢直樹でも情シスの同僚が閑職っぽい描かれ方されてたの気になったし。
MIZUHOのロゴを立てにすると“동”が現れる
これは、同胞を意味する。これがホントの縦読み
5:00に追加
北朝鮮への不正送金があるしね
興業銀行から安倍晋三の叔父が経営に絡んでいるんだ
管理人がシステム理解してないのがよくわかる
うんしてない。
そしてこのシステムも誰も理解してない。
海外企業だと、技術者の待遇自体は高そうだけど、
そもそも終身雇用ではないので、大プロジェクトが終わったら、
超優秀で手元に置いておきたい技術者以外は解雇じゃないかな。
その代わり、転職が盛んなので、同待遇以上でどこにでも転職できるだろうけど。
日本のように、
部署(職種)を変えてたらい回しbut終身雇用
がいいか、それとも、
プロジェクトが終わったら転職
がいいか、どうなんだろうねえ。
一昔前の日本人自体が、前者を好むから企業がこんな風になっていったところもあると思うけど。
あぁ…日本社会は、事実上、転職を許さないからなぁ。
一旦入社したら定年まで勤めるのが雇用の常識になってる。
途中で自発的な退職or会社都合の解雇でも、その先、中途採用は待遇が超絶悪いし
そもそも求人数が絶望的に少ない。
理由を問わず、定年前に辞めた人間は裏切り者って事なのだろうね。
日本社会も欧米並みに転職を常識化恒常化すれば良いのにと思うよ。
解雇規制待ったなしだな。
俺が経営者なら全員クビきって個人事業主化するか外注にする。
社会が滅びそう。
実際は、戦略を考えるコアな部署等には正社員が必要かな。
あとは、お金を直接扱う部署なども正社員の方が安心。
あとは、人材の質が重要な職種も、正社員の方がいい人を採用し易い。
そんな考えの人間のもとに社員が集まるとは思えませんが、
クビ切る前に、
RAID なら安心 → データ消滅 なんてあるある過ぎる訳で
技術者”RAID は壊れるからバックアップの予算組んでください”
管理職”カタログ数値だと壊れないだろ、却下”
平凡な風景
制御基板が逝ってRAIDのデータ全部吹っ飛んだ経験ありっす
社内政治優先でボロボロになった企業が多いのになんで繰り返されるのだろう
一流銀行でさえこうなるのだから他はもっと酷いだろうな
HDDの劣化は、技術者は当たり前、物理的要因でしょ、
経営責任者は、物がいつ壊れても可笑しくない事を知っていても、
部下から指摘されると、左遷や解雇当り前で行う。
重電5社のM社は特に、知っているが、記録に残さない様に、口頭で、指示をする。
記録残らなければ、良いと思っているし、
上司に従っている、小物はもっと悪くなっていく。
三菱は酷いよな。
昔っから、あのような社風だからな。
改革なんて不可能だ。
4000年に1回の頻度で同時故障するハードディスクのペアが何百台、何千台もあるとしたら…数年運用してたら起きるだろうな。