自システムで障害多発中な件についての日記。

うちの会社の違う部署で大規模案件が進行中なんですが、それとは全く関係なくうちチームが管理してるシステムでいろいろエラーが出まくってまつ…。半年に1回レベルの高ランク障害が毎日発生。ハードウェア故障からネットワーク障害にディスク容量パンク、プロセスハングアップにアプリケーション不具合と下レイヤから上レイヤまでよりどりみどり。で、今も障害発生のため出社して対応中。。。

俺の中では機械ごときに人間が負けるなんて許せないので、たまの障害もいい暇つぶし(トラシューのトレーニング)と思って爽やかな気分で解決するように心がけてるんですが、こんだけ連発するとさすがに暇つぶしの域を超えてダルいです。

■とはいえ

今日の障害はハードウェアなので結構気が楽。なんつったってハードウェア障害の原因=ハードウェア故障なので、システム障害にはお約束の障害原因追求→再発防止策の書類コンボを書かなくてよいから(二重化されてなくシステム止まっちゃったとかは設計見直さないとだめだけど。)

欠点といえばハードウェア担当は別のチームなのでハードウェア交換が終わるまで何もやることがないこと。俺はPCの前に座って進捗報告を聞くのみ。ビルの前で一日中突っ立ってる警備員くらいヒマ。

しかし!こういう時のために(?)リモートから自宅PCにアクセスできるように設定してあるので会社にいながら家と同じ作業ができます。PCヲタだからネット&自宅PCにアクセスできればどこにいても一緒。それにも飽きればワンセグでプロ野球見たりMP3プレイヤーで音楽聴いたり時間を潰す手段はいくらでもある。良い時代です。ITサイコー!


■話変わって真面目な話

先週から新しいメンバーがうちのチームに加わりまして。で、前述の通り先週は障害の嵐だったのですが残念ながらあまり活躍できてませんでした。これは僕らのチームが特別に能力が高過ぎるというわけではなく、うちの環境を全然知らなかったから。

どんなサーバが存在するのか?各サーバ間の関係は?ログの保存先は?ログレベルは?実行しているタスクは?特別運用は?使用できる解析ツールは?数年運用している僕らなら当然なことでも外部から来た人は最初から覚えないといけない。例えるならモー娘に途中加入して今までの曲全部覚えないのといけないのと同じ。

というわけで、とっとと環境理解してモノになってほしいんですが、どうすればうちの環境を早く理解してもらえるか迷ってます。もちろん設計書などの各種資料は渡したけど「設計書渡したから全部読んどいて」ってのはナンセンス。必要なところは一部なのだから。

設計書の重要な部分だけ抜き出したチーム内用資料(形式ばらず分かりやすさを一番に考えたもの)があれがベストなんですが、うちのチームはそういう資料が少ない…。とりあえずは1つの分野に注力してそこだけ詳しくなってもらおうかなと思います。で、今後のためのチーム内資料もちょっと作ろうかなと。

IT知識はあるのでほっといても大丈夫なんですが放置プレイみたいで嫌なので。それに分かりやすい資料を作る+他人への説明は自分のためだしね。

つーことでまとまりのない文章でしたが、障害復旧したという連絡があったのでこれにて終了。