ルールとか体制とかを中心に教えてほしいです。
ちなみにぼくの会社では、監視ツールや自作監視スクリプトでアラートをエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます)
これはぼくら社員にとって正直ストレスになるので、なにかよいルールや体制を上司に提案したいなと考えています。
ぜひみなさんの会社のやり方を教えてください。
よろしくお願いします。
障害対応を社内で行うと,一見コストを抑えてるように見えますが,精神的負担は想像以上で,いまは持ってるかもしれませんが,いつか持たなくなります(経験談)
ノイローゼになってしまって,何ヶ月,何年もまったく仕事ができない(うつなど)という人も何人か知ってますので,id:kazumaryuさんの今の状況は,この序章に見えます
さて,解決策ですが,こういうトラブル対応を専門とする会社がたくさんあります.具体的なフローとしては,障害対応マニュアルというものをまとめます.アラートをあげるルールや,そのアラートを受けた人が,どのような作業を行って解決に導くのか(場合によってはベンダーに連絡を取るのか),という台本を書きます
もちろん,障害対応のプロですから,このフロー作りも,クオリティが違います
障害対応を行う会社は,それを専門にやってる会社なので,24時間専門の技術者が待機して対応する体制をとってます
アウトソースは別のコスト負担に見えますが,結果的にはコストダウンになります.自社社員にやらせればタダだなんて思ってる上司には,その誤解についてガツンと言ったほうがいいと思います
何社か渡ってますが比較的大きな規模になってくると
・専門部署が三交代制などで対応
・24時間の保守を外部に委託
のどちらかでやってます。
あらかじめ対応マニュアルを作成し現場で対応しきれないレベルや本番サービスに支障が発生した、もしくはすることが見込まれる場合はサービス担当者(プロデューサー、ディレクターなど)へ連絡が走ります。
この場合も24時間、担当者は連絡を受け取る体制が必要ですが、さすがに一人では無理なので、Aさんがだめな場合はBさんと言う具合に、数人リストアップし順次連絡をとっれもらうようにしていきます。担当者が重大な障害だと判断した場合は責任者に連絡し、緊急体制をしきます。
実際に監視する現場も専用のツールを使って運用の軽減を図るのはどこでも行うのですが、それを受ける人間は内外問わず必要で避けられないんですよね。
まとめると
・業務負荷が高いのであれば外に出す
・コストメリットを感じないのであれば中で運用
・製品、自社開発など何らかのツールを利用した負荷軽減
・いずれの場合も事前にマニュアル作成
・エスカレーションフロー、連絡ルートの確率
書き出してみると当たり前のことを当たり前にやる、という感じですねえ(^^;
ご回答ありがとうございます。
なるほど、大きな規模であればやっぱり、専門部署を作ったり、外注したりってことになりますよね。
うちはまだそこまでの予算をとれない気がします。。
・いずれの場合も事前にマニュアル作成
・エスカレーションフロー、連絡ルートの確率
これはたしかに必要ですね!
どういう対応すればよいか明確になっていれば、エンジニアの精神的負担を軽減できる気がします。
たしかに当たり前のことと言えば当たり前のことでした。。。
いっそのことアラートを一人に絞ってしまえばいいのでは
週や日ごとに担当を決めて必ずやらなければならないという状況になれば上司に怒られることはなくなるでしょう
もしアラートを受け取った人が何らかの事情でできなければ本人が直接他の人に頼めばよいのです
アラートに気づかないこともあるでしょう
そのときのためにアラートを受け取ったら「確認した」という報告やメールでも何でもいいですがスクリプトに送ります
もし一定時間この確認メッセージがこなければ自動的に他のエンジニアにアラートを送信するなどの対策を打っておけばよいでしょう
もう一点ありますが企業的に好ましくないかもしれませんね
アラートを受け取り障害を対応したエンジニアになんらかのボーナスを与えるようにすれば誰もやらないなんてことは少なくなるのではないでしょうか
これは私の思いつきで実際にやっているわけではないのであしからず
ご回答ありがとうございます。
実はぼくも当番制がいいなとは思っていたんですが、なんせ社員が少なく(4名)かなり頻繁にまわってきてしまうということもあって、上司とも話したんですが、見送りになりました。
でも、「確認した」の仕組みはとてもいいですねー。
当番になった人に絶対的な責任がのしかかることはなくなりますね。
参考にさせていただきます。
それとボーナス(障害対応当番手当ても考えてます)っていうのは一般的に行われてるものなんでしょうか??
それともWebサイトを運営しているエンジニアにとって、業務時間外の障害対応っていうのは当たり前のことで、賃金に含まれているという認識が一般的なのかなぁ。
もちろん会社によってまちまちなんでしょうが、このこともみなさんにご意見聞けたらいいなと思っていた次第です。
障害対応を社内で行うと,一見コストを抑えてるように見えますが,精神的負担は想像以上で,いまは持ってるかもしれませんが,いつか持たなくなります(経験談)
ノイローゼになってしまって,何ヶ月,何年もまったく仕事ができない(うつなど)という人も何人か知ってますので,id:kazumaryuさんの今の状況は,この序章に見えます
さて,解決策ですが,こういうトラブル対応を専門とする会社がたくさんあります.具体的なフローとしては,障害対応マニュアルというものをまとめます.アラートをあげるルールや,そのアラートを受けた人が,どのような作業を行って解決に導くのか(場合によってはベンダーに連絡を取るのか),という台本を書きます
もちろん,障害対応のプロですから,このフロー作りも,クオリティが違います
障害対応を行う会社は,それを専門にやってる会社なので,24時間専門の技術者が待機して対応する体制をとってます
アウトソースは別のコスト負担に見えますが,結果的にはコストダウンになります.自社社員にやらせればタダだなんて思ってる上司には,その誤解についてガツンと言ったほうがいいと思います
ご回答ありがとうございます。
ノイローゼですか。。。怖いですね。。。
でもストレスに感じているということは、この先そうなる可能性もあるんでしょうね。
気をつけないと。
障害対応を外注に出すならマニュアルをしっかりこちらで作らないといけないと思ってましたが、
コンサル的な感じで、フローづくりから一緒にやってもらえると、非常に助かりますね!
どんな業者があるのか調べてみようと思います。
うちではまず、サーバやサービスに障害が発生したらメールを送信する監視システムが第一歩で、監視システムは担当者全員の携帯にメールを送信します。
これくらいはどこでもやってると思います。
ですが、これで安心してはいけません。
この障害メールに対して全員が対応を始めると2重に対応を行ってしまう無駄が出たり、
逆に誰かがやるだろうと全員が考えてスルーしてしまい大障害になる恐れがあるので、
対応担当を当番制で決めておきます。
例えば、担当者が3人いるとした場合1週間毎に対応当番を交代します。
当番の週は障害メールが来たら真っ先に対応する責任があります。
これにより責任が明確になるとともに、逆に当番以外の人間の精神的負担が大幅に軽減されます。
ですが、人間なのでいくら障害メールが来ていて当番脱兎しても寝ていて気がつかなかったりすることがあります。
この問題の対策として、更に以下のようなシステムを独自で作って運用しています。
まず監視システムは担当者以外に「担当を電話で叩き起こすシステム」にもメールを送ります。
この電話システムには担当者 A,B,C の携帯電話番号が設定されており、障害メールが届くと現在当番の人を判断してその人の携帯電話に電話をかけ始めます。
1回だと気がつかない場合もあるので10回くらいは何度もリダイアルして気付かせます。
ですが、人間なので、いくら寝ていなくても、風呂に入っているなどで電話の鳴る音にも気がつかない場合もあります。
その場合リダイアル上限に達したら電話システムはAを諦めて、B,Cの携帯に順番に電話をかけていきます。
Bが当番じゃないときでもBに電話が回ってきたときはAが対応できなかったんだなと諦めて対応します。
これはAに対するBの貸しになるので、Bは翌日Aに対して飯をおごってもらうなどして貸しを返してもらいます。
ちなみにこのリダイアル地獄は電話を取ってダイアルで暗証番号を入れることで止まります。
この暗証番号もポイントで、毎回同じ番号だと慣れてくると寝ぼけたまま障害電話を取って暗証番号を入れてリダイアルシステムを停止させてまた寝てしまうことがあります。
それを防ぐため、今日の日付を入力させるなど多少頭を使わないと止められない仕組みになってます。
いかにも人間的で単純なシステムですが、これが出来てからは対応漏れも減った上に、当番以外の時は実質対応休暇となるので担当者の精神的負担も大きく軽減されました。
ご回答ありがとうございます。
質問の意図を完璧にくみとっていただき、かつ具体的な内容で、とても参考になります。
担当者全員の携帯にアラートを送るのはやはり一般的なことなんですか。。。
対応担当の当番に対してボーナス(手当て)的なものはあるんでしょうか?
もしない場合、果たしてこの対応当番に割り当てられるエンジニアさんたちに不満がないのか気になるなぁ。
ところで「担当を電話で叩き起こすシステム」これはとってもユニークですね!
担当者の精神的負担をコストと考えたときの費用対効果が高い気がします。
サービスをとめないという強い意志を感じますね!
ご回答ありがとうございます。
ノイローゼですか。。。怖いですね。。。
でもストレスに感じているということは、この先そうなる可能性もあるんでしょうね。
気をつけないと。
障害対応を外注に出すならマニュアルをしっかりこちらで作らないといけないと思ってましたが、
コンサル的な感じで、フローづくりから一緒にやってもらえると、非常に助かりますね!
どんな業者があるのか調べてみようと思います。