涅槃を目指す in はてな

人生に迷う様を書きます

【読書メモ】システム障害対応の教科書 その2

 経緯

こちらの本を買ったので、心に残ったことと、ToDo(行動に移すこと)をメモしていいきます。

前回の続きで、今日は最後の第8章まで。

www.amazon.co.jp

 第5章 障害対応に必要なドキュメント

 心に残ったこと

  • 関係者の認識合わせのために、抜けや漏れがないように資料を作る
    • 障害対応フロー図
      • 役割を明確に
    • 連絡先管理表
    • 障害レベル管理表
      • レベルに応じた連絡方法

 ToDo

  • 資料の作成、共有を行う
  • 情報の多重管理にならないようにする

 第6章 システム障害対応力を高めるツールと環境

 心に残ったこと

  • システム監視ダッシュボードの効果的な使い方
    • 時系列データを表示
    • 時系列ではない、今の数字を表示
    • 多くの情報を1画面に押し込まない
    • 組織のレイヤごとに見せ方を変える
      • 指揮を執る人には広範囲、低粒度
      • 実作業の人には詳細な情報をリアルタイムで
  • CMDB
    • スモールスタートで作る
    • 組織感での名称を統一する
    • CMDBのメンテナンスに工数を取られないようにする

 ToDo

  • レイヤに応じたダッシュボードの作成
  • CMDBの運用を考える

 第7章 組織の障害対応レベル向上と体制づくり

 心に残ったこと

  • 自組織のアセスメントを以下のポイントで行う
    • 障害対応時の人の動き
    • 対応から完了までのプロセス
    • ドキュメント充実度
    • ツールや環境
    • 本格対策のスピード
    • 対応方法の改善
    • 教育や訓練
  • SREやDXといった潮流の変化を柔軟に受け入れられるようにする

 ToDo

  • アセスメントを行い、必要なアクションを洗い出す
  • 数年スパンを見据えた組織づくり、育成を考える

 第8章 システム障害対応力の改善と教育

 心に残ったこと

  • ポストモーテム
    • 障害内容や原因分析だけでなく、対応が適切だったかも検証する
      • KPTを使うと良い
    • 判断に迷ったことも書く
    • 改善や分析の場では、ポジティブな空気づくりを心がける
  • BCP訓練
    • 訓練の目的、対象範囲をしっかりする
    • 机上訓練と実施訓練を行う
  • 教育
    • 教育を設計し、目標とするスキルセットを決める
      • システムのレクチャー
      • シャドーイング
      • 手順を渡すだけでなく、考えさせる
      • 経験させる

 ToDo

  • 障害報告書の運用を考える
  • BCP訓練を計画する
  • 教育方法を計画する

以上です。

とても学びの多い本なので、何度も読み返すことになりそうです。

良い本に出会えてよかった。