【読書メモ】システム障害対応の教科書 その2
経緯
こちらの本を買ったので、心に残ったことと、ToDo(行動に移すこと)をメモしていいきます。
前回の続きで、今日は最後の第8章まで。
第5章 障害対応に必要なドキュメント
心に残ったこと
- 関係者の認識合わせのために、抜けや漏れがないように資料を作る
- 障害対応フロー図
- 役割を明確に
- 連絡先管理表
- 障害レベル管理表
- レベルに応じた連絡方法
- 障害対応フロー図
ToDo
- 資料の作成、共有を行う
- 情報の多重管理にならないようにする
第6章 システム障害対応力を高めるツールと環境
心に残ったこと
- システム監視ダッシュボードの効果的な使い方
- 時系列データを表示
- 時系列ではない、今の数字を表示
- 多くの情報を1画面に押し込まない
- 組織のレイヤごとに見せ方を変える
- 指揮を執る人には広範囲、低粒度
- 実作業の人には詳細な情報をリアルタイムで
- CMDB
- スモールスタートで作る
- 組織感での名称を統一する
- CMDBのメンテナンスに工数を取られないようにする
ToDo
- レイヤに応じたダッシュボードの作成
- CMDBの運用を考える
第7章 組織の障害対応レベル向上と体制づくり
心に残ったこと
- 自組織のアセスメントを以下のポイントで行う
- 障害対応時の人の動き
- 対応から完了までのプロセス
- ドキュメント充実度
- ツールや環境
- 本格対策のスピード
- 対応方法の改善
- 教育や訓練
- SREやDXといった潮流の変化を柔軟に受け入れられるようにする
ToDo
- アセスメントを行い、必要なアクションを洗い出す
- 数年スパンを見据えた組織づくり、育成を考える
第8章 システム障害対応力の改善と教育
心に残ったこと
- ポストモーテム
- 障害内容や原因分析だけでなく、対応が適切だったかも検証する
- KPTを使うと良い
- 判断に迷ったことも書く
- 改善や分析の場では、ポジティブな空気づくりを心がける
- 障害内容や原因分析だけでなく、対応が適切だったかも検証する
- BCP訓練
- 訓練の目的、対象範囲をしっかりする
- 机上訓練と実施訓練を行う
- 教育
- 教育を設計し、目標とするスキルセットを決める
- システムのレクチャー
- シャドーイング
- 手順を渡すだけでなく、考えさせる
- 経験させる
- 教育を設計し、目標とするスキルセットを決める
ToDo
- 障害報告書の運用を考える
- BCP訓練を計画する
- 教育方法を計画する
以上です。
とても学びの多い本なので、何度も読み返すことになりそうです。
良い本に出会えてよかった。