理論を知って改めて監視と向き合おう /「ITインフラ監視[実践]入門」を読んだ

先週発売された「ITインフラ監視[実践]入門」を読んだ.ちょうど業務で監視改善を検討しているところだったので,個人的に良いタイミングで読むことができた.あとお世話になってる @ariarijp が本書のレビューに参加されたってことで,すぐ読んでみようと思った.

監視 is 何

「監視」に対する理論や定石がまとまっていて,今までに無かった視点の本だなと感じた.一部 Mackerel の例も出てくるけど,あくまで実例の紹介という感じで,導入しているインフラ技術や監視サービスに依存せず読めた.「サービスの安定稼働」って言うのは簡単だけど,そのためには多岐にわたる戦略が必要で,本来ならここまで本腰を入れて監視に向き合うべきだよなーと改めて感じたりもした.

閾値 (Threshold)

「閾値」を「しきいち」と読んでいるし,今までの現場でもそう読んでいたけど,本書では「いきち」と読みが振られていた.どちらも変換できるし正しいんだろうけど,個人的に聞いたことが無くて最初は違和感があった.読み進めていくと気にならなくなったけどw

監視設計

SI 時代に監視設計書を書いていたこともあり,その頃を思い出してしまった.基本的に Excel と物理サーバ設定の二重メンテになるため,マスタである Excel が間違ってることも頻発していた.過剰なドキュメントは不要だとは思う反面,SI と Web 企業じゃ価値観も違うし,契約形態も違うし,納品義務もあるし,運用部隊にアウトソースすることもあるし,結論としては組織に適切なレベル感で書けば良いとは思う.逆にベンチャーだから監視設計を書かなくて良いなんてことは無くて,むしろ書くべき.当たり前の話だけど.

エンタープライズ製品

第5章にオンプレで使う監視ソフトウェアの紹介があって,Tivoli / JP1 / OpenView も入ってた.懐かしすぎて笑った!他に WebSAM も使ったことあるけど,エンタープライズ製品は最近はもう全く使うことがないなぁ.

通知アグリゲーションサービス

全然知らなかった.柔軟な通知って凄く惹かれるし調べる!

アラート問題

一瞬スパイクした値を検知したり,誤検知が量産されたり,warning が多すぎて critical を見逃したり,アラート問題は前に読んだ「ウェブオペレーション本」の書評にも書いた通りで,意識したい.

kakakakakku.hatenablog.com

Uptime Robot を試した

無料で外形監視を行える Uptime Robot というサービスがあることを知って,さっそく試してみた.自分の Blog を外形監視できるようにしてみたけど,Hatena で運用されてるから実際にアラートが飛んでくることはほとんど無さそう.無料枠で十分使えるし,良さそう.今回は Gmail と Slack (WebHook) に飛ばすようにしてみた.

f:id:kakku22:20160124071818p:plain

まとめ

改めて監視の重要性に気付かされた1冊になった.定期的に読み返すんだろうなーという気がするし,オフィスに置いておこうと思う.「監視」や「サービスの安定稼働」に課題意識がある人に是非オススメ!

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)

ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)