先週発売された「ITインフラ監視[実践]入門」を読んだ.ちょうど業務で監視改善を検討しているところだったので,個人的に良いタイミングで読むことができた.あとお世話になってる @ariarijp が本書のレビューに参加されたってことで,すぐ読んでみようと思った.
監視 is 何
「監視」に対する理論や定石がまとまっていて,今までに無かった視点の本だなと感じた.一部 Mackerel の例も出てくるけど,あくまで実例の紹介という感じで,導入しているインフラ技術や監視サービスに依存せず読めた.「サービスの安定稼働」って言うのは簡単だけど,そのためには多岐にわたる戦略が必要で,本来ならここまで本腰を入れて監視に向き合うべきだよなーと改めて感じたりもした.
閾値 (Threshold)
「閾値」を「しきいち」と読んでいるし,今までの現場でもそう読んでいたけど,本書では「いきち」と読みが振られていた.どちらも変換できるし正しいんだろうけど,個人的に聞いたことが無くて最初は違和感があった.読み進めていくと気にならなくなったけどw
監視設計
SI 時代に監視設計書を書いていたこともあり,その頃を思い出してしまった.基本的に Excel と物理サーバ設定の二重メンテになるため,マスタである Excel が間違ってることも頻発していた.過剰なドキュメントは不要だとは思う反面,SI と Web 企業じゃ価値観も違うし,契約形態も違うし,納品義務もあるし,運用部隊にアウトソースすることもあるし,結論としては組織に適切なレベル感で書けば良いとは思う.逆にベンチャーだから監視設計を書かなくて良いなんてことは無くて,むしろ書くべき.当たり前の話だけど.
エンタープライズ製品
第5章にオンプレで使う監視ソフトウェアの紹介があって,Tivoli / JP1 / OpenView も入ってた.懐かしすぎて笑った!他に WebSAM も使ったことあるけど,エンタープライズ製品は最近はもう全く使うことがないなぁ.
通知アグリゲーションサービス
全然知らなかった.柔軟な通知って凄く惹かれるし調べる!
- PagerDuty | Real-Time Operations | Incident Response | On-Call | PagerDuty
- GitHub - ustream/openduty: An open source Alerting and incident escalation tool
- GitHub - ryotarai/waker: Wake someone up!
アラート問題
一瞬スパイクした値を検知したり,誤検知が量産されたり,warning が多すぎて critical を見逃したり,アラート問題は前に読んだ「ウェブオペレーション本」の書評にも書いた通りで,意識したい.
Uptime Robot を試した
無料で外形監視を行える Uptime Robot というサービスがあることを知って,さっそく試してみた.自分の Blog を外形監視できるようにしてみたけど,Hatena で運用されてるから実際にアラートが飛んでくることはほとんど無さそう.無料枠で十分使えるし,良さそう.今回は Gmail と Slack (WebHook) に飛ばすようにしてみた.
まとめ
改めて監視の重要性に気付かされた1冊になった.定期的に読み返すんだろうなーという気がするし,オフィスに置いておこうと思う.「監視」や「サービスの安定稼働」に課題意識がある人に是非オススメ!
ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)
- 作者: 斎藤祐一郎
- 出版社/メーカー: 技術評論社
- 発売日: 2016/01/16
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る