今日は CloudWatch の話を書こうと思う.既に活用してる人も多いと思うけど,2016年11月の新機能リリースで各種メトリクスの「パーセンタイル統計」を可視化できるようになった.
「パーセンタイル統計」は凄く重要で,平均値だけをモニタリングしていると気付きにくい異常値に気付くことができる.例えば,ELB の Latency をモニタリングしている場合に,リクエストの 1% が非常にパフォーマンスが悪いとしても,平均値で見ると値が丸まってしまって,通常より少し遅い程度にしか見えないという場合がある.そんなときに「パーセンタイル統計」を活用できる.
まだ全ての ELB に反映されていない
以下の記事を読むと,newly created ELB and ALB
と書かれていて,新機能リリース以降に作成した ELB と ALB にしか対応していないように読み取れた.
Percentiles are supported for EC2, RDS, and Kinesis as well as for newly created Elastic Load Balancers and Application Load Balancers.
また別の記事を読むと,既に運用している ELB と ALB は will be available in the coming weeks
であると書いてあった.ただし,数週間待っても反映されず,年を越してしまった.
Percentile metrics are available today for all new Application Load Balancers and can be accessed from the CloudWatch console, SDK and API. Support for existing Application Load Balancers and all Classic Load Balancers will be available in the coming weeks.
今週やっと ELB で「パーセンタイル統計」を可視化できるようになった
実は「パーセンタイル統計」が反映されたらすぐに気付けるように,以前から CloudWatch Dashboard にグラフを追加していたので,1/24 に「あ!反映された!」とすぐに気付くことができた(笑)
既に反映された ELB もあるし,まだ反映されてない ELB もある.リソースを作成した時期にもよりそう.
以下の例では,3種類の「パーセンタイル統計」を可視化している.特に p99 の値を見ると,異常値が検出できていることがわかる.
- Latency p99
- Latency p95
- Latency p90
グラフを作る Tips
ちなみに,グラフを作るときに「メトリクス追加」のようなボタンが無くて,どうやったら複数の「パーセンタイル統計」を表示できるのか全然わからなかった.適当にポチポチしてたら,右側にコピーアイコンがあることに気付いたけど,これは気付かないでしょう!ということで Tips も載せておく.
まとめ
既に「パーセンタイル統計」が反映されている ELB と ALB も多そうなので,CloudWatch Dashboard で可視化しておくと,異常値に気付くことができて便利!
最近は Grafana が最高すぎるから,CloudWatch のダッシュボードも Grafana に移行しようと思ってる.