今日は「AWS Solution Days 2017 ~ AWS DB Day ~」に参加をして「第2回 Aurora 事例祭り」で発表もしてきた．すぐに資料公開をして良いとのことだったので，参加レポートをまとめる．

AWS Solution Days 2017 ～AWS DB Day～（2017 年 7 月 5 日開催） | AWS

第2回 Aurora 事例祭り

今回は「Makuake の急成長を支える Aurora 移行事例」というタイトルで発表をした．特に MySQL 5.5 on EC2 から Aurora に移行したフェージングと，その効果を中心に話した．他の発表であったような，オンプレからの移行ほど複雑度は高くはないけど，全体感をギュッと凝縮した，良い発表ができたのではないかなと個人的には思っている．

今日の会場風景はこんな感じだった！運営側からの依頼もあり，今回は珍しく発表台の前から動かず発表をした（笑）

f:id:kakku22:20170705212546j:plain

クラウド上のデータ活用デザインパターン

午後のセッションにも参加してきた．

データ分析を実施する場合は，試行錯誤のサイクルを高速に回す必要がある
Amazon Redshift Spectrum を使うと，Redshift クラスタから直接 S3 にクエリを実行することができる
- コールドデータを S3 に置いておくなどの工夫ができるようになる
パターン
- BI パイプラインパターン
- マルチクラスタパターン
- ホットデータパターン
- ラムダアーキテクチャパターン
- マルチノードパターン
- などなど

後半部分の発表では，参考になるパターンがたくさん紹介されていて勉強になった．特にストリーム処理（スピードレイヤー）とバッチ処理（バッチレイヤー）にレイヤーを分割した「ラムダアーキテクチャパターン」は興味があるので，資料を見たりして，もっと詳細に調べてみたいと思う．

クラウド上のデータ活用デザインパターン from Amazon Web Services Japan

www.slideshare.net

ETL をサーバーレスで実現する新サービス AWS Glue のご紹介

今日1番聞きたかった Glue のセッションにも参加した．

AWS Glue（現在，プレビュー中）
- AWS Glue (完全マネージド型 ETL サービス) | AWS
Glue はベース技術に Spark を採用している
データ量によって自動的にスケールアウトするフルマネージドサービス
EMR ほどの自由度はないが，PySpark で実装をすることで，ETL をカスタマイズすることができる
クローラーはデータソースのメタデータを収集して，データカタログ（Hive メタストア）に格納する
Gork でカスタマイズした Classifier を作成することもできる
自動生成された Python コードを Glue 上で修正することもできるし，任意のエディタで修正することもできる
Glue のインスタンスは VPC の中に入るため，S3 にアクセスする場合は VPC Endpoint を使う必要がある

実際に試してみないとわからない部分も多いけど，基本的な ETL をフルマネージドでサーバレスな環境に任せられるのは良いなと感じた．東京リージョンで GA になるのを待とう．任意のエディタで実装したときにデプロイはどうするんだろう？と思ったけど，プルリクをマージしたタイミングで S3 に保存して，AWS CLI で S3 からデプロイすることはできそうなので，現実的な運用を考えると，そういう感じになりそうだなとは思った．

（資料公開待ち）

参考までに re:Invent 2016 の Glue のセッション動画を載せておく．

www.youtube.com