今日は「AWS Solution Days 2017 ~ AWS DB Day ~」に参加をして「第2回 Aurora 事例祭り」で発表もしてきた.すぐに資料公開をして良いとのことだったので,参加レポートをまとめる.
第2回 Aurora 事例祭り
今回は「Makuake の急成長を支える Aurora 移行事例」というタイトルで発表をした.特に MySQL 5.5 on EC2 から Aurora に移行したフェージングと,その効果を中心に話した.他の発表であったような,オンプレからの移行ほど複雑度は高くはないけど,全体感をギュッと凝縮した,良い発表ができたのではないかなと個人的には思っている.
今日の会場風景はこんな感じだった!運営側からの依頼もあり,今回は珍しく発表台の前から動かず発表をした(笑)
クラウド上のデータ活用デザインパターン
午後のセッションにも参加してきた.
- データ分析を実施する場合は,試行錯誤のサイクルを高速に回す必要がある
- Amazon Redshift Spectrum を使うと,Redshift クラスタから直接 S3 にクエリを実行することができる
- コールドデータを S3 に置いておくなどの工夫ができるようになる
- パターン
- BI パイプラインパターン
- マルチクラスタパターン
- ホットデータパターン
- ラムダアーキテクチャパターン
- マルチノードパターン
- などなど
後半部分の発表では,参考になるパターンがたくさん紹介されていて勉強になった.特にストリーム処理(スピードレイヤー)とバッチ処理(バッチレイヤー)にレイヤーを分割した「ラムダアーキテクチャパターン」は興味があるので,資料を見たりして,もっと詳細に調べてみたいと思う.
www.slideshare.net
ETL をサーバーレスで実現する新サービス AWS Glue のご紹介
今日1番聞きたかった Glue のセッションにも参加した.
- AWS Glue(現在,プレビュー中)
- Glue はベース技術に Spark を採用している
- データ量によって自動的にスケールアウトするフルマネージドサービス
- EMR ほどの自由度はないが,PySpark で実装をすることで,ETL をカスタマイズすることができる
- クローラーはデータソースのメタデータを収集して,データカタログ(Hive メタストア)に格納する
- Gork でカスタマイズした Classifier を作成することもできる
- 自動生成された Python コードを Glue 上で修正することもできるし,任意のエディタで修正することもできる
- Glue のインスタンスは VPC の中に入るため,S3 にアクセスする場合は VPC Endpoint を使う必要がある
実際に試してみないとわからない部分も多いけど,基本的な ETL をフルマネージドでサーバレスな環境に任せられるのは良いなと感じた.東京リージョンで GA になるのを待とう.任意のエディタで実装したときにデプロイはどうするんだろう?と思ったけど,プルリクをマージしたタイミングで S3 に保存して,AWS CLI で S3 からデプロイすることはできそうなので,現実的な運用を考えると,そういう感じになりそうだなとは思った.
(資料公開待ち)
参考までに re:Invent 2016 の Glue のセッション動画を載せておく.
まとめ
- 全体的にエンタープライズな参加者が多く,引き続きクラウドの注目度は高いんだなと感じた
- 「第2回 Aurora 事例祭り」で発表ができて良かった!すごく楽しかった!
- もっともっと Aurora を活用して,また違う事例を紹介できるように頑張っていきたいと思う
関連記事
今日の発表資料では割愛した技術的負債部分などは Developers Blog にまとめてあるので合わせて読んで頂ければと!
5月末にも Aurora 移行関連の LT をした!
今日紹介した Fluentd でスロークエリを Amazon ES に転送する話は以下の記事に詳しくまとめてある!