継続は力なり

タイトル通り定期的な更新を心掛けるブログです。

『Data Engineering Study #1 』でデータ分析基盤の活用で必要なアクションとデータ活用の実例を聞いた

タダです.

クラウドサービスの活用が増えていく中で企業の扱うデータは増えていって,そのデータを活用できるかって企業活動においてすごく大事だと感じてデータ分析に興味を持ったのですが,データ分析基盤の勉強会「Data Engineering Study #1 」が開催されたので参加してきました.今回の記事では発表を聞いて感じたことをまとめていきます.

forkwell.connpass.com

イベント概要

本イベントでは、ゆずたそ氏( @yuzutas0 )にモデレーターを依頼し、複数回にわたって、各回テーマに沿った内容で各分野でご活躍されているエンジニア/研究者に講演いただきます。

また、講演後には視聴者の方も参加できる二次会会場(Zoom)を用意しています。登壇者と共にデータエンジニアリングに関する学びを深めましょう。

本編動画

当日のツイートまとめ togetter.com

内容

基調講演「Data Platform Guide - 事業を成長させるデータ基盤を作るには

個人的な大ファンである yuzutas0 さん( id:yuzutas0 )の発表でした.僕がデータ分析基盤に関わりたいと思ったのは yuzutas0 さんの下記のエントリーを見たのがきっかけだったりしたので,楽しみでした.

yuzutas0.hatenablog.com

発表は既に発売されている Software Design の記事をベースにされています.発表では企業の中で使われるデータ基盤を作って運用していくための視点とアクションを聞くことができたなと感じました.特に,利用者のニーズと利用シーンに目を向けて利用する人が使ってもらえるように一緒にツールを試したり,提供するデータ基盤のサービスレベルを合意形成していくというメッセージが納得できました.yuzutas0 さん曰くデータ基盤での取り組みは,利用者の目線に立ってテクノロジーを組み合わせていく総合格闘技だというのが今後データ分析に関わりたいと思っている僕にとって胸に刻んでいきたいです.

発表とは別ですが,yuzutas0 さんが執筆されたデータマネジメント本は Kindle Unlimited に加入していれば無料で読めるのですが,データマネジメントに関する知識とアクションをサクッと勉強できるなと感じたので興味ある方は手にとってみてはどうでしょうか?オススメの一冊です!

www.amazon.co.jp

発表資料

事例紹介1「ZOZOTOWNの事業を支えるBigQueryの話」

続いて,ZOZO テクノロジーの塩崎さんの発表でしたが,発表冒頭からロビンマスクが出てきてむちゃくちゃ笑いましたw ごはんですよの人もやられているそうです🍚

発表はデータの基盤として最初は Redshift を使っていたけど BigQuery に置き換えてからの運用のお話と社内での BI ツールの利用例を聞けました.BigQuery の運用話で面白かったのがクエリを投げすぎてお金がかかっていた時に講習をしたり,セキュリティ面での対策は GCP ならではの対応が興味深かったです.yuzutas0 さんの発表でもありましたが,利用者によって BI ツールが様々だっていうお話の通りで ZOZO さんの中でも PowerBI,Looker,Redash,Google Spreadsheet といった各種のツールが利用者によって異なっていているそうです.中でも Looker はよく名前を聞いていたのですが,LookML や LookML のクエリを GitHub で管理してよろしくないクエリを見つけたりといったガバナンスを効かすために使っているというのが BI ツールの利用目的で考えで初めて聞いて驚きでした.

Looker 関連記事 techblog.zozo.com

また,ZOZO さんでは AI の活用が増えてきており鮮度の良いデータを提供して欲しいというところからリアルタイム系のデータ基盤を仕掛かり中とのことです.こちらも気になります.

発表資料

関連資料と記事

codezine.jp

事例紹介2「freeeのデータ基盤におけるDWH/BIの運用事例紹介」

最後に,freee の中山さんの発表で DWH として Redshift,BI として Redash を使っているお話でZOZO テクノロジーさんの事例とはまた違った面白さがありました.個人的に発表で扱われませんでしたが,割愛された一部に使われている GCP や LakeFormation を使って IAM ロールやユーザーベースでカラムレベルのアクセス制御しているお話は気になりました.

Redshift の運用ではデータはマスク処理したり,カラム選別していたり,時に利用者が入れてしまった個人情報データも適切な形にクレンジングしているそうです.コスト面,集計処理の回しやすさ,S3 との連携しやすさがある一方,キャパシティプランニング(気づいたらディスク容量を 100% になっていたりするそうです...)やテーブルのチューニングが必要で苦労する場面もあるようです.Redash の運用において EC2 on Docker で動いていて Mackerel で監視しているようです.組織的に素敵だなと思ったことが freee さんではどの部門の人でも SQL をかけることが求められているからだと思うのですが,変なクエリが少なく運用の負担軽減に繋がっているとのことです.使ってもらえるようになるためには利用者のクエリサポートも必要だなと感じました.

今後の課題に Redshift の ra3 インスタンスタイプを試したり,データカタログの整備や ETL 周りのレガシーな部分をリファクタリングしていきたいとのことでした.Redshift の新しいインスタンスタイプは直近出たばかりなんですね.キャッチアップできてませんでした.

aws.amazon.com

発表資料

まとめ

「Data Engineering Study #1 」で聞いた発表ごとに所感をまとめていきました.データ基盤に特化した勉強会ってそうなかったので組織内でのデータの活用の進め方と活用事例を聞けてとても勉強になりました.既に第2回もイベントが公開されているので興味ある方はぜひ参加を検討してみてはいかがでしょうか?📊

forkwell.connpass.com