Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ディメンショナルモデリングのすすめ
Search
Ojima Hikaru
July 27, 2018
Technology
7
4.5k
ディメンショナルモデリングのすすめ
Developer Summit 2018 Summer
Ojima Hikaru
July 27, 2018
Tweet
Share
More Decks by Ojima Hikaru
See All by Ojima Hikaru
Podのオートスケーリングに苦戦し続けている話
ojima_h
1
270
モンスターストライクを支えるデータ分析基盤と準リアルタイム集計
ojima_h
6
5.6k
データ分析基盤の変遷とデータレイクの作り方
ojima_h
1
1.8k
Other Decks in Technology
See All in Technology
30分でわかる「リスクから学ぶKubernetesコンテナセキュリティ」/30min-k8s-container-sec
mochizuki875
3
450
AWSマルチアカウント統制環境のすゝめ / 20250115 Mitsutoshi Matsuo
shift_evolve
0
120
EMConf JP の楽しみ方 / How to enjoy EMConf JP
pauli
2
150
「隙間家具OSS」に至る道/Fujiwara Tech Conference 2025
fujiwara3
7
6.6k
今から、 今だからこそ始める Terraform で Azure 管理 / Managing Azure with Terraform: The Perfect Time to Start
nnstt1
0
250
Unsafe.BitCast のすゝめ。
nenonaninu
0
200
CDKのコードレビューを楽にするパッケージcdk-mentorを作ってみた/cdk-mentor
tomoki10
0
210
embedパッケージを深掘りする / Deep Dive into embed Package in Go
task4233
1
220
My small contributions - Fujiwara Tech Conference 2025
ijin
0
1.5k
Formal Development of Operating Systems in Rust
riru
1
420
トラブルシュートを楽しもう (wakamonog meeting 15)
recuraki
1
330
iPadOS18でフローティングタブバーを解除してみた
sansantech
PRO
1
150
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
46
7.2k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
The Pragmatic Product Professional
lauravandoore
32
6.4k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
The World Runs on Bad Software
bkeepers
PRO
66
11k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.4k
Optimising Largest Contentful Paint
csswizardry
33
3k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
How GitHub (no longer) Works
holman
312
140k
Side Projects
sachag
452
42k
Transcript
©XFLAG ディメンショナル モデリングの勧め
©XFLAG About Me 生島 光 株式会社ミクシィ XFLAG スタジオ 解析グループ データ分析基盤の開発・運用
GitHub: ojima-h Twitter: @ojima_h Facebook: hikaru.ojima
©XFLAG © XFLAG
©XFLAG 今日話すこと 使いやすいデータウェアハウス を手に入れるために ディメンショナル・モデリング を取り入れてみたお話
©XFLAG Why Dimensional Modeling?
©XFLAG BEFORE DB App Redshift APIログ 抽出 そのまま 分析チーム 依頼
作業待ち
©XFLAG BEFORE DB App Redshift APIログ 抽出 そのまま 分析チーム Zeppelin
©XFLAG ステージのクリア数を数え たいんだけど それなら striker_stages っていうテーブルの state が 2 になってる行を数え
ればいいですよ なにそれ意味わかんない state の詳しい説明は サーバーの仕様書に書い てありますよ
©XFLAG PROBLEM • 仕様書を読まないと分析できない
©XFLAG ステージのカテゴリごとの プレイ数を数えたいんだ けど それなら stage_flag って いうカラムの 1ビット目を見たらわかり ますよ
なにそれ意味わかんない 詳しいことは サーバーのコード読めば わかるんですけどね
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない
©XFLAG マルチプレイ数を数えたい んだけど それなら striker_stages テーブルを使えばいい ですね。 このテーブルは自己参 照テーブルになっている のでこのカラムで
Group By して自分自身 に結合クァwせdrftgyふ じこlp; ・・・
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造
©XFLAG キャンペーン施策のROI の算出に必要な値が欲し い 結構大変そうなので、ク エリのテンプレート作って 後で調整できるようにして おきますね
©XFLAG 300行くらいの SQL
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造 • 長すぎる
SQL
©XFLAG そうだ! サマリテーブルを作ろう!
©XFLAG 〇〇っていう分析がしたい わかりましたサマリテーブ ル作ります △△っていう分析がしたい この前作ったサマリテー ブルは使えなさそうです ね。 わかりましたサマリテーブ ル作ります
〜〜っていう分析がしたい この前作ったサマリテーブ ルは使えな(以下略
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 複雑なテーブル構造 • 長すぎる
SQL • 乱立する謎のサマリデータ
©XFLAG BI ツールは 助けてくれない
©XFLAG PROBLEM • 仕様書を読まないと分析できない • コードを読まないと分析できない • 長すぎる SQL •
複雑なテーブル構造 • 乱立する謎のサマリデータ Dimensional Modeling が 解決してくれるかも
©XFLAG Introduction to Dimensional Modeling
©XFLAG データ分析の流れ ETL 整形 ロード 要件定義 目的 分析手法 ゴール データ収集
サーバーログ DB 分析 Σ 自動化 Data Warehouse Data Lake
©XFLAG Data Warehouse ◦ すぐに分析に取りかかれるデータ ◦ どんな分析にも使える柔軟性 業務用データベースとは求められるも のが違う (e.g.
正規化 )
©XFLAG Dimensional Modeling Data Warehouse の要件に合わせたテーブル設計
©XFLAG Dimensional Modeling is... ◦ Ralph Kimball さんが 20年以上前に提唱した DWH
の設計手法
©XFLAG FACT DIMENSIONS DIMENSIONS DIMENSIONS DIMENSIONS イベント 状態 e.g. ゲームのプレイログ
FACTに対する 説明 e.g プレイした ステージに関する情報 DIMENSIONS Star Schema
©XFLAG 現実世界 FACT DIMENSIONS DIMENSIONS DIMENSIONS DIMENSIONS Dimensional Modeling
©XFLAG 設計の手順
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG ビジネスプロセス = お客さんに提供しているサービス・機能(仮) 例)「ゲームをプレイする」 ◦ ビジネスプロセスの内容を言語化 ◦ 使えるデータを確認
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG 粒度 対象のビジネスプロセスをどこまで詳細 なレベルで分析するのか ビジネスの言葉で表現 イベント ファクトテーブルの1行 ?
©XFLAG 粒度の例 1人のユーザーが 1回ゲームをプレイした
©XFLAG 粒度の例 マルチプレイの場合 vs. 3レコード ユーザー に関する分析 1レコード ゲームプレイ に関する分析
©XFLAG 粒度 粒度の決め方によって 分析できる事柄も、その後の設計も 全然変わってくる
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG Dimensions WHEN WHERE WHO WHAT WHY HOW about Facts
ビジネスの 言葉で
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG Facts イベントに対する計測値 e.g. ◦ ゲームのクリア時間 ◦ ゲームのスコア ◦ 購入した商品の値段
足したり掛けたりできるもの
©XFLAG 1. ビジネスプロセスを選ぶ 2. 粒度を決める 3. Dimensionテーブルを決める 4. Factテーブルを決める 4
Steps
©XFLAG メリット
©XFLAG Good Points ◦ クエリのパフォーマンスが向上 ◦ JOIN が少なくなるため ◦ 分析軸を柔軟に追加できる
◦ Dimension テーブルを好きなだけ拡張 ◦ データを理解しやすい ◦ ビジネスプロセスを反映したテーブル設計
©XFLAG ディメンションテーブルが充実 分析がパワーアップ
©XFLAG Good Points ◦ クエリのパフォーマンスが向上 ◦ JOIN が少なくなるため ◦ 分析軸を柔軟に追加できる
◦ Dimension テーブルを好きなだけ拡張 ◦ データを理解しやすい ◦ ビジネスプロセスを反映したテーブル設計
©XFLAG データの理解 業務システム システムの実装を表現 データウェアハウス ビジネスプロセスを表現 ステージ ステージ グループ 1
N ステージ 非正規化 ゲーム開始 ゲーム終了 LEFT JOIN ゲームプレイ
©XFLAG やってみた
©XFLAG 課題 ◦ データを理解するのが難しい ◦ 汎用的のないサマリテーブルたち
©XFLAG 作戦 できるところからちょっとずつ 重要なビジネスプロセスから順番に着手していっ た
©XFLAG 大事だったこと ビジネスプロセスの分析や 粒度をきちんと決めたこと Data Warehouse 全体の整合性を保つ ことができた
©XFLAG (参考) ◦ Enterprise Bus Matrix ◦ Confirmed Dimensions
©XFLAG 結果 ◦ シンプルなテーブル構造 ◦ 汎用的なサマリテーブル ◦ セルフサービスなデータ分析
©XFLAG 体感では ½ 〜 ⅓ くらい
©XFLAG 結果 ◦ シンプルなテーブル構造 ◦ 汎用的なサマリテーブル ◦ セルフサービスなデータ分析
©XFLAG つらかったこと
©XFLAG つらかったこと ◦ 設計するの大変 ◦ 時間がかかりすぎるリスク ⇒ 設計コストと得られるメリットの比較 生データとの併用も
©XFLAG つらかったこと ◦ Hive や Redshift などでは難しい部分も ◦ データ更新 ◦
実行効率 ⇒ 妥協も大事
©XFLAG 美味しいところだけ いただくの精神
©XFLAG https://www.amazon.co.jp/dp/B00DRZX6XS 参考
©XFLAG テーブル設計は基礎体力 日々の分析業務や 機械学習プロジェクトを 加速させる
©XFLAG Thank You
©XFLAG Credits Special thanks to all the people who made
and released these awesome resources for free: ◦ Icon made by Freepik from flaticon ◦ Photographs by Unsplash