PostgreSQLによるデータ分析ことはじめ

Copyright©2016 NTT corp. All Rights Reserved.
PostgreSQLによるデータ分析
ことはじめ
2016/12/03
PGConf.asia 2016 チュートリアル
NTT OSSセンタ DBMS担当
⼤⼭真実

2Copyright©2016 NTT corp. All Rights Reserved.
⾃⼰紹介
⼤⼭真実
おおやままさのり
2012-2015
NTTデータ OSSプロフェッショナルサービス
Hadoopの検証・サポート
2015-現在
NTT OSSセンタ DBMS担当
PostgreSQLの検証・サポート
注）データ分析の専⾨家ではありません！
@ooyamams1987

• PostgreSQLに関して、データ分析という観点で幅広
いトピックを扱います。
• 時間の制約上⼀つ⼀つを深く触れることはできません。
• この講義がこれから皆様がPostgreSQLを⼗⼆分に使
いこなしていく上での⼊り⼝になれば幸いです。
• もし後⽇ご質問があれば、JPUGのSlackにてご質問く
ださい。
はじめに
⽇本PostgreSQLユーザ会公式(?)Slack
https://postgresql-jp.slack.com/

はじめに
PostgreSQLはデータ分析にも適したデータベースである！
l ⾼機能なSQL
l ⼤量データに対応するための機能
• 9.6 からは念願のパラレルクエリが導⼊！
l 豊富な関連ツール
l 他のDBとの連携機能
OSSだから今すぐ始められる！

はじめに
今時データ分析と⾔えば、HadoopとかSparkでは？
本当に“ビッグ”なデータを分析したいのであればその通り。
・画像、映像
・IoT機器からのセンサーデータ
・⼤量のWebアクセスログなどなど。

はじめに
Q. 分析したいデータはHadoopを使わなきゃいけないほどのサイズ？
企業に存在するデータはそんなに⼤きくない（かも？）
平成27年版情報通信⽩書
図表5-4-3-9 各データを分析に活⽤している企業等の割合
https://data.cityofnewyork.us/view/gn7m-em8n
2014 Yellow Taxi Trip Data
NYの１年分のタクシーの
搭乗ログでも30GBほど。

はじめに
データ活⽤の効果があった企業の特徴として次の特徴が挙げられている
「平成27年版情報通信⽩書」によると…
図表 5-4-3-18 データ活⽤の効果達成率

はじめに
１．データ分析の専⾨家が⾼度なツールを使って分析している
図表 5-4-3-23 分析⼿法、分析⼈材による効果が得られた割合の⽐較

はじめに
２．短い間隔でデータ分析を⾏っている
図表 5-4-3-20 効果有無による⽐較(分析頻度)

はじめに
３．様々な種類のデータを組み合わせてデータ分析を⾏っている
図表 5-4-3-21 効果有無による⽐較 (分析に活⽤するデータの種類)

はじめに
データ分析の専⾨家が、短い間隔で、様々なデータを組み合わせて
⾼度な分析を⾏うことが⼤事！
→PostgreSQLは良い選択肢です！
データ活⽤の効果があった企業の特徴
なぜ？

はじめに
PostgreSQLでデータ分析を⾏うときのポイント
１．⾼機能なSQLを使いこなせ！
２．⼤容量データへの対応はこうだ！
３．他のデータベースと連携させろ！
４．豊富なツールを使いこなせ！

１．⾼機能なSQLを使いこなせ！

⾼機能なSQLを使いこなせ！
1. 統計・集約関数
2. ウィンドウ関数
3. CTE (With句)
省略！
きっとそーだいさんが話してくれるはず！

３．CTE (With句)
SELECT ...
FROM (SELECT ...
FROM t1
JOIN (SELECT ... FROM ...) a
ON (...)
) b
JOIN (SELECT ... FROM ...) c ON (...)
データ分析で使いがちな複雑な
⼊れ⼦構造のSQLでもわかりやすく
記述可能
WITH a AS (
SELECT ... FROM ...
), b AS (
SELECT ...
FROM t1 JOIN a ON (...)
), c AS (
SELECT ... FROM ...
)
SELECT ... FROM b JOIN c ON ...
CTEなし
CTEあり
t1
a
(select...)
b
t1 × a
c
(select...)
result

２．⼤容量データへの対応はこうだ！

⼤容量データへの対応はこうだ！
1. パラレルクエリ
2. パーティショニング
3. BRINインデックス
4. ストリーミングレプリケーション

１．パラレルクエリ
澤⽥雅彦「PostgreSQL 9.6 新機能紹介」
http://www.slideshare.net/masahikosa
wada98/postgresql-96-69228794

• HPE ProLiant DL580 GEN9
• Intel Xeon E7-8890 v4 2.20GHz (4P/192 core (96-HT))
• 2TB RAM
• Workload Accelerator(PCIe SSD)
• Read : 715,000 IOPS, 3.0GB/s
• Write : 95,000 IOPS, 2.5GB/s
Evaluation on a great machine
Supported by
Thank you!

0
50
100
150
200
250
300
350
400
0 20 40 60 80 100 120 140 160 180 200
ExecutionTime(s)
Parallel Degree
Parallel Query on 192 cores machine
• All table data(400GB) is on the shared buffer; no disk access.
• Simple aggregation, count(*).
• Parallel query makes aggregation 19x faster!!
385 sec
21 sec

3,006
3,966
8,272
40
6,000
28 177
1,029
2,111
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
SF1 SF10 SF50 SF100
TotalExecutionTime(sec)
Hive PostgreSQL 9.1.3 PostgreSQL 9.6.0
• Compare DBT-3 benchmark result with Hive (SF1 - SF100)
• Hive flushes data to disk whenever finished each job, which could be overhead.
• Now in 2016 we should use Hive on Tez.
• On the other hand, PostgreSQL has the all table data in shared buffer.
• Parallel execution in memory bring us much performance improvement.
SF1 to SF100
- CDH4.1.2
- 24 cores (12-HT)
- 32G RAM
- 2TB SATA
- PostgresSQL 9.1.3
- 8 cores (4-HT)
- 16G RAM
- SATA

２．パーティショニング
PGECons「2013年度活動成果報告」
https://www.pgecons.org/wp-
content/uploads/2014/05/ca3a0b2d4d
00c62d43aa367594a72589.pdf

https://www.pgecons.org/wp-content/uploads/2014/05/ca3a0b2d4d00c62d43aa367594a72589.pdf
content/uploads/2014/05/ca3a0b2d4d
00c62d43aa367594a72589.pdf

メリット
デメリット
• (パーティション単位での)参照性能向上
• テーブルの保守性向上（⼀部の場⾯において）
• INSERT性能の低下、ON CONFLICT句との併⽤時の制約
• 別のパーティションに移るようなUPDATEにはUPDATE⽤の
トリガを別途する必要あり
• プランニングコスト上昇
（パーティション数は100までを推奨）
• 複雑なクエリだと不適切なプランになる可能性がある
（チェック制約は単純なものにすることを推奨）
詳細はPostgreSQLの公式マニュアルを参照してください
https://www.postgresql.jp/document/9.5/html/ddl-partitioning.html

図 6.1: パーティション表作成フロー
パーティションの作成はちょっと大変
content/uploads/PGECons/2015/WG3/
PGECons_2015_WG3_DBTools.pdf

パーティショニングを簡単に操作するためのツール
• pg_part
https://github.com/uptimejp/pg_part
• pg_partman
https://github.com/keithf4/pg_partman
• pg_pathman
https://github.com/postgrespro/pg_pathman
pg_part, pg_partman に関してはPGEConsに詳細な解説資料あり。
• 2015年度WG3活動報告書（データベースツール編）
content/uploads/PGECons/2015/WG3/PGECons_2015_WG3_DBTools.pdf
• 付録_パーティションツール
content/uploads/PGECons/2015/WG3/PGECons_2015_WG3_DBTools_appendix_chapter6.pdf

pg_pathman
Pg_pathman UPDATE and DELETE Support and Benchmark
Alexander Korotkov「Pg_pathman
UPDATE and DELETE Support and
Benchmark」
http://akorotkov.github.io/blog/2016/0
3/18/pg_pathman-update-delete-
benchmark/

PostgreSQL本体機能としてのパーティション機能は
NTT OSSセンタの Amit Langote
が全⼒開発中！
PostgreSQL 10 をお楽しみに！

３．BRINインデックス
澤⽥雅彦「 PostgreSQL 9.5 新機能紹介」
http://www.slideshare.net/hadoopxnttd
ata/postgresql-95-new-features-nttdata

http://www.slideshare.net/hadoopxnttdata/postgresql-95-new-features-nttdata

0.00% 20.00% 40.00% 60.00% 80.00% 100.00%
0
5000
10000
15000
20000
BRIN vs. BTREE
Bitmap Index Scan on 100M rows (table sorted)
BTREE BRIN (128) BRIN (4)
fraction of table matching the condition
duration[miliseconds]
Tomas Vondra「PostgreSQL9.5,9.6,次期バージョンに
おける性能向上」http://www.pgconf.asia/JP/wp-
content/uploads/2016/12/performance-9.5-and-
beyond.pdf

btree BRIN (1) BRIN (4) BRIN (128)
0
500
1000
1500
2000
2500
2142
11 2.8 0.13
BRIN vs. BTREE
Index size on 100M rows (sorted)
size(MB)
http://www.pgconf.asia/JP/wp-
content/uploads/2016/12/performance-9.5-and-beyond.pdf
Tomas Vondra「PostgreSQL9.5,9.6,次期バージョンに
おける性能向上」http://www.pgconf.asia/JP/wp-
content/uploads/2016/12/performance-9.5-and-
beyond.pdf

Copyright © NTT COMWARE CORPORATION 2015
Copyright © 2015 NTT corp. All Rights Reserved.
開発プロジェクトの最大のミッション
最大のミッション、それは「性能の担保」
大量データの計算処理を確実に時間内で完了しつつ、処理時間の安定化も図れ
大規模な分析処理を行いつつ、関連システムからのオンライン処理をさばけ
6
DBMS
• 業務データ
• 過去履歴
• ...など
仮想化基盤
分析業務利用者
関連システム群
オペレータ
夜間帯
バッチ処理
日中帯
オンライン処理
情報分析処理
時間帯
処理内容
夜...
バ...
AP
情報分析処理
AP
バッチ処理AP
４．ストリーミングレプリケーション
朝倉佑貴,⼭⽥達朗「料⾦系基幹システム
へのPostgreSQL導⼊事例」
content/uploads/2015/09/PGECons3_N
TT_20150911.pdf

https://www.pgecons.org/wp-content/uploads/2015/09/PGECons3_NTT_20150911.pdf

https://www.pgecons.org/wp-content/uploads/2015/09/PGECons3_NTT_20150911.pdf
性能特性の異なる業務が互いに影響しないよう設計せよ
12
常に最新のデータに対して大規模分析処理を行いたい
でも、オンライン処理の性能に影響を与えたくない
ストリーミングレプリケーションで分析処理用のリードレプリカを構築
情報分析処理
AP
AP
バッチ処理AP
マスタ
リード
レプリカ
レプリケーション
DBが2つに分かれ
分析処理が
オンライン処理に
影響しない
DBが2つに分かれ
分析処理が
オンライン処理に
影響しない
レプリケーションで
最新データに対する
分析処理が可能
レプリケーション処理
によって、分析処理の
SQLが実行中に中断
されないよう設定(*)
する必要あり
レプリカ側で
テーブルへのデータ反映処理が
全く進まなくなった!!
NTT OSSセンタの助力もあり
無事解決
対処策は後半で

WAL適用と競合する参照クエリとは何か？
◆競合の典型的な例クエリ実行中に行削除が行われた場合
40
リード
レプリカ
①SELECT * FROM
HOGE;
②DELETE FROM
HOGE;
VACUUM HOGE;
⑤WAL適用
参照中のHOGEテーブル
に対し、WALはデータ
削除、と記載。
１つの対象に操作が２つ。
→ これが競合
③WAL転送
内容はHOGEテーブルの行削除(物理削除)
競合発生の場合、 WAL適用が優先されるため、
実行中の参照クエリは中断される。競合は回避できないか？
マスタ
④SELECTのクエリを中断
TT_20150911.pdf

フィードバックのパラメータを追加し解決へ！
◆本案件では以下のパラメータを組み合わせて採用
44
max_standby_streaming_delay=30秒 → -1
WALが到着してから何秒後にWAL適用を開始するかを設定する。
-1 ：クエリ完了までWAL適用は行わない
リードレプリカ側はクエリ中断を回避しつつ、
データ反映処理が行われるようになり、課題は解決
hot_standby_feedback=OFF → ON
トランザクションIDをマスタに伝え、参照する可能性がある行の削除を待ってもらう。
ON ：有効
追加
※マスタのテーブルの肥⼤化に注意
TT_20150911.pdf

マルチ同期レプリケーション
マスタ
スタンバイ
A
スタンバイ
B
スタンバイ
C
同期
同期
⾮同期
• 複数のスタンバイサーバに対して同期レプリケーションを使用可能
• より高可用な構成を組むことが可能に
スタンバイAとスタンバイBに
同期レプリケーションを使⽤
PostgreSQL 9.6 ではレプリケーション機能がさらに進化！

Quorum Commit マルチ同期レプリケーション機能は
NTT OSSセンタの澤⽥雅彦
が全⼒開発中！

３．他のデータベースと連携させろ！

他のデータベースと連携させろ！
http://www.slideshare.net/babystarmonja/postgre-sql-11764943?from_action=save
・FDW - Foreign data wrappers
PostgreSQLの外部にあるデータに普通のSELECT⽂でアクセスするためのしくみ
花⽥茂「外部データラッパによる
PostgreSQL の拡張」
http://www.slideshare.net/babystarmo
nja/postgre-sql-
11764943?from_action=save

Postgres_fdw
file_fdw
については、PostgreSQL本体の追加モジュール(contrib)として
提供されているのですぐに利⽤可能。
# create extension postgres_fdw;
CREATE EXTENSION
※postgres_fdwではCREATE FOREIGN DATA WRAPPER は⾃動的に実⾏される
# ¥dew
外部データラッパーの一覧
名前 | 所有者 | ハンドラー | バリデータ
--------------+----------+----------------------+------------------------
postgres_fdw | postgres | postgres_fdw_handler | postgres_fdw_validator

ローカルPostgreSQL
リモートPostgreSQL リモートMySQL
PostgreSQL⽤外部データラッパ
# CREATE EXTENSION postgres_fdw;
(CREATE FOREIGN DATA WRAPPER …)
MySQL⽤
外部データ
ラッパ
外部サーバ
CREATE SERVER …
リモートサーバのホスト名、DB名、ポート番号など
ユーザーマッピング
CREATE USER MAPPING …
リモートサーバで使⽤する
ユーザ名、パスワードなど
外部テーブル
CREATE FOREIGN TABLE …
アクセスしたいリモートサーバの
テーブルを定義

Demo various pushdown features etc.
======================================================================
1. Select 句ののプッシュダウン
select * from ft1; ローカルサーバから外部テーブルにSELECT
2. Where 句のプッシュダウン
select * from ft1 where val < 10; -- WHERE clause pushdown
3. DML プッシュダウン
delete from ft1 where val % 2 = 0; -- DML pushdown
update ft1 set val2 = val + 2;
4. Sortプッシュダウン
select * from ft1 order by val;
PGCon 2016 で⾏われた Ashutosh Bapat のチュートリアル
https://www.pgcon.org/2016/schedule/attachments/419_pgfdw_demo_script
FDWの設定⼿順は上記URL、または、PostgreSQLの公式マニュアルを参照。

6. Joinプッシュダウン
select * from ft1 join ft2 on (ft1.val = ft2.val) where ft1.val2 < 15;
※ローカルのテーブルとリモートのテーブルのJoinも可能
7. Analyze 実行
analyze ft2;
select * from pg_statistic where starelid = 'ft2'::regclass;
※Analyze対象の全データをローカルPostgreSQLに転送することに注意
8. View、Materialized Viewの作製
create view ft_join
as select ft1.val ft1_val, ft1.val2 ft1_val2, ft2.val2 ft2_val2
from ft1 left join ft2 on (ft1.val = ft2.val);
create materialized view mv_ft_join
as select ft1.val ft1_val, ft1.val2 ft1_val2, ft2.val2 ft2_val2
from ft1 left join ft2 on (ft1.val = ft2.val);
select * from ft_join;
select * from mv_ft_join;
PGCon 2016 で⾏われた Ashutosh Bapat のpostgres_fdwチュートリアル
https://www.pgcon.org/2016/schedule/attachments/419_pgfdw_demo_script

分析に必要なデータはRDBの中にある場合が多い。
→必要なデータを保持しているDBに透過的に直接アクセス！
基幹DB
データソース
SQL
ユーザー
基幹DB
基幹DB
BIツール
PostgreSQL
FDW
FDW
FDW

http://www.slideshare.net/masahikosawada98/postgresql-96-69228794

FDWは
NTT OSSセンタの
藤⽥悦郎
堀⼝恭太郎
⼭⽥達郎
も全⼒開発中！

４．豊富なツールを使いこなせ！

豊富なツールを使いこなせ！
ここではデータ分析の観点で以下のツールをご紹介する。
1. Apache MADlib (Incubating)
2. その他
1. Orange
2. PostGIS
3. ⽇本語全⽂検索ツール
PostgreSQLをより便利にする多様なツールが
様々な組織・個⼈によって公開されている。
参考：NTT OSSセンタが公開しているPostgreSQL関連のOSSはこちら
NTT OSS Center DBMS Development and Support Team
https://github.com/ossc-db
https://sourceforge.net/projects/pgstatsinfo/

１．Apache MADlib (Incubating)
http://madlib.incubator.apache.org/

・オープンソースソフトウェア（2-clause BSD license）
・豊富な統計・機械学習ライブラリをUDF(※)で簡単に利⽤可能
https://cwiki.apache.org/confluence/display/MADLIB/Architecture
※UDF：ユーザ定義関数
https://www.postgresql.jp/document/9.5/html/xfunc.html
http://pgsqldeepdive.blogspot.jp/2016/01/plpython-aggregation-function.html

http://madlib.incubator.apache.org/community-artifacts/Apache-
MADlib-user-survey-results-Oct-2016.pdf

http://madlib.incubator.apache.org/community-artifacts/Apache-
MADlib-user-survey-results-Oct-2016.pdf
11
Q5 - Frequently Used Algorithms

インストールは省略！
・PostgreSQL 9.6 へのインストールはソースコードからの
ビルドがお勧め。（RPMからはインストールできませんでした。私の環境起因？）
・PostgreSQL 9.5 へのインストールはRPMがお勧め。
https://cwiki.apache.org/confluence/display/MADLIB/Installation+Guide
Installation Guide
https://dist.apache.org/repos/dist/release/incubator/madlib/1.9.1-incubating/
# select madlib.version();
version
--------
MADlib version: 1.10.0-dev, git revision: rel/v1.9.1-8-g82e56a4,
cmake configuration time: ...

例１：相関係数
# select * from pearson_test;
ItemID | User1 | User2 | User3 | User4 | User5
--------+-------+-------+-------+-------+-------
101 | 5.0 | 2.0 | 2.5 | 5.0 | 4.0
102 | 3.0 | 4.4 | 2.0 | 4.0 | 3.0
103 | 2.5 | 5.0 | 2.0 | 3.0 | 2.0
104 | 4.0 | 1.0 | 4.0 | 4.5 | 4.0
105 | 2.5 | 5.0 | 2.5 | 2.0 | 3.5
106 | 2.5 | 4.5 | 3.0 | 4.0 | 5.0
107 | 2.5 | 1.0 | 5.0 | 3.5 | 2.0
# select corr("User1","User4") from pearson_test;
corr
-------------------
0.769711105935245
例１１. PostgreSQL本体の相関係数関数を使った場合

例１：相関係数
# select madlib.correlation( 'pearson_test’,'pearson_test_output’
,'"User1","User2","User3","User4","User5"');
# select * from pearson_test_output;
column_position | variable | User1 | User2 | User3 | User4 | User5
-----------------+----------+---------------------+--------------------+-------------------+-------------------+-------
1 | User1 | 1 | | | |
2 | User2 | -0.546929577338552 | 1 | | |
3 | User3 | -0.0377195470232912 | -0.79465632134891 | 1 | |
4 | User4 | 0.769711105935245 | -0.582961865158075 | 0.149966529063513 | 1 |
5 | User5 | 0.364518243177598 | 0.0260498161861346 | -0.10096620601608 | 0.410984968442742 | 1
例１2. MADlibの相関係数関数を使った場合
select madlib.correlation(
‘インプットテーブル名’
,‘アウトプットテーブル名’
,’”相関を求めたいカラム名”, “…”, “…”ʼ);

例２：サポートベクターマシン（SVM） Ver.1.9.0 からの新機能！
• サポートベクターマシンとは？
http://qiita.com/pesuchin/items/c55f40b69aa1aec2bd19
Ø 教師あり学習を⽤いるパター
ン認識モデルの⼀つ。
Ø 分類や回帰へ適⽤。
Ø 現在知られている⼿法の中で
も認識性能が優れた学習モデ
ルの⼀つ。
pesuchin「機械学習⼊⾨〜ハードマー
ジンSVM編〜」
http://qiita.com/pesuchin/items/c5
5f40b69aa1aec2bd19

例２：サポートベクターマシン（SVM）
• カーネルトリック
Ø カーネル関数を⽤いてパターンを有限もしくは無
限次元の特徴空間へ写像し、特徴空間上で線形分
離を⾏う
pesuchin「機械学習⼊⾨〜ハードマー
ジンSVM編〜」
http://qiita.com/pesuchin/items/c5
5f40b69aa1aec2bd19

• カーネルトリックのイメージ
「SVM with polynomial kernel visualization」
https://www.youtube.com/watch?v=3liCbRZPrZA

例２１. まずはマニュアルに記載の例を試してみる
id tax bedroom bath price size lot
1 590 2 1.0 50000 770 22100
2 1050 3 2.0 85000 1410 12000
3 20 3 1.0 22500 1060 3500
4 870 2 2.0 90000 1300 17500
5 1320 3 2.0 133000 1500 30000
6 1350 2 1.0 90500 820 25700
7 2790 3 2.5 260000 2130 25000
8 680 2 1.0 142500 1170 22000
9 1840 3 2.0 160000 1500 19000
… … … … … … …
houseテーブル
https://madlib.incubator.apache.org/docs/latest/group__grp__svm.html
• bedroom, bath , size など
の情報から、price が
100,000 以下の物件かどう
かを推測する。
• マニュアルではカーネルトリ
ックを使わないもの、使った
ものがそれぞれが例⽰されて
いる。

• リニアモデル作成(カーネル不使⽤)
SELECT madlib.svm_classification('houses',
'houses_svm',
'price < 100000',
'ARRAY[1, tax, bath, size]');
• ガウスカーネルを使ったノンリニアモデル作成
SELECT madlib.svm_classification( 'houses',
'houses_svm_gaussian',
'price < 100000',
'ARRAY[1, tax, bath, size]',
'gaussian',
'n_components=10',
'',
'init_stepsize=1, max_iter=200');
• 予測モデル作成

• リニアモデルによる予測結果
select * from houses_pred;
id | prediction | decision_function
----+------------+--------------------
1 | t | 0.0938672144797545
2 | t | 0.134445050268981
3 | t | 1.90320546662703
...
• 作成したモデルを使って予測してみる
• リニアモデルによる予測（元データを流⽤して実施）
SELECT madlib.svm_predict('houses_svm',
'houses',
'id',
'houses_pred');

• 予測結果の⽐較
SELECT *, price < 100000 AS target FROM houses
JOIN houses_pred USING (id) ORDER BY id;
id price prediction decision_function observed
1 50000 True 0.0938672144798 True
2 85000 True 0.134445050269 True
3 22500 True 1.90320546663 True
4 90000 True 0.34410006693 True
5 133000 False -0.314618105199 False
6 90500 False -1.53502545094 True
7 260000 False -2.5421155107 False
8 142500 True 0.608110606339 False
9 160000 False -1.49051126913 False
… … … … …
id price prediction decision_function observed
1 50000 True 2.42762512244 True
2 85000 True 1.76050726948 True
3 22500 True 1.14044931256 True
4 90000 True 1.10706143597 True
5 133000 False -1.26570595537 False
6 90500 True 1.33794522323 True
7 260000 False -1.0164054774 False
8 142500 False -1.09640506629 False
9 160000 False -1.92695648532 False
… … … … …
リニアモデルによる予測結果ノンリニアモデルによる予測結果

• AUC (Area under the curve) による識別性能の⽐較
select madlib.area_under_roc('houses_pred_roc',
'houses_pred_roc_output',
'prediction',
'observed');
area_under_roc
0.79464285714285714285500000000000000000000
• リニアモデル
select madlib.area_under_roc('houses_pred_gaussian_roc',
'houses_pred_gaussian_roc_output',
'prediction',
'observed');
• ノンリニアモデル
area_under_roc
1.00000000000000000000000000000000000000000

例２２. ： UC Irvine Machine Learning Repository - Adult Data Set
http://archive.ics.uci.edu/ml/datasets/Adult
• 1994年の国勢調査に基づくデータ
• 性別、年齢、学歴、職種などの情報に加えて、所得が$50K/年を
超えているかいないかが記録されている
• 属性情報からその⼈の所得が$50K/年を超えているかを予測する
ためによく使われるデータセット
SVMを使った試⾏錯誤の詳細は下記URLで！
https://github.com/ooyamams/pgconf.asia_tutorial

例２２. ： UC Irvine Machine Learning Repository - Adult Data Set
http://archive.ics.uci.edu/ml/datasets/Adult
SVMを使った試⾏錯誤の詳細は下記Githubで！
https://github.com/ooyamams/pgconf.asia_tutorial/blo
b/master/MADlib_test_SVM_adult.ipynb

使ってみた感想
• UDFを⾃分で作成せずに、PostgreSQL内のデータに対して⾼度な分
析や機械学習ができるのは⼤変魅⼒的。
• ただし…
Ø ⼩さいデータであれば、DBからロードして、ローカルPCにて
PythonやらRやらで分析したほうが効率的であるのは確か。
（Pythonの機械学習系のライブラリの充実度は素晴らしい）
Ø サポートベクターマシンを本格的に使うとなるとパラメーター
チューニングが⼤変。グリットサーチやベイズ最適化などの
ツール類がまだ存在しない(たぶん)なので追加されることを期
待。（クロスバリデーションはできる。）

• GPL 3.0
• スロベニアのリュブリャナ⼤学バイオインフォマティクス研究所が中
⼼となって開発
• AXLE PROJECT で開発が推進されたソフトウェアの⼀つ
(Advanced Analytics for Extremely Large European Databases)
２．その他のツール
http://orange.biolab.si/orange3/

• PostGIS http://www.postgis.net/
Ø PostgreSQL データベースで地理空間情報を扱うための拡張
Ø ⽇本語による紹介記事
http://lets.postgresql.jp/documents/tutorial/PostGIS/1/
• ⽇本語全⽂検索ツール
Ø pg_bigm http://pgbigm.osdn.jp/
Ø PGroonga https://pgroonga.github.io/ja/
pg_bigmの開発者である澤⽥雅彦による⽇本語全⽂検索の解説
http://www.slideshare.net/hadoopxnttdata/postgresqlpgbigm
-mysqlpostgresql

最後に改めて…
データ分析の専⾨家が、短い間隔で、様々なデータを組み合わせて
⾼度な分析を⾏うことが⼤事！
→PostgreSQLは良い選択肢です！
データ活⽤の効果があった企業の特徴

PostgreSQLによるデータ分析ことはじめ

More Related Content

PostgreSQLによるデータ分析ことはじめ