Big data解析ビジネス

SIer も BigData 解析ビジネスに踏み出
そう

2012/10/27 #TokyoWebmining
＠ emmie_pp
もりみえ

免責事項

● 本プレゼンテーションにおいて示されている見解は、私個人の見解で
あり、 TIS （株）の見解を必ずしも反映したものではありません。ご
了承ください。

はじめまして

● もりみえ（ @emmie_pp ）　 TIS( 株）といいます

－元々はデータモデル／ DB 屋です
□ 議事録をデータモデルで描いたりします
□ 共著で本を書く機会を頂いたりもしました
□ 情報処理試験作成委員もやってます
－日々の仕事
□ BigData 、データ解析関連製品の評価検証
□ これを使った提案支援、 PJ 支援、事業企画

－性能対策の一貫で Hadoop に手をだしました

□ 「並列分散処理の常識を Hadoop ファミリから学ぶ」
□ 「いまさら聞けない KVS の常識を Hbase で身につける」
□ 「試すのが難しいー機械学習の常識は Mahout で変わる」
□ 「グラフ問題とバルク同期並列の常識を Giraph で体得」
□ 「バッチ処理の常識を AsakusaFW で身につける」
□ 「リアルタイム分散処理の常識を S4 で身につける」

今日はこんなことを話します
１．ビッグデータ解析への取り組み
－ユーザの課題のポイント
－ベンダーの取り組みのずれ

２． Mahout でのテキストマイニングをやってみた
－ソーシャルデータを使った加盟店分析
－性能問題の原因
－課題取組と再チャレンジ

BigData で色々提案してます

● メリット
－高価なハード不要で、バッチ性能が改善
－スケールアウトが容易
● デメリット
－ MapReduce へロジックをマッピング
－バッチ限定

BigData 事例も合わせてご紹介

● 性能改善に向けた技術提供＋ビッグデータ事例の紹介

名前効果利用例
１．見える化大量データを一度に「見れ・交通履歴から通行
る」可能道路の取得

２．概略・傾向の蓄積された膨大なデータから・顧客行動セグメン
取得（マイニン、テーション
グ）「隠れた関係性や規則性を
発見」
３．予測データから発見した規則を元・災害時被害予測
（マイニング＋に、次のアクションや事象を・リコメンド
機械が予測
α ）・利用実績に基づく
　不正利用検出

事例： 1. 見える化

● カーナビで収集した交通履歴から、交通可能道路を表示 (ITS Japan)
http://www.its-jp.org/saigai/

Honda/ パイオニア／トヨタ／日産の
プルーブ情報を元に作成
・ 15 分ごとに表示を更新
・個々のデータ精度は低い
・真に通行可能な道路が明らか

■ ビッグデータの可視化の課題
データが多いかつ多様な場合、
形をなさない

事例：２．概略・傾向の取得
● ソーシャルデータのテキストマイニングによる「特徴的な話題」のクラスタリング
－判断は人が行う

■ ビッグデータが「嬉しい」領域
・小さいデータだと難しい異常検知が、ビッグデータだとはっきり分かる
・小さいデータを見てても分からないパターン発見が、ビッグデータだと見
えやすい
　 ex. マウスとヒトのゲノム比較が、ビッグデータだとすごく簡単
・サンプルでは分からないクラスタリングが、ビッグデータだと小さな集合
でも発見できる「 VextMiner 」 http://www.qualica.co.jp/service/txt/marketing/dem
o1.html
「感 °Report 」 http://kandoreport.jp/work/work.html

事例：３ . 予測
● クレジットカードの不正利用検知　モデルの精度向上
－会員毎の利用パターンモデルを構築・更新し異常検知
□ 全会員の利用モデル作成、 Hadoop 導入により数週間から 13 分に (VISA)
http://www.publickey1.jp/blog/09/hadoophadoop_worldny_2009_1.html
・カード会員 5 億人
・トランザクション 1 億件 / 日
・過去のトランザクションで構築したモデル
に基づき、新たなトランザクションが不正利
用である可能性を判定する

ほかの事例：
・ユーザの購入履歴に基づいて商品を推奨
(Amazon など多数 )

・自販機カメラで顧客セグメント分析 (JR 東
日本ウォータービジネス
http://itpro.nikkeibp.co.jp/article/COLUMN/201
20123/379107/

■ ビッグデータになることで精度があがるメカニズムがある場合に有効
・元々機械学習はデータが少なくても、それなりに良い結果を出そうというアプ
ローチ
　　データが大きいことで、単純なモデルでも精度があがる（はず）
・「ビッグ」になることで、ファクタが増えるアソシエーション分析はあまり嬉しくない

いま一つ感触が
良くない

よもや、そろそろバズワード？「ビッグ・データ」

ベンダー側のビッグ・データに
対する取り組み熱は、最高潮。
反面、ユーザー企業の多くが自
社の戦略とビッグ・データの関
連性を見いだすに至っていない

http://www.gartner.co.jp/press/html/pr20121003-01.html
ガートナージャパン：日本におけるテクノロジのハイプ・サイクル（ 2012 年 10 月 3 日

ユーザのビッグデータへの課題
ビッグデータの 1 つの
目安である「 10TB 以
上」を持つのは全体 500 人未満の企業での
の約 28 ％（野村総 BI 導入状況 10%
研） Volume
（容量）

解析
New Value
BigData

Velocity Variety
（頻度・スピード）（多様性）
構造化データー各種基幹業務データ
HFT （ High 非構造化データー携帯端
Frequency 末、 SNS 、 Web 、センサーから得られる
Trading ）各種フォーマットのテキスト、ログ、画像
、動画、音声、位置
他は … ？
どうやって組み合わせる？

データを精査して、そこから新たな「価値仮説」を立て
る所が課題

ベンダーが示すビッグデータへのアプローチ
SSD 、 InfiniBand, 分散
キャッシュ、カラム指向
RDB 、 NoSQL 、 Hadoop 、
BI ／マイニングツールを
ストレージとの連携を強化
Volume
（容量）

解
析 New Value
BigData

Velocity Variety
（頻度・スピード）（多様性）

CEP 、リアルタイム分
散処理
FW （ S4 、 Storm)..
技術によるアプローチが困難な領域

そこは SIer の得意領域かも
● まずは顧客の持つ資産＝ビッグデータを紐解き、
　　業務の全体像（ボリュームを含む）を把握し、検討の俎上に載せられ
るように
することが先決たとえばデータモデルで …

AsIs 先行型
ToBe 先行型

　　概念
モデル
概念クラス図概念クラス図

論理・物理
モデル
物理現行データモデル物理新規データモデル

AsIs （ボトムアッ ToBe （トップダウン）
プ）

でも、解析は勉強
しないと

ソーシャルデータを使った加盟店分析

● 現状課題「クレジットカード会社は、加盟店の業種を把握できてな
い」
● 検証「 Web 上のデータを使って把握できないか？」
⇒Web データをテキストマイニングして、店舗をクラスタ
リング
AWS Elastic MapReduce
① データ収集と格納 1 seqdirectory
メニュー、 sequenceFile フォーマットで格納
口コミ

② 形態素解析 2 seq2sparce
Analyzer 、辞書形態素解析
、
stopword

3 canopy
③ クラスタリングクラスタ初期中心点算出
パラメータ

4 kmeans 似ている店の
クラスタリングクラスタ

( クラスタリングとは？ )
● たくさんの要素を、近いものグループ (= クラスタ ) にわけること
－要素をどんな属性であらわすか、その値
－近い / 遠い ( 距離 ) の計算式
－アルゴリズム
□ 計算量とコストの兼ね合い
□ クラスタ同士の重なりアリ / ナシ
● 機械学習の一分野
－ブログ、ニュース記事のカテゴライズ
－ユーザー・セグメンテーション　など

( Ａｐａｃｈｅ Mahout とは？ )

● 機械学習のアルゴリズムを
－レコメンデーション、クラスタリング、分類、パターン・マイニング等
－ 16 種が integrated 、ほか鋭意開発中
● 並列分散に実行できるよう実装した
－Ｈａｄｏｏｐ上で動く一つのバッチアプリケーション
● 参考
－ “Mahout In Action”
－Ｍａｈｏｕｔ JP

Mapper
Reducer
worke
r
worke
r
worke Output
r File 0
worke
r
worke shuffle worke Output
r r File 1
worke
r
local write

ざっと手順
 データ取得
－ HotPepper サイトから、メニュー部分のみ取得して HDFS へ

doc = Jsoup.connect(listPageURL).get();
　　　 Elements elements = doc.getElementsByTag("dd");

とうがらし料理「赤ちり亭」田町店　赤ちり鍋
ＴＶに多数登場する逸品♪韓国唐辛子・コチュジャンなどの 7 つの調味料
を練り込んだ特製味噌ベースのスープが絶品
1 人前　 880 円

 形態素解析とフィルタリング
 形態素解析＝単語区切りと品詞付け
 Chasen/kuromoji/mecab 等の日本語向け公開 Tokenizer を利用

とう　副詞 , 助詞類接続 ,*,* とうトウトウ
とうがらし料理赤ちり亭田町店が　助詞 , 格助詞 , 一般 ,* がガガ
★ らし　助動詞 ,*,*,* らしいラシラシ
料理名詞 , サ変接続 ,*,* 料理リョウリリョーリ
>$MAHOUT_HOME/bin/mahout seqdirectory
--input ./data --output ./seq -c
UTF-8 --chunkSize 128 ① 　「とうがらし」を手作業で辞書登
録　
>$MAHOUT_HOME/bin/mahout seq2sparse -i ② 　 Tokenizer の結果から、名詞を取
hdfs:///seq -o hdfs:///vector -a 得
HotcakeJapaneseAnalyzer -seq -nv この結果を元に店舗毎の「単語
Vector 」を形成
--norm 2 -s 10 -md 20 -x 40 -ng 3
-ml 300

(K-means)

● K-means( クラスタリング )
1. 無作為に中心点となる代表ベクトルを N 個定義（図では青い矩形２
点）
2. 近い代表ベクトルをそれぞれ探す
3. 尤も近い代表ベクトルに帰属
4. このクラスタ内のベクトルの平均を計算し、次の中心点とする
5. ２に戻る　

・・・・・
・
■
◆
・・
■
・■ ・
・
◆

・ ◆
・・・
1 回目 2 回目 3 回目

妥当な中心点を得る為、 Canopy も併用

>$MAHOUT_HOME/bin/mahout canopy -i hdfs:///vector/tfidf-vectors -o
hdfs:///canopy --distanceMeasure
org.apache.mahout.common.distance.CosineDistanceMeasure -t1 0.89 -t2 0.75

>$MAHOUT_HOME/bin/mahout kmeans
-i $DATA_DIR/vec/tfidf-vectors
-o $DATA_DIR/kmeans
--distanceMeasure
org.apache.mahout.common.distance.CosineDistanceMeasure
-c $DATA_DIR/canopy/$LAST_CLUSTER
-x 20 -ow -cl kmeans_OPTS 2>&1 | tee -a $0.log

結果は？
● あるときのクラスタ内容
－ 1146 店舗→ 153 クラスタ
－ 1 クラスタあたりの店舗数が 5 以下のものが 76 クラスタ
－残り 77 クラスタ中の 4 割程度がそこそこ分類（目視）

要素数店名
Top Terms
カルビ、焼肉、ホルモン、タン、タン塩、ハラ、塩、味楽亭
350
キムチ、和牛、ロース、クッパ、韓国、スープ、ビビン新宿正統派焼肉東海苑本店
パ、冷麺、牛、ユッケ、上、麺、特、ナムル、部位、
牛の達人西武新宿駅前   本店
ユッケジャン、特選、ジャン、石、冷、サンチュ、チ
ゲ、チヂミとらじ館新宿店
元祖牛ホルモン鍋みつる
中央苑 ...
タイ、カレー、ココナッツ、トムヤムクン、グリーン
94 You and I
カレー、鶏肉、辛い、春雨、スープ、パパイヤ、レッド
カレー、春巻き、グリーン、レッド、パパイヤサラダタイ・ベトナムカフェレストランサームロット
、ココナッツミルク、バンコク、タイタイ、空、ミルバンタイ
ク、タイ屋台、春雨サラダ、タピオカ、屋台、ソムタ May Asian Foods
ム、トム、青パパイヤ、タイスキ、挽肉、空芯
ラサマレーシア
ゲーンキョワーン
大手町、直結、画面、ライオン、銀座ライオン、ブＣｏｆｆｅｅ＆ＤｉｎｉｎｇＢａｒ
タイレストランホットペッパー 1 ... 菜々
4
ブラッスリー銀座ライオン大手町ビル店
ラッスリ、 dvd 、ブラッスリ銀座ライオン、立食、ビ
ブラッスリー銀座ライオン青山一丁目店
ヤホール、ソーセージ盛合せ、 tv 、ソーセージ、入りパブレストランうすけぼー昭和通り日本橋店
口、最大、銀座、宴会、菜、コンビネーションサラダ
、盛合せ、一級、ビール、昭和通り、チョップ、チキン
、キング、個室、ミックスピザ、和風、サーロインス
テーキ

性能は？　～ Canopy のスケールアウト問題

reduce task 数が「１」にハードコード
public class CanopyDriver extends AbstractJob { データ量
約 1 万件
　　　　 private static Path buildClustersMR （ .. ） {
(50MB)
job.setNumReduceTasks(1); インスタンス数
1 ～4

(m1.large)
数秒
処理時間 1
これを直せば、スケールアウトす
る？ SequenceFile 化
…わけではない 2 Lucene Index 化 41 分

3 Canopy 7 時間 10
分
4 Kmeans 43 分

T2 1. ランダムに中心点となる
T2 代表ベクトルを一つ選ぶ
2 ． T2 内のベクトルは吸着
（削除）
Canopy B
Canopy A 3 ．それ以外のベクトルから
中心点を選ぶ（⇒２へ）

T1
T1

(Mahout における Canopy の動作 )
Node が別れたことで CanopyA に
吸着されないベクタ
①Map

T2 Canopy B
Canopy A T2

T1 T1

全ての中心点だけで、再度
②Reducer Canopy

● 最後に全ての中心点を集めて
CanopyE
Canopy D Canopy B Canopy を再計算
Canopy C
－ Map の結果残った点が多いと Reduce
Canopy A の処理負荷が高くなる
－ Kmeans は繰返しの仕組みあり

課題検討と再チャレンジ
● クラスタリング結果が今ひとつ
－中心点をユーザが定義して、これで「分類（ Classification ）」した方が良いのでは
□ 中心点をどうやって定義するかが課題
● 新規単語の辞書登録の手間
－ Analyzer が認識できない単語をしらみつぶしで、辞書登録するのはつらい
□ 「麻婆豆腐」→「麻」、「婆」、「豆腐」　
□ 単語 n-gram を適用して、単語を再構築
☆ 1 グラム＝麻、 2 グラム＝麻婆、３グラム＝麻婆豆腐
□ 単語どおしのアソシエーション分析から、一緒に登場する頻度低いものは除く
● 結果を簡単に確認
－作る必要あり。ほかも含め R で検証してからの方が良いかも。
[root@CentOS6 ~]# ./ClusteredPointsDistances.sh g
Input Path: /root/data/kmeans/clusteredPoints/part-m-00000
------------------------------------------------------------
Clusters Path Found: /root/data/kmeans/clusters-1
CV 総数分布状況（ 10 以上は A-Z,36 以上は * ）
0 1294 --------------------------------------------------------112677FAYMV*****************Y***KMOIC462-2-3
1 795 ------------------------------------------------1-11113B44AGGMRVUOQVTWLQXQVWMIISWMPJGEGDDCB865
2 10 27 -----------------------------1---11-11---------------1----11-22211--11--1--1-1--121-------1--1------

● その他諸々未解決…
アイディア求む！
－類義語の統合　－　柚子コショー　と　ゆずこしょう。共起頻度ではイマイチ
－精度向上　－　ノイズ除去、

ご清聴ありがとうございました

Big data解析ビジネス

More Related Content

Big data解析ビジネス

Editor's Notes