SlideShare a Scribd company logo
みんなビックデータビック
データって言ってるけど
名寄せとかどうしてんの?
13年10月5日土曜日
自己紹介
酒井一晃( send | かずあき )
最近はソーシャルメディア関連の
分析ツールの R&D やプロトタイ
ピングが主な仕事
13年10月5日土曜日
はじめに
13年10月5日土曜日
名寄せって何?
13年10月5日土曜日
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
このデータはどういう意味のもの
だっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
このデータはどういう意味のもの
だっけ?
名寄せとは?
今回のお題はこれ!
13年10月5日土曜日
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
コード化
データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
コード化
名寄せ
データ解析
13年10月5日土曜日
主な名寄せの内訳
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
コード統合
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
コード統合
辞書化
13年10月5日土曜日
さて本日の内容は?
13年10月5日土曜日
13年10月5日土曜日
「コード統合」って具体的には?
13年10月5日土曜日
「コード統合」って具体的には?
「辞書化」ってどういうこと?
13年10月5日土曜日
「コード統合」って
具体的には?
13年10月5日土曜日
例えば性別コード
13年10月5日土曜日
性別コードあるある
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
内容が男性からはじまったり、女
性からはじまったり
13年10月5日土曜日
標準規格とかないの?
13年10月5日土曜日
実はあります
13年10月5日土曜日
実はあります
ISO 5218
0: not known
1: male
2: female
9: not applicable
13年10月5日土曜日
実はあります
ISO 5218
0: not known
1: male
2: female
9: not applicable
JISX 0303(廃止)
1: 男
2: 女
13年10月5日土曜日
なんでみんな使わないの?
13年10月5日土曜日
なんでみんな使わないの?
システム都合
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
複数のデータソースを扱うときによくある問題
13年10月5日土曜日
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
実務的には医薬系システム以外は社会的な性
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
実務的には医薬系システム以外は社会的な性
ISO 5218 互換なんだけど定義がちがったりコード種が多かっ
たりでもいい
どう統合しよう?
13年10月5日土曜日
その他のコード問題
13年10月5日土曜日
その他のコード問題
「洗い替え」
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
時代の変化等で発生
13年10月5日土曜日
「辞書化」って
どういうこと?
13年10月5日土曜日
違う表現同じ意味
13年10月5日土曜日
全角半角
ひらがなカタカナ
記号
誤字脱字変換ミス
単語の出現順序
略称
業界用語専門用語
類義語
文脈
etc...
違う表現同じ意味
13年10月5日土曜日
機械に同じ意味だと
教えたい!
13年10月5日土曜日
実際の処理の流れ
13年10月5日土曜日
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義の
内容を丸めこんだ
データ
同義語
辞書
13年10月5日土曜日
実装はどうなってるの?
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
設定書くだけ!ほとんどコーディングレス!
13年10月5日土曜日
課題点
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
文脈がわからないと意味が決定できないものなどは辞書
でも対処できない
機械学習系でなんとかカバー出来るかも??
13年10月5日土曜日
本日のまとめ
13年10月5日土曜日
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をするこ
とが目的
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をするこ
とが目的
「名寄せ」の目的は、データをどう使いたいかとい
うニーズに対する手助け
13年10月5日土曜日
おわりに
13年10月5日土曜日
本当は
「俺こんな感じでやってるんだけど、君
んとこどうしてんの?」とか
「一緒に仕事してみない?」みたいな話
に繋げたかったんですが。。。
13年10月5日土曜日
おしまい
13年10月5日土曜日

More Related Content

みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?