Submit Search
SPYSEE新検索機能の裏側
•
6 likes
•
2,680 views
Naoki Orii
Follow
1 of 88
Download now
Downloaded 25 times
More Related Content
SPYSEE新検索機能の裏側
1.
SPYSEE 新検索機能の裏側
オーマ株式会社 折居直輝
2.
Agenda ●
自己紹介 ● SPYSEEの検索エンジン ● 実例 ● 一般的な検索エンジンとの比較 ● 仕組み
3.
自己紹介 ●
折居直輝(おりい なおき) ● @mrorii ● 東京大学工学部4年生 松尾豊研究室 ● 今年の4月からOhmaでバイトしてます ● @amachangと一緒に禁則事項ですを作ってます
4.
検索
5.
SPYSEEのTOP
6.
SPYSEEのTOP 今年11月、新バージョンをリリースしました
7.
「石原慎太郎」を検索
10.
「都知事」を検索
13.
「Ruby」を検索 Ruby」を検索
15.
教祖 「日本Rubyの会」会長 YARVの人 ドリコムCTO Ruby関連の執筆
16.
「Perl」を検索 Perl」を検索
18.
教祖 Jcode.pm jcode.pl Unixの人 ?
19.
「料理家」を検索
21.
料理研究家 料理研究家 料理研究家 TV番組「料理天国」の司会 料理研究家
22.
検索のタイプ
23.
検索のタイプ ●
一般的な検索
24.
検索のタイプ ●
一般的な検索 ● 文書
25.
検索のタイプ ●
一般的な検索 ● エンティティ検索 ● 文書
26.
検索のタイプ ●
一般的な検索 ● エンティティ検索 ● 文書 ● 商品
27.
検索のタイプ ●
一般的な検索 ● エンティティ検索 ● 文書 ● 商品 ● 企業
28.
検索のタイプ ●
一般的な検索 ● エンティティ検索 ● 文書 ● 商品 ● 企業 ● 人物
29.
検索のタイプ ●
一般的な検索 ● エンティティ検索 ● 文書 ● 商品 ● 企業 ● 人物
30.
仕組み
31.
仕組み ●
一般的な検索エンジンとほとんど同じ
32.
仕組み ●
一般的な検索エンジンとほとんど同じ ● wikipediaの属性情報、タグ情報、キーワード情報など の転置インデックスを作成
33.
仕組み ●
一般的な検索エンジンとほとんど同じ ● wikipediaの属性情報、タグ情報、キーワード情報など の転置インデックスを作成 ● ユニークなところ
34.
仕組み ●
一般的な検索エンジンとほとんど同じ ● wikipediaの属性情報、タグ情報、キーワード情報など の転置インデックスを作成 ● ユニークなところ ● 関係ネットワークを使っている
35.
仕組み ●
一般的な検索エンジンとほとんど同じ ● wikipediaの属性情報、タグ情報、キーワード情報など の転置インデックスを作成 ● ユニークなところ ● 関係ネットワークを使っている ● 厳密にはPageRankもネットワークでいうところの 固有ベクトル中心性の計算ですが…
36.
何を計算しているか
37.
何を計算しているか クエリ
38.
何を計算しているか クエリ 「Ruby」
39.
何を計算しているか クエリ 「Ruby」
40.
何を計算しているか クエリ
人物 「Ruby」
41.
何を計算しているか クエリ
人物 「Ruby」 「まつもとゆきひろ」
42.
何を計算しているか クエリ
人物 「Ruby」 「まつもとゆきひろ」 クエリ に対して適切な を検索したい
43.
何を計算しているか クエリ
人物 「Ruby」 「まつもとゆきひろ」 クエリ に対して適切な を検索したい 数学的にいいかえると、 を計算したい
44.
何を計算しているか クエリ
人物 「Ruby」 「まつもとゆきひろ」 クエリ に対して適切な を検索したい 数学的にいいかえると、 を計算したい
45.
計算式を日本語で表すと
46.
計算式を日本語で表すと クエリ に対し、 人物 がどれくらい 適しているか
47.
計算式を日本語で表すと クエリ に対し、 人物 がどれくらい 適しているか
48.
計算式を日本語で表すと クエリ に対し、 人物 がどれくらい 適しているか
49.
計算式を日本語で表すと クエリ に対し、
人物 が属性 人物 がどれくらい をどれくらいもつか 適しているか
50.
計算式を日本語で表すと クエリ に対し、
人物 が属性 人物 がどれくらい をどれくらいもつか 適しているか 例: メガネ | タモリ アイドル | タモリ
51.
計算式を日本語で表すと クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか 例: メガネ | タモリ アイドル | タモリ
52.
計算式を日本語で表すと クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか 例: 例: メガネ | タモリ タモリ アイドル | タモリ 湯浅政明
53.
計算式を日本語で表すと クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか 例: 例: メガネ | タモリ タモリ アイドル | タモリ 湯浅政明
54.
人物eがどれくらい「有名」か
55.
人物eがどれくらい「有名」か ●
基本はページランク計算
56.
人物eがどれくらい「有名」か ●
基本はページランク計算 ● クエリが投げられるたびに、 そのクエリにマッチする部 分ネットワークを構築し…
57.
人物eがどれくらい「有名」か ●
基本はページランク計算 0.01 ● クエリが投げられるたびに、 そのクエリにマッチする部 分ネットワークを構築し… 0.14 ● SPYSEE内のアクセス数を 0.12 初期値としてページランク を計算 0.16 0.12 0.02 0.04 0.01
58.
人物eがどれくらい「有名」か ●
基本はページランク計算 0.01 ● クエリが投げられるたびに、 そのクエリにマッチする部 分ネットワークを構築し… 0.14 ● SPYSEE内のアクセス数を 0.12 初期値としてページランク を計算 0.16 ● 「ページランク大きい」 0.02 0.12 = 「有名」 0.04 0.01
59.
(再掲) 計算式を日本語で表すと クエリ
に対し、 人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか 例: 例: メガネ | タモリ タモリ アイドル | タモリ 湯浅政明
60.
人物eが属性qをどれくらいもつか
61.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります
62.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります ● 基本的なモデル
63.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります ● 基本的なモデル – 最も単純なのは、tf/idf(term frequency / inverse document frequency)を使うもの
64.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります ● 基本的なモデル – 最も単純なのは、tf/idf(term frequency / inverse document frequency)を使うもの ● 潜在モデル
65.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります ● 基本的なモデル – 最も単純なのは、tf/idf(term frequency / inverse document frequency)を使うもの ● 潜在モデル – PLSI (probablistic Latent Semantic Indexing) – LDA (Latent Dirichlet Allocation)
66.
人物eが属性qをどれくらいもつか ●
モデルする方法はたくさんあります ● 基本的なモデル – 最も単純なのは、tf/idf(term frequency / inverse document frequency)を使うもの ● 潜在モデル – PLSI (probablistic Latent Semantic Indexing) – LDA (Latent Dirichlet Allocation)
67.
LDAを使うと何ができるか
68.
LDAを使うと何ができるか ●
文章の背景にある「トピック」が何か分かる
69.
LDAを使うと何ができるか ●
文章の背景にある「トピック」が何か分かる ● 例 – オリ 155km右腕&329発男獲得
70.
LDAを使うと何ができるか ●
文章の背景にある「トピック」が何か分かる ● 例 – オリ 155km右腕&329発男獲得 – ↑の文章には「野球」という単語が出てこないのにも関わら ず、人間がこれを読むと「これは野球のことだな」と分かる
71.
LDAを使うと何ができるか ●
文章の背景にある「トピック」が何か分かる ● 例 – オリ 155km右腕&329発男獲得 – ↑の文章には「野球」という単語が出てこないのにも関わら ず、人間がこれを読むと「これは野球のことだな」と分かる – LDAを使えばコンピューターでも↑の文章が「野球」のことだ と分かる
72.
LDAを使うと何ができるか ●
写真の背景にある「トピック」が何か分かる
73.
LDAを使うと何ができるか ●
写真の背景にある「トピック」が何か分かる ● 例: 画像の自動アノテーション
74.
LDAを使うと何ができるか ●
写真の背景にある「トピック」が何か分かる ● 例: 画像の自動アノテーション Blei. “Topic Models. ”Machine Learning Summer School 2009 Cambridgeのスライドより
75.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる
76.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる ● 例 – タモリ: 「メガネ」「司会者」「笑っていいとも!」
77.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる ● 例 – タモリ: 「メガネ」「司会者」「笑っていいとも!」 – イチロー:「野球」「マリナーズ」「MBA」
78.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる ● 例 – タモリ: 「メガネ」「司会者」「笑っていいとも!」 – イチロー:「野球」「マリナーズ」「MBA」 – 海老蔵:「俳優」「歌舞伎」「人間国宝」
79.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる ● 例 – タモリ: 「メガネ」「司会者」「笑っていいとも!」 – イチロー:「野球」「マリナーズ」「MBA」 – 海老蔵:「俳優」「歌舞伎」「人間国宝」 俳優 歌舞伎 人間国宝
80.
LDAを使うと何ができるか ●
人物の背景にある「トピック」が何か分かる ● 例 – タモリ: 「メガネ」「司会者」「笑っていいとも!」 – イチロー:「野球」「マリナーズ」「MBA」 – 海老蔵:「俳優」「歌舞伎」「人間国宝」 俳優 歌舞伎 人間国宝
81.
計算のまとめ クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか
82.
計算のまとめ クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか LDAなどで計算
83.
計算のまとめ クエリ に対し、
人物 が属性 人物 がどれくらい 人物 がどれくらい をどれくらいもつか 「有名」か 適しているか LDAなどで計算 ページランクを計算
84.
発表のまとめ
85.
発表のまとめ ●
基本はこの式
86.
発表のまとめ ●
基本はこの式 ● SPYSEE検索では ● 人物ネットワークを活用してページランクを計算 ● 人物の背景にある「トピック」を計算する ● 検索精度向上・処理のスピードアップ
87.
今後やりたいこと ●
インクリメンタル検索 ● Twitter, Facebookなどのソーシャル情報を活用 ● さらなる検索精度の向上
88.
ご清聴ありがとうございました
Download