4. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
4
5. • クエリ,対象データ,ランキング関数,フレー
Q
ムワーク D Rank: Q x D -> R
クエリ システム
ランキングされたデータ 対象
デー
タ
ランキング関数
フレームワーク
Baeza-Yates, R. and Ribeiro-Neto, B. and others, Modern Information Retrieval より
注: 狭義です
5
18. • ランキング関数 = 適合文書である確率/不適合である確
率 P( R | d ) P(d | R)
~
P( NR | d ) P(d | NR )
P( w | R) (1 P( w | R))
w d w d
P( w | NR) (1 P( w | NR))
w d w d
• rw ≡ P(w|R), nw ≡ P(w|NR)として,
rw (1 rw )
w d w d rw (1 nw ) (1 rw )
dに不変
nw (1 nw ) w d nw (1 rw ) w (1 nw )
w d w d 18
19. • クエリ: {田中, 情報学}の場合
– P(q|R)は高そう
• P(田中|R)とP(情報学|R)は高そう
• P(田中|NR)とP(情報学|NR)は普通そう
– P(田中|NR) = (「田中」を含む文書数) / (全文書数)
• P(克己|R)とP(克己|NR)も普通そう (分母=分子.無視)
– 文書d:{田中,克己}のランキング関数値は…
rw (1 nw ) 0.5(1 df (田中) / N )
Rank(q, d )
w d nw (1 rw ) df (田中) / N (1 0.5)
N df (田中) N
1
df (田中) df (田中) idf!
19
21. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
21
32. • n-gramモデル
– 単語は確率的に生成される
• トピックモデル
– 単語はトピックから生成される
• トピック = 単語の生成分布
トピック
Latent Dirichlet Allocation
David M. Blei, Andrew Y. Ng, Michael I. Jordan; JMLR, 3(Jan):993-1022,
2003.
32
43. 1. ランダムにトピックを語に割り当てる
2. For each word in the whole document
I. もう一度トピックサイコロを振り直す.た
だし,
• 他の全ての割り当てが正しいとする
• 対象としている語は観測されているとする
II. トピックを割り当てる
3. ひたすら2を繰り返す
田中克己 喜連川優 宇多田ヒカル 喜連川優
Mr. Children スピッツ Mr. Children 田中克己
田中克己 田中克己
43
44. • もう一度トピックを振り直すときにの確
率
P(zi,j|w, (z-{zi,j}))
– 全ての語wと注目している語のトピック以外
同じ語に何回トピックkが
のトピックが全てわかっているときにそのト
ピックの確率 割り当てられているか?
n (v, k ) v
P ( zi , j k | w, (z {zi , j })) (n(i, k ) k)
( n( r , k ) r )
r
同じ文書内で何回トピックk
全体で何回トピックkが
が
出ているか? 割り当てられているか?
44
46. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
46
50. wTx + b = 0
• 有名な分類モデル wTx + b = +1 wTx + b = -1
• 訓練データ:
– X = {((1, 3), +1), ((3, 4), -1),
((4, 9), +1), ((0, 0), -1),}
• 分類境界: wTx + b = 0
– wTx + b > +1 なら +1
– wTx + b < -1 なら -1
50
51. wTx + b = 0 wTx + b = 0
wTx + b = +1 wTx + b = -1
どの境界面が
一番いい??
マージン最大化
51
52. • 以下の二次計画問題を解くことと等価
2
max マージン最大化
w w
T 訓練データは
s.t. yi (w x i b) 1 全て正しく分類
• ラグランジュの未定乗数法
n
1 T
L ( w , b, a ) w w ai yi w T x i b 1
2 i 1
n
w ai y i x i
i 1
n
1 n n
L' (a) ai ai a j yi y j xT x j
i
i 1 2i 1 j 1 サポートベクター
ai yi (w T x b) 1 0 ai 0 yi (w T x b) 1 52
53. Hang Li, Learning to Rank, ACL-IJCNLP 2009 Tutorial, Aug. 2, 2009 53
58. • SVM 2
max マージン最大化
w w
T 訓練データは
s.t. yi (w x i b) 1 全て正しく分類
• Ranking SVM
2
max
w w
T T
di > djなら
s.t. w xi w xj (di dj) wTxi > wTxj
s.t. yi (wT (xi x j ) 0) 0
yi 1 (d i d j ) otherwise 1
58
60. • 機械学習とは
– 教師あり学習
– 教師なし学習
• SVM
– マージン最大化
• Learning to Rank
– e.g. Ranking SVM
60
61. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
61
66. • 目的の情報が1つ見つかればよいとき
に使う
• 正解情報が第r位に現れたとき逆順位
(RR)は タスク1 タスク2
1 正解
RR
r 正解
• 全タスクの平均を取って平均逆順位
(MRR)でシステムを評価
K RR=1/2 RR=1
1 1
MRR MRR=3/4
K i 1 ri
• とてもブレが大きい
– たくさんのタスクを用意しましょう
66
67. • 比較的再現率を重視する評
価で有効(らしい) 正解 1/2
• 第r位までの適合率をP(r)と
するとAPは
1 L
AP I (r ) P(r ) 正解 2/5
Rr1
– ただし,I(r)は第r位が正解の
とき1 正解 3/7
R=全正解数,L=システム出力
件数
正解 4/9
• 全タスクの平均を取って
MAPでシステムを評価 (よく 全正解数=10なら
AP = (1/2+2/5+3/7+4/9)/10
使われる) 67
68. • とってもメジャー
• Cumulative Gain (CG)
– 累積利得(右図参照)
L
CG( L) g (r )
r 1
• Discounted CG
– 1位に正解 > 2位に正解
L
g (r )
DCG( L)
r 1 log b ( r 1)
酒井哲也: よりよい検索システム実現のために: 正解の良し悪しを考慮した情報検索評価の動向, 情報処理 Vol.47, No.2, pp.147-
68