Submit Search
離散構造と離散分布
•
14 likes
•
4,558 views
Masakazu Ishihata
Follow
IBIS2014 | 第17回情報論的学習理論ワークショップ, 2014.11.16〜19, 名古屋大学・名古屋工業大学 http://ibisml.org/ibis2014/
Read less
Read more
1 of 68
Download now
Downloaded 44 times
More Related Content
離散構造と離散分布
1.
Copyright©2014 NTT corp.
All Rights Reserved. 離散構造と離散分布 NTT コミュニケーション科学基礎研究所 石畠正和 第17回情報論的学習理論ワークショップ(IBIS2014) 離散アルゴリズムの機械学習応用
2.
2 Copyright©2014 NTT
corp. All Rights Reserved. 石畠正和 経歴 2006 石川高専 修了 2008 東工大 学部 修了 2010 東工大 修士 修了 2013 東工大 博士 修了 2013 NTT CS 研 入社 指導教官 佐藤泰介 教授 研究内容 論理に基づく確率モデリング 論理と確率を合言葉に!
3.
Copyright©2014 NTT corp.
All Rights Reserved. 3 今日、伝えたいこと • 離散分布の複雑さ • 離散分布と離散構造 (主に論理) の関係 • Lifted Inference のアイディア 離散って 足すだけじゃん(笑) 論理って いつの話だよ(笑) こういう人に伝えたい!!
4.
4 Copyright©2014 NTT
corp. All Rights Reserved. 今日、伝えないこと •具体的な 論理を用いた確率計算 •具体的な Lifted Inference の計算方法 どうしても論理の基礎知識が必要になるので…。 想定する聴衆 確率 → 使ったことある 論理 → 詳しくない 動的計画法 → あー、あるよね Bayesian Network → あー、グラフィカルモデルね? Lifted Inference → あー、どっかの会議で見たかも
5.
5 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference 当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a]
6.
6 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference 当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a] Tutorials •“Lifted inference in Probabilistic logical Models”, IJCAI11 •“Probabilistic Inference in Relational Models”, UAI14 •“Lifted Approximate Inference: Methods and Theory”, AAAI14 Workshops •StarAI: Statistical Relational AI, AAAI10, UAI12, AAAI13-14 •LTPM: Learning Tractable Probabilistic Models, ICML14 •BUDA: Big Uncertain Data, SIGMOD14 実は流行ってます!!
7.
7 Copyright©2014 NTT
corp. All Rights Reserved. 1ページ要約 離散分布は実は複雑 組み合わせ爆発 論理を使うと 効率的に定義できる 論理をグラフに変換し 効率的に扱う 論理+グラフで効率的に 離散分布を計算・学習! Lifted Inference この組合せが最も力を 発揮できる場合を追求! AI ML
8.
8 Copyright©2014 NTT
corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する 3.離散分布を効率的に計算する 4.効率的な確率計算の研究例 5.まとめ
9.
Copyright©2014 NTT corp.
All Rights Reserved. 9 離散分布 Bernoulli 分布 (= コイン) p(x | θ) = θx (1-θ)1-x, x∈{0,1}, θ ∈[0,1] Categorical 分布 (= サイコロ) p(x | θ) = Πi θi [x=i] = θx x∈{1,...,M}, θ=(θ1,...,θM), θi∈[0,1], Σi θi = 1 離散確率変数 離散値を取る確率変数 この発表では有限の値 p(表) = θ p(裏) =1-θ p(1) = θ1 p(2) = θ2 ... p(6) = θ6 (Σi=1...6 θi = 1)
10.
10 Copyright©2014 NTT
corp. All Rights Reserved. ID x1 x2 x3 p(x) 1 0 0 0 θ1 2 0 0 1 θ2 3 0 1 0 θ3 4 0 1 1 θ4 5 1 0 0 θ5 6 1 0 1 θ6 7 1 1 0 θ7 8 1 1 1 θ8 離散確率変数の同時分布 •Xi = 離散確率変数, xi∈{0,1} •X = (X1,...,XN), x ∈Ω ≡{0, 1}N •p(X = x | θ) = θID(x) •θ=(θ1,...,θM), θi∈[0,1], Σi θi =1 M = 2N 任意の同時分布を定めるには指数個のパラメータが必要 X の確率表 離散同時分布
11.
11 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし X1 の CPT 条件付き確率の定義より、 X の確率表は各 Xi の条件付き確率表(CPT)で定義可能 CPT = Conditional Probability Table ID x1=0 1 1 θ111 θ112 X2 の CPT X3 の CPT
12.
12 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) 3 2 1 xik ≡ Xi の k 番目の値 x1:i ≡ (x1,...,xi) X1 の CPT X2 の CPT X3 の CPT
13.
13 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) X1 の CPT X2 の CPT X3 の CPT
14.
14 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
15.
15 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
16.
16 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
17.
17 Copyright©2014 NTT
corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 条件付き確率に分解してもパラメータは指数個 ただし 各行が Categorical 分布 X1 の CPT X2 の CPT X3 の CPT
18.
18 Copyright©2014 NTT
corp. All Rights Reserved. 計算したい量 同時確率 p(x | θ) = θID(x), x∈Ω≡{0,1}N 周辺確率 p(e | θ) = Σx∈e p(x | θ), e ⊆Ω 期待値 E[F]p(X|e,θ) ≡ Σx∈Ω F(x)p(x | e,θ) Viterbi 値 x* ≡ argmaxx p(x | e,θ) 最尤推定量 θ* ≡ argmaxθ Πe∈E p(e|θ), E={e1,e2,...} 事後分布 p(θ | E) 愚直に計算すると指数的な時間を要する(NP-hard)
19.
19 Copyright©2014 NTT
corp. All Rights Reserved. 命題論理 論理式 F 命題変数と論理演算と括弧の組合せ 論理関数を表現 F = (X1∧X2)∨X3 論理関数 F(X) F : {0,1}N → {0,1} F(1,1,1) = 1 真理値表 x と F(x) の対応表 ID x1 x2 x3 F 1 0 0 0 0 2 0 0 1 1 3 0 1 0 0 4 0 1 1 1 5 1 0 0 0 6 1 0 1 1 7 1 1 0 1 8 1 1 1 1 F の真理値表
20.
20 Copyright©2014 NTT
corp. All Rights Reserved. 計算量 F を X 上の論理式、F(X) を F が表す論理関数とする Satisfiability (SAT) problem [Cook 71] F(x) = 1 なる x が存在する(充足可能)か判定する → NP-complete Model Counting (MC) problem F(x) = 1 なる x の数 MC(F) を求める → #P-complete
21.
21 Copyright©2014 NTT
corp. All Rights Reserved. 計算量 論理式の確率 p(F | θ) ≡ Σx∈Ω F(x)p(x | θ) = E[F]p(X|θ) 離散分布と SAT p(X | θ) を ∀x ( p(x | θ) > 0 ) なる X の同時分布とする このとき、 p(F | θ) > 0 ⇔ 論理式 F は充足可能 → NP-complete 離散分布と MC p(X | θ) を ∀x ( p(x | θ) = 1/2N ) なる X の一様分布とする このとき、 p(F | θ) = M / 2N ⇔ MC(F) = M → #P-complete
22.
22 Copyright©2014 NTT
corp. All Rights Reserved. 離散分布と積分 X が連続のとき E[F]p(X) ≡ ∫ F(x)p(x)dx が解析的に計算できると嬉しい X が離散のとき E[F]p(X) ≡ Σx F(x)p(x) が ???? で計算できると嬉しい
23.
23 Copyright©2014 NTT
corp. All Rights Reserved. 離散分布と積分 X が連続のとき E[F]p(X) ≡ ∫ F(x)p(x)dx が解析的に計算できると嬉しい X が離散のとき E[F]p(X) ≡ Σx F(x)p(x) が多項式時間で計算できると嬉しい Model counting が多項式時間で解ける 離散における積分 = Model Counting (Model Enumeration)
24.
24 Copyright©2014 NTT
corp. All Rights Reserved. 離散分布の複雑さ (まとめ) 離散分布は 愚直に定義、愚直に計算すると指数 効率的な定義 = パラメータ数が多項式 効率的な計算 = 計算量が多項式 離散分布を 効率的に定義、効率的に計算したい
25.
25 Copyright©2014 NTT
corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する 4.効率的な確率計算の研究例 5.まとめ
26.
26 Copyright©2014 NTT
corp. All Rights Reserved. p(x|θ) を効率的に定義する ID x1 x2 ... xi-1 xi=0 1 1 0 0 ... 0 θi11 θi12 2 0 0 ... 1 θi21 θi22 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 2i-1-1 1 1 ... 0 ... ... 2i-1 1 1 ... 1 θi2i-11 θi2i-12 ID xi=0 1 1 θi11 θi12 2 θi21 θi22 ... ... ... Mi θiMi1 θiMi2 パラメータを共有する ??? Xi の条件付き確率表 (CPT) = 指数サイズ Xi のコンパクトな CPT Mi = 多項式サイズ p(Xi | X1:i-1, θ) p(Xi | X1:i-1, θ) 写像 Ti
27.
27 Copyright©2014 NTT
corp. All Rights Reserved. p(x|θ) を効率的に定義する パラメータを共有する ID Ti(x1:i-1) xi=0 1 1 1 θi11 θi12 2 2 θi21 θi22 ... ... ... ... Mi Mi θiMi1 θiMi2 Parameter Tying (Sharing) Ti : {0,1}i-1 → {1,...,Mi} p(Xi = xik | Ti(x1:i-1) = j, θ) ≡ θijk パラメータ数 2i-1 → Mi 問題 Ti をどう定める? → Ti を決める = 独立性を仮定 x1:i-1 = (x1,x2,...,xi-1) x1:i-1 ∈{0,1}i-1 Xi のコンパクトな CPT p(Xi | X1:i-1, θ)
28.
28 Copyright©2014 NTT
corp. All Rights Reserved. 離散分布と独立性 1.Independence 2.Conditional Independence 3.Context Specific Independence [Boutilier+ 96] 4.Partial Exchangeability [Niepert+ 14a] 強い仮定 弱い仮定
29.
29 Copyright©2014 NTT
corp. All Rights Reserved. Independence p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ211 θ212 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ311 θ312 3 1 0 θ311 θ312 4 1 1 θ311 θ312 X1 の CPT X2 の CPT X3 の CPT 独立性 = すべての条件列を無視する
30.
30 Copyright©2014 NTT
corp. All Rights Reserved. Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 * θ211 θ212 ID x1 x2 x3=0 1 1 * * θ311 θ312 独立性 = すべての条件列を無視する p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 T2(x1) = 1, T3(x1, x2) = 1
31.
31 Copyright©2014 NTT
corp. All Rights Reserved. Conditional Independence p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ311 θ312 3 1 0 θ321 θ322 4 1 1 θ321 θ322 条件付き独立性 = 特定の条件列を無視する
32.
32 Copyright©2014 NTT
corp. All Rights Reserved. Conditional Independence p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 * θ311 θ312 2 1 * θ321 θ322 条件付き独立性 = 特定の条件列を無視する T3(x1, x2) = 1+x1
33.
33 Copyright©2014 NTT
corp. All Rights Reserved. Context Specific Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ331 θ332 p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 文脈依存独立性 = 特定の条件下で特定の条件列を無視する
34.
34 Copyright©2014 NTT
corp. All Rights Reserved. Context Specific Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 * θ331 θ332 p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 文脈依存独立性 = 特定の条件下で特定の条件列を無視する T3(x1, x2) = x2+1 3 : x1= 0 : x1 =1
35.
35 Copyright©2014 NTT
corp. All Rights Reserved. Partial Exchangeability p(X3|X1,X2) = ??? ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 逆にこのように Parameter Tying するには どうすればよいか? → 今までの独立性では無理
36.
36 Copyright©2014 NTT
corp. All Rights Reserved. Partial Exchangeability p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 T3(x1, x2) = ???
37.
37 Copyright©2014 NTT
corp. All Rights Reserved. Partial Exchangeability p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID 1+x1+ x2 x3=0 1 1 1 θ311 θ312 2 2 θ321 θ322 3 3 θ331 θ332 T3(x1, x2) = 1+x1+x2 部分交換可能性 = 特定の条件 T でパラメータを共有
38.
38 Copyright©2014 NTT
corp. All Rights Reserved. CPTと論理 p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ311 θ312 更に!このように Parameter Tying するには どうすればよいか?
39.
39 Copyright©2014 NTT
corp. All Rights Reserved. CPTと論理 p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 T3(x1, x2) = 1 : x1 ⊕ x2 2 : otherwise あらゆる条件は論理で記述可能!!
40.
40 Copyright©2014 NTT
corp. All Rights Reserved. CPTと論理 論理を用いたパラメータ共有 Tij ≡ “Ti(Xi:i-1) = j ”と等価な論理式 → Tij を定義 = パラメータ共有を定義 ID x1 x2 x3=0 1 T31 T32 1 0 0 θ311 θ312 1 0 2 0 1 θ321 θ322 0 1 3 1 0 θ321 θ322 0 1 4 1 1 θ331 θ332 1 0 パラメータが共有される 場所を論理式で記述
41.
41 Copyright©2014 NTT
corp. All Rights Reserved. 小まとめ p(x | θ) を効率的に定義する 論理式 Tij によりパラメータを共有する 任意のパラメータ共有を表現可能 通常の独立性では表現できない共有も可能 p(x | θ) を効率的に計算する Tij の Model counting を効率的に行う Model counting は一般には NP-hard How?
42.
42 Copyright©2014 NTT
corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する 3.離散分布を効率的に計算する by 動的計画法 4.効率的な確率計算の研究例 5.まとめ
43.
43 Copyright©2014 NTT
corp. All Rights Reserved. p(x|θ) 上で効率的に計算する Model Counting (MC) 論理式 F に対し、F(x) = 1 なる x の数 MC(F) を計算 → #P-complete 離散分布とMC MC は離散分布の積分に対応 2種類の論理式 同時分布を定義する論理式 Tij 確率事象を定義する論理式 F p(F | θ) MC(F) を計算可能 E[F]p(X|θ) を計算可能 Tij でグループ化 確率事象
44.
44 Copyright©2014 NTT
corp. All Rights Reserved. Knowledge Compilation [Darwich 02] タスク に応じて論理式を適切な 形式 に変換 変換後の形式上で 効率的に タスクを実行 タスクの例 Consistency Validity Implicant Equivalence Model Counting Model Enumeration ... 形式の例 Negation Normal Form (NNF) Decomposable NNF (DNNF) Deterministic NNF (d-NNF) d-DNNF Binary Decision Diagram (BDD) Disjunctive Normal Form (DNF) Conjunctive Normal Form (CNF) ... || 変換後の形式サイズに対して多項式時間 X1 X3 X2 0 1
45.
45 Copyright©2014 NTT
corp. All Rights Reserved. Knowledge Compilation [Darwich 02] Binary Decision Diagram [Bryant 86] 論理関数を表現する DAG (有向非循環グラフ) 様々な論理演算をサポート Zero-suppressed BDD [Minato 93] アイテムセット(集合)を効率的に表現する BDD の一種 d-DNNF [Darwiche 01] (多くの場合で) BDD よりもコンパクトな論理関数のDAG表現 コンパクトに圧縮される → 効率的に計算できる
46.
46 Copyright©2014 NTT
corp. All Rights Reserved. Compiling Probabilistic Models 1.離散同時分布を論理式 F, Tij を用いて定義 2.適切なデータ構造に Compile (圧縮) 3.データ構造上で Dynamic Programming を実行 X1 X3 X2 0 1 Model Ti1 = (X1∨X2)∧X3 Ti2 = ¬Til ∧ X4 Ti3 = ¬(Ti1∨Ti2) .... Observation F = X1 ∨ X2 1. Modeling 2. Compiling 3. Dynamic Programming X1 X3 X2 0 1
47.
47 Copyright©2014 NTT
corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する by 動的計画法 4.効率的な確率計算の研究例 1.Compiling Bayesian Network 2.Probabilistic Logic Programming 3.Lifted Inference 4.発想の転換 5.まとめ
48.
48 Copyright©2014 NTT
corp. All Rights Reserved. Compiling Bayesian Network Bayesian Network (BN) [Pearl 85] DAG + CPT で同時分布を定義 DAG = 条件付き独立 を定義 CPT = 条件付き確率 を定義 X1 X2 X3 X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x3=0 1 1 0 θ311 θ312 2 1 θ321 θ322
49.
49 Copyright©2014 NTT
corp. All Rights Reserved. Compiling Bayesian Network Belief Propagation (BP) [Pearl 82] 木構造 BN の周辺確率を計算 計算量は BN のサイズに比例 Junction Tree Algorithm [Lauritzen88] 一般のBNを木に変換 変換後の木で BP を実行 X3 X4 X5 X1 X2 m34(x3) m35(x3) m31(x3) m32(x3) Junction Tree 1 2 3 4 5 6 Bayesian Network 1,2,3 2,3,4 3,4,6 3,5,6 Context Specific Independence を効率に扱えない
50.
50 Copyright©2014 NTT
corp. All Rights Reserved. Compiling Bayesian Network DAG + CPT を合わせて別の構造に Compile (圧縮) 変換後の構造上の DP で確率計算 → Context Specific Independence を効率的に扱える BDD に変換 [Ishihata+ 11a] ZDD に変換 [Minato+ 07] d-DNNF に変換 [Chavira+ 05, 07]
51.
51 Copyright©2014 NTT
corp. All Rights Reserved. Probabilistic Logic Programming Model (Language) Structure PRISM [Sato+ 01] Explanation Graph / BDD LPAD [Vennekens+ 04] BDD Markov Logic [Richardson+06] d-DNNF ProbLog [DeRaedt+07] BDD / d-DNNF EM algorithm on BDDs [Ishihata+ 08] Variational Bayes on BDDs [Ishiahta+ 11b] MCMC-Bayes on BDDs [Ishihata+ 11c] 述語論理を利用して確率モデルを定義 [DeRaedt+ 08] Statistical Relational Learning とも呼ばれる [Getoor+ 07] 推論、学習を行う処理系を含む 詳しくは亀谷先生のチュートリアル参照 [亀谷 11]
52.
52 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference 当初 : Lifted Inference [Poole 03] 述語論理を利用して効率的に確率を定義・計算する 述語 : Friend(X,Y), Smoke(X), X, Y ∈ D ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) ドメイン : D ≡ {Alice, Bob, Charlie, ...} 確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 述語ルールで複数の確率変数の関係をまとめて記述
53.
53 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference 当初 : Lifted Inference [Poole 03] 述語論理を利用して効率的に確率を定義・計算する 述語 : Friend(X,Y), Smoke(X), X, Y ∈ D ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) ドメイン : D ≡ {Alice, Bob, Charlie, ...} 確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 現在 : Domain-lifted Inference [Broeck 11b] 確率推論が ドメインサイズ |D| の多項式時間 O(Poly(|D|)) 変数の数 = O( Poly(|D|) ) 通常の計算量 = O( 2Poly(|D|) ) “効率的” = 曖昧な定義 Lift!!
54.
54 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference の Trick Partial Exchangeability in First-Order Logic 述語論理 = 1ルールで複数変数の関係を記述 → 似た関係をもつ変数が大量に発生 → Partial Exchangeability First-Order Model Counting [Broeck 11] 述語論理の MC を命題論理を経由せずに計算 述語論理の対称性を利用することで効率化
55.
55 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference の Trick First-Order d-DNNF [Broeck 11a] d-DNNF を述語論理に拡張 Partial Exchangeability を非常に効率的に表現 → O(2Poly(N)) を O(Poly(N)) に削減 FO d-DNNF は万能か?? No!! モデルの持つ対称性に依存 強い対称性を仮定 [Broack+ 12] (2項関係の観測があると #P-hard)
56.
56 Copyright©2014 NTT
corp. All Rights Reserved. 発想の転換 従来の考え 論理で確率モデルを記述 論理を別形式 (BDD, d-DNNF,...) に Compile (圧縮) 別形式がコンパクトなら効率的に計算可能 発想の転換 はじめからコンパクトな形式で確率モデルを定義
57.
57 Copyright©2014 NTT
corp. All Rights Reserved. Sum-Product Network d-DNNF と似た構造を利用して p(x) を定義 •厳密計算 [Poon+ 11] ← UAI Best Paper •パラメータ学習 [Gens+ 12] ← NIPS Best Paper •構造学習 [Gens+ 13] •ID-SPN [Rooshenas+ 14] Sum-Product Network Compiling BN to d-DNNF
58.
58 Copyright©2014 NTT
corp. All Rights Reserved. Exchangeable Variable Model Exchangeable Variable Model [Niepert+ 14b] Exchangeable Component の混合分布 Naïve Bayes を Partial Exchangeability に一般化 単純な計算で SVM 並みの性能 Exchangeable Component Partial Exchangeable が成り立つ変数集合 X の生成分布 T(X) の値 j を生成し、 T(x) = j なる x を一様に生成
59.
59 Copyright©2014 NTT
corp. All Rights Reserved. Generating Graphical models [Ishihata+ 14] •データは順序木で表現される構造を持つと仮定 •構造を元に効率的に計算できる範囲で Graphical Model を生成 文書データを表す順序木 Mixture, LDA, HMM その組合せを含む 様々なモデルからデータにあったものを生成
60.
60 Copyright©2014 NTT
corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する by 動的計画法 4.論理を用いた確率計算の例 5.まとめ
61.
61 Copyright©2014 NTT
corp. All Rights Reserved. まとめ ~ 2010 年 離散分布は複雑 離散分布は 論理 を用いて効率的に定義可能 (Probabilistic Logic) 論理 は グラフ構造 を用いて効率的に計算可能 (Knowledge Compilation) 2010年~ 最も効率的に計算できるのはどのようなときか? (Lifted Inference) 離散分布を直接効率的に計算できるグラフで定義 (Tractable model) 人工知能ブーム Deep Learning に便乗 論理(やグラフ)という古き良き AI の技を ML 業界で流行らせたい (という意図が見られる)
62.
Copyright©2014 NTT corp.
All Rights Reserved. Reference
63.
63 Copyright©2014 NTT
corp. All Rights Reserved. Knowledge Compilation [Darwiche 02] Adnan Darwiche: “A Knowledge Compilation Map”, JAIR, 2002 [Bryant 86] Randal E. Bryant: "Graph-Based Algorithms for Boolean Function Manipulation”, IEEE Transactions on Computers, 1986 [Minato 93] Shin-ichi Minato: "Zero-suppressed BDDs for set manipulation in combinatorial problems", DAC '93 [Darwiche 01] Adnan Darwiche: “On the tractability of counting theory models and its application to belief revision and truth maintenance”, Journal of Applied Non- Classical Logics 2001
64.
64 Copyright©2014 NTT
corp. All Rights Reserved. Bayesian Networks [Pearl 85] Judea Pearl: “Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning”, CogSci85 [Pearl 82] Judea Pearl: “Reverend Bayes on inference engines: A distributed hierarchical approach”, AAAI Press [Kim+ 83] Jin H Kim, Judea Pearl: “A computational model for combined causal and diagnostic reasoning in inference systems”, IJCAI83 [Pearl 88] Judea Pearl: “Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference” [Lauritzen88] Lauritzen, S.L. and Spiegelhalter, D.: “local computations with probabilities on graphical structures and their application to expert systems”, JRSS88 [Boutilier+ 96] C. Boutilier, N. Friedman, M. Goldszmidt, and D. Koller: “Context-Specific Independence in Bayesian Networks”, UAI96
65.
65 Copyright©2014 NTT
corp. All Rights Reserved. Compiling Bayesian Networks [Chavira+ 05] Mark Chavira, Adnan Darwiche: “Compiling Bayesian Networks with Local Structure”, IJCAI05 [Minato+ 07] S. Minato, K. Satoh, and T. Sato: “Compiling Bayesian Networks by Symbolic Probability Calculation Based on Zero-suppressed BDDs”, IJCAI07 [Chavira+ 07] “Compiling Bayesian Networks Using Variable Elimination ”, IJCAI07 [Ishihata+ 11] M. Ishihata, T. Sato and S. Minato: "Compiling Bayesian Networks for Parameter Learning based on Shared BDDs“, AAI11
66.
66 Copyright©2014 NTT
corp. All Rights Reserved. Probabilistic Logic Programming [Getoor+ 07] Lise Getoor and Ben Taskar: “Introduction to Statistical Relational Learning”, MIT Press [DeRaedt+ 08] L. DeRaedt and K. Kersting: “Probabilistic inductive logic programming”, Springer [Sato+ 01] T. Sato and Y. Kameya: “Parameter learning of logic programs for symbolic-statistical modeling”, JAIR [Vennekens+ 04] Vennekens, J., Verbaeten, S., Bruynooghe, M.: “Logic programs with annotaqted disjunctions”, ICLP04 [Richardson+ 06] M. Richardson and P. Domingos: “Markov logic networks”, Machine Learning [DeRaedt+ 07] L. De Raedt, A. Kimming and H. Toivonen: “ProbLog: a probabilistic Prolog and its application in link discovery”, IJCAI07 [亀谷 11] 亀谷由隆: “論理に基づく確率モデリングのこれまで,これから”, 第 4回 IBISML チュートリアル
67.
67 Copyright©2014 NTT
corp. All Rights Reserved. Lifted Inference [Poole 03] David Poole “First-order probabilistic inference”, IJCAI03 [Broeck 11a] Guy Van den Broeck, Nima Taghipour, Wannes Meert, Jesse Davis and Luc De Raedt: “Lifted Probabilistic Inference by First-Order Knowledge Comppilation”, IJCAI11 [Broeck 11b] Guy Van den Broeck: “On the completeness of first-order knowledge compilation for lifted probabilistic inference”, NIPS11 [Broeck+ 12] Guy Van den Broeck and Adnan Darwiche: “On the complexity and approximation of binary evidence in lifted inference”, NIPS12 [Niepert+ 14a] Mathias Niepert and Guy Van den Broeck: “Tractability through Exchangeability: A New Perspective on Efficient Probabilistic Inference”, AAAI’14
68.
68 Copyright©2014 NTT
corp. All Rights Reserved. Tractable Probabilistic Models [Poon+ 11] Hoifung Poon and Pedro Domingos: “Sum-Product Networks: A New Deep Architecture”, UAI11 [Gens+ 12] Robert Gens and Pedro Domingos: “Discriminative Learning of Sum-Product Networks”, NIPS12 [Gens+ 13] Robert Gens and Pedro Domingos: “Learning the Structure of Sum-Product Networks”, ICML13 [Rooshenas+ 14] Amirmohammad Rooshenas and Daniel Lowd: “Learning Sum-Product Networks with Direct and Indirect Variable Interactions”, ICML14 [Niepert+ 14b] Mathias Niepert and Pedro Domingos: “Exchangeable Variable Models”, ICML14 [Ishihata+ 14] Masakazu Ishihata and Tomoharu Iwata: “Generating structure of latent variable models for nested data”, UAI14
Download