SlideShare a Scribd company logo
Copyright©2014 NTT corp. All Rights Reserved. 
離散構造と離散分布 
NTT コミュニケーション科学基礎研究所 
石畠正和 
第17回情報論的学習理論ワークショップ(IBIS2014) 
離散アルゴリズムの機械学習応用
2 
Copyright©2014 NTT corp. All Rights Reserved. 
石畠正和 
経歴 
2006 石川高専 修了 
2008 東工大 学部 修了 
2010 東工大 修士 修了 
2013 東工大 博士 修了 
2013 NTT CS 研 入社 
指導教官 
佐藤泰介 教授 
研究内容 
論理に基づく確率モデリング 論理と確率を合言葉に!
Copyright©2014 NTT corp. All Rights Reserved. 3 
今日、伝えたいこと 
• 離散分布の複雑さ 
• 離散分布と離散構造 (主に論理) の関係 
• Lifted Inference のアイディア 
離散って 
足すだけじゃん(笑) 
論理って 
いつの話だよ(笑) 
こういう人に伝えたい!!
4 
Copyright©2014 NTT corp. All Rights Reserved. 
今日、伝えないこと 
•具体的な 論理を用いた確率計算 
•具体的な Lifted Inference の計算方法 
どうしても論理の基礎知識が必要になるので…。 
想定する聴衆 
確率 → 使ったことある 
論理 → 詳しくない 
動的計画法 → あー、あるよね 
Bayesian Network → あー、グラフィカルモデルね? 
Lifted Inference → あー、どっかの会議で見たかも
5 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference 
当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 
現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a]
6 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference 
当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 
現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a] 
Tutorials 
•“Lifted inference in Probabilistic logical Models”, IJCAI11 
•“Probabilistic Inference in Relational Models”, UAI14 
•“Lifted Approximate Inference: Methods and Theory”, AAAI14 
Workshops 
•StarAI: Statistical Relational AI, AAAI10, UAI12, AAAI13-14 
•LTPM: Learning Tractable Probabilistic Models, ICML14 
•BUDA: Big Uncertain Data, SIGMOD14 
実は流行ってます!!
7 
Copyright©2014 NTT corp. All Rights Reserved. 
1ページ要約 
離散分布は実は複雑  
組み合わせ爆発 
論理を使うと 
効率的に定義できる  
論理をグラフに変換し 
効率的に扱う 
論理+グラフで効率的に 離散分布を計算・学習! 
Lifted Inference この組合せが最も力を 発揮できる場合を追求! 
AI 
ML
8 
Copyright©2014 NTT corp. All Rights Reserved. 
目次 
1.離散分布の複雑さ 
2.離散分布を効率的に定義する 
3.離散分布を効率的に計算する 
4.効率的な確率計算の研究例 
5.まとめ
Copyright©2014 NTT corp. All Rights Reserved. 9 
離散分布 
Bernoulli 分布 (= コイン) 
p(x | θ) = θx (1-θ)1-x, 
x∈{0,1}, θ ∈[0,1] 
Categorical 分布 (= サイコロ) 
p(x | θ) = Πi θi 
[x=i] = θx 
x∈{1,...,M}, θ=(θ1,...,θM), θi∈[0,1], Σi θi = 1 
離散確率変数 
離散値を取る確率変数 
この発表では有限の値 
p(表) = θ 
p(裏) =1-θ 
p(1) = θ1 
p(2) = θ2 
... 
p(6) = θ6 
(Σi=1...6 θi = 1)
10 
Copyright©2014 NTT corp. All Rights Reserved. 
ID 
x1 
x2 
x3 
p(x) 
1 
0 
0 
0 
θ1 
2 
0 
0 
1 
θ2 
3 
0 
1 
0 
θ3 
4 
0 
1 
1 
θ4 
5 
1 
0 
0 
θ5 
6 
1 
0 
1 
θ6 
7 
1 
1 
0 
θ7 
8 
1 
1 
1 
θ8 
離散確率変数の同時分布 
•Xi = 離散確率変数, xi∈{0,1} 
•X = (X1,...,XN), x ∈Ω ≡{0, 1}N 
•p(X = x | θ) = θID(x) 
•θ=(θ1,...,θM), θi∈[0,1], Σi θi =1 
M = 2N 
任意の同時分布を定めるには指数個のパラメータが必要 
X の確率表 
離散同時分布
11 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
X1 の CPT 
条件付き確率の定義より、 
X の確率表は各 Xi の条件付き確率表(CPT)で定義可能 
CPT = Conditional Probability Table 
ID 
x1=0 
1 
1 
θ111 
θ112 
X2 の CPT 
X3 の CPT
12 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
θijk ≡ 表 i の行 j の列 k のパラメータ 
= p(Xi = xik | ID(x1:i-1) = j) 
3 
2 
1 
xik ≡ Xi の k 番目の値 
x1:i ≡ (x1,...,xi) 
X1 の CPT 
X2 の CPT 
X3 の CPT
13 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 
θijk ≡ 表 i の行 j の列 k のパラメータ 
= p(Xi = xik | ID(x1:i-1) = j) 
X1 の CPT 
X2 の CPT 
X3 の CPT
14 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
θijk ≡ 表 i の行 j の列 k のパラメータ 
= p(Xi = xik | ID(x1:i-1) = j) 
p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 
X1 の CPT 
X2 の CPT 
X3 の CPT
15 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
θijk ≡ 表 i の行 j の列 k のパラメータ 
= p(Xi = xik | ID(x1:i-1) = j) 
p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 
X1 の CPT 
X2 の CPT 
X3 の CPT
16 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
ただし 
θijk ≡ 表 i の行 j の列 k のパラメータ 
= p(Xi = xik | ID(x1:i-1) = j) 
p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 
X1 の CPT 
X2 の CPT 
X3 の CPT
17 
Copyright©2014 NTT corp. All Rights Reserved. 
条件付き確率 
p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ341 
θ342 
p(x1) > 0 
p(x1,x2) > 0 
条件付き確率に分解してもパラメータは指数個  
ただし 
各行が Categorical 分布 
X1 の CPT 
X2 の CPT 
X3 の CPT
18 
Copyright©2014 NTT corp. All Rights Reserved. 
計算したい量 
同時確率 p(x | θ) = θID(x), x∈Ω≡{0,1}N 
周辺確率 p(e | θ) = Σx∈e p(x | θ), e ⊆Ω 
期待値 E[F]p(X|e,θ) ≡ Σx∈Ω F(x)p(x | e,θ) 
Viterbi 値 x* ≡ argmaxx p(x | e,θ) 
最尤推定量 θ* ≡ argmaxθ Πe∈E p(e|θ), E={e1,e2,...} 
事後分布 p(θ | E) 
愚直に計算すると指数的な時間を要する(NP-hard) 
19 
Copyright©2014 NTT corp. All Rights Reserved. 
命題論理 
論理式 F 
命題変数と論理演算と括弧の組合せ 
論理関数を表現 
F = (X1∧X2)∨X3 
論理関数 F(X) 
F : {0,1}N → {0,1} 
F(1,1,1) = 1 
真理値表 
x と F(x) の対応表 
ID 
x1 
x2 
x3 
F 
1 
0 
0 
0 
0 
2 
0 
0 
1 
1 
3 
0 
1 
0 
0 
4 
0 
1 
1 
1 
5 
1 
0 
0 
0 
6 
1 
0 
1 
1 
7 
1 
1 
0 
1 
8 
1 
1 
1 
1 
F の真理値表
20 
Copyright©2014 NTT corp. All Rights Reserved. 
計算量 
F を X 上の論理式、F(X) を F が表す論理関数とする 
Satisfiability (SAT) problem [Cook 71] 
F(x) = 1 なる x が存在する(充足可能)か判定する 
→ NP-complete 
Model Counting (MC) problem 
F(x) = 1 なる x の数 MC(F) を求める 
→ #P-complete
21 
Copyright©2014 NTT corp. All Rights Reserved. 
計算量 
論理式の確率 
p(F | θ) ≡ Σx∈Ω F(x)p(x | θ) = E[F]p(X|θ) 
離散分布と SAT 
p(X | θ) を ∀x ( p(x | θ) > 0 ) なる X の同時分布とする 
このとき、 p(F | θ) > 0 ⇔ 論理式 F は充足可能 
→ NP-complete 
離散分布と MC 
p(X | θ) を ∀x ( p(x | θ) = 1/2N ) なる X の一様分布とする 
このとき、 p(F | θ) = M / 2N ⇔ MC(F) = M 
→ #P-complete
22 
Copyright©2014 NTT corp. All Rights Reserved. 
離散分布と積分 
X が連続のとき 
E[F]p(X) ≡ ∫ F(x)p(x)dx 
が解析的に計算できると嬉しい 
X が離散のとき 
E[F]p(X) ≡ Σx F(x)p(x) 
が ???? で計算できると嬉しい
23 
Copyright©2014 NTT corp. All Rights Reserved. 
離散分布と積分 
X が連続のとき 
E[F]p(X) ≡ ∫ F(x)p(x)dx 
が解析的に計算できると嬉しい 
X が離散のとき 
E[F]p(X) ≡ Σx F(x)p(x) 
が多項式時間で計算できると嬉しい 
 Model counting が多項式時間で解ける 
離散における積分 = Model Counting (Model Enumeration)
24 
Copyright©2014 NTT corp. All Rights Reserved. 
離散分布の複雑さ (まとめ) 
離散分布は 
愚直に定義、愚直に計算すると指数  
効率的な定義 = パラメータ数が多項式 
効率的な計算 = 計算量が多項式 
離散分布を 
効率的に定義、効率的に計算したい 
25 
Copyright©2014 NTT corp. All Rights Reserved. 
目次 
1.離散分布の複雑さ 
2.離散分布を効率的に定義する by 論理 
3.離散分布を効率的に計算する 
4.効率的な確率計算の研究例 
5.まとめ
26 
Copyright©2014 NTT corp. All Rights Reserved. 
p(x|θ) を効率的に定義する 
ID 
x1 
x2 
... 
xi-1 
xi=0 
1 
1 
0 
0 
... 
0 
θi11 
θi12 
2 
0 
0 
... 
1 
θi21 
θi22 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
2i-1-1 
1 
1 
... 
0 
... 
... 
2i-1 
1 
1 
... 
1 
θi2i-11 
θi2i-12 
ID 
xi=0 
1 
1 
θi11 
θi12 
2 
θi21 
θi22 
... 
... 
... 
Mi 
θiMi1 
θiMi2 
パラメータを共有する 
??? 
Xi の条件付き確率表 (CPT) = 指数サイズ 
Xi のコンパクトな CPT 
Mi = 多項式サイズ 
p(Xi | X1:i-1, θ) 
p(Xi | X1:i-1, θ) 
写像 
Ti
27 
Copyright©2014 NTT corp. All Rights Reserved. 
p(x|θ) を効率的に定義する 
パラメータを共有する 
ID 
Ti(x1:i-1) 
xi=0 
1 
1 
1 
θi11 
θi12 
2 
2 
θi21 
θi22 
... 
... 
... 
... 
Mi 
Mi 
θiMi1 
θiMi2 
Parameter Tying (Sharing) 
Ti : {0,1}i-1 → {1,...,Mi} 
p(Xi = xik | Ti(x1:i-1) = j, θ) ≡ θijk 
パラメータ数 2i-1 → Mi 
問題 
Ti をどう定める? 
→ Ti を決める = 独立性を仮定 
x1:i-1 = (x1,x2,...,xi-1) x1:i-1 ∈{0,1}i-1 
Xi のコンパクトな CPT 
p(Xi | X1:i-1, θ)
28 
Copyright©2014 NTT corp. All Rights Reserved. 
離散分布と独立性 
1.Independence 
2.Conditional Independence 
3.Context Specific Independence [Boutilier+ 96] 
4.Partial Exchangeability [Niepert+ 14a] 
強い仮定 
弱い仮定
29 
Copyright©2014 NTT corp. All Rights Reserved. 
Independence 
p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ211 
θ212 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ311 
θ312 
3 
1 
0 
θ311 
θ312 
4 
1 
1 
θ311 
θ312 
X1 の CPT 
X2 の CPT 
X3 の CPT 
独立性 = すべての条件列を無視する
30 
Copyright©2014 NTT corp. All Rights Reserved. 
Independence 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
* 
θ211 
θ212 
ID 
x1 
x2 
x3=0 
1 
1 
* 
* 
θ311 
θ312 
独立性 = すべての条件列を無視する 
p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 
T2(x1) = 1, T3(x1, x2) = 1
31 
Copyright©2014 NTT corp. All Rights Reserved. 
Conditional Independence 
p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ311 
θ312 
3 
1 
0 
θ321 
θ322 
4 
1 
1 
θ321 
θ322 
条件付き独立性 = 特定の条件列を無視する
32 
Copyright©2014 NTT corp. All Rights Reserved. 
Conditional Independence 
p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
* 
θ311 
θ312 
2 
1 
* 
θ321 
θ322 
条件付き独立性 = 特定の条件列を無視する 
T3(x1, x2) = 1+x1
33 
Copyright©2014 NTT corp. All Rights Reserved. 
Context Specific Independence 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ331 
θ332 
4 
1 
1 
θ331 
θ332 
p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 
文脈依存独立性 = 特定の条件下で特定の条件列を無視する
34 
Copyright©2014 NTT corp. All Rights Reserved. 
Context Specific Independence 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
* 
θ331 
θ332 
p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 
文脈依存独立性 = 特定の条件下で特定の条件列を無視する 
T3(x1, x2) = 
x2+1 
3 
: x1= 0 
: x1 =1
35 
Copyright©2014 NTT corp. All Rights Reserved. 
Partial Exchangeability 
p(X3|X1,X2) = ??? 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ321 
θ322 
4 
1 
1 
θ331 
θ332 
逆にこのように Parameter Tying するには 
どうすればよいか? 
→ 今までの独立性では無理 
36 
Copyright©2014 NTT corp. All Rights Reserved. 
Partial Exchangeability 
p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ321 
θ322 
4 
1 
1 
θ331 
θ332 
T3(x1, x2) = ???
37 
Copyright©2014 NTT corp. All Rights Reserved. 
Partial Exchangeability 
p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
1+x1+ x2 
x3=0 
1 
1 
1 
θ311 
θ312 
2 
2 
θ321 
θ322 
3 
3 
θ331 
θ332 
T3(x1, x2) = 1+x1+x2 
部分交換可能性 = 特定の条件 T でパラメータを共有
38 
Copyright©2014 NTT corp. All Rights Reserved. 
CPTと論理 
p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ321 
θ322 
4 
1 
1 
θ311 
θ312 
更に!このように Parameter Tying するには 
どうすればよいか?
39 
Copyright©2014 NTT corp. All Rights Reserved. 
CPTと論理 
p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x2 
x3=0 
1 
1 
0 
0 
θ311 
θ312 
2 
0 
1 
θ321 
θ322 
3 
1 
0 
θ321 
θ322 
4 
1 
1 
θ331 
θ332 
T3(x1, x2) = 
1 : x1 ⊕ x2 
2 : otherwise 
あらゆる条件は論理で記述可能!!
40 
Copyright©2014 NTT corp. All Rights Reserved. 
CPTと論理 
論理を用いたパラメータ共有 
Tij ≡ “Ti(Xi:i-1) = j ”と等価な論理式 
→ Tij を定義 = パラメータ共有を定義 
ID 
x1 
x2 
x3=0 
1 
T31 
T32 
1 
0 
0 
θ311 
θ312 
1 
0 
2 
0 
1 
θ321 
θ322 
0 
1 
3 
1 
0 
θ321 
θ322 
0 
1 
4 
1 
1 
θ331 
θ332 
1 
0 
パラメータが共有される 
場所を論理式で記述
41 
Copyright©2014 NTT corp. All Rights Reserved. 
小まとめ 
p(x | θ) を効率的に定義する 
論理式 Tij によりパラメータを共有する 
任意のパラメータ共有を表現可能  
通常の独立性では表現できない共有も可能  
p(x | θ) を効率的に計算する 
Tij の Model counting を効率的に行う 
Model counting は一般には NP-hard  
How?
42 
Copyright©2014 NTT corp. All Rights Reserved. 
目次 
1.離散分布の複雑さ 
2.離散分布を効率的に定義する 
3.離散分布を効率的に計算する by 動的計画法 
4.効率的な確率計算の研究例 
5.まとめ
43 
Copyright©2014 NTT corp. All Rights Reserved. 
p(x|θ) 上で効率的に計算する 
Model Counting (MC) 
論理式 F に対し、F(x) = 1 なる x の数 MC(F) を計算 
→ #P-complete 
離散分布とMC 
MC は離散分布の積分に対応 
2種類の論理式 
同時分布を定義する論理式 Tij 
確率事象を定義する論理式 F 
p(F | θ) 
MC(F) を計算可能 
 E[F]p(X|θ) を計算可能 
Tij でグループ化 
確率事象
44 
Copyright©2014 NTT corp. All Rights Reserved. 
Knowledge Compilation [Darwich 02] 
タスク に応じて論理式を適切な 形式 に変換 
変換後の形式上で 効率的に タスクを実行 
タスクの例 
Consistency 
Validity 
Implicant 
Equivalence 
Model Counting 
Model Enumeration 
... 
形式の例 
Negation Normal Form (NNF) 
Decomposable NNF (DNNF) 
Deterministic NNF (d-NNF) 
d-DNNF 
Binary Decision Diagram (BDD) 
Disjunctive Normal Form (DNF) 
Conjunctive Normal Form (CNF) 
... 
|| 
変換後の形式サイズに対して多項式時間 
X1 
X3 
X2 
0 
1
45 
Copyright©2014 NTT corp. All Rights Reserved. 
Knowledge Compilation [Darwich 02] 
Binary Decision Diagram [Bryant 86] 
論理関数を表現する DAG (有向非循環グラフ) 
様々な論理演算をサポート 
Zero-suppressed BDD [Minato 93] 
アイテムセット(集合)を効率的に表現する BDD の一種 
d-DNNF [Darwiche 01] 
(多くの場合で) BDD よりもコンパクトな論理関数のDAG表現 
コンパクトに圧縮される → 効率的に計算できる
46 
Copyright©2014 NTT corp. All Rights Reserved. 
Compiling Probabilistic Models 
1.離散同時分布を論理式 F, Tij を用いて定義 
2.適切なデータ構造に Compile (圧縮) 
3.データ構造上で Dynamic Programming を実行 
X1 
X3 
X2 
0 
1 
Model 
Ti1 = (X1∨X2)∧X3 
Ti2 = ¬Til ∧ X4 
Ti3 = ¬(Ti1∨Ti2) 
.... 
Observation 
F = X1 ∨ X2 
1. Modeling 
2. Compiling 
3. Dynamic Programming 
X1 
X3 
X2 
0 
1
47 
Copyright©2014 NTT corp. All Rights Reserved. 
目次 
1.離散分布の複雑さ 
2.離散分布を効率的に定義する by 論理 
3.離散分布を効率的に計算する by 動的計画法 
4.効率的な確率計算の研究例 
1.Compiling Bayesian Network 
2.Probabilistic Logic Programming 
3.Lifted Inference 
4.発想の転換 
5.まとめ
48 
Copyright©2014 NTT corp. All Rights Reserved. 
Compiling Bayesian Network 
Bayesian Network (BN) [Pearl 85] 
DAG + CPT で同時分布を定義 
DAG = 条件付き独立 を定義 
CPT = 条件付き確率 を定義 
X1 
X2 
X3 
X2⊥⊥X3 | X1 
ID 
x1=0 
1 
1 
θ111 
θ112 
ID 
x1 
x2=0 
1 
1 
0 
θ211 
θ212 
2 
1 
θ221 
θ222 
ID 
x1 
x3=0 
1 
1 
0 
θ311 
θ312 
2 
1 
θ321 
θ322
49 
Copyright©2014 NTT corp. All Rights Reserved. 
Compiling Bayesian Network 
Belief Propagation (BP) [Pearl 82] 
木構造 BN の周辺確率を計算 
計算量は BN のサイズに比例 
Junction Tree Algorithm [Lauritzen88] 
一般のBNを木に変換 
変換後の木で BP を実行 
X3 
X4 
X5 
X1 
X2 
m34(x3) 
m35(x3) 
m31(x3) 
m32(x3) 
Junction Tree 
1 
2 
3 
4 
5 
6 
Bayesian Network 
1,2,3 
2,3,4 
3,4,6 
3,5,6 
Context Specific Independence 
を効率に扱えない 
50 
Copyright©2014 NTT corp. All Rights Reserved. 
Compiling Bayesian Network 
DAG + CPT を合わせて別の構造に Compile (圧縮) 
変換後の構造上の DP で確率計算 
→ Context Specific Independence を効率的に扱える 
BDD に変換 
[Ishihata+ 11a] 
ZDD に変換 [Minato+ 07] 
d-DNNF に変換 
[Chavira+ 05, 07]
51 
Copyright©2014 NTT corp. All Rights Reserved. 
Probabilistic Logic Programming 
Model (Language) 
Structure 
PRISM [Sato+ 01] 
Explanation Graph / BDD 
LPAD [Vennekens+ 04] 
BDD 
Markov Logic [Richardson+06] 
d-DNNF 
ProbLog [DeRaedt+07] 
BDD / d-DNNF 
EM algorithm on BDDs [Ishihata+ 08] 
Variational Bayes on BDDs [Ishiahta+ 11b] 
MCMC-Bayes on BDDs [Ishihata+ 11c] 
述語論理を利用して確率モデルを定義 [DeRaedt+ 08] 
Statistical Relational Learning とも呼ばれる [Getoor+ 07] 
推論、学習を行う処理系を含む 
詳しくは亀谷先生のチュートリアル参照 
[亀谷 11]
52 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference 
当初 : Lifted Inference [Poole 03] 
述語論理を利用して効率的に確率を定義・計算する 
述語 : Friend(X,Y), Smoke(X), X, Y ∈ D 
ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) 
ドメイン : D ≡ {Alice, Bob, Charlie, ...} 
確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 
述語ルールで複数の確率変数の関係をまとめて記述
53 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference 
当初 : Lifted Inference [Poole 03] 
述語論理を利用して効率的に確率を定義・計算する 
述語 : Friend(X,Y), Smoke(X), X, Y ∈ D 
ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) 
ドメイン : D ≡ {Alice, Bob, Charlie, ...} 
確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 
現在 : Domain-lifted Inference [Broeck 11b] 
確率推論が ドメインサイズ |D| の多項式時間 O(Poly(|D|)) 
変数の数 = O( Poly(|D|) ) 
通常の計算量 = O( 2Poly(|D|) ) 
“効率的” = 曖昧な定義 
Lift!!
54 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference の Trick 
Partial Exchangeability in First-Order Logic 
述語論理 = 1ルールで複数変数の関係を記述 
→ 似た関係をもつ変数が大量に発生 
→ Partial Exchangeability 
First-Order Model Counting [Broeck 11] 
述語論理の MC を命題論理を経由せずに計算 
述語論理の対称性を利用することで効率化
55 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference の Trick 
First-Order d-DNNF [Broeck 11a] 
d-DNNF を述語論理に拡張 
Partial Exchangeability を非常に効率的に表現 
→ O(2Poly(N)) を O(Poly(N)) に削減 
FO d-DNNF は万能か?? No!! 
モデルの持つ対称性に依存 
強い対称性を仮定 [Broack+ 12] 
(2項関係の観測があると #P-hard)
56 
Copyright©2014 NTT corp. All Rights Reserved. 
発想の転換 
従来の考え 
論理で確率モデルを記述 
論理を別形式 (BDD, d-DNNF,...) に Compile (圧縮) 
別形式がコンパクトなら効率的に計算可能 
発想の転換 
はじめからコンパクトな形式で確率モデルを定義
57 
Copyright©2014 NTT corp. All Rights Reserved. 
Sum-Product Network 
d-DNNF と似た構造を利用して p(x) を定義 
•厳密計算 [Poon+ 11] ← UAI Best Paper 
•パラメータ学習 [Gens+ 12] ← NIPS Best Paper 
•構造学習 [Gens+ 13] 
•ID-SPN [Rooshenas+ 14] 
Sum-Product Network 
Compiling BN to d-DNNF
58 
Copyright©2014 NTT corp. All Rights Reserved. 
Exchangeable Variable Model 
Exchangeable Variable Model [Niepert+ 14b] 
Exchangeable Component の混合分布 
Naïve Bayes を Partial Exchangeability に一般化 
単純な計算で SVM 並みの性能 
Exchangeable Component 
Partial Exchangeable が成り立つ変数集合 X の生成分布 
T(X) の値 j を生成し、 T(x) = j なる x を一様に生成
59 
Copyright©2014 NTT corp. All Rights Reserved. 
Generating Graphical models [Ishihata+ 14] 
•データは順序木で表現される構造を持つと仮定 
•構造を元に効率的に計算できる範囲で Graphical Model を生成 
文書データを表す順序木 
Mixture, LDA, HMM その組合せを含む 
様々なモデルからデータにあったものを生成
60 
Copyright©2014 NTT corp. All Rights Reserved. 
目次 
1.離散分布の複雑さ 
2.離散分布を効率的に定義する by 論理 
3.離散分布を効率的に計算する by 動的計画法 
4.論理を用いた確率計算の例 
5.まとめ
61 
Copyright©2014 NTT corp. All Rights Reserved. 
まとめ 
~ 2010 年 
離散分布は複雑 
離散分布は 論理 を用いて効率的に定義可能 (Probabilistic Logic) 
論理 は グラフ構造 を用いて効率的に計算可能 (Knowledge Compilation) 
2010年~ 
最も効率的に計算できるのはどのようなときか? (Lifted Inference) 
離散分布を直接効率的に計算できるグラフで定義 (Tractable model) 
人工知能ブーム 
Deep Learning に便乗 
論理(やグラフ)という古き良き AI の技を ML 業界で流行らせたい 
(という意図が見られる)
Copyright©2014 NTT corp. All Rights Reserved. 
Reference
63 
Copyright©2014 NTT corp. All Rights Reserved. 
Knowledge Compilation 
[Darwiche 02] Adnan Darwiche: “A Knowledge Compilation Map”, JAIR, 2002 
[Bryant 86] Randal E. Bryant: "Graph-Based Algorithms for Boolean Function Manipulation”, IEEE Transactions on Computers, 1986 
[Minato 93] Shin-ichi Minato: "Zero-suppressed BDDs for set manipulation in combinatorial problems", DAC '93 
[Darwiche 01] Adnan Darwiche: “On the tractability of counting theory models and its application to belief revision and truth maintenance”, Journal of Applied Non- Classical Logics 2001
64 
Copyright©2014 NTT corp. All Rights Reserved. 
Bayesian Networks 
[Pearl 85] Judea Pearl: “Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning”, CogSci85 
[Pearl 82] Judea Pearl: “Reverend Bayes on inference engines: A distributed hierarchical approach”, AAAI Press 
[Kim+ 83] Jin H Kim, Judea Pearl: “A computational model for combined causal and diagnostic reasoning in inference systems”, IJCAI83 
[Pearl 88] Judea Pearl: “Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference” 
[Lauritzen88] Lauritzen, S.L. and Spiegelhalter, D.: “local computations with probabilities on graphical structures and their application to expert systems”, JRSS88 
[Boutilier+ 96] C. Boutilier, N. Friedman, M. Goldszmidt, and D. Koller: “Context-Specific Independence in Bayesian Networks”, UAI96
65 
Copyright©2014 NTT corp. All Rights Reserved. 
Compiling Bayesian Networks 
[Chavira+ 05] Mark Chavira, Adnan Darwiche: “Compiling Bayesian Networks with Local Structure”, IJCAI05 
[Minato+ 07] S. Minato, K. Satoh, and T. Sato: “Compiling Bayesian Networks by Symbolic Probability Calculation Based on Zero-suppressed BDDs”, IJCAI07 
[Chavira+ 07] “Compiling Bayesian Networks Using Variable Elimination ”, IJCAI07 
[Ishihata+ 11] M. Ishihata, T. Sato and S. Minato: "Compiling Bayesian Networks for Parameter Learning based on Shared BDDs“, AAI11
66 
Copyright©2014 NTT corp. All Rights Reserved. 
Probabilistic Logic Programming 
[Getoor+ 07] Lise Getoor and Ben Taskar: “Introduction to Statistical Relational Learning”, MIT Press 
[DeRaedt+ 08] L. DeRaedt and K. Kersting: “Probabilistic inductive logic programming”, Springer 
[Sato+ 01] T. Sato and Y. Kameya: “Parameter learning of logic programs for symbolic-statistical modeling”, JAIR 
[Vennekens+ 04] Vennekens, J., Verbaeten, S., Bruynooghe, M.: “Logic programs with annotaqted disjunctions”, ICLP04 
[Richardson+ 06] M. Richardson and P. Domingos: “Markov logic networks”, Machine Learning 
[DeRaedt+ 07] L. De Raedt, A. Kimming and H. Toivonen: “ProbLog: a probabilistic Prolog and its application in link discovery”, IJCAI07 
[亀谷 11] 亀谷由隆: “論理に基づく確率モデリングのこれまで,これから”, 第 4回 IBISML チュートリアル
67 
Copyright©2014 NTT corp. All Rights Reserved. 
Lifted Inference 
[Poole 03] David Poole “First-order probabilistic inference”, IJCAI03 
[Broeck 11a] Guy Van den Broeck, Nima Taghipour, Wannes Meert, Jesse Davis and Luc De Raedt: “Lifted Probabilistic Inference by First-Order Knowledge Comppilation”, IJCAI11 
[Broeck 11b] Guy Van den Broeck: “On the completeness of first-order knowledge compilation for lifted probabilistic inference”, NIPS11 
[Broeck+ 12] Guy Van den Broeck and Adnan Darwiche: “On the complexity and approximation of binary evidence in lifted inference”, NIPS12 
[Niepert+ 14a] Mathias Niepert and Guy Van den Broeck: “Tractability through Exchangeability: A New Perspective on Efficient Probabilistic Inference”, AAAI’14
68 
Copyright©2014 NTT corp. All Rights Reserved. 
Tractable Probabilistic Models 
[Poon+ 11] Hoifung Poon and Pedro Domingos: “Sum-Product Networks: A New Deep Architecture”, UAI11 
[Gens+ 12] Robert Gens and Pedro Domingos: “Discriminative Learning of Sum-Product Networks”, NIPS12 
[Gens+ 13] Robert Gens and Pedro Domingos: “Learning the Structure of Sum-Product Networks”, ICML13 
[Rooshenas+ 14] Amirmohammad Rooshenas and Daniel Lowd: “Learning Sum-Product Networks with Direct and Indirect Variable Interactions”, ICML14 
[Niepert+ 14b] Mathias Niepert and Pedro Domingos: “Exchangeable Variable Models”, ICML14 
[Ishihata+ 14] Masakazu Ishihata and Tomoharu Iwata: “Generating structure of latent variable models for nested data”, UAI14

More Related Content

離散構造と離散分布

  • 1. Copyright©2014 NTT corp. All Rights Reserved. 離散構造と離散分布 NTT コミュニケーション科学基礎研究所 石畠正和 第17回情報論的学習理論ワークショップ(IBIS2014) 離散アルゴリズムの機械学習応用
  • 2. 2 Copyright©2014 NTT corp. All Rights Reserved. 石畠正和 経歴 2006 石川高専 修了 2008 東工大 学部 修了 2010 東工大 修士 修了 2013 東工大 博士 修了 2013 NTT CS 研 入社 指導教官 佐藤泰介 教授 研究内容 論理に基づく確率モデリング 論理と確率を合言葉に!
  • 3. Copyright©2014 NTT corp. All Rights Reserved. 3 今日、伝えたいこと • 離散分布の複雑さ • 離散分布と離散構造 (主に論理) の関係 • Lifted Inference のアイディア 離散って 足すだけじゃん(笑) 論理って いつの話だよ(笑) こういう人に伝えたい!!
  • 4. 4 Copyright©2014 NTT corp. All Rights Reserved. 今日、伝えないこと •具体的な 論理を用いた確率計算 •具体的な Lifted Inference の計算方法 どうしても論理の基礎知識が必要になるので…。 想定する聴衆 確率 → 使ったことある 論理 → 詳しくない 動的計画法 → あー、あるよね Bayesian Network → あー、グラフィカルモデルね? Lifted Inference → あー、どっかの会議で見たかも
  • 5. 5 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference 当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a]
  • 6. 6 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference 当初: 述語論理 を利用した効率的な離散分布の計算法 [Poole 03] 現在: Partial Exchangeability を効率的に扱う計算法 [Niepert+ 14a] Tutorials •“Lifted inference in Probabilistic logical Models”, IJCAI11 •“Probabilistic Inference in Relational Models”, UAI14 •“Lifted Approximate Inference: Methods and Theory”, AAAI14 Workshops •StarAI: Statistical Relational AI, AAAI10, UAI12, AAAI13-14 •LTPM: Learning Tractable Probabilistic Models, ICML14 •BUDA: Big Uncertain Data, SIGMOD14 実は流行ってます!!
  • 7. 7 Copyright©2014 NTT corp. All Rights Reserved. 1ページ要約 離散分布は実は複雑  組み合わせ爆発 論理を使うと 効率的に定義できる  論理をグラフに変換し 効率的に扱う 論理+グラフで効率的に 離散分布を計算・学習! Lifted Inference この組合せが最も力を 発揮できる場合を追求! AI ML
  • 8. 8 Copyright©2014 NTT corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する 3.離散分布を効率的に計算する 4.効率的な確率計算の研究例 5.まとめ
  • 9. Copyright©2014 NTT corp. All Rights Reserved. 9 離散分布 Bernoulli 分布 (= コイン) p(x | θ) = θx (1-θ)1-x, x∈{0,1}, θ ∈[0,1] Categorical 分布 (= サイコロ) p(x | θ) = Πi θi [x=i] = θx x∈{1,...,M}, θ=(θ1,...,θM), θi∈[0,1], Σi θi = 1 離散確率変数 離散値を取る確率変数 この発表では有限の値 p(表) = θ p(裏) =1-θ p(1) = θ1 p(2) = θ2 ... p(6) = θ6 (Σi=1...6 θi = 1)
  • 10. 10 Copyright©2014 NTT corp. All Rights Reserved. ID x1 x2 x3 p(x) 1 0 0 0 θ1 2 0 0 1 θ2 3 0 1 0 θ3 4 0 1 1 θ4 5 1 0 0 θ5 6 1 0 1 θ6 7 1 1 0 θ7 8 1 1 1 θ8 離散確率変数の同時分布 •Xi = 離散確率変数, xi∈{0,1} •X = (X1,...,XN), x ∈Ω ≡{0, 1}N •p(X = x | θ) = θID(x) •θ=(θ1,...,θM), θi∈[0,1], Σi θi =1 M = 2N 任意の同時分布を定めるには指数個のパラメータが必要 X の確率表 離散同時分布
  • 11. 11 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし X1 の CPT 条件付き確率の定義より、 X の確率表は各 Xi の条件付き確率表(CPT)で定義可能 CPT = Conditional Probability Table ID x1=0 1 1 θ111 θ112 X2 の CPT X3 の CPT
  • 12. 12 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) 3 2 1 xik ≡ Xi の k 番目の値 x1:i ≡ (x1,...,xi) X1 の CPT X2 の CPT X3 の CPT
  • 13. 13 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) X1 の CPT X2 の CPT X3 の CPT
  • 14. 14 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
  • 15. 15 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
  • 16. 16 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 ただし θijk ≡ 表 i の行 j の列 k のパラメータ = p(Xi = xik | ID(x1:i-1) = j) p(X1=1, X2=1, X3=1) = θ112 θ222 θ342 X1 の CPT X2 の CPT X3 の CPT
  • 17. 17 Copyright©2014 NTT corp. All Rights Reserved. 条件付き確率 p(X1,X2,X3) = p(X1) p(X2|X1) p(X3|X1,X2) ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ341 θ342 p(x1) > 0 p(x1,x2) > 0 条件付き確率に分解してもパラメータは指数個  ただし 各行が Categorical 分布 X1 の CPT X2 の CPT X3 の CPT
  • 18. 18 Copyright©2014 NTT corp. All Rights Reserved. 計算したい量 同時確率 p(x | θ) = θID(x), x∈Ω≡{0,1}N 周辺確率 p(e | θ) = Σx∈e p(x | θ), e ⊆Ω 期待値 E[F]p(X|e,θ) ≡ Σx∈Ω F(x)p(x | e,θ) Viterbi 値 x* ≡ argmaxx p(x | e,θ) 最尤推定量 θ* ≡ argmaxθ Πe∈E p(e|θ), E={e1,e2,...} 事後分布 p(θ | E) 愚直に計算すると指数的な時間を要する(NP-hard) 
  • 19. 19 Copyright©2014 NTT corp. All Rights Reserved. 命題論理 論理式 F 命題変数と論理演算と括弧の組合せ 論理関数を表現 F = (X1∧X2)∨X3 論理関数 F(X) F : {0,1}N → {0,1} F(1,1,1) = 1 真理値表 x と F(x) の対応表 ID x1 x2 x3 F 1 0 0 0 0 2 0 0 1 1 3 0 1 0 0 4 0 1 1 1 5 1 0 0 0 6 1 0 1 1 7 1 1 0 1 8 1 1 1 1 F の真理値表
  • 20. 20 Copyright©2014 NTT corp. All Rights Reserved. 計算量 F を X 上の論理式、F(X) を F が表す論理関数とする Satisfiability (SAT) problem [Cook 71] F(x) = 1 なる x が存在する(充足可能)か判定する → NP-complete Model Counting (MC) problem F(x) = 1 なる x の数 MC(F) を求める → #P-complete
  • 21. 21 Copyright©2014 NTT corp. All Rights Reserved. 計算量 論理式の確率 p(F | θ) ≡ Σx∈Ω F(x)p(x | θ) = E[F]p(X|θ) 離散分布と SAT p(X | θ) を ∀x ( p(x | θ) > 0 ) なる X の同時分布とする このとき、 p(F | θ) > 0 ⇔ 論理式 F は充足可能 → NP-complete 離散分布と MC p(X | θ) を ∀x ( p(x | θ) = 1/2N ) なる X の一様分布とする このとき、 p(F | θ) = M / 2N ⇔ MC(F) = M → #P-complete
  • 22. 22 Copyright©2014 NTT corp. All Rights Reserved. 離散分布と積分 X が連続のとき E[F]p(X) ≡ ∫ F(x)p(x)dx が解析的に計算できると嬉しい X が離散のとき E[F]p(X) ≡ Σx F(x)p(x) が ???? で計算できると嬉しい
  • 23. 23 Copyright©2014 NTT corp. All Rights Reserved. 離散分布と積分 X が連続のとき E[F]p(X) ≡ ∫ F(x)p(x)dx が解析的に計算できると嬉しい X が離散のとき E[F]p(X) ≡ Σx F(x)p(x) が多項式時間で計算できると嬉しい  Model counting が多項式時間で解ける 離散における積分 = Model Counting (Model Enumeration)
  • 24. 24 Copyright©2014 NTT corp. All Rights Reserved. 離散分布の複雑さ (まとめ) 離散分布は 愚直に定義、愚直に計算すると指数  効率的な定義 = パラメータ数が多項式 効率的な計算 = 計算量が多項式 離散分布を 効率的に定義、効率的に計算したい 
  • 25. 25 Copyright©2014 NTT corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する 4.効率的な確率計算の研究例 5.まとめ
  • 26. 26 Copyright©2014 NTT corp. All Rights Reserved. p(x|θ) を効率的に定義する ID x1 x2 ... xi-1 xi=0 1 1 0 0 ... 0 θi11 θi12 2 0 0 ... 1 θi21 θi22 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 2i-1-1 1 1 ... 0 ... ... 2i-1 1 1 ... 1 θi2i-11 θi2i-12 ID xi=0 1 1 θi11 θi12 2 θi21 θi22 ... ... ... Mi θiMi1 θiMi2 パラメータを共有する ??? Xi の条件付き確率表 (CPT) = 指数サイズ Xi のコンパクトな CPT Mi = 多項式サイズ p(Xi | X1:i-1, θ) p(Xi | X1:i-1, θ) 写像 Ti
  • 27. 27 Copyright©2014 NTT corp. All Rights Reserved. p(x|θ) を効率的に定義する パラメータを共有する ID Ti(x1:i-1) xi=0 1 1 1 θi11 θi12 2 2 θi21 θi22 ... ... ... ... Mi Mi θiMi1 θiMi2 Parameter Tying (Sharing) Ti : {0,1}i-1 → {1,...,Mi} p(Xi = xik | Ti(x1:i-1) = j, θ) ≡ θijk パラメータ数 2i-1 → Mi 問題 Ti をどう定める? → Ti を決める = 独立性を仮定 x1:i-1 = (x1,x2,...,xi-1) x1:i-1 ∈{0,1}i-1 Xi のコンパクトな CPT p(Xi | X1:i-1, θ)
  • 28. 28 Copyright©2014 NTT corp. All Rights Reserved. 離散分布と独立性 1.Independence 2.Conditional Independence 3.Context Specific Independence [Boutilier+ 96] 4.Partial Exchangeability [Niepert+ 14a] 強い仮定 弱い仮定
  • 29. 29 Copyright©2014 NTT corp. All Rights Reserved. Independence p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ211 θ212 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ311 θ312 3 1 0 θ311 θ312 4 1 1 θ311 θ312 X1 の CPT X2 の CPT X3 の CPT 独立性 = すべての条件列を無視する
  • 30. 30 Copyright©2014 NTT corp. All Rights Reserved. Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 * θ211 θ212 ID x1 x2 x3=0 1 1 * * θ311 θ312 独立性 = すべての条件列を無視する p(X1,X2,X3) = p(X1)p(X2)p(X3) : X1⊥⊥X2, X2 ⊥⊥X3, X1 ⊥⊥X3 T2(x1) = 1, T3(x1, x2) = 1
  • 31. 31 Copyright©2014 NTT corp. All Rights Reserved. Conditional Independence p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ311 θ312 3 1 0 θ321 θ322 4 1 1 θ321 θ322 条件付き独立性 = 特定の条件列を無視する
  • 32. 32 Copyright©2014 NTT corp. All Rights Reserved. Conditional Independence p(X3|X1,X2) = p(X3|X1) : X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 * θ311 θ312 2 1 * θ321 θ322 条件付き独立性 = 特定の条件列を無視する T3(x1, x2) = 1+x1
  • 33. 33 Copyright©2014 NTT corp. All Rights Reserved. Context Specific Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ331 θ332 4 1 1 θ331 θ332 p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 文脈依存独立性 = 特定の条件下で特定の条件列を無視する
  • 34. 34 Copyright©2014 NTT corp. All Rights Reserved. Context Specific Independence ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 * θ331 θ332 p(X3|X1=x1k,X2) = p(X3|X1=x1k) : X2⊥⊥X3 | X1=x1k 文脈依存独立性 = 特定の条件下で特定の条件列を無視する T3(x1, x2) = x2+1 3 : x1= 0 : x1 =1
  • 35. 35 Copyright©2014 NTT corp. All Rights Reserved. Partial Exchangeability p(X3|X1,X2) = ??? ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 逆にこのように Parameter Tying するには どうすればよいか? → 今までの独立性では無理 
  • 36. 36 Copyright©2014 NTT corp. All Rights Reserved. Partial Exchangeability p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 T3(x1, x2) = ???
  • 37. 37 Copyright©2014 NTT corp. All Rights Reserved. Partial Exchangeability p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID 1+x1+ x2 x3=0 1 1 1 θ311 θ312 2 2 θ321 θ322 3 3 θ331 θ332 T3(x1, x2) = 1+x1+x2 部分交換可能性 = 特定の条件 T でパラメータを共有
  • 38. 38 Copyright©2014 NTT corp. All Rights Reserved. CPTと論理 p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ311 θ312 更に!このように Parameter Tying するには どうすればよいか?
  • 39. 39 Copyright©2014 NTT corp. All Rights Reserved. CPTと論理 p(X3= x3k | X1=x1, X2=x2) = θ3 T3(x1,x2) k ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x2 x3=0 1 1 0 0 θ311 θ312 2 0 1 θ321 θ322 3 1 0 θ321 θ322 4 1 1 θ331 θ332 T3(x1, x2) = 1 : x1 ⊕ x2 2 : otherwise あらゆる条件は論理で記述可能!!
  • 40. 40 Copyright©2014 NTT corp. All Rights Reserved. CPTと論理 論理を用いたパラメータ共有 Tij ≡ “Ti(Xi:i-1) = j ”と等価な論理式 → Tij を定義 = パラメータ共有を定義 ID x1 x2 x3=0 1 T31 T32 1 0 0 θ311 θ312 1 0 2 0 1 θ321 θ322 0 1 3 1 0 θ321 θ322 0 1 4 1 1 θ331 θ332 1 0 パラメータが共有される 場所を論理式で記述
  • 41. 41 Copyright©2014 NTT corp. All Rights Reserved. 小まとめ p(x | θ) を効率的に定義する 論理式 Tij によりパラメータを共有する 任意のパラメータ共有を表現可能  通常の独立性では表現できない共有も可能  p(x | θ) を効率的に計算する Tij の Model counting を効率的に行う Model counting は一般には NP-hard  How?
  • 42. 42 Copyright©2014 NTT corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する 3.離散分布を効率的に計算する by 動的計画法 4.効率的な確率計算の研究例 5.まとめ
  • 43. 43 Copyright©2014 NTT corp. All Rights Reserved. p(x|θ) 上で効率的に計算する Model Counting (MC) 論理式 F に対し、F(x) = 1 なる x の数 MC(F) を計算 → #P-complete 離散分布とMC MC は離散分布の積分に対応 2種類の論理式 同時分布を定義する論理式 Tij 確率事象を定義する論理式 F p(F | θ) MC(F) を計算可能  E[F]p(X|θ) を計算可能 Tij でグループ化 確率事象
  • 44. 44 Copyright©2014 NTT corp. All Rights Reserved. Knowledge Compilation [Darwich 02] タスク に応じて論理式を適切な 形式 に変換 変換後の形式上で 効率的に タスクを実行 タスクの例 Consistency Validity Implicant Equivalence Model Counting Model Enumeration ... 形式の例 Negation Normal Form (NNF) Decomposable NNF (DNNF) Deterministic NNF (d-NNF) d-DNNF Binary Decision Diagram (BDD) Disjunctive Normal Form (DNF) Conjunctive Normal Form (CNF) ... || 変換後の形式サイズに対して多項式時間 X1 X3 X2 0 1
  • 45. 45 Copyright©2014 NTT corp. All Rights Reserved. Knowledge Compilation [Darwich 02] Binary Decision Diagram [Bryant 86] 論理関数を表現する DAG (有向非循環グラフ) 様々な論理演算をサポート Zero-suppressed BDD [Minato 93] アイテムセット(集合)を効率的に表現する BDD の一種 d-DNNF [Darwiche 01] (多くの場合で) BDD よりもコンパクトな論理関数のDAG表現 コンパクトに圧縮される → 効率的に計算できる
  • 46. 46 Copyright©2014 NTT corp. All Rights Reserved. Compiling Probabilistic Models 1.離散同時分布を論理式 F, Tij を用いて定義 2.適切なデータ構造に Compile (圧縮) 3.データ構造上で Dynamic Programming を実行 X1 X3 X2 0 1 Model Ti1 = (X1∨X2)∧X3 Ti2 = ¬Til ∧ X4 Ti3 = ¬(Ti1∨Ti2) .... Observation F = X1 ∨ X2 1. Modeling 2. Compiling 3. Dynamic Programming X1 X3 X2 0 1
  • 47. 47 Copyright©2014 NTT corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する by 動的計画法 4.効率的な確率計算の研究例 1.Compiling Bayesian Network 2.Probabilistic Logic Programming 3.Lifted Inference 4.発想の転換 5.まとめ
  • 48. 48 Copyright©2014 NTT corp. All Rights Reserved. Compiling Bayesian Network Bayesian Network (BN) [Pearl 85] DAG + CPT で同時分布を定義 DAG = 条件付き独立 を定義 CPT = 条件付き確率 を定義 X1 X2 X3 X2⊥⊥X3 | X1 ID x1=0 1 1 θ111 θ112 ID x1 x2=0 1 1 0 θ211 θ212 2 1 θ221 θ222 ID x1 x3=0 1 1 0 θ311 θ312 2 1 θ321 θ322
  • 49. 49 Copyright©2014 NTT corp. All Rights Reserved. Compiling Bayesian Network Belief Propagation (BP) [Pearl 82] 木構造 BN の周辺確率を計算 計算量は BN のサイズに比例 Junction Tree Algorithm [Lauritzen88] 一般のBNを木に変換 変換後の木で BP を実行 X3 X4 X5 X1 X2 m34(x3) m35(x3) m31(x3) m32(x3) Junction Tree 1 2 3 4 5 6 Bayesian Network 1,2,3 2,3,4 3,4,6 3,5,6 Context Specific Independence を効率に扱えない 
  • 50. 50 Copyright©2014 NTT corp. All Rights Reserved. Compiling Bayesian Network DAG + CPT を合わせて別の構造に Compile (圧縮) 変換後の構造上の DP で確率計算 → Context Specific Independence を効率的に扱える BDD に変換 [Ishihata+ 11a] ZDD に変換 [Minato+ 07] d-DNNF に変換 [Chavira+ 05, 07]
  • 51. 51 Copyright©2014 NTT corp. All Rights Reserved. Probabilistic Logic Programming Model (Language) Structure PRISM [Sato+ 01] Explanation Graph / BDD LPAD [Vennekens+ 04] BDD Markov Logic [Richardson+06] d-DNNF ProbLog [DeRaedt+07] BDD / d-DNNF EM algorithm on BDDs [Ishihata+ 08] Variational Bayes on BDDs [Ishiahta+ 11b] MCMC-Bayes on BDDs [Ishihata+ 11c] 述語論理を利用して確率モデルを定義 [DeRaedt+ 08] Statistical Relational Learning とも呼ばれる [Getoor+ 07] 推論、学習を行う処理系を含む 詳しくは亀谷先生のチュートリアル参照 [亀谷 11]
  • 52. 52 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference 当初 : Lifted Inference [Poole 03] 述語論理を利用して効率的に確率を定義・計算する 述語 : Friend(X,Y), Smoke(X), X, Y ∈ D ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) ドメイン : D ≡ {Alice, Bob, Charlie, ...} 確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 述語ルールで複数の確率変数の関係をまとめて記述
  • 53. 53 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference 当初 : Lifted Inference [Poole 03] 述語論理を利用して効率的に確率を定義・計算する 述語 : Friend(X,Y), Smoke(X), X, Y ∈ D ルール : 0.9 ∀X,Y Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y) ドメイン : D ≡ {Alice, Bob, Charlie, ...} 確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ... 現在 : Domain-lifted Inference [Broeck 11b] 確率推論が ドメインサイズ |D| の多項式時間 O(Poly(|D|)) 変数の数 = O( Poly(|D|) ) 通常の計算量 = O( 2Poly(|D|) ) “効率的” = 曖昧な定義 Lift!!
  • 54. 54 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference の Trick Partial Exchangeability in First-Order Logic 述語論理 = 1ルールで複数変数の関係を記述 → 似た関係をもつ変数が大量に発生 → Partial Exchangeability First-Order Model Counting [Broeck 11] 述語論理の MC を命題論理を経由せずに計算 述語論理の対称性を利用することで効率化
  • 55. 55 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference の Trick First-Order d-DNNF [Broeck 11a] d-DNNF を述語論理に拡張 Partial Exchangeability を非常に効率的に表現 → O(2Poly(N)) を O(Poly(N)) に削減 FO d-DNNF は万能か?? No!! モデルの持つ対称性に依存 強い対称性を仮定 [Broack+ 12] (2項関係の観測があると #P-hard)
  • 56. 56 Copyright©2014 NTT corp. All Rights Reserved. 発想の転換 従来の考え 論理で確率モデルを記述 論理を別形式 (BDD, d-DNNF,...) に Compile (圧縮) 別形式がコンパクトなら効率的に計算可能 発想の転換 はじめからコンパクトな形式で確率モデルを定義
  • 57. 57 Copyright©2014 NTT corp. All Rights Reserved. Sum-Product Network d-DNNF と似た構造を利用して p(x) を定義 •厳密計算 [Poon+ 11] ← UAI Best Paper •パラメータ学習 [Gens+ 12] ← NIPS Best Paper •構造学習 [Gens+ 13] •ID-SPN [Rooshenas+ 14] Sum-Product Network Compiling BN to d-DNNF
  • 58. 58 Copyright©2014 NTT corp. All Rights Reserved. Exchangeable Variable Model Exchangeable Variable Model [Niepert+ 14b] Exchangeable Component の混合分布 Naïve Bayes を Partial Exchangeability に一般化 単純な計算で SVM 並みの性能 Exchangeable Component Partial Exchangeable が成り立つ変数集合 X の生成分布 T(X) の値 j を生成し、 T(x) = j なる x を一様に生成
  • 59. 59 Copyright©2014 NTT corp. All Rights Reserved. Generating Graphical models [Ishihata+ 14] •データは順序木で表現される構造を持つと仮定 •構造を元に効率的に計算できる範囲で Graphical Model を生成 文書データを表す順序木 Mixture, LDA, HMM その組合せを含む 様々なモデルからデータにあったものを生成
  • 60. 60 Copyright©2014 NTT corp. All Rights Reserved. 目次 1.離散分布の複雑さ 2.離散分布を効率的に定義する by 論理 3.離散分布を効率的に計算する by 動的計画法 4.論理を用いた確率計算の例 5.まとめ
  • 61. 61 Copyright©2014 NTT corp. All Rights Reserved. まとめ ~ 2010 年 離散分布は複雑 離散分布は 論理 を用いて効率的に定義可能 (Probabilistic Logic) 論理 は グラフ構造 を用いて効率的に計算可能 (Knowledge Compilation) 2010年~ 最も効率的に計算できるのはどのようなときか? (Lifted Inference) 離散分布を直接効率的に計算できるグラフで定義 (Tractable model) 人工知能ブーム Deep Learning に便乗 論理(やグラフ)という古き良き AI の技を ML 業界で流行らせたい (という意図が見られる)
  • 62. Copyright©2014 NTT corp. All Rights Reserved. Reference
  • 63. 63 Copyright©2014 NTT corp. All Rights Reserved. Knowledge Compilation [Darwiche 02] Adnan Darwiche: “A Knowledge Compilation Map”, JAIR, 2002 [Bryant 86] Randal E. Bryant: "Graph-Based Algorithms for Boolean Function Manipulation”, IEEE Transactions on Computers, 1986 [Minato 93] Shin-ichi Minato: "Zero-suppressed BDDs for set manipulation in combinatorial problems", DAC '93 [Darwiche 01] Adnan Darwiche: “On the tractability of counting theory models and its application to belief revision and truth maintenance”, Journal of Applied Non- Classical Logics 2001
  • 64. 64 Copyright©2014 NTT corp. All Rights Reserved. Bayesian Networks [Pearl 85] Judea Pearl: “Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning”, CogSci85 [Pearl 82] Judea Pearl: “Reverend Bayes on inference engines: A distributed hierarchical approach”, AAAI Press [Kim+ 83] Jin H Kim, Judea Pearl: “A computational model for combined causal and diagnostic reasoning in inference systems”, IJCAI83 [Pearl 88] Judea Pearl: “Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference” [Lauritzen88] Lauritzen, S.L. and Spiegelhalter, D.: “local computations with probabilities on graphical structures and their application to expert systems”, JRSS88 [Boutilier+ 96] C. Boutilier, N. Friedman, M. Goldszmidt, and D. Koller: “Context-Specific Independence in Bayesian Networks”, UAI96
  • 65. 65 Copyright©2014 NTT corp. All Rights Reserved. Compiling Bayesian Networks [Chavira+ 05] Mark Chavira, Adnan Darwiche: “Compiling Bayesian Networks with Local Structure”, IJCAI05 [Minato+ 07] S. Minato, K. Satoh, and T. Sato: “Compiling Bayesian Networks by Symbolic Probability Calculation Based on Zero-suppressed BDDs”, IJCAI07 [Chavira+ 07] “Compiling Bayesian Networks Using Variable Elimination ”, IJCAI07 [Ishihata+ 11] M. Ishihata, T. Sato and S. Minato: "Compiling Bayesian Networks for Parameter Learning based on Shared BDDs“, AAI11
  • 66. 66 Copyright©2014 NTT corp. All Rights Reserved. Probabilistic Logic Programming [Getoor+ 07] Lise Getoor and Ben Taskar: “Introduction to Statistical Relational Learning”, MIT Press [DeRaedt+ 08] L. DeRaedt and K. Kersting: “Probabilistic inductive logic programming”, Springer [Sato+ 01] T. Sato and Y. Kameya: “Parameter learning of logic programs for symbolic-statistical modeling”, JAIR [Vennekens+ 04] Vennekens, J., Verbaeten, S., Bruynooghe, M.: “Logic programs with annotaqted disjunctions”, ICLP04 [Richardson+ 06] M. Richardson and P. Domingos: “Markov logic networks”, Machine Learning [DeRaedt+ 07] L. De Raedt, A. Kimming and H. Toivonen: “ProbLog: a probabilistic Prolog and its application in link discovery”, IJCAI07 [亀谷 11] 亀谷由隆: “論理に基づく確率モデリングのこれまで,これから”, 第 4回 IBISML チュートリアル
  • 67. 67 Copyright©2014 NTT corp. All Rights Reserved. Lifted Inference [Poole 03] David Poole “First-order probabilistic inference”, IJCAI03 [Broeck 11a] Guy Van den Broeck, Nima Taghipour, Wannes Meert, Jesse Davis and Luc De Raedt: “Lifted Probabilistic Inference by First-Order Knowledge Comppilation”, IJCAI11 [Broeck 11b] Guy Van den Broeck: “On the completeness of first-order knowledge compilation for lifted probabilistic inference”, NIPS11 [Broeck+ 12] Guy Van den Broeck and Adnan Darwiche: “On the complexity and approximation of binary evidence in lifted inference”, NIPS12 [Niepert+ 14a] Mathias Niepert and Guy Van den Broeck: “Tractability through Exchangeability: A New Perspective on Efficient Probabilistic Inference”, AAAI’14
  • 68. 68 Copyright©2014 NTT corp. All Rights Reserved. Tractable Probabilistic Models [Poon+ 11] Hoifung Poon and Pedro Domingos: “Sum-Product Networks: A New Deep Architecture”, UAI11 [Gens+ 12] Robert Gens and Pedro Domingos: “Discriminative Learning of Sum-Product Networks”, NIPS12 [Gens+ 13] Robert Gens and Pedro Domingos: “Learning the Structure of Sum-Product Networks”, ICML13 [Rooshenas+ 14] Amirmohammad Rooshenas and Daniel Lowd: “Learning Sum-Product Networks with Direct and Indirect Variable Interactions”, ICML14 [Niepert+ 14b] Mathias Niepert and Pedro Domingos: “Exchangeable Variable Models”, ICML14 [Ishihata+ 14] Masakazu Ishihata and Tomoharu Iwata: “Generating structure of latent variable models for nested data”, UAI14