PythonのSymPyで変分ベイズの例題を理解する
この記事の続きです。
ここではPRMLの10.1.3項の一変数ガウス分布の例題(WikipediaのVariational_Bayesian_methodsのA basic exampleと同じ)をSymPyで解きます。すなわちデータが
に従い*1、とが、
に従うという状況です。ここでデータ()が得られたとして事後分布を変分ベイズで求めます。
まずはじめに、上記の確率モデルから同時分布を書き下しておきます。
なので、
となります。
この問題は単純なので事後分布は厳密に求まるのですが、ここでは変分ベイズで解きます。すなわち、事後分布をで近似します。さらにと因子分解可能と仮定します。そして、前の記事の最後の2つの式を使って、とが収束するまで繰り返し交互に更新して求めるのでした。以下ではこれをSymPyでやります。
from sympy import * from sympy.stats import * init_printing(use_unicode=True) from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all'
- 3行目: 僕は基本的にはJupyter Notebookで実行しています。この行を追加することで、数式がMathJaxで綺麗に表示されます。
- 5~6行目: セルの途中で出力しても数式が綺麗に表示されるようにしています。こちらの記事を参考にしました。
y, mu, mu0 = symbols('y mu mu0', real=True) Y_vec = symbols('Y1:4', real=True) tau, lambda0, a0, b0 = symbols('tau lambda0 a0 b0', positive=True)
- 1行目: SymPyで使う変数は
symbols
関数で作成しておく必要があります。real=True
と指定することで、実数と仮定することができます。何も指定しなければ複素数になります。このように仮定を入れておかないと、のちの式変形や積分がうまくいかない場合があります。 - 2行目: このように変数のリストを作成することもできます。
- 3行目:
positive=True
と指定することで、正の実数だと仮定することができます。
なお、SymPyでは要素数やデータ数をN
とするような一般の場合の式変形は基本的に難しいです。しかし具体的な値に決めれば実行できます。そこで、ここでは2行目でデータ数をY1
,Y2
,Y3
の3
個として先に進めます。あとで値を色々変えて試すとN
の場合の見当がつくので、そこから一般の場合を証明することもできます。
p_y = density(Normal('', mu, 1/sqrt(tau)))(y) p_mu = density(Normal('', mu0, 1/sqrt(lambda0*tau)))(mu) p_tau = density(Gamma('', a0, 1/b0))(tau)
sympy.stats
には確率分布の密度関数の式がありますので、それを使っています。ここではデータ1つあたりのy
の分布とmu
とtau
の事前分布を定義しています。
SymPyの正規分布はNormal(平均, 標準偏差)
なので、精度であるtau
を1/sqrt(tau)
を代入しています。また、PRMLやWikipediaのガンマ分布はGamma(shape, rate)
である一方*2、SymPyのガンマ分布はGamma(shape, scale)
なので、1/b0
を代入しています。
integrate(p_mu, (mu, -oo, oo))
simplify(integrate(p_tau, (tau, 0, oo)))
試しにmu
の分布をからまで積分してみましょう。期待通り1が返ります。tau
の分布でも同様に積分すると1にならずに整理されていない式が返ってきますが、simplify
関数で整理すると1になります。
同時分布の対数()の準備
前の記事の最後の2つの式でやっていることを日本語で書くと以下です。
そこでまず同時分布の対数を準備します。
log_p = sum([log(p_y.subs(y, x)) for x in Y_vec]) + log(p_mu) + log(p_tau) log_p = simplify(log_p) log_p
- 1行目:
expr.subs(y, x)
は式expr
のy
にx
を代入します。
次に積分にすすみます。
を含まない項にを含まない分布を掛けてで積分したところで、やはりに関係がない定数になります。定数は最後に規格化して求めればよいので、途中の計算はなるべく簡単になるように余計な項を取り除きます。これがSymPyで計算をうまくさせるポイントになります。
log_p_for_mu = integrate(diff(log_p, mu), mu) log_p_for_mu = collect(log_p_for_mu, mu) log_p_for_mu
log_p_for_tau = integrate(diff(log_p, tau), tau) log_p_for_tau = collect(log_p_for_tau, tau) log_p_for_tau
で積分してを求める方も同様なのでそうしておきます。
できるところまで解析的に求める
SymPyの練習のため、事前分布から積分を1回実行してとを求めるところをやってみます。
log_q1_mu = integrate(log_p_for_mu * p_tau, (tau, 0, oo))
log_q1_mu
log_q1_mu = simplify(log_q1_mu)
log_q1_mu
log_q1_mu = collect(expand(log_q1_mu), mu)
log_q1_mu
- 5行目: 3行目で
simplify
していますが、解析者が意図しない形になることはよくあります。ここでは、expand
してcollect
することでmu
の多項式にしています。
log_q1_mu
の式はの二次関数のマイナスなので、このすぐあとのq1_mu
は正規分布になることが分かります。共役事前分布を使っているからです。規格化定数をもとめて規格化しましょう。
q1_mu = exp(log_q1_mu)
const = simplify(integrate(q1_mu, (mu, -oo, oo)))
const
q1_mu = 1/const * exp(log_q1_mu)
q1_mu
const
が規格化定数になります。以下の部分です。
q1_mu
は規格化された分布のです。以下になります。
同じようにq1_tau
を求めます。変分ベイズの手順としては、上で求めたばかりのを掛けてで積分します。しかしSymPyではその計算は重くて実行できないので、ここではの事前分布p_mu
を使ってq1_tau
を求めてみます。
log_q1_tau = integrate(log_p_for_tau * p_mu, (mu, -oo, oo)) log_q1_tau log_q1_tau = integrate(diff(log_q1_tau, tau), tau) log_q1_tau log_q1_tau = collect(log_q1_tau, tau) log_q1_tau
- 3行目: あとで規格化定数を求めればよいので定数項は取り除いておきます。
このすぐあとのq1_tau
はガンマ分布になることが分かります。これも共役事前分布を使っているからです。
q1_tau = logcombine(exp(log_q1_tau)) q1_tau # const = integrate(q1_tau, (tau, 0, oo)) # const # q1_tau = 1/const * q1_tau # q1_tau
- 1行目:
logcombine
関数を使うことでをにします。simplify
関数だとこの変形をやってくれないことがあります。 - 3行目: これで素直に積分できればよいのですが、残念ながらできません。
q1_tau
は以下です。
このの肩にのっているの係数が負だとSymPyが分からないから積分できないようです。ちなみにこのあたりはMathematicaの方が圧倒的に賢くて、例えば以下の入力できちんと積分できます。
Integrate[tau^(a+1)*Exp[tau * (-1/2*x^2 + x*mu - 1/2* y^2 + y*mu - b - mu^2)], {tau, 0, Infinity}, Assumptions -> {b > 0, a > 0, Element[x, Reals], Element[y, Reals], Element[mu, Reals]} ]
これをうまく積分させるには、の係数が負であることを確認してから変数で置き換えて実行します。
まずの係数が負であることを確認します。
coef = collect(log_q1_tau, tau).coeff(tau) coef sol = solve(diff(coef, Y_vec[0]), Y_vec[0])[0] sol #=> mu0 replacements = [(var, sol) for var in Y_vec] coef.subs(replacements) #=> -b0
- 1行目: の係数
coef
を取得しています。 - 3行目:
coef
の最大値が負であることを示せばOKです。まずはY_vec[0]
についてcoef
が最大になる値を探します。それは微分して0(&2階微分が負)になる点を求めればOKです。Y_vec[0]
と他のY_vec[*]
は区別がある形ではないので、Y_vec[*]
についても同じ点でcoef
が最大となります。 - 5~6行目: それをまとめて代入しています。最大値は
-b0
と分かるので、の係数は負であることがわかります。
次に変数で置き換えて積分します。
xi = symbols('xi', positive=True) const = simplify(integrate(tau**(a0+1)*exp(-xi*tau), (tau, 0, oo))) const = const.subs(xi, -coef) const q1_tau = 1/const * q1_tau q1_tau
const
が規格化定数になります。以下の部分です。
q1_tau
は正規化された分布のです。以下になります。
このように解析解を求めることはコンセプトの理解に役立ちます。一方で、積分を繰り返して事後分布が収束するか確認するようなことは数値的に求めた方が分かりやすいです。
数値的に求める
仮に得られたデータY_vec
は1.1
,1.0
,1.3
とします。また、事前分布はa0 = 1
, b0 = 1
, mu0 = 0
, lambda0 = 1
とします。
replacements = [(a0, 1), (b0, 1), (mu0, 0), (lambda0, 1)] data_vec = [1.1, 1.0, 1.3] replacements.extend([(var, val) for var, val in zip(Y_vec, data_vec)]) log_p_for_mu_subs = log_p_for_mu.subs(replacements) log_p_for_tau_subs = log_p_for_tau.subs(replacements) [log_p_for_mu_subs, log_p_for_tau_subs]
- 1行目: 事前分布の分の代入を作っています。
- 2~3行目: データの分の代入を追加しています。
の初期分布をp_tau
として、を求める→を求める→を求める→...と7回ほど繰り返してみます。
q_tau = N(p_tau.subs(replacements)) q_tau for i in range(7): log_q_mu = N(integrate(log_p_for_mu_subs * q_tau, (tau, 0, oo))) const = N(integrate(exp(log_q_mu), (mu, -oo, oo))) q_mu = 1/const * exp(log_q_mu) log_q_tau = N(integrate(log_p_for_tau_subs * q_mu, (mu, -oo, oo))) const = N(integrate(exp(log_q_tau), (tau, 0, oo))) q_tau = 1/const * exp(log_q_tau) [q_mu, q_tau]
- 1行目:
N
関数は数値による近似を求める関数です。
7回ほどの繰り返しのあとでほぼ収束していそうなことがわかります。
最後に求めた事後分布(の近似)を可視化してみましょう。SymPyにもsympy.plotting
やsympy.plotting.plot
が存在するのですが、ちょっと凝った図を書こうとするとすぐ厳しくなってしまいます。そこで、得られた事後分布をlambdify
関数で関数化し、NumPyとMatplotlibで描くのが拡張性が高くてオススメです。
from sympy.utilities.lambdify import lambdify import numpy as np import matplotlib.pyplot as plt delta = 0.05 x = np.arange(-1.0, 3.0, delta) y = np.arange(0.0, 6.0, delta) X, Y = np.meshgrid(x, y) func = lambdify((mu, tau), q_mu * q_tau, 'numpy') Z = func(X, Y) plt.figure() CS = plt.contour(X, Y, Z) plt.clabel(CS, inline=1, fontsize=10)
まとめ
- SymPyはデータサイエンスや機械学習の書籍や論文を読み進める上で、非常に有用な補助ツールです。
- 現状では細かいところでMathematicaにまだ負けていると思います。プロにはMathematicaがオススメ。オープンソース重視の人やPython好きな人にはSymPyがオススメ。
- 式変形には「一般的な場合のようにコンセプトが重要で深く理解しなければならない式変形」と「SymPyなどの数式処理ソフトで追えれば十分であるような式変形」があると個人的に思っています。専門書や技術書を執筆する場合は、その二つを区別すると読者にとって親切かなぁと思いました。
Enjoy!
謝辞
北大電子研の佐藤勝彦氏に感謝します。僕が院生の頃に輪読していた ニコリス プリゴジーヌ『散逸構造』の例題をMathematicaで10分ぐらいで一般解を求めるという衝撃のデモを見せてもらい、その後もたまにMathematicaを教えてもらい、数式処理を学ぶきっかけをもらいました。