SlideShare a Scribd company logo
Stan中級編
@simizu706
自己紹介
• 清水裕士
– 関西学院大学社会学部
• 専門
– 社会心理学,グループ・ダイナミックス
• 趣味
– Stan
– 統計ソフトウェアの開発
• Web
– Twitter: @simizu706
– Webサイト: http://norimune.net
今日の主役は
• 今、もっとも開発が熱いMCMC用フリーソフト
中級編
• 中級というのは心理学者のレベルの話
– 一般的な意味でのStanユーザーのレベルかどうかは
わかんない
• たぶん,これを初級と呼ぶ人もいるとは思う
– みんながずっと初心者と言い続けるのはその分野が
枯れる原因になるので、さっさとみんな中級者を名乗
ろう
• 一般に最尤法で解けるレベルが中級と定義
– ベイズじゃないとできないレベルは上級にしておく
– 初級は最小二乗法レベル
先に初心者入門を見てください
• http://www.slideshare.net/simizu706/stan-62042940
中級編のメニュー
• 統計モデルを書く
– まずはモデル式を書けるようになろう
• 一般化線形モデル
– ベルヌーイ分布,ポアソン分布,二項分布,対数正規分布,ガンマ分布,
ベータ分布,負の二項分布, ベータ二項分布
• 階層(分布)モデル
– 過分散の推定
– 階層線形モデル
• 潜在変数が含まれるモデル
– 因子分析
• 尤度関数に構造がある場合のモデル
– ゼロ過剰分布
– 混合分布モデル
Stanで統計モデリング
Rでstanを使うための準備
• Rをインストール
– 必須
• Rstudioをインストール
– 必須ではないが必須だと思ってもらって構わない
• rstanパッケージをインストール
– OSによって必要なツールが違うのでリンク先を見て
環境に合わせて準備してね
– https://github.com/stan-dev/rstan/wiki/RStan-
Getting-Started-%28Japanese%29
Stan2.10で大幅バージョンアップ
• 一部の文法が非推奨に
– 代入を意味する<- の代わりに=が推奨される
– increment_log_prob()の代わりにtaget+=
– 確率分布_log()の代わりに_lpdf()かlpmf()
• 本合宿では2.11をベースに
– 2.10にはバグがあるみたいなので
– 中級編ではこれらの変更が重要
ベイズ統計モデリング
統計モデリングとは
• 確率分布でモデルを作ること
– 確率分布によって表現された,データ生成につい
てのモデルを確率モデルと呼ぶ
• 真の分布と予測分布
– データ生成メカニズムを真の分布と呼ぶ
– 真の分布を近似する確率分布を予測分布と呼ぶ
– 統計モデリングは,真の分布を十分近似できる予
測分布を作ることが目的
真のモデル=データ発生メカニズム
真の分布 データ
直接は知りえない 直接観測できる
データの発生
予測分布≒データ発生メカニズム
真の分布 データ
直接は知りえない 直接観測できる
データの
発生
予測分布
統計モデ
リングこの二つが似ていれば,
将来のデータ生成を予測
することができる
確率モデルと事前分布
• 確率モデル
– データの生成メカニズムの近似
– 𝑝 𝑥 𝜃 と表記すると確率分布のこと
• xはまだ得られていないデータ,θは確率分布のパラメータ
– 𝑝 𝑋 𝜃 と表記すると尤度関数のこと
• Xは得られたデータ
• 事前分布
– パラメータθの確率分布
– 𝑝 𝜃 と表記する
– 確率モデル(尤度関数)と事前分布の組が,研究者が想定する
「モデル」ということになる
周辺尤度と事後分布
• 周辺尤度
– 𝑝 𝑋 のこと
– 𝑝 𝑋 = ∫ 𝑝 𝑋 𝜃 𝑝 𝜃 𝑑𝜃
– 「確率モデルと事前分布」が与えられた下での,手元の
データXが得られる確率
• 事後分布
– データを得た後のパラメータの分布
– ベイズの定理で求める
– 𝑝 𝜃 𝑋 =
𝑝 𝑋 𝜃 𝑝 𝜃
𝑝 𝑋
=
尤度関数∗事前分布
周辺尤度
予測分布
• 真の分布の近似
– データを得た後に構成された,データ生成についての確
率分布
– まだ手に入れていないデータをxとすると,
– 𝑝 𝑥 𝑋 と表される
• 事後予測分布ともいう
• 予測分布を作る
– 確率モデルのパラメータに,推定されたパラメータの事後
分布を入れてやればいい
– 𝑝 𝑥 𝑋 = ∫ 𝑝 𝑥 𝜃 𝑝 𝜃 𝑋 𝑑𝜃
• 確率モデルを事後分布で重みづけて平均をとったものが,予測
分布
真の分布と予測分布
• 真の分布
– 𝑞(𝑥)と表す
• データxの生成メカニズム
• 真の分布に近い予測分布が知りたい
– 𝑞(𝑥)を𝑝(𝑥|𝑋)で近似する
– この二つの分布の距離を評価したい
• カルバックライブラー情報量
• この期待値をWAICで評価できる
例:正規分布の場合
• 正規分布
– パラメータは平均𝜇と標準偏差𝜎
– 𝑁(𝜇, 𝜎)と表記する
• 確率モデルと事前分布
– 𝑁(𝑥|𝜇, 𝜎)と表記する
– 事前分布は,それぞれのパラメータごとに決める
• この例では,μは正規分布,σはコーシー分布としてお
く
データをとってみた
• 真の分布を正規分布とする
– 𝑞 𝑥 = 𝑁(𝑥|𝜇 = 5, 𝜎 = 2)
– 正規乱数からデータを生成
• set.seed(123)
• y <- rnorm(100,5,2) このデータが生成された
メカニズムは何かな?
確率モデルと事前分布を決める
• 確率モデルを決める
– 理論的,現象的,データの分布などの手がかりから,確
率モデルを決める
– 正規分布以外にもさまざまな分布がありえる
– 今回は正規分布 𝑝(𝑋|𝜇, 𝜎)
• 事前分布を決める
– 確率モデルが決まると,推定するべきパラメータが決まる
– そのパラメータがどういう確率分布に従うかを決める
– 今回はμは無情報正規分布,σは無情報半コーシー分布
• 𝜇~𝑁 0,1000 , 𝜎~ℎ𝑎𝑙𝑓_𝑐𝑎𝑢𝑐ℎ𝑦(0, 5)
事後分布を推定する
• ベイズ推定を行う
– 今回はMCMCで求めてみる
• 平均値とSDの事後分布
𝜇の事後分布 𝜎の事後分布
分布のパラメータを推定する
• μは要約統計量ではない
– データを要約するための記述統計量として平均値が
よく使われるが・・・
– 要約統計量と推測統計量は「まったく別物」
• μは真の分布のパラメータ
– データが生成するメカニズムの要素
• データを直接要約するものではない
– 正規分布の場合,要約統計量である算術平均が,μ
の一致推定量である点がややこしい
• 分散は要約統計量と推測統計量は導出式が異なる
予測分布
• データ生成メカニズムの近似
– 想定した確率モデル(今回は正規分布)を推定し
たパラメータの事後分布で重みづけて平均する
• シミュレーションで予測分布を生成
平均5.18,SD1.85の
正規分布
予測区間
• データがとりうる範囲
– 95%予測区間:データの値が取りうる95%の範囲
• 信頼区間とは別物なので注意
• 信頼区間はパラメータについての範囲
• 予測分布の95パーセンタイル点から計算
– quantile(temp,probs=c(0.025,0.975))
– だいたいデータは1.5~8.8の範囲をとることがわかる
データと合わせてみる
• データと予測分布
だいたい合ってる!
同じ真の分布から生成した別データ
• これもまぁだいたい合ってる
統計モデルを自分で書く
統計モデルを書く・・・とは
• 確率モデルと事前分布の両方
– とりあえず確率モデルを書けるようになろう!
– 事前分布は階層モデルでなければ簡単
• 重要なのは・・・・
– あらゆる統計モデリングが,確率分布のパラメー
タを推定対象としているということ
– 心理統計学と少し書き方が異なる
平均値の差の推定
• いわゆるt検定
– 確率モデルとして正規分布を仮定
– 二つのグループの分散(SD)は等しい
• 確率モデルを書いてみる
– 𝑦1𝑖 ~ 𝑁 𝜇1, 𝜎
– 𝑦2𝑖 ~ 𝑁(𝜇1 + 𝛿, 𝜎)
平均値の差のモデリング
同じSDを持つ二つの正規
分布でデータを表現
これを書き直すと・・・
• 回帰モデル的に書いてみる
– 𝑦1𝑖を0,𝑦2𝑖を1とするようなダミー変数Xiを考える
– そして,𝑦1𝑖の時は平均が𝜇1となり,𝑦2𝑖のときは𝜇1 +
𝛿となるような𝜇を考える
• 𝜇 = 𝜇1 + 𝛿 𝑋𝑖
• パラメータに構造を持った正規分布として書ける
– 𝑦𝑖 ~ 𝑁 𝜇, 𝜎
• 𝜇 = 𝜇1 + 𝛿 𝑋𝑖
回帰分析
• 回帰分析の仮定
– 確率モデルは正規分布
– データはすべて独立に同一の分布から生成
• 回帰分析のモデル
– 𝑦𝑖 = 𝛼 + 𝛽 𝑋𝑖 + 𝑒𝑖
– 𝑒𝑖~ 𝑁(0, 𝜎)
回帰分析の統計モデル
• データの生成メカニズムを正規分布と仮定
– 𝑦𝑖~ 𝑁 𝜇𝑖, 𝜎
• 平均パラメータ𝜇に線形モデルを仮定
– 𝜇𝑖 = 𝛼 + 𝛽 𝑋𝑖
• つまり,こういう確率分布となる
– 𝑦𝑖~ 𝑁 𝛼 + 𝛽𝑋𝑖, 𝜎
• あとはαとβ,σの事前分布を考えれば良い
平均が𝛼 + 𝛽𝑋𝑖の条件付き正規分布
平均値がXの値によって変わる,
条件付き正規分布
𝑃 𝑦𝑖 𝑋𝑖 = 𝑁(𝑦𝑖|𝛼, 𝛽, 𝜎; 𝑋𝑖)
すべてのXの値において,分散
が等しい正規分布を仮定
→均一分散の仮定
青い破線は95%予測区間
Stanで回帰分析
• モデルをStanでそのまま書けば良い
– 𝑦𝑖 ~ 𝑁 𝛼 + 𝛽 𝑋𝑖, 𝜎
• 𝛼 ~ 𝑁 0,100
• 𝛽 ~ 𝑁 0,100
• 𝜎 ~ 𝑐𝑎𝑢𝑐ℎ𝑦(0,5)
Stanコード
重回帰分析
• 説明変数が複数になっただけ
– 𝜇 = 𝛼 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 + ・・・ + 𝛽 𝑚𝑖 𝑋 𝑚𝑖
• 説明変数を行列で定義すると簡単になる
>model.matrix(v1 ~ v2 + v3, dat)
モデルを行列で書く
• 行列での表記
– 𝝁 = 𝑿 𝜷
– μは長さNの平均ベクトル,XはN×Mの説明変数行列,
βは長さMの回帰係数ベクトル
• ただし,Nはサンプルサイズ,Mは変数の数
• またXの1列目はすべての要素が1のベクトル
• 順番に注意!
– Xについて,行をオブザベーション,列を変数という行
列にした場合,Xがさき,βがあとになる
• 行列演算は,N×Mの行列に長さMのベクトルを書けるため
には,左ではなく右から書けないといけない
Stanコード
Stanにおけるサンプリング表記
サンプリングステートメント
• ~を使った表記のこと
– 𝑦 ~ 𝑛𝑜𝑟𝑚𝑎𝑙 𝑚𝑢, 𝑠𝑖𝑔𝑚𝑎 ;みたいなやつ
– これは,実は簡略的なコード
• sampling statement formという
• 内部では,対数確率を足し上げている
– 対数確率関数をtargetに+=で渡してやることで,modelの
中の対数確率がすべて足される
• 確率だと掛け算,対数確率だと足し算になることに注意
– target += normal_lpdf(y| mu, sigma);
• y ~ normal(mu, sigma)と同じ推定結果になる
• explicit increment formという
lpdfとlpmf
• _lpdf
– 対数確率密度関数
• log probability density function
– 連続分布の場合に,分布名の後につける
• normal_lpdf()
• _lpmf
– 対数確率質量関数
• log probability mass function
– 離散分布の場合に,分布名の後につける
• poisson_lpmf()
対数確率分布の書き方
• 確率分布の表記
– 𝑃 𝑥 = 𝑛𝑜𝑟𝑚𝑎𝑙 𝑥 𝜇, 𝜎
• データのあとにバーを書いて,そのあとパラメータ
• パラメータで条件付けられた確率分布という意味
• Stanでの対数確率関数の表記
– normal_lpdf(x|mu,sigma);
– 確率変数の後は,”,”ではなく”|”である点に注意
両者の違い
• sampling statement formの場合
– ここではサンプリング形式と呼ぶことにする
– パラメータ推定に関係のない定数は計算しない
• つまり,確率分布のカーネルのみを計算=速い
– 視認性が高い
• 確率モデルをそのまま表現できる
• explicit increment formの場合
– ここではターゲット形式と呼ぶことにする
– 定義された対数確率関数をすべて計算
• つまり,遅い
– 推定された_lpが,いわゆるモデルの対数尤度と同じになる
– これを使わないと計算出来ないモデルもある
回帰分析で比較
• サンプリング形式
– y ~ normal(x*beta,sigma);
– beta ~ normal(0,100);
– sigma ~ cauchy(0,5);
• ターゲット形式
– target += normal_lpdf(y|x*beta,sigma);
– target += normal_lpdf(beta|0,100);
– target += cauchy_lpdf(sigma|0,5);
結果
• サンプリング
• ターゲット
WAICの計算で使う
• WAIC
– Widely Applicable Information Criterion
– 広く使える情報量規準
• 別名Watanabe-Akaike Information Criterion
• 予測分布と真の分布の距離の期待値
– 真の分布から無限にサイズNのデータを生成させ
た場合の対数尤度の期待値
– 真の分布が確率モデルで実現可能でなくても,正
則でなくても成立する情報量規準
StanでWAICを計算
• 各データごとの対数尤度を出力する
– generated quantities{}ブロックで書くことが多い
– ベクタライズはできない
• それをlooパッケージのwaic()に入れる
ロジスティック回帰
2値データを予測
• 0と1のデータの生成メカニズムを考える
– 予測したいのは1になる確率𝜃
– 確率分布はベルヌーイ分布を使う
• じゃあ「ベルヌーイ回帰」でよくないですか?
• ベルヌーイ分布
– 試行数が1回だけの二項分布
– パラメータは成功率𝜃のみ
– 𝑦𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝜃𝑖
• 𝑦𝑖は0と1の2値をとる
𝜃を推定したいが・・・
• 成功率𝜃は0~1の範囲しかとらない
– 線形モデルを仮定した場合,予測値が0~1に収ま
らないと尤度が計算出来ない
– 成功率𝜃を直接推定するのではなく,ロジット変換
をしたlogit(𝜃)を推定する
• logit(𝜃𝑖) = log(𝜃𝑖 /(1-𝜃𝑖)) = 𝛼 + 𝛽 𝑋𝑖
• ロジットリンク
– 0~1の値を,-∞~∞に変換する非線形変換関数
ロジット変換
ロジスティック回帰
• 成功率𝜃をロジット変換する線形モデル
– 予測が直線ではなく,曲線になる
– この曲線をロジスティック曲線という
• だからロジスティック回帰という
– これをStanで表現する
ロジスティック回帰のモデリング
• 実際にモデリングするときは・・・
– 成功率𝜃をロジット変換するのではなく
– 予測値をロジット変換の逆変換を行う
• つまり,予測値が0~1の範囲になるようにする
• ロジスティック回帰のモデル式は・・・
– 𝜃𝑖 = logit−1 𝛼 + 𝛽 𝑋𝑖
• logit-1()はlogit()の逆関数,つまりロジスティック関数
– 𝑦𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃𝑖)
Stanでの表現
• Stanにはinv_logit()関数がある
– これをつかって予測値を変換し,ベルヌーイ分布の
パラメータとする
– 𝜃𝑖 = 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡(𝛼 + 𝛽 𝑋𝑖)
– あるいは,𝜃𝑖 = 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡(𝑿𝑖 𝜷)
• bernoulli_logit()という確率分布もある
– bernoulli_logitは,パラメータがlogit-1(𝜃)であるような
確率分布
– なので,わざわざパラメータを変換しなくて良い
– しかもこちらのほうが速い
離散分布の注意点
• 目的変数はvectorで宣言できない
– vectorはreal型を並べたもの
– 離散分布は整数しかとらないので,int型でしか宣言でき
ない
• int型の配列を使う
– int y[N];
– ベルヌーイ以外にも,二項分布,ポアソン分布,負の二項
分布などがそれに当てはまる
– 項目反応理論などでは,int y[N,M]という感じで,2次元配
列を使う
• Mは項目数
Stanコード 𝜃を計算バージョン
For文は処理が1行だけの場合は
{}を省略することができる
inv_logit()はベクトル化に対応して
いない
目的変数yは離散分布を
仮定するのでint型で宣言
Stanコード 𝜃を変換しない
二項分布
試行数が複数の場合
• 例:30回試行して,15回成功した
– 成功率𝜃を推定したい
• 二項分布
– 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑦𝑖 = 𝐶𝑇 𝑦 𝜃 𝑦 𝑖 1 − 𝜃 𝑇−𝑦 𝑖
– 𝑦𝑖 ~ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(T, 𝜃𝑖)
• ただし,Tは試行数, 𝜃は成功率
二項分布のモデリング
• 基本的なモデリングはベルヌーイと同じ
– 𝑦𝑖 ~ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑇, 𝜃𝑖)
• ただし,試行数は推定対象ではなく,データから与える
– 𝜃𝑖 = 𝑙𝑜𝑔𝑖𝑡−1(𝑋𝑖 𝛽)
• Stanでのモデリング
– ベルヌーイと同じ
• inv_logit()を使う
– binomial_logit()という確率分布もある
Stanコード1
Stanコード2
ポアソン回帰分析
ポアソン分布
• レアな事象が生起した回数をモデリング
– カウントデータについての確率分布
• 非負の整数についての離散分布
• ポアソン分布
– 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑦𝑖 =
𝜆 𝑦 𝑖 𝑒−𝜆
𝑦 𝑖!
– 𝑦𝑖 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆)
• ただし,λは平均パラメータ
• 単位時間に平均何回生起するか
ポアソン回帰のモデリング
• 平均パラメータλの推定
– ただし,λは正の値をとる
– そこで,対数リンクを用いる
• log(λ)を線形モデルで推定する
• 確率モデル
– 𝑦𝑖~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝜆𝑖
– log(𝜆𝑖) = 𝑋𝑖 𝛽
Stanでのモデリング
• リンク関数ではなく,線形モデルを変換
– ロジスティック回帰と同じ
– log(λ)を予測するのではなく,λをexp()関数に入れ
た線形モデルで予測する
• poisson_log()という確率分布もある
– Stanでは,リンク関数を使うよりも,最初からリン
ク関数が込みになっている分布を使うほうが速い
Stanコード1
Stanコード2
ガンマ分布
ガンマ分布
• あるレアな出来事がα回生起するまでの時間
– 𝑦 ~ 𝐺𝑎𝑚𝑚𝑎(𝛼, 𝜆)
• 平均λのポアソン分布に従う事象が,α回生じるまでにかかる時間
についての分布
• 正の値をとる連続値の分布
𝐺𝑎𝑚𝑚𝑎 𝑦 𝛼, 𝜆) =
𝜆 𝛼
Γ 𝛼
𝑦 𝛼−1exp(−𝜆𝑦)
• ガンマ分布の平均と分散
– 平均=α/λ
– 分散=α/λ2
ガンマ回帰のモデリング
• 平均からλを計算
– λ=α/平均
– λは正の値を取るので対数リンクを使う
• 逆数リンクを使うこともある
• 確率モデル(対数リンクの場合)
– 𝑦𝑖 ~ 𝑔𝑎𝑚𝑚𝑎 𝛼, 𝜆𝑖
– 𝜆𝑖 =
𝛼
exp(𝑋 𝑖 𝛽)
Stanコード
対数正規分布による回帰
対数正規分布
• 対数をとると正規分布になる分布
– log 𝑦 ~ 𝑁𝑜𝑟𝑚𝑎𝑙 𝜇, 𝜎
• となるような,𝑦についての分布
• 正の値をとる連続値の分布
– 𝐿𝑜𝑔𝑛𝑜𝑟𝑚𝑎𝑙 𝑦 𝜇, 𝜎 =
1
2𝜋𝜎𝑥
exp(−
log 𝑥 −𝜇 2
2𝜎2 )
• ガンマ分布に形は似ているが・・
– ガンマ分布は,待ち時間についての分布
– 対数正規分布は,ベキの関係を表す分布
• 年収とか,ネットワークサイズとか
モデリング
• 正規分布と同じモデリング
– 𝑦𝑖 ~ 𝐿𝑜𝑔𝑛𝑜𝑟𝑚𝑎𝑙(𝜇𝑖, 𝜎)
– 𝜇𝑖 = 𝑋𝑖 𝛽
• Stanにはlognormal()という関数がある
– 特に何も考えずにそのままできる
Stanコード
ベータ分布
ベータ分布
• 確率が従う分布
– 0~1の範囲を取る連続分布
𝐵𝑒𝑡𝑎 𝑦 𝛼, 𝛽 =
1
Β 𝛼, 𝛽
𝑦 𝛼−1
1 − 𝑦 𝛽−1
• 平均 =
𝛼
𝛼+𝛽
,分散 =
𝛼𝛽
𝛼+𝛽 2 𝛼+𝛽+1
• 使いどころ
– 二項分布の成功率𝜃の事前分布など
– データが直接確率で手に入った場合などの回帰分析など
で使える
• もし分母と分子が両方データであるなら,二項分布の方が良い
モデリング
• ベータ分布のパラメータの構造
– 回帰係数の𝛽と紛らわしいので,ここではaとbとする
– 𝑦𝑖~ 𝐵𝑒𝑡𝑎 𝑎𝑖, 𝑏𝑖
• ベータ分布の平均を𝜇,尺度パラメータを𝜎とすると,
• 𝑎𝑖 = 𝜇𝑖 𝜎
• 𝑏𝑖 = 1 − 𝜇𝑖 𝜎
• ベータ回帰分析のモデリング
– 𝑦𝑖 ~ 𝐵𝑒𝑡𝑎 𝑎𝑖, 𝑏𝑖
– 𝑎𝑖 = 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡(𝑋𝑖 𝛽) 𝜎
– 𝑏𝑖 = 1 − 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡 𝑋𝑖 𝛽 𝜎
Stanコード
負の二項分布
ポアソン分布の過分散問題
• 離散分布はパラメータが1つのものが多い
– 二項分布・・・成功率𝜃のみ
– ポアソン分布・・・平均𝜆のみ
• 分散は自動的に決まってしまう
– 二項分布・・・分散=𝑇𝜃(1 − 𝜃)
– ポアソン分布・・・分散=𝜆
– データの分布が分散がより大きい場合,予測が
大きく外れてしまう・・・過分散問題
負の二項分布
• ポアソン分布の過分散も推定
– HRをポアソンと負の二項分布で推定
ポアソン分布
負の二項分布
上手くいきそう!
全然ダメ!
負の二項分布
• 二項分布の逆バージョン
– ベルヌーイ試行において,成功率𝜃で𝛼回成功す
るまでに必要な失敗回数𝑦についての確率
𝑁𝑒𝑔𝐵𝑖𝑛𝑜𝑚 𝑦 𝜃, 𝛼 =
𝑦 + 𝛼 − 1
𝑦
𝜃 𝛼 1 − 𝜃 𝑦
連続変量に拡張
• ガンマ関数を用いて,成功数𝛼が整数でなく
てもいけるように拡張
𝑁𝑒𝑔𝐵𝑖𝑛𝑜𝑚 𝑦 𝜃, 𝛼 =
Γ 𝑦+𝛼
𝑦!Γ 𝛼
𝜃 𝛼
1 − 𝜃 𝑦
– ガンマ関数
• Γ 𝑢 + 1 = 𝑢!
ポアソン分布との関係
• ポアソン分布
𝑃 𝑦 =
𝜆 𝑦 𝑒−𝜆
𝑦!
– このとき,𝜆が平均𝜇のガンマ分布に従うと仮定すると・・・
• 𝜆 ~ 𝐺𝑎𝑚𝑚𝑎 𝛼,
𝛼
𝜇
• 混合した確率分布は次の負の二項分布になる
𝑃 𝑦 𝜇, 𝛼 = 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑦 𝜆 𝐺𝑎𝑚𝑚𝑎 𝜆 𝜇, 𝛼 𝑑𝜆
∞
0
=
Γ 𝑦+𝛼
𝑦!Γ 𝛼
𝛼
𝜇+𝛼
𝛼 𝜇
𝜇+𝛼
𝑦
ただし,𝜃 =
𝛼
𝜇+𝛼
負の二項分布で回帰
• モデリング
– ポアソンと同様,対数リンクを用いる
– 𝑦𝑖~ 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒_𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜇, 𝛼)
– 𝜇 = exp(𝑋𝑖 𝛽)
• Stanでのモデリング
– 上記の意味での負の二項分布は,Stanでは
neg_binomial_2()という関数名となっている
– 対数リンクを込みにしたneg_binomial_2_log()もある
Stanコード
ベータ二項分布
ベータ二項分布
• 二項分布の過分散を解決する
– 二項分布のパラメータ𝜃に個人差を考慮した分布
• 𝜃がベータ分布にしたがって変動すると仮定
• 二項分布とベータ分布に混合分布
– 離散分布なので,yは非負の整数
– 𝐵𝑒𝑡𝑎𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑦 𝑇, 𝛼, 𝛽 =
𝑇
𝑦
Β 𝑦+𝛼,𝑇−𝑦+𝛽
Β 𝛼,𝛽
– Tは試行数,αとβはベータ分布のパラメータ
– B()はベータ関数
• Β 𝑢, 𝑣 =
Γ 𝑢 Γ 𝑣
Γ 𝑢+𝑣
モデリング
• ベータ分布と同様
– 回帰係数βと紛らわしいので,パラメータをaとbとする
– 𝑦𝑖~ 𝐵𝑒𝑡𝑎𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑇, 𝑎𝑖, 𝑏𝑖
• ベータ分布の平均を𝜇,尺度パラメータを𝜎とすると,
• 𝑎𝑖 = 𝜇𝑖 𝜎
• 𝑏𝑖 = 1 − 𝜇𝑖 𝜎
• Stanでのベータ回帰分析のモデリング
– 𝑦𝑖 ~ 𝐵𝑒𝑡𝑎_𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑇, 𝑎, 𝑏
• 𝑎𝑖 = 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡(𝑋𝑖 𝛽) 𝜎
• 𝑏𝑖 = 1 − 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡 𝑋𝑖 𝛽 𝜎
Stanコード
欠損値があるデータ
Stanでの欠損値推定
• 欠損データをパラメータとして扱う
– parameres{}ブロックで指定する
– データと同じベクトルやマトリックスに欠損値を含めて
推定することはできない
• このあたりが若干面倒な所
• 欠損値を推定する=すべての情報を活用
– 完全情報最尤法と同等の推定精度が期待できる
– ただし,従属変数が1つの線形モデルでは,ほとんど
意味がない
• 欠損データの推定ができるという意味はある
回帰分析で欠損データ推測
• 2変数,N=200のデータを生成
– v2の順位が低い100人のv1を欠損させる
回帰分析をしてみる
• v1をv2で回帰
– v1の観測部分と欠損部分でデータを分ける
– v2についても同様
• v1が観測される場合
– 普通にv2で回帰
• v1が欠損の場合
– v1の欠損部分をパラメータとして扱い,上の回帰で推
定される回帰係数と切片を使って欠損値を推定
Stanコード
Rコード
結果
欠損値を推定した回帰分析
普通に回帰分析
確率変数が1つの場合は,欠損値を推定してもしなくても,パラメータの推定は同じ
相関係数の場合
• v1とv2を両方確率変数として相関を推定
– 相関係数の真値は0.7
• 完全データの相関が0.7であるようにした
• 平均とSDはともにμ=5,σ=1
• 普通に相関を計算すると・・・
– v1が欠損したv2も捨てることになる
• v1はv2が低い場合に欠損しているので,データ全体は
v2に依存して(低い場合)に特に欠測することになる
– 相関係数はバイアスが生じる
普通に相関係数を推定
• 相関係数の推定にバイアス
– ρ=0.58
• なお,真値は0.70
– 平均やSDにもバイアスが生じている
欠損を組み込んだStanコード
v2については,全データで平均と標準
偏差が計算されることがポイント
Rコード
結果
• 真値=0.7に近い結果
– ρ=0.74
– 平均とSDも真値である5と1に近い
打ち切りデータの回帰分析
打ち切りデータ
• 測定上,打ち切られてしまったデータ
– 試験が簡単すぎて,100点が続出した場合
– ある傾向より小さい場合に得点が0になってしまう
ようなデータ
• 乱数を生成
– 片方の変数の0未満の値を0に変換
– 人工的に打ち切りデータを作ってみる
散布図
真値:α=0,β=1,σ=1
真の回帰直線打ち切りデータの回帰直線
打ち切り部分を欠損値とみなす
• 欠損値をパラメータとして推定
– 今回の場合,値が0のデータは,欠損していると
考える
– そして,欠損しているデータは0以下の実数パラ
メータであると仮定して推定する
• あとは欠損がある場合の回帰と同じ
– βとσは共通で,観測されたデータと打ち切りデー
タをそれぞれ正規分布でモデリング
Stanコード1
Rコード
結果
打ち切りデータの回帰分析
普通の回帰分析
回帰係数が急になり,残差のSDが大きく推定されている
真値に近い結果となっている
真値:α=0,β=1,σ=1
散布図
緑:普通に推定
赤:打ち切り回帰で推定
別の書き方
• 欠損を推定せずに推定
– 欠損パラメータを積分消去する
– すると,累積分布関数で表現できる
• 下限打ち切りの場合
– 対数累積分布関数・・・normal_lcdf()を使う
• target += normal_lcdf( L | x*beta,sigma);
• 上限打ち切りの場合
– 対数相補累積分布関数・・・normal_lccdf()を使う
• target += normal_lccdf(U | x*beta,sigma);
Stanコード2
こっちのほうが計算速度は速い
結果2
• 打ち切り部分を積分消去したモデル
• 打ち切り部分を欠損推定したモデル
離散分布の過分散問題
二項分布とポアソン分布
• どちらも生起数についての離散分布
– パラメータが一つしかない
– 平均パラメータから分散が一意に決まる
• 二項分布: 平均=𝜃,分散=T𝜋 1 − 𝜃
• ポアソン分布: 平均=𝜆,分散= 𝜆
• データの散らばりが分布に合わない場合
– 過分散が生じているという
ホームラン数のデータ
• ホームラン
– レアな事象が生じる回数
– しかし,ポアソン分布には全然合わない
ホームランを打席数で予測
予測区間にデータが
全然収まってない!
過分散を変量効果で解決
• 固定効果
– 全体的な効果を表すパラメータ
• グローバルパラメータ
– 平均やSDなど
• 変量効果
– ここの対象ごとに異なる効果を表すパラメータ
• ローカルパラメータ
– 対象による細やかな違いを表現できる
モデルで書いてみる
• 普通のポアソン分布のモデル
– 𝑦𝑖~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝜆𝑖
– log(𝜆𝑖) = 𝑋𝑖 𝛽
• 𝜆𝑖に変量効果𝑟𝑖を加える
– 𝑦𝑖~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝜆𝑖
– log(𝜆𝑖) = 𝑋𝑖 𝛽 + 𝑟𝑖
– 𝑟𝑖 ~ 𝑁(0, 𝜎)
書き方を変えると・・・
• 変量効果を含むモデル
– 𝑦𝑖~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝜆𝑖
– log(𝜆𝑖)~ 𝑁(𝜇𝑖, 𝜎)
– 𝜇𝑖 = 𝑋𝑖 𝛽
• これは結局𝜆𝑖が平均=𝜇,SD=𝜎の対数正規分布に従ってい
ることと同じ つまり,𝜆𝑖 ~ 𝐿𝑜𝑔𝑛𝑜𝑟𝑚𝑙𝑎(𝜇𝑖, 𝜎)
• 階層モデル
– 確率分布のパラメータが,さらに別の確率分布に従
い,高次のパラメータが存在する
– 確率分布が階層的になっている
Stanでの書き方
• Stanはリンク関数とセットの確率分布がある
– poisson_log()
– これを使うととても書きやすいし,コードがベクト
ル化できてスピードも速くなる
• ポアソン分布+変量効果のモデル
– 𝑦𝑖 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛_log(𝜆𝑖
′
)
– 𝜆𝑖
′
~ 𝑛𝑜𝑟𝑚𝑎𝑙(𝜇𝑖, 𝜎)
– 𝜇𝑖 = 𝑋𝑖 𝛽
Stanコード
二項分布+変量効果も同じ
• 二項分布に変量効果
– 𝑦𝑖~ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝜃𝑖
– 𝑙𝑜𝑔𝑖𝑡(𝜃𝑖) = 𝑋𝑖 𝛽 + 𝑟𝑖
• 𝑟𝑖~𝑁(0, 𝜎)
• Stanのbinomial_logit()を使って書いてみる
– 𝑦𝑖 ~ 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙_𝑙𝑜𝑔𝑖𝑡(𝜃𝑖
′
)
– 𝜃𝑖
′
~ 𝑛𝑜𝑟𝑚𝑎𝑙 𝑋𝑖 𝛽, 𝜎
• 𝛽 ~ 𝑛𝑜𝑟𝑚𝑎𝑙 0,100
• 𝜎 ~ 𝑐𝑎𝑢𝑐ℎ𝑦 0,5
Stanコード
階層線形モデル
複数のグループからデータを取る
• 回帰分析の仮定
– 同一の分布から、独立に生成
– グループが複数あると、独立性が満たされない
• グループ間変動を変量効果で表現
– 切片や回帰係数が集団で異なる
– 変量効果で集団による違いを表現
– 固定効果で全体の特徴を表現
またもやプロ野球データ
• 日本プロ野球は12球団に分かれる
– 球団によって,モデルが変わる可能性
広島・・・!?
年俸をHRで予測
• チーム別の回帰直線
teamID 切片 傾き
DeNA 16.415 5.509
ヤクルト 19.767 4.872
巨人 10.757 13.057
広島 25.402 2.376
阪神 31.144 12.030
中日 20.227 9.165
オリックス 54.865 3.291
ソフトバンク 57.501 11.436
ロッテ 16.689 11.390
楽天 55.265 3.497
西武 27.366 6.923
日本ハム 14.588 6.832
0
100
200
300
400
500
600
0 10 20 30 40
salary
HR
広島・・・!?
チームによってモデルは違うっぽい
• お金がある球団ほど,HRの効果が大きそう
– でもそれをどうやってモデリングしたらいいだろうか?
• 愚直な考え:12個の回帰モデルを解釈する
– 巨人のHRの効果はいくら,広島の効果はいくら・・・
– 12ならまだいいが,集団が100個の場合は?
• パラメータ数が増える→オーバーフィッティング
– そもそも個々の集団に興味がない場合は?
• 実験的に作られた集団それぞれの効果が出ても・・・
変量効果で集団間変動を表現
• グループごとの違いを同時にモデリング
– 回帰直線をグループごとに仮定することなく,一
度に推定する
– しかし,グループごとの違いをうまく表現する
• そこで使えるのが変量効果
– 個々の推定値には興味がないが,全体的な散ら
ばりはモデルに含めておきたい場合
回帰係数が集団によって違う
この例では、切片は集団間で同じとする
回帰係数だけが違うモデリング
• まずは単回帰分析の復習
– 𝑦𝑖 ~ 𝑁 𝜇𝑖, 𝜎
– 𝜇𝑖 = 𝛼 + 𝑋𝑖 𝛽
• 集団による違いをjで表現
– 𝑦𝑖𝑗 ~ 𝑁 𝜇𝑖𝑗, 𝜎
– 𝜇𝑖𝑗 = 𝛼 + 𝑋𝑖𝑗 𝛽𝑗
• jの添え字が増えただけ
• 切片は同じと仮定する
変量効果の導入
• 切片と回帰係数が正規分布に従う
– 𝑦𝑖𝑗 ~ 𝑁 𝜇𝑖𝑗, 𝜎
– 𝜇𝑖𝑗 = 𝛼 + 𝑋𝑖𝑗 𝛽𝑗
– 𝛽𝑗 ~ 𝑁 𝛾, 𝜏
• パラメータが、別の確率モデルを持つ=階層モデル
• γは回帰係数の固定効果
• τは回帰係数の集団間変動(変量効果のSD)
• 次のように書いても良い
– 𝑦𝑖𝑗 ~ 𝑁 𝜇𝑖𝑗, 𝜎
– 𝜇𝑖𝑗 = 𝛼 + 𝑋𝑖𝑗 𝛽𝑗
– 𝛽𝑗 = 𝛾 + 𝑟𝑗
– 𝑟𝑗~ 𝑁(0, 𝜏)
Stanでのモデリング
• 集団を意味するjをコードで表現
– サンプルは199人
– 球団は12個
– →こういうデータを使う
Stanでのモデリング
• 集団を識別するID変数をint型で宣言
– 個人の数をN、集団の数をGとする
– data{}ブロックで、teamIDを宣言
– int teamID[N]
• 回帰係数の変量効果を集団数Gで宣言
– real beta[G]と宣言して、model{}ブロックでは、
– for(i in 1:N) beta[teamID[i]]・・・ と書く
– これで、個人iが所属しているチームの回帰係数を指
定していることになる
Stanコード
説明変数が1つだけで、
かつ、回帰係数のみに
変量効果を仮定したモ
デル
切片と回帰係数の両方が変量効果
• モデリング
– 𝑦𝑖𝑗 ~ 𝑁 𝜇𝑖𝑗, 𝜎
– 𝜇𝑖𝑗 = 𝑋𝑖𝑗 𝜷 𝑗 ただし、Xは行列、βは要素2ベクトル
– 𝜷 𝑗 ~ 𝑀𝑢𝑙𝑡𝑖𝑁𝑜𝑟𝑚𝑎𝑙 𝜸, 𝚻
• ベクトルβが、平均ベクトルγ、共分散行列Τの多変量正規分
布に従う
• 多変量正規分布
– 平均がベクトル、SDが共分散行列に代わる
– モデリングに工夫が必要なので注意
Stanで多変量正規分布を使う
• パラメータはベクトル+配列で宣言
– 説明変数の数+1をM、集団の数をGとする
– vector[M] beta[G];
• 多変量正規分布はベクトルをサンプリングするから
– と宣言する
• サンプリングステートメントの書き方
– 多変量正規分布の書き方
• vector ~ multi_normal(vector, cov_matrix)
– つまり、beta ~ multi_normal(gamma, Tau)
共分散行列のモデリング
• 共分散行列はパラメータとして宣言しない
– 共分散行列の事前分布の指定が難しい
– そこで、SDと相関行列に分ける
• SDと相関行列をパラメータとして宣言
– parameters{}ブロック
– corr_matrix[M] omega; M×Mの相関行列
– vector[M] tau; 説明変数の数だけベクトルで宣言
共分散行列のモデリング
• 共分散行列を宣言
– cov_matrix型で宣言
– cov_matrix[M] Tau; M×Mの共分散行列
• SDと相関行列から共分散行列を作る
– Tau = quad_form_diag(omega, tau);
• これは、
• Tau = diag_matrix(tau) * omega * diag_matrix(tau)
• と同じ意味
相関行列の事前分布
• lkj_corr()を使う
– lkj_corr(2)がStanではよく使われる
– 弱情報事前分布
– 今回は無情報事前分布にしたいので,
– omega ~ lkj_corr(1);
– としておく
Stanコード 前半
betaとgamma,そしてtauがrealからvector[M]に変
わっている点に注意
Stanコード 後半
一部の説明変数を変量効果に指定
• 固定要因と変量要因を分ける
– 固定要因をX、変量要因をZとする
• XとZは一部混ざっていても問題はない
• すべての変数について変量効果を仮定する場合、Xと
Zは同じ行列となる
• もっとも一般的な書き方
– 固定効果だけの変数、両方を推定したい変数、
そして変量効果だけを推定したい変数など、いろ
んなモデルを表現できる
モデリング
• 固定効果と変量効果を分ける
– 𝑦𝑖𝑗 ~ 𝑁(𝜇𝑖𝑗, 𝜎)
– 𝜇𝑖𝑗 = 𝑋𝑖𝑗 𝛾 + 𝑍𝑖𝑗 𝑟𝑗
• γは固定効果、rが変量効果
– 𝑟𝑗 ~ 𝑀𝑢𝑙𝑡𝑖𝑁𝑜𝑟𝑚𝑎𝑙(𝟎, 𝚻)
• 変量効果rは平均0ベクトル、共分散行列Tの多変量正
規分布に従う
Stanでのモデリング
• rep_vector()を使うと便利
– rep_vector(0,Q)と書くと,0がQ個並んだベクトル
を作ることができる
– 多変量正規分布の平均に0ベクトルを入れたい
場合に重宝する
Stanコード 前半
Stanコード 後半
変量効果のSDの分布
• 平均値が大きそうに見えても注意が必要
– tau1は、tau2よりも大きそうに見えるが・・・
分布をみてみる
• tau1の分布
• tau2の分布
事後確率最大値を確認
• MAPを計算
– カーネル密度推定を利用する方法
– map <- function(z){
density(z)$x[which.max(density(z)$y)]
}
– tau1=2.07
– tau2=3.42
潜在変数があるモデル
因子分析法
• 知能の次元を推定する統計手法
– スピアマンが一般知能と特殊知能に分離するた
めに開発した
因子分析のモデル
• 各項目が,因子得点と因子負荷量で表現
– 𝑦𝑖𝑗 = 𝛼𝑗 + 𝜃𝑖𝑘 𝜆𝑗𝑘′ + 𝑒𝑖𝑗
– 𝑒𝑖𝑗 ~ 𝑁(0, 𝜓)
– 𝜃𝑖 ~ 𝑁(0,1)
• iは個人,jは項目, kは因子を識別する添字
• 𝛼は項目の平均, 𝜆は因子負荷量,𝜓は誤差SD
• 確率モデル
– 𝑦𝑖𝑗 ~ 𝑁(𝜇𝑖𝑗, 𝜓𝑗)
– 𝜇𝑖𝑗 = 𝛼𝑗 + 𝜃𝑖𝑘 𝜆𝑗𝑘′
– 𝜃𝑖 ~ 𝑁(0,1)
因子分析の確率モデル
• 各観測変数と潜在変数は正規分布に従う
– 𝑦𝑖𝑗 ~ 𝑁(𝛼𝑗 + 𝜃𝑖𝑘 𝜆𝑗𝑘
′
, 𝜓𝑗)
• iは個人,jは項目を識別する添字
• 𝛼は項目の平均, 𝜆𝑗は因子負荷量,𝜓𝑗は誤差SD
– 𝜃𝑖 ~ 𝑁(0, 1)
• 因子得点は標準正規分布に従う
• 項目でfor文を回してコードする
– 個人はベクタライズする
因子負荷量の不定性
• 因子の回転の不定性
– 誤差SDが推定できても、因子負荷量は回転について
自由度を持つ
• 因子負荷量の符号の不定性
– 因子ごとに、負荷量と因子得点の符号がお互いに逆
転しても、解は同じになる
• そこで使えるのがcholesky_factor_cov()
– 回転の自由度の分、0の固定母数を持つ
– 一番上の負荷量の符号を正に制約
cholesky_factor_cov型
F1 F2 F3 F4
m1 positive 0 0 0
m2 free positive 0 0
m3 free free positive 0
m4 free free free positive
m5 free free free free
m6 free free free free
m7 free free free free
m8 free free free free
m9 free free free free
m10 free free free free
Stanコード
因子負荷量行列を、
cholesky_factor_covで宣言してい
るところがポイント
因子得点の周辺化
• 因子得点を積分で消去する
– そうすると,個々の因子得点を推定せずに,項目についてのパ
ラメータのみを推定することになる
– 推定が速くなる
• 尤度関数は,
– 𝐿(𝑦𝑖𝑗|𝛼, 𝜆, 𝜓) = ∫ 𝑁 𝑦𝑖𝑗 𝛼𝑗 + 𝜃𝑖𝑘 𝜆𝑗𝑘′, 𝜓𝑗) 𝑁 𝜃𝑖𝑗 |0, 1
∞
−∞
𝑑 𝜃
• 周辺化すると尤度関数は多変量正規分布になる
– 𝐿(𝒚𝑖|𝚨, 𝚲, 𝚿) = 𝑀𝑢𝑙𝑡𝑖_𝑁𝑜𝑟𝑚𝑎𝑙 𝒚𝑖 |𝚨, 𝚲𝜦 𝒕
+ 𝚿
• Αは平均ベクトル、Λは因子負荷量行列、Ψは誤差SDの対角行列
Stanコード
ただし、これでもうまくいかないことも
• 連鎖ごとに因子負荷量の符号が入れ替わる
– ラベルスウィッチング問題
• 解決法1
– あとで自力でラベルを合わせる
– 面倒だけど、まぁできないことはない
• 解決法2
– 変分ベイズを使う
• 詳細は後述
– 因子分析ならいい方法かもしれない
それでもダメなら
• fa2stanを使う
– これらの問題をたぶんだいたい解決してる
– 回転もできる
– 推定が速くなるような工夫もしてる
• ウィシャート分布でさらに速く
ゼロ過剰分布
ゼロ過剰分布
• 想定している分布よりゼロデータが多い
– 盗塁のデータとか
– そもそも盗塁をしようとしていない人と、盗塁を試みる人を
分けてモデリングする必要がある
ゼロ過剰ポアソン
• ポアソン分布よりもゼロが多いデータ
– 𝑦~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝜃 でゼロデータか、ポアソン分布
に従うかが決まる
– ゼロデータならすべて0、そうでないなら、平均がλ
のポアソン分布に従うとする
ベルヌーイ分布
による0
盗塁しないやつ
ポアソン分布に
よる0
盗塁を試みて0
のやつ
モデリング
• ベルヌーイ分布とポアソン分布を混ぜる
– ベルヌーイ分布で0か0以外の値かをモデリング
– ポアソン分布で,0以外のときの値をモデリング
• データが0か0以外かでモデルが変わる
– y=0のとき
• ベルヌーイ分布で0になる確率と,ベルヌーイ分布が1にな
る確率×ポアソン分布で0になる確率の和
– y>0のとき
• ベルヌーイ分布が1になる確率×ポアソン分布の確率
– 𝑝 𝑦𝑖 𝜃, 𝜆 =
1 − 𝜃 + 𝜃 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 0 𝜆
𝜃 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑦𝑖 𝜆
𝑖𝑓 𝑦𝑖 = 0
𝑖𝑓 𝑦𝑖 > 0
Stanでモデリング
• yが0と0以外で条件わけ
– y=0のとき
• 𝑃(𝑦𝑖) = 𝜃 ∗ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 0 𝜆 + (1 − 𝜃)
– y>0のとき
• 𝑃 𝑦𝑖 = 𝜃 ∗ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑦𝑖|𝜆)
– サンプリング形式ではなく,ターゲット形式で表現
する
Stanでモデリング
• Stanでは対数確率を足し上げる
– target += を使う
– 確率の掛け算は,対数確率では足し算になる
• 確率の足し算の表現
– Stanでは,対数確率を一度確率に戻して,それを
足してまた対数にするための関数がある
• log_sum_exp()
– log_sum_exp(log(1-θ), log(θ)+poisson_lpmf(0|λ))
Stanコード1
ゼロ過剰ポアソン回帰
• 説明変数を加えただけ
– ロジスティック回帰とポアソン回帰を使う
• ロジスティック回帰
– 盗塁をするのかしないのか,その確率を予測
• ポアソン回帰
– 盗塁をした場合,その盗塁数を予測
Stanでモデリング
• yが0と0以外で条件わけ
– y=0のとき
• 𝑃(𝑦𝑖) = 𝜃 ∗ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 0 𝜆𝑖 + (1 − 𝜃)
– y>0のとき
• 𝑃 𝑦𝑖 = 𝜃 ∗ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑦𝑖|𝜆𝑖)
– 𝜃𝑖 = 𝑖𝑛𝑣_𝑙𝑜𝑔𝑖𝑡(𝑋𝑖 𝛼)
– 𝜆𝑖 = exp(𝑋𝑖 𝛽)
– 𝛼はロジスティック回帰の係数,βはポアソン回帰の係
数
Stanコード2
盗塁を体重で予測
• ロジスティック回帰の結果
– alphaの結果
– 体重が重いほど,そもそも盗塁を試みない傾向
• ポアソン回帰の結果
– betaの結果
– 体重が重いほど,盗塁数が少ない傾向
混合分布モデル
混合正規分布
• 複数の正規分布の組み合わせ
– 2つの正規分布の場合
混合分布の確率モデル
• K個の正規分布から生成された場合
– 𝑧𝑖 ~ 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙 𝜋
• Categorical分布は,多項のベルヌーイ分布
• zは確率ベクトルπに従って,1~Kのどの正規分布から生成さ
れたかを意味する離散パラメータ
• データは個体iが所属する正規分布から生成
– 𝑦𝑖 ~ 𝑁(𝜇 𝑧 𝑖, 𝜎𝑧𝑖)
• 𝜇 𝑧𝑖は,zが1~Kに対応する平均値のパラメータ
• 𝜎𝑧𝑖も同様
• ある種の階層モデル
離散パラメータの消去
• zは離散パラメータなので累積和で消去する
– すると,zは消えて,π,μ,σがパラメータになる
– これをStanでモデリングするためには,ゼロ過剰
分布と同様,ターゲット形式で書く必要がある
𝑃 𝑦𝑖 𝜋, 𝜇, 𝜎) = 𝜋 𝑘 𝑁 𝑦𝑖 𝜇 𝑘, 𝜎 𝑘
𝐾
𝑘−1
Stanでのモデリング
• それぞれの正規分布の対数確率
– まず個人ごとにそれぞれの正規分布から生成さ
れる対数尤度を計算する
– その際,log(π)も足す
• target+=で全データの尤度を足し上げる
– 全データの対数尤度をtarget+=に足し上げる
– 各個人の尤度はlog_sum_exp()で合成
Stanコード
データ生成
• 混合率0.4と0.6の2つの正規分布
– 真値は
• 左側はπ=0.4,平均=5,SD=2
• 右側はπ=0.6,平均=15,SD=4
混合分布モデルとMCMCの問題
• ラベルスウィッチング問題
– 1~K個の正規分布を推定するが,どのラベルがど
の正規分布対応するかは,コントロールが難しい
– マルコフ連鎖を複数走らせた場合,連鎖ごとにラ
ベルの対応が異なってしまい,事後分布が収束
していないと判断されてしまう(Rhatが悪くなる)
• 多峰性問題
– 近くの分布の平均値同士が合わさってしまい,独
立な分布として事後分布が推定されない
MCMCで走らせた結果
Rhatがかなり悪い
トレースプロット
• 連鎖ごとにラベルが異なっている
連鎖を1つにすると・・・
• うまくいくこともある
変分ベイズによる推定
• 変分近似を用いてベイズ推定を行う
– 同時事後分布が,すべての周辺事後分布の積で
近似できると仮定
– パラメータがすべて独立だという仮定
• vb()を使って推定する
– Stanモデルをvb()にいれる
– fit.mix <- vb(model.mix, data=datastan)
結果
平均値は上手く推定できている
しかし,事後分布のSDはかなり小さくなっている
混合分布モデルまとめ
• MCMCだとうまくいかないことが多い
– しかも,データが大きいか変数が多いと,ものす
ごい時間がかかって,あまり現実的ではない
• 変分ベイズも視野に入れる
– ただ,SDが若干小さくなることがある
– パラメータが独立であると仮定しやすいモデルだ
と使えるかもしれない
• 回帰分析などは致命的にSDが小さくなることがある

More Related Content

Stanコードの書き方 中級編