はじめに
持橋大地・鈴木大慈 監訳「確率的機械学習 入門編I」は,世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり,確率モデルに基づく機械学習,深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが,機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて,機械学習・深層学習の基礎を体系的に学び,チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで,製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。
※なおボリュームが多い本なので,知っているところは端折りながら読み進めたい。
本記事は,「第4章 統計学」のベイズ統計学における,ディリクレ・多項モデル,ガウス・ガウスモデル,共役でない事前分布に関する読書メモである。
4.6 ベイズ統計学
4.6.3 ディリクレ・多項モデル
前項のベータ・二項モデルは二値変数を対象としていたが,本項で扱うディリクレ・多項モデルは,値変数を対象にしている。
尤度
をカテゴリカル分布にしたがう離散変数とする。
●ブログ筆者註 :
カテゴリカル分布は本書P52にある。次元のベクトルにおいて,要素の1つだけが1,残りが0となるようなベクトルにおいて,このベクトルの出現確率を表現するのに用いられる。
事前分布
カテゴリカル分布の共役事前分布は,ディリクレ分布(Dirichlet distribution)が用いられる。ディリクレ分布の確率密度関数は,次のように定義される。
におけるディリクレ分布を下図に示す。

事後分布
値変数において
番目の要素が1になった回数を
で表す。多項分布の尤度とディリクレ事前分布を組合わせると,以下のような事後分布が計算される。
●ブログ筆者註 :
ディリクレ・多項モデルは,トピックモデルにおけるLDA(Latent Dirichlet Allocation)の中心的な構成要素である。
4.6.5 共役ではない事前分布
これまで例に挙がっていた共役事前分布は,すべて指数型分布族であった。指数型分布族は,計算がしやすいといった利点があるが,実際は
- 尤度に対して共役な指数型分布族の事前分布があるとは限らない。
- 共役自然分布があったとしても,共役性の仮定が強すぎる。
といった不都合があることがある。
本項では,共役ではない事前分布について説明している。
無情報事前分布
ドメイン知識がほとんど得られないときは,無情報事前分布(non-informative prior)を用いることが望ましい。たとえば,のような定数が用いられる。
ただし,無情報事前分布を定義する方法は一意ではなく,何らかの情報を含むことになるので,拡散した事前分布といった表現が用いられることがある。
まとめと感想
今回は,「4 統計学」のベイズ統計学における,ディリクレ・多項モデル,ガウス・ガウスモデル,共役でない事前分布についてまとめた。
ディリクレ・多項モデルは,登場する確率分布が複雑なものになっているが,ベータ・二項モデルの自然な拡張になっているため,ベータ・二項モデルで出てきた計算手法が応用できることが理解できた。
ガウス・ガウスモデルは,事前分布も尤度もガウス分布を用いるため,事後分布もガウス分布になる,という性質が確認できた。また事後分布の平均・分散(精度)についても,事前分布・尤度のパラメータの和や凸結合になるといった美しい性質があることが確認できた。
実際の応用シーンでは,共役事前分布が必ずしも扱えるとは限らない。そのための手法として無情報事前分布や階層的事前分布,経験事前分布が紹介されていた。これらは,計算量や表現力の間にトレードオフがあると考えているが,実際の計算例を通じて比較してみたいと思った。
本記事を最後まで読んでくださり,どうもありがとうございました。
参考サイト
- 確率的機械学習:入門編 I |朝倉書店
- 『確率的機械学習:入門編』サポートサイト
- 原著関連
- Probabilistic Machine Learning: An Introduction : 原著のサポートページ
- pyprobml/notebooks.md at auto_notebooks_md · probml/pyprobml · GitHub : 原著の図作成用Notebooks一覧