「確率的機械学習入門編I」を読む　～第5章決定理論 ③モデル選択・その1～

はじめに

持橋大地・鈴木大慈監訳「確率的機械学習入門編I」は，世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり，確率モデルに基づく機械学習，深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが，機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて，機械学習・深層学習の基礎を体系的に学び，チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで，製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。

※なおボリュームが多い本なので，知っているところは端折りながら読み進めたい。

本記事は，「第5章決定理論」のモデル選択に関する読書メモである。

5.2　モデル選択

本節では，複数のパラメトリックな候補のモデル(例 : 異なる総数のニューラルネットワーク)から正しいモデルを選ぶ，という問題設定に対して，ベイズ決定理論の道具を用いて解くことについて説明している。

5.2.1　ベイズ仮説検定

本項では，

帰無仮説(null hypothesis) $\mathcal{M}_0$
対立仮説(alternative hypothesis) $\mathcal{M}_1$

の2種類の仮説を比較して，どちらのモデル(仮説)を選ぶか決める方法を説明している。

モデルに関する事前分布が $p(M_0) = p(M_1) = 0.5$ として，以下で定義されるベイズ因子(Bayes factor)

$\begin{align} B_{1, 0} \equiv \frac{ p(\mathcal{D} \mid M_1) }{ p(\mathcal{D} \mid M_0) } \\ \\ \end{align}$

をもちいて， $B_{1, 0} \gt 1$ すなわち $p(\mathcal{D} \mid M_1)$ の方が $p(\mathcal{D} \mid M_0)$ よりも大きい場合に $M_1$ を選ぶことが最適な決定則となる。

●ブログ筆者註 :
この分子は，

$\begin{align} p(\mathcal{D} \mid M_1) = \int p(\mathcal{D} \mid \boldsymbol{\theta}, M_1) p(\boldsymbol{\theta} \mid M_1) d \boldsymbol{\theta} \\ \\ \end{align}$

となるので，

$p(\boldsymbol{\theta} \mid M_1)$ : モデル $M_1$ から得られるパラメータ $\boldsymbol{\theta}$

$p(\mathcal{D} \mid \boldsymbol{\theta})$ : その $\boldsymbol{\theta}$ を用いて得られる尤度

を組合わせて，パラメータを積分消去したものである。

ベイズ因子は，パラメータを積分消去しているということを除いて，尤度比と類似していることが分かる。

硬貨の偏りの検定

帰無仮説・対立仮説の例として， $N$ 回効果を投げる「硬貨投げ」を考える。表が出る確率を $\theta$ とすると，

$M_0 : \theta=0.5$
$M_1 : \theta \in \{ 0, 1 \}$

となる。

$M_0$ では，パラメータが0.5で固定されているので， $p(\mathcal{D} \mid M_0) = (1/2)^N$ となる。
一方 $M_1$ では，事前分布としてベータ分布 $Be(\alpha_1, \alpha_0)$ を選び，表・裏の出現回数をそれぞれ $N_1, N_0$ とすると，

$\begin{align} p(\mathcal{D} \mid M_1) = \int p(\mathcal{D} \mid \theta) p(\theta \mid M_1) d \theta = \frac{ B(\alpha_1 + N_1, \alpha_0 + N_0) }{ B(\alpha_1, \alpha_0) } \\ \\ \end{align}$

というベータ・二項分布になる。

5.2.2　ベイズモデル選択

本項では，2つ以上のモデル集合 $\mathcal{M}$ の中から1つのモデル $m \in \mathcal{M}$ を選ぶことを考える。これをモデル選択と呼ぶ。

0-1損失を考える場合，最適な行動は，最も事後確率が高いモデルを選択することになる。

$\begin{align} \hat{m} = \operatorname*{argmax}_{m \in \mathcal{M}} p(m \mid \mathcal{D}) = \operatorname*{argmax}_{m \in \mathcal{M}} \frac{ p(\mathcal{D} \mid m) p(m) }{ \sum_{m \in \mathcal{M}} p(\mathcal{D} \mid m) p(m) } \\ \\ \end{align}$

モデルに対する事前分布が一様分布，すなわち $p(m) = 1/ \lvert \mathcal{M} \rvert$ ならば，これはMAPモデル

$\begin{align} \hat{m} &= \operatorname*{argmax}_{m \in \mathcal{M}} p(\mathcal{D} \mid m) \\ \\ p(\mathcal{D} \mid m) &= \int p(\mathcal{D} \mid \boldsymbol{\theta}, m) p(\boldsymbol{\theta} \mid m) d \theta \\ \\ \end{align}$

となる。

なお $p(\mathcal{D} \mid m)$ は事後分布のパラメータを積分消去したもので，周辺尤度またはエビデンスと呼ばれる。

ベイズモデル選択の例

本項では，多項式回帰におけるベイズ的モデル選択の例を挙げている。

データに対して，1次・2次・3次の多項式を当てはめており，それぞれ左上・右上・左下に対応している。
この中からモデルを選択するには，各モデルについて $p(\mathcal{D} \mid m)$ を計算することになり，その棒グラフは右下に描かれている。

図に示されているように，右下の棒グラフにおいて $p(\mathcal{D} \mid m=\text{2次式})$ の値が最も大きいので，このデータについては2次式を選ぶことが最適であることが分かる。

https://github.com/probml/pml-book/releases/latest/download/book1.pdf のFigure 5.6から引用

5.2.3　オッカムの剃刀

オッカムの剃刀(Occam’s razor)とは，「複雑なモデルよりも単純なモデルを選ぶ」という原則のことを言う。本項では，ベイズ理論とオッカムの剃刀のかかわりについて説明している。

単純なモデルの場合，事前分布 $p(m \mid \mathcal{M})$ が小さい領域に集中することになる。一方で複雑なモデルの場合， $m$ が取りうる範囲が広くなるので，良いパラメータ $\hat{\boldsymbol{\theta}}_2$ は事前分布 $p(m \mid \mathcal{M})$ において低い確率を取ることになる。したがって周辺尤度はより単純なモデルを好むことになる。
これをベイズのオッカムの剃刀効果(Bayesian Occam's razor effect)と呼ぶ。

5.2.4　交差検証と周辺尤度の関係

交差検証は，非ベイジアンの場合のモデル選択手法である。本項では，周辺尤度と一個抜き交差検証(leave-one-out cross-validation, LOO-CV)の関係について説明している。

モデル $m$ の周辺尤度を，次のような逐次的な形で表現する。

$\begin{align} p(\mathcal{D} \mid m) = \prod_{n=1}^N p(y_n \mid \boldsymbol{x}_n, \mathcal{D}_{1:n-1}, m) \\ \\ \end{align}$

この表記は，データ1個ずつ増えていることを表現している。

本書P176で示しているように，上式の右辺の各項は，最適なパラメータ $\hat{\boldsymbol{\theta}}_m$ のプラグイン近似で近似できるので，最終的には

$\begin{align} \log p(\mathcal{D} \mid m) \approx \sum_{n=1}^N \log p(y_n \mid \boldsymbol{x}_n, \hat{\boldsymbol{\theta}}_m (\mathcal{D}_{1:n-1}) ) \\ \\ \end{align}$

のように，LOO-CVの尤度の推定量に近い形になっていることが分かる。