「確率的機械学習入門編I」を読む　～第4章統計学 ⑥頻度論的統計学～

はじめに

持橋大地・鈴木大慈監訳「確率的機械学習入門編I」は，世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり，確率モデルに基づく機械学習，深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが，機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて，機械学習・深層学習の基礎を体系的に学び，チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで，製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。

※なおボリュームが多い本なので，知っているところは端折りながら読み進めたい。

本記事は，「第4章統計学」における頻度論的統計学に関する読書メモである。

4.7　頻度論的統計学

前節では，4.6節で扱っていたベイズ統計学ではなく，頻度論的統計学(frequentist statistics)を説明している。

頻度論的統計学は広く使われており，ベイジアンのために役に立つ考え方もあるため，これを理解しておくことは役に立つ。

4.7.1　標本分布

頻度論的統計学の重要な考え方は，データ $\mathcal{D}$ を確率変数，データを生成するパラメータ $\boldsymbol{\theta}^*$ は固定値とみなす。パラメータはデータから推定し， $\boldsymbol{\theta} = \hat{\Theta}(\mathcal{D})$ も確率変数となり，この分布は推定量の標本分布と呼ばれる。

4.7.2　MLE の標本分布のガウス近似

最も一般的な推定量はMLEである。標本が大きくなったとき，あるモデルのMLEの標本分布はガウス分布に近づく。この性質を漸近正規性(asymptotic normality)と呼ぶ。

4.7.3　推定量の標本分布のブートストラップ近似

推定量がデータに関する複雑な関数の場合や，標本が小さい場合は，標本分布をブートストラップ法によって近似することができる。

ブートストラップ法では，

サイズが $N$ であるようなデータセットを作成する。
上記のようなデータセットを $S$ 個作る。

という風にデータセットを作成する。それぞれの標本から，推定量 $\hat{\boldsymbol{\theta}}^s = \pi(\tilde{\mathcal{D}} ^{(s)})$ を作成し， $\hat{\boldsymbol{\theta}}^s$ の経験分布を使って標本分布を推定する。

パラメトリックブートストラップ法では，推定量 $\hat{\boldsymbol{\theta}}$ を用いてデータセットを生成する。
またノンパラメトリックブートストラップ法では，元のデータから復元抽出によってデータを得る。

4.7.4　信頼区間

頻度論的統計学では，パラメータ推定の不確実性を見積もるための手段として，パラメータ $\theta$ の推定の $100(1-\alpha)$ %信頼区間(confidence interval)を用いる。

たとえば $\alpha=0.05$ とすると95%信頼区間になるが，これは「データを繰り返しサンプルして，それぞれのデータに対して信頼区間 $I(\tilde{\mathcal{D}})$ を計算したとすると，そのような区間のうちおよび95%に真のパラメータが含まれる」という意味である。
そのため1回の試行で得られた区間が「 $\mu$ を含む確率が 95%」という意味ではない。

4.7.6　バイアス-分散トレードオフ

真のパラメータを $\theta^*$ ，推定量を $\hat{\theta}$ とすると，推定量のバイアスは以下のように定義できる。

$\begin{align} \mathrm{bias} \equiv E[ \hat{\theta} ] - \theta^* \\ \\ \end{align}$

推定量が不偏推定量，すなわち $E[ \hat{\theta} ] = \theta^*$ のとき，バイアスは0になる。

不偏推定量とは限らない一般の推定量について，推定の平均二乗誤差(MSE)は，以下のように分散とバイアスに分解できる。ただし $\bar{\theta} = E[ \hat{\theta} ]$ である。

$\begin{align} \mathrm{MSE} = E[ (\hat{\theta} - \theta^*)^2 ] &= E[ ((\hat{\theta} - \bar{\theta} ) + (\bar{\theta} - \theta^* ) )^2 ] \\ \\ &= V[ \hat{\theta} ] + (\mathrm{bias}(\hat{\theta}) )^2 \\ \\ \end{align}$

この分解を，バイアス-分散のトレードオフという。
ここから，二乗誤差の最小化を目標とする際には，バイアスの2乗の増加量よりも分散が減少する場合は，バイアスのある推定量を使った方がよい，ということがわかる。

リッジ回帰の例

下図に，リッジ回帰に対するバイアス-分散トレードオフの図解を示す。

https://github.com/probml/pml-book/releases/latest/download/book1.pdf のFigure 4.25から引用

問題設定は以下の通りである。

真の関数は，右上図・右下図に示された緑色の線である。
真の関数から，20個の異なるデータセットを取り出し，ガウス動径基底関数を用いて線形回帰を行なう。
- このとき，リッジ回帰の正則化項パラメータは $\ln(\lambda) = 5, -5$ とする。

図の説明は以下の通りである。

左上 : $\ln(\lambda) = 5$ として，ガウス動径基底関数を用いた回帰を行なう。
右上 : 回帰した結果の平均を，赤い点線で表す。また真の関数を緑色の線で表す。
左下 : $\ln(\lambda) = -5$ として，ガウス動径基底関数を用いた回帰を行なう。
右下 : 回帰した結果の平均を，赤い点線で表す。また真の関数を緑色の線で表す。

正則化パラメータが大きい( $\ln(\lambda) = 5$ )ときは，左上図に示すように分散が小さい。一方で，右上図に示すようにバイアスは大きくなっている。
一方で正則化パラメータが小さい( $\ln(\lambda) = -5$ )ときは，バイアスは減らせていることが分かる。

まとめと感想

今回は，「4　統計学」における頻度論的統計学についてまとめた。

頻度論的統計学の方が，個人的にはなじみのある話題であるが，パラメータの不確実性を評価する際には，ベイズ統計学の信用区間の方が理解しやすいと思った。信頼区間の考え方は誤りやすいので，実務で解釈する際には注意していきたい。

バイアス-分散のトレードオフについて，リッジ回帰を例にした分かりやすい解説があった。リッジ回帰は，現場でも使いやすい分析手法の1つではあるが，正則化パラメータを大きくし過ぎると全体的になだらかになる傾向が出てきて，バイアスが大きくなるということが理解できた。実務上では，交差検証法によって正則化パラメータを選ぶことになり，正則化パラメータが大きすぎるモデルは選択されないと考えられるが，正則化パラメータとバイアス・分散の関係について理解しておくことが重要だと感じた。

本記事を最後まで読んでくださり，どうもありがとうございました。