はじめに
持橋大地・鈴木大慈 監訳「確率的機械学習 入門編I」は,世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり,確率モデルに基づく機械学習,深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが,機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて,機械学習・深層学習の基礎を体系的に学び,チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで,製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。
※なおボリュームが多い本なので,知っているところは端折りながら読み進めたい。
本記事は,「第5章 決定理論」のモデル選択に関する読書メモである。
5.2 モデル選択
本節では,複数のパラメトリックな候補のモデル(例 : 異なる総数のニューラルネットワーク)から正しいモデルを選ぶ,という問題設定に対して,ベイズ決定理論の道具を用いて解くことについて説明している。
5.2.1 ベイズ仮説検定
本項では,
- 帰無仮説(null hypothesis)
- 対立仮説(alternative hypothesis)
の2種類の仮説を比較して,どちらのモデル(仮説)を選ぶか決める方法を説明している。
モデルに関する事前分布がとして,以下で定義されるベイズ因子(Bayes factor)
●ブログ筆者註 :
この分子は,となるので,
: モデル
から得られるパラメータ
: その
を用いて得られる尤度
を組合わせて,パラメータを積分消去したものである。
ベイズ因子は,パラメータを積分消去しているということを除いて,尤度比と類似していることが分かる。
硬貨の偏りの検定
帰無仮説・対立仮説の例として,回効果を投げる「硬貨投げ」を考える。表が出る確率を
とすると,
となる。
では,パラメータが0.5で固定されているので,
となる。
一方では,事前分布としてベータ分布
を選び,表・裏の出現回数をそれぞれ
とすると,
5.2.2 ベイズモデル選択
本項では,2つ以上のモデル集合の中から1つのモデル
を選ぶことを考える。これをモデル選択と呼ぶ。
0-1損失を考える場合,最適な行動は,最も事後確率が高いモデルを選択することになる。
モデルに対する事前分布が一様分布,すなわちならば,これはMAPモデル
まとめと感想
「第5章 決定理論」のモデル選択についてまとめた。
頻度論的統計学との対比を考える
今回,ベイズ仮説検定について学んだ。ベイズ仮説検定の分母・分子には,周辺尤度が登場する。これはモデルに注目して,パラメータを消去したものであるが,ベイズ因子は頻度論的統計学に出てくる尤度比と非常によく似た形をしており,なじみが深い式だと感じた。
頻度論的統計学とベイズ統計学は,対比させるような形で紹介されることが多いが,いずれも統計学であるため,似ているところと異なるところの対比を意識していきたい。
事前分布の複雑さ
ベイズ統計学では,パラメータの事前分布を考える。この事前分布は,モデルによって複雑さが変わってくる。
イメージとしては,例えば多項式回帰の場合,
- 1次式であれば
- 2次式であれば
のようになり,2次式の方がパラメータが多いため,1次式モデルにおけるパラメータの事前分布よりも,2次式モデルにおけるパラメータの事前分布の方が複雑,と考えればよいと思う。
モデルの複雑さについては,「ベイズのオッカムの剃刀効果」で言及されていたが,モデル選択は実務上でも重要であるため,ベイズモデルを扱う際には周辺尤度を扱う方法に習熟していきたい。
本記事を最後まで読んでくださり,どうもありがとうございました。
参考サイト
- 確率的機械学習:入門編 I |朝倉書店
- 『確率的機械学習:入門編』サポートサイト
- 原著関連
- Probabilistic Machine Learning: An Introduction : 原著のサポートページ
- pyprobml/notebooks.md at auto_notebooks_md · probml/pyprobml · GitHub : 原著の図作成用Notebooks一覧
