「自然科学の統計学」を読む　～第9章ベイズ決定 ②ベイズ決定～

はじめに

東京大学教養学部統計学教室編「自然科学の統計学」は，1992年発行のやや古典的な文献であるが，自然科学に関わる統計学的テーマが簡潔にまとめられている。数理統計学の復習も兼ねて，本書を読むこととした。
ただ，基本的なことは他書で学んできたのと，本書自体がかなり細かく説明されているので，本書内の内容や数式を細かく追うというより，実務や統計検定の受験において有用そうなことを選んでまとめてみたい。

本記事は，「第9章ベイズ決定」における，ベイズ決定に関する読書メモである。

9.3 ベイズ推定

一般に，事後確率分布は，パラメータ $\theta$ の確率分布を示している。しかしこれは1つの値を示したものではない。すなわち事後確率分布は，パラメータの値が出る可能性は示しているが，どの値が出るかは示していない。

パラメータ $\theta$ の値として1つの値 $a$ を示すことは1つの決定であり，統計学的には推定の問題となる。事後確率分布の期待値(平均値)は1つの規準であるが，他にも基準は存在する。

一般に推定値 $a$ と真のパラメータ $\theta$ のはなるべく近い方が良く，離れるにしたがい望ましくないことになる。そこで，推定のペナルティー(損失関数)を $L(\theta, a)$ を導入し，これを基準に考える。

期待損失の最小化の原理

$\theta$ の推定基準として，まずは $L(\theta, a)$ の期待値を考える。

$\begin{align} &\sum_z f(z \mid \theta_i) \cdot L(\theta_i, a(z)) \quad (\text{離散値の場合}) \\ \\ &\int f(z \mid \theta) \cdot L(\theta, a(z)) dz \quad (\text{連続値の場合}) \\ \\ \end{align}$

これを最小にする $z$ の関数 $a(z)$ として， $\theta$ の推定を行なう。

これらの総和または積分は，まだ $\theta$ の関数である。もともと $\theta$ は未知であるので，このままでは最小化ができない。
$\theta$ にはもともと $w(\theta_i)$ (連続値の場合は $w(\theta)$ )という事前確率分布を設定しているので，これを用いて期待値を取る。

$\begin{align} &\sum_i w(\theta_i) \left\{ \sum_z f(z \mid \theta_i) \cdot L(\theta_i, a(z)) \right\} \quad (\text{離散値の場合}) \\ \\ &\int w(\theta) \left\{ \int f(z \mid \theta) \cdot L(\theta, a(z)) dz \right\} d\theta \quad (\text{連続値の場合}) \\ \\ \end{align}$

この式を見ると，事前確率分布と尤度が含まれており，これらの積は事後確率分布に比例するので，

$\begin{align} &\sum_i w'(\theta_i \mid z) \cdot L(\theta_i, a(z)) \quad (\text{離散値の場合}) \\ \\ &\int w'(\theta \mid z) \cdot L(\theta, a(z)) dz \quad (\text{連続値の場合}) \\ \\ \end{align}$

を最小化することになる。

この基準のことを，最小事後期待損失の基準と呼ぶ。

ベイズ推定

最小事後期待損失による基準，すなわち事後確率分布による損失 $L(\theta, a)$ の期待値(平均値)を最小にする $a(z)$ を求める。なお，事後確率による期待損失を $R(a)$ と表記する。

典型的な損失関数に応じて， $a(z)$ は変わってくる。

以下では，各種の損失と，その損失における $\theta$ の推定値 $a(z)$ を導出する。ただし確率変数やパラメータは連続変数とする。

絶対損失

絶対損失は，

$\begin{align} L(\theta, a) = \lvert \theta - a \rvert \\ \\ \end{align}$

で表される。

このとき $R(a)$ は，事後確率分布 $w'(\theta \mid z)$ による期待値を用いて

$\begin{align} R(a) = E[ \lvert \theta - a \rvert ] = \int_{- \infty}^{\infty} \lvert \theta - a \rvert w'(\theta \mid z) d \theta \\ \\ \end{align}$

と表される。

絶対値が含まれているので，積分を分割すると，

$\begin{align} R(a) = \int_{-\infty}^a (a - \theta) w'(\theta \mid z) d \theta + \int_a^{\infty} (\theta - a) w'(\theta \mid z) d \theta \\ \\ \end{align}$

となる。

第1項と第2項をそれぞれ $a$ で微分すると，

$\begin{align} &\frac{d}{da} \int_{-\infty}^a (a - \theta) w'(\theta \mid z) d \theta = \int_{-\infty}^a w'(\theta \mid z) d \theta \\ \\ &\frac{d}{da} \int_a^{\infty} (\theta - a) w'(\theta \mid z) d \theta = - \int_a^{\infty} w'(\theta \mid z) d \theta \\ \\ \therefore & R'(a ) = \frac{dR}{da} = \int_{-\infty}^a w'(\theta \mid z) d \theta - \int_a^{\infty} w'(\theta \mid z) d \theta \\ \\ \end{align}$

となる。

全確率は1，すなわち $\int_{-\infty}^{\infty} w'(\theta \mid z) d \theta = 1$ を代入すると，

$\begin{align} R'(a)= 2 \int_{-\infty}^a w'(\theta \mid z) d \theta - 1 \\ \\ \end{align}$

となる。

最小値を取る点の条件である $R'(a) = 0$ を用いると，このとき

$\begin{align} \int_{-\infty}^a w'(\theta \mid z) d \theta = \frac{1}{2} \\ \\ \end{align}$

となり，これは $a$ が事後確率分布 $w'(\theta \mid z)$ の中央値であることを示している。

平方損失

平方損失は，

$\begin{align} L(\theta, a) = (\theta - a)^2 \\ \\ \end{align}$

で表される。

このとき $R(a)$ は，

$\begin{align} R(a) = E[ (\theta - a)^2 ] = E[ \theta^2 ] - 2 E[ \theta ] a + a^2 \\ \\ \end{align}$

となる。

$R(a)$ が最小となる点では， $R'(a) = 0$ となるので，

$\begin{align} a = E[ \theta ] \\ \\ \end{align}$

となり，これは $a$ が事後確率分布 $w'(\theta \mid z)$ の期待値であることを示している。

単純損失

単純損失は，

$\begin{align} L(\theta, a) = \begin{cases} 0 & \lvert \theta - a \rvert \leq \Delta \\ \\ 1 & \lvert \theta - a \rvert \gt \Delta \\ \end{cases} \end{align}$

で表される。

このとき $R(a)$ は，定義関数 $I_{[A]}$ を用いて，

$\begin{align} R(a) &= \int_{\infty}^{- \infty} I_{[ \lvert \theta - a \rvert \gt \Delta ]} w'(\theta \mid z) d \theta \\ \\ &= 1 - \int_{\infty}^{- \infty} I_{[ \lvert \theta - a \rvert \leq \Delta ]} w'(\theta \mid z) d \theta \\ \\ \end{align}$

となる。

したがって， $R(a)$ を最小化する $a$ は，

$\begin{align} a^* = \mathrm{arg} \min_a R(a) = \mathrm{arg} \min_a w'(\lvert \theta - a \rvert \leq \Delta \mid z) \\ \\ \end{align}$

となるが，これは $a$ を中心とする $\pm \Delta$ の区間に最大の事後確率が入ればよいので， $a$ が事後確率分布 $w'(\theta \mid z)$ の最頻値であることを示している。

9.4 統計的決定理論

前節までは，パラメータ $\theta$ を推定する際に，「事後確率分布による損失関数の期待値」を最小にするように求めていた。

一方で，パラメータ $\theta$ の検定を行なう際に，検定方式は「第1種の過誤が有意水準を超えないという条件のもとで第2種の過誤を最小化する」ような検定方式とみなせるので，第1種の過誤と第2種の過誤をコスト(損失)とみなして，これを最小化するようにしている，と考えられる。

このことから，推定も検定も，ある基準になるコストを最小にする統計量を求めているといえる。この統計量は，

推定 : 推定量
検定 : 検定統計量

である。
このように，統計的推測全体を1つの見地から統一的にとらえる考え方を，ワルドの統計的決定理論(Statistical Decision Theory)という。

統計的決定問題

統計的決定理論において，

推定 : 推定量を求める
検定 : 検定統計量と棄却域を用いて採択・棄却を判断する

といった行動を行なうが，この行動はデータ $z$ によって行われるため，行動を $z$ の関数として $a = a(z)$ と表す。

統計的決定理論では，最適な行動 $a$ を求めることを目的とし，このような問題を統計的決定問題という。この一般的な解法は，最小事後期待損失の基準によって求めることになる。

まとめと感想

今回は「第9章ベイズ決定」における，ベイズ決定についてまとめた。

本節を学ぶことを通じて，「ベイズ推定」と「統計的決定理論」が密接に結びついているということを理解した。特に，損失関数の選び方によって推定量が大きく変わるという事実は，実務において「最適な推定量」を考える際の指針になる。例えば，平均値推定がノイズに弱い状況では中央値推定を選ぶ方が合理的であり，モード推定が適切な場面もある。

また、推定と検定を「統計的決定」という共通の視点で整理する考え方は，統計学の理解を一段深める助けになった。普段の業務では「推定」と「検定」を別々のツールとして使い分けがちだが，実はどちらも「意思決定問題」に還元できるという見方を得ると，モデル選択や不確実性の扱いをより体系的に考えられるようになる。
統計的決定理論は，竹村「現代数理統計学」においても説明されている。ここではベイズ統計学を陽には扱っていないが，今一度復習してみたいと思う。

本記事を最後まで読んでくださり，どうもありがとうございました。