jiku log

データサイエンスの核心を掴む : 学びと発見の記録

ベイズ統計における3変数以上の公式

はじめに

この記事は,統計・機械学習の数理 Advent Calendar 2025の8日目の記事である。

持橋大地・鈴木大慈 監訳「確率的機械学習 入門編I」のP124に,ベイズ統計や機械学習ではおなじみの事後予測分布 (posterior predictive distribution)の式


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D} ) = \int p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ \\
\end{align}
が出てきた。


果たして,この等式は自明だろうか?


ベイズ統計学において,よく見かける式は


 \begin{align}
P(A, B) = P(A \mid B) P(B) \\ \\
\end{align}
であるが,初学者がよく見る p(A \mid B)と比べると,事後予測分布の式は変数が増えるため複雑に見える

3変数以上を扱う式は事後予測分布の理解に必要であるため,本記事では,ベイズ統計における3変数以上の公式を整理し,事後予測分布の式を導出するまでの流れを説明する
なお本記事で説明する内容は「公式」というより「応用テクニック」に近いものであるが,本記事中では便宜上「3つの公式」と表現する。

この記事が対象とする読者

本記事で得られること(ベネフィット)

  • ベイズ統計における3変数以上の公式が理解できる。
  • 事後予測分布の式の導出方法が理解できる。

冒頭に本記事の内容を,チートシートとしてまとめる。

ベイズ統計における3変数以上の公式と事後予測分布

ベイズ統計における基本的な公式

同時分布と条件付き分布

確率変数 \boldsymbol{X}, \boldsymbol{Y}の同時分布(同時確率密度関数)は


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y}) \\ \\
\end{align}
で表される。

 \boldsymbol{x}が与えられたもとでの \boldsymbol{y}確率密度関数を条件付き分布(条件付き確率密度関数)といい,


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}) \equiv \frac{p(\boldsymbol{x}, \boldsymbol{y})}{p(\boldsymbol{x})} \\ \\
\end{align}
で表す。これを整理すると,

 \begin{align}
p(\boldsymbol{x},\boldsymbol{y}) = p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x}) \\ \\
\end{align}
となり,これを積の法則(product rule)と呼ぶ。

周辺分布

同時分布が与えられた下で,1つの確率変数に関する周辺分布(marginal distribution)は


 \begin{align}
p(\boldsymbol{y}) = \int p(\boldsymbol{y}, \boldsymbol{\theta}) d \boldsymbol{\theta} \\ \\
\end{align}
で与えられる。

条件付き確率と組み合わせると,


 \begin{align}
p(\boldsymbol{y}) = \int p(\boldsymbol{y}, \boldsymbol{\theta}) d \boldsymbol{\theta} 
= \int p(\boldsymbol{y} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta}) d \boldsymbol{\theta} \\ \\
\end{align}
となる。

周辺分布は,通常では確率変数の数を減らしたいときに用いる公式であるが,このように確率変数の数を増やしたいときに用いることもできる。

ベイズの定理

周辺分布と条件付き分布から,ベイズの公式


 \begin{align}
p(\boldsymbol{\theta} \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta})} {p(\mathcal{D})} \\ \\
\end{align}
が得られる。

ベイズの定理は,尤度 p(\mathcal{D} \mid \boldsymbol{\theta})と事前分布 p(\boldsymbol{\theta})から事後分布 p(\boldsymbol{\theta} \mid \mathcal{D})を求めるときに用いる。

条件付き独立

確率変数 Zが与えられたときに,確率変数が X, Yが独立であるとき,「 Zが与えられた下で X Y条件付き独立(conditionally independent)である。」という。


 \begin{align}
X \perp Y \mid Z \Leftrightarrow p(X, Y \mid Z) = p(X \mid Z) p(Y \mid Z) \\ \\
\end{align}

条件付き独立は,

  • 3つ以上の確率変数に関する公式である。
  •  X Zを経由して Yに依存する。

という特徴がある。

3変数以上の公式

以下ではベイズ統計における基本的な公式を用いて,ベイズ統計における代表的な3変数以上の公式を導出する。具体的には,

  1. 変数統合 : 複数の変数をまとめて,条件付き確率の式を使う。
  2. 変数固定 : 条件付ける変数を条件から外して,条件付き確率の式を使う。
  3. 変数消去 : 条件付き独立を用いて,条件付ける変数を消去する。

と名付けた3つの公式について説明する。

公式その1 : 変数統合

1つめの公式は,2つの確率変数をまとめて1つの変数とみなすというものであり,本記事では変数統合と呼ぶ。


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}) = p(\boldsymbol{z} \mid \boldsymbol{x}, \boldsymbol{y}) p(\boldsymbol{x}, \boldsymbol{y}) \\ \\
\end{align}

■証明 :


 \begin{align}
\boldsymbol{w} = 
  \begin{bmatrix}
    \boldsymbol{x} \\ \boldsymbol{y} \\
  \end{bmatrix} \\ \\
\end{align}
のように変数をまとめると,

 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}) 
&= p(\boldsymbol{w}, \boldsymbol{z}) \\ \\
&= p(\boldsymbol{z} \mid \boldsymbol{w}) p(\boldsymbol{w}) \\ \\
&= p(\boldsymbol{z} \mid \boldsymbol{x}, \boldsymbol{y}) p(\boldsymbol{x}, \boldsymbol{y}) \\ \\
\end{align}
となる。 \blacksquare

公式その2 : 変数固定

2つめの公式は,条件付けている変数を,式変形の前後で条件として与えるというものであり,本記事では変数固定と呼ぶ。


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z}) = p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) \tag{1} \\ \\
\end{align}
この式の構造は,通常の条件付き確率

 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y}) = p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x}) \\ \\
\end{align}
と同じ形である。

■証明 :
(1)式の右辺は,


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z}) = p(\boldsymbol{x}, \boldsymbol{y} ,\boldsymbol{z}) / p(\boldsymbol{z}) \tag{2} \\ \\
\end{align}
と変形できる。

この式の分子は,変数統合の公式を用いると,


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y} ,\boldsymbol{z})
&= p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) \cdot p(\boldsymbol{x}, \boldsymbol{z}) \\ \\
&= p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) \cdot p(\boldsymbol{x} \mid \boldsymbol{z}) p(\boldsymbol{z}) \\ \\
\end{align}
となる。これを(2)式に代入すると,変数固定の公式が得られる。 \blacksquare

公式その3 : 変数消去

3つめの公式は,条件付き独立を用いて,変数を1つ消すというものであり,本記事では変数消去と呼ぶ。

 \boldsymbol{z}のもとで \boldsymbol{x} \boldsymbol{y}が条件付き独立である,すなわち


 \begin{align}
p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z}) = p(\boldsymbol{y} \mid \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) \\ \\
\end{align}
であるとする。このとき,

 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) = p(\boldsymbol{y} \mid \boldsymbol{z}) \\ \\
\end{align}
となる。

■証明 :
変数固定の公式を用いると,


 \begin{align}
p(\boldsymbol{y} ,  \boldsymbol{x} \mid \boldsymbol{z}) = p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) \\ \\
\end{align}
となる。ここで条件付き独立の式を用いると,上式の左辺は

 \begin{align}
p(\boldsymbol{y}, \boldsymbol{x} \mid \boldsymbol{z}) = p(\boldsymbol{y} \mid \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) \\ \\
\end{align}
となるので,

 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) &= p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z}) p(\boldsymbol{x} \mid \boldsymbol{z}) \\ \\
\therefore \: p(\boldsymbol{y} \mid \boldsymbol{z}) &= p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{z})  \\ \\
\end{align}
となり,変数消去の公式が得られる。 \blacksquare

変数消去の公式は,条件付ける変数を消すときに用いることができる。

事後予測分布の導出

ベイズ統計における3変数以上の公式を用いて,「確率的機械学習 入門編I」のP123-124の事後予測分布の式を導出する。

問題設定

本書における問題設定は以下の通りである。

  •  \mathcal{D} = \{(\boldsymbol{x}_n, \boldsymbol{y}_n) : n=1 : N  \}のような観測データが与えられているとする。
  • パラメータの事後分布を計算した後,入力 \boldsymbol{x}が与えられた下での出力 \boldsymbol{y}の事後分布を求める。

確率モデルなどの設定

事後予測分布を導出するにあたり,確率モデルを設定する。これは,「変数消去」の公式において条件付き独立を用いるが,変数間の条件付き独立性を確認するためには,確率モデルが必要になるためである。
すなわち事後予測分布の導出は,単なる式変形ではなく,対象に対する洞察と仮定を必要とするものであると言える。

本書にもとづき,確率モデルやこれに関連する前提条件を整理する。

データ

データに対する条件は明記されていないが,ここでは観測データ \mathcal{D}と,入力・出力 (\boldsymbol{x}, \boldsymbol{y})が,同一分布から独立に得られている(i. i. d. )とする。すなわち,確率分布のパラメータ \boldsymbol{\theta}のもと,観測データ \mathcal{D}と,入力・出力 (\boldsymbol{x}, \boldsymbol{y})が独立,すなわち


 \begin{align}
D \perp (\boldsymbol{x}, \boldsymbol{y}) \mid \boldsymbol{\theta} \\ \\
\end{align}
とする。

尤度

出力 \boldsymbol{y}は,入力 \boldsymbol{x}とパラメータ \boldsymbol{\theta}から得られる条件付き確率だと仮定する。すなわち,出力 \boldsymbol{y}の確率分布は,


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) \\ \\
\end{align}
であるとする。

このようなモデルの例として,例えば \boldsymbol{\theta} = (\boldsymbol{w}, \sigma^2)とした線形モデル


 \begin{align}
y_n = \boldsymbol{w}^T \boldsymbol{x}_n + r_i, \quad r_i \sim \mathcal{N}(0, \sigma^2) \\ \\
\end{align}
などが挙げられる。

このモデルを用いると,観測データ \mathcal{D}に関する尤度は,


 \begin{align}
p(\mathcal{D} \mid \boldsymbol{\theta}) = \prod_{n=1}^N p(\boldsymbol{y}_n \mid \boldsymbol{x}_n, \boldsymbol{\theta}) \\ \\
\end{align}
となる。

事後分布

パラメータ \thetaの事後分布は,観測データ \mathcal{D}を用いて求めることになる。すなわち,尤度と事前分布 p(\boldsymbol{\theta})から,ベイズの定理


 \begin{align}
p(\boldsymbol{\theta} \mid \mathcal{D} ) \propto p(\mathcal{D} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta}) \\ \\
\end{align}
を用いて計算する。

グラフィカルモデル

ここまでの情報をグラフィカルモデルで表現すると以下のようになる。

事後予測分布におけるグラフィカルモデル

事後予測分布の導出の証明

上記の確率モデルと,3変数以上の公式を用いて,事後予測分布を導出する。

まず,周辺分布の式を用いて,パラメータ \boldsymbol{\theta}を登場させる。


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D} ) = \int p(\boldsymbol{y}, \boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) d \boldsymbol{\theta} \\ \\
\end{align}

次に,変数統合および変数固定の公式を用いて, \boldsymbol{x}, \mathcal{D}を固定して, \boldsymbol{y}, \boldsymbol{\theta}に関する条件付き確率の式を用いると,


 \begin{align}
\int p(\boldsymbol{y}, \boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) d \boldsymbol{\theta} 
= \int p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}, \mathcal{D})  p(\boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) d \boldsymbol{\theta} \\ \\
\end{align}
となる。

そして確率モデルを確認すると,出力 \boldsymbol{y}と観測データ \mathcal{D}は独立であるため,変数消去の公式を用いると,


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}, \mathcal{D}) = p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) \\ \\
\end{align}
となる。

さらに,パラメータの事後分布を計算した後に,入力 \boldsymbol{x}から出力を求めようとしているので, \boldsymbol{\theta} \boldsymbol{x}も独立である。よって,


 \begin{align}
p(\boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) = p(\boldsymbol{\theta} \mid \mathcal{D}) \\ \\
\end{align}
となる。

以上をまとめると,


 \begin{align}
p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D} ) 
&= \int p(\boldsymbol{y}, \boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) d \boldsymbol{\theta} \quad \text{(周辺分布)} \\ \\
&= \int p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}, \mathcal{D})  p(\boldsymbol{\theta} \mid \boldsymbol{x}, \mathcal{D}) d \boldsymbol{\theta}  \quad \text{(変数固定)} \\ \\
&= \int p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}  \quad \text{(変数消去)}\\ \\
\end{align}
となり,事後予測分布が求められた。

事後予測分布の解釈

最後に得られた事後予測分布の各項を確認してみると,

  •  p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D} ) : 観測データ \mathcal{D}と入力 \boldsymbol{x}が与えられた下で,出力 \boldsymbol{y}を求める。
  •  p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) : 事後分布から生成したパラメータ \boldsymbol{\theta}を用いて,出力 \boldsymbol{y}の予測を行なう。
  •  \int \cdots p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} : 事後分布による期待値を計算する。

となり,確率的な操作によって,観測データから新たな出力を予測していることが確認できた。

まとめ

事後予測分布を求めるために,ベイズ統計における3変数以上の公式として,

  1. 変数統合 : 複数の変数をまとめて,条件付き確率の式を使う。
  2. 変数固定 : 条件付ける変数を条件から外して,条件付き確率の式を使う。
  3. 変数消去 : 条件付き独立を用いて,条件付ける変数を消去する。

と名付けた3つの公式を説明した。

これらの公式を使うと,事後予測分布の式を説明することができるが,条件付き独立を利用するには変数間の関係性,すなわち確率モデルをきちんと定義しておく必要がある。

事後予測分布の導出は,単なる数式の変形なのではなく,確率モデルの操作であるということを理解したうえで計算を進めることが重要である。

宣伝

統計・機械学習の数理 Advent Calendar 2025 について

こちらのAdvent Calenderは,統計・機械学習に関する話題を扱っている。興味深いテーマが公開されていくので,ぜひご覧ください。
adventar.org

弊ブログについて

弊ブログは,数理統計学機械学習,データサイエンスについて学んだことを記事にまとめており,

といったコンテンツを公開しているので,他の記事もご覧ください。

この記事が面白いと感じていただけたら,こちらのバナーを押していってください↓

本記事を最後まで読んでくださり,どうもありがとうございました。