jiku log

データサイエンスの核心を掴む : 学びと発見の記録

ベータ分布の正規近似 #統計検定

はじめに

統計検定1級の統計数理・理工学において,ベータ分布はこれまでに2回しか出たことがないテーマではあるが,数理統計学のテキストにはよく出てくる分布である。

先日,ガンマ分布の正規近似とスターリングの公式 #統計検定 - jiku logという記事を紹介した。ガンマ分布を正規分布で近似する際に,スターリングの公式を導出するというものである。
似たような流れで,ベータ分布を正規分布で近似する手順を紹介する。

ベータ分布の正規近似

方針

確率分布を近似する際には,

  1. 変数変換を用いる
  2. 積分布関数を用いる
  3. モーメント母関数を用いる

といった様々なアプローチ方法があるが,今回は「1. 変数変換を用いる」というアプローチを採用する。
なぜなら,ベータ分布の累積分布関数やモーメント母関数は,結構複雑な形をしているためである(参考:ベータ分布 - Wikipedia)。

またベータ分布 Be(a, b)にはパラメータが2つ存在するが,今回は a=bとして近似する。

変数変換アプローチの全体像

変数変換アプローチの全体像を以下の図に示した。

導出

Step 1. 標準化の応用による確率変数の変数変換

今回は,ベータ分布にしたがう確率変数 Xについて,


 \begin{align}
Z = \frac{X - E[X ]}{\sqrt{V[X ]}  }
\end{align}

のように標準化すると, a \rightarrow \inftyの極限において,確率変数は Zは標準正規分布に近似できることを示すことが目的である。


確率変数 Xがベータ分布 Be(a, b)にしたがうと,


 \begin{align}
E[X ] &= \frac{a}{a +b} \\
V[X ] &= \frac{ab}{(a +b)^2 (a + b + 1)} \\
\end{align}

となるので,確率変数 Xがベータ分布 Be(a, a)にしたがうと,


 \begin{align}
E[X ] &= \frac{1}{2} \\
V[X ] &= \frac{a^2}{(2a)^2  (2a+1)} = \frac{1}{4(2a + 1)} \\
\end{align}

となる。よって,確率変数 X Zの関係式は,


 \begin{align}
X &= E[X ] + Z \sqrt{V[X ]} \\
&= \frac{1}{2} + \frac{Z}{2 \sqrt{2a + 1}   }
\end{align}

となる。
なお, a = (k-1)/2のように変形すると, Zの分母が 2 \sqrt{k}になるので,式がかなりシンプルになるのだが,この記事ではこのような変形は行なわずに話を進める。

変数の範囲を確認する。 0 \leq x \leq 1であるので, -\sqrt{2a+1} \leq z \leq \sqrt{2a+1}となる。
よって, a \rightarrow \inftyの極限では, -\infty \lt z \lt \inftyとなる。

また変数変換のヤコビアン Jは,


 \begin{align}
J = \left |  \frac{dx}{dz} \right | = \frac{1}{2 \sqrt{2a + 1}} &= \frac{1}{2 \sqrt{2a}  \sqrt{1+\frac{1}{2a}  }  } \\
&=  \frac{ 2^{-\frac{3}{2}} a^{-\frac{1}{2}}  }{ \sqrt{1+\frac{1}{2a}  }  }
\end{align}
となる。

Step 2. 変数を含む部分の変形

ベータ分布のうち, x^{a-1} (1 - x)^{b-1} = x^{a-1} (1 - x)^{a-1}の部分を変形していこう。
正規分布 e^{-z^2/2}の項を含むので,


 \begin{align}
\lim_{n \rightarrow \infty}   \left(  1 + \frac{a}{n} \right) ^n = e^a
\end{align}

が使えるように式変形を進める。


 \begin{align}
x^{a-1} (1 - x)^{a-1}
&= \left( \frac{1}{2}  + \frac{z}{2 \sqrt{2a + 1}}  \right)^{a-1}  \left( \frac{1}{2}  - \frac{z}{2 \sqrt{2a + 1}}  \right)^{a-1}  \\
&= \left( \frac{1}{4}  - \frac{z^2}{4 (2a + 1)}  \right)^{a-1}  \\
&= \left\{ \frac{1}{4}  \left(  1 - \frac{z^2}{2a + 1}  \right)   \right\}^{a-1}  \\
&= 2^{-2(a-1)}  \left\{  \left(  1 - \frac{z^2}{2a + 1}  \right)^{2a+1}   \right\}^{\frac{a-1}{2a+1}}  \\

\end{align}

このうち,


 \begin{align}
\lim_{a \rightarrow \infty} \left(  1 - \frac{z^2}{2a + 1}  \right)^{2a+1} = e^{-z^2}
\end{align}

なので,


 \begin{align}
\lim_{a \rightarrow \infty} \left\{  \left(  1 - \frac{z^2}{2a + 1}  \right)^{2a+1}   \right\}^{\frac{a-1}{2a+1}} = e^{- \frac{z^2}{2}}
\end{align}

となる。

Step 3. スターリングの公式によるベータ関数の変形

スターリングの公式は,ガンマ関数を近似するための式である。


 \begin{align}
\Gamma(a + k)  \approx \sqrt{2 \pi} a ^{a + k - 1/2} e^{- a}
\end{align}

特に k = 0のとき,


 \begin{align}
\Gamma(a)  \approx \sqrt{2 \pi} a ^{a - 1/2} e^{- a}
\end{align}

となる。

またベータ関数とガンマ関数の間には,


 \begin{align}
\frac{1}{B(a, b)} = \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)}
\end{align}

という関係があるので,


 \begin{align}
\frac{1}{B(a, a)} = \frac{\Gamma(2a)}{(\Gamma(a) )^2}
\end{align}

となる。

スターリングの公式を代入すると,


 \begin{align}
\frac{1}{B(a, a)} 
\approx 
\frac{  \sqrt{2 \pi} (2a) ^{2a - 1/2} e^{- 2a}  }  {  (\sqrt{2 \pi})^2 a ^{2a - 1} e^{- 2a}  }
= \frac{1}{ \sqrt{2 \pi} } 2^{2a - \frac{1}{2}} a^{ \frac{1}{2} } 
\end{align}

となる。

Step 4. 各項の掛け算による正規分布の導出

確率変数 Xに関する確率密度関数 f_X(x) = Be(x | a, a)について,


 \begin{align}
X = g(Z) 
= \frac{1}{2} + \frac{Z}{2 \sqrt{2a + 1}   }
\end{align}

という変数変換を行なって得られる確率密度関数 f_Z(z)は,


 \begin{align}
f_Z(z)
&=  f_X(g(z)) \times J \\
&= \frac{1}{ \sqrt{2 \pi} } 2^{2a - \frac{1}{2}} a^{ \frac{1}{2} }  \\
& \times 2^{-2(a-1)}  \left\{  \left(  1 - \frac{z^2}{2a + 1}  \right)^{2a+1}   \right\}^{\frac{a-1}{2a+1}}  \\
& \times \frac{ 2^{-\frac{3}{2}} a^{-\frac{1}{2}}  }{ \sqrt{1+\frac{1}{2a}  }  } \\
&= \frac{1}{ \sqrt{2 \pi} } \left\{  \left(  1 - \frac{z^2}{2a + 1}  \right)^{2a+1}   \right\}^{\frac{a-1}{2a+1}}   \times \frac{1}{ \sqrt{1+\frac{1}{2a}  }  } \\
& \rightarrow \frac{1}{ \sqrt{2 \pi} }  \exp{  \left(  {-\frac{z^2}{2}}  \right)  }
\quad (a \rightarrow \infty)
\end{align}

となり,標準正規分布が得られる。途中で, 2の累乗の項と aの累乗の項がそれぞれキャンセルされるのがポイントである。

まとめ

統計検定1級でこれまで2回しか出てきていないベータ分布について,正規分布へ近似する手順を説明した。ポイントは,変数変換を用いること,スターリングの公式を用いることであった。

本記事を最後まで読んでくださり,どうもありがとうございました。