jiku log

JTCのデータサイエンス中間管理職の学び

超幾何分布から二項分布への変換 #統計検定

はじめに

統計検定1級の統計数理・理工学において,二項分布は頻出分野である。この記事では,二項分布に関する話題のうち,超幾何分布との関係について説明する。

二項分布

統計検定1級での出題

統計検定1級の統計数理・理工学において,2012年~2022年の10年の間で,関連する問題が8題出題されている。

二項分布と他の確率分布との関係

統計検定では,確率分布の性質,特に他の確率分布との関係を問われることが多い。
ある確率分布と他の確率分布との関係は「確率分布まんだら」で表現されることが多いが,見やすさを意識して二項分布周りのみを取り出した。

※なお,確率分布まんだらの難点とメリットは,確率分布まんだらを作る意義 #統計検定 - jiku log に書いた。

超幾何分布との関係

二項分布は,超幾何分布の極限操作として得られる。
超幾何分布は,


 \displaystyle P(X=x|N, M, K) = \frac{\dbinom{M}{x} \dbinom{N-M}{K-x} }{ \dbinom{N}{K} }, \text{$x=0,1,...,K$}
で表される。

超幾何分布において, N \rightarrow \infty, M/N \rightarrow pという極限を取ると,二項分布 Bin(K, p)に変換される。


 \displaystyle 
\lim_{n\to \infty}
P(X=x|N, M, K) = \dbinom{K}{x} p^x (1-p)^{K-x}

この式を得てみよう。

超幾何分布から二項分布への変換

方針

まず,求めたい二項分布の式の形を確認し,ゴールから式変形の方向性を確認してみる。 M/N \rightarrow pなので,以下のように変形する。


 \displaystyle 
\dbinom{K}{x} p^x (1-p)^{K-x} = \frac{K!}{x! (K-x)!} \left( \frac{M}{N} \right) ^x \left( \frac{N - M}{N} \right) ^{K-x }

超幾何分布の式を変形して,最終的に上の式の各項を作っていくことを目指していく。

超幾何分布の式変形

ここからは,項の数を意識しながら式の整理をしていく。まず超幾何分布を階乗の形に変形する。


 \begin{align}
P(X=x|N, M, K) 
&= \frac{\dbinom{M}{x} \dbinom{N-M}{K-x} }{ \dbinom{N}{K} } \\
&=  \frac{M!}{x! (M-x)!} \times \frac{(N-M)!}{(K-x)! (N-M-K+x)!} \times \frac{K! (N-K)!}{N!} \\
\end{align}

Step 1. 二項係数の部分を括りだす

ゴールの式の中に \tbinom{K}{x} がいるので,まずはこの式の部分を括りだすこととする。


 \begin{align}
P(X=x|N, M, K) 
&=  \frac{K!}{x! (K-x)!} \times \frac{M!}{(M-x)! N!} \times \frac{(N-M)! (N-K)!}{(N-M-K+x)!} \\
\end{align}

ここまでは,掛け算の順番を入れ替えただけである。

Step 2. pになる部分を括りだす

次に,極限 N \rightarrow \infty を取ると p^x = (M/N)^xになる部分を括りだす。注目するべき点は以下の2つである。

  • 変数の掛け算の数(以下,「項数」と表現する)が x個になるようにする。
  •  p=M/Nに近い値が出てくるように変形する。


これを意識して,項数が x個になる部分を探してみると,


 \begin{align}
\frac{M!}{(M-x)!} = M(M-1) \cdots (M-x+1)
\end{align}
であり,ここ項数は x個である。

次に, p=M/Nに近い項を作ることを考えると,


 \begin{align}
\frac{N!}{(N-x)!} = N(N-1) \cdots (N-x+1)
\end{align}
であり,ここ項数も x個である。これを踏まえて,超幾何分布の式を以下のように変形する。


 \begin{align}
P(X=x|N, M, K) 
&=  \frac{K!}{x! (K-x)!} \times \frac{M! (N-x)! }{(M-x)! N!} \times \frac{(N-M)! (N-K)!}{(N-x)! (N-M-K+x)!} \\
\end{align}

この式の第2項を変形すると,


 \begin{align}
\frac{M! (N-x)! }{(M-x)! N!}
&=  \frac{M(M-1) \cdots (M-x+1)}{N(N-1) \cdots (N-x+1)} \\
&= \prod_{i=1}^{x} \frac{M-i+1}{N-i+1} \\
&= \prod_{i=1}^{x} \frac{M/N-(i-1)/N}{1-(i-1)/N} \\
&= \prod_{i=1}^{x} \frac{p-(i-1)/N}{1-(i-1)/N} \\
&\rightarrow p^x \quad (\text{$N \rightarrow \infty $})

\end{align}

となり, p^xの項が得られた。

Step3. (1-p)になる部分を括りだす

最後に,極限 N \rightarrow \infty を取ると (1-p)^{K-x} = ((N-M)/N)^{K-x}になる部分を括りだす。Step2. と同様に,注目するべき点は以下の2つである。

  • 項数が K-x個になるようにする。
  •  1-p=(N-M)/Nに近い値が出てくるように変形する。

では,超幾何分布


 \begin{align}
P(X=x|N, M, K) 
&=  \frac{K!}{x! (K-x)!} \times \frac{M! (N-x)! }{(M-x)! N!} \times \frac{(N-M)! (N-K)!}{(N-x)! (N-M-K+x)!} \\
\end{align}
のうち,すべての面倒を押し付けてきた第3項を変形していこう。

項数が K-x個になる部分を探してみると,


 \begin{align}
(N-x) - (N-K) &= K-x \\ 
(N-M) - (N-M-K+x) &= K-x \\ 
\end{align}

なので,


 \begin{align}
\frac{(N-M)! (N-K)!}{(N-x)! (N-M-K+x)!} = \frac{(N-K)!}{(N-x)! } \cdot \frac{(N-M)!}{(N-M-K+x)!} \\
\end{align}

としてから変形してみよう。


 \begin{align}
\frac{(N-K)!}{(N-x)! } &= \frac{1}{(N-x)(N-x-1) \cdots (N-K+1)} \\
\frac{(N-M)!}{(N-M-K+x)!} &= (N-M)(N-M-1) \cdots (N-M-K+x+ 1 )
\\
\end{align}

であり,いずれも項数が K-xなので,第3項は以下のようになる。


 \begin{align}
\frac{(N-M)! (N-K)!}{(N-x)! (N-M-K+x)!} 
&=  \frac{(N-M)(N-M-1) \cdots (N-M-K+x+1)} {(N-x)(N-x-1) \cdots (N-K+1)} \\

&= \prod_{i=1}^{K- x} \frac{N-M-i+1}{N-x-i+1} \\

&= \prod_{i=1}^{K- x} \frac{(N-M)/N-(i-1)/N}{1-(x+i-1)/N} \\
&= \prod_{i=1}^{K- x} \frac{(1-p)-(i-1)/N}{1-(x+i-1)/N} \\

&\rightarrow (1-p)^{K-x} \quad (\text{$N \rightarrow \infty $})

\end{align}

Step4. まとめる

以上をまとめると,最終的に求めたい式が得られる。


 \begin{align}
P(X=x|N, M, K) 
&=  \frac{K!}{x! (K-x)!} \times \frac{M! (N-x)! }{(M-x)! N!} \times \frac{(N-M)! (N-K)!}{(N-x)! (N-M-K+x)!} \\
&\rightarrow \dbinom{K}{x} p^x (1-p)^{K-x} \quad (N \rightarrow \infty) \\ 
\end{align}

まとめ

統計検定1級の頻出分野である二項分布について,超幾何分布から二項分布を得る手順についてまとめた。
ポイントは,掛け算する項の数に注目して計算することである。