jiku log

JTCのデータサイエンス中間管理職の学び

順序統計量の累積分布関数 #統計検定

はじめに

統計検定1級の統計数理・理工学において,順序統計量は頻出分野である。この記事では順序統計量の累積分布関数の考え方についてまとめた。

順序統計量

統計検定1級での出題

統計検定1級の統計数理・理工学において,2012年~2022年の10年の間で,関連する問題が6年出題されている。

順序統計量の累積分布関数

確率変数 X確率密度関数および累積分布関数がそれぞれ f(x), F(x)であるとする。
また n個のサンプル X_1, ...., X_nが得られているとする。
このサンプルを小さい順に並べたとき, j番目に小さいサンプルのことを j順序統計量と呼び, X_{(j)}と表す。

 j順序統計量の累積分布関数 F_{X_{(j)}} (x)は,


 \begin{align}
F_{X_{(j)}} (x) = P(X_{(j)} \leq x) = \sum_{k=j}^{n} \dbinom{n}{k} \{ F(x) \}^k  \{ 1-F(x) \}^{n-k}
\end{align}

となる。
この式自体は教科書にも載っている式であるので有名なものである。
順序統計量については公式を覚えておけば解けることが多いが,統計検定では公式を覚えるだけでなく導出の仕方まで踏み込んだ問題が出されることがあるので,導出の仕方を理解しておくことをおすすめする。

導出のポイントについて整理してみた。

導出

ポイント1 : 状況を図示してみる

  P(X_{(j)} \leq x)が成り立っている状況を書き下してみる。

 X_{(j)} \leq xという事象は, n個のサンプルにおいて,


 \begin{align}
\{ X_{(j)} \leq x) \} = \{ \text{$j$個が$x$以下} \} \cup \{ \text{$(j+1)$個が$x$以下} \} \cup \cdots  \cup \{ \text{$n$個が$x$以下} \}
\end{align}

という状況である。「 k個のサンプルが x以下」という事象を B_kで表すと,


 \begin{align}
P( X_{(j)} \leq x) )
&= P(B_j) + P(B_{j+1}) + \cdots + P(B_n) \\ 
&= \sum_{k=j}^{n} P(B_k)
\end{align}

と書き直せる。

図示してみると理解がしやすい。

ポイント2 : 「k個がx以下」とい事象は2項分布にしたがう

サンプルの値が x以下になる確率は F(x)である。
事象 B_kにおいて, n個中 k個の値が x以下になり,この確率は2項分布 Bin(n, F(x))で表される。


 \begin{align}
P(B_k) = \dbinom{n}{k} \{ F(x) \}^k  \{ 1-F(x) \}^{n-k}
\end{align}

よってポイント1と合わせて,第 j順序統計量の累積分布関数 F_{X_{(j)}} (x)は以下のようになる。


 \begin{align}
F_{X_{(j)}} (x) = P(X_{(j)} \leq x) 
&= \sum_{k=j}^{n} P(B_k) \\
&= \sum_{k=j}^{n} \dbinom{n}{k} \{ F(x) \}^k  \{ 1-F(x) \}^{n-k}
\end{align}

まとめ

統計検定1級の頻出分野である順序統計量について,その累積分布関数の求め方をまとめた。

本記事を最後まで読んでくださり,どうもありがとうございました。