jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「自然科学の統計学」を読む ~第6章 検定と標本の大きさ ①検出力関数~

はじめに

東京大学教養学部統計学教室編「自然科学の統計学」は,1992年発行のやや古典的な文献であるが,自然科学に関わる統計学的テーマが簡潔にまとめられている。数理統計学の復習も兼ねて,本書を読むこととした。
ただ,基本的なことは他書で学んできたのと,本書自体がかなり細かく説明されているので,本書内の内容や数式を細かく追うというより,実務や統計検定の受験において有用そうなことを選んでまとめてみたい。


本記事は,「第6章 検定と標本の大きさ」における,検出力関数に関する読書メモである。

第6章 検定と標本の大きさ

統計的検定は,数理統計学における重要なテーマであり,統計検定でも良く出題される分野である。本節では,検出力の考え方と,十分な検出力を得るための標本の大きさを決定する方法について説明している。

6.1 検定の検出力

本節では,統計的検定(あるいは,単に検定)における各種用語を説明しつつ,検出力の概念を説明し,「よい検定方式」について説明している。

検定方式

検定では,データに基づき,帰無仮説 H_0を棄却するか受容するかを判断する。検定方式 \deltaとは,この棄却・受容の判断をする方法のことである。

本書では,工場における製造工程を例に説明している。製造工程が異常かどうかをということを,生産される不良品の数で判断しようとしたときに,

  • 検定方式 \delta_1 : 不良品の数 Xが, X \geq 3であるときに,製造工程が異常であると判断する。
  • 検定方式 \delta_2 : 不良品の数 Xが, X \geq 4であるときに,製造工程が異常であると判断する。

という2種類の方法を考える。

検出力関数

検定方式 \deltaを用いたとして, \thetaという値に対して帰無仮説を棄却する確率を,


 \begin{align}
\beta_{\delta}(\theta) = P_{\theta}(\text{$\delta$を用いて帰無仮説を棄却} ) \\ \\
\end{align}
と表す。この \beta_{\delta}(\theta)検出力(power)または検出力関数(power function)と呼ぶ。
統計検定量 T,棄却域を Rで表すと,帰無仮説 H_0にしたがう場合と,対立仮説 H_1にしたがう場合における検出力は,下図のようになる。

検出力

良い検定方式

帰無仮説と対立仮説をそれぞれ,

のように表す。

検定において,誤り方は以下のように第1種の過誤第2種の過誤が存在するが,検出力関数を用いると,第1種の過誤・第2種の過誤はそれぞれ以下のように表される。

意味 検出力を用いた表現
第1種の過誤 帰無仮説が正しいときに,
帰無仮説を棄却してしまう誤り
 \beta_{\delta}(\theta)
 \theta \in \Theta_0
第2種の過誤 対立仮説が正しいときに,
帰無仮説を採択してしまう誤り
 1- \beta_{\delta}(\theta)
 \theta \in \Theta_1

良い検定方式は,2つの過誤の確率が小さいものである。すなわち

  • 帰無仮説が正しいときは,検出力関数 \beta_{\delta}(\theta)小さい
  • 対立仮説が正しいときは,検出力関数 \beta_{\delta}(\theta)大きい

という検定方式であることが分かる。

ただし,第1種の過誤と第2種の過誤は同時に小さくできない。一般には,仮説検定では第1種の過誤を重視し,第1種の過誤の確率を,有意水準 \alpha以下にする,すなわち


 \begin{align}
\beta_{\delta}(\theta) \leq \alpha, \quad \theta \in \Theta_0 \\ \\
\end{align}
という検定方式を考える。

検出力関数の例

本書P178に示されている2種類の検定方式に関する検出力関数を図示する。

検定問題の設定

ある工場では,不良率 p_0が1%以下ならば製造工程は正常である,と判断しているものとする。ある日の不良率を p(※これは真のパラメータであり,実際にはわからない)とし, p_0=0.01とすると,製造工程が正常であるという仮説(帰無仮説)は


 \begin{align}
H_0 : p \leq p_0 \\ \\
\end{align}
と表される。また製造工程が異常であるとする仮説(対立仮説)は,

 \begin{align}
H_1 : p \gt p_0 \\ \\
\end{align}
と表される。

検定方式の設定

1日の終わりに n=100個の製品を抜取検査する。抜取検査の結果を用いて,「製造工程が正常である」という仮説を検定するが,このとき以下の2種類の検定方式を考える。

  • 検定方式 \delta_1 : 不良品の数 X \geq 3ならば,帰無仮説 H_0を棄却する。
  • 検定方式 \delta_2 : 不良品の数 X \geq 4ならば,帰無仮説 H_0を棄却する。
検出力関数

検定方式 \delta_1の検出力関数は pの関数として,


 \begin{align}
\beta_1(p) = \beta_{\delta_1}(p) = P_p(X \geq 3) = 1 - P_p(X \leq 2) \\ \\
\end{align}
のように,1から累積分布関数をひいた関数として定義できる。
同様に検定方式 \delta_2の検出力関数は

 \begin{align}
\beta_2(p) = \beta_{\delta_2}(p) = P_p(X \geq 4) = 1 - P_p(X \leq 3) \\ \\
\end{align}
となる。

これら2つの検出力関数を図示すると,以下のようになる。

検出力関数のグラフ
  • サンプルコード
from scipy.stats import binom
import numpy as np

p_values = np.arange(0, 0.051, 0.001)

beta_1_values = binom.sf(2, 100, p_values) #生存関数(=1 - 累積分布関数)
beta_2_values = binom.sf(3, 100, p_values) #生存関数(=1 - 累積分布関数)

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.plot(p_values, beta_1_values, label='$\\beta_1(p) = P(X \\geq 3)$', color='blue')
plt.plot(p_values, beta_2_values, label='$\\beta_2(p) = P(X \\geq 4)$', color='red')

plt.xlabel('p')
plt.ylabel('Power')
plt.ylim(0, 1)
plt.legend()
plt.grid(True)
plt.show()

まとめと感想

今回は,「第6章 検定と標本の大きさ」における,検出力関数についてまとめた。

本節では,統計検定1級でお馴染みの検定問題において重要な概念である「検出力」について説明していた。また本記事では,理解を深めるためにグラフを作成し,検出力関数を可視化してみた。

統計検定1級の立場からすると,本章の内容は「検定理論の基礎をしっかり押さえる」ための重要なポイントを網羅しているといえる。試験対策の観点でも,

  • 検出力関数の定義と意味
  • 第1種・第2種の過誤との関係
  • 標本数と検出力の関係

といった論点は頻出であり,計算問題や記述問題の両方で問われうるため,演習問題を通じて理解を深めることが重要である。


本記事を最後まで読んでくださり,どうもありがとうございました。