jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「自然科学の統計学」を読む ~第7章 分布の仮定 ②仮説検定~

はじめに

東京大学教養学部統計学教室編「自然科学の統計学」は,1992年発行のやや古典的な文献であるが,自然科学に関わる統計学的テーマが簡潔にまとめられている。数理統計学の復習も兼ねて,本書を読むこととした。
ただ,基本的なことは他書で学んできたのと,本書自体がかなり細かく説明されているので,本書内の内容や数式を細かく追うというより,実務や統計検定の受験において有用そうなことを選んでまとめてみたい。


本記事は,「第7章 分布の仮定」における,仮説検定に関する読書メモである。

7.3 仮説検定

前節までは,パラメータの推定に関する話題を取り扱っていた。本節では,パラメータの仮説検定について取り扱っている。

「誤って正しい仮説を棄却する確率」と検出力

正規分布 \mathcal{N}(\theta, \sigma^2)にしたがう観測値 X_1, ..., X_nに基づき,仮説 \theta = \theta_0有意水準 \alphaで検定することを考える。 \sigma^2が未知の場合は,t検定が用いられる。すなわち,不偏分散を s^2として,t統計量


 \begin{align}
t = \frac{\sqrt{n} \lvert \bar{X} - \theta_0 \rvert} {s} \\ \\
\end{align}
を計算し,このt統計量が

 \begin{align}
\lvert t \rvert \gt t_{\alpha/2}(n-1) \\ \\
\end{align}
ならば仮説を棄却する。ただし t_{\alpha/2}(n-1)は,自由度 n-1のt分布の上側 100\alpha/2パーセント点である。


本書では,観測値が平均 \theta,分散 \sigma^2正規分布ではない分布にしたがうとき,t統計量がしたがう分布について論じている。
具体的には,

  1. t検定を用いれば,誤って正しい仮説を棄却する確率は \alphaを大きく超えることはない。すなわち,t検定を用いても結論の妥当性は失われない。
  2. ただしt検定の場合,検出力は他の検定方式よりも著しく劣る可能性がある

ということが説明されている。

7.4 正規分布の仮定のチェック

データが正規分布にしたがうと仮定して得られた推定や検定の方法は,場合によっては非常に悪いものになる。この欠点に対して,

を用いれば,これらの欠点に対応することが可能になる。
一方で,真の分布が正規分布に近い場合,これらの方法はふさわしくない。


そのため,最初にデータが正規分布からのものかどうかをチェックして,正規分布と想定される場合はパラメトリックな方法,そうでないときはノンパラメトリックな方法を用いればよい。

正規性の検定を行なう方法として,

  • 歪度 \beta_1 = \mu_3' / \sigma^3 ( \mu_3'は3次モーメント)
  • 尖度 \beta_2 = \mu_4' / \sigma^4 - 3 ( \mu_4'は4次モーメント)

が0に近いかどうかで判断すればよい。

正規確率プロット

観測値が正規分布にしたがうかどうかを視覚的に判断するためのプロットが,正規確率プロットである。
これは,観測値を小さい順に並べた順序統計量


 \begin{align}
X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)} \\ \\
\end{align}
について,

 \begin{align}
(X_{(i)}, z_i), \quad z_i=\Phi \left( \frac{i}{n+1}   \right), \quad i=1,2,...,n \\ \\
\end{align}
をプロットしたものである。ただし \Phi(x)は標準正規分布の累積分布である。


正規分布にしたがう乱数と,一様分布にしたがう乱数について,

をグラフにしたもの下図である。

正規乱数・一様乱数の正規確率プロットとヒストグラム

図に示すように,正規乱数でない場合,正規確率プロットは直線状にならない。

まとめと感想

今回は,「第7章 分布の仮定」における,仮説検定についてまとめた。

本節を通じて,母集団分布が正規分布にならないの影響について,第1種の過誤や検出力の観点で理解することができた。

またデータサイエンスの現場では,母集団分布の形状が事前に分からないことが多い。そのため,正規分布に近いかどうかを確認したうえで,必要に応じてノンパラメトリックな方法に切り替えるということが重要だと感じた。


本記事を最後まで読んでくださり,どうもありがとうございました。