jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「自然科学の統計学」を読む ~第2章 線形モデルと最小二乗法 ①最小二乗法~

はじめに

東京大学教養学部統計学教室編「自然科学の統計学」は,1992年発行のやや古典的な文献であるが,自然科学に関わる統計学的テーマが簡潔にまとめられている。数理統計学の復習も兼ねて,本書を読むこととした。
ただ,基本的なことは他書で学んできたのと,本書自体がかなり細かく説明されているので,本書内の内容や数式を細かく追うというより,実務や統計検定の受験において有用そうなことを選んでまとめてみたい。


本記事は,「第2章 線形モデルと最小二乗法」における,最小二乗法に関する読書メモである。

第2章 線形モデルと最小二乗法

統計的推測において,モデルを用いる(パラメトリック)場合の代表選手が,

  • 期待値線形な構造を仮定する
  • 誤差の確率分布に正規分布を仮定する

という正規線形モデルである。本章では,この線形モデルの基礎理論を説明している。

2.1 線形モデル

本節では,線形モデルの話題として,

などについて説明している。


この節(P28-29)において,興味深い説明があった。

モデル y_i = \mu + \varepsilon_i (i=1,...,n)で,誤差 \varepsilon_iは性質

  1. 不偏性 :  E(\varepsilon_i)=0
  2. 等分散性 :  V(\varepsilon_i)=\sigma^2
  3. 無相関性 :  Cov(\varepsilon_i, \varepsilon_j) = 0 (i \neq j)

を満たし,かつ誤差の分布は正規分布 \varepsilon_i \sim \mathcal{N}(0, \sigma^2)であると仮定すると, \bar{y}は線形に限らずあらゆる関数形の不偏推定量の中で最小分散であることがいえる。

とあった。

これは,標本平均 \bar{y}の分散は \sigma^2/nであるが,これは \muに関するフィッシャー情報量 I(\mu) = n/\sigma^2の逆数になっており,クラメール・ラオの下限を満たすためである。

2.2 最小二乗法

本節では,

  • 最小二乗解を求めるための正規方程式
  • 「最小二乗解が,線形推定量の中で分散が最小になる(Best Linear Unbiased Estimator; BLUE)」というガウス・マルコフの定理
  • 最小二乗法の原理の幾何学的説明

などが紹介されている。

最小二乗推定量の導出は,以下の過去記事にまとめた。
stern-bow.hatenablog.com

また,部分空間による線形回帰モデルの解釈については,以下の過去記事にまとめた。
stern-bow.hatenablog.com

2.3 最小二乗推定量の分散

本節では,最小二乗推定量の分散について説明している。本節では,

  • 線形モデル :  \boldsymbol{y} = \boldsymbol{X} \boldsymbol{\theta} + \boldsymbol{\varepsilon}
  • 誤差について,
    • 不偏性 :  E(\boldsymbol{\varepsilon})
    • 等分散・無相関性 :  V(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{I}

のみを仮定し,特別な分布(たとえば正規分布)を仮定していない

このときでも,最小二乗推定量の分散共分散行列は, \sigma^2 (\boldsymbol{X}^T \boldsymbol{X})となる。


なお,誤差項が正規分布にしたがうこと仮定した時の誤差分布は正規分布にしたがう。このことは,以下の過去記事でまとめた。
stern-bow.hatenablog.com


まとめと感想

今回は,「第2章 線形モデルと最小二乗法」における,最小二乗法についてまとめた。

統計検定1級では,数理統計に関する各トピックの定義や前提をきちんと理解しているかどうかが問われることが多いと考えている。
最小二乗法は,機械学習でもおなじみの手法であるので,実務で利用している方も多いだろう。ただ最小二乗法の説明においては,

  • 誤差項に特に分布を仮定しない場合
  • 誤差項に正規分布を仮定する場合

の2種類が存在しているので,この点は注意が必要である。

本書で紹介されている各種トピックについて,上記の分類で分けると以下のようになる。

誤差項に特に分布を仮定しない場合 誤差項に正規分布を仮定する場合
トピック ●最小二乗解
●BLUE
ガウス・マルコフの定理
●正射影
●最小二乗推定量の分散
●誤差分散の不偏推定量

●すべての不偏推定量の中で最小分散
●最小二乗推定量の標本分布
●残差平方和の標本分布
●検定

最小二乗法に関する問題を解くときに限らず,統計の問題を解くときには,現在の仮定をきちんと理解してから取り組むべきである。


本記事を最後まで読んでくださり,どうもありがとうございました。