jiku log

JTCのデータサイエンス中間管理職の学び

クラメール・ラオの不等式の導出の流れとその応用 #統計検定

はじめに

統計検定1級の統計数理・理工学において,クラメール・ラオの不等式やフィッシャー情報量の話題は2回しか出たことがないテーマではあるが,数理統計学のテキストにはよく出てくる話題である。

クラメール・ラオの不等式の不等式は,不偏推定量の分散の下限を与える重要な式であるが,証明の流れがごちゃごちゃしていたので,整理してみた。

クラメール・ラオの不等式

定義

クラメール・ラオの不等式は,不偏推定量の分散の下限を与える式である。サンプル X = (X_1, ..., X_n)の同時確率密度関数 f(x, \theta)とする。
また,パラメータ \thetaの不偏推定量 \hat{\theta}(X ) \thetaに関するフィッシャー情報量を I_n(\theta)とすると,クラメール・ラオの不等式は以下の通りである。


 \begin{align}
V_{\theta} [  \hat{\theta}(X ) ] \geq \frac{1}{I_n(\theta)}
\end{align}


意味としては,「フィッシャー情報量の逆数が,不偏推定量の分散の下限である(それ以上小さくならない)。」というものである。
前提として, f(x, \theta)積分とパラメータ \thetaによる微分が交換可能である,といったものが挙げられる。

方針

証明の流れをチャートにしてみた。

証明の流れにおいては,以下のような構造がある。

  • 定義式の利用 : スタートは,「確率密度関数積分すると1になる」「不偏推定量の期待値を取るとパラメータの真値が得られる」といった定義式である。
  • パラメータ \thetaによる微分 : パラメータ \theta微分することで,期待値を作り出す。
  • 共分散の構成 : 複数の期待値を組合わせて,共分散を構成する。
  • 相関係数の不等式の利用 : クラメール・ラオの不等式のもとになる不等式として,「相関係数の絶対値は1以下」という不等式を持ち出す。

導出

Step 1. フィッシャー情報量【定義式】

フィッシャー情報量の定義は以下の通りである。


 \begin{align}
I_n(\theta) = E_{\theta} \left [ \left (  \frac{ \partial \log f(x, \theta)  }{ \partial \theta }   \right )^2    \right ]
\end{align}

なお後述するように


 \begin{align}
E_{\theta} \left [ \frac{ \partial \log f(x, \theta)  }{ \partial \theta }    \right ] = 0
\end{align}

なので,


 \begin{align}
I_n(\theta) = V_{\theta} \left [ \frac{ \partial \log f(x, \theta)  }{ \partial \theta }    \right ] 
\end{align}

となる。

Step 2. 確率密度関数積分【定義式】

確率密度関数積分は1である。


 \begin{align}
\int f(x, \theta) dx = 1
\end{align}

Step 3. 確率密度関数微分【パラメータによる微分

確率密度関数の対数について,パラメータ \theta微分すると以下の式が得られる。


 \begin{align}
\frac{ \partial \log f(x, \theta)  }{ \partial \theta } = \frac{ \frac{\partial }{\partial \theta} f(x, \theta)  }{  f(x, \theta) }
\end{align}

なお,左辺はスコア関数と呼ばれて, l'(X, \theta)で表す。上式を変形すると,


 \begin{align}
\frac{\partial }{\partial \theta} f(x, \theta)  = l'(X, \theta) f(x, \theta) 
\end{align}

となる。

Step 4. スコア関数の期待値【パラメータによる微分

Step 2. における「確率密度関数積分」の両辺を \theta微分する。右辺は1であり,これは定数なので,微分すると0になる。
Step 3. における「確率密度関数微分」を用いると,


 \begin{align}
\frac{\partial }{\partial \theta} \int f(x, \theta) dx
&= \int  \frac{\partial }{\partial \theta} f(x, \theta) dx \\
&= \int l'(X, \theta) f(x, \theta) dx \\
&= 0
\end{align}

となる。

よって,


 \begin{align}
\int l'(X, \theta) f(x, \theta) dx = E_{\theta} \left [ l'(X, \theta)  \right ] = 0
\end{align}

となり,「スコア関数の期待値は0」という式が得られる。

Step 5. 不偏推定量の定義【定義式】

不偏推定量の期待値を取ると,パラメータ \thetaの真値になる。


 \begin{align}
E_{\theta} \left [ \hat{\theta} ( X ) \right ] = \theta
\end{align}

Step 6. 不偏推定量微分【パラメータによる微分

Step 5. における「不偏推定量の定義」の両辺を \theta微分する。右辺は \thetaであり,これを微分すると1になる。
Step 3. における「確率密度関数微分」を用いると,


 \begin{align}
\frac{\partial }{\partial \theta} E_{\theta} \left [ \hat{\theta} ( X ) \right ]
&= \int  \hat{\theta} ( X )  \frac{\partial }{\partial \theta} f(x, \theta) dx \\
&= \int  \hat{\theta} ( X )  l'(X, \theta) f(x, \theta) dx \\
&= E_{\theta} \left [ \hat{\theta} ( X ) l'(X, \theta)  \right ] \\
&= 1
\end{align}

となる。

Step 7. 共分散【相関係数の不等式】

相関係数の不等式を用いる下準備として,相関係数の分母にくる「共分散」を導出する。

Step 4. の結果の両辺に,パラメータ \thetaをかけると,


 \begin{align}
E_{\theta} \left [\theta  l'(X, \theta)  \right ] = 0
\end{align}

となる。

Step 5. の結果と,辺々の引き算を取ると,


 \begin{align}
E_{\theta} \left [ (\hat{\theta} (X) -  \theta )  l'(X, \theta)  \right ] = 1
\end{align}

となる。スコア関数の期待値 E_{\theta} \left [ l'(X, \theta)  \right ] は0なので,左辺は共分散の形になっていることが分かる。

書き直すと,


 \begin{align}
Cov( \hat{\theta} (X),   l'(X, \theta) ) = 1
\end{align}

となる。

Step 8. 相関係数の不等式の利用【相関係数の不等式】

そろそろゴールが見えつつある。ゴールはクラメール・ラオの不等式なので,関連する不等式として,相関係数の不等式を持ってくる。
変数 X, Y相関係数 Rは,


 \begin{align}
R = \frac{Cov(X, Y)}{\sqrt{V[X]}  \sqrt{V[X]} } 
\end{align}

で表される。相関係数の絶対値は1以下なので,


 \begin{align}
(Cov(X, Y))^2 \leq V[X] V[Y]
\end{align}

となる。これより,


 \begin{align}
Cov( \hat{\theta} (X),   l'(X, \theta) )  \leq V_{\theta} [\hat{\theta} (X) ] V_{\theta} [l'(X, \theta) ]
\end{align}

となるが,Step 8. の結果より,左辺は1となる。よって


 \begin{align}
1  \leq V_{\theta} [\hat{\theta} (X) ] V_{\theta} [l'(X, \theta) ]
\end{align}

となる。

Step 9. クラメール・ラオの不等式

Step. 1のフィッシャー情報量の定義を用いると,


 \begin{align}
I_n(\theta) = V_{\theta} [l'(X, \theta) ]
\end{align}

であるので,Step 8.の結果と組み合わせて,


 \begin{align}
V_{\theta} [\hat{\theta} (X) ] \geq \frac{1}{I_n (\theta)}
\end{align}

となり,クラメール・ラオの不等式が得られた。

応用

この導出の流れを理解しておくと,クラメール・ラオの不等式を応用することができるようになる。
たとえば,推定量にバイアスがある場合


 \begin{align}
E_{\theta} [\hat{\theta} (X) ] = \theta + b(\theta)
\end{align}
がある場合でも,同様の手順によって,クラメール・ラオの不等式の変形版を得ることができる。

まとめ

最尤推定の分野でよく出てくるフィッシャー情報量に関連して,クラメール・ラオの不等式の導出の流れとその応用について紹介した。

2023年度の統計検定1級では,推定量に関する値の評価(漸近相対効率)の問題が出てきた。今後も推定量の評価に関する問題は出題される可能性があり,その際には参考にしていただければと思う。

本記事を最後まで読んでくださり,どうもありがとうございました。