jiku log

JTCのデータサイエンス中間管理職の学び

偏相関係数の思い出し方 #統計検定

相関係数とは

相関係数は,「統計検定準1級対応 統計学実践ワークブック」の第3章に紹介されている。

相関係数の定義

「統計検定準1級対応 統計学実践ワークブック」には,偏相関係数は以下のように説明されている。

2つの確率変数 X, Yそれぞれに別の確率変数 Zが影響を与えている場合, X Yの相関は強くなりやすい。このような相関のことを擬似相関という。このような場合は Zの影響を除いた相関を考えたい。ある変数の影響を除いた相関係数のことを相関係数という。

※一部の注釈を除外した。

相関係数は以下で計算される。

 \displaystyle  \rho [X,Y|Z] = \frac{ \rho [X, Y] - \rho [X, Z] \rho [Y, Z]}{\sqrt{1-\rho[X, Z]^2}\sqrt{1-\rho[Y, Z]^2}}


初見だと結構覚えづらいと考えらえるが,多変量正規分布の条件付き分布を念頭に置いておくと覚えやすい。

相関係数の思い出し方

なお,以下の説明は「思い出しやすさ・覚えやすさ」に念頭を置いた説明であり,厳密な証明ではないことに留意いただきたい。

Step 1. 便宜的に相関係数を共分散・分散で表現する。

相関係数は,共分散および分散を用いると,以下の式で定義される。

 \displaystyle  \rho [X,Y] = \frac{ Cov [X, Y]}{\sqrt{V[X]
}\sqrt{V[Y]}}

この式を用いて,偏相関係数を便宜的に以下のように書いてみよう。

 \displaystyle  \rho [X,Y|Z ] = \frac{ Cov [X, Y |Z ]}{\sqrt{V[X |Z ]}\sqrt{V[Y | Z]}}

Step 2. 条件付き共分散および条件付き分散を代入する

多変量正規分布の条件付き分布において,条件付き分散共分散行列は以下のように定義される。

 \displaystyle \Sigma_{w|z} = \Sigma_{ww} - \Sigma_{wz} \Sigma_{zz}^{-1} \Sigma_{zw}

参考記事:
stern-bow.hatenablog.com


この式では,分散共分散行列が出てくるが,1変数の場合はスカラー量になるので,ただの分散とみなせる。Step 1で出てきた式の各要素を具体的に書いてみよう。

 \displaystyle \Sigma_{xx}  \rightarrow \sigma_x ^2
 \displaystyle \Sigma_{xz}  \rightarrow \sigma_{xz}
 \displaystyle \Sigma_{zz}^{-1}  \rightarrow 1/ \sigma_z^2

というふうに行列をスカラーとみなすと,

 \displaystyle V[X|Z ] = \sigma_x^2 - \sigma_{xz}^2 / \sigma_z^2

が得られる。同様に,

 \displaystyle V[Y|Z ] = \sigma_y^2 - \sigma_{yz}^2 / \sigma_z^2

が得られる。

 Cov[X,Y|Z]の部分は, X, Y, Zの3変数が出てくるので厄介なのだが,3変数をまんべんなく出すことをイメージして下式を作る。

 \displaystyle Cov[X, Y|Z ] = \sigma_{xy} - \sigma_{xz} \sigma_{yz} / \sigma_z^2

Step 3. 代入する

Step 1の偏相関係数の式に,Step 2で計算した式を代入する。


 \begin{align}

\rho [X,Y|Z ] 
&= \frac{ Cov [X, Y |Z ]}{\sqrt{V[X |Z ]}\sqrt{V[Y | Z]}}  \\
&= \frac{  \sigma_{xy} - \sigma_{xz} \sigma_{yz} / \sigma_z^2 }{\sqrt{\sigma_x^2 - \sigma_{xz}^2 / \sigma_z^2 }\sqrt{ \sigma_y^2 - \sigma_{yz}^2 / \sigma_z^2}} \\
&= \frac{  \sigma_{xy} - \sigma_{xz} \sigma_{yz} / \sigma_z^2 }{ \sigma_x \sigma_y \sqrt{1 - \sigma_{xz}^2 / \sigma_z^2 \sigma_x^2 } \sqrt{ 1 - \sigma_{yz}^2 / \sigma_z^2 \sigma_y^2}} \\
&= \frac{  \sigma_{xy} / \sigma_x \sigma_y - (\sigma_{xz} / \sigma_x  \sigma_z) ( \sigma_{yz} / \sigma_y  \sigma_z) }{ \sqrt{1 - \sigma_{xz}^2 / \sigma_z^2 \sigma_x^2 }  \sqrt{ 1 - \sigma_{yz}^2 / \sigma_z^2 \sigma_y^2}}  \\
&=  \frac{ \rho [X, Y] - \rho [X, Z] \rho [Y, Z]}{\sqrt{1-\rho[X, Z]^2}\sqrt{1-\rho[Y, Z]^2}} 
\end{align}

これで偏相関係数の計算式を得ることができた。

相関係数を説明した書籍

相関係数の説明は,久保川 達也 著 「データ解析のための数理統計入門」の第17章に記載されているので参考にして頂きたい。
www.kyoritsu-pub.co.jp