jiku log

JTCのデータサイエンス中間管理職の学び

条件付き期待値の攻略Tips #統計検定

 

はじめに

「条件付き期待値」とは,条件付き確率密度関数によって算出される期待値である。

久保川「現代数理統計学の基礎」では第4.2節に,竹村「現代統計数理統計学」では第3.3節に紹介されている。

特に竹村「現代統計数理統計学」では,期待値の繰り返しの公式または全確率の公式という式が紹介されている。

 \displaystyle E^X[E[Y|X]]=E[Y]

統計検定ではおなじみの公式であり,過去にも

  • 2022年 統計数理 問3
  • 2018年 統計数理 問4

など,この公式にかかわる問題が出されている。

ただ私は,この公式を使えるようになるまでかなり苦労したので,整理していきたい。

条件付き期待値の解き方の基本戦略

この公式で私が混乱した理由は,途中で期待値計算に用いる確率密度関数が分からなくなるためであった。これに対する対策が,条件付き期待値攻略の基本戦略となる。

 

変数の「積分消去」ならぬ変数の「出現」

確率密度関数が分からなくなる理由の1つ目は,この公式の最大の特徴が「計算途中で変数が増える」ことであるからであった。

対策は,多変数の確率密度関数の公式

 \displaystyle f(x)= \int f(x, y) dy

を用いて,変数を出現させてから積分することである。さらに条件付き確率の式を用いると,

 \displaystyle f(x)= \int f(x, y) dy = \int f(x|y)f(y) dy

と書き直せる。こうすることで,この式の重要ポイントである条件付き確率密度関数が出てくる。

 

迷ったら[]→インテグラル記号

確率密度関数が分からなくなる理由の2つ目は,この公式に含まれる角括弧が多いためであった。

対策は,慣れないのうちはインテグラル記号を書き出すことである。

期待値は,確率密度関数 f(x)を用いて

 \displaystyle E[ X ] = \int x f(x) dx

と書かれる。期待値を E[X]と書くのは表記を簡略化するためであるので,条件付き期待値の問題に慣れていないうちは,インテグラル記号を復活させて確率密度関数を明記すればよい。

なお,慣れてきて角括弧でも問題無いと感じるようになってからも, E^X[X]のように,期待値計算に用いる確率密度関数の変数を明記すると間違えにくい。

 

条件付き期待値の代表パターン

ここからは,具体的な条件付き期待値の代表的なパターンを紹介する。

 

パターン1 : 1変数→2変数

 \displaystyle E^X[X] = E^Y[ E^{X|Y}[X|Y] ]

 

これはいわゆる期待値の繰り返し公式であり,変数を出現させるパターンである。証明は以下のとおりである。

 \displaystyle E^X[X] = \int x f(x) dx = \iint x f(x, y) dy dx \\ \displaystyle = \iint x f(x|y)f(y) dy dx  \\ \displaystyle = \int (\int x f(x|y) dx) f(y) dy \\ = E^Y[ E^{X|Y}[X|Y] ]

 

パターン2 : 2変数

 \displaystyle E^{X,Y}[g(x, y)] = E^Y[E^{X|Y}[g(x,y)|Y] ]

 

こちらは最初から同時確率密度関数になっているので,変数を出現させる必要はない。同時確率密度関数を,確率密度関数の積の形にすればよい。

 \displaystyle E^{X,Y}[g(x, y)] = \iint g(x,y) f(x,y) dy dx \\ \displaystyle = \iint g(x,y) f(x|y)f(y) dy dx \\ \displaystyle = \int (\int g(x,y) f(x|y) dx) f(y) dy \\ = E^Y[E^{X|Y}[g(x,y)|Y] ]