jiku log

JTCのデータサイエンス中間管理職の学び

生存時間解析の積分テクニック #統計検定

 

「生存関数を積分する」という問題

統計検定1級 統計応用(理工学)の過去問(2019年)を解いていて,「生存関数を積分する」という問題が出てきた。具体的な問題は公式問題集を参照していただきたいが,積分範囲を変換するテクニックで解けるので紹介したい。

books.jitsumu.co.jp

 

問題設定

この問題は生存時間解析に関する問題で,[1]の問題設定は以下のようなものである。

連続型の確率変数 x (x \geq 0)確率密度関数 f(x),累積分布関数を F(x),生存関数を S(x) = 1 - F(x)としたときに,以下を示せ。

 \displaystyle E[X] = \int_0^\infty \{1 - F(x)\} dx

 

私は所見のとき,「積分で定義される累積分布関数が,更に積分されている…」と,かなりびっくりした。公式問題集では部分積分を使って解いているのだが,

 \displaystyle \lim_{x\to \infty} x(1-F(x)) = 0

という式が証明無しで書かれていたので,「うーん…」となってしまった。

 

累次積分を使った解き方

部分積分を使わない解き方を紹介する。

定義にしたがって積分の形へ

まずは,数理統計学の教科書によく出てくる,累積分布関数と確率密度関数の式

 \displaystyle 1 - F(x) = \int_x^\infty f(y) dy

を用いると次のように,積分の形で表現できる。

 \displaystyle \int_0^\infty \{1 - F(x)\} dx = \int_0^\infty dx \int_x^\infty dy f(y)

 

積分範囲を変換する

この重積分積分範囲は,

 \displaystyle \{ 0 \leq x \lt \infty , x \leq y \lt \infty \}

であるが,これは,

 \displaystyle \{ 0 \leq x \leq y , 0 \leq y \lt \infty \}

と書き換えることができる。図で示してみよう。

1つ目の積分範囲は縦方向に走査するような積分範囲であるが,同じ積分範囲を横方向に走査するように書き換えると,2つ目の積分範囲で表現できる。これは,累次積分と呼ばれるテクニックである。
このよう積分範囲を変換すると,上記の重積分を次のように変形できる。

 \displaystyle \int_0^\infty dx \int_x^\infty dy f(y) = \int_0^\infty dy \int_0^y dx f(y)

さらに,

 \displaystyle \int_0^y dx = y

なので,最終的に以下の式が得られる。

 \displaystyle \int_0^\infty dy \int_0^y dx f(y) = \int_0^\infty  y f(y) dy \\= \displaystyle \int_0^\infty x f(x) dx \\= \displaystyle E[X]

となり求めたい式が得られた。

 

まとめ

生存時間解析は,統計応用でよく出てくる分野なので,問題を解く際には累次積分を思い出していただければと思う。