jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「入門確率過程」を読む ~第6章 ランダム・ウォーク ②マルチンゲール~

はじめに

確率過程は数理統計学の応用分野であり,製造業で扱う時系列データ解析ともかかわりがある。松原望編著・山中卓・小船幹生 著「改訂版 入門確率過程」は,確率過程に関する入門書としてロングセラーである。確率過程の基礎と応用を学ぶために,本書を読むこととした。


本記事は,「第6章 ランダム・ウォーク」における,マルチンゲールに関する読書メモである。

6.3 マルチンゲールの考え方

マルチンゲール(martingale)については,本書P172の8.7節に説明がある。

マルチンゲールとは完全に予想不可能な確率過程,つまり…過去の情報(値という)を完全に用いても,未来を平均的に(現時点値と変わらないというほかには)予想できない(利益をあげられない)ような確率過程である。

すなわちマルチンゲールとは確率過程の一種であり,このような性質をマルチンゲール性と呼ぶ。
「未来を平均的に予測できない」ということから,ランダム・ウォークのうち p=q=1/2のときは,マルチンゲールの一例となる。

マルチンゲール


マルチンゲールを数式で表現することを考えると,


 \begin{align}
E(S_{n+1} \mid S_n, S_{n-1}, \cdots, S_1) = S_n \\ \\
\end{align}
となる。

マルチンゲールの一般的な例

ランダム・ウォークのうち p=q=1/2のときはマルチンゲールの一例となる,と説明したが,より一般的に E(X_i) = 0のとき,すなわち確率変数の期待値が0になるとき,これらの和


 \begin{align}
S_n = X_1 + X_2 + \cdots + X_n  \quad  (n=1, 2, 3, \cdots) \\ \\
\end{align}
で定義される確率過程 S_1, S_2, \cdotsについて,

 \begin{align}
E(S_m \mid S_n, S_{n-1}, \cdots , S_1) = S_n  \quad (m \gt n) \\ \\
\end{align}
が成り立ち,マルチンゲールの一例となる。


これは, S_m = (S_m - S_n) + S_nと分けて考えると,


 \begin{align}
E(S_m \mid S_n, S_{n-1}, \cdots , S_1)
&= E(S_m - S_n \mid S_n, S_{n-1}, \cdots , S_1) + E(S_n \mid S_n, S_{n-1}, \cdots , S_1) \\ \\
&= E(S_m - S_n) + E(S_n \mid S_n, S_{n-1}, \cdots , S_1) \\ \\
&= S_n \\ \\
\end{align}
となる。

ここで1行目から2行目の式変形は, S_m - S_n = X_m + \cdots X_{n+1}であることから, S_nに含まれる X_1, \cdots X_nなどとは独立していることを用いた。
また2行目から3行目の式変形の前半では,


 \begin{align}
E(S_m - S_n) = E( X_m + \cdots X_{n+1} ) = 0 \quad (\because E( X_i ) = 0) \\ \\
\end{align}
であることを用いた。また後半では,期待値計算の対象となる S_nが条件付ける変数にも含まれていることから,期待値計算に関係なく被積分関数がそのまま出てくる,という性質を利用した。

6.5 原点復帰の確率

ランダム・ウォークが原点0に戻る確率の計算例は,「自然科学の統計学」を読む ~第10章 確率過程の基礎 ①ランダム・ウォーク~ - jiku logに説明したが,本書では復帰確率の近似値について論じている。

試行回数が偶数でないと原点に戻らないが,原点に戻る確率は p=q=1/2のとき,


 \begin{align}
P(S_{2n} = 0) = {}_{2n} C_n \left( \frac{1}{2} \right)^{2n} = \frac{ (2n)! }{ n! n! } \left( \frac{1}{2} \right)^{2n} \\ \\
\end{align}
である。

スターリングの公式 m! \sim \sqrt{2 \pi} m^{m+(1/2)} e^{-m}を用いると,


 \begin{align}
P(S_{2n} = 0) \sim \frac{1}{\sqrt{\pi} n } \\ \\
\end{align}
となる。

まとめと感想

今回は,「第6章 ランダム・ウォーク」におけるマルチンゲールについてまとめた。

マルチンゲールの概念は,一見すると抽象的だが,製造業のデータサイエンスにおいても応用可能な考え方を多く含んでいる。

マルチンゲール性=平均的に予測不可能という構造は,異常検知や時系列モデリングにおける「残差のホワイトノイズ性」に対応している。
もし残差系列がマルチンゲール的でない場合(すなわち,過去から平均的な予測が可能である場合),モデルに取りこぼされた系統的要因やドリフトが存在することを意味する。
そのためマルチンゲール性は,モデル妥当性のチェック指標として重要である。

マルチンゲールの概念は「確率過程の公正性」「予測の限界」「モデル残差の無相関性」を統一的に理解するためのフレームワークであり,データサイエンスの文脈でも「予測できないことを正しく理解する」ための思考の軸になると感じた。


本記事を最後まで読んでくださり,どうもありがとうございました。