jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「効果検証入門」を読む ~第2章 介入効果を測るための回帰分析 ①回帰分析におけるバイアス~

はじめに

実務における効果検証の精度と信頼性を高めるための方法論を学ぶために,安井翔太 著「効果検証入門~正しい比較のための因果推論/計量経済学の基礎」を読むことにした。


本記事は,「第2章 介入効果を測るための回帰分析」における,回帰分析におけるバイアスに関する読書メモである。

  • 本書の紹介ページ

効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎:書籍案内|技術評論社

  • 関連コード

GitHub - ghmagazine/cibook

本記事を読むことで得られること

本記事を読むことで得られることは,主に以下の内容である。

  • 回帰分析による,介入の効果の推定方法

第2章 介入効果を測るための回帰分析

第1章では,セレクションバイアスによって介入効果が正しく測れないことや,セレクションバイアスを除くための手法であるRCTは実施が難しいことが説明されていた。
本章では,回帰分析を利用することでセレクションバイアスの影響が少ない分析ができることを説明している。

2.1 回帰分析の導入

単回帰分析は,目的変数 Yを入力となる変数 Xを用いて予測するための手法であり,以下のように定式化される。


 \begin{align}
Y = \beta_0 + \beta_1 X + u \\
\end{align}

ただし, \beta_0, \beta_1は回帰係数, u_iは誤差である。

回帰係数 \beta_0, \beta_1を計算するには,最小二乗法を用いる。

上記の短回帰分析の式は,条件付き期待値を用いて以下のように書き直すことができる。


 \begin{align}
Y = E[ Y \lvert X ] + u = \beta_0 + \beta_1 X + u \\
\end{align}

なお,条件付き期待値 E[ Y \lvert X ]が, Yに対する誤差が最も小さくなるような予測式となることが知られている。

効果分析のための回帰分析

効果分析のための回帰分析では,以下の3種類の変数が登場する。

  • 説明変数( Y : dependent variable)
    • 介入による効果を確認したい変数 (例 : メールの例における購買量)
  • 介入変数( Z : treatment variable)
    • 施策の有無
  • 共変量( X : contrlol variable)
    • セレクションバイアスを発生させていると分析者が想定する変数であり,介入・施策の有無で傾向が異なっていると想定される変数


これらの変数を用いて重回帰分析のモデルを構築すると,以下のようになる。


 \begin{align}
Y = E[ Y \lvert X, Z ] + u = \beta_0 + \beta_1 X + \beta_2 Z + u \\
\end{align}

なおこのとき,誤差 uの条件付き期待値は E [u \lvert X, Z ] = 0であり,誤差 u X, Zとは相関しない。
この場合でも,回帰係数は最小二乗法によって求められる。

回帰分析による効果の推定

介入変数 Zは施策の有無を表し, Z=\{0, 1\}である。
また介入効果の分析において興味があることは,介入した場合と介入しなかった場合の期待値の差


 \begin{align}
E[ Y \lvert X, Z=1 ] - E[ Y \lvert X, Z=0 ]  \\
\end{align}

である。重回帰分析の式 Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 Z + u について具体的に書きだすと以下のようになる。


 \begin{align}
&E[ Y \lvert X, Z=1 ] = \beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 1 \\ \\
&E[ Y \lvert X, Z=0 ] = \beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 0 \\
\end{align}

よって,介入した場合と介入しなかった場合の期待値の差は


 \begin{align}
E[ Y \lvert X, Z=1 ] - E[ Y \lvert X, Z=0 ] 
&= (\beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 1) - (\beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 0) \\ \\
&= \beta_3 \\
\end{align}

となる。すなわち回帰分析において介入による効果は,介入変数の回帰係数に表れるということが分かる。

2.2 回帰分析におけるバイアス

回帰分析でセレクションバイアスを小さくするような推定を行なうためには,共変量を正しく選択する必要がある。本節では,共変量の選び方について説明している。

脱落変数バイアス(OVB)

2.2.2節では,共変量の効果を説明するために,脱落変数バイアス(Omitted Variable Bias : OVB)について説明している。

OVBは,本来モデルに含めるべき変数が欠落しているために,推定された係数がバイアスを持つ現象である。OVBが発生する理由について,以下の2つのモデルを考える。


 \begin{align}
Y_i &= \alpha_0 + \alpha_1 Z_i + u_i &\text{(モデルA)} \tag{1} \\ \\
Y_i &= \beta_0 + \beta_1 Z_i + \beta_2 X_{omit, i} + e_i &\text{(モデルB)} \tag{2} \\
\end{align}

2つのモデルの違いは,共変量 X_{omit, i}である。このうち,モデルBはセレクションバイアスの影響が取り除かれている(すなわち,真の因果構造を説明している)とする。
2つのモデルのいずれにおいても,分析者が興味があるのは介入効果の影響,すなわち Z_iの係数 \alpha_1または \beta_1である。
このうちモデルAにおいては,本来モデルにあるべき共変量 X_{omit, i}が含まれていないので, \alpha_1にはバイアスが含まれることになる。具体的には,


 \begin{align}
\alpha_1 = \beta_1 + \gamma_1 \beta_2 \\
\end{align}

となり,この \gamma_1 \beta_2脱落変数バイアス(OVB)と呼ばれる。

OVBの求め方

 \gamma_1 \beta_2は脱落変数バイアス(OVB)であるが,この値が決定される仕組みについて確認する。

 \gamma_1 は,共変量 X_{omit, i}を目的変数,介入変数 Z_iを説明した変数としたときの回帰係数と考える。


 \begin{align}
X_{omit, i} = \gamma_1 Z_i + \varepsilon_i \\ 
\end{align}

これを(2)式に代入し,さらに(1)式と係数比較すると,先ほど示した \alpha_1 = \beta_1 + \gamma_1 \beta_2 という関係式が得られる。

直感的には,「省略された共変量 X_{omit} Yに対して与える影響が,共変量 X_{omit, i}と介入変数 Zとの相関を通して, Zの効果として表れている」とみなせる。
このように,被説明変数 Yと介入変数 Zの両方に影響を与える量を交絡因子と呼ぶ。

OVBの発生条件

以上を整理すると,OVBが発生するには以下の2つの条件が同時に満たされている必要がある

  1. 共変量 Xは,被説明変数 Yに影響を与えている( \beta_2 \neq 0)。
  2. 共変量 Xは,介入変数 Zと相関している( \gamma_1 \neq 0)。
共変量

Conditional Independence Assumption

前節までは,共変量 Xの存在によって発生する脱落変数バイアス(OVB)について説明していた。本節では,OVBが0になる状態について説明している。

Conditional Independence Assumption(条件付き独立の仮定)は,OVBを除くために必要な仮定である。具体的には,以下の式で表される。


 \begin{align}
\{Y_i^{(0)}, Y_i^{(1)} \} \perp Z_i \lvert X_i \\
\end{align}

直感的には,「共変量 Xの値で集団をグルーピングしておき,同じ Xの値を持つグループ内であれば(= Xの値を固定すれば),介入変数と非説明変数が独立である状態」であると言える。

CIAが満たされているかどうかの判断が難しい理由

作ったモデルの共変量がCIAを満たしていれば,推定された効果の妥当性を主張できるが,「CIAが満たされている」ということを判断することには,以下の2つの問題がある。

バイアスの評価ができない

そもそも共変量の値を固定した群の中で評価をしようとしても,上記の \{Y_i^{(0)}, Y_i^{(1)} \} は同時に観測することができないため,そもそもバイアスの量の評価をすることができない。
またOVBは,モデル間でのバイアスの変化を示すようなものではない。

必要な共変量がデータにないという問題

CIAが成り立つためには,共変量を全て含める必要があるが,観測されていない共変量などがあると,CIAが成り立たなくなる。

対策

CIAが満たされているかどうかの判断は難しく,完璧な解決にはならないが,対策としては

  • ドメイン知識によって共変量を選択する。
  • Sensitivity Analysis によって未観測の共変量があった時の影響を評価する。

といった方法が挙げられる。

Post treatment bias

OVBの値が0でない変数をモデルに加えることでセレクションバイアスを減らせる可能性があるが,変数を加えてはいけない場合がある。それは,介入の影響を受けた変数(処置後変数)を分析モデルに入れることである。このような処置後変数によるバイアスをPost treatment biasと呼ぶ。

まとめと感想

今回は,「第2章 介入効果を測るための回帰分析」における,回帰分析におけるバイアスについてまとめた。

回帰分析によって,介入の効果が回帰係数によって推定できることを理解できた。ただし,脱落変数バイアス(OVB)やPost treatment biasが存在することや,共変量の影響はデータだけでは把握しきれないといった問題点も理解できた。対策としては,(完璧な対策ではないが)分析対象に対するドメイン知識などを用いるといったことが挙げられるが,効果検証においては,特に分析対象に対する知識や分析の目的意識が重要だと感じた。

本記事を最後まで読んでくださり,どうもありがとうございました。