jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「調査観察データの統計科学」 #書籍紹介

「調査研究データの統計科学」の紹介

最近,統計的因果推論に関する書籍を読むようになったが,10年ほど前にこの分野の書籍である「調査研究データの統計科学 因果推論・選択バイアス・データ融合」を買った。久しぶりに手に取って読んでみると,昔よりは理解できるようなったし,今読んでも参考になるところが多いと感じたので,紹介したい。

www.iwanami.co.jp
https://hondana-image.s3.amazonaws.com/book/image/257892/bd5e24be-af4d-4ce0-b116-4c3ff09eee68.jpg

本書を読もうとした理由

本書が発売されたのは2009年7月である。当時は,今ほどは因果推論が流行っていなかったが,因果推論という言葉の響きが新鮮で買ってみることにした*1

本書の構成

本書の構成は以下の通りである。

第1章 序論
第2章 欠測データと因果推論
第3章 セミパラメトリック解析
第4章 共変量選択と無視できない欠測
第5章 選択バイアスとその除去
第6章 有意抽出による調査データの補正
第7章 データ融合

参考になった点

第1章 序論 : 実験研究と調査観察研究の違いの説明/欠測データによる統一的な観点の提示

序論では,実験研究調査観察研究の違いを説明している。私は工学部出身なので,研究に必要なデータは実験して取る,というイメージがあった。しかし社会科学では,データ取得の際に重要な無作為割り当てが,理論的に不可能な場合や,倫理的に不可能な場合がある(医療や教育など)ことを説明している。実際の業務においても,無作為に割り当てられたデータを取れないことも多いということに改めて気付かされた。

また,因果推論・選択バイアス・データ融合の3つの話題について,欠測データという観点で統一的に理解することができる,という説明が目からうろこだった。因果推論では,反実仮想という考え方があるが,これはデータが取れていない(欠測している)という状況である。選択バイアスについても,同様に欠測データであるとみなせる。様々なテーマに,統一的な観点を与えることは理解を深めるうえで重要である。

第2章 欠測データと因果推論 : 欠測のメカニズムに関する説明

この章では,欠測のメカニズムについて説明している。

  • 完全にランダムな欠測(MCAR : Missing Completely At Random)
  • ランダムな欠測(MAR : Missing At Random)
  • ランダムでない欠測(NMAR : Not Missing At Random)

欠測については,統計検定準1級でもおなじみの話題であるので,丁寧な説明に理解が深まった。また本章では,欠測から因果効果の定義を与えており,因果効果の考え方についても理解することができた。

第3章 セミパラメトリック解析 : 代表的な因果推論手法の紹介

本章では,傾向スコアをはじめとして,

  • 二重にロバストな推定
  • 操作変数による推定
  • 回帰分断デザイン
  • 差の差(DID)推定量

など,代表的な因果推論の手法を紹介している。

第4章 共変量選択と無視できない欠測 : 共変量の選び方の説明

本章では,共変量の選択のしかたについて議論をしている。また,因果関係の定義として知られているヒュームの3条件や,ヒルの因果関係判定のガイドラインについても紹介されている。

第5章 選択バイアスとその除去

本章では,まず選択バイアスについて説明している。選択バイアスとは,「 y_1がある閾値 cを超えた場合にのみ y_1が観測される」(たとえば一定の能力以下であれば失業してしまう場合で観測される賃金)場合において発生するバイアスのことである。
この回避策として,部分線形モデルと経験尤度法,また機械学習分野でおなじみの共変量シフトについても紹介されている。

本書に対する感想とまとめ

最近流行りの因果推論について,数式による丁寧な説明がなされていたり,実際の応用シーンが思い起こされるような説明がなされていたりしており,改めて見返してみると学びが多い書籍であると考えられる。ただ,やはりハードルの高さは否めないので,はじめての統計的因果推論/林 岳彦|自然科学書 - 岩波書店因果推論 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ | Ohmshaなどの書籍によって,因果推論に関する概論を理解したうえで読む方が,理解が深まると思う。

*1:ただ当時は数理統計学に明るくなく,なかなか理解が進まなかったので,本棚にしまわれる時間が長くなってしまった。