「調査研究データの統計科学」の紹介
最近,統計的因果推論に関する書籍を読むようになったが,10年ほど前にこの分野の書籍である「調査研究データの統計科学 因果推論・選択バイアス・データ融合」を買った。久しぶりに手に取って読んでみると,昔よりは理解できるようなったし,今読んでも参考になるところが多いと感じたので,紹介したい。
本書を読もうとした理由
本書が発売されたのは2009年7月である。当時は,今ほどは因果推論が流行っていなかったが,因果推論という言葉の響きが新鮮で買ってみることにした*1。
本書の構成
本書の構成は以下の通りである。
第1章 序論
第2章 欠測データと因果推論
第3章 セミパラメトリック解析
第4章 共変量選択と無視できない欠測
第5章 選択バイアスとその除去
第6章 有意抽出による調査データの補正
第7章 データ融合
参考になった点
第1章 序論 : 実験研究と調査観察研究の違いの説明/欠測データによる統一的な観点の提示
序論では,実験研究と調査観察研究の違いを説明している。私は工学部出身なので,研究に必要なデータは実験して取る,というイメージがあった。しかし社会科学では,データ取得の際に重要な無作為割り当てが,理論的に不可能な場合や,倫理的に不可能な場合がある(医療や教育など)ことを説明している。実際の業務においても,無作為に割り当てられたデータを取れないことも多いということに改めて気付かされた。
また,因果推論・選択バイアス・データ融合の3つの話題について,欠測データという観点で統一的に理解することができる,という説明が目からうろこだった。因果推論では,反実仮想という考え方があるが,これはデータが取れていない(欠測している)という状況である。選択バイアスについても,同様に欠測データであるとみなせる。様々なテーマに,統一的な観点を与えることは理解を深めるうえで重要である。
第2章 欠測データと因果推論 : 欠測のメカニズムに関する説明
この章では,欠測のメカニズムについて説明している。
- 完全にランダムな欠測(MCAR : Missing Completely At Random)
- ランダムな欠測(MAR : Missing At Random)
- ランダムでない欠測(NMAR : Not Missing At Random)
欠測については,統計検定準1級でもおなじみの話題であるので,丁寧な説明に理解が深まった。また本章では,欠測から因果効果の定義を与えており,因果効果の考え方についても理解することができた。
本書に対する感想とまとめ
最近流行りの因果推論について,数式による丁寧な説明がなされていたり,実際の応用シーンが思い起こされるような説明がなされていたりしており,改めて見返してみると学びが多い書籍であると考えられる。ただ,やはりハードルの高さは否めないので,はじめての統計的因果推論/林 岳彦|自然科学書 - 岩波書店や因果推論 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ | Ohmshaなどの書籍によって,因果推論に関する概論を理解したうえで読む方が,理解が深まると思う。
