「機械学習を解釈する技術」を読む　～第1章機械学習の解釈性とは～

はじめに

分析業務を進めていく中で，上司やお客さまから「このAIの判断は正しいのか？」聞かれたことはないだろうか？
製造業の業務で機械学習モデルを運用する際に，「なぜ今回の結果が得られたのか」ということを説明する必要があるシーンがある。たとえば生産ラインに不具合が起きた時に，その原因究明をするために，不具合があったときを1，不具合がなかったときを0として判別モデルを作るということが考えられる。ただ，本当に行ないたいことは判別というより不具合の原因究明なので，生産ラインのデータにおけるどの項目が不具合に寄与していたか，ということが知りたくなる。またきちんと説明できないと，現場では受け入れてもらえないこともある。

このような説明性・解釈性を把握するための手法を学ぶために，森下光之助著「機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック」を読むことにした。

本記事は，「第1章機械学習の解釈性とは」の読書メモである。

本書の紹介ページ

機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック：書籍案内｜技術評論社

関連コード

GitHub - ghmagazine/ml_interpret_book

本記事を読むことで得られること

本記事を読むことで得られることは，主に以下の内容である。

機械学習の解釈性が必要になる理由

代表的な4つの解釈性とその特徴

はじめに
- 本記事を読むことで得られること
- 目次
第1章　機械学習の解釈性とは
1.1 機械学習の解釈性を必要とする理由
1.2 予測精度と解釈性のトレードオフ
1.3 機械学習の解釈手法
1.4 機械学習の解釈手法の注意点
まとめと感想
- 参考サイト

第1章　機械学習の解釈性とは

本章では，本書のテーマである「機械学習の解釈性」に関する概観を説明している。

1.1 機械学習の解釈性を必要とする理由

本項では，機械学習において解釈性が必要な理由を説明している。理由としては主に，以下の2つを説明している。

モデルの予測結果について，分析者自身がモデルの振る舞いを把握し，説明責任を果たすことが必要であるため。
機械学習モデルを自動的に構築するAutoMLの発展に伴い，分析者は機械学習モデルを構築するよりも，その振る舞いを解釈することに多くの時間が使うようになると予想されるため。

1.2 予測精度と解釈性のトレードオフ

本項では，予測モデルには予測精度と解釈性のトレードオフが存在することを説明している。

解釈性が高いモデルの代表が線形回帰モデルである。線形回帰モデルは，目的変数と特徴量の関係を線形和で表現する。

$\begin{align} \text{住宅価格} = \beta_0 + \beta_1 \text{部屋の数} + \beta_2 \text{駅からの距離} + \text{ノイズ} \\ \end{align}$

線形回帰モデルは，部屋の数が１部屋増えると住宅価格は $\beta_1$ 円だけ増えるという関係が明示的に分かる。このような状態を解釈性が高い状態と呼ぶ。

一方で近年発展した機械学習モデル，たとえばNeural Net，GBDT，Random Forestなどは，目的変数と特徴量の関係に単純な線形性などの過程は置かない。結果としてモデルはより複雑な関係を学習できるようになり，線形回帰モデルよりも高い予測精度を達成できる。ただし，目的変数と特徴量のひも付きが人間にはうまく理解できなくなる。このような状態を解釈性が低いと呼び，解釈性が低いモデルをブラックボックスモデルと呼ぶ。

このように，予測モデルには予測精度と解釈性のトレードオフが存在する。

1.3 機械学習の解釈手法

本項ではブラックボックスモデルに解釈性を与える手法のうち，実務において有用と考えられるものが紹介されている。具体的には以下の４つである。

PFI : Permutation Feature Importance
- 予測モデルにとってどの特徴量が重要か知ることができる。

PD : Partial Dependence
- 特徴量とモデルの予測値の平均的な関係を見ることができる。

ICE : Individual Conditional Expectation
- 平均ではなく個別のインスタンスに対して特徴量と予測値の関係を見ることができる。

SHAP : SHapley Additive exPlanations
- 「モデルがなぜそのような予測値を出しているのか」という理由を解釈できる。

PFI，PD，ICE，SHAPの順に，マクロ的な視点からミクロ的な視点になる。
すなわち，PFIでは「特徴量が有効かどうか」という大雑把な解釈手法である。
PDでは，特徴量と目的変数の関係に踏み込んでいる。
ICEは，平均的な関係ではなく，個別のインスタンスごとの関係を与える。
SHAPも同様にインスタンスごとの予測の理由を与える。

これら4つの手法はあらゆる予測モデルに対して適用できる手法であるため，モデル特有の解釈手法と比較して応用範囲が広いことが実務的な利点である。

1.4 機械学習の解釈手法の注意点

本項では，前項で紹介した各種手法全般について，使い方の注意点を説明している。

最も安全な使い方はモデルのデバッグ，すなわち解釈結果がドメイン知識と整合するかどうかを確認する，という使い方である。

次に安全な使い方は，解釈結果をあくまでモデルの振る舞いとして解釈することである。一方で，より危険な使い方は，解釈結果を因果関係として解釈することである。
たとえばPDは特徴量とモデルの予測値の関係を解釈する方法で，ある特徴量の値が増加したときに，モデルの予測値が大きくなるのか小さくなるのかを知ることができる。ただしこれを，単に「特徴量と予測値の関係」として捉えるのは比較的安全であるが，「特徴量と目的変数の因果関係」と解釈するのは危険を伴う。

因果関係をより厳密に調査するためには，因果推論などの手法を活用するべきである。