はじめに
分析業務を進めていく中で,上司やお客さまから「このAIの判断は正しいのか?」聞かれたことはないだろうか?
製造業の業務で機械学習モデルを運用する際に,「なぜ今回の結果が得られたのか」ということを説明する必要があるシーンがある。たとえば生産ラインに不具合が起きた時に,その原因究明をするために,不具合があったときを1,不具合がなかったときを0として判別モデルを作るということが考えられる。ただ,本当に行ないたいことは判別というより不具合の原因究明なので,生産ラインのデータにおけるどの項目が不具合に寄与していたか,ということが知りたくなる。またきちんと説明できないと,現場では受け入れてもらえないこともある。
このような説明性・解釈性を把握するための手法を学ぶために,森下光之助 著 「機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック」を読むことにした。
本記事は,「第1章 機械学習の解釈性とは」の読書メモである。
- 本書の紹介ページ
機械学習を解釈する技術 〜予測力と説明力を両立する実践テクニック:書籍案内|技術評論社
- 関連コード
1.2 予測精度と解釈性のトレードオフ
本項では,予測モデルには予測精度と解釈性のトレードオフが存在することを説明している。
解釈性が高いモデルの代表が線形回帰モデルである。線形回帰モデルは,目的変数と特徴量の関係を線形和で表現する。
線形回帰モデルは,部屋の数が1部屋増えると住宅価格は円だけ増えるという関係が明示的に分かる。このような状態を解釈性が高い状態と呼ぶ。
一方で近年発展した機械学習モデル,たとえばNeural Net,GBDT,Random Forestなどは,目的変数と特徴量の関係に単純な線形性などの過程は置かない。結果としてモデルはより複雑な関係を学習できるようになり,線形回帰モデルよりも高い予測精度を達成できる。ただし,目的変数と特徴量のひも付きが人間にはうまく理解できなくなる。このような状態を解釈性が低いと呼び,解釈性が低いモデルをブラックボックスモデルと呼ぶ。
このように,予測モデルには予測精度と解釈性のトレードオフが存在する。
1.3 機械学習の解釈手法
本項ではブラックボックスモデルに解釈性を与える手法のうち,実務において有用と考えられるものが紹介されている。具体的には以下の4つである。
- PFI : Permutation Feature Importance
- 予測モデルにとってどの特徴量が重要か知ることができる。
- PD : Partial Dependence
- 特徴量とモデルの予測値の平均的な関係を見ることができる。
- ICE : Individual Conditional Expectation
- 平均ではなく個別のインスタンスに対して特徴量と予測値の関係を見ることができる。
- SHAP : SHapley Additive exPlanations
- 「モデルがなぜそのような予測値を出しているのか」という理由を解釈できる。
PFI,PD,ICE,SHAPの順に,マクロ的な視点からミクロ的な視点になる。
すなわち,PFIでは「特徴量が有効かどうか」という大雑把な解釈手法である。
PDでは,特徴量と目的変数の関係に踏み込んでいる。
ICEは,平均的な関係ではなく,個別のインスタンスごとの関係を与える。
SHAPも同様にインスタンスごとの予測の理由を与える。
これら4つの手法はあらゆる予測モデルに対して適用できる手法であるため,モデル特有の解釈手法と比較して応用範囲が広いことが実務的な利点である。
1.4 機械学習の解釈手法の注意点
本項では,前項で紹介した各種手法全般について,使い方の注意点を説明している。
最も安全な使い方はモデルのデバッグ,すなわち解釈結果がドメイン知識と整合するかどうかを確認する,という使い方である。
次に安全な使い方は,解釈結果をあくまでモデルの振る舞いとして解釈することである。一方で,より危険な使い方は,解釈結果を因果関係として解釈することである。
たとえばPDは特徴量とモデルの予測値の関係を解釈する方法で,ある特徴量の値が増加したときに,モデルの予測値が大きくなるのか小さくなるのかを知ることができる。ただしこれを,単に「特徴量と予測値の関係」として捉えるのは比較的安全であるが,「特徴量と目的変数の因果関係」と解釈するのは危険を伴う。
因果関係をより厳密に調査するためには,因果推論などの手法を活用するべきである。
