jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「機械学習を解釈する技術」を読む ~第2章 線形回帰モデルを通して「解釈性」を理解する~

はじめに

製造業の業務で機械学習モデルを運用する際に重要になる説明性・解釈性を把握するための手法を学ぶために,森下光之助 著 「機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック」を読むことにした。

本記事は,「第2章 線形回帰モデルを通して「解釈性」を理解する」の読書メモである。

  • 本書の紹介ページ

機械学習を解釈する技術 〜予測力と説明力を両立する実践テクニック:書籍案内|技術評論社

  • 関連コード

GitHub - ghmagazine/ml_interpret_book

本記事を読むことで得られること

本記事を読むことで得られることは,主に以下の内容である。

  • 線形回帰モデルを例にした,4つの解釈性のイメージとその意味

第2章 線形回帰モデルを通して「解釈性」を理解する

本章では,線形回帰モデルを例に挙げて,本書のテーマである「機械学習の解釈性」に関する概観を説明している。

2.2 線形回帰モデルが備える解釈性

本節では,線形回帰モデルが持つの4つの解釈性について説明している。この4つの解釈性とは,以下の通りである。

  1. 特徴量と予測値の平均的な関係が解釈できる
  2. 特徴量と予測値のインスタンスごとの関係が解釈できる
  3. 特徴量の重要度が解釈できる
  4. インスタンスごとの予測の理由が解釈できる

特徴量と予測値の平均的な関係

線形回帰モデルは例えば,


 \begin{align}
f(X_1, X_2, X_3) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 \\
\end{align}

のように表される。この線形回帰モデルでは,特徴量 (X_1, X_2, X_3)がそれぞれ1単位増えると,予測とはそれぞれ (\beta_1, \beta_2, \beta_3)だけ増える。

この特徴はすべてのインスタンス(入力)について共通しているので,回帰係数は特徴量とモデルの予測値の(インスタンスごとではない)平均的な関係を解釈していると言える。

特徴量の予測値とインスタンスごとの関係

以下のような,線形回帰モデルを考える。


 \begin{align}
f(X) = \beta_0 + \beta_1 X + \beta_2 X^2 \\
\end{align}

この式には X^2という項が入っており, Xに関しては非線形になる。この式を微分すると,


 \begin{align}
\frac{\partial f(X)}{\partial X} = \beta_1 + 2 \beta_2 X \\
\end{align}

となる。この式より, Xが1単位増加したときに予測値に与える影響は, Xの水準にしたがって異なる。具体的には, (\beta_1, \beta_2) = (1, 2)とすると,

  •  X=1インスタンスでは,そこから Xが1増加すると,予測値の増分は, \beta_1 + 2 \beta_2 X = 1 + 2 \times 2 \times 1 = 5
  •  X=10インスタンスでは,そこから Xが1増加すると,予測値の増分は, \beta_1 + 2 \beta_2 X = 1 + 2 \times 2 \times 10 = 41

となり,インスタンスごとに特徴量 Xが予測値に与える影響が異なる
すなわち線形回帰モデルは,特徴量と予測値のインスタンスごとの関係を解釈できるといえる。

特徴量の重要度

次のような線形回帰モデルを考える。


 \begin{align}
f(X_1, X_2, X_3) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 \\
\end{align}

たとえば, (\beta_1, \beta_2, \beta_3) = (0, 1, 10)とすると,特徴量 (X_1, X_2, X_3)がそれぞれ1単位変化したときに予測値が最も大きく動くのは X_3である。一方で X_1にどんな値を入れても予測値には影響がない。

このように線形回帰モデルは,回帰係数の絶対値を見ることで,モデルの予測にどの特徴量が強く影響するかが分かる。


ただし回帰係数を比較するうえで気を付けるべきことは,特徴量 (X_1, X_2, X_3)の値の大きさの範囲を揃えておくことである。大きさの範囲を揃えるための手法として,特徴量を標準化(standardization)することが挙げられる。

インスタンスごとの予測の理由

以下のような,前職年収と現職の経験年数から現職の年収を予測する学習済みの線形モデルを考える。

インスタンス1では,前職年収は500万円,現職経験年数が5年であるとすると,現職年収は1000万円になる。

インスタンス2では,前職年収は300万円,現職経験年数が2年であるとすると,現職年収は500万円になる。


このように線形回帰モデルでは,インスタンスごとに「なぜこのような予測値を出したのか」という予測の理由を解釈できる


まとめと感想

今回は,「第2章 線形回帰モデルを通して「解釈性」を理解する」についてまとめた。改めて,本書で紹介されていた解釈性は,

  1. 特徴量と予測値の平均的な関係が解釈できる
  2. 特徴量と予測値のインスタンスごとの関係が解釈できる
  3. 特徴量の重要度が解釈できる
  4. インスタンスごとの予測の理由が解釈できる

という4つであった。

線形回帰モデルは,上記の4つの解釈性をすべて持っている。

線形回帰モデルは,非線形な予測モデルに比べて予測精度が悪いことが多い。次の章以降で,非線形モデルに対しても上記の解釈性を与えるための方法が紹介されると考えられるが,本章の説明のように,線形モデルを対象に説明があると4つの解釈性のそれぞれがどのような意味合いであるかが想像しやすいと感じた。


本記事を最後まで読んでくださり,どうもありがとうございました。