jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「確率的機械学習 入門編I」を読む ~第5章 決定理論 ②ベイズ決定理論・その2~

はじめに

持橋大地・鈴木大慈 監訳「確率的機械学習 入門編I」は,世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり,確率モデルに基づく機械学習,深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが,機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて,機械学習・深層学習の基礎を体系的に学び,チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで,製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。

※なおボリュームが多い本なので,知っているところは端折りながら読み進めたい。


本記事は,「第5章 決定理論」のベイズ決定理論における,ROC曲線・PR曲線・確率的予測問題に関する読書メモである。

5.1 ベイズ決定理論

5.1.3 ROC 曲線

本項では,ROC曲線について説明している。

以下のようなクラス混同行列を考える。

推定値 : 0 推定値 : 1
真値 : 0 TN FP
真値 : 1 FN TP

この混同行列から計算される量のうち,再現率(recall)またはヒット率(hit rate)は,


 \begin{align}
\mathrm{TPR}_{\tau} = p(\hat{y}=1 \mid y=1, \tau) = \frac{ \mathrm{TP}_{\tau} }{ \mathrm{TP}_{\tau} + \mathrm{FN}_{\tau} } \\ \\
\end{align}
で定義される。

また偽陽性(false positive rate, FPR)または誤警報率(false alarm rate)・第一種過誤率(type I error rate)は,


 \begin{align}
\mathrm{FPR}_{\tau} = p(\hat{y}=1 \mid y=0, \tau) = \frac{ \mathrm{FP}_{\tau} }{ \mathrm{FP}_{\tau} + \mathrm{TN}_{\tau} } \\ \\
\end{align}
で定義される。

横軸をFPR・縦軸をTPRとし,二値分類の閾値 \tauを変化させたときに得られる曲線を受信者操作特性(receiver operating characteristic, ROC)曲線と呼ぶ。

ROC曲線の要約統計量

ROC曲線の性能は,AUC(area under the curve)を用いて要約することができる。
もう1つの要約統計量は等価エラー率(equal error rate, EER)で, \mathrm{FNR} = 1 - \mathrm{TPR}となる点で表される。

クラス不均衡

クラス不均衡がある場合でもROC曲線は影響を受けない。それでも,負例の集合が極端に大きい場合,偽陽性率の値があまり変化しなくなるので,ROC曲線の有用性が低下する。

5.1.4 PR 曲線

負例が多い場合,FPRは大きく変化せずROC曲線の有用性が低下する。その対策として,FPRの代わりに,正例だけから計算される適合率(precision)に置き換えることが挙げられる。適合率は,


 \begin{align}
\mathcal{P} ( {\tau} ) = p( y=1  \mid \hat{y}=1, \tau) = \frac{ \mathrm{TP}_{\tau} }{ \mathrm{TP}_{\tau} + \mathrm{FP}_{\tau} } \\ \\
\end{align}
で定義される。

先述したTPRは再現率(recall)と呼ばれ,横軸を再現率・縦軸を適合率とし,二値分類の閾値 \tauを変化させたときに得られる曲線をPR曲線と呼ぶ。

ROC曲線(左)とPR曲線(右)


適合率・再現率の要約統計量として,適合率・再現率の調和平均であるF値が挙げられる。

5.1.5 回帰問題

分類問題では,有限個の行動 \mathcal{A}と自然の状態 \mathcal{H}について考えていた。本項では,これらが実数となる場合,すなわち回帰問題について考える。

L2損失

 L2損失は,


 \begin{align}
L2(h, a) = (h - a)^2 \\ \\
\end{align}
で定義される。

この場合,リスク関数は,


 \begin{align}
R(a \mid \boldsymbol{x}) = E[ (h - a)^2 \mid \boldsymbol{x} ] \\ \\
\end{align}
となる。

最適な行動は,リスクの微分が0になるような行動である。すなわち,


 \begin{align}
\frac{\partial }{\partial a} R(a \mid \boldsymbol{x}) = - 2E[ h \mid \boldsymbol{x} ] + 2 a = 0 \\ \\
\end{align}
となる。これを aについて解くと,最適な行動は事後平均になる。

 \begin{align}
\pi( \boldsymbol{x} ) = E[ h \mid \boldsymbol{x} ] = \int h p(h \mid \boldsymbol{x}) \\ \\
\end{align}
これは,最小二乗誤差(minimum mean squared error, MMSE)推定量と呼ばれる。

L1損失

 L1損失は,


 \begin{align}
L1(h, a) = \lvert h - a \rvert \\ \\
\end{align}
で定義される。L2損失よりも外れ値に強い。

最適な行動は事後中央値(posterior median)すなわち


 \begin{align}
Pr(h \lt a \mid \boldsymbol{x}) = Pr(h \geq a \mid \boldsymbol{x}) = 0.5 \\ \\
\end{align}
となる aである。

フーバー損失

フーバー損失(Huber loss)は,L2損失とL1損失を組合わせたような損失であり,


 \begin{align}
l_{\delta}(h, a) = 
  \begin{cases}
    r^2/2 & (\lvert r \rvert \leq \delta) \\
    \delta \lvert r \rvert - \delta^2 /2 & (\lvert r \rvert \gt \delta) \\
  \end{cases}
\\ \\
\end{align}
と定義される。ただし r = h - aである。

L2損失・L1損失・フーバー損失

5.1.6 確率的予測問題

本項までは,取り得る行動が「クラスラベルを1つ選ぶこと」や「実数値を選ぶこと」ということを想定してた。本項では,取り得る行動の集合が確率分布であることを想定する。
そのため,真の確率分布 p(Y \mid x)と,行動を表す別の確率分布 q(Y \mid x)を比較することになる。

KL,交差エントロピー,対数損失

2つの分布を比較するための損失関数として,カルバック・ライブラー ダイバージェンス(Kullback-Leibler divergece, KLダイバージェンス)が挙げられる。

KLダイバージェンスは,以下のように定義される。


 \begin{align}
D_{KL} (p \mid \mid \mid q ) \equiv \sum_{y \in \mathcal{Y}} p(y) \log \frac{ p(y) }{ q(y) } \\ \\
\end{align}

KLダイバージェンスを変形すると,


 \begin{align}
D_{KL} (p \mid \mid \mid q ) &= -H(p) + H(p, q) \\ \\
H(p) &\equiv \sum_{y} p(y) \log p(y) \\ \\
H(p, q) &\equiv \sum_{y} p(y) \log q(y) \\ \\
\end{align}
のように,エントロピーと交差エントロピーに分解できる。


KLダイバージェンスを最小化するような行動は,交差エントロピーの最小化となる。


 \begin{align}
q^* (Y \mid x) = \operatorname*{argmin}_q H(q(Y), p(Y)) \\ \\
\end{align}

Brierスコア

KLダイバージェンス \log p(y)/q(y)の項は,低確率の事象の誤差に対して影響を受ける可能性が高い。そのため確率の差で定義されるBrierスコアが用いられることがある。

まとめと感想

「第5章 決定理論」のベイズ決定理論における,ROC曲線・PR曲線・確率的予測問題についてまとめた。

分類問題・回帰問題の指標を再確認する

今回出てきたROC曲線や適合率・再現率,L2損失・L1損失などは,機械学習の評価においてはおなじみの話題であった。

しかし本書では,クラス不均衡が発生したときの影響など,実務上で問題になることについて解説しており,有益だと感じた。

また,L2損失・L1損失についても,事後確率との関係が示されており,ベイズ決定理論においては様々な問題が統合的な視点で説明されていることが再確認できた。


本記事を最後まで読んでくださり,どうもありがとうございました。