jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「スモールデータ解析と機械学習」を読む ~第5章 分類問題と不均衡データ問題 ②分類モデルの性能評価~

はじめに

藤原 幸一 著「スモールデータ解析と機械学習」は,サンプル数が少ない状況でのモデル構築や予測精度の確保,統計的な不確実性の扱い方など,現場で直面する悩みに直結する理論と実践がコンパクトにまとまっている。製造業のデータ解析において「少ないデータだから仕方ない」と諦めるのではなく,「少ないからこそできる工夫」を身につけるためにこの本を読み,その学びをブログで共有しようと思う。

本記事は,「第5章 分類問題と不均衡データ問題」における,分類モデルの性能評価に関する読書メモである。

5.6 分類モデルの性能評価

分類モデルの性能は,モデルが出力したクラス(予測されたクラス)と,サンプルの真のクラスとの一致度によって評価される。

たとえば,ガンの診断を例にすると,

  •  C_1 : 本当にガンだった
  •  C_2 : 本当はガンではなかった

として,モデルの出力と真のクラスを表にすると以下のようになる(混合行列)。


第I種の過誤・第II種の過誤

混合行列においてFPを第I種の過誤,FNを第II種の過誤と呼ぶ。

第I種の過誤・第II種の過誤

感度・特異度

2クラス分類の分類モデルの性能として,


 \begin{align}
\text{感度(Se)} &= \frac{TP}{TP + FN} \\ \\
\text{特異度(Sp)} &= \frac{TN}{FP + TN} \\ \\
\text{陽性的中率(PPV)} &= \frac{TP}{TP + FP} \\ \\
\text{陰性的中率(NPV)} &= \frac{FN}{FN + TN} \\ \\
\end{align}

が定義される。

各指標と定義

なおこれらの用語は,もともと医学臨床の指標であり,機械学習では感度(Se)再現率(recall)陽性的中率(PPV)適合率(precision)と呼ぶ。

複数の指標のうち,感度とPPVをバランスよく評価するために,感度とPPVの調和平均であるF値


 \begin{align}
F = \frac{2 \cdot Se \times PPV}{Se + PPV} \\ \\
\end{align}
が用いられる。

5.7 ROC曲線とAUC

クラス識別のためのカットオフ(閾値)を変えると,5.6節で示した指標の値は変化する。検査結果(分類結果)に与える,検査手法(分類モデル)自体の性能とカットオフ決定の問題を切り離して考えるために使われるのがROC曲線である。

ROC曲線は,分類モデルにおいてカットオフを少しずつ変化させ,

  • 縦軸 : 感度( TP/(TP+FN))
  • 横軸 : 1- 特異度( FP/(FP+TN))

として描かれる曲線のことである。

ROCの下側の面積をAUC(Area Under the Curve)と呼ぶ。AUCは最大で1であり,ランダムに分類した場合は0.5となる。

AUCによるカットオフの決め方

AUCを用いたカットオフの決め方には,以下のようなものがある。

  1. 0-1距離基準 : 左上隅との距離が最小になる点をカットオフにする。
  2. ユーデン指標 : (感度+特異度-1)が最大になる点をカットオフにする。

まとめと感想

今回は,「第5章 分類問題と不均衡データ問題」における,分類モデルの性能評価についてまとめた。

分類モデルの評価指標は,単に「正解率が高いかどうか」では語れないことを改めて整理できた。製造業の実務に即して考えると、以下の点が重要だと感じる。

  1. 誤分類のコストは非対称
    • たとえば不良品を「良品」と誤判定するFNは致命的だが,良品を「不良」と誤判定するFPはコスト増にとどまる。したがって,現場では感度(再現率)を優先するケースが多い。
  2. 評価指標のトレードオフを現場と共有する必要
    • モデルの閾値を変えれば,再現率と適合率のバランスは変わる。最適なカットオフは,統計的に美しい基準だけでなく,現場の工程コストや安全性の要求水準も考慮して決定すべきだと再認識した。
  3. AUCはベースラインの比較に有効
    • 複数の分類器を比較する際に,AUCを使えば閾値設定に依存せず性能の優劣を判断できる。特にスモールデータ環境で複雑なモデルを導入する前に,ロジスティック回帰やLDAといったシンプルなモデルとAUCで比較するのは有効だと感じた。


本節は「どのモデルを使うか」以上に,「どう評価するか」「どの誤りを許容できるか」を明確にすることの大切さを強調している。製造業におけるデータ解析では,精度の数字以上に誤分類のリスクをどうマネジメントするかが本質的な課題になると実感した。


本記事を最後まで読んでくださり,どうもありがとうございました。