「スモールデータ解析と機械学習」を読む　～第3章回帰分析と最小二乗法 ⑥部分的最小二乗法(PLS2)～

はじめに

藤原幸一著「スモールデータ解析と機械学習」は，サンプル数が少ない状況でのモデル構築や予測精度の確保，統計的な不確実性の扱い方など，現場で直面する悩みに直結する理論と実践がコンパクトにまとまっている。製造業のデータ解析において「少ないデータだから仕方ない」と諦めるのではなく，「少ないからこそできる工夫」を身につけるためにこの本を読み，その学びをブログで共有しようと思う。

本記事は，「第3章回帰分析と最小二乗法」における，部分的最小二乗法(PLS2)に関する読書メモである。

3.16 出力変数が複数ある場合(PLS2)

前節までは，出力変数の数が1つ出るPLS1モデルを考えてきた。本節ではこれを拡張し，出力変数が複数個( $L$ 個)ある場合でも学習できるPLS2を紹介している。

PLS2(出力変数がL個のPLS)のモデル化

PLS2では，

入力データ $\mathbfit{X} \in \mathbb{R}^{N \times M}$
出力データ $\mathbfit{X} \in \mathbb{R}^{N \times L}$

が与えられたもとでモデル化を行なう。すなわち，入力は $M$ 変数，出力は $L$ 変数で，ともに $N$ 個のサンプルがあるものとする。

PLS2のモデル全体は，

$\begin{align} &\mathbfit{X} = \mathbfit{T} \mathbfit{P}^T + \mathbfit{E} \\ \\ &\mathbfit{Y} = \mathbfit{U} \mathbfit{C}^T + \mathbfit{f}\\ \\ \end{align}$

となる。ただし，

$\mathbfit{T} \in \mathbb{R}^{N \times R}$ : 入力 $\mathbfit{X}$ に関する潜在変数行列
$\mathbfit{U} \in \mathbb{R}^{N \times R}$ : 出力 $\mathbfit{Y}$ に関する潜在変数行列
$\mathbfit{P} \in \mathbb{R}^{M \times R}$ : 入力 $\mathbfit{X}$ に関するローディング行列
$\mathbfit{C} \in \mathbb{R}^{L \times R}$ : 出力 $\mathbfit{Y}$ に関するローディング行列

である。すなわち，入力・出力のそれぞれについて，潜在変数行列とローディング行列を準備するというモデルになっている。

潜在変数の推定

PLS1では $\mathbfit{X}$ の線形結合としての潜在変数 $\mathbfit{t}_r \in \mathbb{R}^N(r=1,...,R)$ を表現した。PLS2では同様に $\mathbfit{Y}$ の線形結合として潜在変数 $\mathbfit{u}_r$ を考える。

第1潜在変数は，

$\begin{align} \mathbfit{t}_1 = \mathbfit{X} \mathbfit{w}_1, \quad \mathbfit{u}_1 = \mathbfit{Y} \mathbfit{c}_1 \\ \\ \end{align}$

となる。

その後，重みベクトルのノルムが $\lVert \mathbfit{w}_1 \rVert^2 = \lVert \mathbfit{c}_1 \rVert^2 = 1,$ という制約のもと，内積 $\mathbfit{t}_1^T \mathbfit{u}_1$ を最大化する制約付き最大化問題を解くことで，最終的に

$\begin{align} &\mathbfit{X}^T \mathbfit{u}_1 = \mathbfit{X}^T \mathbfit{Y} \mathbfit{c}_1 = \lambda \mathbfit{w}_1 \\ \\ &\mathbfit{Y}^T \mathbfit{t}_1 = \mathbfit{Y}^T \mathbfit{X} \mathbfit{w}_1 = \lambda \mathbfit{c}_1 \\ \\ \end{align}$

が得られる。

本書ではその後， $\mathbfit{w}_1, \mathbfit{c}_1$ を繰り返し計算によって求める方法が説明されていた。

潜在変数の推定に関する補足

本書では， $\mathbfit{w}_1, \mathbfit{c}_1$ を繰り返し計算によって求める方法が紹介されていたが，

$\begin{align} &\mathbfit{X}^T \mathbfit{Y} \mathbfit{c}_1 = \lambda \mathbfit{w}_1 \\ \\ &\mathbfit{Y}^T \mathbfit{X} \mathbfit{w}_1 = \lambda \mathbfit{c}_1 \\ \\ \end{align}$

を変形すると，

$\begin{align} \begin{bmatrix} \mathbfit{O}_M & \mathbfit{X}^T \mathbfit{Y} \\ \mathbfit{Y}^T \mathbfit{X} & \mathbfit{O}_L \\ \end{bmatrix} \begin{bmatrix} \mathbfit{w}_1 \\ \mathbfit{c}_1 \\ \end{bmatrix} = \lambda \begin{bmatrix} \mathbfit{w}_1 \\ \mathbfit{c}_1 \\ \end{bmatrix} \\ \\ \end{align}$

と書けるので，固有値問題になると考えられる。

ローディングベクトルの推定

PLS2モデルでは， $\mathbfit{Y}$ の潜在変数 $\mathbfit{u}_1$ を用いているため，このままでは $\mathbfit{X}$ からの出力予測ができない。そこで， $\mathbfit{u}_1$ を $\mathbfit{X}$ の潜在変数 $\mathbfit{t}_1$ を用いて表現する単回帰モデルを考える。

$\begin{align} \mathbfit{u}_1 = a_1 \mathbfit{t}_1 + \mathbfit{h}_1 \\ \\ \end{align}$

ここで $\mathbfit{h}_1$ は誤差である。

回帰係数の推定

このようにモデル化すると，回帰係数 $a_1$ は最小二乗法によって求められる。
最終的に，第1潜在変数についての出力の予測式は，

$\begin{align} \mathbfit{Y}_1 = \mathbfit{u}_1 \mathbfit{c}_1^T = a_1 \mathbfit{t}_1 \mathbfit{c}_1^T \equiv \mathbfit{t}_1 \mathbfit{q}_1^T \\ \\ \end{align}$

となる。

3.17 PLSと固有値問題・特異値分解

$\begin{align} &\mathbfit{X}^T \mathbfit{Y} \mathbfit{c}_1 = \lambda \mathbfit{w}_1 \\ \\ &\mathbfit{Y}^T \mathbfit{X} \mathbfit{w}_1 = \lambda \mathbfit{c}_1 \\ \\ \end{align}$