10.3 多項ロジスティック回帰
10.3.3 勾配に基づく最適化
前項において,他行ロジスティック回帰の目的関数・勾配・ヘッセ行列を求めた。
勾配を用いると,確率的勾配降下法(SGD)のアルゴリズムを導出できる。
またヘッセ行列を用いると二次最適化法を導出できるが,ヘッセ行列の計算コストが高いので,一般には「制限メモリーBFGS」のような準ニュートン法を用いる。
10.3.4 バウンド最適化
本項では,8.7節で説明したバウンド最適化を用いて最適化する方法を紹介している。
多項ロジスティック回帰への適用
バウンド最適化をロジスティック回帰に適用する。
目標は,対数尤度
を最大化することである。
本書P337の式(10.58)において,
であり,
となる。ここで,

は1ホットベクトルであるため,

であることを用いた。
よって目的関数は,
となる。
10.3.2項を参考にすると,勾配とヘッセ行列は,それぞれ以下のようになる。
ヘッセ行列の下界
は以下のように構成できることが知られている。
これを用いると,更新則は以下のようになる。
この
は,あらかじめ計算しておけばよいので,IRLSのようなヘッセ行列を反復ごとに計算する必要がある手法よりも高速な場合がある。
10.3.5 MAP 推定
本書P333の10.2.7項において,ロジスティック回帰におけるMAP推定が,L2正則化と同値であることを示していた。また10.2.7項では,L2正則化の利点(回帰係数が大きくなりすぎない)ことが紹介されていた。
多クラスの場合では,この利点に加えて,パラメータの識別可能性に関する利点も存在する。
尤度を最大化する解が唯一であるとき,パラメータは識別可能であるという。
●ブログ筆者註 :
多値ロジスティック回帰モデルは,識別可能ではない。すなわち,尤度を最大化するパラメータが一意に決まらない。
多値ロジスティック回帰モデルは,
であるが,このパラメータ
に定数
を加えたモデルもまた,となる。すなわちパラメータの平行移動に対する不変性が発生しており,パラメータが一意に定まらないことになる。
L2正則化を付けた目的関数は以下のようになる。
最適解では,この勾配が0になるので,
そのため,本書P341にあるように,

という,各特徴量次元について和を取ると重みは0になる,という制約が生じる。
この制約によって,パラメータが一意に定まるようになるので,L2正則化によって識別可能になる,と言える。
まとめと感想
「第10章 ロジスティック回帰」における,多項ロジスティック回帰の目的関数の最適化についてまとめた。
多項ロジスティック回帰モデルの最適化において,バウンド最適化を用いることで係数の更新が高速化されうる,ということは意外な発見であった。
バウンド最適化は,EMアルゴリズムなど隠れ変数が存在する場合に用いられるものであるという固定概念があったが,ヘッセ行列の下界を上手く設定することにより,固定の行列により勾配計算が可能になるという内容は興味深かった。
ヘッセ行列の下界に関する不等式が登場していた。この式について,
などにも目を通してみたが,よく理解できなかったので,改めて挑戦したいと思った。
本記事を最後まで読んでくださり,どうもありがとうございました。