jiku log

データサイエンスの核心を掴む : 学びと発見の記録

「確率的機械学習 入門編I」読書メモ一覧

はじめに

製造業のデータサイエンス実務では,統計的手法や機械学習・深層学習モデルを適切に組合わせて,現場で再現性の高い意思決定を支えることが求められる。とりわけ近年は,深層学習の発展により手法の多様化が進んでいるため,機械学習・深層学習を体系的に理解することは,現場の課題定義やモデリング戦略の質を大きく左右する。

持橋大地・鈴木大慈 監訳「確率的機械学習 入門編I」は,世界的に評価の高いK.P.Murphy著 "Probabilistic Machine Learning (Book1)" の和訳であり,確率モデルに基づく機械学習,深層学習といった基礎が丁寧に整理されている。私は統計検定1級として数理統計の基礎は学んできたが,機械学習・深層学習は実務に応じて場当たり的に学んできた。実務での応用に向けて,機械学習・深層学習の基礎を体系的に学び,チームの技術力を底上げしたいと考えている。また読書メモに自身の理解をまとめることで,製造業に携わる若いエンジニアにとっても有益な知識を還元できればと考えている。

https://www.asakura.co.jp/user_data/product_image/12303/1.jpg

本書の見どころ

基礎から丁寧に記載されている

本書の題名は「確率的機械学習」であるため,確率分布や統計学の基礎を説明しているが,それだけでなく,機械学習の理解に必要な線形代数や最適化についても基礎から説明している。
更に決定理論や情報理論など,理解を深めるために必要な基礎理論も説明している。

そのため,本書を読むうえで前提とする数学的な知識があまりないので,大学1・2年程度の知識があれば読み進められると考えられる*1

また,本書ではベイズ統計学の立場から説明しているものの,頻度論的統計学に関する説明も詳しく説明されている。そのため,数理統計学,特に頻度論的統計学を学んだ人にとっては良い復習になる。

実践に向けたコツが説明されている。

本書は理論寄りの本ではあるものの,具体的な計算方法に関する説明も詳しかった。

たとえば最小二乗法の説明において,単に数式を示すだけでなく,数式上出てくる逆行列の計算の問題点や,計算上のテクニックが紹介されていた。
近年では,Python等のプログラミング言語におけるライブラリ群が充実しているので,計算上のテクニックを理解していなくてもとりあえず動かすところまではできる。
ただ,実データに当てはめたときに上手くいかなかったり,自分でアルゴリズムを改良する際には計算テクニックに関する理論も必要になってくるので,本書に書かれている実践に向けたヒントが参考になると思う。

関連ページが充実している

本書は"Probabilistic Machine Learning: An Introduction"の和訳であるが,この書籍のサイトに行けば,英語の原文(Draft pdf file)や本文中で扱われているプログラムに触れることができる。

英語の原文は,本書の表現(日本語)の英語表現を理解するうえで必要である。私も読書メモを作成するうえで,何度も原文を見に行った。

ただしサンプルコードは,作成されたのが数年前のものもあるので,動作させる際にはPythonや関連ライブラリのバージョンに注意する必要がある。

読書メモ一覧

第1章 はじめに

第2章 単変量の確率モデル

*1:個人的な感想だが,機械学習の名著「パターン認識機械学習」の方が,数学的な基礎が必要だった印象がある。