はじめに
森下光之助 著 「ビジネス課題を解決する技術~数理モデルの力を引き出す3ステップフレームワーク」は、数理モデルを活用して課題を体系的に解決する手法を提供する。本書を読む理由は,データサイエンスを製造業の現場に効果的に適用するための実践的なフレームワークを学び,チームの分析力を強化し,事業成果を最大化するためである。本書はマーケティングを題材としているが,製造業での応用を意識しながら読み進めていく。
本記事は,「2章 マーケティングにデータサイエンスを導入する」の読書メモである。
2章 マーケティングにデータサイエンスを導入する
本書のテーマは,「3ステップフレームワーク」を用いて,データサイエンスによるビジネス課題の解決を行なうことである。
本章では,具体的なビジネス課題として「テレビCMの出稿量の最適化」を取り上げている。
数理的なテクニックとしては,
- ドメイン知識を用いた確率モデルの仮定
- 実データによる確率モデルのパラメータ推定
などが挙げられる。
2.1 マーケティング活動としてのテレビCM
本章では問題設定を説明している。今回のテーマは「テレビCM」である。詳細な問題設定やドメイン知識は本書において丁寧に説明されている。
問題設定における重要用語
今回の問題設定において,重要な用語を以下に整理した。
用語 | 意味 |
---|---|
グロスリーチ | CM出稿量のこと。 数理最適化の問題における決定変数にあたる。 |
ユニークリーチ | 一度でもCMに接触した人数のこと。 数理最適化の問題における目的変数にあたる。 |
リーチカーブ | グロスリーチを横軸・ユニークリーチを縦軸にした曲線。 |
2.2 ステップ1:ビジネス課題を数理最適化問題として定式化する
本節では,今回の問題設定を,数理最適化問題として定式化する。
変数の定義
変数を以下のように定義する。
決定変数と目的関数
決定変数は,出稿量の値である。また,目的関数は,出稿量で条件付けた利潤
の期待値
とする。
利潤は,売上
から費用
を除いたものになる。CMに接触していたかどうかを表す確率変数
を導入すると,
制約条件
出稿量は負にならないため,1つ目の制約はとなる。
また広告予算の上限をとすると,予算の制約は
となる。
2.3 ステップ2:数理モデルを構築し、未知のパラメータをデータから推定する
本節では,未知のパラメータをデータから推定するために,数理モデルを構築する方法を説明している。
機械学習モデル・回帰モデルの当てはめ
今回の問題設定では,「得られているデータ点が1点しかない」という状況になっている。そのため,機械学習モデルや回帰モデルを当てはめようとすると,かえって当てはまりが悪くなるという現象が起きる。
本書の内容に沿って,例として挙げられた機械学習モデル・回帰モデルは,以下のような問題が生じた。
モデル | 問題点 |
---|---|
Random Forest | リーチカーブは本来曲線的な挙動になるはずだが,X軸に沿った直線的な当てはめしかできない。 |
線形回帰 | 原点と観測できた値の2点を通る直線を当てはめる。 リーチカーブは,グロスリーチが増えると傾きがだんだん小さくなるので,グロスリーチが大きい範囲の当てはまりが良くない。 |
対数変換+線形回帰 | 直線回帰よりも当てはまりは良くなるが,バイアスがかかる。 |
CM接触の数理モデルの構築
少ないデータからリーチカーブを推定するためには,ドメイン知識を反映した数理モデルが必要である。本節では,CM接触に関する数理モデルを,ドメイン知識に基づき構築している。
今回の問題設定では,目的関数の中に確率が含まれている。CM接触回数は離散値であり,「ある期間の中で事象が何回発生するか」を記述する際には,ポアソン分布が良く用いられるので,今回もポアソン分布を導入している。
負の二項分布によるリーチカーブの推定
ポアソン分布を用いたときには,当てはまりが良くなかった。これは,ポアソン分布を当てはめる際に,「集団に所属する全員が共通の平均接触回数をもつ*1」と仮定しているためである。
しかし集団には,テレビをよく見るためCMに接触しやすい個人もいれば,ほとんどテレビを見ないのでCMになかなか接触しない個人もいるといったように,パラメータには異質性があると考える方が自然である。
ポアソン分布のパラメータに異質性を持たせるためには,
- パラメータ
に,ガンマ分布の事前分布
を設定する。
- ポアソン分布とガンマ分布を混合することにより,フリークエンシー
がしたがう確率分布を求める。
という手順を踏む。
ここでいう「ポアソン分布とガンマ分布を混合する」とは,
また,ガンマ分布とポアソン分布を混合すると,負の二項分布(Negative Binomial Distribution)が得られる。
ポアソン分布のときと同様に,負の二項分布によるリーチカーブの推定を行なうと,
SciPyのoptimize
モジュールを用いて,データからパラメータを最適化すると,リーチカーブは以下のようになる。
2.4 ステップ3:数理最適化問題を解いて最適なアクションを導出する
負の二項分布を用いると,リーチカーブを推定することができた。本節ではこの情報を用いて,最初に設定した数理最適化問題を解き,最適解を求めている。
本節において最適化を行なう際には,解析的または数値計算を求めるのではなく,各グロスリーチについて利潤を計算し,最大となる利潤を求めている。
まとめと感想
今回は,「2章 マーケティングにデータサイエンスを導入する」についてまとめた。
本章では,「CMの出稿量を最適化する」という問題を扱っていた。出稿量を増やせば,CMとの接触回数が増えて売上が伸びるが,その分コストがかかって利潤は減る。そのため,このようなトレードオフを考慮して最適化する必要がある。
また数理モデルとして,負の二項分布を導入して確率分布を近似していた。
今回の問題設定はマーケティングにおける問題だったが,製造業における応用例を,ChatGPTを併用して考えてみた。
応用例 : 製造業における「センサ点検回数の最適化」
ビジネス課題
製造装置には多数のセンサが付いている。
定期的な点検(または再キャリブレーション)を行うことで,センサの故障や異常を検知できる可能性が高まる。
しかし,点検にはコストがかかるため、「点検回数」や「点検タイミング」を最適化したい。
上記の応用例に対する考察
製造業においては,設備の故障診断は大きな課題である。そのため,リモートモニタリングを行なうための仕組みを導入している企業も少なくない。
今回の応用例は,センサ点検回数の最適化であった。リモートモニタリングにおいて,センサ自体の故障診断は重要な問題である。そのため,今回のような問題設定も,実際のデータで試してみたら面白いかもしれない。
本記事を最後まで読んでくださり,どうもありがとうございました。