はじめに
マーケティング(marketing)で使われる「NBDモデル」についてまとめました。
NBDモデルとは、次のような数理モデルです。
一定期間において消費者の商品Aの購入回数をとするときに、その確率分布をと仮定します。とは"拡張された負の二項分布"のパラメータです。
このとき、2つの初期値
- 消費者の購入回数の期待値(または平均):
- 消費者が0回購入する割合(相対度数):
からパラメータとを決定します。これより消費者が商品Aを回購入する割合(相対度数) を求めることが出来ます。
はギリシャ文字で、それぞれミュー(mu)、カッパ(kappa)と読みます。
もくじ
- 負の二項分布とは?
- NBDモデル
- NBDモデルの例
- パラメータを求める方法
- まとめ
負の二項分布とは?
まず、確率論における二項分布(Binomial Distribution)を復習しましょう。
二項分布
はを満たす実数とします。は正の整数とします。
アタリの確率がのくじにて、回引くときの回アタリを引く回数をとします。このとき、と表します。
が取りうる値はです。
となる確率は、
となります。
二項分布の期待値と分散の関係
よりが成り立ちます。期待値を固定したときに、分散はを上回ることが出来ません。
期待値の計算は、の場合で成り立つか確認すると良いでしょう。一般のの場合は二項定理を使って証明できます。
具体例でみてみましょう。
サイコロを続けて6回振るときの1の目が出る回数をとします。
より、に対して、
となります。確率分布表は次のようになります。
の値 | の値 | の値 |
0 | 0.3349 | 0.0000 |
1 | 0.4019 | 0.4019 |
2 | 0.2009 | 0.4019 |
3 | 0.0536 | 0.1608 |
4 | 0.0080 | 0.0322 |
5 | 0.0006 | 0.0032 |
6 | 0.0000 | 0.0001 |
合計 | 1.0000 | 1.0000 |
確かに確率の和はになっており、の期待値もわかります。
公式より、
と計算できます。
の確率分布()
サイコロを6回振ったら1はちょうど1回出そうですが、その確率は約40%です。1回も出ない確率が約33%もあります。2回出る確率は約20%で、3回出る確率は約5%です。4回出る確率は1%もありません。
次は、負の二項分布(Negative Binomial Distribution)です。普通の二項分布と同じくらい基本的な確率分布です。
負の二項分布
はを満たす実数とします。は正の整数とします。
アタリの確率がのくじにて、回アタリが出るまで引くときのハズレの引く回数をとします。このとき、と表します。
が取りうる値はです。
となる確率は、
となります。
負の二項分布の期待値と分散の関係
よりが成り立ちます。期待値を固定したときに、分散はを下回ることが出来ません。
負の二項分布の期待値の計算の導出は無限級数(数列の無限和)を扱うので、少なくとも数Ⅲの知識が必要です。の場合は、無限等比級数なので数Ⅲまでの知識で計算できます。の場合は、(高校数学を超える)負の二項定理を使います。
こちらも具体例でみてみましょう。
サイコロを1の目が出るまで振るときの、1以外の目の出る回数をとします。
より、
となります。確率分布表は次のようになります。
の値 | の値 | の値 |
0 | 0.1667 | 0.0000 |
1 | 0.1389 | 0.1389 |
2 | 0.1157 | 0.2315 |
3 | 0.0965 | 0.2894 |
4 | 0.0804 | 0.3215 |
5 | 0.0670 | 0.3349 |
6 | 0.0558 | 0.3349 |
| | |
合計 | 1.0000 | 5.0000 |
確率の和がであるかはこの表から分かりませんが、計算により確認できます。
期待値がであるかも表からは分かりませんが、公式より
と計算できます。
の確率分布()
1回目で1が出る確率は約17%です。期待値の5回までに出る確率は約67%です。期待値を超えてしまう割合が約33%もあります。
"拡張された負の二項分布"
、とします。
が取りうる値はです。
となる確率は、
を満たすとき、このときは"拡張された負の二項分布"に従うと言います。
また、と表します。
ガンマ関数の性質より、が正の整数のとき負の二項分布と一致します。
ガンマ関数の定義とその性質
関数はにおいて、
と積分によって定義される関数でガンマ関数と呼ばれます。
定義より、という関係式が得られます。
これらより正の整数に対して、という関係式が得られます。このことから、ガンマ関数は階乗の数列の一般化と見なすことが出来ます。
拡張された負の二項分布の期待値や分散の公式も、負の二項分布の期待値や分散と同様の形で成り立ちます。
"拡張された負の二項分布"の別形式
をについて解くと、を得ます。これを"拡張された負の二項分布"の式に代入すると、
を得ます。このとき、
となります。
このようにをパラメータとして"拡張された負の二項分布"を考えることもあります。このとき、は期待値そのものであり、は分散に関連する量です。これより、が"分布の形状を決める"ということもできます。
NBDモデル
一定期間における商品Aの購入回数に関する度数分布が与えられているとしましょう。
このとき、平均購入回数と購入回数0回の割合(相対度数)を求められます。
逆に、商品Aの平均購入回数と購入回数0回の割合(相対度数)が与えられているとしましょう。このとき、購入回数に関する度数分布を求められるでしょうか?
NBDモデルでは、これが出来るのです。
NBDモデル
商品Aの平均購入回数を、購入回数0回の割合(相対度数)をとします。
また、商品Aの購入個数をとします。
のとき、パラメータとの連立方程式
はただ一つの解とを持ちます。
このパラメータとを用いて割合(相対度数)は、
と表されます。
連立方程式の意味
まず、確率分布が"拡張された負の二項分布"に従うと仮定しているので、様々な量がパラメータを用いて表されます。
第1式は"拡張された負の二項分布"の期待値をパラメータで表し、それがである条件を課しています。
第2式はのときの割合をパラメータで表し、それがであるという条件を課しています。
が異常な値の場合、この連立方程式は解をもちません。この場合はNBDモデルが適応できません。連立方程式が解をもつ場合にて、解が複数あることはないことが確認できます。
が正の整数の場合に、ガンマ関数の性質から右辺は負の二項分布の式と同じになります。しかしNBDモデルにおいてが整数になることはほとんどありません。
NBDモデルの例
これも具体例で確認しましょう。
は全世帯数、は一定期間における購入回数0回の世帯数、は一定期間における売上個数とします。
グラフが逆J型になる場合
(世帯)、(世帯)、(個)とします。
このとき、となります。
連立方程式を解くととなり、これを"拡張された負の二項分布"の式に代入すると、次の確率分布表が計算できます。
の値 | の値 | の値 | の値 |
0 | 0.2000 | 0.0000 | 1000(世帯) |
1 | 0.1600 | 0.1600 | 800(世帯) |
2 | 0.1280 | 0.2560 | 640(世帯) |
3 | 0.1024 | 0.3072 | 512(世帯) |
4 | 0.0819 | 0.3277 | 410(世帯) |
5 | 0.0655 | 0.3277 | 328(世帯) |
6 | 0.0524 | 0.3146 | 262(世帯) |
| | | |
合計 | 1.0000 | 4.0000 | 5,000(世帯) |
この場合は、確率が単調に減っていきます。
の確率分布
グラフが逆J型にならない場合
(世帯)、(世帯)、(個)とします。
このとき、となります。
連立方程式を解くととなり、これを"拡張された負の二項分布"の式に代入すると、次の確率分布表が計算できます。
の値 | の値 | の値 | の値 |
0 | 0.1250 | 0.0000 | 1000(世帯) |
1 | 0.2185 | 0.2185 | 1748(世帯) |
2 | 0.2239 | 0.4477 | 1791(世帯) |
3 | 0.1753 | 0.5260 | 1403(世帯) |
4 | 0.1162 | 0.4647 | 929(世帯) |
5 | 0.0686 | 0.3428 | 549(世帯) |
6 | 0.0372 | 0.2230 | 297(世帯) |
| | | |
合計 | 1.0000 | 2.5000 | 8,000(世帯) |
この場合は、の場合に確率が最大になっています。
の確率分布
グラフが存在しない場合
(世帯)、(世帯)、(個)とします。
このとき、となり、は存在しません。
以下でどのようにして2つのパラメータを求めるのかを見てみましょう。
パラメータを求める方法
STEP1 2文字の方程式を1文字の方程式に還元する
パラメータとは次の連立方程式を満たしているとします。
となります。第1式と第2式をそれぞれ式変形すると、
となります。第2式を第1式に代入してを消去すると、パラメータの方程式
を得ます。ここでとおくとであり、の方程式
となります。のとき、この方程式は正の実数解を唯一つ持ちます。このとき連立方程式の解は、
と表せます。方程式の解のが分かれば、連立方程式の解が求められます。
の求め方
実際は、の関係から、の値からの値を求めることが出来ます。
STEP2 1文字の方程式を近似的に解く
方程式の解を、いわゆるニュートン法に従って求めます。
STEP2-1 初期値を決める
左辺と右辺のに正の整数を順に代入することによって、解のおよその値をまず求めます。左辺が負で右辺が正となるを探します。グラフを考えることにより、このようなは一つしかありません。また、はより大きな最小の整数です。
初期値を以下で定めます。
・ならばなので、とします。
・そうでないとき、ならばなので、とします。
・そうでないとき、ならばなので、とします。
・そうでないとき、ならばなので、とします。
これを左辺が右辺より大きくなるまで繰り返します。有限回で計算が終わります。
STEP2-2
グラフと軸との交点を接線を使って求めます。からを順に構成し、値が止まるまで続けます。この値がです。
また、数列を次の漸化式で定めます。
この数列は単調に減少し、方程式の解にどんどん近づきます。
漸化式の導出(数Ⅲ)はここをクリック
関数を
とする。の1階導関数と2階導関数をそれぞれとすると、
となる。より、は下に凸のグラフで、原点を通り、仮定より原点における傾きが負であることが分かります。
とします。曲線の点における接線の式は、
となります。これを軸との交点をとすると、
両辺をで割ると、
となります。移項すると、
となります。当然、を満たします。
"拡張された負の二項分布"の導出方法
仮定することは2つです。
平均購入回数がの世帯の購入回数は、ポアソン分布に従うとします。ポアソン分布の確率質量関数はです。
全世帯の購入回数は、ガンマ分布に従うとします。ガンマ分布の確率密度関数は、です。ただし2つのパラメータは、とします。
平均購入回数がからの世帯が回購入する確率はであり、その相対度数を掛けて足し合わせたもの(積分したもの)です。
ただし、積分公式
を用いました。また、
と置きました。
全世帯の購入回数が、本当にガンマ分布に従うかどうかは、論理的な必然性はなさそうです。関数の台がであるような確率密度関数であれば何でもいいはずなので、その他の確率密度関数でも大丈夫のはずです。ただし、ガンマ分布だと"拡張された負の二項分布"になります。他の分布で計算が進む例はあるのでしょうか。
まとめ
以上より(適切な)とから、Excelのソルバーという機能を使わずに、確率分布を求めることが出来ました。以上の内容を理解するために必要なことを挙げます。
- 基本的な数列の計算(階乗、等比数列、の計算、数列の極限、無限等比級数など)
- 基本的な関数の計算(二項定理、指数関数や対数関数のグラフの概形など。特にや)
- 確率変数の定義、確率分布の定義と期待値と分散の定義
- 二項分布とその期待値と分散
- 負の二項分布とその期待値と分散
- ガンマ関数による階乗の拡張
- ガンマ関数による負の二項分布の拡張
- ニュートン法による方程式の解法
計算手順のみを追いたい場合は、(7)と(8)だけで大丈夫です。