統計学において母関数(generating function)として用いられるものにはいくつか種類があります。たとえば確率母関数(probability generating function, $p.g.f$と略記)、特性関数(characteristic function, $ch.f$)、モーメント母関数(moment generating function,$m.g.f$)、キュムラント母関数(cumulant generating function,$c.g.f$)、factorial moment generating functionなどが挙げられます。確率分布の性質を知るのに母関数を用いることは良い方向に作用するので、数理統計学の参考書で突然母関数の議論が出てくることが多いです。それを見て戸惑う人のための理解の一助になればよいと思ったのがこの記事を書いたモチベーションです。まず今回は、比較的とっつきやすい$p.g.f$の概念から$m.g.f$を説明することを目指します。
確率母関数は主に負でない整数値をとる離散型の確率変数で用いられます。簡単のためにこの節では離散型のみの記述にとどめます。離散型の確率変数$X$に関する確率質量関数(probability mass function, $p.m.f$)は
\begin{equation}
f_X(x)=P(X=x)
\end{equation}
で定義されます。$x$は$X$の実現値です。このとき、$p.g.f$は以下のように定義されます。
$G_X(t)=E t^{X}= \sum_{x=0}^{∞}t^xf_X(x)$
ここで$t$は$|t|<1$をみたす変数である。
なお、$t=1$を代入すると$G_X(1)=1$になります。
上の定義は離散型の確率変数に関する平均(期待値)の定義に沿ったものであることを確認してください。
\begin{equation}
E(X)= \sum_{x}xf_X(x)
\end{equation}
また$G_X(t)$が与えられたもとで、これを$k$回微分して$t=0$とおけば$p.g.f$から$p.m.f$が導かれます。つまり$ \frac{G^{(k)}_X(t)}{k!} =f_X(k)$ということであり、「$t=0$のもとでは$f_X(k)$が$m.g.f$の$k$階微分と等しくなる」ということがいえます。これは後に述べる$m.g.f$においてもほぼ同じ議論ができます。
文献によっては積率母関数といわれることもあります。$m.g.f$は$p.g.f$において$t=e^θ$とおいたもので、以下のように定義します。
$m.g.f$において$θ \leq0$とおくと、$p.g.f$では$t=e^θ\leq1$になるので両者は等しいことに注意して眺めてみてください。
$M_X(θ)=Ee^{θX}$
$m.g.f$を確率変数の形によって定義すると以下のようになる。
$$
M_X(θ)=
\begin{eqnarray}
\left\{
\begin{array}{1}
\ \sum_{x}e^{θX}P(X=x)
&&&
X-discrete
&&&
\\
\int_{-∞}^{∞} e^{θX}f_X(x)dx
&&&
X-continuous
&&&
\end{array}
\right.
\end{eqnarray}
$$
これは定義1を変えただけなので何ら問題はないように見えるでしょう。ただし、$0$近傍の$θ$に対して期待値が存在する場合に成り立つことに注意してください。つまり期待値が$0$近傍で存在しない場合には、$m.g.f$それ自体が存在しないということを示唆しています。
さて、次の定理がこの記事の要点です。
もし確率変数$X$に$m.g.f$が存在する場合、以下が成り立つ。
$$
EX^n= M^{(n)}_X(0) \\ where \ M^{(n)}_X(0)= \left.\frac{d^n}{dθ^n}M_X(θ)\right|_{θ=0}
$$
この定理は、$n$次モーメントは$t=0$において$m.g.f$の$n$階微分に等しいということを強調しています。言い換えるなら、$m.g.f$の$0$における微分係数が、確率変数$X$の原点まわり$n$次のモーメント$μ_n=EX^n$を表しているということを示唆しています。以下に定理の証明をのせます。
微分と積分が交換可能であるとすれば、
$\frac{d}{dθ}M_X(θ)
\\=\frac{d}{dθ} \int_{-∞}^{∞}e^{θx}f_X(x)dx
\\=\int_{-∞}^{∞} (\frac{d}{dθ}e^{θx})f_X(x)dx
\\=\int_{-∞}^{∞} (xe^{θx})f_X(x)dx
\\=EXe^{θX}$
となる。なお最後の等号においては、LOTUSを用いている。
したがって、
$\left.\frac{d^n}{dθ^n}M_X(θ)\right|_{θ=0}=\left.EX^ne^{θX}\right|_{θ=0}=EX^n$
終わりに、$m.g.f$と$p.g.f$の両方で、二項分布における平均と分散を導出できることを確認しましょう。
$M_X(θ)=(e^θp+1-p)^n\\ EX=\left.\frac{d}{dθ}M_X(θ)\right|_{θ=0}=\left.n(e^θp+1-p)^{n-1}pe^θ\right|_{θ=0}=np\\ EX^2=\left.\frac{d^2}{dθ^2}M_X(θ)\right|_{θ=0}=\left.n(n-1)p(e^θp+1-p)^{n-2}pe^θ\right|_{θ=0}+\left.np(e^θp+1-p)^{n-1}e^t\right|_{θ=0}=n(n-1)p^2+np$
よって$VarX=np(1-p)$
$G_X(t)=(pt+1-p)^n\\ G'(t)=np(1+p(t-1))^{n-1} より G'(1)=EX=np\\ G^{(2)}(t)=np(n-1)(1+p(t-1))^{n-2}p より G^{(2)}(1)=EX(X-1)=n(n-1)p$
よって$VarX=np(1-p)$
※なぜ$t=1$を代入したのか考えてみてください
$m.g.f$はモーメント計算や確率分布を調べる際に有用ですが、その存在範囲に問題があります。ここでは解説しませんでしたが、$ch.f$は常に存在して確率分布を決定づけることから、一般的には$ch.f$を用います。どの累積分布関数(cumulative distribution function,$c.d.f$)にも固有の$ch.f$が存在することが知られています。
$p.g.f$や$m.g.f$を用いれば平均や分散があるような確率分布の計算はできますが、経済学など、歪度や尖度を求めるに際してモーメント計算が必要な分野はあるとしても、医学統計などではあまり見たことがなかったりもするので、使うかどうかは分野次第でしょう。