本記事は最尤推定量の一致性に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.
$(\mathscr{X}, \mathscr{A}, \mu)$を$\sigma$-有限測度空間とします. また, $(\Omega, \mathscr{F}, \mathbb{P})$を確率空間とし, $\{ X_i \}_{i \in \mathbb{N}}$をその上に定義された$\mathscr{X}$-値i.i.d.確率変数列とします. さらに, $\Theta \subset \mathbb{R}^p$を未知パラメータの空間, $\{ f(\,\cdot\,; \boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$を$(\mathscr{X}, \mathscr{A}, \mu)$の上の確率密度関数の族とし, $X_1$は密度$f(\,\cdot\,; \boldsymbol{\theta}_0)$を持つとします (暗黙に, $\boldsymbol{\theta}_0 \in \Theta$であると考えます).
以上の設定の下で$\boldsymbol{\theta}_0$の推定を考えます. 今, $X_1, \ldots, X_n$を$n$個の観測とし, $x_1, \ldots, x_n$をその実現値とします. このとき, $x = (x_1, \ldots, x_n)$を含む$\mathscr{A}$-可測集合$A$を$\mu_n(A)$が十分小であるようにとれば ($\mu_n$は$n$個の$\mu$の直積測度),
\begin{align}
\mathbb{P}\big( (X_1, \ldots, X_n) \in A \big)
= \int_A \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(dx)
\approx \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(A)
\end{align}
と表せます. したがって, $X_i = x_i$, $i = 1, \ldots, n$となる確率はほとんど$\prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0)$に依存して決まると考えられ, $\boldsymbol{\theta} \in \Theta$に対して
\begin{align}
L_n(X_1, \ldots, X_n, \boldsymbol{\theta})
= \prod_{i=1}^n f(X_i; \boldsymbol{\theta})
\end{align}
とおけば, これは$X_1, \ldots, X_n$が観測されたことに対するパラメータ$\boldsymbol{\theta}$の尤もらしさの度合いを表す量とみなせます. 故に, $x_i = X_i(\omega)$, $i = 1, \ldots, n$が実現したのは, それが$f(\,\cdot\,; \boldsymbol{\theta}_0)$で定まる母集団分布において最も出現しやすい値であったからだと考えれば,
\begin{align}
\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;L_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big), \quad \omega \in \Omega
\end{align}
で定まる$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は真値$\boldsymbol{\theta}_0$に近いと思うことができるでしょう.
関数$\boldsymbol{\theta} \mapsto L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$は観測$X_1, \ldots, X_n$の尤度と呼ばれ, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は$\boldsymbol{\theta}_0$の最尤推定量と呼ばれます. 最尤推定量は, その数学的な取り扱いやすさから, 対数尤度$\boldsymbol{\theta} \mapsto \log L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$を用いて次のように定義することが多いです.
$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}: \Omega \to \Theta$が$\boldsymbol{\theta}_0$の最尤推定量であるとは, それが任意の$\omega \in \Omega$に対して
\begin{align}
\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\frac{1}{n} \sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big)
\end{align}
を満たす$\mathscr{F}/\mathscr{B}(\Theta)$-可測写像であるときにいう.
対数関数の単調性より
\begin{align}
\underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\prod_{i=1}^n f\big( X_i(\omega); \boldsymbol{\theta} \big)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big), \quad \omega \in \Omega
\end{align}
となることに注意してください.
本記事では, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$の一致性を証明します.
最尤推定量の一致性の証明には次の3つの事実を用います.
$q$を$\mathscr{X} \times \Theta$上の実数値関数とする. 次の4つの条件を仮定する.
このとき, 写像$\Theta \ni \boldsymbol{\theta} \mapsto \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \in \mathbb{R}$は連続であり,
\begin{align*}
\lim_{n \to \infty} \sup_{\boldsymbol{\theta} \in \Theta} \Bigg| \frac{1}{n} \sum_{i=1}^n q(X_i, \boldsymbol{\theta}) - \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \Bigg|
= 0 \quad \text{a.s.}
\end{align*}
が成り立つ.
prop:1の証明は記事「 一様な大数の法則について 」を参照してください.
各$n \in \mathbb{N}$について$Q_n$を$\mathscr{X}^n \times \Theta$上の実数値関数とし, $Q_0$を$\Theta$上の実数値関数とする. 次の5つの条件を仮定する.
このとき, 次の3つが成り立つ.
prop:2の証明は記事「 M-推定量の一致性について 」を参照してください.
次の補題は, 最尤推定の場合, $\boldsymbol{\theta}_0$の識別可能性という弱い条件の下で期待対数尤度の最大点が一意に定まることを意味します.
次の2つの条件を仮定する.
このとき, 写像$\boldsymbol{\theta} \mapsto \mathbb{E}[\log f(X_1; \boldsymbol{\theta})]$は$\boldsymbol{\theta}_0$において最大となり, 他の最大点を持たない.
$x > 0$に対して不等式$\log x \leq x - 1$が成り立つことに注意すると, 任意の$\boldsymbol{\theta} \in \Theta$に対して
\begin{align*}
\mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}_0) \big] - \mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}) \big]
&= \mathbb{E}\bigg[ -\log\frac{f(X_1; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta}_0)} \bigg] \\[3pt]
&\geq \mathbb{E}\bigg[ 1 - \frac{f(X_1; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta}_0)} \bigg] \\[3pt]
&= 1 - \int_{\mathscr{X}} \frac{f(x; \boldsymbol{\theta})}{f(x; \boldsymbol{\theta}_0)} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[3pt]
&= 1 - \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) \\[3pt]
&= 0.
\end{align*}
第2行における等号は$f(X_1; \boldsymbol{\theta}) = f(X_1; \boldsymbol{\theta}_0)$ a.s., すなわち, $\boldsymbol{\theta} = \boldsymbol{\theta}_0$のときに限る. (証明終)
以上の準備の下で, 最尤推定量の一致性は次で与えられます.
次の4つの条件を仮定する.
このとき, 次の3つが成り立つ.
定理を証明するには,
\begin{align*}
Q_n(X_1, \ldots, X_n, \boldsymbol{\theta})
= \frac{1}{n} \sum_{i=1}^n \log f(X_i; \boldsymbol{\theta}), \quad
Q_0(\boldsymbol{\theta})
= \mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}) \big]
\end{align*}
に対してprop:2の仮定[4], [5]が成り立つことを確認すればよい. thm:4の仮定[1], [4]よりがlem:3が適用できて, prop:2の仮定[4]が成り立つ. thm:4の仮定[2], [3], [4]よりprop:1が適用できて, prop:2の仮定[5]が成り立つ. (証明終)