文献あり

最尤推定量の一致性について

354

はじめに

本記事は最尤推定量の一致性に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.

最尤推定

$(\mathscr{X}, \mathscr{A}, \mu)$を$\sigma$-有限測度空間とします. また, $(\Omega, \mathscr{F}, \mathbb{P})$を確率空間とし, $\{ X_i \}_{i \in \mathbb{N}}$をその上に定義された$\mathscr{X}$-値i.i.d.確率変数列とします. さらに, $\Theta \subset \mathbb{R}^p$を未知パラメータの空間, $\{ f(\,\cdot\,; \boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$を$(\mathscr{X}, \mathscr{A}, \mu)$の上の確率密度関数の族とし, $X_1$は密度$f(\,\cdot\,; \boldsymbol{\theta}_0)$を持つとします (暗黙に, $\boldsymbol{\theta}_0 \in \Theta$であると考えます).

以上の設定の下で$\boldsymbol{\theta}_0$の推定を考えます. 今, $X_1, \ldots, X_n$を$n$個の観測とし, $x_1, \ldots, x_n$をその実現値とします. このとき, $x = (x_1, \ldots, x_n)$を含む$\mathscr{A}$-可測集合$A$を$\mu_n(A)$が十分小であるようにとれば ($\mu_n$は$n$個の$\mu$の直積測度),
\begin{align} \mathbb{P}\big( (X_1, \ldots, X_n) \in A \big) = \int_A \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(dx) \approx \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(A) \end{align}
と表せます. したがって, $X_i = x_i$, $i = 1, \ldots, n$となる確率はほとんど$\prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0)$に依存して決まると考えられ, $\boldsymbol{\theta} \in \Theta$に対して
\begin{align} L_n(X_1, \ldots, X_n, \boldsymbol{\theta}) = \prod_{i=1}^n f(X_i; \boldsymbol{\theta}) \end{align}
とおけば, これは$X_1, \ldots, X_n$が観測されたことに対するパラメータ$\boldsymbol{\theta}$の尤もらしさの度合いを表す量とみなせます. 故に, $x_i = X_i(\omega)$, $i = 1, \ldots, n$が実現したのは, それが$f(\,\cdot\,; \boldsymbol{\theta}_0)$で定まる母集団分布において最も出現しやすい値であったからだと考えれば,
\begin{align} \widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega) = \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;L_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big), \quad \omega \in \Omega \end{align}
で定まる$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は真値$\boldsymbol{\theta}_0$に近いと思うことができるでしょう.

関数$\boldsymbol{\theta} \mapsto L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$は観測$X_1, \ldots, X_n$の尤度と呼ばれ, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は$\boldsymbol{\theta}_0$の最尤推定量と呼ばれます. 最尤推定量は, その数学的な取り扱いやすさから, 対数尤度$\boldsymbol{\theta} \mapsto \log L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$を用いて次のように定義することが多いです.

最尤推定量

$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}: \Omega \to \Theta$が$\boldsymbol{\theta}_0$の最尤推定量であるとは, それが任意の$\omega \in \Omega$に対して
\begin{align} \widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega) = \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\frac{1}{n} \sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big) \end{align}
を満たす$\mathscr{F}/\mathscr{B}(\Theta)$-可測写像であるときにいう.

対数関数の単調性より
\begin{align} \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\prod_{i=1}^n f\big( X_i(\omega); \boldsymbol{\theta} \big) = \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big), \quad \omega \in \Omega \end{align}
となることに注意してください.

本記事では, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$の一致性を証明します.

準備

記法

位相空間$\mathcal{X}$に対して$\mathscr{B}(\mathcal{X})$は$\mathcal{X}$のBorel集合族を表す.
a.s.はalmost surely (ほとんど確実に, 確率1での意) の略.

設定

$(\mathscr{X}, \mathscr{A}, \mu)$は$\sigma$-有限測度空間.
$(\Omega, \mathscr{F}, \mathbb{P})$は確率空間.
$\{ X_i \}_{i \in \mathbb{N}}$は$(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値i.i.d.確率変数列.
$\Theta$は$\mathbb{R}^p$の部分集合 (パラメータ空間).
$\{ f(\,\cdot\,; \boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$は$(\mathscr{X}, \mathscr{A}, \mu)$上の確率密度関数の族 (推測したいパラメトリックモデル).
$\boldsymbol{\theta}_0 \in \Theta$はパラメータの真値. すなわち, $X_1$は密度$f(\,\cdot\,; \boldsymbol{\theta}_0)$を持つ.

最尤推定量の一致性の証明には次の3つの事実を用います.

一様な大数の法則

$q$を$\mathscr{X} \times \Theta$上の実数値関数とする. 次の4つの条件を仮定する.

$\Theta_0$は$\Uptheta$のコンパクト部分集合.
各$\theta \in \Theta$に対して, $\mathscr{X} \ni x \mapsto q(x, \boldsymbol{\theta}) \in \mathbb{R}$は$\mathscr{A}/\mathscr{B}(\mathbb{R})$-可測.
$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto q(X_1(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は連続.
関数$M: \mathscr{X} \to \mathbb{R}_+$で$\mathbb{E}[M(X_1)] < \infty$なるものが存在して, $\sup_{\boldsymbol{\theta} \in \Theta} |q(X_1, \boldsymbol{\theta})| \leq M(X_1)$ a.s.

このとき, 写像$\Theta \ni \boldsymbol{\theta} \mapsto \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \in \mathbb{R}$は連続であり,
\begin{align*} \lim_{n \to \infty} \sup_{\boldsymbol{\theta} \in \Theta} \Bigg| \frac{1}{n} \sum_{i=1}^n q(X_i, \boldsymbol{\theta}) - \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \Bigg| = 0 \quad \text{a.s.} \end{align*}
が成り立つ.

prop:1の証明は記事「一様な大数の法則について」を参照してください.

一致性定理

各$n \in \mathbb{N}$について$Q_n$を$\mathscr{X}^n \times \Theta$上の実数値関数とし, $Q_0$を$\Theta$上の実数値関数とする. 次の5つの条件を仮定する.

各$n \in \mathbb{N}$と各$\boldsymbol{\theta} \in \Theta$に対して, $\Omega \ni \omega \mapsto Q_n(X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は$\mathscr{F}/\mathscr{B}(\mathbb{R})$-可測.
各$n \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto Q_n(X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は連続.
$\Theta$はコンパクト.
任意の$\varepsilon > 0$に対して$\sup_{\boldsymbol{\theta}: \| \boldsymbol{\theta} - \boldsymbol{\theta}_0 \| \geq \varepsilon} Q_0(\boldsymbol{\theta}) < Q_0(\boldsymbol{\theta}_0)$.
$\sup_{\boldsymbol{\theta} \in \Theta} |Q_n(X_1, \ldots, X_n, \boldsymbol{\theta}) - Q_0(\boldsymbol{\theta})| \to 0$ a.s.

このとき, 次の3つが成り立つ.

各$n \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して
\begin{align} Q_n\big( X_1(\omega), \ldots, X_n(\omega), \widehat{\boldsymbol{\theta}}_n(\omega) \big) = \max_{\boldsymbol{\theta} \in \Theta} Q_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big) \end{align}
を満たすような$\mathscr{F}/\mathscr{B}(\Uptheta)$-可測写像$\widehat{\boldsymbol{\theta}}_n: \Omega \to \Theta$が存在する.
$Q_0: \Theta \to \mathbb{R}$は連続.
$\widehat{\boldsymbol{\theta}}_n$は強一致推定量である. すなわち, $\widehat{\boldsymbol{\theta}}_n \to \boldsymbol{\theta}_0$ a.s.が成り立つ.

prop:2の証明は記事「 M-推定量の一致性について」を参照してください.

次の補題は, 最尤推定の場合, $\boldsymbol{\theta}_0$の識別可能性という弱い条件の下で期待対数尤度の最大点が一意に定まることを意味します.

情報量不等式

次の2つの条件を仮定する.

任意の$\boldsymbol{\theta} \in \Theta$に対して, $\boldsymbol{\theta} \neq \boldsymbol{\theta}_0$ならば, $\mathbb{P}(f(X_1; \boldsymbol{\theta}) \neq f(X_1; \boldsymbol{\theta}_0)) > 0$.
$\mathbb{E}[\sup_{\widetilde{\boldsymbol{\theta}} \in \Theta} |\log f(X_1; \widetilde{\boldsymbol{\theta}})|] < \infty$.

このとき, 写像$\boldsymbol{\theta} \mapsto \mathbb{E}[\log f(X_1; \boldsymbol{\theta})]$は$\boldsymbol{\theta}_0$において最大となり, 他の最大点を持たない.

$x > 0$に対して不等式$\log x \leq x - 1$が成り立つことに注意すると, 任意の$\boldsymbol{\theta} \in \Theta$に対して
\begin{align*} \mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}_0) \big] - \mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}) \big] &= \mathbb{E}\bigg[ -\log\frac{f(X_1; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta}_0)} \bigg] \\[3pt] &\geq \mathbb{E}\bigg[ 1 - \frac{f(X_1; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta}_0)} \bigg] \\[3pt] &= 1 - \int_{\mathscr{X}} \frac{f(x; \boldsymbol{\theta})}{f(x; \boldsymbol{\theta}_0)} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[3pt] &= 1 - \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) \\[3pt] &= 0. \end{align*}
第2行における等号は$f(X_1; \boldsymbol{\theta}) = f(X_1; \boldsymbol{\theta}_0)$ a.s., すなわち, $\boldsymbol{\theta} = \boldsymbol{\theta}_0$のときに限る. (証明終)

最尤推定量の一致性

以上の準備の下で, 最尤推定量の一致性は次で与えられます.

最尤推定量の一致性

次の4つの条件を仮定する.

任意の$\boldsymbol{\theta} \in \Theta$に対して, $\boldsymbol{\theta} \neq \boldsymbol{\theta}_0$ならば, $\mathbb{P}(f(X_1; \boldsymbol{\theta}) \neq f(X_1; \boldsymbol{\theta}_0)) > 0$.
$\Theta$はコンパクト.
各$i \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto \log f(X_i(\omega); \boldsymbol{\theta}) \in \mathbb{R}$は連続.
$\mathbb{E}[\sup_{\widetilde{\boldsymbol{\theta}} \in \Theta} |\log f(X_1; \widetilde{\boldsymbol{\theta}})|] < \infty$.

このとき, 次の3つが成り立つ.

各$n \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$が存在する.
写像$\Theta \ni \boldsymbol{\theta} \mapsto \mathbb{E}[\log f(X_1; \boldsymbol{\theta})] \in \mathbb{R}$は連続.
$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は強一致推定量である. すなわち, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}} \to \boldsymbol{\theta}_0$ a.s.が成り立つ.

定理を証明するには,
\begin{align*} Q_n(X_1, \ldots, X_n, \boldsymbol{\theta}) = \frac{1}{n} \sum_{i=1}^n \log f(X_i; \boldsymbol{\theta}), \quad Q_0(\boldsymbol{\theta}) = \mathbb{E}\big[ \log f(X_1; \boldsymbol{\theta}) \big] \end{align*}
に対してprop:2の仮定[4], [5]が成り立つことを確認すればよい. thm:4の仮定[1], [4]よりがlem:3が適用できて, prop:2の仮定[4]が成り立つ. thm:4の仮定[2], [3], [4]よりprop:1が適用できて, prop:2の仮定[5]が成り立つ. (証明終)