$$$$
はじめに
本記事は最尤推定量の漸近正規性に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.
最尤推定
$(\mathscr{X}, \mathscr{A}, \mu)$を$\sigma$-有限測度空間とします. また, $(\Omega, \mathscr{F}, \mathbb{P})$を確率空間とし, $\{ X_i \}_{i \in \mathbb{N}}$をその上に定義された$\mathscr{X}$-値i.i.d.確率変数列とします. さらに, $\Theta \subset \mathbb{R}^p$を未知パラメータの空間, $\{ f(\,\cdot\,; \boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$を$(\mathscr{X}, \mathscr{A}, \mu)$の上の確率密度関数の族とし, $X_1$は密度$f(\,\cdot\,; \boldsymbol{\theta}_0)$を持つとします (暗黙に, $\boldsymbol{\theta}_0 \in \Theta$であると考えます).
以上の設定の下で$\boldsymbol{\theta}_0$の推定を考えます. 今, $X_1, \ldots, X_n$を$n$個の観測とし, $x_1, \ldots, x_n$をその実現値とします. このとき, $x = (x_1, \ldots, x_n)$を含む$\mathscr{A}$-可測集合$A$を$\mu_n(A)$が十分小であるようにとれば ($\mu_n$は$n$個の$\mu$の直積測度),
\begin{align}
\mathbb{P}\big( (X_1, \ldots, X_n) \in A \big)
= \int_A \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(dx)
\approx \prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0) \mu_n(A)
\end{align}
と表せます. したがって, $X_i = x_i$, $i = 1, \ldots, n$となる確率はほとんど$\prod_{i=1}^n f(x_i; \boldsymbol{\theta}_0)$に依存して決まると考えられ, $\boldsymbol{\theta} \in \Theta$に対して
\begin{align}
L_n(X_1, \ldots, X_n, \boldsymbol{\theta})
= \prod_{i=1}^n f(X_i; \boldsymbol{\theta})
\end{align}
とおけば, これは$X_1, \ldots, X_n$が観測されたことに対するパラメータ$\boldsymbol{\theta}$の尤もらしさの度合いを表す量とみなせます. 故に, $x_i = X_i(\omega)$, $i = 1, \ldots, n$が実現したのは, それが$f(\,\cdot\,; \boldsymbol{\theta}_0)$で定まる母集団分布において最も出現しやすい値であったからだと考えれば,
\begin{align}
\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;L_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big), \quad \omega \in \Omega
\end{align}
で定まる$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は真値$\boldsymbol{\theta}_0$に近いと思うことができるでしょう.
関数$\boldsymbol{\theta} \mapsto L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$は観測$X_1, \ldots, X_n$の尤度と呼ばれ, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は$\boldsymbol{\theta}_0$の最尤推定量と呼ばれます. 最尤推定量は, その数学的な取り扱いやすさから, 対数尤度$\boldsymbol{\theta} \mapsto \log L_n(X_1, \ldots, X_n, \boldsymbol{\theta})$を用いて次のように定義することが多いです.
最尤推定量
$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}: \Omega \to \Theta$が$\boldsymbol{\theta}_0$の最尤推定量であるとは, それが任意の$\omega \in \Omega$に対して
\begin{align}
\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}(\omega)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\frac{1}{n} \sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big)
\end{align}
を満たす$\mathscr{F}/\mathscr{B}(\Theta)$-可測写像であるときにいう.
対数関数の単調性より
\begin{align}
\underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\prod_{i=1}^n f\big( X_i(\omega); \boldsymbol{\theta} \big)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;\sum_{i=1}^n \log f\big( X_i(\omega); \boldsymbol{\theta} \big), \quad \omega \in \Omega
\end{align}
となることに注意してください.
本記事では, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$の漸近正規性を証明します.
準備
記法
- 位相空間$\mathcal{X}$に対して$\mathscr{B}(\mathcal{X})$は$\mathcal{X}$のBorel集合族を表す.
- $\mathbb{B}(\boldsymbol{\theta}, \rho)$は中心$\boldsymbol{\theta}$, 半径$\rho$の開球を表す. すなわち, $\mathbb{B}(\boldsymbol{\theta}, \rho) = \{ \widetilde{\boldsymbol{\theta}} \in \Theta\,|\,\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \| < \rho \}$.
- 行列$\boldsymbol{\mathrm{A}}$に対して$\boldsymbol{\mathrm{A}}^\prime$はその転置を表す.
- $\| \cdot \|$はFrobeniusノルムを表す. すなわち, 行列$\boldsymbol{\mathrm{A}}$に対して$\| \boldsymbol{\mathrm{A}} \| = \sqrt{\text{tr}(\boldsymbol{\mathrm{A}}^\prime \boldsymbol{\mathrm{A}})}$.
- $\nabla_{\boldsymbol{\theta}}^\prime = [\partial/\partial\theta_1, \ldots, \partial/\partial\theta_p]$とする. 例えば, $f: \mathbb{R}^p \to \mathbb{R}$に対して
\begin{align}
\nabla_{\boldsymbol{\theta}} f(\boldsymbol{\theta})
= \bigg[ \frac{\partial f(\boldsymbol{\theta})}{\partial \theta_i} \bigg]_{p \times 1}, \quad
\nabla_{\boldsymbol{\theta}}^2 f(\boldsymbol{\theta})
= \bigg[ \frac{\partial f(\boldsymbol{\theta})}{\partial \theta_i \partial \theta_j} \bigg]_{p \times p}.
\end{align} - $\mathcal{N}_p(\boldsymbol{0}, \boldsymbol{\Sigma})$は平均ベクトル$\boldsymbol{0}$, 分散共分散行列$\boldsymbol{\Sigma}$の$p$変量正規分布を表す.
- $\to^d$は確率変数列の分布収束を表す.
- a.s.はalmost surely (ほとんど確実に, 確率1での意) の略. また, a.e.はalmost everywhere (ほとんどいたる所の意) の略.
設定
- $(\mathscr{X}, \mathscr{A}, \mu)$は$\sigma$-有限測度空間.
- $(\Omega, \mathscr{F}, \mathbb{P})$は確率空間.
- $\{ X_i \}_{i \in \mathbb{N}}$は$(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値i.i.d.確率変数列.
- $\Theta$は$\mathbb{R}^p$の部分集合 (パラメータ空間).
- $\{ f(\,\cdot\,; \boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$は$(\mathscr{X}, \mathscr{A}, \mu)$上の確率密度関数の族 (推測したいパラメトリックモデル).
- $\boldsymbol{\theta}_0 \in \Theta$はパラメータの真値. すなわち, $X_1$は密度$f(\,\cdot\,; \boldsymbol{\theta}_0)$を持つ.
最尤推定量の漸近正規性の証明には次の4つの事実を用います.
一様な大数の法則
$q$を$\mathscr{X} \times \Theta$上の実数値関数とする. 次の4つの条件を仮定する.
- $\Theta_0$は$\Uptheta$のコンパクト部分集合.
- 各$\theta \in \Theta$に対して, $\mathscr{X} \ni x \mapsto q(x, \boldsymbol{\theta}) \in \mathbb{R}$は$\mathscr{A}/\mathscr{B}(\mathbb{R})$-可測.
- $\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto q(X_1(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は連続.
- 関数$M: \mathscr{X} \to \mathbb{R}_+$で$\mathbb{E}[M(X_1)] < \infty$なるものが存在して, $\sup_{\boldsymbol{\theta} \in \Theta} |q(X_1, \boldsymbol{\theta})| \leq M(X_1)$ a.s.
このとき, 写像$\Theta \ni \boldsymbol{\theta} \mapsto \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \in \mathbb{R}$は連続であり,
\begin{align*}
\lim_{n \to \infty} \sup_{\boldsymbol{\theta} \in \Theta} \Bigg| \frac{1}{n} \sum_{i=1}^n q(X_i, \boldsymbol{\theta}) - \mathbb{E}\big[ q(X_1, \boldsymbol{\theta}) \big] \Bigg|
= 0 \quad \text{a.s.}
\end{align*}
が成り立つ.
prop:1の証明は記事「
一様な大数の法則について
」を参照してください.
最尤推定量の一致性
次の4つの条件を仮定する.
- 任意の$\boldsymbol{\theta} \in \Theta$に対して, $\boldsymbol{\theta} \neq \boldsymbol{\theta}_0$ならば, $\mathbb{P}(f(X_1; \boldsymbol{\theta}) \neq f(X_1; \boldsymbol{\theta}_0)) > 0$.
- $\Theta$はコンパクト.
- 各$i \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto \log f(X_i(\omega); \boldsymbol{\theta}) \in \mathbb{R}$は連続.
- $\mathbb{E}[\sup_{\widetilde{\boldsymbol{\theta}} \in \Theta} |\log f(X_1; \widetilde{\boldsymbol{\theta}})|] < \infty$.
このとき, 次の3つが成り立つ.
- 各$n \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$が存在する.
- 写像$\Theta \ni \boldsymbol{\theta} \mapsto \mathbb{E}[\log f(X_1; \boldsymbol{\theta})] \in \mathbb{R}$は連続.
- $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$は 強一致推定量である. すなわち, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}} \to \boldsymbol{\theta}_0$ a.s.が成り立つ.
prop:2の証明は記事「
最尤推定量の一致性について
」を参照してください.
情報量等式
次の4つの条件を仮定する.
- $\Theta$は開集合.
- $\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto f(X_1(\omega); \boldsymbol{\theta}) \in \mathbb{R}$は$C^2$級.
- $\mu\text{-a.e.}x \in \mathscr{X}$と各$\boldsymbol{\theta} \in \mathscr{N}$に対して, $f(x; \boldsymbol{\theta}) > 0$.
- $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}} f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$, $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$.
このとき,
\begin{align*}
&\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X_1; \boldsymbol{\theta}_0) \big]
= \boldsymbol{0}, \\[5pt]
&\mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X_1; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X_1; \boldsymbol{\theta}_0) \big) \big] + \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X_1; \boldsymbol{\theta}_0) \big]
= \boldsymbol{\mathrm{O}}
\end{align*}
が成り立つ.
prop:3の証明は記事「
情報量等式の証明
」を参照してください.
M-推定量の漸近正規性
各$n \in \mathbb{N}$について$Q_n$を$\mathscr{X}^n \times \Theta$上の実数値関数とする. 次の5つの条件を仮定する.
- $\Theta$はコンパクトである. また, 開集合$\mathscr{N}$が存在して, $\boldsymbol{\theta}_0 \in \mathscr{N} \subset \Theta$.
- 各$n \in \mathbb{N}$について, 任意に$\boldsymbol{\theta} \in \Theta$を固定するとき, $\Omega \ni \omega \mapsto Q_n(X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は$\mathscr{F}/\mathscr{B}(\mathbb{R})$-可測.
- 各$n \in \mathbb{N}$について, 任意に$\omega \in \Omega$を固定するとき, $\Theta \ni \boldsymbol{\theta} \mapsto Q_n(X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は連続. また, $\mathscr{N} \ni \boldsymbol{\theta} \mapsto Q_n(X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta}) \in \mathbb{R}$は$C^2$級.
- $p$次正定値行列$\boldsymbol{\Sigma}$が存在して, $\sqrt{n} \nabla_{\boldsymbol{\theta}}^2 Q_n(X_1, \ldots, X_n, \boldsymbol{\theta}_0) \to^d \mathcal{N}_p(\boldsymbol{0}, \boldsymbol{\Sigma})$.
- $\boldsymbol{\theta}_0$において連続な写像$\boldsymbol{\mathrm{H}}: \mathscr{N} \to \mathbb{R}^{p \times p}$が存在して, $\sup_{\boldsymbol{\theta} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 Q_n(X_1, \ldots, X_n, \boldsymbol{\theta}) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}) \| \to^p 0$であり, 行列$\boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)$は正則.
このとき, 次の2つが成り立つ.
- 各$n \in \mathbb{N}$について, 任意の固定された$\omega \in \Omega$に対して
\begin{align}
Q_n\big( X_1(\omega), \ldots, X_n(\omega), \widehat{\boldsymbol{\theta}}_n(\omega) \big)
= \max_{\boldsymbol{\theta} \in \Theta} Q_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big)
\end{align}
を満たすような$\mathscr{F}/\mathscr{B}(\Theta)$-可測写像$\widehat{\boldsymbol{\theta}}_n: \Omega \to \Theta$が存在する. - $\widehat{\boldsymbol{\theta}}_n \to^p \boldsymbol{\theta}_0$ならば,
\begin{align}
\sqrt{n}(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0)
\to^d \mathcal{N}_p\big( \boldsymbol{0}, \boldsymbol{\mathrm{H}}^{-1}(\boldsymbol{\theta}_0) \boldsymbol{\Sigma} \boldsymbol{\mathrm{H}}^{-1}(\boldsymbol{\theta}_0) \big)
\end{align}
が成り立つ.
prop:4の証明は記事「
M-推定量の漸近正規性について
」を参照してください.
最尤推定量の漸近正規性
最尤推定量の漸近正規性
次の7つの条件を仮定する.
- 任意の$\boldsymbol{\theta} \in \Theta$に対して, $\boldsymbol{\theta} \neq \boldsymbol{\theta}_0$ならば, $\mathbb{P}(f(X_1; \boldsymbol{\theta}) \neq f(X_1; \boldsymbol{\theta}_0)) > 0$.
- $\Theta$はコンパクトであり, 開集合$\mathscr{N}$が存在して, $\boldsymbol{\theta}_0 \in \mathscr{N} \subset \Theta$.
- 各$i \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto f(X_i(\omega); \boldsymbol{\theta}) \in \mathbb{R}$は連続. また, $\mathscr{N} \ni \boldsymbol{\theta} \mapsto f(X_i(\omega); \boldsymbol{\theta}) \in \mathbb{R}$は$C^2$級.
- $\mu$-a.e.$x \in \mathscr{X}$と各$\boldsymbol{\theta} \in \mathscr{N}$に対して, $f(x; \boldsymbol{\theta}) > 0$.
- $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}} f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$, $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$.
- $\mathbb{E}[\sup_{\widetilde{\boldsymbol{\theta}} \in \Theta} |\log f(X_1; \widetilde{\boldsymbol{\theta}})|] < \infty$, $\mathbb{E}[\sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 \log f(X_1; \widetilde{\boldsymbol{\theta}}) \|] < \infty$.
- 行列$\boldsymbol{\mathrm{J}} = \mathbb{E}[(\nabla_{\boldsymbol{\theta}} \log f(X_1; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X_1; \boldsymbol{\theta}_0))]$は正則.
このとき, 各$n \in \mathbb{N}$と$\mathbb{P}$-a.s.$\omega \in \Omega$に対して, 最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$が存在して,
\begin{align*}
\sqrt{n}(\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}} - \boldsymbol{\theta}_0)
\to^d \mathcal{N}_p\big( \boldsymbol{0}, \boldsymbol{\mathrm{J}}^{-1} \big)
\end{align*}
が成り立つ.
thm:5の仮定[1], [2], [3], [6]よりprop:2が適用できて, $\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}} \to \boldsymbol{\theta}_0$ a.s.が成り立つことに注意すると, 定理を証明するには,
\begin{align*}
Q_n(X_1, \ldots, X_n, \boldsymbol{\theta})
= \frac{1}{n} \sum_{i=1}^n \log f(X_i; \boldsymbol{\theta})
\end{align*}
に対してprop:4の仮定[4], [5]が成り立つことを確認すればよい.
まず, thm:5の仮定[2], [3], [4], [5]よりprop:3が適用できて,
\begin{align*}
\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X_1; \boldsymbol{\theta}_0) \big]
= \boldsymbol{0}, \quad
\boldsymbol{\mathrm{J}}
= -\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X_1; \boldsymbol{\theta}_0) \big]
\end{align*}
が成り立つことに注意する.
次に, i.i.d.確率変数列に対する中心極限定理より
\begin{align*}
\frac{1}{\sqrt{n}} \sum_{i=1}^n \log f(X_i; \boldsymbol{\theta}_0)
\to^d \mathcal{N}_p(\boldsymbol{0}, \boldsymbol{\mathrm{J}})
\end{align*}
となるから, prop:4の仮定[4]が成り立つ.
最後に, prop:4の仮定[5]を示す. $r > 0$を十分小さくとることにより$\mathscr{N}_0 = \text{cl}(\mathbb{B}(\boldsymbol{\theta}_0, r)) \subset \mathscr{N}$とできる. thm:5の仮定[2], [3], [4], [6]よりprop:1が適用できて, 写像$\boldsymbol{\theta} \mapsto \mathbb{E}[\nabla_{\boldsymbol{\theta}}^2 \log f(X_1; \boldsymbol{\theta})]$は連続であり,
\begin{align*}
\sup_{\boldsymbol{\theta} \in \mathscr{N}_0} \Bigg\| \frac{1}{n} \sum_{i=1}^n \nabla_{\boldsymbol{\theta}}^2 \log f(X_i; \boldsymbol{\theta}) - \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X_1; \boldsymbol{\theta}) \big] \Bigg\|
\to 0 \quad \text{a.s.}
\end{align*}
となるから, prop:4の仮定[5]が成り立つ.
以上から, prop:4の結論より
\begin{align*}
\sqrt{n}(\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}} - \boldsymbol{\theta}_0)
\to^d \mathcal{N}_p\big( \boldsymbol{0}, (-\boldsymbol{\mathrm{J}})^{-1} \boldsymbol{\mathrm{J}} (-\boldsymbol{\mathrm{J}})^{-1} \big)
= \mathcal{N}_p\big( \boldsymbol{0}, \boldsymbol{\mathrm{J}}^{-1} \big)
\end{align*}
を得る.
最尤推定量$\widehat{\boldsymbol{\theta}}_n^{\,\text{ML}}$の漸近分散に登場する$\boldsymbol{\mathrm{J}}$はFisher情報行列と呼ばれます. 推定量のクラスを適当に制限するとき, 漸近分散の下限がFisher情報行列の逆行列で与えられることは有名な事実であり, この意味で最尤推定量は漸近有効推定量です.