本記事はM-推定量の漸近正規性に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.
$\{ X_i \}_{i \in \mathbb{N}}$を確率空間$(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値確率変数列とします. また, $\Theta$を未知パラメータの空間とし, パラメータの真値$\boldsymbol{\theta}_0$の推定を考えます.
$\{ Q_n \}_{n \in \mathbb{N}}$を$\mathscr{X}^n \times \Theta$上の実数値関数列とします. $X_1, \ldots, X_n$を$n$個の観測とするとき, $\widehat{\boldsymbol{\theta}}_n: \Omega \to \Theta$が$\boldsymbol{\theta}_0$のM-推定量であるとは, それが
\begin{align}
\widehat{\boldsymbol{\theta}}_n(\omega)
= \underset{\boldsymbol{\theta} \in \Theta}{\text{argmax}}\;Q_n\big( X_1(\omega), \ldots, X_n(\omega), \boldsymbol{\theta} \big), \quad \omega \in \Omega
\end{align}
を満たす$\mathscr{F}/\mathscr{B}(\mathbb{R})$-可測写像であるときに言います.
M-推定の"M"は"Maximum likelihood like"を意味し, その名の通りM-推定は最尤推定の一般化です. M-推定を念頭に置く際, $\{ Q_n \}$は真値$\boldsymbol{\theta}_0$を唯一の最小点に持つ関数$Q_0: \Theta \to \mathbb{R}$に (各点で) 確率収束する量であり, この意味で$Q_n$の最大点$\widehat{\boldsymbol{\theta}}_n$は真値$\boldsymbol{\theta}_0$に十分近いと考えるのがM-推定の思想です.$Q_n, Q_0$はそれぞれ最尤推定の枠組みにおける対数尤度, 期待対数尤度に相当します.
本記事では, M-推定量$\widehat{\boldsymbol{\theta}}_n$の漸近正規性を証明します.
次の命題は大前提となるM-推定量$\widehat{\boldsymbol{\theta}}_n$の存在を保証するのに必要です.
$Q$を$\Omega \times \Uptheta$上の実数値関数とする. 次の3つの条件を仮定する.
このとき, $\mathscr{F}/\mathscr{B}(\Theta)$-可測写像$\widehat{\boldsymbol{\theta}}: \Omega \to \Theta$が存在して, 任意の$\omega \in \Omega$に対して,
\begin{align*}
Q\big( \omega, \widehat{\boldsymbol{\theta}}(\omega) \big)
= \max_{\boldsymbol{\theta} \in \Theta} Q(\omega, \boldsymbol{\theta})
\end{align*}
が成り立つ.
prop:1の証明は記事「 M-推定量の可測性について 」を参照してください.
次の命題は確率変数列の確率収束を概収束として扱うテクニックとして有名です.
$\mathbb{R}^d$-値確率変数列$\{ \boldsymbol{\xi}_n \}$と$\mathbb{R}^d$-値確率変数$\boldsymbol{\xi}$に対して, 次の3つの条件は同値である.
次の5つの条件を仮定する.
このとき, 次の2つが成り立つ.
(ii)の証明はNewey and McFaddenpaper2のTheorem 3.1および清水book3の補題3.1.23を参考にしています.
仮定[1] - [3]よりprop:1 (可測選択定理) が適用できて, (i)が成り立つ.
$\widehat{\boldsymbol{\theta}}_n \to^p \boldsymbol{\theta}_0$を仮定する. 今, 十分小さい$r > 0$が存在して, $\mathscr{N}_0 = \mathbb{B}(\boldsymbol{\theta}_0, r) \subset \mathscr{N}$となる. 以降$X_1, \ldots, X_n$を省略し, $Q_n(\boldsymbol{\theta}) = Q_n(X_1, \ldots, X_n, \boldsymbol{\theta})$と書く. 任意に$\omega \in \Omega$を固定するとき, (i)より
\begin{align*}
\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \nabla_{\boldsymbol{\theta}} Q_n(\widehat{\boldsymbol{\theta}}_n)
= \boldsymbol{0}
\end{align*}
となり, この左辺に平均値の定理を適用することにより
\begin{align}
&\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \nabla_{\boldsymbol{\theta}} Q_n(\boldsymbol{\theta}_0) + \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \bigg\{ \int_0^1 \nabla_{\boldsymbol{\theta}}^2 Q_n\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) du \bigg\} (\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0)
= \boldsymbol{0}
\end{align}
となる ($\mathscr{N}_0$の凸性より上の積分は意味を持つ). 今,
\begin{align*}
\boldsymbol{\mathrm{H}}_n
&= \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \int_0^1 \nabla_{\boldsymbol{\theta}}^2 Q_n\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) du
=
\begin{cases}
\displaystyle\int_0^1 \nabla_{\boldsymbol{\theta}}^2 Q_n\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) du, & \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \\[2pt]
\boldsymbol{\mathrm{O}}, & \widehat{\boldsymbol{\theta}}_n \notin \mathscr{N}_0
\end{cases}
\end{align*}
とおき, 先ほどの両辺に$\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \sqrt{n}$を掛けて整理することにより
\begin{align}
\sqrt{n} (\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0)
= -\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \boldsymbol{\mathrm{H}}_n^{-1} \cdot \sqrt{n} \nabla_{\boldsymbol{\theta}} Q_n(\boldsymbol{\theta}_0) + \Big( 1 - \boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \Big) \cdot \sqrt{n} (\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0)
\end{align}
を得る ($\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \} \subset \{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}$に注意する). したがって,
\begin{align}
&\boldsymbol{\mathrm{H}}_n
\to^p \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0), \\[3pt]
&\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}}
\to^p 1
\end{align}
が成り立つならば, この右辺第1項は仮定[4]より
\begin{align*}
-\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \boldsymbol{\mathrm{H}}_n^{-1} \cdot \sqrt{n} \nabla_{\boldsymbol{\theta}} Q_n(\boldsymbol{\theta}_0)
\to^d -\boldsymbol{\mathrm{H}}^{-1}(\boldsymbol{\theta}_0) \mathcal{N}_p\big( \boldsymbol{0}, \boldsymbol{\Sigma} \big)
= \mathcal{N}_p\big( \boldsymbol{0}, \boldsymbol{\mathrm{H}}^{-1}(\boldsymbol{\theta}_0) \boldsymbol{\Sigma} \boldsymbol{\mathrm{H}}^{-1}(\boldsymbol{\theta}_0) \big)
\end{align*}
となり, 右辺第2項は
\begin{align*}
\mathbb{P}\Big( \Big| \Big( 1 - \boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \Big) \cdot \sqrt{n} (\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \Big| \neq 0 \Big)
\leq \mathbb{P}\Big( \boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} = 0 \Big)
\to 0
\end{align*}
より
\begin{align*}
\Big( 1 - \boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \Big) \cdot \sqrt{n} (\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0)
\to^p 0
\end{align*}
となるから, 結論が得られる.
$\boldsymbol{\mathrm{H}}_n \to^p \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)$を示す. 仮定$\widehat{\boldsymbol{\theta}}_n \to^p \boldsymbol{\theta}_0$より
\begin{align}
\mathbb{E}\big[ \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \notin \mathscr{N}_0 \}} \big]
= \mathbb{P}(\widehat{\boldsymbol{\theta}}_n \notin \mathscr{N}_0)
= \mathbb{P}(\| \widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0 \| \geq r)
\to 0
\end{align}
となるから, prop:2より$\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \to^p 1$となることに注意する.
さて, $\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \to^p 1$と$\sup_{\boldsymbol{\theta} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 Q_n(\boldsymbol{\theta}) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}) \| \to^p 0$ (仮定[5]) より
\begin{align*}
\big\| \boldsymbol{\mathrm{H}}_n - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\|
&\leq \big\| \boldsymbol{\mathrm{H}}_n - \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| + \big( 1 - \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \big) \big\| \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| \\[5pt]
&\leq \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \int_0^1 \big\| \nabla_{\boldsymbol{\theta}}^2 Q_n\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| du + o_p(1) \\[5pt]
&\leq \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \int_0^1 \big\| \nabla_{\boldsymbol{\theta}}^2 Q_n\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) \big\| du \\[3pt]
&\qquad+ \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \int_0^1 \big\| \boldsymbol{\mathrm{H}}\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| du + o_p(1) \\[5pt]
&\leq \sup_{\boldsymbol{\theta} \in \mathscr{N}} \big\| \nabla_{\boldsymbol{\theta}}^2 Q_n(\boldsymbol{\theta}) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}) \big\| + \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \sup_{u \in [0, 1]} \big\| \boldsymbol{\mathrm{H}}\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| + o_p(1) \\[5pt]
&= \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \sup_{u \in [0, 1]} \big\| \boldsymbol{\mathrm{H}}\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\| + o_p(1)
\end{align*}
となる. 任意に$u \in [0, 1]$を固定するとき, $\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \to^p 1$と$\boldsymbol{\mathrm{H}}$の$\boldsymbol{\theta}_0$における連続性 (仮定[5]) より
\begin{align*}
\boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_n \in \mathscr{N}_0 \}} \big\| \boldsymbol{\mathrm{H}}\big( \boldsymbol{\theta}_0 + u(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \big) - \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big\|
\to^p 0
\end{align*}
となるから, $\boldsymbol{\mathrm{H}}_n \to^p \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)$が成り立つ.
$\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \to^p 1$を示す. $\boldsymbol{\xi}_n = [\widehat{\boldsymbol{\theta}}_n^\prime, |\det \boldsymbol{\mathrm{H}}_n|]^\prime$とおく. $\boldsymbol{\mathrm{H}}_n \to^p \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)$と仮定$\widehat{\boldsymbol{\theta}}_n \to^p \boldsymbol{\theta}_0$より$\boldsymbol{\xi}_n \to^p [\boldsymbol{\theta}_0^\prime, |\det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)|]^\prime$となるから, prop:2より$\{ \boldsymbol{\xi}_n \}$の任意の部分列$\{ \boldsymbol{\xi}_{n^\prime} \}$に対して$\boldsymbol{\xi}_{n^{\prime\prime}} \to [\boldsymbol{\theta}_0^\prime, |\det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)|]^\prime$ a.s.となるような部分列$\{ \boldsymbol{\xi}_{n^{\prime\prime}} \}$がとれる. このとき, 任意の$\varepsilon > 0$に対して$N(\varepsilon) \in \mathbb{N}$が存在して, $n^{\prime\prime} \geq N(\varepsilon)$ならば,
\begin{align*}
\| \widehat{\boldsymbol{\theta}}_{n^{\prime\prime}} - \boldsymbol{\theta}_0 \| + \Big| \big| \det \boldsymbol{\mathrm{H}}_{n^{\prime\prime}} \big| - \big| \det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big| \Big|
< \varepsilon \quad \text{a.s.}
\end{align*}
となり, 特に$\widehat{\boldsymbol{\theta}}_{n^{\prime\prime}} \in \mathbb{B}(\boldsymbol{\theta}_0, \varepsilon)$ a.s.かつ$|\det \boldsymbol{\mathrm{H}}_{n^{\prime\prime}}| > |\det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)| - \varepsilon$ a.s.が成り立つ. したがって, 正数$\varepsilon$を$\varepsilon < r \wedge |\det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0)|/2$を満たすように小さく固定すれば, 十分大きい$n^{\prime\prime}$に対して
\begin{align*}
&\widehat{\boldsymbol{\theta}}_{n^{\prime\prime}}
\in \mathbb{B}(\boldsymbol{\theta}_0, \varepsilon)
\subset \mathscr{N}_0 \quad \text{a.s.}, \\
&\big| \det \boldsymbol{\mathrm{H}}_{n^{\prime\prime}} \big|
> \big| \det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big| - \varepsilon
> \frac{1}{2} \big| \det \boldsymbol{\mathrm{H}}(\boldsymbol{\theta}_0) \big|
> 0 \quad \text{a.s.}
\end{align*}
となり, すなわち, $\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_{n^{\prime\prime}} \neq 0 \}} = \boldsymbol{1}_{\{ \widehat{\boldsymbol{\theta}}_{n^{\prime\prime}} \in \mathscr{N}_0,\;\det \boldsymbol{\mathrm{H}}_{n^{\prime\prime}} \neq 0 \}} = 1$ a.s.となる. 故に, 命題2より$\boldsymbol{1}_{\{ \det \boldsymbol{\mathrm{H}}_n \neq 0 \}} \to^p 1$が成り立つ.