本記事は情報量等式の証明に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.
$(\Omega, \mathscr{F}, \mathbb{P})$を確率空間, $(\mathscr{X}, \mathscr{A}, \mu)$を$\sigma$-有限測度空間とします. また, $\Theta \subset \mathbb{R}^p$を未知パラメータの空間とし, $\{ f(\,\cdot\,;\boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$を$(\mathscr{X}, \mathscr{A}, \mu)$上の確率密度関数の族とします. さらに, $X$を$(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値確率変数とし, その密度関数を$f(\,\cdot\,;\boldsymbol{\theta}_0)$とします (暗黙に$\boldsymbol{\theta}_0 \in \Theta$であると考えます).
以降, $f(\,\cdot\,;\boldsymbol{\theta})$の微分可能性は仮定します. 固定された$x \in \mathscr{X}$に対して, 写像
\begin{align}
\Theta \ni \boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} \log f(x; \boldsymbol{\theta}) \in \mathbb{R}^p
\end{align}
は最尤推定の枠組みにおいてスコア関数と呼ばれます. すなわち, スコア関数とは対数尤度関数の1階導関数です. Fisher情報量はこのスコア関数を用いて次のように定義されます.
$p \times p$行列
\begin{align}
\mathcal{I}
= \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big]
= \int_{\mathscr{X}} \big( \nabla_{\boldsymbol{\theta}} \log f(x; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(x; \boldsymbol{\theta}_0) \big) f(x; \boldsymbol{\theta}_0) \mu(dx)
\end{align}
が存在すれば, これをFisher情報行列という. 特に, $p = 1$の場合は
\begin{align}
\mathcal{I}
= \mathbb{E}\Bigg[ \bigg( \frac{\partial \log f(X; \theta_0)}{\partial \theta} \bigg)^2 \Bigg]
= \int_{\mathscr{X}} \bigg( \frac{\partial \log f(x; \theta_0)}{\partial \theta} \bigg)^2 f(x; \theta_0) \mu(dx)
\end{align}
となり, これをFisher情報量という.
後に示すように, 正則条件の下でスコア関数の期待値は$\boldsymbol{0}$なので, Fisher情報行列はスコア関数の分散となっています. 不偏推定量の分散の下限がFisher情報行列の逆行列で与えられることはCramér–Raoの不等式としてよく知られており, 推定量の有効性の議論をするにあたってFisher情報量は重要です.
Fisher情報行列に関する有名な事実として, 正則条件の下で等式
\begin{align}
\mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] + \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big]
= \boldsymbol{\mathrm{O}}
\end{align}
が成り立つことがあります. この等式は情報量等式と呼ばれ,
\begin{align}
\mathcal{I}
= -\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big]
\end{align}
と書き直せることから, Fisher情報行列が対数尤度関数の2階導関数の期待値で与えられることを意味します. 本記事では, この情報量等式を証明します.
$q$を$\mathscr{X} \times \Theta$上の$\mathbb{R}^k$-値関数とする. 次の4つの条件を仮定する.
このとき, 写像
\begin{align*}
\Theta \ni \boldsymbol{\theta} \mapsto \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) \in \mathbb{R}^k
\end{align*}
は$C^1$級で, 任意の$\boldsymbol{\theta} \in \Theta$に対して
\begin{align}
\nabla_{\boldsymbol{\theta}} \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx)
= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx)
\end{align}
が成り立つ.
任意に$\boldsymbol{\theta} \in \Theta$を固定し, $\mathscr{N} \subset \Theta$を$\boldsymbol{\theta}$の近傍とする. このとき, 一般性を失わずに$\mathscr{N}$は凸であると仮定してよい. $\mu$-a.e.$x \in \mathscr{X}$について, 平均値の定理より, $\widetilde{\boldsymbol{\theta}} \in \mathscr{N}$に対して
\begin{align*}
q(x, \widetilde{\boldsymbol{\theta}})
= q(x, \boldsymbol{\theta}) + \nabla_{\boldsymbol{\theta}}^\prime q(x, \boldsymbol{\theta}) (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) + r(x, \widetilde{\boldsymbol{\theta}})
\end{align*}
が成り立つ. ここで,
\begin{align*}
r(x, \widetilde{\boldsymbol{\theta}})
= \bigg\{ \int_0^1 \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) du - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \bigg\}^\prime (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta})
\end{align*}
である. 今, $\mu$-a.e.$x \in \mathscr{X}$について
\begin{align*}
\frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|}
\leq \int_0^1 \big\| \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \big\| du
\leq M(x)
\end{align*}
であるから, Lebesgueの収束定理を適用すると, $\boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta})$の連続性より
\begin{align*}
\lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \int_{\mathscr{X}} \frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|} \mu(dx)
&= \int_{\mathscr{X}} \lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|} \mu(dx) \\[5pt]
&\leq \int_{\mathscr{X}} \lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \max_{0 \leq u \leq 1} \big\| \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \big\| \mu(dx) \\[5pt]
&= 0
\end{align*}
となる. したがって,
\begin{align*}
\Bigg\| \int_{\mathscr{X}} q(x, \widetilde{\boldsymbol{\theta}}) \mu(dx) - \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) - \bigg( \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \bigg)^\prime (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \Bigg\|
&= \Bigg\| \int_{\mathscr{X}} r(x, \widetilde{\boldsymbol{\theta}}) \mu(dx) \Bigg\| \\[5pt]
&\leq \int_{\mathscr{X}} \big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\| \mu(dx) \\[5pt]
&= o\big( \| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \| \big)
\end{align*}
であるから,
\begin{align}
\nabla_{\boldsymbol{\theta}} \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx)
= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx)
\end{align}
が成り立つ. 写像
\begin{align*}
\Theta \ni \boldsymbol{\theta} \mapsto \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \in \mathbb{R}^{k \times p}
\end{align*}
の連続性は$\boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta})$の連続性とLebesgueの収束定理による. (証明終)
次の4つの条件を仮定する.
このとき,
\begin{align*}
&\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big]
= \boldsymbol{0}, \\[5pt]
&\mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] + \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big]
= \boldsymbol{\mathrm{O}}
\end{align*}
が成り立つ.
lem:1より微分と積分の順序が交換できて,
\begin{align*}
\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big]
&= \mathbb{E}\bigg[ \frac{\nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta}_0)}{f(X; \boldsymbol{\theta}_0)} \bigg] \\[5pt]
&= \int_{\mathscr{X}} \frac{\nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}_0)}{f(x; \boldsymbol{\theta}_0)} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[5pt]
&= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[5pt]
&= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) \\[5pt]
&= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0}\;1 \\[5pt]
&= \boldsymbol{0}
\end{align*}
となる. この結果を踏まえて, 再びlem:1を用いることにより
\begin{align*}
\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big]
&= \mathbb{E}\bigg[ (\nabla_{\boldsymbol{\theta}}^\prime)_{\boldsymbol{\theta}_0} \frac{\nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta})} \bigg] \\[5pt]
&= \mathbb{E}\Bigg[ \frac{\nabla_{\boldsymbol{\theta}}^2 f(X; \boldsymbol{\theta}_0)}{f(X; \boldsymbol{\theta}_0)} \Bigg] - \mathbb{E}\Bigg[ \frac{\big( \nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime f(X; \boldsymbol{\theta}_0) \big) }{f^2(X; \boldsymbol{\theta}_0)} \Bigg] \\[5pt]
&= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}}^2 f(x; \boldsymbol{\theta}_0) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt]
&= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt]
&= (\nabla_{\boldsymbol{\theta}}^2)_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt]
&= - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big]
\end{align*}
を得る. (証明終)