0
大学数学基礎解説
文献あり

情報量等式の証明

33
0
$$$$

はじめに

本記事は情報量等式の証明に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.

Fisher情報量

$(\Omega, \mathscr{F}, \mathbb{P})$を確率空間, $(\mathscr{X}, \mathscr{A}, \mu)$$\sigma$-有限測度空間とします. また, $\Theta \subset \mathbb{R}^p$を未知パラメータの空間とし, $\{ f(\,\cdot\,;\boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$$(\mathscr{X}, \mathscr{A}, \mu)$上の確率密度関数の族とします. さらに, $X$$(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値確率変数とし, その密度関数を$f(\,\cdot\,;\boldsymbol{\theta}_0)$とします (暗黙に$\boldsymbol{\theta}_0 \in \Theta$であると考えます).

以降, $f(\,\cdot\,;\boldsymbol{\theta})$の微分可能性は仮定します. 固定された$x \in \mathscr{X}$に対して, 写像
\begin{align} \Theta \ni \boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} \log f(x; \boldsymbol{\theta}) \in \mathbb{R}^p \end{align}
は最尤推定の枠組みにおいてスコア関数と呼ばれます. すなわち, スコア関数とは対数尤度関数の1階導関数です. Fisher情報量はこのスコア関数を用いて次のように定義されます.

Fisher情報量・Fisher情報行列

$p \times p$行列
\begin{align} \mathcal{I} = \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] = \int_{\mathscr{X}} \big( \nabla_{\boldsymbol{\theta}} \log f(x; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(x; \boldsymbol{\theta}_0) \big) f(x; \boldsymbol{\theta}_0) \mu(dx) \end{align}
が存在すれば, これをFisher情報行列という. 特に, $p = 1$の場合は
\begin{align} \mathcal{I} = \mathbb{E}\Bigg[ \bigg( \frac{\partial \log f(X; \theta_0)}{\partial \theta} \bigg)^2 \Bigg] = \int_{\mathscr{X}} \bigg( \frac{\partial \log f(x; \theta_0)}{\partial \theta} \bigg)^2 f(x; \theta_0) \mu(dx) \end{align}
となり, これをFisher情報量という.

後に示すように, 正則条件の下でスコア関数の期待値は$\boldsymbol{0}$なので, Fisher情報行列はスコア関数の分散となっています. 不偏推定量の分散の下限がFisher情報行列の逆行列で与えられることはCramér–Raoの不等式としてよく知られており, 推定量の有効性の議論をするにあたってFisher情報量は重要です.

Fisher情報行列に関する有名な事実として, 正則条件の下で等式
\begin{align} \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] + \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big] = \boldsymbol{\mathrm{O}} \end{align}
が成り立つことがあります. この等式は情報量等式と呼ばれ,
\begin{align} \mathcal{I} = -\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big] \end{align}
と書き直せることから, Fisher情報行列が対数尤度関数の2階導関数の期待値で与えられることを意味します. 本記事では, この情報量等式を証明します.

準備

記法
  • 位相空間$\mathcal{X}$に対して$\mathscr{B}(\mathcal{X})$$\mathcal{X}$のBorel集合族を表す.
  • a.s.はalmost surely (ほとんど確実に, 確率1での意) の略. また, a.e.はalmost everywhere (ほとんどいたる所の意) の略.
  • 行列$\boldsymbol{\mathrm{A}}$に対して$\boldsymbol{\mathrm{A}}^\prime$はその転置を表す.
  • $\| \cdot \|$はFrobeniusノルムを表す. すなわち, 行列$\boldsymbol{\mathrm{A}}$に対して$\| \boldsymbol{\mathrm{A}} \| = \sqrt{\text{tr}(\boldsymbol{\mathrm{A}}^\prime \boldsymbol{\mathrm{A}})}$.
  • $\nabla_{\boldsymbol{\theta}}^\prime = [\partial/\partial\theta_1, \ldots, \partial/\partial\theta_p]$とする. 例えば, $f: \mathbb{R}^p \to \mathbb{R}$に対して
    \begin{align} \nabla_{\boldsymbol{\theta}} f(\boldsymbol{\theta}) = \bigg[ \frac{\partial f(\boldsymbol{\theta})}{\partial \theta_i} \bigg]_{p \times 1}, \quad \nabla_{\boldsymbol{\theta}}^2 f(\boldsymbol{\theta}) = \bigg[ \frac{\partial f(\boldsymbol{\theta})}{\partial \theta_i \partial \theta_j} \bigg]_{p \times p}. \end{align}
設定
  • $(\Omega, \mathscr{F}, \mathbb{P})$は確率空間.
  • $(\mathscr{X}, \mathscr{A}, \mu)$$\sigma$-有限測度空間.
  • $\Theta$$\mathbb{R}^p$の部分集合 (パラメータ空間).
  • $\{ f(\,\cdot\,;\boldsymbol{\theta}) \}_{\boldsymbol{\theta} \in \Theta}$$(\mathscr{X}, \mathscr{A}, \mu)$上の確率密度関数の族.
  • $Xは(\Omega, \mathscr{F}, \mathbb{P})$上に定義された$\mathscr{X}$-値確率変数で密度関数$f(\,\cdot\,;\boldsymbol{\theta}_0)$を持つ.
微分と積分の順序交換 (Newey and McFaddenpaper1, Lemma 3.6)

$q$$\mathscr{X} \times \Theta$上の$\mathbb{R}^k$-値関数とする. 次の4つの条件を仮定する.

  • $\Theta$は開集合.
  • $\boldsymbol{\theta} \in \Theta$に対して, $\mathscr{X} \ni x \mapsto q(x, \boldsymbol{\theta}) \in \mathbb{R}^k$$\mathscr{A}/\mathscr{B}(\mathbb{R}^k)$-可測.
  • $\mu\text{-a.e.}x \in \mathscr{X}$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto q(x, \boldsymbol{\theta}) \in \mathbb{R}^k$$C^1$級.
  • $\mu$-可積分関数$M: \mathscr{X} \to \mathbb{R}_+$が存在して, 任意の$(x, \boldsymbol{\theta}) \in \mathscr{X} \times \Theta$に対して$\| q(x, \boldsymbol{\theta}) \| \leq M(x)$, $\| \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \| \leq M(x)$.

このとき, 写像
\begin{align*} \Theta \ni \boldsymbol{\theta} \mapsto \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) \in \mathbb{R}^k \end{align*}
$C^1$級で, 任意の$\boldsymbol{\theta} \in \Theta$に対して
\begin{align} \nabla_{\boldsymbol{\theta}} \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) = \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \end{align}
が成り立つ.

任意に$\boldsymbol{\theta} \in \Theta$を固定し, $\mathscr{N} \subset \Theta$$\boldsymbol{\theta}$の近傍とする. このとき, 一般性を失わずに$\mathscr{N}$は凸であると仮定してよい. $\mu$-a.e.$x \in \mathscr{X}$について, 平均値の定理より, $\widetilde{\boldsymbol{\theta}} \in \mathscr{N}$に対して
\begin{align*} q(x, \widetilde{\boldsymbol{\theta}}) = q(x, \boldsymbol{\theta}) + \nabla_{\boldsymbol{\theta}}^\prime q(x, \boldsymbol{\theta}) (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) + r(x, \widetilde{\boldsymbol{\theta}}) \end{align*}
が成り立つ. ここで,
\begin{align*} r(x, \widetilde{\boldsymbol{\theta}}) = \bigg\{ \int_0^1 \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) du - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \bigg\}^\prime (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \end{align*}
である. 今, $\mu$-a.e.$x \in \mathscr{X}$について
\begin{align*} \frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|} \leq \int_0^1 \big\| \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \big\| du \leq M(x) \end{align*}
であるから, Lebesgueの収束定理を適用すると, $\boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta})$の連続性より
\begin{align*} \lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \int_{\mathscr{X}} \frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|} \mu(dx) &= \int_{\mathscr{X}} \lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \frac{\big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\|}{\| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \|} \mu(dx) \\[5pt] &\leq \int_{\mathscr{X}} \lim_{\widetilde{\boldsymbol{\theta}} \to \boldsymbol{\theta}} \max_{0 \leq u \leq 1} \big\| \nabla_{\boldsymbol{\theta}} q\big( x, \boldsymbol{\theta} + u(\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \big) - \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \big\| \mu(dx) \\[5pt] &= 0 \end{align*}
となる. したがって,
\begin{align*} \Bigg\| \int_{\mathscr{X}} q(x, \widetilde{\boldsymbol{\theta}}) \mu(dx) - \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) - \bigg( \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \bigg)^\prime (\widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta}) \Bigg\| &= \Bigg\| \int_{\mathscr{X}} r(x, \widetilde{\boldsymbol{\theta}}) \mu(dx) \Bigg\| \\[5pt] &\leq \int_{\mathscr{X}} \big\| r(x, \widetilde{\boldsymbol{\theta}}) \big\| \mu(dx) \\[5pt] &= o\big( \| \widetilde{\boldsymbol{\theta}} - \boldsymbol{\theta} \| \big) \end{align*}
であるから,
\begin{align} \nabla_{\boldsymbol{\theta}} \int_{\mathscr{X}} q(x, \boldsymbol{\theta}) \mu(dx) = \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \end{align}
が成り立つ. 写像
\begin{align*} \Theta \ni \boldsymbol{\theta} \mapsto \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta}) \mu(dx) \in \mathbb{R}^{k \times p} \end{align*}
の連続性は$\boldsymbol{\theta} \mapsto \nabla_{\boldsymbol{\theta}} q(x, \boldsymbol{\theta})$の連続性とLebesgueの収束定理による. (証明終)

情報量等式の証明

情報量等式

次の4つの条件を仮定する.

  • $\Theta$は開集合.
  • $\mathbb{P}$-a.s.$\omega \in \Omega$に対して, $\Theta \ni \boldsymbol{\theta} \mapsto f(X(\omega); \boldsymbol{\theta}) \in \mathbb{R}$$C^2$級.
  • $\mu\text{-a.e.}x \in \mathscr{X}$と各$\boldsymbol{\theta} \in \mathscr{N}$に対して, $f(x; \boldsymbol{\theta}) > 0$.
  • $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}} f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$, $\int_{\mathscr{X}} \sup_{\widetilde{\boldsymbol{\theta}} \in \mathscr{N}} \| \nabla_{\boldsymbol{\theta}}^2 f(x; \widetilde{\boldsymbol{\theta}}) \| \mu(dx) < \infty$.

このとき,
\begin{align*} &\mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big] = \boldsymbol{0}, \\[5pt] &\mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] + \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big] = \boldsymbol{\mathrm{O}} \end{align*}
が成り立つ.

lem:1より微分と積分の順序が交換できて,
\begin{align*} \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big] &= \mathbb{E}\bigg[ \frac{\nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta}_0)}{f(X; \boldsymbol{\theta}_0)} \bigg] \\[5pt] &= \int_{\mathscr{X}} \frac{\nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}_0)}{f(x; \boldsymbol{\theta}_0)} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[5pt] &= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}_0) \mu(dx) \\[5pt] &= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) \\[5pt] &= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0}\;1 \\[5pt] &= \boldsymbol{0} \end{align*}
となる. この結果を踏まえて, 再びlem:1を用いることにより
\begin{align*} \mathbb{E}\big[ \nabla_{\boldsymbol{\theta}}^2 \log f(X; \boldsymbol{\theta}_0) \big] &= \mathbb{E}\bigg[ (\nabla_{\boldsymbol{\theta}}^\prime)_{\boldsymbol{\theta}_0} \frac{\nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta})}{f(X_1; \boldsymbol{\theta})} \bigg] \\[5pt] &= \mathbb{E}\Bigg[ \frac{\nabla_{\boldsymbol{\theta}}^2 f(X; \boldsymbol{\theta}_0)}{f(X; \boldsymbol{\theta}_0)} \Bigg] - \mathbb{E}\Bigg[ \frac{\big( \nabla_{\boldsymbol{\theta}} f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime f(X; \boldsymbol{\theta}_0) \big) }{f^2(X; \boldsymbol{\theta}_0)} \Bigg] \\[5pt] &= \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}}^2 f(x; \boldsymbol{\theta}_0) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt] &= (\nabla_{\boldsymbol{\theta}})_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} \nabla_{\boldsymbol{\theta}} f(x; \boldsymbol{\theta}) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt] &= (\nabla_{\boldsymbol{\theta}}^2)_{\boldsymbol{\theta}_0} \int_{\mathscr{X}} f(x; \boldsymbol{\theta}) \mu(dx) - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \\[5pt] &= - \mathbb{E}\big[ \big( \nabla_{\boldsymbol{\theta}} \log f(X; \boldsymbol{\theta}_0) \big) \big( \nabla_{\boldsymbol{\theta}}^\prime \log f(X; \boldsymbol{\theta}_0) \big) \big] \end{align*}
を得る. (証明終)

参考文献

[1]
Newey, W. K. and McFadden, D., Large sample estimation and hypothesis testing, Handbook of Econometrics, 1994, 2111 - 2245
投稿日:213
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

非数学科で統計してる人

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中