0
大学数学基礎解説
文献あり

情報量等式の証明

33
0

はじめに

本記事は情報量等式の証明に関する備忘録です. もし間違い等があればコメントいただけますと幸いです.

Fisher情報量

(Ω,F,P)を確率空間, (X,A,μ)σ-有限測度空間とします. また, ΘRpを未知パラメータの空間とし, {f(;θ)}θΘ(X,A,μ)上の確率密度関数の族とします. さらに, X(Ω,F,P)上に定義されたX-値確率変数とし, その密度関数をf(;θ0)とします (暗黙にθ0Θであると考えます).

以降, f(;θ)の微分可能性は仮定します. 固定されたxXに対して, 写像
Θθθlogf(x;θ)Rp
は最尤推定の枠組みにおいてスコア関数と呼ばれます. すなわち, スコア関数とは対数尤度関数の1階導関数です. Fisher情報量はこのスコア関数を用いて次のように定義されます.

Fisher情報量・Fisher情報行列

p×p行列
I=E[(θlogf(X;θ0))(θlogf(X;θ0))]=X(θlogf(x;θ0))(θlogf(x;θ0))f(x;θ0)μ(dx)
が存在すれば, これをFisher情報行列という. 特に, p=1の場合は
I=E[(logf(X;θ0)θ)2]=X(logf(x;θ0)θ)2f(x;θ0)μ(dx)
となり, これをFisher情報量という.

後に示すように, 正則条件の下でスコア関数の期待値は0なので, Fisher情報行列はスコア関数の分散となっています. 不偏推定量の分散の下限がFisher情報行列の逆行列で与えられることはCramér–Raoの不等式としてよく知られており, 推定量の有効性の議論をするにあたってFisher情報量は重要です.

Fisher情報行列に関する有名な事実として, 正則条件の下で等式
E[(θlogf(X;θ0))(θlogf(X;θ0))]+E[θ2logf(X;θ0)]=O
が成り立つことがあります. この等式は情報量等式と呼ばれ,
I=E[θ2logf(X;θ0)]
と書き直せることから, Fisher情報行列が対数尤度関数の2階導関数の期待値で与えられることを意味します. 本記事では, この情報量等式を証明します.

準備

記法
  • 位相空間Xに対してB(X)XのBorel集合族を表す.
  • a.s.はalmost surely (ほとんど確実に, 確率1での意) の略. また, a.e.はalmost everywhere (ほとんどいたる所の意) の略.
  • 行列Aに対してAはその転置を表す.
  • はFrobeniusノルムを表す. すなわち, 行列Aに対してA=tr(AA).
  • θ=[/θ1,,/θp]とする. 例えば, f:RpRに対して
    θf(θ)=[f(θ)θi]p×1,θ2f(θ)=[f(θ)θiθj]p×p.
設定
  • (Ω,F,P)は確率空間.
  • (X,A,μ)σ-有限測度空間.
  • ΘRpの部分集合 (パラメータ空間).
  • {f(;θ)}θΘ(X,A,μ)上の確率密度関数の族.
  • X(Ω,F,P)上に定義されたX-値確率変数で密度関数f(;θ0)を持つ.
微分と積分の順序交換 (Newey and McFadden[1], Lemma 3.6)

qX×Θ上のRk-値関数とする. 次の4つの条件を仮定する.

  • Θは開集合.
  • θΘに対して, Xxq(x,θ)RkA/B(Rk)-可測.
  • μ-a.e.xXに対して, Θθq(x,θ)RkC1級.
  • μ-可積分関数M:XR+が存在して, 任意の(x,θ)X×Θに対してq(x,θ)M(x), θq(x,θ)M(x).

このとき, 写像
ΘθXq(x,θ)μ(dx)Rk
C1級で, 任意のθΘに対して
θXq(x,θ)μ(dx)=Xθq(x,θ)μ(dx)
が成り立つ.

任意にθΘを固定し, NΘθの近傍とする. このとき, 一般性を失わずにNは凸であると仮定してよい. μ-a.e.xXについて, 平均値の定理より, θ~Nに対して
q(x,θ~)=q(x,θ)+θq(x,θ)(θ~θ)+r(x,θ~)
が成り立つ. ここで,
r(x,θ~)={01θq(x,θ+u(θ~θ))duθq(x,θ)}(θ~θ)
である. 今, μ-a.e.xXについて
r(x,θ~)θ~θ01θq(x,θ+u(θ~θ))θq(x,θ)duM(x)
であるから, Lebesgueの収束定理を適用すると, θθq(x,θ)の連続性より
limθ~θXr(x,θ~)θ~θμ(dx)=Xlimθ~θr(x,θ~)θ~θμ(dx)Xlimθ~θmax0u1θq(x,θ+u(θ~θ))θq(x,θ)μ(dx)=0
となる. したがって,
Xq(x,θ~)μ(dx)Xq(x,θ)μ(dx)(Xθq(x,θ)μ(dx))(θ~θ)=Xr(x,θ~)μ(dx)Xr(x,θ~)μ(dx)=o(θ~θ)
であるから,
θXq(x,θ)μ(dx)=Xθq(x,θ)μ(dx)
が成り立つ. 写像
ΘθXθq(x,θ)μ(dx)Rk×p
の連続性はθθq(x,θ)の連続性とLebesgueの収束定理による. (証明終)

情報量等式の証明

情報量等式

次の4つの条件を仮定する.

  • Θは開集合.
  • P-a.s.ωΩに対して, Θθf(X(ω);θ)RC2級.
  • μ-a.e.xXと各θNに対して, f(x;θ)>0.
  • Xsupθ~Nθf(x;θ~)μ(dx)<, Xsupθ~Nθ2f(x;θ~)μ(dx)<.

このとき,
E[θlogf(X;θ0)]=0,E[(θlogf(X;θ0))(θlogf(X;θ0))]+E[θ2logf(X;θ0)]=O
が成り立つ.

補題1より微分と積分の順序が交換できて,
E[θlogf(X;θ0)]=E[θf(X;θ0)f(X;θ0)]=Xθf(x;θ0)f(x;θ0)f(x;θ0)μ(dx)=Xθf(x;θ0)μ(dx)=(θ)θ0Xf(x;θ)μ(dx)=(θ)θ01=0
となる. この結果を踏まえて, 再び補題1を用いることにより
E[θ2logf(X;θ0)]=E[(θ)θ0θf(X;θ)f(X1;θ)]=E[θ2f(X;θ0)f(X;θ0)]E[(θf(X;θ0))(θf(X;θ0))f2(X;θ0)]=Xθ2f(x;θ0)μ(dx)E[(θlogf(X;θ0))(θlogf(X;θ0))]=(θ)θ0Xθf(x;θ)μ(dx)E[(θlogf(X;θ0))(θlogf(X;θ0))]=(θ2)θ0Xf(x;θ)μ(dx)E[(θlogf(X;θ0))(θlogf(X;θ0))]=E[(θlogf(X;θ0))(θlogf(X;θ0))]
を得る. (証明終)

参考文献

[1]
Newey, W. K. and McFadden, D., Large sample estimation and hypothesis testing, Handbook of Econometrics, 1994, 2111 - 2245
投稿日:213
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

非数学科で統計してる人

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. はじめに
  2. Fisher情報量
  3. 準備
  4. 情報量等式の証明
  5. 参考文献