2021 5/17 divergenceについて追記
2022 1/29 命題5の証明を修正
これは情報幾何学の勉強ノートです。仮定する微分幾何の知識は多様体、座標近傍系、テンソル場、Poincareの補題、リーマン構造、接続、捩率、曲率などです。またこのノートの目標である指数型分布族が定めるHesse構造(双対平坦構造ともいう)までできる限り最短でたどり着けるようにしました。基本的には私の勉強用です。
私は情報幾何が専門ではありません。このノートを書いた理由ですが、情報幾何の初学の段階において、登場する色々な設定や座標やその他の概念の散在的で有機的な繋がりがいまいち多様体論的に、幾何学的にすっきり整理して理解しにくかったという経験があります。なのでこのノートでは一つの論理的な道筋がとらえやすいことと、conceptualな単純な理解ができることに配慮したつもりです。そのためやや叙述的な文章があるかもしれません。またこのノートではいくらかの重要な特徴付けが書かれていません。あくまでも種々の概念に慣れることのみを目的としたからです。従って読んでいただくにしても補助教材としてお読みください。私も勉強し始めたばかりですので、分からないことも多いです。数学的な間違いもあるかもしれません(数学が苦手なので)。また情報幾何に興味を持つ方々との議論のきっかけになればという思いもありこのノートを書きましたので何か思うことがありましたらご連絡ください。あるいは致命的なミスをしていたら教えてください。
以下では、多様体は滑らかを仮定します(滑らかさについてどの程度仮定すれば情報幾何をやる上で十分なのかよく知らない)。なお誤解の余地の無い場合には断らずにEinstein規約を使います。計量によるmusical isomorphismまたはmetric dual(添え字の上げ下げのこと)を$\sharp:T^\ast_pM\rightarrow T_pM,\ \flat:T_pM\rightarrow T^\ast_pM$で表します、すなわち$u\in T^\ast_pM,X,Y\in T_pM$に対して、
$$
u(X)=g(({}^\sharp u),X),\ u^i=g^{ij}u_j\\
({}^\flat X)(Y)=g(X,Y),\ X_i=g_{ij}X^j
$$
です。
情報幾何では平坦接続を備えた多様体(Affine多様体)が舞台になることが多いです。Affine多様体とは座標変換がAffine変換(一次変換)となるような多様体です。
微分多様体$M$の局所座標近傍系を$\{(U_\alpha,\varphi_\alpha)\}_{\alpha\in\Lambda}$とする。任意の$U_\alpha\cap U_\beta(\ne\phi)$に対して、(座標の)変換写像
$\varphi_\beta\circ\varphi_\alpha^{-1}$がAffine写像であるとき、$M$をAffine多様体という。この条件を満たす各$(U_\alpha,\varphi_\alpha)$をAffine座標と呼ぶ。
定義だけ見ると単純そうですが、かなり難しいようです。こちらに簡単な文献紹介があります http://pantodon.shinshu-u.ac.jp/topology/literature/ja/affine_manifold.html
Affine多様体は平坦接続の存在で特徴づけることができます。
微分多様体$M$がAffine多様体であることと平坦接続を許容することは同値である。
$M$がAffine多様体とする。$\{x^i\}$を局所Affine座標とするとき、接続$D$を
$$
D_{\frac{\partial}{\partial x^i}}\frac{\partial}{\partial x^j}=0
$$
で定義する。座標変換がAffineにとれるので任意のAffine座標に対してこの定義は意味を持つ。この接続$D$の捩率と曲率が0であることは明らかである。
逆に、$M$が平坦接続$D$を許容するとする。このとき、接続の係数の変換性から二つの座標$\{x^i\},\{y^a\}$に対して、
$$
\frac{\partial y^a}{\partial x^i\partial x^j}=0
$$
となるので、$M$はAffine多様体である。
この命題より、Affine多様体を$(M,D)$と表すことにします。さらに上の証明のように$D$を定義したAffine座標系を接続$D$に関するAffine座標系と呼びます。また平坦接続$D$を$M$のAffine構造と呼びます。Affine構造は一意的とは限りません。
Affine構造とリーマン構造が次の意味で仲良しなのがHesse構造です。
Affine多様体$(M,D)$とスカラー関数$\varphi\in C^\infty(M)$があり、$M$上のリーマン計量が
$$g=Dd\varphi$$
で与えられるとき、$(D,g)$をHesse構造といい、$(M,D,g)$をHesse多様体という。また$\varphi$をHesseポテンシャルという。
Hesse構造の条件は計量$g$がポテンシャル関数で書けているということですので、このようなことが成り立つためには$g$に関して何らかの可積分条件が成り立っていることが期待されます。
Affine多様体$(M,D)$とリーマン計量$g$が与えられたとき、$(M,D,g)$がHesse多様体であることと、Codazzi方程式
$$
(D_Xg)(Y,Z)=(D_Yg)(X,Z),\\
\left(\Leftrightarrow\frac{\partial g_{ij}}{\partial x^k}=\frac{\partial g_{kj}}{\partial x^i}\ \ (\{x^i\}はDに関する{\rm Affine}座標)\right)
$$
が成り立つことは同値である。
Hesse構造に対して、Codazzi方程式が成り立つことは明らかである。
逆に、あるAffine座標近傍においてCodazzi方程式が満たされているとすれば、1-form
$$
\varphi_i:=g_{ij}dx^j
$$
は
$$
d\varphi_i=\partial_kg_{ij}dx^k\wedge dx^j=0
$$
であるから、この座標近傍上でスカラー関数$\psi_i$があり、
$$
\varphi_i=d\psi_i
$$
となる。よって
$$
g_{ij}=\frac{\partial\psi_i}{\partial x^j}
$$
となる。再び、
$$
d(\psi_idx^i)=g_{ij}dx^j\wedge dx^i=0
$$
であるから、この座標近傍上でスカラー関数$\varphi$があり、
$$
\psi_idx^i=d\varphi
$$
となる。
従って、
$$
g_{ij}=\frac{\partial\psi_i}{\partial x^j}=\frac{\partial\varphi}{\partial x^j\partial x^i}
$$
を得る。
次に与えられたHesse構造に対して、定義される双対Hesse構造を定義してその性質を調べます。
その前に双対Hesse構造の雰囲気を述べておきます。ユークリッド空間などリーマン多様体として平坦な多様体では、直交座標$\{x^i\}$に関する座標基底$\{\partial_{x^i}\}$とその双対基底$\{dx^i\}$は計量的に双対な関係(musical isomorphismで写りあう、metric dual、添え字上げ下げの関係)にあります、すなわち${}^\sharp(dx^i)=\partial_{x^i}$となっています。平坦でないリーマン多様体では任意の座標$\{x^i\}$に対して、${}^\sharp(dx^i)=\partial_{x^i}$は成り立ちませんが、ある2つの座標$\{x^i\},\{y^i\}$に対して、${}^\sharp(dx^i)=\partial_{y^i}$となる可能性はあります。もしこのようになっていたなら双対接空間がこの多様体上に"転写"され、それが座標$\{y^i\}$で眺める景色であると思えなくもない気がします(この辺は個人の感性かもしれない)。しかし一般にはこの条件の成立すらも全く期待できません。ではいつ起こるのかという問い対する一つの答えとしてHesse構造を挙げることができます。
これまで座標を表す記号は$x^i$を使っていましたが、情報幾何の文化に従ってAffine座標は$\theta^i$や$\eta_i$などを使うことにします。Affine座標近傍$(U,\{\theta^i\})$に対して変換
$$
\eta_i\ \colon=\frac{\partial\varphi}{\partial \theta^i},
$$
を考えてみましょう。Hesse構造のおかげで、この$\{\eta_i\}$たちは新しい座標を定めることが分かります。すなわち、
$$
\frac{\partial\eta_i}{\partial\theta^j}=\frac{\partial^2\varphi}{\partial\theta^j\partial \theta^i}=g_{ji},
$$
となり、この変換の逆変換が$U$上で存在することが分かります。さらに、$\{\theta^i\}$のAffine座標変換$\theta^i=a^i_j\theta'^j+b^i$に伴って、$\{\eta_i\}$は
$$
\eta_i=(a^{-1})^j_i\eta'_j,\\
\eta'^j=\frac{\partial\varphi}{\partial\theta'^j}
$$
となるので、$\{\eta_i\},\{\eta'_i\}$はAffine変換で写りあうことが分かります。従って、座標近傍$(U,\{\eta_i=\partial\varphi/\partial\theta^i\})$達は、$M$のAffine座標系を定義することが分かりました。しかしもちろんこの新しいAffine座標系が$D$に関するAffine座標系となっているとは限りません(ほとんどの場合違います)。命題の形にまとめておきます。
Hesse多様体$(M,D,g)$のAffine座標系$(U_\alpha,\{\theta_\alpha^i\})_{\alpha\in\Lambda}$に対して、座標変換
$$
(\eta_\alpha)_i\ \colon=\frac{\partial\varphi}{\partial\theta_\alpha^i}
$$
により定義される座標近傍系$(U_\alpha,\{(\eta_\alpha)^i\})_{\alpha\in\Lambda}$は$M$のAffine構造を定める。これを$\{\theta^i\}$の双対Affine座標系という。
さて、双対Affine座標系$\{\eta_i\}$が定義されたので、当然この座標に関して平坦接続$D^\ast$が定義されます。この$D^\ast$については次の節で性質を論じます。ここでは定義だけして置いておいて、まずは2つの座標系$\{\eta_i\},\{\theta^i\}$の関係を論じておきましょう。
Hesse多様体$(M,D,g)$において、$D$に関するAffine座標系を$\{\theta^i\}$とし、その双対Affine座標を$\{\eta_i\}$とするとき、
$$
g\left(\frac{\partial}{\partial\theta^i},\frac{\partial}{\partial\eta_j}\right)=\delta^j_i,\\
g\left(\frac{\partial}{\partial\eta_i},\frac{\partial}{\partial\eta_j}\right)=g^{ij}
$$
が成り立つ。
${}^\sharp (d\theta^i)=g^{ji}\frac{\partial}{\partial\theta^j}=\frac{\partial\theta^j}{\partial\eta_i}\frac{\partial}{\partial\theta^j}=\frac{\partial}{\partial\eta_i}$
であることから従う。
双対Affine座標$\{\eta_i\}$は$M$上に双対接空間の世界が座標となって現れた構造であると言えます。この言葉の意味をCotangent bundleの観点からもう少しはっきりさせれるのですが、やや寄り道になるので先に進みます。さらにもう一つ双対的な関係が成り立ちます。
Hesse多様体$(M,D,g)$において、$D$に関するAffine座標系を$\{\theta^i\}$とし、その双対Affine座標を$\{\eta_i\}$とするとき、局所的にあるスカラー関数$\varphi'$があり、
$$
\theta^i=\frac{\partial \varphi'}{\partial\eta_i},\\
g^{ij}=\frac{\partial^2 \varphi'}{\partial\eta_i\partial\eta_j}
$$
が成り立つ。
従って、$(M,D^\ast,g)$はHesse構造である。
$d(\theta^id\eta_i)=g^{ij}d\eta_j\wedge d\eta_i=0$であるから、局所的にあるスカラー関数$\varphi'$が存在して、$\theta^id\eta_i=d\varphi'$となる。従って、
$$
\theta^i=\frac{\partial \varphi'}{\partial\eta_i}
$$
が成り立つ。また
$$
g^{ij}=\frac{\partial \theta^i}{\partial\eta_j}=\frac{\partial^2 \varphi'}{\partial\eta_j\partial\eta_i}
$$
である。
この命題で示されたHesse構造$(D^\ast,g)$を$(D,g)$の双対Hesse構造といいます。また情報幾何学では$(g,D,D^\ast)$を双対平坦構造とよく呼びます。最後にこれまでに分かったことを使うと簡単に
$$
d(\varphi+\varphi'-\eta_i\theta^i)=\eta_id\theta^i+\theta^id\eta_i-\theta^id\eta_i-\eta_id\theta^i=0
$$
が分かります。よって$\varphi+\varphi'-\eta_i\theta^i$は定数ですが、$\varphi,\varphi'$の選び方には定数シフトの任意性がありますので、
$$
\varphi+\varphi'-\eta_i\theta^i=0
$$
となるように選ぶことができます。これ以降、双対Hesse構造について議論するときは、断りなく各Affine座標近傍上でポテンシャル関数$\varphi,\varphi'$をこのように取ることにします。またこのような$\varphi,\varphi'$の関係をLegendre変換の関係にあるといいます。
前節で、Hesse多様体$(M,D,g)$の$D$に関するAffine座標$\{\theta^i\}$の双対Affine座標$\{\eta_i\}$に関する平坦接続$D^\ast$を定義しました。ここでは$D,D^\ast,\nabla$の関係を調べます。初めに、リーマン接続$\nabla$を見てみましょう。Codazzi方程式のおかげで、Christoffel記号は簡単になり、Affine座標$\{\theta^i\}$に関して、
$$
{}^\nabla\Gamma^i_{jk}=\frac{1}{2}g^{ia}\left(\frac{\partial g_{ak}}{\partial \theta^j}+\frac{\partial g_{aj}}{\partial \theta^k}-\frac{\partial g_{jk}}{\partial \theta^a}\right)=\frac{1}{2}g^{ia}\frac{\partial g_{ak}}{\partial \theta^j}
$$
となります。
次に、$D^\ast$の$\{\theta^i\}$に関する接続の係数は、座標変換に伴う接続の係数の変換則を考えれば、
$$
{}^{D^\ast}\Gamma^i_{jk}
=\frac{\partial\theta^i}{\partial\eta_a}\frac{\partial^2\eta_a}{\partial\theta^j\partial\theta^k}
=g^{ia}\frac{\partial g_{ak}}{\partial\theta^j}
$$
となります。この最後の式を$=2{}^\nabla\Gamma^i_{jk}$としたいところですが、接続の係数の2倍は接続の係数にはなりません。変換則を考えればわかりますが、接続の係数の全体は線形空間を成さず、Affine空間を成します。従って、2つの接続の係数$\Gamma^{(1)i}_{\ \ \ \ jk},\Gamma^{(2)i}_{\ \ \ \ jk}$のAffine結合$t\Gamma^{(1)i}_{\ \ \ \ jk}+(1-t)\Gamma^{(2)i}_{\ \ \ \ jk}$が接続の係数となります。今、我々は$\{\theta^i\}$に関する平坦接続$D$を材料として持ってますから、
$$
{}^{D^\ast}\Gamma^i_{jk}=2{}^\nabla\Gamma^i_{jk}-{}^D\Gamma^i_{jk}
$$
とすればよいことが分かります(もちろんある接続を2つの接続のAffine結合として表示する仕方は一意的ではないです)。よって次の命題を得ました。
Hesse多様体$(M,D,g)$において、双対接続を$D^\ast$とすると
$$
2\nabla=D+D^\ast
$$
が成り立つ。
$D,D^\ast$はリーマン接続$\nabla$を2つに分けた感じに思えます。このことは次の命題からもうかがえます。
Hesse多様体$(M,D,g)$において、双対接続を$D^\ast$とすると
$$
Xg(Y,Z)=g(D_XY,Z)+g(Y,D^\ast_XZ)
$$
$(X,Y,Z)=(\frac{\partial}{\partial\theta^i},\frac{\partial}{\partial\theta^j},\frac{\partial}{\partial\theta^k})$としてよい。
$$
\frac{\partial}{\partial\theta^i}g\left(\frac{\partial}{\partial\theta^j},\frac{\partial}{\partial\theta^k}\right)\\
=\frac{\partial g_{jk}}{\partial\theta^i}
=g\left(\frac{\partial}{\partial\theta^j},2\nabla_{\frac{\partial}{\partial\theta^i}}\frac{\partial}{\partial\theta^k}\right)\\
=g\left(D_{\frac{\partial}{\partial\theta^i}}\frac{\partial}{\partial\theta^j},\frac{\partial}{\partial\theta^k}\right)+g\left(\frac{\partial}{\partial\theta^j},D^\ast_{\frac{\partial}{\partial\theta^i}}\frac{\partial}{\partial\theta^k}\right)
$$
※上の証明で最後に$g(D_{\frac{\partial}{\partial\theta^i}}\frac{\partial}{\partial\theta^j},\frac{\partial}{\partial\theta^k})$を付け加えなければ、テンソル場の等式として成立しないことに注意。
より一般的な状況として、捻じれの無い接続$D,D^\ast$とリーマン計量$g$を考えるとき、
$$
Xg(Y,Z)=g(D_XY,Z)+g(Y,D^\ast_XZ)
$$
が成り立つならば$D,D^\ast$は互いに双対接続であるといいます。このとき$D,D^\ast$はどちらもCodazzi方程式を満たし、Hesse構造の平坦接続とは限らない一般化となっています。これはCodazzi構造と呼ばれ、Codazzi構造を持つ多様体をCodazzi多様体と呼びます。これは情報幾何学では統計多様体とも呼ばれ、後で出てくる確率分布族が定める多様体がその例になっています(名称の由来もおそらくここでしょう)。その構造についてここでは深入りして一般論はしませんが、定義だけ改めて述べておきます。(論理的にはこちらを先に定義してもよいのですが、Hesse構造のみを扱う場合はこちらの方がminimalかなと思ったのでこのような構成にしました。)
リーマン多様体$(M,g)$と捻じれの無い接続$D$に対して、接続$D^\ast$を
$$
Xg(Y,Z)=g(D_XY,Z)+g(X,D^\ast_XZ)
$$
で定義する。このとき、$D^\ast$が捻じれがないとき、$(M,g,D)$を統計多様体という。
統計学で1967年にL.M.Bregmanによって凸関数に対して定義されたDivergence関数というものがあるそうで、これはBergman divergenceと呼ばれます。これは感覚的には凸関数を近傍の点から線形に推定したものと実際の値との誤差と言った感じです。Hesseポテンシャルは凸関数なので、Hesseポテンシャルに対して、Bergman divergenceがHesse多様体(の一つの座標近傍に属する2点)に対して定義されます。
Hesse多様体$(M,D,g)$において、$D$に関するAffine座標近傍を$(U,\{\theta^i\})$とし、Hesseポテンシャルを$\varphi$とするとき、
$p,q\in U$に対して、Divergence関数を
$$
D(p||q)=(\theta^i(q)-\theta^i(p))\frac{\partial\varphi}{\partial\theta^i}(q)-(\varphi(q)-\varphi(p)),
$$
と定義する。
この定義がAffine座標$\{\theta^i\}$の取り方に寄らないことは明らかです。この式の意味を読み取るに、$\varphi(p)$の値を近くの点$q$の近傍の$\varphi$の情報から線形に推定したものと実際の$\varphi(p)$との誤差といったところでしょうか(この時点ではどんな意味があるのかよく分からない)。
$D(p||x)$を$x=(\theta^1,\cdots,\theta^n)\in U$の関数だと見なすとき、
$$
D(p||p)=0,\\
\frac{\partial}{\partial\theta^i}D(p||p)=0,\\
\frac{\partial^2}{\partial^j\partial\theta^i}D(p||p)=g_{ij}(p)\geq0,
$$
なので、$D(p||x)$は$p$に十分近い近傍では、$x=p$において、極小値$0$を取ります。従って、$p$に十分近い近傍では、
$$
D(p||q)\geq0,\\
D(p||q)=0\ \Leftrightarrow p=q,
$$
が成り立ちます。
Divergenceには双対構造を用いた表示もあります。こちらの表示を定義とする文献もあります。
Hesse多様体$(M,D,g)$において、Affine座標近傍$(U,\{\theta^i\})$とし、その双対Affine座標$\{\eta_i\}$とする。また$\varphi,\psi$をそれぞれ$\{\theta^i\},\{\eta_i\}$に関するHesseポテンシャルとする。このとき、$p,q\in U$に対して、
$$
D(p||q)=\varphi(p)+\psi(q)-\theta^i(p)\eta_i(q)
$$
が成り立つ。
$\theta^i\eta_i=\varphi+\psi$を使えば、
$$
D(p||q)=(\theta^i(q)-\theta^i(p))\eta_i(q)-\varphi(q)+\varphi(p)\\
=\varphi(p)+\psi(q)-\theta^i(p)\eta_i(q)
$$
また双対Affine座標$\{\eta_i\}$に関してのDivergence関数を$D^\ast(p||q)$とすると、
$$
D^\ast(p||q)=(\eta_i(q)-\eta_i(p))\theta^i(q)-\psi(q)+\psi(p)\\
=\eta_i(q)\theta^i(q)-\eta_i(p)\theta^i(q)-\theta^i(q)\eta_i(q)+\varphi(q)+\eta_i(p)\theta^i(p)-\varphi(p)\\
=-\eta_i(p)\theta^i(q)+\varphi(q)+\eta_i(p)\theta^i(p)-\varphi(p)\\
=(\theta^i(p)-\theta^i(q))\eta_i(p)-\varphi(p)+\varphi(q)\\
=D(q||p)
$$
という関係が成り立ちます。
Divergence関数は距離にはならないのですが、距離の2乗に類似の性質持ち、Pitagorusの定理的なものが成り立ちます。
Hesse多様体$(M,D,g)$に対して、双対接続を$D^\ast$とする。あるAffine座標近傍$U$と3点$p,q,r\in U$に対して、$p$と$q$を結ぶ$D$-測地線$c$が、$q$と$r$を結ぶ$D^\ast$-測地線$c'$と$q$において直交するとき、
$$
D(p||r)=D(p||q)+D(q||r)
$$
が成り立つ。
平坦接続に関する測地線はAffine座標に関しては一次関数で表されるから
$$
\theta^i(c(t))=\theta^i(p)+(\theta^i(q)-\theta^i(p))t,\\
\eta^i(c'(t))=\eta^i(q)+(\eta^i(r)-\eta^i(q))t
$$
と表される。この2つは$q$において直交するから
$$
g\left((\theta^i(q)-\theta^i(p))\frac{\partial}{\partial\theta^i},(\eta^j(r)-\eta^j(q))\frac{\partial}{\partial\eta_j}\right)\\
=(\theta^i(p)-\theta^i(q))(\eta_i(r)-\eta_i(q))=0
$$
が成り立つ。従って、
$$
D(p||r)-D(p||q)-D(q||r)\\
=(\theta^i(r)-\theta^i(p))\eta_i(r)-\varphi(r)+\varphi(p)\\
-(\theta^i(q)-\theta^i(p))\eta_i(q)+\varphi(q)-\varphi(p)\\
-(\theta^i(r)-\theta^i(q))\eta_i(r)+\varphi(r)-\varphi(q)\\
=-(\theta^i(p)-\theta^i(q))(\eta_i(r)-\eta_i(q))=0
$$
ところでdivergence関数を一つの座標近傍上でしか定義していませんが、大域的に考えるようなものではないということなのでしょうか、良くわかりません。
ここまで結局divergenceが一体何なのかはよく分かりませんし、この後もよく分からないままです。少なくとも距離の2乗のようなもので何らかの離れ具合を測っているということです。divergenceを局所的にテイラー展開することでよりそれっぽく思うこともできます。
$$
\frac{\partial\varphi_p(x)}{\partial \theta^i}=g_{ij}(\theta^j-\theta^j(p)),\\
\frac{\partial^2\varphi_p(x)}{\partial\theta^j\partial \theta^i}=g_{ji}+(\theta^k-\theta^k(p))\frac{\partial g_{ki}}{\partial\theta^j},\\
\frac{\partial^3\varphi_p(x)}{\partial\theta^i\partial\theta^j\partial \theta^k}=
2\frac{\partial g_{ij}}{\partial\theta^k}+(\theta^l-\theta^i(p))\frac{\partial^2g_{lj}}{\partial\theta^i\partial\theta^k}
$$
であるから、$x=p$の近傍で展開すると、
$$
\varphi_p(x)=\varphi_p(p)
+\frac{\partial\varphi_p(p)}{\partial \theta^i}(\theta^i-\theta^i(p))
+\frac{1}{2!}\frac{\partial^2\varphi_p(p)}{\partial\theta^j\partial \theta^i}(\theta^i-\theta^i(p))(\theta^j-\theta^j(p))\\
+\frac{1}{3!}\frac{\partial^3\varphi_p(x)}{\partial\theta^i\partial\theta^j\partial \theta^k}(\theta^i-\theta^i(p))(\theta^j-\theta^j(p))(\theta^k-\theta^k(p))\\
=\frac{1}{2}g_{ij}(p)(\theta^i-\theta^i(p))(\theta^j-\theta^j(p))
+\frac{2}{3!}\frac{g_{ij}}{\partial\theta^k}(p)(\theta^i-\theta^i(p))(\theta^j-\theta^j(p))(\theta^k-\theta^k(p))+o((\theta^j-\theta^j(p))^3)
$$
となります。ということなので$p$にかなり近い点に関してはdivergenceは距離の2乗と思って良さそうです。
ここでは確率分布の空間が定めるHesse構造を論じます。リーズナブルな仮定を満たす確率分布の族の空間を多様体と見なし、そのHesse構造の一般論を展開します。
まず、確率分布の族の空間とは何かを説明します。例えば、1次元正規分布は平均$\mu$と標準偏差$\sigma$で決定されるので、一次元正規分布の全体は集合$\{(\mu,\sigma)\in\mathbb{R}^2;\sigma>0\}$と見なすことができます。このように確率分布のパラメータを多様体の座標と見なすことができるわけです。設定を正確にしましょう。
確率変数$x\in\mathcal{X}$は離散型、連続型のどちらかとします(離散型の場合は以下で出てくる積分は適宜$\sigma$に読み替えてください、あるいはDirac測度など適切な測度を適用してください)。$\Lambda$を$\mathbb{R}^n$の単連結な$n$次元開部分多様体とします(もしかしたら特殊な状況では境界を持ったり、滑らかでなかったりするかもしれません、分かりません)。$\lambda=(\lambda^1,\cdots,\lambda^n)\in\Lambda$をパラメータとする$\mathcal{X}$上の確率分布の族
$$
\mathcal{P}=\{p(x,\lambda);\lambda\in\Lambda\}
$$
は次の条件を満たすとします。
(1)$p(x,\lambda)$は$\lambda$に関して滑らか
(2)$x$に関する積分と$\lambda$に関する微分は交換可能
以降は特に断らずにこれらのことを仮定します。
任意の確率変数$\omega(x)$の確率$p(x,\lambda)$に関する期待値を取る操作を$E_\lambda[\omega]$と表すことにします。
統計学ではFisher情報行列というものがあるそうで、情報幾何ではこれをリーマン計量と見なします。
$l_\lambda=l(x,\lambda):=\log p(x,\lambda)$とするとき、
$$
g_{ij}:=E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^j}\right],\ (1\le i,j\le n)
$$
をFisher情報行列といいます。
Fisher情報行列は半正定値、すなわち$g_{ij}a^ia^j\geq0,\ ({}^\forall a^i\in\mathbb{R})$であることが簡単な議論から示されますが、これを$\Lambda$上のリーマン計量と見なしたいのでより強く正定値となっていると仮定します(この仮定は多くの確率分布で満たされています)。$\{\lambda^i\}$を$\Lambda$上の座標と思うと、$x$に関する積分と$\lambda^i$に関する微分が可換なので$g_{ij}$が2階対称共変テンソル場を定めまず。従ってFishier情報行列を$\Lambda$上のリーマン計量と見なすことができます。これをFisher計量と呼びます。(半正定値であるような退化リーマン構造の幾何学が情報幾何の文脈で研究されているのか気になりますが、知りません)
これでパラメータの多様体$\Lambda$にリーマン構造が入りました。さらにこれがHesse構造となるかどうかは確率分布$p(x,\lambda)$の性質によります。この後に紹介する指数型分布族であるときはHesse構造が入ります。しかしその前にFisher計量に関して互いに双対接続となる2つの接続を一般論として導入することができます。
まず、Fisher計量に対するリーマン接続を求めましょう。$\{\lambda^i\}$に関する接続の係数は
$$
{}^\nabla\Gamma_{ijk}=\frac{1}{2}\left(
\frac{\partial g_{ik}}{\partial\lambda^j}
+\frac{\partial g_{ij}}{\partial\lambda^k}
-\frac{\partial g_{jk}}{\partial\lambda^i}
\right)
$$
なので、まず$\partial g_{ik}/\partial\lambda^j$を計算します。
$$
g_{ik}=\int_{\mathcal{X}}\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}p(x,\lambda)dx
$$
より
$$
\frac{\partial g_{ik}}{\partial\lambda^j}
=E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^j\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\right]
+E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^j\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^i}\right]
+E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^j}\right]\\
\frac{\partial g_{ij}}{\partial\lambda^k}
=E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^k\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^j}\right]
+E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^j\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^i}\right]
+E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^j}\right]\\
\frac{\partial g_{jk}}{\partial\lambda^i}
=E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^j\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\right]
+E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^i\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^j}\right]
+E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^j}\right]
$$
となるので、
$$
{}^\nabla\Gamma_{ijk}=\frac{1}{2}\left(
\frac{\partial g_{ik}}{\partial\lambda^j}
+\frac{\partial g_{ij}}{\partial\lambda^k}
-\frac{\partial g_{jk}}{\partial\lambda^i}
\right)
=E_\lambda\left[\frac{\partial^2 l_\lambda}{\partial\lambda^j\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^i}\right]
+\frac{1}{2}E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^k}\frac{\partial l_\lambda}{\partial\lambda^j}\right]
$$
となります。ここで第二項目は3階共変テンソル場であり、接続の係数に3階テンソル場を加えても接続の係数なので、
$$
T_{ijk}=\frac{1}{2}E_\lambda\left[\frac{\partial l_\lambda}{\partial\lambda^i}\frac{\partial l_\lambda}{\partial\lambda^j}\frac{\partial l_\lambda}{\partial\lambda^k}\right],
$$
と置くとき
$$
\Gamma(\alpha)_{ijk}={}^\nabla\Gamma_{ijk}-\alpha T_{ijk},
$$
は新しい接続を定義する。これは明らかに捻じれの無い接続です。さらに
$$
\Gamma(\alpha)_{jki}+\Gamma(-\alpha)_{ikj}={}^\nabla\Gamma_{jki}+{}^\nabla\Gamma_{ikj}=\frac{\partial g_{ij}}{\partial\lambda^k}
$$
が成り立つため、
$$
Xg(Y,Z)=g(D^{(\alpha)}_XY,Z)+g(Y,D^{(-\alpha)}_XZ)
$$
となります。従って、$D^{(\alpha)},D^{(-\alpha)}$はFisher計量に関して互いに双対接続となります。
正規分布は$\exp$の形で書かれています。どんなものでも無理やり$\exp$の"肩"に乗せることはできます。このとき、"肩"の中身がパラメータに関して一次式とスカラー関数の和とできる場合が、指数型分布族です。有名な多くの確率分布族が指数型分布族になります。正確に定義します。
確率変数$x\in\mathcal{X}$に対するパラメータを$\theta\in\Theta\subset\mathbb{R}^n$とした確率分布族$p(x,\theta)$が、$\mathcal{X}$上の実数値関数$C(x),F_i(x),\ (1\le i\le n)$によって
$$
p(x,\theta)=\exp\left(C(x)+\sum_{i=1}^nF_i(x)\theta^i-\varphi(\theta)\right)
$$
となるとき、$p(x,\theta)$を指数型分布族という。
例えば、1次元正規分布族は
$$
p(x,\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\\
=\exp\left(-x^2\frac{1}{2\sigma^2}+x\frac{\mu}{\sigma^2}-\frac{\mu^2}{2\sigma^2}-\log\sqrt{2\pi}\sigma\right)
$$
となるから、
$$
F_1(x)=-x^2,\ F_2(x)=x,\ \theta^1=\frac{1}{2\sigma^2},\ \theta^2=\frac{\mu}{\sigma^2},\\
\varphi(\theta^1,\theta^2)=\frac{\mu^2}{2\sigma^2}+\log\sqrt{2\pi}\sigma=\frac{(\theta^2)^2}{4\theta^1}+\frac{1}{2}\log(\pi/\theta^1)
$$
と置けば指数型分布族となることが分かります。この具体例は後でもう少し分析しますが、まず一般に指数型分布族がHesse構造を定めることを見ましょう。指数型分布族$p(x,\theta)$に対して、座標$\{\theta^i\}$に関する接続$D^{(1)}$の係数は、
$$
\Gamma(1)_{kij}=E_\theta\left[\frac{\partial^2 l_\theta}{\partial\theta^j\partial\theta^i}\frac{\partial l_\theta}{\partial\theta^k}\right]
$$
です。ここで
$$
\frac{\partial l_\theta}{\partial\theta^k}=F_k(x)-\frac{\partial\varphi}{\partial\theta^k},\\
\frac{\partial^2 l_\theta}{\partial\theta^j\partial\theta^i}=-\frac{\partial^2\varphi}{\partial\theta^i\partial\theta^j}
$$
なので、$\frac{\partial^2 l_\theta}{\partial\theta^j\partial\theta^i}$は$x$に依存しておらず、積分の外に出せるので、
$$
\Gamma(1)_{kij}=-\frac{\partial^2\varphi}{\partial\theta^i\partial\theta^j}E_\theta\left[\frac{\partial l_\theta}{\partial\theta^k}\right]
$$
となります。一方
$$
\int_\mathcal{X}p(x,\theta)dx=1,
$$
を$\theta^k$で微分して
$$
\int_\mathcal{X}\frac{\partial l_\theta}{\partial\theta^k}p(x,\theta)dx=0,\\
\therefore\ E_\theta\left[\frac{\partial l_\theta}{\partial\theta^k}\right]=0
$$
であることが分かります。よって
$$
\Gamma(1)_{kij}=0
$$
を得ます。従って、接続$D^{(1)}$は平坦接続であり、$\{\theta^i\}$は$D^{(1)}$に関するAffine座標であることが分かりました。次にFisher計量を計算します。上で出た
$$
\int_\mathcal{X}\frac{\partial l_\theta}{\partial\theta^i}p(x,\theta)dx=0
$$
をもう一度$\theta^j$で微分すると
$$
\int_\mathcal{X}\frac{\partial^2 l_\theta}{\partial\theta^i\partial\theta^j}p(x,\theta)dx
+\int_\mathcal{X}\frac{\partial l_\theta}{\partial\theta^i}\frac{\partial l_\theta}{\partial\theta^j}p(x,\theta)dx
=0
$$
となります。よって
$$
g_{ij}=E_\theta\left[\frac{\partial l_\theta}{\partial\theta^i}\frac{\partial l_\theta}{\partial\theta^j}\right]
=-\int_\mathcal{X}\frac{\partial^2 l_\theta}{\partial\theta^i\partial\theta^j}p(x,\theta)dx
=\frac{\partial^2\varphi}{\partial\theta^i\partial\theta^j}
$$
となって、スカラー関数の微分で書けていることが分かりました。よく使われる言葉として、$D^{(1)}$を$e$-接続、$D^{(-1)}$を$m$-接続と呼び、$D^e,D^m$と書きます。それぞれexponential,mixtureの頭文字です(私はこれが覚えにくかったので、$\alpha=-1$に対応する方はminusのmと覚えました)。この言葉の由来を理解するには他にもいくらか紹介しなければなりませんので、このノートでは割愛します。これまでの議論と合わせると、次の命題を得ました。
指数型分布族
$$
p(x,\theta)=\exp\left(C(x)+\sum_{i=1}^nF_i(x)\theta^i-\varphi(\theta)\right)
$$
の定める統計多様体$(\Theta,D^e,g)$はHesse多様体である。
より詳しく、$g$はFisher計量で、$D^e$は$\{\theta^i\}$をAffine座標とする平坦接続で、$\varphi$はHesseポテンシャルである。また$D^m$はFisher計量$g$に関する双対接続である。
最後に、1次元正規分布族の定める統計多様体を見てみましょう。1次元正規分布族は
$$
p(x,\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\\
=\exp\left(-x^2\frac{1}{2\sigma^2}+x\frac{\mu}{\sigma^2}-\frac{\mu^2}{2\sigma^2}-\log\sqrt{2\pi}\sigma\right)
$$
となるから、
$$
F_1(x)=-x^2,\ F_2(x)=x,\ \theta^1=\frac{1}{2\sigma^2},\ \theta^2=\frac{\mu}{\sigma^2},\\
\varphi(\theta^1,\theta^2)=\frac{\mu^2}{2\sigma^2}+\log\sqrt{2\pi}\sigma=\frac{(\theta^2)^2}{4\theta^1}+\frac{1}{2}\log(\pi/\theta^1)
$$
と置けば指数型分布族となるのでした。$\varphi$を微分してFisher計量を求めると、
$$
ds^2=\frac{1}{2\theta^1}\left(((\theta^2/\theta^1)^2+1/\theta^1)(d\theta^1)^2-2(\theta^2/\theta^1)d\theta^1d\theta^2+(d\theta^2)^2\right)
$$
となります。この2次元リーマン多様体はあまり見慣れないですね(少なくとも私は)。そこでもともとの$\{\mu,\sigma\}$の座標に戻してみましょう。すると
$$
ds^2=\frac{d\mu^2+2d\sigma^2}{\sigma^2}
$$
となります。$\sigma\mapsto\sigma/\sqrt{2}$と置きなおすと、
$$
ds^2=2\frac{d\mu^2+d\sigma^2}{\sigma^2}
$$
となって、双曲平面ということが分かりました。正規分布達の作る空間が負の定曲率空間と見なせるという事実をどう理解すればよいのかまだ私には分かりません。Affine座標$\{\theta^1,\theta^2\}$の座標曲線を横軸が$\mu$軸で縦軸が$\sigma$軸の上半平面に描いたのが下図です。
双曲平面上のAffine座標$\{\theta^1,\theta^2\}$
ピンクの線達が$\theta^2$-曲線達で、グレーの線達が$\theta^1$-曲線です(見やすいようにすこしデフォルメしてます)。正直、$\{\theta^1,\theta^2\}$というあまりきれいに見えない座標が統計多様体としての、またはより詳細にHesse多様体としての構造はにとって重要であるということはなかなか腑に落ちない部分もあります。
ついでに双対Affien座標も描いてみましょう。双対Affine座標$\{\eta_1,\eta_2\}$は
$$
\eta_1=\frac{\partial\varphi}{\partial\theta^1}=-\frac{1}{2\theta^1}-\frac{(\theta^2)^2}{4(\theta^1)^2}=-\mu^2-\sigma^2,\\
\eta_2=\frac{\partial\varphi}{\partial\theta^2}=\frac{\theta^2}{2\theta^1}=\mu
$$
となります。よって座標曲線達は下図のようになります。
双曲平面上のAffine座標$\{\eta_1,\eta_2\}$
グレーの曲線達が$\eta_1$-曲線、ピンクの曲線達が$\eta_2$-曲線です。こういう座標曲線を見て何かすぐ分かるわけではないのですが、こうして遊ぶことで理解を深めることはできるでしょう。
他にもDivergence関数を考察したり、測地線を描いたりして遊べます。また、指数型確率分布族は他にも有名な例として、多項族分布、Poisson分布、指数族分布があります。これらはまた別のノートにまとめることにします。