文献あり

【情報幾何学】統計多様体とは何か

3083

統計多様体（またはCodazzi多様体）は情報幾何学の舞台です。ノート１では定義はしましたが、実際には接続がflatなHesse多様体に限り議論しました。一般の統計多様体の双対接続構造はflatとは限りません。またその定義も単純には理解しにくいように思いました。ここでは統計多様体を受け入れやすくなるために応用よりも概念的な解説をします。（※私は情報幾何が専門ではありません、従って間違いや、厳密でない部分がある可能性があります、何かあったら連絡ください）

距離空間とは距離関数が備わっている位相空間です。リーマン多様体は内積が備わることで距離空間となっている位相空間（の一種）です。では統計多様体は何が備わっているのでしょうか。それはenergy関数あるいはcost関数です。統計多様体とは、２点間を移動するのに必要なenergy、costが定義されているリーマン多様体と理解することができます（唯一の見解ということはない、実際同値な特徴づけはある、しかしこれが概念的に一番すっきりしていると思う）。ただし、このenergy関数はやや狭い意味（２点が非常に近い場合はリーマン距離の２乗に比例するということを仮定）のものです。このenergy関数をdivergence関数と呼んでいます。divergenceはenergy=costなので必ずしも距離の公理を満たさないことも納得できます。また、Henmi,Kobayashi (2000)では、divergenceがある種の弾性エネルギーと見なせることが示されています。そしてこのdivergence関数は双対接続構造と同値です。energyがある種のdualityと同値というのはどう理解すべきなのかよく分かりませんが、興味深いことであります。

統計多様体の定義１（torsion free双対接続構造）

まずよく見る統計多様体の定義から入りましょう。この定義はtorsion freeな双対接続によるものです。概念的に意味が分かりずらいと思いますが、使いやすいというメリットもあります。実際この定義がよく引用されるのは使いやすいからでしょう。このノートを通して、リーマン接続は$\nabla$で表します。

統計多様体の定義１

$(M,g,D)$が統計多様体（Codazzi多様体）とは、$D$がtorsion freeで、
\begin{align} Xg(Y,Z)=g(D_XY,Z)+g(Y,D^\ast_XZ) \end{align}
で接続$D^\ast$を定義するとき、以下の同値な条件のうちいずれかを満たすものを言う。
(i)$D^\ast$もtorsion free
(ii)$Dg$がsymmetric
(iii)$\gamma_XY=\nabla_XY-D_XY$は$g(\gamma_XY,Z)=g(\gamma_XZ,Y)$を満たす。

まずこれらの条件(i),(ii),(iii)が同値であることを見ましょう。ポイントは$(D_Xg)(Y,Z)=X(g(Y,Z))-g(D_XY,Z)-g(Y,D_XZ)$を計算するときに、$X(g(Y,Z))$をリーマン接続で展開$\nabla$するか、$D,D^\ast$で展開するかの選択です。$D,D^\ast$で展開すると(i),(ii)の同値性が得られます。
実際、
\begin{align} (D_Xg)(Y,Z)&=X(g(Y,Z))-g(D_XY,Z)-g(Y,D_XZ)\\ &=g(Y,D^\ast_XZ-D_XZ)=g(D^\ast_XY-D_XY,Z) \end{align}
より
\begin{align} (D_Xg)(Y,Z)-(D_Yg)(X,Z)=g(D^\ast_XY-D^\ast_YX-[X,Y],Z) \end{align}
となって(i),(ii)の同値性が得られます。
また、リーマン接続で展開すると
\begin{align} (D_Xg)(Y,Z)&=X(g(Y,Z))-g(D_XY,Z)-g(Y,D_XZ)\\ &=g(\gamma_XY,Z)+g(Y,\gamma_XZ) \end{align}
となり、$D$がtorsion freeであることから、$\gamma_XY=\gamma_YX$であることに注意すると、
\begin{align} &(D_Xg)(Y,Z)-(D_Yg)(X,Z)\\ &=g(\gamma_XY,Z)+g(Y,\gamma_XZ)-g(\gamma_YX,Z)-g(X,\gamma_YZ)\\ &=g(Y,\gamma_XZ)-g(X,\gamma_YZ)\\ &=g(Y,\gamma_ZX)-g(X,\gamma_ZY) \end{align}
となり、(ii),(iii)の同値性が従います。

次に統計多様体の重要な性質を見ましょう。

統計多様体$(M,g,D,D^\ast)$に対して、
\begin{align} (D_Xg)(Y,Z)&=g(D^\ast_XY-D_XY,Z),\\ D+D^\ast&=2\nabla \end{align}
が成り立つ。

一つ目はすでに示した。二つ目は
\begin{align} g(D^\ast_XY,Z)&=Xg(Y,Z)-g(Y,D_XZ)\\ &=g(\nabla_XY+\gamma_XY,Z)\\ &=g(2\nabla_XY-D_XY,Z) \end{align}
より従う。

これらを$D,D^\ast$について解きなおすと次が得られます。

統計多様体$(M,g,D,D^\ast)$に対して、
\begin{align} g(D_XY,Z)=g(\nabla_XY,Z)-\frac{1}{2}D_Xg(Y,Z),\\ g(D^\ast_XY,Z)=g(\nabla_XY,Z)+\frac{1}{2}D_Xg(Y,Z) \end{align}
が成り立つ。

この公式は$D,D^\ast$が$\nabla$を基準として、$\pm Dg$ずれたものであることを言っています。しかし第一の式を$D$の定義として採用することはできないように見えます。$Dg$は$D$を使って定義されているからです。ところがこの方針はうまくいき、統計多様体の２つ目の同値な定義を与えます。

統計多様体の定義２（リーマン多様体の亜種みたいなやつ）

ご存じのように、リーマン多様体とは微分多様体$M$にリーマン計量と呼ばれる２階共変対称テンソル場$g$が備わったものです。では３階共変対称テンソル場もさらに与えるのはどうでしょうか。リーマン多様体の亜種というか進化系というか兄弟というか、そんな感じがします。二つ目の統計多様体の定義はまさにこれです。

統計多様体の定義２

リーマン多様体$(M,g)$とその上の対称３階共変テンソル場$C$の組$(M,g,C)$を統計多様体という。

全然違うように見えますがこれらは同値です。これを示しましょう。

定義１を仮定すると、$C=D g$とすれば、定義１の条件(ii)より$C$は対称となり、$(M,g,C=D g)$は定義２の統計多様体となります。

次に、定義２を仮定します。まず、
\begin{align} {}^{D^\ast}\Gamma^i_{jk}+{}^D\Gamma^i_{jk}&={}^\nabla\Gamma^i_{jk},\\ {}^{D^\ast}\Gamma^i_{jk}-{}^D\Gamma^i_{jk}&=C^i_{jk} \end{align}
を満たす接続$D,D^\ast$を考えます。ただし、接続$D$の接続の係数を${}^D\Gamma^i_{jk}$などと書いています。これは一意的に存在して、
\begin{align} D&=\nabla-\frac{1}{2}\tilde{C},\\ D^\ast&=\nabla+\frac{1}{2}\tilde{C},\\ g(X&,\tilde{C}(Y,Z))=C(X,Y,Z) \end{align}
となります。
このとき、$D,D^\ast$がtorsion freeであることは明らかです。さらに、
\begin{align} Xg(Y,Z)&=g(\nabla_XY,Z)+g(Y,\nabla_XZ)\\ &=g(D_XY+\frac{1}{2}\tilde{C}(X,Y),Z)+g(Y,D^\ast_XZ-\frac{1}{2}\tilde{C}(X,Z))\\ &=g(D_XY,Z)+g(Y,D^\ast_XZ) \end{align}
となるため、$(M,g,D)$は定義１の統計多様体となります。
ついでに
\begin{align} (D_Xg)(Y,Z)&=X(g(Y,Z))-g(D_XY,Z)-g(Y,D_XZ)\\ &=g(\nabla_XY,Z)+g(Y,\nabla_XZ)-g(D_XY,Z)-g(Y,D_XZ)\\ &=C(X,Y,Z) \end{align}
も成り立ちます。

Divergenceと統計多様体

定義１と２が同値な構造であることが分かりました。しかしここまで冒頭で述べたdivergenceに関する話題が全く出てきてません。ではいよいよdivergenceを定義し、双対接続構造との関係を見ましょう。

まず、divergenceの一般的な定義をします。

divergenceの公理

多様体$M$に対して、滑らかな写像$D(\cdot||\cdot):M\times M\rightarrow\mathbb{R}$で次の性質を満たすものをDivergenceと呼ぶ。

(i)$D(p||q)\geq0,\ p,q\in M$

(ii)$D(p||q)=0\ \Leftrightarrow\ p=q$

(iii)$p\in M$の近傍の点$q$に対して、ある正定値な対称行列$g_{ij}(p)$があり、Taylor展開すると
\begin{align} D(p||q)=&\frac{1}{2}g_{ij}(p)(x^i(q)-x^i(p))(x^j(q)-x^j(p))\\ &+O(|x^i(q)-x^i(p)|^3) \end{align}
となる。

条件(iii)はもう少しかっこよく言いたいですね。

では次に統計多様体上でdivergenceが定義されることを見ます。ただ以下に定義されるdivergenceは一般には局所的にしか定義されないので、上の定義はややはったりかもしれません。

統計多様体上のdivergence

$(M,g,D,D^\ast)$を統計多様体とする。D-測地線による指数写像を${\rm exp}^D$とする。$p\in M$に対して、$U$を$p$の${\rm exp}^D$に関する正規座標近傍とする。$q\in U$に対して、$p,q$を結ぶD-測地線を$\gamma:[0,1]\ni t\mapsto \gamma(t)\in U,\ \gamma(0)=p,\ \gamma(1)=q$とする。ただし、$t$はaffineパラメータとする。
このとき、divergenceを
\begin{align} D(p||q):=\int_0^1t||\dot{\gamma}(t)||^2dt \end{align}
と定義する。

自己双対、すなわち$D=D^\ast=\nabla$のときは、$D(p||q)=\frac{1}{2}d(p,q)^2$となり、これは測地線のエネルギーです。従って、divergenceはある種のエネルギーであると解釈すればよいと思われます。実際、Henmi, Kobayashi(2000)では、divergenceはフックの法則に基づく特殊なバネが蓄えるエネルギーであることが明らかにされています。また、自己双対とは限らない一般の場合において、
\begin{align} \frac{1}{2}(D(p||q)+D(q||p))=\frac{1}{2}\int^1_0||\dot{\gamma}(t)||^2dt \end{align}
となることから、divergenceはD-測地線のエネルギーを２つに分けたものであると理解できます。

divergenceから双対接続構造へ

ではdivergenceが与えられたときにいかに統計多様体の構造が出てくるのか見ましょう。

$M$の任意のチャートを$(U,\{x^i\})$とし、これをコピーして$M\times M$のチャート$(U\times U,\{x^i,y^i\})$とします。ただし、コピーした座標関数$x^i$は記号を変えて$y^i$としておきます。また$\iota:M\rightarrow M\times M$を$\iota(p)=(p,p)$とします。このとき、
\begin{align} D_{(i_1\cdots i_n|j_1\cdots j_m)}:=\iota^\ast\left(\frac{\partial^{n+m}}{\partial x^{i_1}\cdots\partial x^{i_n}\partial y^{j_1}\cdots y^{j_m}}D(x||y)\right) \end{align}
と定義すると次が成り立ちます。

\begin{align} g_{ij}:=-D_{(i|j)},\\ \end{align}
とおくと$g_{ij}$は正定値な２階共変対称テンソル場となり、リーマン計量を定める。さらに、
\begin{align} \Gamma_{ijk}=g_{il}\Gamma^l_{jk}:=-D_{(jk|i)},\\ \Gamma^\ast_{ijk}=g_{il}\Gamma^{\ast l}_{jk}:=-D_{(i|jk)} \end{align}
とおくと、$\Gamma,\Gamma^\ast$はtorsion freeな接続の係数を定義する。

$g_{ij}$が２階共変対称テンソル場であることは明らかであり、Divergenceの条件(iii)より正定値となる。また座標変換$x'^i=x'^i(x^j)$に伴い
\begin{align} \Gamma_{ijk}=\frac{\partial x'^\alpha}{\partial x^i}\frac{\partial x'^\beta}{\partial x^j}\frac{\partial x'^\gamma}{\partial x^k}+\frac{\partial^2x'^\alpha}{\partial x^j\partial x^k}\frac{\partial x'^\beta}{\partial x^i}g'_{\alpha\beta} \end{align}
と変換することが単純な計算により確かめられる。従って、接続の係数を定める。$\Gamma^\ast$も同様である。また定義よりtorsion freeであることも明らかである。

さらに定義より、
\begin{align} \iota_\ast\left(\frac{\partial}{\partial x^k}\right)=\frac{\partial}{\partial x^k}+\frac{\partial}{\partial y^k} \end{align}
となりますから、
\begin{align} \partial_kg_{ij}&=-\frac{\partial}{\partial x^k}D_{(i|j)}=-\frac{\partial}{\partial x^k}\iota^\ast (\partial_{x^i}\partial_{y^j}D(x||y))\\ &=-\iota_\ast\left.\left(\frac{\partial}{\partial x^k}\right)(\partial_{x^i}\partial_{y^j}D(x||y))\right|_{x=y}\\ &=-\left.\left(\frac{\partial}{\partial x^k}+\frac{\partial}{\partial y^k}\right)(\partial_{x^i}\partial_{y^j}D(x||y))\right|_{x=y}\\ &=-D_{(ki|j)}-D_{(i|kj)} =\Gamma_{jki}+\Gamma^\ast_{ikj} \end{align}
となります。従って、$\Gamma,\Gamma^\ast$は$g$に関して双対接続です。これでdivergence関数が与えられると、それを微分してtorsion freeな双対接続構造、すなわち統計多様体が導かれることが分かりました。

統計多様体のdivergenceのconsistency

統計多様体の双対接続構造の下で定義されたdivergenceが導く双対接続構造が元のものと一致するのか確認しておきましょう。これでdivergenceとtorsion free双対接続構造が同値であることが分かり（たぶん）、冒頭で述べた統計多様体の概念的にすっきりした捉え方が完成します。

設定を復習します。$(M,g,D,D^\ast)$を統計多様体とし、D-測地線による指数写像を${\rm exp}^D$とします。$p\in M$に対して、$U$を$p$の${\rm exp}^D$に関する正規座標近傍とし、$q\in U$に対して、$p,q$を結ぶD-測地線を$\gamma:[0,1]\ni t\mapsto \gamma(t)\in U,\ \gamma(0)=p,\ \gamma(1)=q$とします。ただし、$t$はaffineパラメータとします。
このとき、divergenceは
\begin{align} D(p||q):=\int_0^1t||\dot{\gamma}(t)||^2dt \end{align}
と定義されました。

まず次の補題を示します。

$p\in U$の適当な座標$\{x^i\}$に関して、$x^i(q)-x^i(p)=z^i$とおくと
\begin{align} D(p||q)=\frac{1}{2}g_{ij}(p)z^iz^j+\frac{1}{6}\Lambda_{ijk}z^iz^jz^k+O(||z||^4),\\ \Lambda_{ijk}=2\partial_ig_{jk}-\Gamma_{kij} \end{align}
となる。

$X^i=\dot{\gamma}^i(t)$とおくと、
$$
\gamma^i(t)=x^i(p)+tX^i-\frac{t^2}{2}\Gamma^i_{jk}X^jX^k+O(||tX||^3)
$$
と展開できる。$t=1$とすると、
\begin{align} z^i&=X^i-\frac{1}{2}\Gamma^i_{jk}X^jX^k+O(||X||^3),\\ X^i&=z^i+\frac{1}{2}\Gamma^i_{jk}X^jX^k+O(||X||^3),\\ &=z^i+\frac{1}{2}\Gamma^i_{jk}(z^j+\frac{1}{2}\Gamma^j_{lm}X^lX^m+O(||X||^3))(z^k+\frac{1}{2}\Gamma^k_{lm}X^lX^m+O(||X||^3))+O(||X||^3),\\ &=z^i+\frac{1}{2}\Gamma^i_{jk}z^jz^k+O(||z||^3) \end{align}
となる。よって
\begin{align} \dot{\gamma}^i(t)=X^i-\Gamma^i_{jk}X^jX^k=z^i+\frac{1}{2}(1-2t)\Gamma^i_{jk}z^jz^k+O(||z||^3) \end{align}
となる。さらに
\begin{align} g_{ij}(\gamma(t))&=g_{ij}(p)+X^k\partial_kg_{ij}(p)t+O(t^2)\\ &=g_{ij}(p)+z^k\partial_kg_{ij}(p)t+O(t^2,||z||^2) \end{align}
であるから、
\begin{align} tg_{\gamma(t)}(\dot{\gamma}(t),\dot{\gamma}(t))=tg_{ij}(p)z^iz^j+(t^2\partial_ig_{jk}(p)+(-2t^2+t)\Gamma_{ijk})z^iz^jz^k+O(||z||^4) \end{align}
となる。従って
\begin{align} D(p||q)=\int^1_0t||\dot{\gamma}|^2dt=\frac{1}{2}g_{ij}(p)z^iz^j+\frac{1}{6}(2\partial_ig_{jk}(p)-\Gamma_{ijk})z^iz^jz^k+O(||z||^4) \end{align}
を得る。

では、最後にdivergenceのconsistencyを示します。

統計多様体上のdivergenceが導く双対接続構造は、その統計多様体の元の双対接続構造と一致する。

\begin{align} D(p||q)&=\int^1_0t||\dot{\gamma}|^2dt=\frac{1}{2}g_{ij}(p)z^iz^j+\frac{1}{6}\Lambda_{ijk}z^iz^jz^k+O(||z||^4),\\ &=\frac{1}{2}(g_{ij}(z)+O(||z||^2))z^iz^j+\frac{1}{6}\Lambda_{ijk}z^iz^jz^k+O(||z||^4),\\ \end{align}
となるから、$z^i=x^i(q)-x^i(p)$に気を付けて、
\begin{align} \partial_iD&=\frac{1}{2}\partial_ig_{jk}z^jz^k-g_{ij}z^j-\Lambda_{ijk}z^jz^k/2+O(||z||^3),\\ \partial_j\partial_iD&=\frac{1}{2}\partial_j\partial_ig_{lm}z^lz^m-2\partial_ig_{jk}z^k+g_{ij}+\Lambda_{ijk}z^k+O(||z||^2) \end{align}
より
\begin{align} -D_{(i|j)}&=g_{ij},\\ -D_{(ij|k)}&=2\partial_ig_{jk}-\Lambda_{ijk}=\Gamma^k_{ij} \end{align}
となる。