3
大学数学基礎解説
文献あり

【情報幾何学】統計多様体とは何か

2361
0

統計多様体(またはCodazzi多様体)は情報幾何学の舞台です。 ノート1 では定義はしましたが、実際には接続がflatなHesse多様体に限り議論しました。一般の統計多様体の双対接続構造はflatとは限りません。またその定義も単純には理解しにくいように思いました。ここでは統計多様体を受け入れやすくなるために応用よりも概念的な解説をします。(※私は情報幾何が専門ではありません、従って間違いや、厳密でない部分がある可能性があります、何かあったら連絡ください)

距離空間とは距離関数が備わっている位相空間です。リーマン多様体は内積が備わることで距離空間となっている位相空間(の一種)です。では統計多様体は何が備わっているのでしょうか。それはenergy関数あるいはcost関数です。統計多様体とは、2点間を移動するのに必要なenergy、costが定義されているリーマン多様体と理解することができます(唯一の見解ということはない、実際同値な特徴づけはある、しかしこれが概念的に一番すっきりしていると思う)。ただし、このenergy関数はやや狭い意味(2点が非常に近い場合はリーマン距離の2乗に比例するということを仮定)のものです。このenergy関数をdivergence関数と呼んでいます。divergenceはenergy=costなので必ずしも距離の公理を満たさないことも納得できます。また、Henmi,Kobayashi (2000)では、divergenceがある種の弾性エネルギーと見なせることが示されています。そしてこのdivergence関数は双対接続構造と同値です。energyがある種のdualityと同値というのはどう理解すべきなのかよく分かりませんが、興味深いことであります。

統計多様体の定義1(torsion free双対接続構造)

まずよく見る統計多様体の定義から入りましょう。この定義はtorsion freeな双対接続によるものです。概念的に意味が分かりずらいと思いますが、使いやすいというメリットもあります。実際この定義がよく引用されるのは使いやすいからでしょう。このノートを通して、リーマン接続はで表します。

統計多様体の定義1

(M,g,D)が統計多様体(Codazzi多様体)とは、Dがtorsion freeで、
Xg(Y,Z)=g(DXY,Z)+g(Y,DXZ)
で接続Dを定義するとき、以下の同値な条件のうちいずれかを満たすものを言う。
(i)Dもtorsion free
(ii)Dgがsymmetric
(iii)γXY=XYDXYg(γXY,Z)=g(γXZ,Y)を満たす。

まずこれらの条件(i),(ii),(iii)が同値であることを見ましょう。ポイントは(DXg)(Y,Z)=X(g(Y,Z))g(DXY,Z)g(Y,DXZ)を計算するときに、X(g(Y,Z))をリーマン接続で展開するか、D,Dで展開するかの選択です。D,Dで展開すると(i),(ii)の同値性が得られます。
実際、
(DXg)(Y,Z)=X(g(Y,Z))g(DXY,Z)g(Y,DXZ)=g(Y,DXZDXZ)=g(DXYDXY,Z)
より
(DXg)(Y,Z)(DYg)(X,Z)=g(DXYDYX[X,Y],Z)
となって(i),(ii)の同値性が得られます。
また、リーマン接続で展開すると
(DXg)(Y,Z)=X(g(Y,Z))g(DXY,Z)g(Y,DXZ)=g(γXY,Z)+g(Y,γXZ)
となり、Dがtorsion freeであることから、γXY=γYXであることに注意すると、
(DXg)(Y,Z)(DYg)(X,Z)=g(γXY,Z)+g(Y,γXZ)g(γYX,Z)g(X,γYZ)=g(Y,γXZ)g(X,γYZ)=g(Y,γZX)g(X,γZY)
となり、(ii),(iii)の同値性が従います。

次に統計多様体の重要な性質を見ましょう。

統計多様体(M,g,D,D)に対して、
(DXg)(Y,Z)=g(DXYDXY,Z),D+D=2
が成り立つ。

一つ目はすでに示した。二つ目は
g(DXY,Z)=Xg(Y,Z)g(Y,DXZ)=g(XY+γXY,Z)=g(2XYDXY,Z)
より従う。

これらをD,Dについて解きなおすと次が得られます。

統計多様体(M,g,D,D)に対して、
g(DXY,Z)=g(XY,Z)12DXg(Y,Z),g(DXY,Z)=g(XY,Z)+12DXg(Y,Z)
が成り立つ。

この公式はD,Dを基準として、±Dgずれたものであることを言っています。しかし第一の式をDの定義として採用することはできないように見えます。DgDを使って定義されているからです。ところがこの方針はうまくいき、統計多様体の2つ目の同値な定義を与えます。

統計多様体の定義2(リーマン多様体の亜種みたいなやつ)

ご存じのように、リーマン多様体とは微分多様体Mにリーマン計量と呼ばれる2階共変対称テンソル場gが備わったものです。では3階共変対称テンソル場もさらに与えるのはどうでしょうか。リーマン多様体の亜種というか進化系というか兄弟というか、そんな感じがします。二つ目の統計多様体の定義はまさにこれです。

統計多様体の定義2

リーマン多様体(M,g)とその上の対称3階共変テンソル場Cの組(M,g,C)を統計多様体という。

全然違うように見えますがこれらは同値です。これを示しましょう。

定義1を仮定すると、C=Dgとすれば、定義1の条件(ii)よりCは対称となり、(M,g,C=Dg)は定義2の統計多様体となります。

次に、定義2を仮定します。まず、
DΓjki+DΓjki=Γjki,DΓjkiDΓjki=Cjki
を満たす接続D,Dを考えます。ただし、接続Dの接続の係数をDΓjkiなどと書いています。これは一意的に存在して、
D=12C~,D=+12C~,g(X,C~(Y,Z))=C(X,Y,Z)
となります。
このとき、D,Dがtorsion freeであることは明らかです。さらに、
Xg(Y,Z)=g(XY,Z)+g(Y,XZ)=g(DXY+12C~(X,Y),Z)+g(Y,DXZ12C~(X,Z))=g(DXY,Z)+g(Y,DXZ)
となるため、(M,g,D)は定義1の統計多様体となります。
ついでに
(DXg)(Y,Z)=X(g(Y,Z))g(DXY,Z)g(Y,DXZ)=g(XY,Z)+g(Y,XZ)g(DXY,Z)g(Y,DXZ)=C(X,Y,Z)
も成り立ちます。

Divergenceと統計多様体

定義1と2が同値な構造であることが分かりました。しかしここまで冒頭で述べたdivergenceに関する話題が全く出てきてません。ではいよいよdivergenceを定義し、双対接続構造との関係を見ましょう。

まず、divergenceの一般的な定義をします。

divergenceの公理

多様体Mに対して、滑らかな写像D(||):M×MRで次の性質を満たすものをDivergenceと呼ぶ。

(i)D(p||q)0, p,qM

(ii)D(p||q)=0  p=q

(iii)pMの近傍の点qに対して、ある正定値な対称行列gij(p)があり、Taylor展開すると
D(p||q)=12gij(p)(xi(q)xi(p))(xj(q)xj(p))+O(|xi(q)xi(p)|3)
となる。

条件(iii)はもう少しかっこよく言いたいですね。

では次に統計多様体上でdivergenceが定義されることを見ます。ただ以下に定義されるdivergenceは一般には局所的にしか定義されないので、上の定義はややはったりかもしれません。

統計多様体上のdivergence

(M,g,D,D)を統計多様体とする。D-測地線による指数写像をexpDとする。pMに対して、UpexpDに関する正規座標近傍とする。qUに対して、p,qを結ぶD-測地線をγ:[0,1]tγ(t)U, γ(0)=p, γ(1)=qとする。ただし、tはaffineパラメータとする。
このとき、divergenceを
D(p||q):=01t||γ˙(t)||2dt
と定義する。

自己双対、すなわちD=D=のときは、D(p||q)=12d(p,q)2となり、これは測地線のエネルギーです。従って、divergenceはある種のエネルギーであると解釈すればよいと思われます。実際、Henmi, Kobayashi(2000)では、divergenceはフックの法則に基づく特殊なバネが蓄えるエネルギーであることが明らかにされています。また、自己双対とは限らない一般の場合において、
12(D(p||q)+D(q||p))=1201||γ˙(t)||2dt
となることから、divergenceはD-測地線のエネルギーを2つに分けたものであると理解できます。

divergenceから双対接続構造へ

ではdivergenceが与えられたときにいかに統計多様体の構造が出てくるのか見ましょう。

Mの任意のチャートを(U,{xi})とし、これをコピーしてM×Mのチャート(U×U,{xi,yi})とします。ただし、コピーした座標関数xiは記号を変えてyiとしておきます。またι:MM×Mι(p)=(p,p)とします。このとき、
D(i1in|j1jm):=ι(n+mxi1xinyj1yjmD(x||y))
と定義すると次が成り立ちます。

gij:=D(i|j),
とおくとgijは正定値な2階共変対称テンソル場となり、リーマン計量を定める。さらに、
Γijk=gilΓjkl:=D(jk|i),Γijk=gilΓjkl:=D(i|jk)
とおくと、Γ,Γはtorsion freeな接続の係数を定義する。

gijが2階共変対称テンソル場であることは明らかであり、Divergenceの条件(iii)より正定値となる。 また座標変換xi=xi(xj)に伴い
Γijk=xαxixβxjxγxk+2xαxjxkxβxigαβ
と変換することが単純な計算により確かめられる。従って、接続の係数を定める。Γも同様である。また定義よりtorsion freeであることも明らかである。

さらに定義より、
ι(xk)=xk+yk
となりますから、
kgij=xkD(i|j)=xkι(xiyjD(x||y))=ι(xk)(xiyjD(x||y))|x=y=(xk+yk)(xiyjD(x||y))|x=y=D(ki|j)D(i|kj)=Γjki+Γikj
となります。従って、Γ,Γgに関して双対接続です。これでdivergence関数が与えられると、それを微分してtorsion freeな双対接続構造、すなわち統計多様体が導かれることが分かりました。

統計多様体のdivergenceのconsistency

統計多様体の双対接続構造の下で定義されたdivergenceが導く双対接続構造が元のものと一致するのか確認しておきましょう。これでdivergenceとtorsion free双対接続構造が同値であることが分かり(たぶん)、冒頭で述べた統計多様体の概念的にすっきりした捉え方が完成します。

設定を復習します。(M,g,D,D)を統計多様体とし、D-測地線による指数写像をexpDとします。pMに対して、UpexpDに関する正規座標近傍とし、qUに対して、p,qを結ぶD-測地線をγ:[0,1]tγ(t)U, γ(0)=p, γ(1)=qとします。ただし、tはaffineパラメータとします。
このとき、divergenceは
D(p||q):=01t||γ˙(t)||2dt
と定義されました。

まず次の補題を示します。

pUの適当な座標{xi}に関して、xi(q)xi(p)=ziとおくと
D(p||q)=12gij(p)zizj+16Λijkzizjzk+O(||z||4),Λijk=2igjkΓkij
となる。

Xi=γ˙i(t)とおくと、
$$
\gamma^i(t)=x^i(p)+tX^i-\frac{t^2}{2}\Gamma^i_{jk}X^jX^k+O(||tX||^3)
$$
と展開できる。t=1とすると、
zi=Xi12ΓjkiXjXk+O(||X||3),Xi=zi+12ΓjkiXjXk+O(||X||3),=zi+12Γjki(zj+12ΓlmjXlXm+O(||X||3))(zk+12ΓlmkXlXm+O(||X||3))+O(||X||3),=zi+12Γjkizjzk+O(||z||3)
となる。よって
γ˙i(t)=XiΓjkiXjXk=zi+12(12t)Γjkizjzk+O(||z||3)
となる。さらに
gij(γ(t))=gij(p)+Xkkgij(p)t+O(t2)=gij(p)+zkkgij(p)t+O(t2,||z||2)
であるから、
tgγ(t)(γ˙(t),γ˙(t))=tgij(p)zizj+(t2igjk(p)+(2t2+t)Γijk)zizjzk+O(||z||4)
となる。従って
D(p||q)=01t||γ˙|2dt=12gij(p)zizj+16(2igjk(p)Γijk)zizjzk+O(||z||4)
を得る。

では、最後にdivergenceのconsistencyを示します。

統計多様体上のdivergenceが導く双対接続構造は、その統計多様体の元の双対接続構造と一致する。

D(p||q)=01t||γ˙|2dt=12gij(p)zizj+16Λijkzizjzk+O(||z||4),=12(gij(z)+O(||z||2))zizj+16Λijkzizjzk+O(||z||4),
となるから、zi=xi(q)xi(p)に気を付けて、
iD=12igjkzjzkgijzjΛijkzjzk/2+O(||z||3),jiD=12jiglmzlzm2igjkzk+gij+Λijkzk+O(||z||2)
より
D(i|j)=gij,D(ij|k)=2igjkΛijk=Γijk
となる。

参考文献

[1]
Henmi, Masayuki, and Ryoichi Kobayashi, Hooke’s law in statistical manifolds and divergences, Nagoya Mathematical Journal 159 (2000): 1-24.
[2]
Ay, Nihat, and Shun-ichi Amari, A novel approach to canonical divergences within information geometry, Entropy 17.12 (2015): 8111-8129.
[3]
Amari Shun-ichi, Information geometry and its applications
投稿日:2021522
更新日:32
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

Submersion
Submersion
98
31386
専門は相対論やLorentz幾何です。Einstein系の厳密解の構成や接触幾何の応用などの研究をしています。Ph.D保有者の中ではクソ雑魚の部類です。

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. 統計多様体の定義1(torsion free双対接続構造)
  2. 統計多様体の定義2(リーマン多様体の亜種みたいなやつ)
  3. Divergenceと統計多様体
  4. divergenceから双対接続構造へ
  5. 統計多様体のdivergenceのconsistency
  6. 参考文献