統計多様体(またはCodazzi多様体)は情報幾何学の舞台です。 ノート1 では定義はしましたが、実際には接続がflatなHesse多様体に限り議論しました。一般の統計多様体の双対接続構造はflatとは限りません。またその定義も単純には理解しにくいように思いました。ここでは統計多様体を受け入れやすくなるために応用よりも概念的な解説をします。(※私は情報幾何が専門ではありません、従って間違いや、厳密でない部分がある可能性があります、何かあったら連絡ください)
距離空間とは距離関数が備わっている位相空間です。リーマン多様体は内積が備わることで距離空間となっている位相空間(の一種)です。では統計多様体は何が備わっているのでしょうか。それはenergy関数あるいはcost関数です。統計多様体とは、2点間を移動するのに必要なenergy、costが定義されているリーマン多様体と理解することができます(唯一の見解ということはない、実際同値な特徴づけはある、しかしこれが概念的に一番すっきりしていると思う)。ただし、このenergy関数はやや狭い意味(2点が非常に近い場合はリーマン距離の2乗に比例するということを仮定)のものです。このenergy関数をdivergence関数と呼んでいます。divergenceはenergy=costなので必ずしも距離の公理を満たさないことも納得できます。また、Henmi,Kobayashi (2000)では、divergenceがある種の弾性エネルギーと見なせることが示されています。そしてこのdivergence関数は双対接続構造と同値です。energyがある種のdualityと同値というのはどう理解すべきなのかよく分かりませんが、興味深いことであります。
まずよく見る統計多様体の定義から入りましょう。この定義はtorsion freeな双対接続によるものです。概念的に意味が分かりずらいと思いますが、使いやすいというメリットもあります。実際この定義がよく引用されるのは使いやすいからでしょう。このノートを通して、リーマン接続は
で接続
(i)
(ii)
(iii)
まずこれらの条件(i),(ii),(iii)が同値であることを見ましょう。ポイントは
実際、
より
となって(i),(ii)の同値性が得られます。
また、リーマン接続で展開すると
となり、
となり、(ii),(iii)の同値性が従います。
次に統計多様体の重要な性質を見ましょう。
統計多様体
が成り立つ。
一つ目はすでに示した。二つ目は
より従う。
これらを
統計多様体
が成り立つ。
この公式は
ご存じのように、リーマン多様体とは微分多様体
リーマン多様体
全然違うように見えますがこれらは同値です。これを示しましょう。
定義1を仮定すると、
次に、定義2を仮定します。まず、
を満たす接続
となります。
このとき、
となるため、
ついでに
も成り立ちます。
定義1と2が同値な構造であることが分かりました。しかしここまで冒頭で述べたdivergenceに関する話題が全く出てきてません。ではいよいよdivergenceを定義し、双対接続構造との関係を見ましょう。
まず、divergenceの一般的な定義をします。
多様体
(i)
(ii)
(iii)
となる。
条件(iii)はもう少しかっこよく言いたいですね。
では次に統計多様体上でdivergenceが定義されることを見ます。ただ以下に定義されるdivergenceは一般には局所的にしか定義されないので、上の定義はややはったりかもしれません。
このとき、divergenceを
と定義する。
自己双対、すなわち
となることから、divergenceはD-測地線のエネルギーを2つに分けたものであると理解できます。
ではdivergenceが与えられたときにいかに統計多様体の構造が出てくるのか見ましょう。
と定義すると次が成り立ちます。
とおくと
とおくと、
と変換することが単純な計算により確かめられる。従って、接続の係数を定める。
さらに定義より、
となりますから、
となります。従って、
統計多様体の双対接続構造の下で定義されたdivergenceが導く双対接続構造が元のものと一致するのか確認しておきましょう。これでdivergenceとtorsion free双対接続構造が同値であることが分かり(たぶん)、冒頭で述べた統計多様体の概念的にすっきりした捉え方が完成します。
設定を復習します。
このとき、divergenceは
と定義されました。
まず次の補題を示します。
となる。
$$
\gamma^i(t)=x^i(p)+tX^i-\frac{t^2}{2}\Gamma^i_{jk}X^jX^k+O(||tX||^3)
$$
と展開できる。
となる。よって
となる。さらに
であるから、
となる。従って
を得る。
では、最後にdivergenceのconsistencyを示します。
統計多様体上のdivergenceが導く双対接続構造は、その統計多様体の元の双対接続構造と一致する。
となるから、
より
となる。