2021 5/17 divergenceについて追記
2022 1/29 命題5の証明を修正
これは情報幾何学の勉強ノートです。仮定する微分幾何の知識は多様体、座標近傍系、テンソル場、Poincareの補題、リーマン構造、接続、捩率、曲率などです。またこのノートの目標である指数型分布族が定めるHesse構造(双対平坦構造ともいう)までできる限り最短でたどり着けるようにしました。基本的には私の勉強用です。
私は情報幾何が専門ではありません。このノートを書いた理由ですが、情報幾何の初学の段階において、登場する色々な設定や座標やその他の概念の散在的で有機的な繋がりがいまいち多様体論的に、幾何学的にすっきり整理して理解しにくかったという経験があります。なのでこのノートでは一つの論理的な道筋がとらえやすいことと、conceptualな単純な理解ができることに配慮したつもりです。そのためやや叙述的な文章があるかもしれません。またこのノートではいくらかの重要な特徴付けが書かれていません。あくまでも種々の概念に慣れることのみを目的としたからです。従って読んでいただくにしても補助教材としてお読みください。私も勉強し始めたばかりですので、分からないことも多いです。数学的な間違いもあるかもしれません(数学が苦手なので)。また情報幾何に興味を持つ方々との議論のきっかけになればという思いもありこのノートを書きましたので何か思うことがありましたらご連絡ください。あるいは致命的なミスをしていたら教えてください。
以下では、多様体は滑らかを仮定します(滑らかさについてどの程度仮定すれば情報幾何をやる上で十分なのかよく知らない)。なお誤解の余地の無い場合には断らずにEinstein規約を使います。計量によるmusical isomorphismまたはmetric dual(添え字の上げ下げのこと)をで表します、すなわちに対して、
です。
Affine多様体
情報幾何では平坦接続を備えた多様体(Affine多様体)が舞台になることが多いです。Affine多様体とは座標変換がAffine変換(一次変換)となるような多様体です。
Affine多様体
微分多様体の局所座標近傍系をとする。任意のに対して、(座標の)変換写像
がAffine写像であるとき、をAffine多様体という。この条件を満たす各をAffine座標と呼ぶ。
定義だけ見ると単純そうですが、かなり難しいようです。こちらに簡単な文献紹介があります
http://pantodon.shinshu-u.ac.jp/topology/literature/ja/affine_manifold.html
Affine多様体は平坦接続の存在で特徴づけることができます。
Affine多様体と平坦接続
微分多様体がAffine多様体であることと平坦接続を許容することは同値である。
がAffine多様体とする。を局所Affine座標とするとき、接続を
で定義する。座標変換がAffineにとれるので任意のAffine座標に対してこの定義は意味を持つ。この接続の捩率と曲率が0であることは明らかである。
逆に、が平坦接続を許容するとする。このとき、接続の係数の変換性から二つの座標に対して、
となるので、はAffine多様体である。
この命題より、Affine多様体をと表すことにします。さらに上の証明のようにを定義したAffine座標系を接続に関するAffine座標系と呼びます。また平坦接続をのAffine構造と呼びます。Affine構造は一意的とは限りません。
Hesse構造
Affine構造とリーマン構造が次の意味で仲良しなのがHesse構造です。
Hesse多様体
Affine多様体とスカラー関数があり、上のリーマン計量が
で与えられるとき、をHesse構造といい、をHesse多様体という。またをHesseポテンシャルという。
Hesse構造の条件は計量がポテンシャル関数で書けているということですので、このようなことが成り立つためにはに関して何らかの可積分条件が成り立っていることが期待されます。
Hesse構造とCodazzi方程式
Affine多様体とリーマン計量が与えられたとき、がHesse多様体であることと、Codazzi方程式
が成り立つことは同値である。
Hesse構造に対して、Codazzi方程式が成り立つことは明らかである。
逆に、あるAffine座標近傍においてCodazzi方程式が満たされているとすれば、1-form
は
であるから、この座標近傍上でスカラー関数があり、
となる。よって
となる。再び、
であるから、この座標近傍上でスカラー関数があり、
となる。
従って、
を得る。
双対Hesse構造
次に与えられたHesse構造に対して、定義される双対Hesse構造を定義してその性質を調べます。
その前に双対Hesse構造の雰囲気を述べておきます。ユークリッド空間などリーマン多様体として平坦な多様体では、直交座標に関する座標基底とその双対基底は計量的に双対な関係(musical isomorphismで写りあう、metric dual、添え字上げ下げの関係)にあります、すなわちとなっています。平坦でないリーマン多様体では任意の座標に対して、は成り立ちませんが、ある2つの座標に対して、となる可能性はあります。もしこのようになっていたなら双対接空間がこの多様体上に"転写"され、それが座標で眺める景色であると思えなくもない気がします(この辺は個人の感性かもしれない)。しかし一般にはこの条件の成立すらも全く期待できません。ではいつ起こるのかという問い対する一つの答えとしてHesse構造を挙げることができます。
これまで座標を表す記号はを使っていましたが、情報幾何の文化に従ってAffine座標はやなどを使うことにします。Affine座標近傍に対して変換
を考えてみましょう。Hesse構造のおかげで、このたちは新しい座標を定めることが分かります。すなわち、
となり、この変換の逆変換が上で存在することが分かります。さらに、のAffine座標変換に伴って、は
となるので、はAffine変換で写りあうことが分かります。従って、座標近傍達は、のAffine座標系を定義することが分かりました。しかしもちろんこの新しいAffine座標系がに関するAffine座標系となっているとは限りません(ほとんどの場合違います)。命題の形にまとめておきます。
双対Affine座標系
Hesse多様体のAffine座標系に対して、座標変換
により定義される座標近傍系はのAffine構造を定める。これをの双対Affine座標系という。
さて、双対Affine座標系が定義されたので、当然この座標に関して平坦接続が定義されます。このについては次の節で性質を論じます。ここでは定義だけして置いておいて、まずは2つの座標系の関係を論じておきましょう。
の双対関係
Hesse多様体において、に関するAffine座標系をとし、その双対Affine座標をとするとき、
が成り立つ。
双対Affine座標は上に双対接空間の世界が座標となって現れた構造であると言えます。この言葉の意味をCotangent bundleの観点からもう少しはっきりさせれるのですが、やや寄り道になるので先に進みます。さらにもう一つ双対的な関係が成り立ちます。
双対Hesse構造
Hesse多様体において、に関するAffine座標系をとし、その双対Affine座標をとするとき、局所的にあるスカラー関数があり、
が成り立つ。
従って、はHesse構造である。
であるから、局所的にあるスカラー関数が存在して、となる。従って、
が成り立つ。また
である。
この命題で示されたHesse構造をの双対Hesse構造といいます。また情報幾何学ではを双対平坦構造とよく呼びます。最後にこれまでに分かったことを使うと簡単に
が分かります。よっては定数ですが、の選び方には定数シフトの任意性がありますので、
となるように選ぶことができます。これ以降、双対Hesse構造について議論するときは、断りなく各Affine座標近傍上でポテンシャル関数をこのように取ることにします。またこのようなの関係をLegendre変換の関係にあるといいます。
Hesse構造の双対接続
前節で、Hesse多様体のに関するAffine座標の双対Affine座標に関する平坦接続を定義しました。ここではの関係を調べます。初めに、リーマン接続を見てみましょう。Codazzi方程式のおかげで、Christoffel記号は簡単になり、Affine座標に関して、
となります。
次に、のに関する接続の係数は、座標変換に伴う接続の係数の変換則を考えれば、
となります。この最後の式をとしたいところですが、接続の係数の2倍は接続の係数にはなりません。変換則を考えればわかりますが、接続の係数の全体は線形空間を成さず、Affine空間を成します。従って、2つの接続の係数のAffine結合が接続の係数となります。今、我々はに関する平坦接続を材料として持ってますから、
とすればよいことが分かります(もちろんある接続を2つの接続のAffine結合として表示する仕方は一意的ではないです)。よって次の命題を得ました。
の関係
Hesse多様体において、双対接続をとすると
が成り立つ。
はリーマン接続を2つに分けた感じに思えます。このことは次の命題からもうかがえます。
※上の証明で最後にを付け加えなければ、テンソル場の等式として成立しないことに注意。
より一般的な状況として、捻じれの無い接続とリーマン計量を考えるとき、
が成り立つならばは互いに双対接続であるといいます。このときはどちらもCodazzi方程式を満たし、Hesse構造の平坦接続とは限らない一般化となっています。これはCodazzi構造と呼ばれ、Codazzi構造を持つ多様体をCodazzi多様体と呼びます。これは情報幾何学では統計多様体とも呼ばれ、後で出てくる確率分布族が定める多様体がその例になっています(名称の由来もおそらくここでしょう)。その構造についてここでは深入りして一般論はしませんが、定義だけ改めて述べておきます。(論理的にはこちらを先に定義してもよいのですが、Hesse構造のみを扱う場合はこちらの方がminimalかなと思ったのでこのような構成にしました。)
統計多様体
リーマン多様体と捻じれの無い接続に対して、接続を
で定義する。このとき、が捻じれがないとき、を統計多様体という。
Hesse多様体のDivergence関数
統計学で1967年にL.M.Bregmanによって凸関数に対して定義されたDivergence関数というものがあるそうで、これはBergman divergenceと呼ばれます。これは感覚的には凸関数を近傍の点から線形に推定したものと実際の値との誤差と言った感じです。Hesseポテンシャルは凸関数なので、Hesseポテンシャルに対して、Bergman divergenceがHesse多様体(の一つの座標近傍に属する2点)に対して定義されます。
Divergence関数
Hesse多様体において、に関するAffine座標近傍をとし、Hesseポテンシャルをとするとき、
に対して、Divergence関数を
と定義する。
この定義がAffine座標の取り方に寄らないことは明らかです。この式の意味を読み取るに、の値を近くの点の近傍のの情報から線形に推定したものと実際のとの誤差といったところでしょうか(この時点ではどんな意味があるのかよく分からない)。
をの関数だと見なすとき、
なので、はに十分近い近傍では、において、極小値を取ります。従って、に十分近い近傍では、
が成り立ちます。
Divergenceには双対構造を用いた表示もあります。こちらの表示を定義とする文献もあります。
Hesse多様体において、Affine座標近傍とし、その双対Affine座標とする。またをそれぞれに関するHesseポテンシャルとする。このとき、に対して、
が成り立つ。
また双対Affine座標に関してのDivergence関数をとすると、
という関係が成り立ちます。
Divergence関数は距離にはならないのですが、距離の2乗に類似の性質持ち、Pitagorusの定理的なものが成り立ちます。
Divergence関数に対するPitagorus的定理
Hesse多様体に対して、双対接続をとする。あるAffine座標近傍と3点に対して、とを結ぶ-測地線が、とを結ぶ-測地線とにおいて直交するとき、
が成り立つ。
平坦接続に関する測地線はAffine座標に関しては一次関数で表されるから
と表される。この2つはにおいて直交するから
が成り立つ。従って、
ところでdivergence関数を一つの座標近傍上でしか定義していませんが、大域的に考えるようなものではないということなのでしょうか、良くわかりません。
ここまで結局divergenceが一体何なのかはよく分かりませんし、この後もよく分からないままです。少なくとも距離の2乗のようなもので何らかの離れ具合を測っているということです。divergenceを局所的にテイラー展開することでよりそれっぽく思うこともできます。
であるから、の近傍で展開すると、
となります。ということなのでにかなり近い点に関してはdivergenceは距離の2乗と思って良さそうです。
確率分布族が定めるHesse構造
ここでは確率分布の空間が定めるHesse構造を論じます。リーズナブルな仮定を満たす確率分布の族の空間を多様体と見なし、そのHesse構造の一般論を展開します。
まず、確率分布の族の空間とは何かを説明します。例えば、1次元正規分布は平均と標準偏差で決定されるので、一次元正規分布の全体は集合と見なすことができます。このように確率分布のパラメータを多様体の座標と見なすことができるわけです。設定を正確にしましょう。
確率変数は離散型、連続型のどちらかとします(離散型の場合は以下で出てくる積分は適宜に読み替えてください、あるいはDirac測度など適切な測度を適用してください)。をの単連結な次元開部分多様体とします(もしかしたら特殊な状況では境界を持ったり、滑らかでなかったりするかもしれません、分かりません)。をパラメータとする上の確率分布の族
は次の条件を満たすとします。
(1)はに関して滑らか
(2)に関する積分とに関する微分は交換可能
以降は特に断らずにこれらのことを仮定します。
任意の確率変数の確率に関する期待値を取る操作をと表すことにします。
統計学ではFisher情報行列というものがあるそうで、情報幾何ではこれをリーマン計量と見なします。
Fisher情報行列は半正定値、すなわちであることが簡単な議論から示されますが、これを上のリーマン計量と見なしたいのでより強く正定値となっていると仮定します(この仮定は多くの確率分布で満たされています)。を上の座標と思うと、に関する積分とに関する微分が可換なのでが2階対称共変テンソル場を定めまず。従ってFishier情報行列を上のリーマン計量と見なすことができます。これをFisher計量と呼びます。(半正定値であるような退化リーマン構造の幾何学が情報幾何の文脈で研究されているのか気になりますが、知りません)
これでパラメータの多様体にリーマン構造が入りました。さらにこれがHesse構造となるかどうかは確率分布の性質によります。この後に紹介する指数型分布族であるときはHesse構造が入ります。しかしその前にFisher計量に関して互いに双対接続となる2つの接続を一般論として導入することができます。
まず、Fisher計量に対するリーマン接続を求めましょう。に関する接続の係数は
なので、まずを計算します。
より
となるので、
となります。ここで第二項目は3階共変テンソル場であり、接続の係数に3階テンソル場を加えても接続の係数なので、
と置くとき
は新しい接続を定義する。これは明らかに捻じれの無い接続です。さらに
が成り立つため、
となります。従って、はFisher計量に関して互いに双対接続となります。
指数型分布族
正規分布はの形で書かれています。どんなものでも無理やりの"肩"に乗せることはできます。このとき、"肩"の中身がパラメータに関して一次式とスカラー関数の和とできる場合が、指数型分布族です。有名な多くの確率分布族が指数型分布族になります。正確に定義します。
指数型分布族
確率変数に対するパラメータをとした確率分布族が、上の実数値関数によって
となるとき、を指数型分布族という。
例えば、1次元正規分布族は
となるから、
と置けば指数型分布族となることが分かります。この具体例は後でもう少し分析しますが、まず一般に指数型分布族がHesse構造を定めることを見ましょう。指数型分布族に対して、座標に関する接続の係数は、
です。ここで
なので、はに依存しておらず、積分の外に出せるので、
となります。一方
をで微分して
であることが分かります。よって
を得ます。従って、接続は平坦接続であり、はに関するAffine座標であることが分かりました。次にFisher計量を計算します。上で出た
をもう一度で微分すると
となります。よって
となって、スカラー関数の微分で書けていることが分かりました。よく使われる言葉として、を-接続、を-接続と呼び、と書きます。それぞれexponential,mixtureの頭文字です(私はこれが覚えにくかったので、に対応する方はminusのmと覚えました)。この言葉の由来を理解するには他にもいくらか紹介しなければなりませんので、このノートでは割愛します。これまでの議論と合わせると、次の命題を得ました。
指数型分布族の定めるHesse構造
指数型分布族
の定める統計多様体はHesse多様体である。
より詳しく、はFisher計量で、はをAffine座標とする平坦接続で、はHesseポテンシャルである。またはFisher計量に関する双対接続である。
1次元正規分布族の定める統計多様体
最後に、1次元正規分布族の定める統計多様体を見てみましょう。1次元正規分布族は
となるから、
と置けば指数型分布族となるのでした。を微分してFisher計量を求めると、
となります。この2次元リーマン多様体はあまり見慣れないですね(少なくとも私は)。そこでもともとのの座標に戻してみましょう。すると
となります。と置きなおすと、
となって、双曲平面ということが分かりました。正規分布達の作る空間が負の定曲率空間と見なせるという事実をどう理解すればよいのかまだ私には分かりません。Affine座標の座標曲線を横軸が軸で縦軸が軸の上半平面に描いたのが下図です。
双曲平面上のAffine座標
ピンクの線達が-曲線達で、グレーの線達が-曲線です(見やすいようにすこしデフォルメしてます)。正直、というあまりきれいに見えない座標が統計多様体としての、またはより詳細にHesse多様体としての構造はにとって重要であるということはなかなか腑に落ちない部分もあります。
ついでに双対Affien座標も描いてみましょう。双対Affine座標は
となります。よって座標曲線達は下図のようになります。
双曲平面上のAffine座標
グレーの曲線達が-曲線、ピンクの曲線達が-曲線です。こういう座標曲線を見て何かすぐ分かるわけではないのですが、こうして遊ぶことで理解を深めることはできるでしょう。
他にもDivergence関数を考察したり、測地線を描いたりして遊べます。また、指数型確率分布族は他にも有名な例として、多項族分布、Poisson分布、指数族分布があります。これらはまた別のノートにまとめることにします。