7
大学数学基礎解説
文献あり

【情報幾何学】指数型分布族が定めるHesse構造

1362
1

2021 5/17 divergenceについて追記
2022 1/29 命題5の証明を修正

これは情報幾何学の勉強ノートです。仮定する微分幾何の知識は多様体、座標近傍系、テンソル場、Poincareの補題、リーマン構造、接続、捩率、曲率などです。またこのノートの目標である指数型分布族が定めるHesse構造(双対平坦構造ともいう)までできる限り最短でたどり着けるようにしました。基本的には私の勉強用です。

私は情報幾何が専門ではありません。このノートを書いた理由ですが、情報幾何の初学の段階において、登場する色々な設定や座標やその他の概念の散在的で有機的な繋がりがいまいち多様体論的に、幾何学的にすっきり整理して理解しにくかったという経験があります。なのでこのノートでは一つの論理的な道筋がとらえやすいことと、conceptualな単純な理解ができることに配慮したつもりです。そのためやや叙述的な文章があるかもしれません。またこのノートではいくらかの重要な特徴付けが書かれていません。あくまでも種々の概念に慣れることのみを目的としたからです。従って読んでいただくにしても補助教材としてお読みください。私も勉強し始めたばかりですので、分からないことも多いです。数学的な間違いもあるかもしれません(数学が苦手なので)。また情報幾何に興味を持つ方々との議論のきっかけになればという思いもありこのノートを書きましたので何か思うことがありましたらご連絡ください。あるいは致命的なミスをしていたら教えてください。

以下では、多様体は滑らかを仮定します(滑らかさについてどの程度仮定すれば情報幾何をやる上で十分なのかよく知らない)。なお誤解の余地の無い場合には断らずにEinstein規約を使います。計量によるmusical isomorphismまたはmetric dual(添え字の上げ下げのこと)を:TpMTpM, :TpMTpMで表します、すなわちuTpM,X,YTpMに対して、
u(X)=g((u),X), ui=gijuj(X)(Y)=g(X,Y), Xi=gijXj
です。

Affine多様体

情報幾何では平坦接続を備えた多様体(Affine多様体)が舞台になることが多いです。Affine多様体とは座標変換がAffine変換(一次変換)となるような多様体です。

Affine多様体

微分多様体Mの局所座標近傍系を{(Uα,φα)}αΛとする。任意のUαUβ(ϕ)に対して、(座標の)変換写像
φβφα1がAffine写像であるとき、MAffine多様体という。この条件を満たす各(Uα,φα)をAffine座標と呼ぶ。

定義だけ見ると単純そうですが、かなり難しいようです。こちらに簡単な文献紹介があります http://pantodon.shinshu-u.ac.jp/topology/literature/ja/affine_manifold.html

Affine多様体は平坦接続の存在で特徴づけることができます。

Affine多様体と平坦接続

微分多様体MがAffine多様体であることと平坦接続を許容することは同値である。

MがAffine多様体とする。{xi}を局所Affine座標とするとき、接続D
Dxixj=0
で定義する。座標変換がAffineにとれるので任意のAffine座標に対してこの定義は意味を持つ。この接続Dの捩率と曲率が0であることは明らかである。

逆に、Mが平坦接続Dを許容するとする。このとき、接続の係数の変換性から二つの座標{xi},{ya}に対して、
yaxixj=0
となるので、MはAffine多様体である。

この命題より、Affine多様体を(M,D)と表すことにします。さらに上の証明のようにDを定義したAffine座標系を接続Dに関するAffine座標系と呼びます。また平坦接続DMのAffine構造と呼びます。Affine構造は一意的とは限りません。

Hesse構造

Affine構造とリーマン構造が次の意味で仲良しなのがHesse構造です。

Hesse多様体

Affine多様体(M,D)とスカラー関数φC(M)があり、M上のリーマン計量が
g=Ddφ
で与えられるとき、(D,g)Hesse構造といい、(M,D,g)Hesse多様体という。またφHesseポテンシャルという。

Hesse構造の条件は計量gがポテンシャル関数で書けているということですので、このようなことが成り立つためにはgに関して何らかの可積分条件が成り立っていることが期待されます。

Hesse構造とCodazzi方程式

Affine多様体(M,D)とリーマン計量gが与えられたとき、(M,D,g)がHesse多様体であることと、Codazzi方程式
(DXg)(Y,Z)=(DYg)(X,Z),(gijxk=gkjxi  ({xi}DAffine))
が成り立つことは同値である。

Hesse構造に対して、Codazzi方程式が成り立つことは明らかである。

逆に、あるAffine座標近傍においてCodazzi方程式が満たされているとすれば、1-form
φi:=gijdxj

dφi=kgijdxkdxj=0
であるから、この座標近傍上でスカラー関数ψiがあり、
φi=dψi
となる。よって
gij=ψixj
となる。再び、
d(ψidxi)=gijdxjdxi=0
であるから、この座標近傍上でスカラー関数φがあり、
ψidxi=dφ
となる。
従って、
gij=ψixj=φxjxi
を得る。

双対Hesse構造

次に与えられたHesse構造に対して、定義される双対Hesse構造を定義してその性質を調べます。

その前に双対Hesse構造の雰囲気を述べておきます。ユークリッド空間などリーマン多様体として平坦な多様体では、直交座標{xi}に関する座標基底{xi}とその双対基底{dxi}は計量的に双対な関係(musical isomorphismで写りあう、metric dual、添え字上げ下げの関係)にあります、すなわち(dxi)=xiとなっています。平坦でないリーマン多様体では任意の座標{xi}に対して、(dxi)=xiは成り立ちませんが、ある2つの座標{xi},{yi}に対して、(dxi)=yiとなる可能性はあります。もしこのようになっていたなら双対接空間がこの多様体上に"転写"され、それが座標{yi}で眺める景色であると思えなくもない気がします(この辺は個人の感性かもしれない)。しかし一般にはこの条件の成立すらも全く期待できません。ではいつ起こるのかという問い対する一つの答えとしてHesse構造を挙げることができます。

これまで座標を表す記号はxiを使っていましたが、情報幾何の文化に従ってAffine座標はθiηiなどを使うことにします。Affine座標近傍(U,{θi})に対して変換
ηi :=φθi,
を考えてみましょう。Hesse構造のおかげで、この{ηi}たちは新しい座標を定めることが分かります。すなわち、
ηiθj=2φθjθi=gji,
となり、この変換の逆変換がU上で存在することが分かります。さらに、{θi}のAffine座標変換θi=ajiθj+biに伴って、{ηi}
ηi=(a1)ijηj,ηj=φθj
となるので、{ηi},{ηi}はAffine変換で写りあうことが分かります。従って、座標近傍(U,{ηi=φ/θi})達は、MのAffine座標系を定義することが分かりました。しかしもちろんこの新しいAffine座標系がDに関するAffine座標系となっているとは限りません(ほとんどの場合違います)。命題の形にまとめておきます。

双対Affine座標系

Hesse多様体(M,D,g)のAffine座標系(Uα,{θαi})αΛに対して、座標変換
(ηα)i :=φθαi
により定義される座標近傍系(Uα,{(ηα)i})αΛMのAffine構造を定める。これを{θi}の双対Affine座標系という。

さて、双対Affine座標系{ηi}が定義されたので、当然この座標に関して平坦接続Dが定義されます。このDについては次の節で性質を論じます。ここでは定義だけして置いておいて、まずは2つの座標系{ηi},{θi}の関係を論じておきましょう。

{ηi},{θi}の双対関係

Hesse多様体(M,D,g)において、Dに関するAffine座標系を{θi}とし、その双対Affine座標を{ηi}とするとき、
g(θi,ηj)=δij,g(ηi,ηj)=gij
が成り立つ。

(dθi)=gjiθj=θjηiθj=ηi
であることから従う。

双対Affine座標{ηi}M上に双対接空間の世界が座標となって現れた構造であると言えます。この言葉の意味をCotangent bundleの観点からもう少しはっきりさせれるのですが、やや寄り道になるので先に進みます。さらにもう一つ双対的な関係が成り立ちます。

双対Hesse構造

Hesse多様体(M,D,g)において、Dに関するAffine座標系を{θi}とし、その双対Affine座標を{ηi}とするとき、局所的にあるスカラー関数φがあり、
θi=φηi,gij=2φηiηj
が成り立つ。
従って、(M,D,g)はHesse構造である。

d(θidηi)=gijdηjdηi=0であるから、局所的にあるスカラー関数φが存在して、θidηi=dφとなる。従って、
θi=φηi
が成り立つ。また
gij=θiηj=2φηjηi
である。

この命題で示されたHesse構造(D,g)(D,g)双対Hesse構造といいます。また情報幾何学では(g,D,D)双対平坦構造とよく呼びます。最後にこれまでに分かったことを使うと簡単に
d(φ+φηiθi)=ηidθi+θidηiθidηiηidθi=0
が分かります。よってφ+φηiθiは定数ですが、φ,φの選び方には定数シフトの任意性がありますので、
φ+φηiθi=0
となるように選ぶことができます。これ以降、双対Hesse構造について議論するときは、断りなく各Affine座標近傍上でポテンシャル関数φ,φをこのように取ることにします。またこのようなφ,φの関係をLegendre変換の関係にあるといいます。

Hesse構造の双対接続

前節で、Hesse多様体(M,D,g)Dに関するAffine座標{θi}の双対Affine座標{ηi}に関する平坦接続Dを定義しました。ここではD,D,の関係を調べます。初めに、リーマン接続を見てみましょう。Codazzi方程式のおかげで、Christoffel記号は簡単になり、Affine座標{θi}に関して、
Γjki=12gia(gakθj+gajθkgjkθa)=12giagakθj
となります。

次に、D{θi}に関する接続の係数は、座標変換に伴う接続の係数の変換則を考えれば、
DΓjki=θiηa2ηaθjθk=giagakθj
となります。この最後の式を=2Γjkiとしたいところですが、接続の係数の2倍は接続の係数にはなりません。変換則を考えればわかりますが、接続の係数の全体は線形空間を成さず、Affine空間を成します。従って、2つの接続の係数Γ    jk(1)i,Γ    jk(2)iのAffine結合tΓ    jk(1)i+(1t)Γ    jk(2)iが接続の係数となります。今、我々は{θi}に関する平坦接続Dを材料として持ってますから、
DΓjki=2ΓjkiDΓjki
とすればよいことが分かります(もちろんある接続を2つの接続のAffine結合として表示する仕方は一意的ではないです)。よって次の命題を得ました。

,D,Dの関係

Hesse多様体(M,D,g)において、双対接続をDとすると
2=D+D
が成り立つ。

D,Dはリーマン接続を2つに分けた感じに思えます。このことは次の命題からもうかがえます。

双対接続の特徴

Hesse多様体(M,D,g)において、双対接続をDとすると
Xg(Y,Z)=g(DXY,Z)+g(Y,DXZ)

(X,Y,Z)=(θi,θj,θk)としてよい。
θig(θj,θk)=gjkθi=g(θj,2θiθk)=g(Dθiθj,θk)+g(θj,Dθiθk)

※上の証明で最後にg(Dθiθj,θk)を付け加えなければ、テンソル場の等式として成立しないことに注意。

より一般的な状況として、捻じれの無い接続D,Dとリーマン計量gを考えるとき、
Xg(Y,Z)=g(DXY,Z)+g(Y,DXZ)
が成り立つならばD,D互いに双対接続であるといいます。このときD,DはどちらもCodazzi方程式を満たし、Hesse構造の平坦接続とは限らない一般化となっています。これはCodazzi構造と呼ばれ、Codazzi構造を持つ多様体をCodazzi多様体と呼びます。これは情報幾何学では統計多様体とも呼ばれ、後で出てくる確率分布族が定める多様体がその例になっています(名称の由来もおそらくここでしょう)。その構造についてここでは深入りして一般論はしませんが、定義だけ改めて述べておきます。(論理的にはこちらを先に定義してもよいのですが、Hesse構造のみを扱う場合はこちらの方がminimalかなと思ったのでこのような構成にしました。)

統計多様体

リーマン多様体(M,g)と捻じれの無い接続Dに対して、接続D
Xg(Y,Z)=g(DXY,Z)+g(X,DXZ)
で定義する。このとき、Dが捻じれがないとき、(M,g,D)統計多様体という。

Hesse多様体のDivergence関数

統計学で1967年にL.M.Bregmanによって凸関数に対して定義されたDivergence関数というものがあるそうで、これはBergman divergenceと呼ばれます。これは感覚的には凸関数を近傍の点から線形に推定したものと実際の値との誤差と言った感じです。Hesseポテンシャルは凸関数なので、Hesseポテンシャルに対して、Bergman divergenceがHesse多様体(の一つの座標近傍に属する2点)に対して定義されます。

Divergence関数

Hesse多様体(M,D,g)において、Dに関するAffine座標近傍を(U,{θi})とし、Hesseポテンシャルをφとするとき、
p,qUに対して、Divergence関数
D(p||q)=(θi(q)θi(p))φθi(q)(φ(q)φ(p)),
と定義する。

この定義がAffine座標{θi}の取り方に寄らないことは明らかです。この式の意味を読み取るに、φ(p)の値を近くの点qの近傍のφの情報から線形に推定したものと実際のφ(p)との誤差といったところでしょうか(この時点ではどんな意味があるのかよく分からない)。

D(p||x)x=(θ1,,θn)Uの関数だと見なすとき、
D(p||p)=0,θiD(p||p)=0,2jθiD(p||p)=gij(p)0,
なので、D(p||x)pに十分近い近傍では、x=pにおいて、極小値0を取ります。従って、pに十分近い近傍では、
D(p||q)0,D(p||q)=0 p=q,
が成り立ちます。

Divergenceには双対構造を用いた表示もあります。こちらの表示を定義とする文献もあります。

Hesse多様体(M,D,g)において、Affine座標近傍(U,{θi})とし、その双対Affine座標{ηi}とする。またφ,ψをそれぞれ{θi},{ηi}に関するHesseポテンシャルとする。このとき、p,qUに対して、
D(p||q)=φ(p)+ψ(q)θi(p)ηi(q)
が成り立つ。

θiηi=φ+ψを使えば、
D(p||q)=(θi(q)θi(p))ηi(q)φ(q)+φ(p)=φ(p)+ψ(q)θi(p)ηi(q)

また双対Affine座標{ηi}に関してのDivergence関数をD(p||q)とすると、
D(p||q)=(ηi(q)ηi(p))θi(q)ψ(q)+ψ(p)=ηi(q)θi(q)ηi(p)θi(q)θi(q)ηi(q)+φ(q)+ηi(p)θi(p)φ(p)=ηi(p)θi(q)+φ(q)+ηi(p)θi(p)φ(p)=(θi(p)θi(q))ηi(p)φ(p)+φ(q)=D(q||p)
という関係が成り立ちます。

Divergence関数は距離にはならないのですが、距離の2乗に類似の性質持ち、Pitagorusの定理的なものが成り立ちます。

Divergence関数に対するPitagorus的定理

Hesse多様体(M,D,g)に対して、双対接続をDとする。あるAffine座標近傍Uと3点p,q,rUに対して、pqを結ぶD-測地線cが、qrを結ぶD-測地線cqにおいて直交するとき、
D(p||r)=D(p||q)+D(q||r)
が成り立つ。

平坦接続に関する測地線はAffine座標に関しては一次関数で表されるから
θi(c(t))=θi(p)+(θi(q)θi(p))t,ηi(c(t))=ηi(q)+(ηi(r)ηi(q))t
と表される。この2つはqにおいて直交するから
g((θi(q)θi(p))θi,(ηj(r)ηj(q))ηj)=(θi(p)θi(q))(ηi(r)ηi(q))=0
が成り立つ。従って、
D(p||r)D(p||q)D(q||r)=(θi(r)θi(p))ηi(r)φ(r)+φ(p)(θi(q)θi(p))ηi(q)+φ(q)φ(p)(θi(r)θi(q))ηi(r)+φ(r)φ(q)=(θi(p)θi(q))(ηi(r)ηi(q))=0

ところでdivergence関数を一つの座標近傍上でしか定義していませんが、大域的に考えるようなものではないということなのでしょうか、良くわかりません。

ここまで結局divergenceが一体何なのかはよく分かりませんし、この後もよく分からないままです。少なくとも距離の2乗のようなもので何らかの離れ具合を測っているということです。divergenceを局所的にテイラー展開することでよりそれっぽく思うこともできます。
φp(x)θi=gij(θjθj(p)),2φp(x)θjθi=gji+(θkθk(p))gkiθj,3φp(x)θiθjθk=2gijθk+(θlθi(p))2gljθiθk
であるから、x=pの近傍で展開すると、
φp(x)=φp(p)+φp(p)θi(θiθi(p))+12!2φp(p)θjθi(θiθi(p))(θjθj(p))+13!3φp(x)θiθjθk(θiθi(p))(θjθj(p))(θkθk(p))=12gij(p)(θiθi(p))(θjθj(p))+23!gijθk(p)(θiθi(p))(θjθj(p))(θkθk(p))+o((θjθj(p))3)
となります。ということなのでpにかなり近い点に関してはdivergenceは距離の2乗と思って良さそうです。

確率分布族が定めるHesse構造

ここでは確率分布の空間が定めるHesse構造を論じます。リーズナブルな仮定を満たす確率分布の族の空間を多様体と見なし、そのHesse構造の一般論を展開します。

まず、確率分布の族の空間とは何かを説明します。例えば、1次元正規分布は平均μと標準偏差σで決定されるので、一次元正規分布の全体は集合{(μ,σ)R2;σ>0}と見なすことができます。このように確率分布のパラメータを多様体の座標と見なすことができるわけです。設定を正確にしましょう。

確率変数xXは離散型、連続型のどちらかとします(離散型の場合は以下で出てくる積分は適宜σに読み替えてください、あるいはDirac測度など適切な測度を適用してください)。ΛRnの単連結なn次元開部分多様体とします(もしかしたら特殊な状況では境界を持ったり、滑らかでなかったりするかもしれません、分かりません)。λ=(λ1,,λn)ΛをパラメータとするX上の確率分布の族
P={p(x,λ);λΛ}
は次の条件を満たすとします。
(1)p(x,λ)λに関して滑らか
(2)xに関する積分とλに関する微分は交換可能
以降は特に断らずにこれらのことを仮定します。

任意の確率変数ω(x)の確率p(x,λ)に関する期待値を取る操作をEλ[ω]と表すことにします。

統計学ではFisher情報行列というものがあるそうで、情報幾何ではこれをリーマン計量と見なします。

Fisher情報行列

lλ=l(x,λ):=logp(x,λ)とするとき、
gij:=Eλ[lλλilλλj], (1i,jn)
Fisher情報行列といいます。

Fisher情報行列は半正定値、すなわちgijaiaj0, (aiR)であることが簡単な議論から示されますが、これをΛ上のリーマン計量と見なしたいのでより強く正定値となっていると仮定します(この仮定は多くの確率分布で満たされています)。{λi}Λ上の座標と思うと、xに関する積分とλiに関する微分が可換なのでgijが2階対称共変テンソル場を定めまず。従ってFishier情報行列をΛ上のリーマン計量と見なすことができます。これをFisher計量と呼びます。(半正定値であるような退化リーマン構造の幾何学が情報幾何の文脈で研究されているのか気になりますが、知りません)

これでパラメータの多様体Λにリーマン構造が入りました。さらにこれがHesse構造となるかどうかは確率分布p(x,λ)の性質によります。この後に紹介する指数型分布族であるときはHesse構造が入ります。しかしその前にFisher計量に関して互いに双対接続となる2つの接続を一般論として導入することができます。

まず、Fisher計量に対するリーマン接続を求めましょう。{λi}に関する接続の係数は
Γijk=12(gikλj+gijλkgjkλi)
なので、まずgik/λjを計算します。
gik=Xlλλilλλkp(x,λ)dx
より
gikλj=Eλ[2lλλjλilλλk]+Eλ[2lλλjλklλλi]+Eλ[lλλilλλklλλj]gijλk=Eλ[2lλλkλilλλj]+Eλ[2lλλjλklλλi]+Eλ[lλλilλλklλλj]gjkλi=Eλ[2lλλjλilλλk]+Eλ[2lλλiλklλλj]+Eλ[lλλilλλklλλj]
となるので、
Γijk=12(gikλj+gijλkgjkλi)=Eλ[2lλλjλklλλi]+12Eλ[lλλilλλklλλj]
となります。ここで第二項目は3階共変テンソル場であり、接続の係数に3階テンソル場を加えても接続の係数なので、
Tijk=12Eλ[lλλilλλjlλλk],
と置くとき
Γ(α)ijk=ΓijkαTijk,
は新しい接続を定義する。これは明らかに捻じれの無い接続です。さらに
Γ(α)jki+Γ(α)ikj=Γjki+Γikj=gijλk
が成り立つため、
Xg(Y,Z)=g(DX(α)Y,Z)+g(Y,DX(α)Z)
となります。従って、D(α),D(α)はFisher計量に関して互いに双対接続となります。

指数型分布族

正規分布はexpの形で書かれています。どんなものでも無理やりexpの"肩"に乗せることはできます。このとき、"肩"の中身がパラメータに関して一次式とスカラー関数の和とできる場合が、指数型分布族です。有名な多くの確率分布族が指数型分布族になります。正確に定義します。

指数型分布族

確率変数xXに対するパラメータをθΘRnとした確率分布族p(x,θ)が、X上の実数値関数C(x),Fi(x), (1in)によって
p(x,θ)=exp(C(x)+i=1nFi(x)θiφ(θ))
となるとき、p(x,θ)指数型分布族という。

例えば、1次元正規分布族は
p(x,μ,σ)=12πσexp((xμ)22σ2)=exp(x212σ2+xμσ2μ22σ2log2πσ)
となるから、
F1(x)=x2, F2(x)=x, θ1=12σ2, θ2=μσ2,φ(θ1,θ2)=μ22σ2+log2πσ=(θ2)24θ1+12log(π/θ1)
と置けば指数型分布族となることが分かります。この具体例は後でもう少し分析しますが、まず一般に指数型分布族がHesse構造を定めることを見ましょう。指数型分布族p(x,θ)に対して、座標{θi}に関する接続D(1)の係数は、
Γ(1)kij=Eθ[2lθθjθilθθk]
です。ここで
lθθk=Fk(x)φθk,2lθθjθi=2φθiθj
なので、2lθθjθixに依存しておらず、積分の外に出せるので、
Γ(1)kij=2φθiθjEθ[lθθk]
となります。一方
Xp(x,θ)dx=1,
θkで微分して
Xlθθkp(x,θ)dx=0, Eθ[lθθk]=0
であることが分かります。よって
Γ(1)kij=0
を得ます。従って、接続D(1)は平坦接続であり、{θi}D(1)に関するAffine座標であることが分かりました。次にFisher計量を計算します。上で出た
Xlθθip(x,θ)dx=0
をもう一度θjで微分すると
X2lθθiθjp(x,θ)dx+Xlθθilθθjp(x,θ)dx=0
となります。よって
gij=Eθ[lθθilθθj]=X2lθθiθjp(x,θ)dx=2φθiθj
となって、スカラー関数の微分で書けていることが分かりました。よく使われる言葉として、D(1)e-接続D(1)m-接続と呼び、De,Dmと書きます。それぞれexponential,mixtureの頭文字です(私はこれが覚えにくかったので、α=1に対応する方はminusのmと覚えました)。この言葉の由来を理解するには他にもいくらか紹介しなければなりませんので、このノートでは割愛します。これまでの議論と合わせると、次の命題を得ました。

指数型分布族の定めるHesse構造

指数型分布族
p(x,θ)=exp(C(x)+i=1nFi(x)θiφ(θ))
の定める統計多様体(Θ,De,g)はHesse多様体である。
より詳しく、gはFisher計量で、De{θi}をAffine座標とする平坦接続で、φはHesseポテンシャルである。またDmはFisher計量gに関する双対接続である。

1次元正規分布族の定める統計多様体

最後に、1次元正規分布族の定める統計多様体を見てみましょう。1次元正規分布族は
p(x,μ,σ)=12πσexp((xμ)22σ2)=exp(x212σ2+xμσ2μ22σ2log2πσ)
となるから、
F1(x)=x2, F2(x)=x, θ1=12σ2, θ2=μσ2,φ(θ1,θ2)=μ22σ2+log2πσ=(θ2)24θ1+12log(π/θ1)
と置けば指数型分布族となるのでした。φを微分してFisher計量を求めると、
ds2=12θ1(((θ2/θ1)2+1/θ1)(dθ1)22(θ2/θ1)dθ1dθ2+(dθ2)2)
となります。この2次元リーマン多様体はあまり見慣れないですね(少なくとも私は)。そこでもともとの{μ,σ}の座標に戻してみましょう。すると
ds2=dμ2+2dσ2σ2
となります。σσ/2と置きなおすと、
ds2=2dμ2+dσ2σ2
となって、双曲平面ということが分かりました。正規分布達の作る空間が負の定曲率空間と見なせるという事実をどう理解すればよいのかまだ私には分かりません。Affine座標{θ1,θ2}の座標曲線を横軸がμ軸で縦軸がσ軸の上半平面に描いたのが下図です。
双曲平面上のAffine座標!FORMULA[303][732813561][0] 双曲平面上のAffine座標{θ1,θ2}
ピンクの線達がθ2-曲線達で、グレーの線達がθ1-曲線です(見やすいようにすこしデフォルメしてます)。正直、{θ1,θ2}というあまりきれいに見えない座標が統計多様体としての、またはより詳細にHesse多様体としての構造はにとって重要であるということはなかなか腑に落ちない部分もあります。

ついでに双対Affien座標も描いてみましょう。双対Affine座標{η1,η2}
η1=φθ1=12θ1(θ2)24(θ1)2=μ2σ2,η2=φθ2=θ22θ1=μ
となります。よって座標曲線達は下図のようになります。
双曲平面上のAffine座標!FORMULA[309][-854683623][0] 双曲平面上のAffine座標{η1,η2}
グレーの曲線達がη1-曲線、ピンクの曲線達がη2-曲線です。こういう座標曲線を見て何かすぐ分かるわけではないのですが、こうして遊ぶことで理解を深めることはできるでしょう。

他にもDivergence関数を考察したり、測地線を描いたりして遊べます。また、指数型確率分布族は他にも有名な例として、多項族分布、Poisson分布、指数族分布があります。これらはまた別のノートにまとめることにします。

参考文献

[1]
L.M.Bregman, The relaxation method of finding the common point of convex sets and its application to the solution of problems in convex programming, USSR Computational Mathematics and Mathematical Physics, 1967
[2]
Mitsunori Noguchi, Geometry of statistical manifolds , Differential Geometry and its Applications 2 (1992) 197-222
[3]
藤原 彰夫, 情報幾何学の基礎 (数理情報科学シリーズ)
[4]
藤原 彰夫, 情報幾何学の基礎: 情報の内的構造を捉える新たな地平
[5]
志磨 裕彦, ヘッセ幾何学
[6]
藤岡 敦, 入門 情報幾何: 統計的モデルをひもとく微分幾何学
投稿日:2021512
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

Submersion
Submersion
98
30771
専門は相対論やLorentz幾何です。Einstein系の厳密解の構成や接触幾何の応用などの研究をしています。Ph.D保有者の中ではクソ雑魚の部類です。

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. Affine多様体
  2. Hesse構造
  3. 双対Hesse構造
  4. Hesse構造の双対接続
  5. Hesse多様体のDivergence関数
  6. 確率分布族が定めるHesse構造
  7. 指数型分布族
  8. 1次元正規分布族の定める統計多様体
  9. 参考文献