はじめまして。ShinKunと申します。今回は 東京大学航空宇宙工学科/専攻 Advent Calendar 2020一日目 、ならびに 物工/計数 Advent Calendar 2020二日目 の記事として、流体最強の方程式として知られるBoltzmann方程式と、深層学習において非常によく知られるResNetの、ある意味での共通点、equillibrium trendについてお話していきたいと思います。全く異なるように思えるこれら2つの対象は、実は平均場解析と呼ばれる物理的視点により繋がっています。つまり、ある法則に従う多変数の系を直接相手にするのではなく、それらの変数が従う確率分布の発展を考えることで系全体の漸近的な振る舞いを解析できるという発想でこれら2つを理解できます。
本記事ではれより少し進んだ知見を得たいと考えています。結論を先にいうと、適切に学習された(推定対象から適切にパラメータが定められた)ResNetの層方向への情報伝達は、とある運動則に基づくBoltzmann方程式のtrend to equilibriumだと理解できるということになります。
この結論に向かっていきたいのですが、確率分布ないし確率測度の発展方程式を扱い、さらにその漸近挙動を調べることはそれほど簡単なことではありません。その最も単純な理由の一つは確率測度の空間が線形空間でないためであるといえるでしょう。
そこで役に立つのがWasserstein距離
以上の流れを踏まえ、今回の記事では
という構成で以下お話していきたいと思います。よろしくお願いします!
この節では一般的な状況として
二つの確率測度
確率測度
とする。ここで
定義に
上の定義の下限
証明は Villaniの本 の定理7.3を参照してください。
任意の
が成り立つ。
しかし最も重要な性質と言えうるのは次の位相的な性質です。
ここでいう弱*収束とは、任意の
となることを指します。したがって通常確率測度の収束を述べる際にはすべての関数
前節の性質を使ってBoltzmann方程式のtrend to equilibriumを示すことができます。その前に、航空Advent calendar2018内の
kanepleaseさんのブログ記事
を参考にしながらBoltzmann方程式について復習しましょう。端的に言うとボルツマン方程式とは時刻
今回は簡単のため、位置
上式の正式な意味は、任意の
が成り立つ、ということです。ここで
端的には運動量保存則とエネルギー保存則(と散乱方向を表すパラメータ
また、
です。
事実として、任意の
を課した解を考え、その解で一般の解を近似するテクニックです。この仮定を課すと、Boltzmann方程式は次式のように簡潔になることがわかります。
上ではBoltzmann方程式の形式的な説明をしてきました。一方、このBoltzmann方程式は運動量保存
これらの保存則の他にも、
というものを選んだ場合は
となります。この
実はこの
以上でtrend to equilibriumを述べるのに必要な準備が終わりました。事実の羅列が多くて申し訳ありません。しかしこれで記号等にも慣れたと思うので、この記事の主定理を述べたいと思います。この定理は主張自体は[ Tanaka,78 ]で述べられたものですが、後にVillaniが整理し直しました[ Villani,03 ]。以下の証明は基本的にVillaniの証明を倣っていますが、部分的に"形式的には成り立つが証明はそれほど自明ではない"ところがあるので、そのような箇所が登場したら逐次remarkします。
2.
Step 1 上で述べた注意から、Grad's cut-offの仮定を課した解を考えれば十分である([ DiPerna+,89 ]等の手法によりcut-offされない場合でも成立することがわかる)。そこで以下では簡潔になったBoltzmann方程式(3)を考えればよい。
Step 2 まず主張1を示す。命題2により、
形式的な
)
程度なので、 を と略記すれば
となる。この議論を区間を ごとに分割して行えば大筋は示せる。
Step 3 命題2によりJensenの不等式が従うが、実は式(5)をある
形式的な
)
形式的なDirac関数を用いてと表わせる。これとJensenの不等式から
が従う。
Step 4 ここで、任意の
を満たすので、
ここで、
となるようなものである。
Step 5 ここで、次の補題を示す;
)
適当なUnitary変換と平行移動により、の場合に次が成り立つことを示せば十分である。
そこでを一様分布によって確率空間と見做す。また に対し、
と置くと、これらはそれぞれに従う確率変数である。 あるから、 の定義より
であり、示せた。
Step 6 Step5で示した補題を用いてStep3を式(5)を示す。
が成り立つ。最左辺と最右辺を比較し、最右辺の
Step 7 ここで主張1の等号成立が
が従う。ここで、Brenierの定理[
Villani,03
]により、輸送写像と呼ばれる可測写像
が従う。これから
他の等号成立も
Step 8 次に主張2を示す。(中心極限定理の証明と似ているが)
を得る。また主張1から分かる有界性から(Banach-Alaogruの定理の要領で)、部分列に降りて、ある
お疲れ様でした。初等的な主張の積み重ねと解析学の基礎的な議論が両方登場するので勉強になりますね。
前節でBoltzmann方程式がMaxwell分布に収束していくことがわかりました。しかしその証明はcollison operaterが(特異)積分作用素だったのでやや面倒でしたね。そこで苦労した意味があまりなくなってしまう気もしますが、以下では次のように"線形化"した
の右辺を取り替えて
のようになっているものを考えます。ここで
このような線形化を施しても田中の定理同様にtrend to equilibriumの性質があることがわかっています[ Villani,06 ]。
さて、前節の内容をまとめて言い換えると、粒子の運動則が定まるとそれら粒子の分布の発展がBoltzmann方程式(6)が記述でき、そのBoltzmann方程式はtrend to equilibriumという漸近的な性質を満たすのでした。
ここで、粒子というのを素子ないし層と読み替えると、Neural Networkと関連しそうな気がしてきます。Neural Network、特にResidual Neural Networkの概要については
Alicia Solidさんの動画
がわかりやすいですが、一番簡単で基本的な構成は前の層からの隠れ変数
で表されます。ここで
をResNetのモデル化として採用することにします。ここで
そこで式(7)をResNetの粒子が従う運動則だとして、それら粒子が従う分布
このような方程式はFokker-Planck方程式と呼ばれ、やはりtrend to equilibriumを有します。特に今回のResNet(8)の場合は、平衡解
となります。
となります。
この結果は何を示唆しているのでしょうか。
equilibrium、つまり最終的なResNetの出力というのは、確率分布を学習したいようなResNetにとっては推定したい分布であって欲しいはずです。その推定したい分布に応じてパラメータ
推定したい分布をequilibriumとみてそこからパラメータを選択し、ResNetで推定を進めた様子
図1:推定したい分布をequilibriumとみてそこからパラメータを選択し、ResNetで推定を進めた様子。[
Herty+,20
]から引用。
つまり、適切に学習された(推定対象から適切にパラメータが定められた)ResNetの層方向への情報伝達は、運動則(8)に基づくBoltzmann方程式のtrend to equilibriumだと理解できる(再掲)ということになります!
以上長くなったりアヤシイ議論があったりしましたが、なんとか最後まで書ききることができました。何かヤバイ箇所があればお気軽にコメントしてください。Boltzmann方程式についても深層学習についてもホントの専門家ではないのでたくさん不備があると思います。
2020年は本当にイレギュラーな年で、個人的には全くやりたいことができなかった嫌な年となってしまいましたが、最後の一ヶ月の一番はじめにこのようなoutputを残せたのは少し良かったなと思います。
航空も応物もこれからドンドンおもしろ記事が公開されていくと思いますし、最後の一ヶ月くらいは楽しんで終わりたいですね!!
それでは皆さん、よい2020年の12月を〜〜〜