0
大学数学基礎解説
文献あり

ファジィ論理によるカルバック・ライブラー情報量の特徴付けをしたかった話

275
0

※この記事はお遊びです。

本稿の目的

カルバック・ライブラー情報量(Kullback-Leibler divergence)は統計学や情報理論によく現れる函数であり、真の分布q(x)をモデルp(x)で推定する際のズレを
D(qp):=EXq(x)[logp(X)q(X)]=xΩq(x)[logp(x)q(x)]dx
で測るものです。個人的にこのD(qp)という記号はどちらが真の分布なのかモデルなのか分からないので好ましく思っていませんが、慣例なので以下も使います。

教科書を読んでいるといきなり現れて「重要です」と言われるので、「はいそうですか」と受け入れるしかないのですが、正直納得がいきません。可能ならば数学的な背景が欲しいところです。本稿では、ファジィ論理を用いてカルバック・ライブラー情報量の数学的な意味を考察することが目的でした。

カルバック・ライブラー情報量

まずカルバック・ライブラー情報量の性質について述べ、それが何故ズレを測ると言われるのかについて考えてみます。

渡辺に順じてF(t)=t+et1と置くと
q(x)F(logp(x)q(x))dx=D(q|p)+p(x)dxq(x)dx=D(qp)
となるので、F(t)0及びF(t)=0t=0よりD(qp)0およびD(qp)=0q=pが成り立ちます。またt0F(2)(t)t22よりD(qp)12q(x)(logq(x)logp(x))2dxも従います。

このようにカルバック・ライブラー情報量は、確率分布の為す空間において、正定値性を持ち、距離というよりも距離の二乗のように振舞います。これがズレを測ると言われている理由です。D(qp)が小さい程、モデルpは真の分布qに近いだろうと言えるからです。ちなみに対称性や三角不等式は成り立たないので、擬距離とも呼ばれています。

次にカルバック・ライブラー情報量が統計学で重要な理由を述べますが、次を仮定する必要があります。

統計学の第ゼロ仮定

データx1,,xNは真の分布q(x)より生じる。

真の分布は唯一つ存在し、それに沿ってデータは生成されているという仮定です。これがないと統計学はできません。
D(qp)=q(x)[logq(x)]dx+q(x)[logp(x)]dx
の第一項はqのみに依存する定数なのでSと表せます。第二項はEXq(x)[logp(X)]なので、大数の法則よりこれは経験損失
TN=1Nn=1Nlogp(xn)
で近似できます。Sは計算しようがありませんが、2つのモデルp,pが与えられたとき、カルバック・ライブラー情報量の差は経験損失の差
D(qp)D(qp)TNTN
で近似することができます。このようにして、複数のモデルから(カルバック・ライブラー情報量の意味で)真の分布qに近いモデルを選択することができます。

しかし「距離」の測り方は他にもあるので、以上が良い説明になるとは思えません。情報幾何や渡辺理論の文脈で何かしら言えるかもしれませんが、詳しくないので分かりません。また大偏差原理との関わりもあるそうですが詳しくない(以下略)。

論理の準備

2値論理

真偽値FTからなる集合Truth={F,T}について考えます。これは論理的帰結(entailment)によって半順序構造が定まります。具体的にはFF,FT,TTです。ここで論理積(conjunction)という演算を次の表で定義します。

ABAB
TTT
TFF
FTF
FFF

これによりをモノイダル積(通常で表す)、Tをモノイダル単位(unit)とするモノイダル構造が定まります。自分もよく分かってないので気にしなくて大丈夫です。なんか数学的に由緒正しい何かです。

更にこの構造はclosedでもあります。圏論的には上記のモノイダル積が、internal homと呼ばれる右随伴を持ちます。どういうことかというと、A,BTruthについてhom(A,B)ABのとき一点集合{}、そうでないとき空集合と定めたとき、随伴
hom(AB,C)=hom(A,BC)
が成り立ちます。

2値論理の場合、含意(implication)がこれに相当します。

BCBC
TTT
TFF
FTT
FFT

実際確かめてみると、ABCABC(A,B,C)=(T,T,F)のとき成り立たず、それ以外は常に成り立つことが分かります。両者の成立・非成立が一致しているわけです。

ファジィ論理

ファジィ論理(Fuzzy logic)は一昔ちょっと流行った気がしますが、真偽値ではなく確率値で上のような構造を考えた論理です。Truthのかわりに区間[0,1]を考え、半順序構造として通常の順序(実数の大小)を考えます。以下に代表的な構造を三種類挙げます。

構造モノイダル積abモノイダル単位internal hom ab
product structureab1min(1,b/a)
Godel structuremin(a,b)1abのとき1、そうでないときb
Lukasiewicz structuremax(a+b1,0)1min(1a+b,1)

同じようにhom(a,b)abのとき一点集合、そうでないとき空集合として随伴
hom(ab,c)=hom(a,bc)
が成り立つことを確かめてみます。

  • (product structure)abcとすると、c<bのときb0よりac/bであり、またa1よりa(bc)である。逆にa(bc)とすると、bcのときab1c=cである。またc<bのときac/bよりabcである。
  • (Godel structure)min(a,b)cc<bのときacを意味する。
  • (Lukasiewicz structure)a+b1ca1b+cである。

今回は一番上のproduct structureを用います。

確率モデルに対するファジィ論理による割り当て

これから意味論(semantics)を行うのですが、数理論理学では命題に対する真偽値割り当てというものを行います。命題変数P,Q,に対して[P],[Q]Truthを割り当てていきます。帰納的に¬PPQPQといった命題にも真偽値が割り当てられます。

さて、モデルpをそのまま命題だとみなし、ファジィ論理による割り当てを試みます。本来ならアトミックな事象(event)aについて
[p]:=ap(a)
とするのが理想的ですが、これを計算する方法がありません。そこで事象の情報量(あるいはエントロピー)に着目します。これは「ある事象が起きた」という情報の価値の高さを表す量です。事象の確率が低いほど価値は高くなります。数学的には次の閉モノイダル構造に関する同型で定義されます。
([0,1],)V:=([0,+],)tlogt
右辺のV+をモノイダル積、0をモノイダル単位とするモノイダル構造であり、internal hom
(ab):=max(ba,0)
を持ちます。

これを踏まえて確率モデルに対して割り当てを行います。

真の分布qに対する確率モデルpについて、割り当てを
[p]q:=xΩq(x)[logp(x)]dxV
と定める。

次に命題の概念を少し拡張します。

以下の操作で作られるものを命題と呼ぶ。

  • モデルpは命題である。
  • 命題a,bについてabもまた命題である。

更にab
(ab)(x):=min(1,b(x)a(x))[0,1]
という函数とみなして割り当てを拡張します。

命題a,bについてabの割り当てを
[ab]q:=q(x)[log(ab)(x)]dxV
で定める。

本稿の目的はカルバック・ライブラー情報量をファジィ論理で特徴付けることでした。計算してみると
D(qp)=q(x)[logp(x)q(x)]dx=q(x)<p(x)[logp(x)q(x)]dxp(x)<q(x)[logq(x)p(x)]dx=[qp]q[pq]q
が得られます。なるほどカルバック・ライブラー情報量はqppqの情報量の差だったわけですね!

?????

またD(qp)=[p]q[q]qなので
[p]q+[pq]q=[q]q+[qp]q
という式も成り立ちます。エネルギー保存則みたいですね!

?????

おまけ

もう少し筋が良さそうな捉え方をしてみます。命題a,b,全体MqVでenrichされます。どういうことかというと、Mq(a,b):=max([b]q[a]q,0)Vと定めると次が成り立ちます。

  • Mq(a,b)+Mq(b,c)Mq(a,c)である。
  • 0Mq(a,a)である。

このときD(qp)0なので以下が成り立ちます。

  • Mq(q,p)=D(qp)である。
  • Mq(pq,qp)=D(qp)である。

また一般のa,bについて
[ab]q=q(x)[log(ab)(x)]dx=b(x)<a(x)q(x)[logb(x)a(x)]dx=b(x)<a(x)q(x)[logb(x)]dxb(x)<a(x)q(x)[loga(x)]dx =b(x)<a(x)q(x)[logb(x)]dx([a]qa(x)b(x)q(x)[loga(x)]dx)b(x)<a(x)q(x)[logb(x)]dx[a]q+a(x)b(x)q(x)[logb(x)]dx=[b]q[a]q
より[ab]qMq(a,b)が成り立ちます。従って
D(qab):=q(x)[log(ab)(x)q(x)]dx=[ab]q[q]qMq(a,b)[q]q
も分かります。

結論

もっと頑張りましょう

参考文献

投稿日:20211217
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

マストドン:https://mathtod.online/@mathmathniconico GitHub:https://github.com/mathmathniconico

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. 本稿の目的
  2. カルバック・ライブラー情報量
  3. 論理の準備
  4. 2値論理
  5. ファジィ論理
  6. 確率モデルに対するファジィ論理による割り当て
  7. おまけ
  8. 結論
  9. 参考文献