※この記事はお遊びです。
カルバック・ライブラー情報量(Kullback-Leibler divergence)は統計学や情報理論によく現れる函数であり、真の分布$q(x)$をモデル$p(x)$で推定する際のズレを
$$
D(q\Vert p):=\mathbb{E}_{X\sim q(x)}\left\lbrack -\log{\frac{p(X)}{q(X)}} \right\rbrack=\int_{x\in\Omega}q(x)\left\lbrack -\log{\frac{p(x)}{q(x)}} \right\rbrack dx
$$
で測るものです。個人的にこの$D(q\Vert p)$という記号はどちらが真の分布なのかモデルなのか分からないので好ましく思っていませんが、慣例なので以下も使います。
教科書を読んでいるといきなり現れて「重要です」と言われるので、「はいそうですか」と受け入れるしかないのですが、正直納得がいきません。可能ならば数学的な背景が欲しいところです。本稿では、ファジィ論理を用いてカルバック・ライブラー情報量の数学的な意味を考察することが目的でした。
まずカルバック・ライブラー情報量の性質について述べ、それが何故ズレを測ると言われるのかについて考えてみます。
渡辺に順じて$F(t)=t+e^{-t}-1$と置くと
$$
\int q(x)F\left( -\log{\frac{p(x)}{q(x)}} \right)dx=D(q\vert p)+\int p(x)dx-\int q(x)dx=D(q\Vert p)
$$
となるので、$F(t)\ge 0$及び$F(t)=0\iff t=0$より$D(q\Vert p)\ge 0$および$D(q\Vert p)=0\iff q=p$が成り立ちます。また$t\approx 0$で$F^{(2)}(t)\approx\frac{t^{2}}{2}$より$D(q\Vert p)\approx\frac{1}{2}\int q(x)\left( \log{q(x)}-\log{p(x)} \right)^{2}dx$も従います。
このようにカルバック・ライブラー情報量は、確率分布の為す空間において、正定値性を持ち、距離というよりも距離の二乗のように振舞います。これがズレを測ると言われている理由です。$D(q\Vert p)$が小さい程、モデル$p$は真の分布$q$に近いだろうと言えるからです。ちなみに対称性や三角不等式は成り立たないので、擬距離とも呼ばれています。
次にカルバック・ライブラー情報量が統計学で重要な理由を述べますが、次を仮定する必要があります。
データ$x_{1}, \dotsc, x_{N}$は真の分布$q(x)$より生じる。
真の分布は唯一つ存在し、それに沿ってデータは生成されているという仮定です。これがないと統計学はできません。
$$
D(q\Vert p)=-\int q(x)\left\lbrack -\log{q(x)} \right\rbrack dx+\int q(x)\left\lbrack -\log{p(x)} \right\rbrack dx
$$
の第一項は$q$のみに依存する定数なので$-S$と表せます。第二項は$\mathbb{E}_{X\sim q(x)}\lbrack -\log{p(X)} \rbrack$なので、大数の法則よりこれは経験損失
$$
T_{N}=-\frac{1}{N}\sum_{n=1}^{N}\log{p(x_{n})}
$$
で近似できます。$S$は計算しようがありませんが、2つのモデル$p, p^{\prime}$が与えられたとき、カルバック・ライブラー情報量の差は経験損失の差
$$
D(q\Vert p)-D(q\Vert p^{\prime})\sim T_{N}-T^{\prime}_{N}
$$
で近似することができます。このようにして、複数のモデルから(カルバック・ライブラー情報量の意味で)真の分布$q$に近いモデルを選択することができます。
しかし「距離」の測り方は他にもあるので、以上が良い説明になるとは思えません。情報幾何や渡辺理論の文脈で何かしら言えるかもしれませんが、詳しくないので分かりません。また大偏差原理との関わりもあるそうですが詳しくない(以下略)。
真偽値$F$と$T$からなる集合$\mathrm{Truth}=\lbrace F, T \rbrace$について考えます。これは論理的帰結$\vdash$(entailment)によって半順序構造が定まります。具体的には$F\vdash F, F\vdash T, T\vdash T$です。ここで論理積$\wedge$(conjunction)という演算を次の表で定義します。
$A$ | $B$ | $A\wedge B$ |
---|---|---|
$T$ | $T$ | $T$ |
$T$ | $F$ | $F$ |
$F$ | $T$ | $F$ |
$F$ | $F$ | $F$ |
これにより$\wedge$をモノイダル積(通常$\otimes$で表す)、$T$をモノイダル単位(unit)とするモノイダル構造が定まります。自分もよく分かってないので気にしなくて大丈夫です。なんか数学的に由緒正しい何かです。
更にこの構造はclosedでもあります。圏論的には上記のモノイダル積が、internal homと呼ばれる右随伴$\Rightarrow$を持ちます。どういうことかというと、$A, B\in\mathrm{Truth}$について$\mathrm{hom}(A, B)$を$A\vdash B$のとき一点集合$\lbrace \ast \rbrace$、そうでないとき空集合$\emptyset$と定めたとき、随伴
$$
\mathrm{hom}(A\otimes B, C)=\mathrm{hom}(A, B\Rightarrow C)
$$
が成り立ちます。
2値論理の場合、含意$\rightarrow$(implication)がこれに相当します。
$B$ | $C$ | $B\rightarrow C$ |
---|---|---|
$T$ | $T$ | $T$ |
$T$ | $F$ | $F$ |
$F$ | $T$ | $T$ |
$F$ | $F$ | $T$ |
実際確かめてみると、$A\otimes B\vdash C$も$A\vdash B\Rightarrow C$も$(A, B, C)=(T, T, F)$のとき成り立たず、それ以外は常に成り立つことが分かります。両者の成立・非成立が一致しているわけです。
ファジィ論理(Fuzzy logic)は一昔ちょっと流行った気がしますが、真偽値ではなく確率値で上のような構造を考えた論理です。$\mathrm{Truth}$のかわりに区間$\lbrack 0, 1 \rbrack$を考え、半順序構造として通常の順序(実数の大小)を考えます。以下に代表的な構造を三種類挙げます。
構造 | モノイダル積$a\otimes b$ | モノイダル単位 | internal hom $a\Rightarrow b$ |
---|---|---|---|
product structure | $ab$ | 1 | $\min(1, b/a)$ |
Godel structure | $\min(a, b)$ | 1 | $a\le b$のとき$1$、そうでないとき$b$ |
Lukasiewicz structure | $\max(a+b-1, 0)$ | 1 | $\min(1-a+b, 1)$ |
同じように$\mathrm{hom}(a, b)$を$a\le b$のとき一点集合、そうでないとき空集合として随伴
$$
\mathrm{hom}(a\otimes b, c)=\mathrm{hom}(a, b\Rightarrow c)
$$
が成り立つことを確かめてみます。
今回は一番上のproduct structureを用います。
これから意味論(semantics)を行うのですが、数理論理学では命題に対する真偽値割り当てというものを行います。命題変数$P, Q, \dotsc$に対して$\lbrack P \rbrack, \lbrack Q \rbrack\in\mathrm{Truth}$を割り当てていきます。帰納的に$\neg P$や$P\wedge Q$、$P\rightarrow Q$といった命題にも真偽値が割り当てられます。
さて、モデル$p$をそのまま命題だとみなし、ファジィ論理による割り当てを試みます。本来ならアトミックな事象(event)$a$について
$$
\lbrack p \rbrack:=\bigotimes_{a}p(a)
$$
とするのが理想的ですが、これを計算する方法がありません。そこで事象の情報量(あるいはエントロピー)に着目します。これは「ある事象が起きた」という情報の価値の高さを表す量です。事象の確率が低いほど価値は高くなります。数学的には次の閉モノイダル構造に関する同型で定義されます。
$$
\begin{matrix}
(\lbrack 0, 1 \rbrack, \le) &\overset{\simeq}{\longleftrightarrow} &\mathbb{V}:=(\lbrack 0, +\infty \rbrack, \ge) \\
t &\mapsto &-\log{t}
\end{matrix}
$$
右辺の$\mathbb{V}$は$+$をモノイダル積、$0$をモノイダル単位とするモノイダル構造であり、internal hom
$$
(a\Rightarrow b):=\max(b-a, 0)
$$
を持ちます。
これを踏まえて確率モデルに対して割り当てを行います。
真の分布$q$に対する確率モデル$p$について、割り当てを
$$
\lbrack p \rbrack_{q}:=\int_{x\in\Omega} q(x)\left\lbrack -\log{p(x)} \right\rbrack dx\in\mathbb{V}
$$
と定める。
次に命題の概念を少し拡張します。
以下の操作で作られるものを命題と呼ぶ。
更に$a\Rightarrow b$を
$$
(a\Rightarrow b)(x):=\min\left(1, \frac{b(x)}{a(x)} \right)\in\lbrack 0, 1 \rbrack
$$
という函数とみなして割り当てを拡張します。
命題$a, b$について$a\Rightarrow b$の割り当てを
$$
\lbrack a\Rightarrow b \rbrack_{q}:=\int q(x)\left\lbrack -\log{(a\Rightarrow b)(x)} \right\rbrack dx\in\mathbb{V}
$$
で定める。
本稿の目的はカルバック・ライブラー情報量をファジィ論理で特徴付けることでした。計算してみると
$$
\begin{aligned}
D(q\Vert p) &=\int q(x)\left\lbrack -\log{\frac{p(x)}{q(x)}} \right\rbrack dx \\
&=\int_{q(x)\lt p(x)}\left\lbrack -\log{\frac{p(x)}{q(x)}} \right\rbrack dx-\int_{p(x)\lt q(x)}\left\lbrack -\log{\frac{q(x)}{p(x)}} \right\rbrack dx \\
&=\lbrack q\Rightarrow p \rbrack_{q}-\lbrack p\Rightarrow q \rbrack_{q}
\end{aligned}
$$
が得られます。なるほどカルバック・ライブラー情報量は$q\Rightarrow p$と$p\Rightarrow q$の情報量の差だったわけですね!
?????
また$D(q\Vert p)=\lbrack p \rbrack_{q}-\lbrack q \rbrack_{q}$なので
$$
\lbrack p \rbrack_{q}+\lbrack p\Rightarrow q \rbrack_{q}=\lbrack q \rbrack_{q}+\lbrack q\Rightarrow p \rbrack_{q}
$$
という式も成り立ちます。エネルギー保存則みたいですね!
?????
もう少し筋が良さそうな捉え方をしてみます。命題$a, b, \dotsc$全体$\mathcal{M}_{q}$は$\mathbb{V}$でenrichされます。どういうことかというと、$\mathcal{M}_{q}(a, b):=\max(\lbrack b \rbrack_{q}-\lbrack a \rbrack_{q}, 0)\in\mathbb{V}$と定めると次が成り立ちます。
このとき$D(q\Vert p)\ge 0$なので以下が成り立ちます。
また一般の$a, b$について
$$
\begin{aligned}
\lbrack a\Rightarrow b \rbrack_{q}&=\int q(x)\left\lbrack -\log{( a\Rightarrow b )(x)} \right\rbrack dx \\
&=\int_{b(x)\lt a(x)}q(x)\left\lbrack -\log{\frac{b(x)}{a(x)}} \right\rbrack dx \\
&=\int_{b(x)\lt a(x)}q(x)\lbrack -\log{b(x)} \rbrack dx-\int_{b(x)\lt a(x)}q(x)\lbrack -\log a(x) \rbrack dx \\
&=\int_{b(x)\lt a(x)}q(x)\lbrack -\log{b(x)} \rbrack dx-\left( \lbrack a \rbrack_{q}-\int_{a(x)\le b(x)}q(x)\lbrack -\log a(x) \rbrack dx \right) \\
&\ge\int_{b(x)\lt a(x)}q(x)\lbrack -\log{b(x)} \rbrack dx-\lbrack a \rbrack_{q}+\int_{a(x)\le b(x)}q(x)\lbrack -\log b(x) \rbrack dx \\
&=\lbrack b \rbrack_{q}-\lbrack a \rbrack_{q}
\end{aligned}
$$
より$\lbrack a\Rightarrow b \rbrack_{q}\ge\mathcal{M}_{q}(a, b)$が成り立ちます。従って
$$
D(q\Vert a\Rightarrow b):=\int q(x)\left\lbrack -\log{\frac{(a\Rightarrow b)(x)}{q(x)}} \right\rbrack dx=\lbrack a\Rightarrow b \rbrack_{q}-\lbrack q \rbrack_{q}\ge\mathcal{M}_{q}(a, b)-\lbrack q \rbrack_{q}
$$
も分かります。
もっと頑張りましょう