大学数学基礎解説

文献あり

クロスエントロピーとカルバック・ライブラー情報量

統計,確率,データサイエンス

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

Def.

クロスエントロピー

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

$\mathcal X$ を空でない有限集合とし、
$$ X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X)) $$
を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$X$ の確率質量関数を
$$ p_X(x):=\mathbb P(X=x) $$
で定める。ただし、
$$ \{X=x\}:=\{\omega\in\Omega\mid X(\omega)=x\} $$
である。
また、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
$q:\mathcal X\to[0,1]$ を $\mathcal X$ 上の確率質量関数とする。すなわち、
$$ \sum_{x\in\mathcal X}q(x)=1 $$
であるとする。
さらに、任意の $x\in S_X$ に対して
$$ q(x)>0 $$
が成り立つと仮定する。
$q$ に基づく非負可測関数 $I_{X,q}:\Omega\to[0,\infty)$ を
$$ I_{X,q}(\omega) := \begin{cases} -\log_b q(X(\omega)), & X(\omega)\in S_X,\\ 0, & X(\omega)\notin S_X \end{cases} $$
で定める。

-このとき、$p_X$ から見た $q$ の底 $b$ に関するクロスエントロピー、または交差エントロピーを
$$ H_b^{\times}(p_X,q) := \mathbb E[I_{X,q}] $$
で定義する。

和による表示

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
また、$\mathcal X$ を空でない有限集合とし、
$$ X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X)) $$
を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$X$ の確率質量関数を
$$ p_X(x):=\mathbb P(X=x) \quad (x\in\mathcal X) $$
とし、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
また、$q:\mathcal X\to[0,1]$ を $\mathcal X$ 上の確率質量関数とする。
このとき、$p_X(x)=0$ である点とは、$X$ が値 $x$ を取る確率が $0$ である点である。
このような点は、期待値を和で表すときに重み $p_X(x)$ が $0$ になるため、クロスエントロピーの和表示には寄与しない。
そのため、クロスエントロピーの和による表示では、$p_X(x)>0$ である点、すなわち $x\in S_X$ だけを足し合わせる。
特に、$p_X(x)=0$ かつ $q(x)=0$ である点については、項を作らないことで
$$ 0\cdot(-\log_b0) $$
のような未定義な形を避けている。

任意の $x\in S_X$ に対して $q(x)>0$ が成り立つ場合。
このとき、任意の $x\in S_X$ に対して $\log_b q(x)$ は有限な実数として定義される。
$q$ による $X$ のクロス自己情報量を
$$ I_{X,q} := \sum_{x\in S_X} \left(-\log_b q(x)\right) 1_{\{X=x\}} $$
と定める。
このとき、$I_{X,q}$ は有限個の指示関数の線形結合であるから可測関数であり、さらに有限値である。
期待値の線形性( 証明はコチラ )より、
$$ \begin{align} \mathbb E[I_{X,q}] &= \mathbb E\left[ \sum_{x\in S_X} \left(-\log_b q(x)\right) 1_{\{X=x\}} \right] \\ &= \sum_{x\in S_X} \left(-\log_b q(x)\right) \mathbb E[1_{\{X=x\}}] \\ &= \sum_{x\in S_X} \left(-\log_b q(x)\right) \mathbb P(X=x) \\ &= \sum_{x\in S_X} \left(-\log_b q(x)\right) p_X(x) \\ &= -\sum_{x\in S_X} p_X(x)\log_b q(x) \end{align} $$
である。
したがって、
$$ H_b^{\times}(p_X,q) = \mathbb E[I_{X,q}] = -\sum_{x\in S_X}p_X(x)\log_b q(x) $$
である。
また、$X(\omega)\notin S_X$ となる集合は零確率集合である。実際、
$$ \mathbb P(X\notin S_X) = \sum_{x\in\mathcal X\setminus S_X}p_X(x) = 0 $$
である。
したがって、$X(\omega)\notin S_X$ となる部分は期待値には寄与しない。
この意味で、慣用的には
$$ H_b^{\times}(p_X,q) = \mathbb E[-\log_b q(X)] $$
と書くことがある。
ただし、$x\notin S_X$ では $q(x)=0$ となる可能性があるため、
厳密には $-\log_b q(X)$ を $\Omega$ 全体で定義された実数値関数としてそのまま扱うのではなく、
上で定義した $I_{X,q}$ を用いて
$$ H_b^{\times}(p_X,q) = \mathbb E[I_{X,q}] $$
と書くのが安全である。
$ $
ある $x\in S_X$ について $q(x)=0$ となる場合。
このとき、$p_X(x)>0$ であるにもかかわらず $q(x)=0$ である。
すなわち、$q$ は $X$ が正の確率で取りうる値に確率 $0$ を割り当てている。
このとき、
$$ -\log_b q(x) = -\log_b0 $$
は有限な実数として定義できない。
上の定義では、任意の $x\in S_X$ に対して $q(x)>0$ を仮定している。
したがって、ある $x\in S_X$ について
$$ q(x)=0 $$
となる場合、有限値版のクロスエントロピーは定義しない。
一方、拡張実数値版を採用する場合には、
$$ -\log_b0:=+\infty $$
と約束し、この場合
$$ H_b^{\times}(p_X,q):=+\infty $$
と定める。

以下、有限集合 $\mathcal X$ 上の確率質量関数 $p,q:\mathcal X\to[0,1]$ に対して、$S_p:=\{x\in\mathcal X\mid p(x)>0\}$ とおく。
さらに、任意の $x\in S_p$ に対して $q(x)>0$ が成り立つと仮定する。
このとき、
$$ H_b^{\times}(p,q):= -\sum_{x\in S_p}p(x)\log_b q(x) $$
と定める。

機械学習における意味

機械学習では、有限集合 $\mathcal X$ をクラス全体の集合とし、
$p$ を真の分布または正解ラベルの分布、$q$ をモデルが予測した分布とみなすことが多い。
このとき、任意の $x\in S_p$ に対して
$$ q(x)>0 $$
が成り立つならば、クロスエントロピー
$$ H_b^{\times}(p,q) = -\sum_{x\in S_p}p(x)\log_b q(x) $$
は、モデルの予測分布 $q$ が真の分布 $p$ にどれだけ合っているかを測る損失関数として用いられる。

特に、$p$ がある $x_0\in\mathcal X$ に確率 $1$ をもつ分布、すなわち
$$ p(x_0)=1 $$
かつ、任意の $x\ne x_0$ に対して
$$ p(x)=0 $$
である場合、$S_p=\{x_0\}$ である。
このとき、$q(x_0)>0$ ならば、
$$ H_b^{\times}(p,q) = -\sum_{x\in S_p}p(x)\log_b q(x) = -\log_b q(x_0) $$
である。
したがって、正解クラス $x_0$ にモデルが割り当てた確率 $q(x_0)$ が大きいほど、クロスエントロピー損失は小さくなる。
逆に、$q(x_0)$ が小さいほど、クロスエントロピー損失は大きくなる。
$ $
例えば、画像分類で、画像が猫、犬、うさぎのいずれかに分類される問題を考える。
すなわち、
$$ \mathcal X=\{\mathrm{cat},\mathrm{dog},\mathrm{rabbit}\} $$
とする。
ある画像の正解クラスが猫であるとする。
このとき、真の分布 $p$ を
$$ p(\mathrm{cat})=1,\quad p(\mathrm{dog})=0,\quad p(\mathrm{rabbit})=0 $$
で定める。
つまり、正解クラスは
$$ x_0=\mathrm{cat} $$
である。
一方、モデルがこの画像に対して
$$ q(\mathrm{cat})=0.8,\quad q(\mathrm{dog})=0.15,\quad q(\mathrm{rabbit})=0.05 $$
と予測したとする。
このとき、$S_p=\{\mathrm{cat}\}$ であるから、
$$ H_b^{\times}(p,q) = -\sum_{x\in S_p}p(x)\log_b q(x) = -p(\mathrm{cat})\log_b q(\mathrm{cat}) $$
である。
したがって、$p(\mathrm{cat})=1$ より、
$$ H_b^{\times}(p,q) = -\log_b0.8 $$
である。
特に、自然対数を用いる場合、すなわち $b=e$ の場合は、
$$ H_e^{\times}(p,q) = -\log0.8 \approx0.223 $$
である。
一方、同じ正解クラスに対して、別のモデルが
$$ q(\mathrm{cat})=0.2,\quad q(\mathrm{dog})=0.7,\quad q(\mathrm{rabbit})=0.1 $$
と予測したとする。
この場合、
$$ H_e^{\times}(p,q) = -\log0.2 \approx1.609 $$
である。

-したがって、正解クラス $\mathrm{cat}$ に大きな確率 $0.8$ を割り当てた最初のモデルの方が、
正解クラスに小さな確率 $0.2$ を割り当てた後者のモデルよりも、クロスエントロピー損失が小さい。
これは、クロスエントロピーが、正解クラスにどれだけ高い確率を割り当てたかを損失として測っていることを表している。

理想符号長による解釈

有限集合 $\mathcal X$ 上で、$p:\mathcal X\to[0,1]$ および $q:\mathcal X\to[0,1]$ を $\mathcal X$ 上の確率質量関数とし、
$$ \sum_{x\in\mathcal X}p(x)=1, \quad \sum_{x\in\mathcal X}q(x)=1 $$
を満たすとする。
また、
$$ S_p:=\{x\in\mathcal X\mid p(x)>0\} $$
とおき、任意の $x\in S_p$ に対して
$$ q(x)>0 $$
が成り立つと仮定する。
情報源が分布 $p$ に従って記号 $x\in\mathcal X$ を発生させるとする。
このとき、各 $x\in S_p$ に対して、$p$ に基づく理想符号長を
$$ \ell_p(x):=-\log_b p(x) $$
で定めると、その平均理想符号長は
$$ \sum_{x\in S_p}p(x)\ell_p(x) = -\sum_{x\in S_p}p(x)\log_b p(x) = H_b(p) $$
である( 詳しくはコチラ )。
一方、真の分布が $p$ であるにもかかわらず、別の確率質量関数 $q$ に基づいて理想符号長を割り当てるならば、各 $x\in S_p$ に対して
$$ \ell_q(x):=-\log_b q(x) $$
と考えるのが自然である。
このとき、実際の情報源 $p$ に関する平均理想符号長は
$$ L_b(p,q) = \sum_{x\in S_p}p(x)\ell_q(x) = -\sum_{x\in S_p}p(x)\log_b q(x) $$
である。
この値が、$p$ から見た $q$ のクロスエントロピー
$$ H_b^{\times}(p,q) $$
である。
したがって、クロスエントロピーは、真の分布が $p$ である情報源に対して、$q$ に基づく理想符号長を用いたときの平均符号長として解釈できる。
また、$p$ 自身に基づく理想符号長を用いたときの平均符号長はエントロピー $H_b(p)$ であり、$q$ に基づく理想符号長を用いたときの余分な平均符号長は
$$ H_b^{\times}(p,q)-H_b(p) = D_b(p\|q) $$
である。

カルバック・ライブラー情報量

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

$\mathcal X$ を空でない有限集合とし、
$$ X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X)) $$
を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$X$ の確率質量関数を
$$ p_X(x):=\mathbb P(X=x) \quad (x\in\mathcal X) $$
で定める。
また、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
さらに、$q:\mathcal X\to[0,1]$ を $\mathcal X$ 上の確率質量関数とする。すなわち、
$$ \sum_{x\in\mathcal X}q(x)=1 $$
であるとする。
任意の $x\in S_X$ に対して
$$ q(x)>0 $$
が成り立つと仮定する。
$p_X$ と $q$ の対数比情報量確率変数 $J_{p_X,q}:\Omega\to\mathbb R$ を
$$ J_{p_X,q}(\omega) := \begin{cases} \log_b\dfrac{p_X(X(\omega))}{q(X(\omega))}, & X(\omega)\in S_X,\\ 0, & X(\omega)\notin S_X \end{cases} $$
で定める。

-このとき、$p_X$ から $q$ への底 $b$ に関するカルバック・ライブラー情報量、または相対エントロピーを
$$ D_b(p_X\|q) := \mathbb E[J_{p_X,q}] $$
で定義する。

和による表示

上の定義の記号を用いる。
任意の $x\in S_X$ に対して $p_X(x)>0$ かつ $q(x)>0$ が成り立つので、
$$ \log_b\frac{p_X(x)}{q(x)} $$
は有限な実数として定義される。
また、
$$ \mathbb P(X\notin S_X)=0 $$
であるから、$X(\omega)\notin S_X$ となる部分は期待値に寄与しない。
したがって、
$$ \begin{align} D_b(p_X\|q) &= \mathbb E[J_{p_X,q}] \\ &= \sum_{x\in S_X} \log_b\frac{p_X(x)}{q(x)}\mathbb P(X=x) \\ &= \sum_{x\in S_X} p_X(x)\log_b\frac{p_X(x)}{q(x)} \end{align} $$
である。

$p(x)=0$ の点の扱い

$p(x)=0$ である点では、
$$ p(x)\log_b\frac{p(x)}{q(x)} $$
を直接そのまま実数として読むと、$\log_b0$ や $\frac{0}{0}$ が現れる可能性がある。
そこで、厳密には $p(x)>0$ である点だけを集めた集合
$$ S_p=\{x\in\mathcal X\mid p(x)>0\} $$
上で和を取る。
慣用的には、$p(x)=0$ である点の項を $0$ とみなして、
$$ D_b(p\|q) = \sum_{x\in\mathcal X}p(x)\log_b\frac{p(x)}{q(x)} $$
と書くことがある。
この約束は、$p(x)=0$ である点が期待値に寄与しないことを表している。

$q(x)=0$ の点の扱い

上の定義では、任意の $x\in S_X$ に対して
$$ q(x)>0 $$
が成り立つことを仮定している。
これは、
$$ \forall x\in\mathcal X\ (p_X(x)>0\Rightarrow q(x)>0) $$
が成り立つことと同値である。
同値に、
$$ \forall x\in\mathcal X\ (q(x)=0\Rightarrow p_X(x)=0) $$
である。
$ $
一方、ある $x\in\mathcal X$ について
$$ p_X(x)>0,\quad q(x)=0 $$
であるとき、この条件は成り立たない。
この場合、$q$ は $p_X$ のもとで正の確率で起こる点に確率 $0$ を割り当てている。
したがって、
$$ \log_b\frac{p_X(x)}{q(x)} $$
は有限な実数として定義できない。
この場合まで含めてカルバック・ライブラー情報量を拡大実数値で定義するならば、
$$ D_b(p_X\|q):=+\infty $$
と定める。
他方、任意の $x\in S_X$ に対して $q(x)>0$ が成り立つ場合には、
$$ D_b(p_X\|q) = \sum_{x\in S_X}p_X(x)\log_b\frac{p_X(x)}{q(x)} $$
である。

シャノン・エントロピーとの対応

シャノン・エントロピーは、$p_X$ に基づく自己情報量の期待値である。
厳密には、関数 $g:\mathcal X\to[0,\infty)$ を
$$ g(x) := \begin{cases} -\log_b p_X(x), & x\in S_X,\\ 0, & x\notin S_X \end{cases} $$
で定めると、
$$ H_b(X)=\mathbb E[g(X)] $$
である( 詳しくはコチラ )。
一方、カルバック・ライブラー情報量は、$S_X$ 上で
$$ \begin{align} -\log_b q(X) - \{-\log_b p_X(X)\} &= -\log_b q(X)+\log_b p_X(X)\\ &= \log_b\frac{p_X(X)}{q(X)} \end{align} $$
となる差の期待値である。
すなわち、上の定義の記号を用いれば、
$$ D_b(p_X\|q) = \mathbb E[J_{p_X,q}] $$
であり、これは $X$ が $S_X$ 上の値を取る部分では
$$ -\log_b q(X)-\{-\log_b p_X(X)\} $$
の期待値に一致する。
したがって、カルバック・ライブラー情報量は、
真の分布が $p_X$ であるときに、$q$ に基づいて情報量を測った場合の平均的な余分な情報量である。

Prop&Proof

クロスエントロピーとシャノン・エントロピーの一致

底 $b>1$ を固定する。$\mathcal X$ を空でない有限集合とし、$p$ を $\mathcal X$ 上の確率質量関数とする。
このとき、
$$ H_b^{\times}(p,p)=H_b(p) $$
が成り立つ。

$p$ の台を
$$ S_p:=\{x\in\mathcal X\mid p(x)>0\} $$
とおく。
クロスエントロピーの定義より、
$$ H_b^{\times}(p,p) = -\sum_{x\in S_p}p(x)\log_b p(x) $$
である。
一方、シャノン・エントロピーの定義より、
$$ H_b(p) = -\sum_{x\in S_p}p(x)\log_b p(x) $$
である。
したがって、
$$ H_b^{\times}(p,p)=H_b(p) $$
が成り立つ。
$$ \Box$$

エントロピーとの関係

クロスエントロピーは、比較分布として真の分布 $p$ 自身を用いた場合、シャノン・エントロピーに一致する。
すなわち、
$$ H_b^{\times}(p,p)=H_b(p) $$
である。
一方、比較分布として $p$ とは別の確率質量関数 $q$ を用いる場合、$H_b^{\times}(p,q)$ は、
真の分布が $p$ であるにもかかわらず、$q$ に基づいて情報量を測ったときの平均情報量を表す。

クロスエントロピーは一般には対称でない

底 $b>1$ を固定する。クロスエントロピー $H_b^{\times}$ は一般には対称ではない。
すなわち、ある空でない有限集合 $\mathcal X$ と、$\mathcal X$ 上の確率質量関数 $p,q$ が存在して、
$$ H_b^{\times}(p,q)\ne H_b^{\times}(q,p) $$
が成り立つ。

反例を構成する。
$$ \mathcal X:=\{0,1\} $$
とし、$\mathcal X$ 上の確率質量関数 $p,q$ を
$$ p(0)=\frac{1}{2},\quad p(1)=\frac{1}{2} $$
および
$$ q(0)=\frac{1}{4},\quad q(1)=\frac{3}{4} $$
で定める。
このとき、すべての $x\in\mathcal X$ に対して $p(x)>0$ かつ $q(x)>0$ であるから、$H_b^{\times}(p,q)$ と $H_b^{\times}(q,p)$ はともに有限な実数として定義される。
まず、
$$ \begin{align} H_b^{\times}(p,q) &= -\frac{1}{2}\log_b\frac{1}{4} -\frac{1}{2}\log_b\frac{3}{4} \\ &= \frac{1}{2}\log_b4+\frac{1}{2}\log_b\frac{4}{3} \\ &= \frac{1}{2}\log_b\frac{16}{3} \end{align} $$
である。
一方、
$$ \begin{align} H_b^{\times}(q,p) &= -\frac{1}{4}\log_b\frac{1}{2} -\frac{3}{4}\log_b\frac{1}{2} \\ &= -\log_b\frac{1}{2} \\ &= \log_b2 \end{align} $$
である。
ここで、
$$ \frac{1}{2}\log_b\frac{16}{3} = \log_b\sqrt{\frac{16}{3}} = \log_b\frac{4}{\sqrt3} $$
であり、
$$ \frac{4}{\sqrt3}\ne2 $$
であるから、
$$ H_b^{\times}(p,q)\ne H_b^{\times}(q,p) $$
が成り立つ。
したがって、クロスエントロピーは一般には対称ではない。
$$ \Box$$

クロスエントロピーとエントロピーとカルバック・ライブラー情報量の関係

底 $b>1$ を固定する。$\mathcal X$ を空でない有限集合とし、$p$ と $q$ を $\mathcal X$ 上の確率質量関数とする。
任意の $x\in\mathcal X$ に対して
$$ p(x)>0\Rightarrow q(x)>0 $$
が成り立つと仮定する。
このとき、
$$ H_b^{\times}(p,q)=H_b(p)+D_b(p\|q) $$
が成り立つ。

$p$ の台を
$$ S_p:=\{x\in\mathcal X\mid p(x)>0\} $$
とおく。
任意の $x\in S_p$ に対して $p(x)>0$ かつ $q(x)>0$ であるから、以下の対数はすべて有限な実数として定義される。
$$ \begin{align} H_b^{\times}(p,q)-H_b(p) &= -\sum_{x\in S_p}p(x)\log_b q(x) - \left( -\sum_{x\in S_p}p(x)\log_b p(x) \right) \\ &= \sum_{x\in S_p}p(x)\log_b p(x) - \sum_{x\in S_p}p(x)\log_b q(x) \\ &= \sum_{x\in S_p}p(x)\{\log_b p(x)-\log_b q(x)\} \\ &= \sum_{x\in S_p}p(x)\log_b\frac{p(x)}{q(x)} \\ &= D_b(p\|q) \end{align} $$
である。
したがって、
$$ H_b^{\times}(p,q)-H_b(p)=D_b(p\|q) $$
であるから、
$$ H_b^{\times}(p,q)=H_b(p)+D_b(p\|q) $$
が成り立つ。
$$ \Box$$

クロスエントロピーの第 $2$ 変数に関する凸性

底 $b>1$ を固定する。$\mathcal X$ を空でない有限集合とし、$p,q_1,q_2$ を $\mathcal X$ 上の確率質量関数とする。

集合 $S_p$ を
$$ S_p:=\{x\in\mathcal X\mid p(x)>0\} $$
とおく。
また、任意の $x\in S_p$ と $i=1,2$ に対して
$$ q_i(x)>0 $$
が成り立つと仮定する。

-このとき、任意の $\lambda\in[0,1]$ に対して、
$$ H_b^{\times}(p,\lambda q_1+(1-\lambda)q_2) \leq \lambda H_b^{\times}(p,q_1)+(1-\lambda)H_b^{\times}(p,q_2) $$
が成り立つ。

$\lambda\in[0,1]$ を任意に固定し、
$$ q_\lambda:=\lambda q_1+(1-\lambda)q_2 $$
とおく。
このとき、$q_\lambda$ は $\mathcal X$ 上の確率質量関数である。実際、任意の $x\in\mathcal X$ に対して $q_\lambda(x)\geq0$ であり、
$$ \begin{align} \sum_{x\in\mathcal X}q_\lambda(x) &= \sum_{x\in\mathcal X}\{\lambda q_1(x)+(1-\lambda)q_2(x)\}\\ &= \lambda\sum_{x\in\mathcal X}q_1(x) + (1-\lambda)\sum_{x\in\mathcal X}q_2(x)\\ &= \lambda+(1-\lambda)\\ &= 1 \end{align} $$
である。
$ $
また、任意の $x\in S_p$ に対して $q_1(x)>0$ かつ $q_2(x)>0$ であるから、
$$ q_\lambda(x)=\lambda q_1(x)+(1-\lambda)q_2(x)>0 $$
である。
関数 $f:(0,\infty)\to\mathbb R$ を
$$ f(t):=-\log_b t $$
で定める。
底の変換公式より、
$$ \begin{align} f(t) &= -\log_b t\\ &= -\frac{\log t}{\log b} \end{align} $$
である。ただし、右辺の $\log$ は自然対数である。
i) したがって、
$$ \begin{align} f'(t) &= \frac{d}{dt}\left(-\frac{\log t}{\log b}\right)\\ &= -\frac{1}{\log b}\frac{d}{dt}\log t\\ &= -\frac{1}{\log b}\cdot\frac{1}{t}\\ &= -\frac{1}{t\log b} \end{align} $$
　である。
　さらに、
$$ \begin{align} f''(t) &= \frac{d}{dt}\left(-\frac{1}{t\log b}\right)\\ &= -\frac{1}{\log b}\frac{d}{dt}\left(t^{-1}\right)\\ &= -\frac{1}{\log b}\left(-t^{-2}\right)\\ &= \frac{1}{t^2\log b} \end{align} $$
　である。
　ここで、$t>0$ より $t^2>0$ であり、$b>1$ より $\log b>0$ である。ゆえに、
$$ f''(t)=\frac{1}{t^2\log b}>0 $$
　である。
したがって、$f$ は $(0,\infty)$ 上で凸である( 証明はコチラ )。
よって、任意の $x\in S_p$ に対して、$q_1(x)>0$、$q_2(x)>0$ であるから、凸性より
$$ \begin{align} -\log_b q_\lambda(x) &= f(q_\lambda(x))\\ &= f(\lambda q_1(x)+(1-\lambda)q_2(x))\\ &\leq \lambda f(q_1(x))+(1-\lambda)f(q_2(x))\\ &= \lambda\{-\log_b q_1(x)\} + (1-\lambda)\{-\log_b q_2(x)\} \end{align} $$
が成り立つ。
両辺に $p(x)\geq0$ を掛けると、
$$ p(x)\{-\log_b q_\lambda(x)\} \leq \lambda p(x)\{-\log_b q_1(x)\} + (1-\lambda)p(x)\{-\log_b q_2(x)\} $$
である。
$ $
これを $x\in S_p$ について足し合わせると、
$$ \begin{align} H_b^{\times}(p,q_\lambda) &= -\sum_{x\in S_p}p(x)\log_b q_\lambda(x)\\ &\leq \lambda\left(-\sum_{x\in S_p}p(x)\log_b q_1(x)\right) + (1-\lambda)\left(-\sum_{x\in S_p}p(x)\log_b q_2(x)\right)\\ &= \lambda H_b^{\times}(p,q_1) + (1-\lambda)H_b^{\times}(p,q_2) \end{align} $$
である。

-$q_\lambda=\lambda q_1+(1-\lambda)q_2$ であるから、
$$ H_b^{\times}(p,\lambda q_1+(1-\lambda)q_2) \leq \lambda H_b^{\times}(p,q_1)+(1-\lambda)H_b^{\times}(p,q_2) $$
が成り立つ。
$$ \Box$$

カルバック・ライブラー情報量の非負性

底 $b>1$ を固定する。$\mathcal X$ を空でない有限集合とし、$p$ と $q$ を $\mathcal X$ 上の確率質量関数とする。
任意の $x\in\mathcal X$ に対して
$$ p(x)>0\Rightarrow q(x)>0 $$
が成り立つと仮定する。

このとき、
$$ D_b(p\|q)\geq0 $$
が成り立つ。
さらに、等号
$$ D_b(p\|q)=0 $$
が成り立つための必要十分条件は、
任意の $x\in\mathcal X$ に対して
$$ p(x)=q(x) $$
が成り立つことである。

$p$ の台を
$$ S_p:=\{x\in\mathcal X\mid p(x)>0\} $$
とおく。
任意の $x\in S_p$ に対して $p(x)>0$ かつ $q(x)>0$ であるから、以下の対数はすべて有限な実数として定義される。

任意の $t>0$ に対して、
$$ \log t\leq t-1 $$
が成り立ち、等号成立条件は $t=1$ である( 証明はコチラ )。
したがって、任意の $x\in S_p$ に対して、$t=\dfrac{q(x)}{p(x)}$ とおくと、
$$ \log\frac{q(x)}{p(x)} \leq \frac{q(x)}{p(x)}-1 $$
である。両辺に $-p(x)$ を掛けると、不等号の向きが反転して、
$$ p(x)\log\frac{p(x)}{q(x)} \geq p(x)-q(x) $$
である。よって、
$$ \begin{align} \sum_{x\in S_p}p(x)\log\frac{p(x)}{q(x)} &\geq \sum_{x\in S_p}\{p(x)-q(x)\}\\ &= \sum_{x\in S_p}p(x)-\sum_{x\in S_p}q(x)\\ &= 1-\sum_{x\in S_p}q(x)\\ &\geq0 \end{align} $$
である。
ここで、任意の $t>0$ に対して
$$ \log_b t=\frac{\log t}{\log b} $$
であり、$b>1$ より $\log b>0$ である。
したがって、
$$ \begin{align} D_b(p\|q) &= \sum_{x\in S_p}p(x)\log_b\frac{p(x)}{q(x)}\\ &= \frac{1}{\log b} \sum_{x\in S_p}p(x)\log\frac{p(x)}{q(x)}\\ &\geq0 \end{align} $$
である。
$ $
次に、等号成立条件を確認する。
i) まず、$p=q$ であるとする。このとき、任意の $x\in S_p$ に対して
$$ \frac{p(x)}{q(x)}=1 $$
　であるから、
$$ \log_b\frac{p(x)}{q(x)}=0 $$
　である。
　したがって、
$$ D_b(p\|q)=0 $$
　である。
$ $
ii) 逆に、
$$ D_b(p\|q)=0 $$
　であるとする。
　自然対数で定義した値を
$$ D_e(p\|q) := \sum_{x\in S_p}p(x)\log\frac{p(x)}{q(x)} $$
　とおくと、
$$ D_b(p\|q)=\frac{1}{\log b}D_e(p\|q) $$
　である。$\log b>0$ であるから、
$$ D_e(p\|q)=0 $$
　である。
　任意の $x\in S_p$ に対して
$$ r(x):=\frac{q(x)}{p(x)} $$
　とおく。
　任意の $t>0$ に対して
$$ -\log t\geq1-t $$
　であり、等号成立条件は $t=1$ である。
　したがって、任意の $x\in S_p$ に対して
$$ -\log r(x)-(1-r(x))\geq0 $$
　である。また、
$$ \begin{align} D_e(p\|q) &= \sum_{x\in S_p}p(x)\{-\log r(x)\} \\ &= 1-\sum_{x\in S_p}q(x) + \sum_{x\in S_p}p(x)\{-\log r(x)-(1-r(x))\} \end{align} $$
　である。ここで、
$$ 1-\sum_{x\in S_p}q(x)\geq0 $$
　であり、かつ各 $x\in S_p$ について
$$ p(x)\{-\log r(x)-(1-r(x))\}\geq0 $$
　である。
　したがって、$D_e(p\|q)=0$ ならば、これらの非負項はすべて $0$ である。
　ゆえに、任意の $x\in S_p$ に対して
$$ -\log r(x)=1-r(x) $$
　である。
　等号成立条件より、任意の $x\in S_p$ に対して
$$ r(x)=1 $$
　である。したがって、任意の $x\in S_p$ に対して
$$ q(x)=p(x) $$
　である。さらに、
$$ 1-\sum_{x\in S_p}q(x)=0 $$
　より、
$$ \sum_{x\in S_p}q(x)=1 $$
　である。
　$q$ は $\mathcal X$ 上の確率質量関数であるから、
$$ \sum_{x\in\mathcal X}q(x)=1 $$
　である。したがって、
$$ \sum_{x\in\mathcal X\setminus S_p}q(x)=0 $$
　である。
　各 $q(x)$ は非負であるから、任意の $x\in\mathcal X\setminus S_p$ に対して
$$ q(x)=0 $$
　である。一方、$x\in\mathcal X\setminus S_p$ ならば $p(x)=0$ である。
　したがって、任意の $x\in\mathcal X$ に対して
$$ p(x)=q(x) $$
　が成り立つ。

-以上より、
$$ D_b(p\|q)\geq0 $$
であり、等号成立条件は $p=q$ である。
$$ \Box$$

不等式と等号成立条件

既に示した等式
$$ H_b^{\times}(p,q)=H_b(p)+D_b(p\|q) $$
とギブスの不等式
$$ D_b(p\|q)\geq0 $$
より、
$$ H_b^{\times}(p,q)\geq H_b(p) $$
が成り立つ。
また、
$$ H_b^{\times}(p,q)=H_b(p) $$
であることは、
$$ D_b(p\|q)=0 $$
であることと同値である。
既に示したように、ギブスの不等式の等号成立条件より、
$$ D_b(p\|q)=0 $$
が成り立つための必要十分条件は、
$$ p=q $$
である。
すなわち、任意の $x\in\mathcal X$ に対して
$$ p(x)=q(x) $$
が成り立つことである。

カルバック・ライブラー情報量は一般には対称でない

カルバック・ライブラー情報量 $D_{\mathrm{KL}}(\cdot\|\cdot)$ は、一般には対称ではない。
すなわち、ある空でない有限集合 $\mathcal X$ と、$\mathcal X$ 上の確率分布 $p,q$ が存在して、
$$ D_{\mathrm{KL}}(p\|q)\ne D_{\mathrm{KL}}(q\|p) $$
が成り立つ。

この反例では、カルバック・ライブラー情報量の対数の底として自然対数を用いる。
すなわち、一般の底 $b>1$ に関する記法 $D_b$ に対して、ここでは
$$ D_{\mathrm{KL}}=D_e $$とおく。

反例を構成する。
$$ \mathcal X:=\{0,1\} $$
とし、$\mathcal X$ 上の確率分布 $p,q$ を
$$ p(0)=\frac{1}{2}, \quad p(1)=\frac{1}{2} $$
および
$$ q(0)=\frac{1}{4}, \quad q(1)=\frac{3}{4} $$
で定める。
このとき、任意の $x\in\mathcal X$ に対して
$$ p(x)>0, \quad q(x)>0 $$
であるから、$D_{\mathrm{KL}}(p\|q)$ と $D_{\mathrm{KL}}(q\|p)$ はともに有限の実数として定義される。
自然対数を用いて計算する。

まず、
$$ \begin{align} D_{\mathrm{KL}}(p\|q) &= \frac{1}{2}\log\frac{1/2}{1/4} + \frac{1}{2}\log\frac{1/2}{3/4} \\ &= \frac{1}{2}\log2 + \frac{1}{2}\log\frac{2}{3} \\ &= \frac{1}{2}\log\frac{4}{3} \end{align} $$
である。
次に、
$$ \begin{align} D_{\mathrm{KL}}(q\|p) &= \frac{1}{4}\log\frac{1/4}{1/2} + \frac{3}{4}\log\frac{3/4}{1/2} \\ &= \frac{1}{4}\log\frac{1}{2} + \frac{3}{4}\log\frac{3}{2} \end{align} $$
である。

-ここで差を計算すると、
$$ \begin{align} D_{\mathrm{KL}}(p\|q)-D_{\mathrm{KL}}(q\|p) &= \frac{1}{2}\log\frac{4}{3} - \left( \frac{1}{4}\log\frac{1}{2} + \frac{3}{4}\log\frac{3}{2} \right) \\ &= \frac{1}{4}\log\frac{256}{243} \end{align} $$
である。さらに、
$$ \frac{256}{243}>1 $$
であり、自然対数 $\log$ は単調増加であるから、
$$ \frac{1}{4}\log\frac{256}{243}>0 $$
である。したがって、
$$ D_{\mathrm{KL}}(p\|q)>D_{\mathrm{KL}}(q\|p) $$
である。よって、
$$ D_{\mathrm{KL}}(p\|q)\ne D_{\mathrm{KL}}(q\|p) $$
が成り立つ。
以上より、カルバック・ライブラー情報量は一般には対称ではない。
$$ \Box$$

したがって、カルバック・ライブラー情報量は距離の公理(対称性)を満たさない。

$p\ne q$ ならば必ず
$$ D_{\mathrm{KL}}(p\|q)\ne D_{\mathrm{KL}}(q\|p) $$
となるわけではない。
たとえば、
$$ p(0)=0.3,\quad p(1)=0.7 $$
$$ q(0)=0.7,\quad q(1)=0.3 $$
とすると、$p\ne q$ であるにもかかわらず、
$$ D_{\mathrm{KL}}(p\|q)=D_{\mathrm{KL}}(q\|p) $$
が成り立つ。

カルバック・ライブラー情報量は三角不等式を満たさない

カルバック・ライブラー情報量 $D_{\mathrm{KL}}(\cdot\|\cdot)$ は、一般には三角不等式を満たさない。
すなわち、ある有限集合 $\mathcal X$ 上の確率分布 $P,Q,R$ が存在して、
$$ D_{\mathrm{KL}}(P\|R) > D_{\mathrm{KL}}(P\|Q)+D_{\mathrm{KL}}(Q\|R) $$
が成り立つ。

反例を構成する。
有限集合を
$$ \mathcal X:=\{0,1\} $$
とする。
$\mathcal X$ 上の確率分布 $P,Q,R$ を
$$ P(0)=\frac{1}{2}, \quad P(1)=\frac{1}{2} $$
$$ Q(0)=\frac{2}{5}, \quad Q(1)=\frac{3}{5} $$
$$ R(0)=\frac{3}{10}, \quad R(1)=\frac{7}{10} $$
で定める。
このとき、$P,Q,R$ はいずれも $\mathcal X$ 上の確率分布であり、すべての点で正である。
カルバック・ライブラー情報量を自然対数により
$$ D_{\mathrm{KL}}(A\|B) := \sum_{x\in\mathcal X}A(x)\log\frac{A(x)}{B(x)} $$
で定める。

まず、
$$ \begin{align} D_{\mathrm{KL}}(P\|R) &= \frac{1}{2}\log\frac{1/2}{3/10} + \frac{1}{2}\log\frac{1/2}{7/10} \\ &= \frac{1}{2}\log\frac{5}{3} + \frac{1}{2}\log\frac{5}{7} \\ &= \frac{1}{2}\log\frac{25}{21} \end{align} $$
である。
次に、
$$ \begin{align} D_{\mathrm{KL}}(P\|Q) &= \frac{1}{2}\log\frac{1/2}{2/5} + \frac{1}{2}\log\frac{1/2}{3/5} \\ &= \frac{1}{2}\log\frac{5}{4} + \frac{1}{2}\log\frac{5}{6} \\ &= \frac{1}{2}\log\frac{25}{24} \end{align} $$
である。
さらに、
$$ \begin{align} D_{\mathrm{KL}}(Q\|R) &= \frac{2}{5}\log\frac{2/5}{3/10} + \frac{3}{5}\log\frac{3/5}{7/10} \\ &= \frac{2}{5}\log\frac{4}{3} + \frac{3}{5}\log\frac{6}{7} \end{align} $$
である。

-したがって、
$$ \begin{align} &D_{\mathrm{KL}}(P\|R) - D_{\mathrm{KL}}(P\|Q) - D_{\mathrm{KL}}(Q\|R) \\ &= \frac{1}{2}\log\frac{25}{21} - \frac{1}{2}\log\frac{25}{24} - \frac{2}{5}\log\frac{4}{3} - \frac{3}{5}\log\frac{6}{7} \\ &= \frac{1}{2}\log\frac{8}{7} - \frac{2}{5}\log\frac{4}{3} - \frac{3}{5}\log\frac{6}{7} \\ &= \frac{1}{10} \log\left\{ \left(\frac{8}{7}\right)^5 \left(\frac{3}{4}\right)^4 \left(\frac{7}{6}\right)^6 \right\} \\ &= \frac{1}{10}\log\frac{14}{9} \end{align} $$
である。
ここで、
$$ \frac{14}{9}>1 $$
であり、自然対数 $\log$ は単調増加であるから、
$$ \frac{1}{10}\log\frac{14}{9}>0 $$
である。
よって、
$$ D_{\mathrm{KL}}(P\|R) - D_{\mathrm{KL}}(P\|Q) - D_{\mathrm{KL}}(Q\|R)>0 $$
である。
したがって、
$$ D_{\mathrm{KL}}(P\|R) > D_{\mathrm{KL}}(P\|Q)+D_{\mathrm{KL}}(Q\|R) $$
が成り立つ。
よって、カルバック・ライブラー情報量は一般には三角不等式を満たさない。
$$ \Box$$

したがって、カルバック・ライブラー情報量は距離の公理(三角不等式)を満たさない。

ギブスの不等式から対数和不等式を導いておく(´・ω・`)

$\log$ を自然対数とする。$n\geq1$ とし、任意の $i=1,\ldots,n$ に対して
$$ a_i\geq0,\quad b_i\geq0 $$
であるとする。また、
$$ A:=\sum_{i=1}^n a_i>0,\quad B:=\sum_{i=1}^n b_i>0 $$
とおく。
さらに、任意の $i=1,\ldots,n$ に対して
$$ a_i>0\Rightarrow b_i>0 $$
が成り立つと仮定する。
このとき、
$$ \sum_{\{i\mid a_i>0\}}a_i\log\frac{a_i}{b_i} \geq A\log\frac{A}{B} $$
が成り立つ。

任意の $i=1,\ldots,n$ に対して
$$ p_i:=\frac{a_i}{A}, \quad q_i:=\frac{b_i}{B} $$
と定める。
このとき、任意の $i=1,\ldots,n$ に対して
$$ p_i\geq0,\quad q_i\geq0 $$
であり、
$$ \sum_{i=1}^n p_i = \frac{1}{A}\sum_{i=1}^n a_i = 1 $$
かつ
$$ \sum_{i=1}^n q_i = \frac{1}{B}\sum_{i=1}^n b_i = 1 $$
である。
したがって、$p=(p_1,\ldots,p_n)$ と $q=(q_1,\ldots,q_n)$ は $\{1,\ldots,n\}$ 上の確率分布である。
また、$p_i>0$ ならば $a_i>0$ である。このとき、仮定より $b_i>0$ であるから、$q_i>0$ である。したがって、
$$ p_i>0\Rightarrow q_i>0 $$
が成り立つ。
よって、ギブスの不等式を $p$ と $q$ に適用できる( 証明はコチラ )。すなわち、
$$ -\sum_{\{i\mid p_i>0\}}p_i\log p_i \leq -\sum_{\{i\mid p_i>0\}}p_i\log q_i $$
である。
これを移項すると、
$$ \sum_{\{i\mid p_i>0\}}p_i\log\frac{p_i}{q_i}\geq0 $$
である。
ここで、$p_i>0$ であることと $a_i>0$ であることは同値であるから、
$$ \sum_{\{i\mid a_i>0\}} \frac{a_i}{A} \log \frac{a_i/A}{b_i/B} \geq0 $$
である。
両辺に $A>0$ を掛けると、
$$ \sum_{\{i\mid a_i>0\}} a_i \log \frac{a_i/A}{b_i/B} \geq0 $$
である。
さらに、
$$ \frac{a_i/A}{b_i/B} = \frac{a_iB}{b_iA} = \frac{a_i}{b_i}\cdot\frac{B}{A} $$
であるから、
$$ \begin{align} 0 &\leq \sum_{\{i\mid a_i>0\}} a_i \log \left( \frac{a_i}{b_i}\cdot\frac{B}{A} \right)\\ &= \sum_{\{i\mid a_i>0\}} a_i\log\frac{a_i}{b_i} + \sum_{\{i\mid a_i>0\}} a_i\log\frac{B}{A}\\ &= \sum_{\{i\mid a_i>0\}} a_i\log\frac{a_i}{b_i} + A\log\frac{B}{A} \end{align} $$
である。
したがって、
$$ \sum_{\{i\mid a_i>0\}} a_i\log\frac{a_i}{b_i} \geq -A\log\frac{B}{A} $$
である。ここで、
$$ -A\log\frac{B}{A} = A\log\frac{A}{B} $$
であるから、
$$ \sum_{\{i\mid a_i>0\}} a_i\log\frac{a_i}{b_i} \geq A\log\frac{A}{B} $$
が成り立つ。
$$ \Box$$

カルバック・ライブラー情報量の同時凸性

底 $b>1$ を固定する。$\mathcal X$ を空でない有限集合とする。$p_1,p_2,q_1,q_2$ を $\mathcal X$ 上の確率質量関数とする。
任意の $i\in\{1,2\}$ と任意の $x\in\mathcal X$ に対して、
$$ p_i(x)>0\Rightarrow q_i(x)>0 $$
が成り立つと仮定する。
このとき、任意の $\lambda\in[0,1]$ に対して、
$$ D_b(\lambda p_1+(1-\lambda)p_2\|\lambda q_1+(1-\lambda)q_2) \leq \lambda D_b(p_1\|q_1)+(1-\lambda)D_b(p_2\|q_2) $$
が成り立つ。

$\lambda\in[0,1]$ を任意に固定する。

$\lambda=0$ または $\lambda=1$ の場合を確認する。
$\lambda=0$ のとき、
$$ \lambda p_1+(1-\lambda)p_2=p_2, \quad \lambda q_1+(1-\lambda)q_2=q_2 $$
であるから、
$$ D_b(\lambda p_1+(1-\lambda)p_2\|\lambda q_1+(1-\lambda)q_2) = D_b(p_2\|q_2) $$
である。また、
$$ \lambda D_b(p_1\|q_1)+(1-\lambda)D_b(p_2\|q_2) = D_b(p_2\|q_2) $$
である。したがって、この場合は等号が成り立つ。
$\lambda=1$ のときも同様に等号が成り立つ。
$ $
以下、$0<\lambda<1$ とする。
いま、
$$ p_\lambda:=\lambda p_1+(1-\lambda)p_2 $$
および
$$ q_\lambda:=\lambda q_1+(1-\lambda)q_2 $$
とおく。
このとき、$p_\lambda$ と $q_\lambda$ は $\mathcal X$ 上の確率質量関数である。
実際、任意の $x\in\mathcal X$ に対して
$$ p_\lambda(x)\geq0, \quad q_\lambda(x)\geq0 $$
であり、
$$ \sum_{x\in\mathcal X}p_\lambda(x) = \lambda\sum_{x\in\mathcal X}p_1(x) + (1-\lambda)\sum_{x\in\mathcal X}p_2(x) = \lambda+(1-\lambda) = 1 $$
である。同様に、
$$ \sum_{x\in\mathcal X}q_\lambda(x)=1 $$
である。
$ $
$p_\lambda(x)>0\Rightarrow q_\lambda(x)>0$ を確認する。
任意に $x\in\mathcal X$ を取り、
$$ p_\lambda(x)>0 $$
とする。
このとき、
$$ \lambda p_1(x)+(1-\lambda)p_2(x)>0 $$
である。各項は非負であるから、
$$ \lambda p_1(x)>0 $$
または
$$ (1-\lambda)p_2(x)>0 $$
が成り立つ。
$ $
i) $\lambda p_1(x)>0$ の場合。
　このとき、$\lambda>0$ かつ $p_1(x)>0$ である。仮定より $q_1(x)>0$ である。
　したがって、
$$ \lambda q_1(x)>0 $$
　である。
　また、$1-\lambda\geq0$ かつ $q_2(x)\geq0$ であるから、
$$ (1-\lambda)q_2(x)\geq0 $$
　である。よって、
$$ q_\lambda(x) = \lambda q_1(x)+(1-\lambda)q_2(x) \geq \lambda q_1(x) >0 $$
　である。
ii) $(1-\lambda)p_2(x)>0$ の場合。
　このとき、$1-\lambda>0$ かつ $p_2(x)>0$ である。仮定より $q_2(x)>0$ である。
　したがって、
$$ (1-\lambda)q_2(x)>0 $$
　である。
　また、$\lambda\geq0$ かつ $q_1(x)\geq0$ であるから、
$$ \lambda q_1(x)\geq0 $$
　である。よって、
$$ q_\lambda(x) = \lambda q_1(x)+(1-\lambda)q_2(x) \geq (1-\lambda)q_2(x) >0 $$
　である。
以上より、
$$ p_\lambda(x)>0\Rightarrow q_\lambda(x)>0 $$
が成り立つ。
$ $
補助関数を用意する。
補助関数 $\eta_b$ を $\mathbb R\cup\{+\infty\}$ に値をもつ関数として、
$$ \eta_b(a,c) := \begin{cases} a\log_b\dfrac{a}{c}, & a>0\text{ かつ }c>0,\\ 0, & a=0,\\ +\infty, & a>0\text{ かつ }c=0 \end{cases} $$
で定める。
このとき、任意の確率質量関数 $r,s$ について、任意の $x\in\mathcal X$ に対して
$$ r(x)>0\Rightarrow s(x)>0 $$
が成り立つならば、
$$ D_b(r\|s) = \sum_{x\in\mathcal X}\eta_b(r(x),s(x)) $$
である。
特に、
$$ D_b(p_i\|q_i) = \sum_{x\in\mathcal X}\eta_b(p_i(x),q_i(x)) \quad (i=1,2) $$
であり、また
$$ D_b(p_\lambda\|q_\lambda) = \sum_{x\in\mathcal X}\eta_b(p_\lambda(x),q_\lambda(x)) $$
である。
$ $
対数和不等式を適用する。
自然対数の場合の対数和不等式を、$\log_b t=\dfrac{\log t}{\log b}$ によって底 $b$ に直して用いる。
任意の $x\in\mathcal X$ を固定する。
$$ a_1:=\lambda p_1(x), \quad a_2:=(1-\lambda)p_2(x), \quad c_1:=\lambda q_1(x), \quad c_2:=(1-\lambda)q_2(x) $$
とおく。
このとき、
$$ a_1+a_2=p_\lambda(x), \quad c_1+c_2=q_\lambda(x) $$
である。
$ $
i) $a_1+a_2=0$ の場合。
　$a_1\geq0$ かつ $a_2\geq0$ であるから、
$$ a_1=0, \quad a_2=0 $$
　である。したがって、補助関数 $\eta_b$ の定義より、
$$ \eta_b(a_1+a_2,c_1+c_2)=\eta_b(0,c_1+c_2)=0 $$
　である。
　また、同じく $\eta_b$ の定義より、
$$ \eta_b(a_1,c_1)=\eta_b(0,c_1)=0 $$
　かつ
$$ \eta_b(a_2,c_2)=\eta_b(0,c_2)=0 $$
　である。ゆえに、
$$ \eta_b(a_1+a_2,c_1+c_2) = \eta_b(a_1,c_1)+\eta_b(a_2,c_2) $$
　である。特に、
$$ \eta_b(a_1+a_2,c_1+c_2) \leq \eta_b(a_1,c_1)+\eta_b(a_2,c_2) $$
　が成り立つ。
$ $
ii) $a_1+a_2>0$ の場合。
　このとき、$a_1>0$ または $a_2>0$ である。
　また、$0<\lambda<1$ より、仮定から
$$ a_1>0\Rightarrow p_1(x)>0\Rightarrow q_1(x)>0\Rightarrow c_1>0 $$
　であり、同様に
$$ a_2>0\Rightarrow c_2>0 $$
　である。
　したがって、$a_1>0$ または $a_2>0$ であることから、$c_1>0$ または $c_2>0$ である。ゆえに、
$$ c_1+c_2>0 $$
　である。また、
$$ a_j>0\Rightarrow c_j>0 \quad (j=1,2) $$
　が成り立つ。
　したがって、底 $b$ に関する対数和不等式を $a_1,a_2,c_1,c_2$ に適用できるので、
$$ \eta_b(a_1+a_2,c_1+c_2) \leq \eta_b(a_1,c_1)+\eta_b(a_2,c_2) $$
　が成り立つ。
$ $
i) と ii) より、すべての場合において、
$$ \eta_b(a_1+a_2,c_1+c_2) \leq \eta_b(a_1,c_1)+\eta_b(a_2,c_2) $$
が成り立つ。
すなわち、任意の $x\in\mathcal X$ に対して、
$$ \begin{align} \eta_b(p_\lambda(x),q_\lambda(x)) &= \eta_b(\lambda p_1(x)+(1-\lambda)p_2(x),\lambda q_1(x)+(1-\lambda)q_2(x)) \\ &\leq \eta_b(\lambda p_1(x),\lambda q_1(x)) + \eta_b((1-\lambda)p_2(x),(1-\lambda)q_2(x)) \end{align} $$
である。
ここで、任意の $\alpha>0$ と任意の $a,c\geq0$ に対して、
$$ \eta_b(\alpha a,\alpha c)=\alpha\eta_b(a,c) $$
が成り立つ(補足を参照)。
いま $0<\lambda<1$ であるから、
$$ \eta_b(\lambda p_1(x),\lambda q_1(x)) = \lambda\eta_b(p_1(x),q_1(x)) $$
かつ
$$ \eta_b((1-\lambda)p_2(x),(1-\lambda)q_2(x)) = (1-\lambda)\eta_b(p_2(x),q_2(x)) $$
である。
したがって、任意の $x\in\mathcal X$ に対して、
$$ \eta_b(p_\lambda(x),q_\lambda(x)) \leq \lambda\eta_b(p_1(x),q_1(x)) + (1-\lambda)\eta_b(p_2(x),q_2(x)) $$
が成り立つ。
$ $
有限和を取る。
$\mathcal X$ は有限集合であるから、前段の不等式を $x\in\mathcal X$ について足し合わせることができる。よって、
$$ \begin{align} D_b(p_\lambda\|q_\lambda) &= \sum_{x\in\mathcal X}\eta_b(p_\lambda(x),q_\lambda(x))\\ &\leq \sum_{x\in\mathcal X} \{\lambda\eta_b(p_1(x),q_1(x))+(1-\lambda)\eta_b(p_2(x),q_2(x))\}\\ &= \lambda\sum_{x\in\mathcal X}\eta_b(p_1(x),q_1(x)) + (1-\lambda)\sum_{x\in\mathcal X}\eta_b(p_2(x),q_2(x))\\ &= \lambda D_b(p_1\|q_1) + (1-\lambda)D_b(p_2\|q_2) \end{align} $$
である。

-すなわち、
$$ D_b(\lambda p_1+(1-\lambda)p_2\|\lambda q_1+(1-\lambda)q_2) \leq \lambda D_b(p_1\|q_1)+(1-\lambda)D_b(p_2\|q_2) $$
が成り立つ。
$$ \Box$$

補助関数 $\eta_b$ の正の斉次性

$\alpha>0$ とする。任意の $a,c\geq0$ に対して、
$$ \eta_b(\alpha a,\alpha c)=\alpha\eta_b(a,c) $$
が成り立つことを確認する。
$ $

$a=0$ の場合。
このとき、$\alpha a=0$ であるから、$\eta_b$ の定義より
$$ \eta_b(\alpha a,\alpha c)=0 $$
である。一方、
$$ \alpha\eta_b(a,c)=\alpha\eta_b(0,c)=\alpha\cdot0=0 $$
である。したがって、
$$ \eta_b(\alpha a,\alpha c)=\alpha\eta_b(a,c) $$
である。
$a>0$ かつ $c>0$ の場合。
このとき、$\alpha>0$ より $\alpha a>0$ かつ $\alpha c>0$ である。したがって、
$$ \begin{align} \eta_b(\alpha a,\alpha c) &= \alpha a\log_b\frac{\alpha a}{\alpha c}\\ &= \alpha a\log_b\frac{a}{c}\\ &= \alpha\eta_b(a,c) \end{align} $$
である。
$a>0$ かつ $c=0$ の場合。
このとき、$\alpha>0$ より $\alpha a>0$ かつ $\alpha c=0$ である。したがって、$\eta_b$ の定義より
$$ \eta_b(\alpha a,\alpha c)=+\infty $$
である。一方、
$$ \eta_b(a,c)=+\infty $$
であり、$\alpha>0$ であるから、拡大実数の意味で
$$ \alpha\eta_b(a,c)=\alpha(+\infty)=+\infty $$
である。
したがって、この場合も
$$ \eta_b(\alpha a,\alpha c)=\alpha\eta_b(a,c) $$
である。

-以上より、任意の $\alpha>0$ と任意の $a,c\geq0$ に対して、
$$ \eta_b(\alpha a,\alpha c)=\alpha\eta_b(a,c) $$
が成り立つ。

積分布に対するカルバック・ライブラー情報量の加法性

底 $b>1$ を固定する。$\mathcal X,\mathcal Y$ を空でない有限集合とする。
$p_X,q_X$ を $\mathcal X$ 上の確率質量関数とし、$p_Y,q_Y$ を $\mathcal Y$ 上の確率質量関数とする。

任意の $x\in\mathcal X$ に対して
$$ p_X(x)>0\Rightarrow q_X(x)>0 $$
が成り立ち、任意の $y\in\mathcal Y$ に対して
$$ p_Y(y)>0\Rightarrow q_Y(y)>0 $$
が成り立つと仮定する。
$\mathcal X\times\mathcal Y$ 上の確率質量関数 $p,q$ を、任意の $(x,y)\in\mathcal X\times\mathcal Y$ に対して
$$ p(x,y):=p_X(x)p_Y(y), \quad q(x,y):=q_X(x)q_Y(y) $$
によって定める。

-このとき、
$$ D_b(p\|q) = D_b(p_X\|q_X)+D_b(p_Y\|q_Y) $$
が成り立つ。

$p_X$ と $p_Y$ の台をそれぞれ
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\}, \quad S_Y:=\{y\in\mathcal Y\mid p_Y(y)>0\} $$
とおく。
任意の $(x,y)\in\mathcal X\times\mathcal Y$ に対して、
$$ p(x,y)=p_X(x)p_Y(y) $$
であるから、
$$ p(x,y)>0 \Longleftrightarrow x\in S_X\ \text{かつ}\ y\in S_Y $$
である。
また、仮定より、任意の $x\in S_X$ と $y\in S_Y$ に対して、
$$ q_X(x)>0, \quad q_Y(y)>0 $$
である。したがって、
$$ q(x,y)=q_X(x)q_Y(y)>0 $$
である。
$ $
ゆえに、$D_b(p\|q)$ は有限和として
$$ D_b(p\|q) = \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \log_b\frac{p_X(x)p_Y(y)}{q_X(x)q_Y(y)} $$
と書ける。
任意の $x\in S_X$ と $y\in S_Y$ に対して、対数の性質より、
$$ \log_b\frac{p_X(x)p_Y(y)}{q_X(x)q_Y(y)} = \log_b\frac{p_X(x)}{q_X(x)} + \log_b\frac{p_Y(y)}{q_Y(y)} $$
である。
したがって、
$$ \begin{align} D_b(p\|q) &= \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \left( \log_b\frac{p_X(x)}{q_X(x)} + \log_b\frac{p_Y(y)}{q_Y(y)} \right)\\ &= \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \log_b\frac{p_X(x)}{q_X(x)}\\ &\quad+ \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \log_b\frac{p_Y(y)}{q_Y(y)} \end{align} $$
である。
i) 第 $1$ 項について、$\log_b\frac{p_X(x)}{q_X(x)}$ は $y$ に依存しないので、
$$ \begin{align} \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \log_b\frac{p_X(x)}{q_X(x)} &= \sum_{x\in S_X} p_X(x)\log_b\frac{p_X(x)}{q_X(x)} \sum_{y\in S_Y}p_Y(y)\\ &= \sum_{x\in S_X} p_X(x)\log_b\frac{p_X(x)}{q_X(x)}\\ &= D_b(p_X\|q_X) \end{align} $$
　である。
ii) 同様に、第 $2$ 項について、$\log_b\frac{p_Y(y)}{q_Y(y)}$ は $x$ に依存しないので、
$$ \begin{align} \sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y) \log_b\frac{p_Y(y)}{q_Y(y)} &= \sum_{y\in S_Y} p_Y(y)\log_b\frac{p_Y(y)}{q_Y(y)} \sum_{x\in S_X}p_X(x)\\ &= \sum_{y\in S_Y} p_Y(y)\log_b\frac{p_Y(y)}{q_Y(y)}\\ &= D_b(p_Y\|q_Y) \end{align} $$
　である。

-以上より、
$$ D_b(p\|q) = D_b(p_X\|q_X)+D_b(p_Y\|q_Y) $$
が成り立つ。
$$ \Box$$

カルバック・ライブラー情報量の連鎖律

底 $b>1$ を固定する。$\mathcal X,\mathcal Y$ を空でない有限集合とする。
$p:\mathcal X\times\mathcal Y\to[0,1]$ と $q:\mathcal X\times\mathcal Y\to[0,1]$ を $\mathcal X\times\mathcal Y$ 上の確率質量関数とする。

任意の $(x,y)\in\mathcal X\times\mathcal Y$ に対して、
$$ p(x,y)>0\Rightarrow q(x,y)>0 $$
が成り立つと仮定する。
$p$ と $q$ の $\mathcal X$ 上の周辺確率質量関数を、それぞれ
$$ p_X(x):=\sum_{y\in\mathcal Y}p(x,y), \quad q_X(x):=\sum_{y\in\mathcal Y}q(x,y) $$
で定める。
また、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
各 $x\in S_X$ に対して、$\mathcal Y$ 上の条件付き確率質量関数を
$$ p_{Y\mid X=x}(y):=\frac{p(x,y)}{p_X(x)} $$
および
$$ q_{Y\mid X=x}(y):=\frac{q(x,y)}{q_X(x)} $$
で定める。

-このとき、
$$ D_b(p\|q) = D_b(p_X\|q_X) + \sum_{x\in S_X}p_X(x)D_b(p_{Y\mid X=x}\|q_{Y\mid X=x}) $$
が成り立つ。すなわち、
$$ D_b(p\|q) = D_b(p_X\|q_X) + \mathbb E_{p_X} \left[ D_b(p_{Y\mid X}\|q_{Y\mid X}) \right] $$
である。

まず、条件付き確率質量関数が定義できることを確認する。
$x\in S_X$ とする。このとき、
$$ p_X(x)>0 $$
であるから、ある $y\in\mathcal Y$ が存在して
$$ p(x,y)>0 $$
である。
仮定より、
$$ q(x,y)>0 $$
である。したがって、
$$ q_X(x)=\sum_{y'\in\mathcal Y}q(x,y')\geq q(x,y)>0 $$
である。よって、任意の $x\in S_X$ に対して、$q_X(x)>0$ が成り立つ。
したがって、$p_{Y\mid X=x}$ と $q_{Y\mid X=x}$ はどちらも定義される。
また、任意の $x\in S_X$ に対して、
$$ \sum_{y\in\mathcal Y}p_{Y\mid X=x}(y) = \sum_{y\in\mathcal Y}\frac{p(x,y)}{p_X(x)} = \frac{p_X(x)}{p_X(x)} = 1 $$
であり、同様に、
$$ \sum_{y\in\mathcal Y}q_{Y\mid X=x}(y)=1 $$
である。
したがって、$p_{Y\mid X=x}$ と $q_{Y\mid X=x}$ は $\mathcal Y$ 上の確率質量関数である。
さらに、$x\in S_X$ とし、
$$ p_{Y\mid X=x}(y)>0 $$
とする。このとき、
$$ p(x,y)>0 $$
である。仮定より、
$$ q(x,y)>0 $$
であるから、
$$ q_{Y\mid X=x}(y)=\frac{q(x,y)}{q_X(x)}>0 $$
である。
したがって、任意の $x\in S_X$ に対して、
$$ p_{Y\mid X=x}(y)>0\Rightarrow q_{Y\mid X=x}(y)>0 $$
が成り立つ。
$ $
次に、連鎖律を示す。
カルバック・ライブラー情報量の定義より、
$$ D_b(p\|q) = \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y)\log_b\frac{p(x,y)}{q(x,y)} $$
である。
$p(x,y)>0$ ならば、$p_X(x)>0$ であるから $x\in S_X$ である。
また、上で示したように、このとき $q_X(x)>0$ である。さらに仮定より $q(x,y)>0$ である。
したがって、
$$ p(x,y)=p_X(x)p_{Y\mid X=x}(y) $$
かつ
$$ q(x,y)=q_X(x)q_{Y\mid X=x}(y) $$
である。
よって、
$$ \begin{align} D_b(p\|q) &= \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y) \log_b \frac{p_X(x)p_{Y\mid X=x}(y)} {q_X(x)q_{Y\mid X=x}(y)} \\ &= \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y) \left\{ \log_b\frac{p_X(x)}{q_X(x)} + \log_b\frac{p_{Y\mid X=x}(y)}{q_{Y\mid X=x}(y)} \right\} \\ &= \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y)\log_b\frac{p_X(x)}{q_X(x)} + \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y)\log_b\frac{p_{Y\mid X=x}(y)}{q_{Y\mid X=x}(y)} \end{align} $$
である。
i) 第 $1$ 項を計算する。
　$p(x,y)=0$ の点を加えても和の値は変わらないので、
$$ \begin{align} \sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y)\log_b\frac{p_X(x)}{q_X(x)} &= \sum_{x\in S_X} \sum_{y\in\mathcal Y} p(x,y)\log_b\frac{p_X(x)}{q_X(x)} \\ &= \sum_{x\in S_X} \left(\sum_{y\in\mathcal Y}p(x,y)\right) \log_b\frac{p_X(x)}{q_X(x)} \\ &= \sum_{x\in S_X} p_X(x)\log_b\frac{p_X(x)}{q_X(x)} \\ &= D_b(p_X\|q_X) \end{align} $$
　である。
$ $
ii) 第 $2$ 項を計算する。
　$x\in S_X$ ならば、
$$ p(x,y)=p_X(x)p_{Y\mid X=x}(y) $$
　である。また、
$$ p(x,y)>0 \Longleftrightarrow p_{Y\mid X=x}(y)>0 $$
　である。
　したがって、
$$ \begin{align} &\sum_{\substack{x\in\mathcal X,\ y\in\mathcal Y\\ p(x,y)>0}} p(x,y)\log_b\frac{p_{Y\mid X=x}(y)}{q_{Y\mid X=x}(y)} \\ &= \sum_{x\in S_X} \sum_{\substack{y\in\mathcal Y\\ p_{Y\mid X=x}(y)>0}} p_X(x)p_{Y\mid X=x}(y) \log_b\frac{p_{Y\mid X=x}(y)}{q_{Y\mid X=x}(y)} \\ &= \sum_{x\in S_X} p_X(x) \sum_{\substack{y\in\mathcal Y\\ p_{Y\mid X=x}(y)>0}} p_{Y\mid X=x}(y) \log_b\frac{p_{Y\mid X=x}(y)}{q_{Y\mid X=x}(y)} \\ &= \sum_{x\in S_X} p_X(x) D_b(p_{Y\mid X=x}\|q_{Y\mid X=x}) \end{align} $$
　である。

-以上より、
$$ D_b(p\|q) = D_b(p_X\|q_X) + \sum_{x\in S_X}p_X(x)D_b(p_{Y\mid X=x}\|q_{Y\mid X=x}) $$
が成り立つ。
ここで、
$$ \mathbb E_{p_X} \left[ D_b(p_{Y\mid X}\|q_{Y\mid X}) \right] := \sum_{x\in S_X}p_X(x)D_b(p_{Y\mid X=x}\|q_{Y\mid X=x}) $$
と読めば、
$$ D_b(p\|q) = D_b(p_X\|q_X) + \mathbb E_{p_X} \left[ D_b(p_{Y\mid X}\|q_{Y\mid X}) \right] $$
である。
$$ \Box$$

参考文献

[1]

Thomas M.Cover, Joy A. Thomas, Elements of Information theory,2nd Edition

投稿日：6月2日

更新日：6月9日

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

7346

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

他の人のコメント

コメントはありません。

読み込み中

Kagura

クロスエントロピーとカルバック・ライブラー情報量