大学数学基礎解説

文献あり

結合エントロピーと条件付きエントロピーの基本的な性質

統計,確率,データサイエンス

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

Def.

結合エントロピー

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

$M,N\in\mathbb N$ とし、$\mathcal X,\mathcal Y$ を有限集合
$$ \mathcal X=\{x_1,\ldots,x_M\}, \quad \mathcal Y=\{y_1,\ldots,y_N\} $$
とする。ただし、$x_1,\ldots,x_M$ は互いに異なり、同様に $y_1,\ldots,y_N$ は互いに異なるとする。
$ $
$\mathcal X$ には $\mathcal P(\mathcal X)$ を入れ、$\mathcal Y$ には $\mathcal P(\mathcal Y)$ を入れる。
$X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X))$ と $Y:(\Omega,\mathcal F)\to(\mathcal Y,\mathcal P(\mathcal Y))$ を可測関数とする。
すなわち、$X$ と $Y$ は有限集合に値をもつ離散確率変数である。
このとき、
$$ (X,Y):(\Omega,\mathcal F) \to (\mathcal X\times\mathcal Y,\mathcal P(\mathcal X\times\mathcal Y)) $$
を
$$ (X,Y)(\omega):=(X(\omega),Y(\omega)) $$
で定める。
$ $
各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p_{X,Y}(x,y) := \mathbb P(X=x,Y=y) $$
で定める。ただし、
$$ \{X=x,Y=y\} := \{\omega\in\Omega\mid X(\omega)=x,\ Y(\omega)=y\} $$
である。さらに、
$$ S_{X,Y} := \{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\} $$
とおく。
$ $
$(X,Y)$ の結合自己情報量確率変数 $I_{X,Y}:\Omega\to[0,\infty)$ を
$$ I_{X,Y}(\omega) := \begin{cases} -\log_b p_{X,Y}(X(\omega),Y(\omega)), & (X(\omega),Y(\omega))\in S_{X,Y},\\ 0, & (X(\omega),Y(\omega))\notin S_{X,Y} \end{cases} $$
で定める。

-このとき、$X$ と $Y$ の底 $b$ に関する結合エントロピーを
$$ H_b(X,Y) := \mathbb E[I_{X,Y}] $$
で定義する。

意味

結合エントロピー $H_b(X,Y)$ は、$X$ と $Y$ を同時に観測するときの平均自己情報量である。
つまり、$(X,Y)$ を $1$ つの $\mathcal X\times\mathcal Y$ 値確率変数と見たときのシャノン・エントロピーである。
言い換えると、$H_b(X,Y)$ は、同時分布 $p_{X,Y}$ がもつ不確実性を測る量である。

和による表示

結合自己情報量 $I_{X,Y}$ は、各 $\omega\in\Omega$ に対して
$$ I_{X,Y}(\omega) = \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) 1_{\{X=x,Y=y\}}(\omega) $$
と書ける。実際、$(X(\omega),Y(\omega))\in S_{X,Y}$ のとき、ただ $1$ つの $(x,y)\in S_{X,Y}$ について
$$ X(\omega)=x,\quad Y(\omega)=y $$
となるため、指示関数の定義より
$$ \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) 1_{\{X=x,Y=y\}}(\omega) = -\log_b p_{X,Y}(X(\omega),Y(\omega)) $$
である。また、$(X(\omega),Y(\omega))\notin S_{X,Y}$ のとき、すべての $(x,y)\in S_{X,Y}$ について
$$ (X(\omega),Y(\omega))\ne(x,y) $$
であるから、指示関数の定義から
$$ \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) 1_{\{X=x,Y=y\}}(\omega) = 0 $$
である。したがって、
$$ I_{X,Y} = \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) 1_{\{X=x,Y=y\}} $$
である。よって、期待値の線形性より、
$$ \begin{align} H_b(X,Y) &= \mathbb E[I_{X,Y}] \\ &= \mathbb E\left[ \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) 1_{\{X=x,Y=y\}} \right] \\ &= \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) \mathbb E[1_{\{X=x,Y=y\}}] \\ &= \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) \mathbb P(X=x,Y=y) \\ &= \sum_{(x,y)\in S_{X,Y}} \left(-\log_b p_{X,Y}(x,y)\right) p_{X,Y}(x,y) \\ &= -\sum_{(x,y)\in S_{X,Y}} p_{X,Y}(x,y)\log_b p_{X,Y}(x,y) \end{align} $$
である( 期待値の性質はコチラ )。
なお、$S_{X,Y}$ は有限集合であり、各 $(x,y)\in S_{X,Y}$ について $p_{X,Y}(x,y)>0$ であるから、
$I_{X,Y}$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_{X,Y}$ の期待値はよく定義される。

条件付きエントロピー

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

$M,N\in\mathbb N$ とし、$\mathcal X,\mathcal Y$ を有限集合
$$ \mathcal X=\{x_1,\ldots,x_M\}, \quad \mathcal Y=\{y_1,\ldots,y_N\} $$
とする。ただし、$x_1,\ldots,x_M$ は互いに異なり、同様に $y_1,\ldots,y_N$ は互いに異なるとする。
$ $
$\mathcal X$ には $\mathcal P(\mathcal X)$ を入れ、$\mathcal Y$ には $\mathcal P(\mathcal Y)$ を入れる。
$X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X))$ と $Y:(\Omega,\mathcal F)\to(\mathcal Y,\mathcal P(\mathcal Y))$ を可測写像とする。
すなわち、$X$ と $Y$ は有限集合に値をもつ離散確率変数である。
このとき、
$$ (X,Y):(\Omega,\mathcal F) \to (\mathcal X\times\mathcal Y,\mathcal P(\mathcal X\times\mathcal Y)) $$
を
$$ (X,Y)(\omega):=(X(\omega),Y(\omega)) $$
で定める。
$ $
各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、同時確率質量関数を
$$ p_{X,Y}(x,y):=\mathbb P(X=x,Y=y) $$
で定める。ただし、
$$ \{X=x,Y=y\} := \{\omega\in\Omega\mid X(\omega)=x,\ Y(\omega)=y\} $$
である。
また、各 $y\in\mathcal Y$ に対して、
$$ p_Y(y):=\mathbb P(Y=y) $$
と定め、
$$ S_Y:=\{y\in\mathcal Y\mid p_Y(y)>0\} $$
とおく。
$ $
各 $x\in\mathcal X$ と $y\in\mathcal Y$ に対して、
$$ p_{X\mid Y}(x\mid y) := \begin{cases} \dfrac{p_{X,Y}(x,y)}{p_Y(y)}, & y\in S_Y,\\ 0, & y\notin S_Y \end{cases} $$
と定める。このとき、$y\in S_Y$ ならば
$$ p_{X\mid Y}(x\mid y) = \mathbb P(X=x\mid Y=y) $$
である。さらに、
$$ S_{X\mid Y} := \{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X\mid Y}(x\mid y)>0\} $$
とおく。
$ $
条件付き自己情報量確率変数 $I_{X\mid Y}:\Omega\to[0,\infty)$ を
$$ I_{X\mid Y}(\omega) := \begin{cases} -\log_b p_{X\mid Y}(X(\omega)\mid Y(\omega)), & (X(\omega),Y(\omega))\in S_{X\mid Y},\\ 0, & (X(\omega),Y(\omega))\notin S_{X\mid Y} \end{cases} $$
で定める。

-このとき、$Y$ が与えられたときの $X$ の底 $b$ に関する条件付きエントロピーを
$$ H_b(X\mid Y) := \mathbb E[I_{X\mid Y}] $$
で定義する。

意味

$H_b(X\mid Y)$ は、$Y$ の値を知ったあとに残る $X$ の平均的な不確実性を表す。
各 $y\in S_Y$ に対して、$H_b(X\mid Y=y)$ は $Y=y$ と分かった場合の $X$ の不確実性である。
そして、$H_b(X\mid Y)$ はそれらを $Y$ の分布 $p_Y(y)$ によって平均した量である。

$p_Y(y)=0$ の場合

$p_Y(y)=0$ の場合、通常の条件付き確率
$$ \mathbb P(X=x\mid Y=y) = \frac{\mathbb P(X=x,Y=y)}{\mathbb P(Y=y)} $$
は定義されない。
したがって、$p_{X\mid Y}(x\mid y)$ が条件付き確率質量関数として意味をもつのは、$y\in S_Y$ の場合である。
一方で、本文では $y\notin S_Y$ の場合に
$$ p_{X\mid Y}(x\mid y):=0 $$
と定めた。これは通常の条件付き確率を定義しているのではなく、条件付き自己情報量確率変数 $I_{X\mid Y}$ を全ての $\omega\in\Omega$ 上で定義するための便宜的な拡張である。
なお、$y\notin S_Y$ の場合には
$$ \mathbb P(Y=y)=0 $$
であるから、このような $y$ に対応する点は期待値 $H_b(X\mid Y)$ の値に影響しない。

和による表示

条件付き自己情報量 $I_{X\mid Y}$ は、各 $\omega\in\Omega$ に対して
$$ I_{X\mid Y}(\omega) = \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) 1_{\{X=x,Y=y\}}(\omega) $$
と書ける。
実際、$(X(\omega),Y(\omega))\in S_{X\mid Y}$ のとき、ただ $1$ つの $(x,y)\in S_{X\mid Y}$ について
$$ X(\omega)=x,\quad Y(\omega)=y $$
となるため、指示関数の定義より
$$ \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) 1_{\{X=x,Y=y\}}(\omega) = -\log_b p_{X\mid Y}(X(\omega)\mid Y(\omega)) $$
である。
また、$(X(\omega),Y(\omega))\notin S_{X\mid Y}$ のとき、すべての $(x,y)\in S_{X\mid Y}$ について
$$ (X(\omega),Y(\omega))\ne(x,y) $$
であるから、指示関数の定義から
$$ \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) 1_{\{X=x,Y=y\}}(\omega) = 0 $$
である。したがって、
$$ I_{X\mid Y} = \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) 1_{\{X=x,Y=y\}} $$
である。
よって、期待値の線形性より、
$$ \begin{align} H_b(X\mid Y) &= \mathbb E[I_{X\mid Y}] \\ &= \mathbb E\left[ \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) 1_{\{X=x,Y=y\}} \right] \\ &= \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) \mathbb E[1_{\{X=x,Y=y\}}] \\ &= \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) \mathbb P(X=x,Y=y) \\ &= \sum_{(x,y)\in S_{X\mid Y}} \left(-\log_b p_{X\mid Y}(x\mid y)\right) p_{X,Y}(x,y) \\ &= -\sum_{(x,y)\in S_{X\mid Y}} p_{X,Y}(x,y)\log_b p_{X\mid Y}(x\mid y) \end{align} $$
である( 期待値の性質はコチラ )。
なお、$S_{X\mid Y}$ は有限集合であり、各 $(x,y)\in S_{X\mid Y}$ について $p_{X\mid Y}(x\mid y)>0$ であるから、
$I_{X\mid Y}$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_{X\mid Y}$ の期待値はよく定義される。
$ $
さらに、$(x,y)\in S_{X\mid Y}$ ならば $y\in S_Y$ であり、
$$ p_{X,Y}(x,y) = p_Y(y)p_{X\mid Y}(x\mid y) $$
であるから、
$$ \begin{align} H_b(X\mid Y) &= -\sum_{(x,y)\in S_{X\mid Y}} p_{X,Y}(x,y)\log_b p_{X\mid Y}(x\mid y) \\ &= -\sum_{y\in S_Y} \sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p_Y(y)p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y) \\ &= -\sum_{y\in S_Y} p_Y(y) \sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y) \end{align} $$
である。
ここで、各 $y\in S_Y$ に対して
$$ H_b(X\mid Y=y) := -\sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y) $$
と定めれば、
$$ H_b(X\mid Y) = \sum_{y\in S_Y}p_Y(y)H_b(X\mid Y=y) $$
である。

Prop&Proof

同じ確率変数の結合エントロピー

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$\mathcal X$ を有限集合とし、$X:\Omega\to\mathcal X$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$ H_b(X,X)=H_b(X) $$
が成り立つ。

各 $x\in\mathcal X$ に対して、$X$ の確率質量関数を
$$ p_X(x):=\mathbb P(X=x) $$
で定める。また、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
一方、各 $(x,y)\in\mathcal X\times\mathcal X$ に対して、$(X,X)$ の同時確率質量関数を
$$ p_{X,X}(x,y):=\mathbb P(X=x,X=y) $$
で定める。また、
$$ S_{X,X} := \{(x,y)\in\mathcal X\times\mathcal X\mid p_{X,X}(x,y)>0\} $$
とおく。
$ $
まず、任意の $x,y\in\mathcal X$ に対して、
$$ p_{X,X}(x,y) = \begin{cases} p_X(x), & x=y,\\ 0, & x\ne y \end{cases} $$
であることを示す。
$x=y$ のとき、
$$ \{X=x,X=y\} = \{X=x\} $$
であるから、
$$ p_{X,X}(x,y) = \mathbb P(X=x,X=y) = \mathbb P(X=x) = p_X(x) $$
である。
$x\ne y$ のとき、
$$ \{X=x,X=y\} = \varnothing $$
である。したがって、
$$ \begin{align} p_{X,X}(x,y) &= \mathbb P(X=x,X=y)\\ &= \mathbb P(\varnothing)\\ &= 0 \end{align} $$
である( 証明はコチラ )。
よって、
$$ p_{X,X}(x,y) = \begin{cases} p_X(x), & x=y,\\ 0, & x\ne y \end{cases} $$
が成り立つ。
したがって、$(X,X)$ の台は
$$ S_{X,X} = \{(x,x)\in\mathcal X\times\mathcal X\mid x\in S_X\} $$
である。
結合エントロピーの定義より、
$$ \begin{align} H_b(X,X) &= -\sum_{(x,y)\in S_{X,X}} p_{X,X}(x,y)\log_b p_{X,X}(x,y)\\ &= -\sum_{x\in S_X} p_{X,X}(x,x)\log_b p_{X,X}(x,x)\\ &= -\sum_{x\in S_X} p_X(x)\log_b p_X(x)\\ &= H_b(X) \end{align} $$
である。
以上より、
$$ H_b(X,X)=H_b(X) $$
が成り立つ。
$$ \Box$$

結合エントロピーの非負性

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$ H_b(X,Y)\geq0 $$
が成り立つ。

各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p_{X,Y}(x,y):=\mathbb P(X=x,Y=y) $$
で定める。また、
$$ S_{X,Y} := \{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\} $$
とおく。
$ $
任意の $(x,y)\in S_{X,Y}$ をとる。
このとき、$S_{X,Y}$ の定義より、
$$ p_{X,Y}(x,y)>0 $$
である。また、
$$ \{X=x,Y=y\}\subseteq\Omega $$
であるから、確率測度の単調性( 証明はコチラ )より、
$$ p_{X,Y}(x,y) = \mathbb P(X=x,Y=y) \leq \mathbb P(\Omega) = 1 $$
である。したがって、
$$ 0< p_{X,Y}(x,y)\leq1 $$
である。
底 $b>1$ の対数関数 $\log_b$ は $(0,\infty)$ 上で単調増加であるから、
$$ \log_b p_{X,Y}(x,y)\leq \log_b1=0 $$
である。よって、
$$ -\log_b p_{X,Y}(x,y)\geq0 $$
である。
さらに、
$$ p_{X,Y}(x,y)>0 $$
であるから、
$$ -p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\geq0 $$
である。
以上より、任意の $(x,y)\in S_{X,Y}$ に対して、
$$ -p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\geq0 $$
が成り立つ。
ここで、$\mathcal X$ と $\mathcal Y$ は有限集合であるから、$S_{X,Y}\subseteq\mathcal X\times\mathcal Y$ も有限集合である。
したがって、結合エントロピーの定義より、
$$ \begin{align} H_b(X,Y) &= -\sum_{(x,y)\in S_{X,Y}} p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\\ &\geq0 \end{align} $$
である。
以上より、
$$ H_b(X,Y)\geq0 $$
が成り立つ。
$$ \Box$$

条件付きエントロピーの非負性

各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p(x,y):=\mathbb P(X=x,Y=y) $$
で定める。また、各 $x\in\mathcal X$ に対して、
$$ p_X(x):=\mathbb P(X=x) $$
とおく。このとき、
$$ \{X=x\} = \bigcup_{y\in\mathcal Y}\{X=x,Y=y\} $$
であり、この和集合は互いに排反な有限和であるから、
$$ p_X(x) = \sum_{y\in\mathcal Y}p(x,y) $$
である。さらに、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\} $$
とおく。
$ $
任意の $x\in S_X$ をとる。このとき、
$$ p_X(x)>0 $$
であるから、任意の $y\in\mathcal Y$ に対して条件付き確率質量関数
$$ p_{Y\mid X}(y\mid x) := \mathbb P(Y=y\mid X=x) = \frac{\mathbb P(X=x,Y=y)}{\mathbb P(X=x)} = \frac{p(x,y)}{p_X(x)} $$
が定義される。
また、
$$ \{X=x,Y=y\}\subseteq\{X=x\} $$
であるから、確率測度の単調性より、
$$ 0\leq p(x,y)\leq p_X(x) $$
である( 証明はコチラ )。
したがって、$p_X(x)>0$ より、両辺を $p_X(x)>0$ で割れば
$$ 0\leq p_{Y\mid X}(y\mid x)\leq1 $$
を得る。ここで、
$$ S_{Y\mid X=x} := \{y\in\mathcal Y\mid p_{Y\mid X}(y\mid x)>0\} $$
とおく。
任意の $y\in S_{Y\mid X=x}$ をとる。このとき、
$$ 0< p_{Y\mid X}(y\mid x)\leq1 $$
である。
底 $b>1$ の対数関数 $\log_b$ は $(0,\infty)$ 上で単調増加であるから、
$$ \log_b p_{Y\mid X}(y\mid x) \leq \log_b1 = 0 $$
である。したがって、
$$ -\log_b p_{Y\mid X}(y\mid x)\geq0 $$
である。
さらに、
$$ p_{Y\mid X}(y\mid x)>0 $$
であるから、
$$ -p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x)\geq0 $$
である。
よって、$S_{Y\mid X=x}$ は有限集合であり、各項が非負であるから、
$$ \begin{align} H_b(Y\mid X=x) &= -\sum_{y\in S_{Y\mid X=x}} p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x)\\ &\geq0 \end{align} $$
である。
したがって、任意の $x\in S_X$ に対して、
$$ p_X(x)H_b(Y\mid X=x)\geq0 $$
である。
条件付きエントロピーの定義より、
$$ \begin{align} H_b(Y\mid X) &= \sum_{x\in S_X}p_X(x)H_b(Y\mid X=x)\\ &\geq0 \end{align} $$
である。
以上より、
$$ H_b(Y\mid X)\geq0 $$
が成り立つ。
$$ \Box$$

結合エントロピーの対称性

底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$ H_b(X,Y)=H_b(Y,X) $$
が成り立つ。

任意の $x\in\mathcal X$ と $y\in\mathcal Y$ をとる。
このとき、
$$ \{X=x,Y=y\} = \{\omega\in\Omega\mid X(\omega)=x,\ Y(\omega)=y\} $$
であり、
$$ \{Y=y,X=x\} = \{\omega\in\Omega\mid Y(\omega)=y,\ X(\omega)=x\} $$
である。右辺の条件は順序が異なるだけで同じ条件であるから、
$$ \{X=x,Y=y\} = \{Y=y,X=x\} $$
である。
したがって、確率測度 $\mathbb P$ を両辺に適用すると、
$$ \mathbb P(X=x,Y=y) = \mathbb P(Y=y,X=x) $$
である。すなわち、
$$ p_{X,Y}(x,y)=p_{Y,X}(y,x) $$
である。ここで、
$$ S_{X,Y} := \{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\} $$
および
$$ S_{Y,X} := \{(y,x)\in\mathcal Y\times\mathcal X\mid p_{Y,X}(y,x)>0\} $$
とおく。既に示した
$$ p_{X,Y}(x,y)=p_{Y,X}(y,x) $$
より、
$$ (x,y)\in S_{X,Y} \Longleftrightarrow (y,x)\in S_{Y,X} $$
である。
したがって、
$$ \begin{align} H_b(Y,X) &= -\sum_{(y,x)\in S_{Y,X}} p_{Y,X}(y,x)\log_b p_{Y,X}(y,x)\\ &= -\sum_{(x,y)\in S_{X,Y}} p_{Y,X}(y,x)\log_b p_{Y,X}(y,x)\\ &= -\sum_{(x,y)\in S_{X,Y}} p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\\ &= H_b(X,Y) \end{align} $$
である。
以上より、
$$ H_b(X,Y)=H_b(Y,X) $$
が成り立つ。
$$ \Box$$

独立な離散確率変数の結合エントロピー

底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
$X$ と $Y$ が独立であるとき、
$$ H_b(X,Y)=H_b(X)+H_b(Y) $$
が成り立つ。

各 $x\in\mathcal X$ と $y\in\mathcal Y$ に対して、
$$ p_X(x):=\mathbb P(X=x), \quad p_Y(y):=\mathbb P(Y=y) $$
と定める。また、各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、
$$ p_{X,Y}(x,y):=\mathbb P(X=x,Y=y) $$
と定める。
さらに、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\}, \quad S_Y:=\{y\in\mathcal Y\mid p_Y(y)>0\} $$
および
$$ S_{X,Y}:= \{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\} $$
とおく。
$ $
$X$ と $Y$ が独立であるとする。
このとき、任意の $x\in\mathcal X$ と任意の $y\in\mathcal Y$ に対して、事象 $\{X=x\}$ と $\{Y=y\}$ は独立であるから、
$$ p_{X,Y}(x,y) = \mathbb P(X=x,Y=y) = \mathbb P(X=x)\mathbb P(Y=y) = p_X(x)p_Y(y) $$
である。
したがって、
$$ p_{X,Y}(x,y)>0 \Longleftrightarrow p_X(x)p_Y(y)>0 $$
である。
確率は常に非負であるから、
$$ p_X(x)p_Y(y)>0 \Longleftrightarrow p_X(x)>0\land p_Y(y)>0 $$
である。
よって、
$$ (x,y)\in S_{X,Y} \Longleftrightarrow x\in S_X\land y\in S_Y $$
である。したがって、
$$ S_{X,Y}=S_X\times S_Y $$
である。
結合エントロピーの定義より、
$$ H_b(X,Y) = -\sum_{(x,y)\in S_{X,Y}} p_{X,Y}(x,y)\log_b p_{X,Y}(x,y) $$
である。いま、$S_{X,Y}=S_X\times S_Y$ であるから、
$$ H_b(X,Y) = -\sum_{x\in S_X}\sum_{y\in S_Y} p_{X,Y}(x,y)\log_b p_{X,Y}(x,y) $$
である。
さらに、独立性より $p_{X,Y}(x,y)=p_X(x)p_Y(y)$ であるから、
$$ \begin{align} H_b(X,Y) &= -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\log_b\{p_X(x)p_Y(y)\}\\ &= -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\{\log_b p_X(x)+\log_b p_Y(y)\} \end{align} $$
である。
ここで、$x\in S_X$ かつ $y\in S_Y$ であるから、
$$ p_X(x)>0, \quad p_Y(y)>0 $$
であり、対数はすべて定義されている。
したがって、
$$ \begin{align} H_b(X,Y) &= -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\log_b p_X(x)\\ &\quad -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\log_b p_Y(y) \end{align} $$
である。

第 $1$ 項を計算する。
$$ \begin{align} -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\log_b p_X(x) &= -\sum_{x\in S_X} p_X(x)\log_b p_X(x) \sum_{y\in S_Y}p_Y(y)\\ &= -\sum_{x\in S_X} p_X(x)\log_b p_X(x)\\ &= H_b(X) \end{align} $$
である。
ここで、
$$ \sum_{y\in S_Y}p_Y(y)=1 $$
を用いた。実際、$y\notin S_Y$ ならば $p_Y(y)=0$ であり、$\mathcal Y$ は有限集合であるから、
$$ \sum_{y\in S_Y}p_Y(y) = \sum_{y\in\mathcal Y}p_Y(y) = 1 $$
である。
$ $
第 $2$ 項を計算する。
同様に、
$$ \begin{align} -\sum_{x\in S_X}\sum_{y\in S_Y} p_X(x)p_Y(y)\log_b p_Y(y) &= -\sum_{y\in S_Y} p_Y(y)\log_b p_Y(y) \sum_{x\in S_X}p_X(x)\\ &= -\sum_{y\in S_Y} p_Y(y)\log_b p_Y(y)\\ &= H_b(Y) \end{align} $$
である。
ここで、
$$ \sum_{x\in S_X}p_X(x)=1 $$
を用いた。

-以上より、
$$ H_b(X,Y)=H_b(X)+H_b(Y) $$
が成り立つ。
$$ \Box$$

直観的意味

$X$ と $Y$ が独立であるとき、$X$ を知っても $Y$ に関する不確実性は減らず、$Y$ を知っても $X$ に関する不確実性は減らない。
そのため、$(X,Y)$ を同時に観測するときの不確実性は、$X$ の不確実性と $Y$ の不確実性の和として表される。
すなわち、
$$ H_b(X,Y)=H_b(X)+H_b(Y) $$
である。

結合エントロピーの連鎖律【その①】

各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p(x,y):=\mathbb P(X=x,Y=y) $$
で定める。また、各 $x\in\mathcal X$ に対して
$$ p_X(x):=\mathbb P(X=x) $$
とおく。
このとき、
$$ \{X=x\} = \bigcup_{y\in\mathcal Y}\{X=x,Y=y\} $$
であり、この和集合は互いに排反な有限和であるから、
$$ p_X(x)=\sum_{y\in\mathcal Y}p(x,y) $$
である。
さらに、
$$ S_X:=\{x\in\mathcal X\mid p_X(x)>0\}, \quad S_{X,Y}:=\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\} $$
とおく。
結合エントロピーの定義より、
$$ H_b(X,Y) = -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_b p(x,y) $$
である。
ここで、$(x,y)\in S_{X,Y}$ とする。このとき、
$$ p(x,y)>0 $$
であるから、
$$ p_X(x) = \sum_{y'\in\mathcal Y}p(x,y') \geq p(x,y) > 0 $$
である。したがって、$x\in S_X$ である。
よって、$p_{Y\mid X}(y\mid x)$ が定義され、
$$ p_{Y\mid X}(y\mid x) = \frac{p(x,y)}{p_X(x)} $$
である。したがって、
$$ p(x,y) = p_X(x)p_{Y\mid X}(y\mid x) $$
である。
また、$(x,y)\in S_{X,Y}$ ならば $p(x,y)>0$ であるから、
$$ p_X(x)>0, \quad p_{Y\mid X}(y\mid x)>0 $$
である(補足を参照)。したがって、以下の対数はすべて定義される。
ゆえに、
$$ \begin{align} H_b(X,Y) &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p(x,y)\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b\{p_X(x)p_{Y\mid X}(y\mid x)\}\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\{\log_b p_X(x)+\log_b p_{Y\mid X}(y\mid x)\}\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_X(x) - \sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_{Y\mid X}(y\mid x) \end{align} $$
である。

第 $1$ 項を計算する。
$x\in S_X$ ならば $\log_b p_X(x)$ は定義される。また、$p(x,y)=0$ の項を加えても和の値は変わらない。したがって、
$$ \begin{align} -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_b p_X(x) &= -\sum_{x\in S_X}\sum_{y\in\mathcal Y} p(x,y)\log_b p_X(x)\\ &= -\sum_{x\in S_X} \left(\sum_{y\in\mathcal Y}p(x,y)\right)\log_b p_X(x)\\ &= -\sum_{x\in S_X}p_X(x)\log_b p_X(x)\\ &= H_b(X) \end{align} $$
である。
$ $
第 $2$ 項を計算する。
$x\in S_X$ に対して、
$$ p_{Y\mid X}(y\mid x) = \frac{p(x,y)}{p_X(x)} $$
であるから、
$$ (x,y)\in S_{X,Y} \Longleftrightarrow x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0 $$
である。
したがって、
$$ \begin{align} &-\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_{Y\mid X}(y\mid x)\\ &= -\sum_{x\in S_X} \sum_{\substack{y\in\mathcal Y\\ p_{Y\mid X}(y\mid x)>0}} p_X(x)p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x)\\ &= \sum_{x\in S_X}p_X(x) \left( -\sum_{\substack{y\in\mathcal Y\\ p_{Y\mid X}(y\mid x)>0}} p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x) \right)\\ &= \sum_{x\in S_X}p_X(x)H_b(Y\mid X=x)\\ &= H_b(Y\mid X) \end{align} $$
である。

-以上より、
$$ H_b(X,Y) = H_b(X)+H_b(Y\mid X) $$
が成り立つ。
$$ \Box$$

意味

この命題は、$(X,Y)$ を同時に観測するときの不確実性が、まず $X$ を観測するために必要な不確実性と、
$X$ を知ったあとに残る $Y$ の不確実性に分解できることを表す。
すなわち、
$$ H_b(X,Y)=H_b(X)+H_b(Y\mid X) $$
は、結合エントロピーを段階的な情報量として分解する公式である。

$(x,y)\in S_{X,Y}\Longleftrightarrow x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0$

示したいことは、
$$ (x,y)\in S_{X,Y} \Longleftrightarrow x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0 $$
である。ここで、
$$ S_{X,Y} = \{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\} $$
であり、
$$ S_X = \{x\in\mathcal X\mid p_X(x)>0\} $$
である。

$\Rightarrow$ を示す。
$(x,y)\in S_{X,Y}$ とする。
このとき、
$$ p(x,y)>0 $$
である。
また、
$$ p_X(x) = \sum_{y'\in\mathcal Y}p(x,y') $$
であり、この和の中に $p(x,y)$ が含まれるので、
$$ p_X(x)\geq p(x,y)>0 $$
である。
したがって、
$$ x\in S_X $$
である。
さらに、$x\in S_X$ なので $p_X(x)>0$ であり、条件付き確率質量関数は
$$ p_{Y\mid X}(y\mid x) = \frac{p(x,y)}{p_X(x)} $$
で定義される。
ここで、分子 $p(x,y)$ も分母 $p_X(x)$ も正であるから、
$$ p_{Y\mid X}(y\mid x)>0 $$
である。
ゆえに、
$$ x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0 $$
が成り立つ。
$ $
$\Leftarrow$ を示す。
$x\in S_X$ かつ $p_{Y\mid X}(y\mid x)>0$ とする。
$x\in S_X$ より、
$$ p_X(x)>0 $$
である。
また、条件付き確率質量関数の定義より、
$$ p_{Y\mid X}(y\mid x) = \frac{p(x,y)}{p_X(x)} $$
である。
したがって、
$$ p(x,y) = p_X(x)p_{Y\mid X}(y\mid x) $$
である。
ここで、
$$ p_X(x)>0, \quad p_{Y\mid X}(y\mid x)>0 $$
であるから、
$$ p(x,y)>0 $$
である。
ゆえに、
$$ (x,y)\in S_{X,Y} $$
である。

-以上より、
$$ (x,y)\in S_{X,Y} \Longleftrightarrow x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0 $$
である。

条件付きエントロピーはエントロピー以下である

まず、各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p(x,y):=\mathbb P(X=x,Y=y) $$
とおく。ここで
$$ p_X(x):=\mathbb P(X=x), \quad p_Y(y):=\mathbb P(Y=y) $$
であり、
$$ S_{X,Y}:=\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\} $$
とおく。
$ $

まず、
$$ H_{b}(Y)-H_{b}(Y\mid X) $$
を計算する。
$H_{b}(Y)$ について、$p_Y(y)=0$ の項は寄与しないので、
$$ \begin{align} H_{b}(Y) &= -\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}}p_Y(y)\log_{b} p_Y(y)\\ &= -\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}} \left(\sum_{x\in\mathcal X}p(x,y)\right)\log_{b} p_Y(y)\\ &= -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_Y(y) \end{align} $$
である(補足を参照)。
また、条件付きエントロピーの定義より、
$$ H_{b}(Y\mid X) = -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_{Y\mid X}(y\mid x) $$
である。
したがって、
$$ \begin{align} H_{b}(Y)-H_{b}(Y\mid X) &= -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_Y(y) + \sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_{Y\mid X}(y\mid x)\\ &= \sum_{(x,y)\in S_{X,Y}}p(x,y) \left\{ \log_{b} p_{Y\mid X}(y\mid x)-\log_{b} p_Y(y) \right\}\\ &= \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p_{Y\mid X}(y\mid x)}{p_Y(y)} \end{align} $$
である。
ここで、$(x,y)\in S_{X,Y}$ ならば、
$$ p(x,y)>0 $$
であるから、
$$ p_X(x)>0, \quad p_Y(y)>0 $$
である。よって、
$$ p_{Y\mid X}(y\mid x) = \frac{p(x,y)}{p_X(x)} $$
であり、
$$ \frac{p_{Y\mid X}(y\mid x)}{p_Y(y)} = \frac{p(x,y)}{p_X(x)p_Y(y)} $$
である。したがって、
$$ H_{b}(Y)-H_{b}(Y\mid X) = \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)} $$
である。
右辺は、ギブスの不等式( 証明はコチラ )より、
$$ \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)}\geq 0 $$
である(補足を参照)。ゆえに、
$$ H_{b}(Y)-H_{b}(Y\mid X)\geq0 $$
である。したがって、
$$ H_{b}(Y)\geq H_{b}(Y\mid X) $$
が成り立つ。
$ $
次に、等号成立条件を示す。
すでに示したように、
$$ H_{b}(Y)-H_{b}(Y\mid X) = \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)} $$
である。したがって、
$$ H_{b}(Y\mid X)=H_{b}(Y) $$
が成り立つことは、
$$ H_{b}(Y)-H_{b}(Y\mid X)=0 $$
が成り立つことと同値である。すなわち、
$$ \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)} = 0 $$
が成り立つことを意味する。
ここで、$\mathcal X\times\mathcal Y=\{z_1,\ldots,z_n\}$ と番号づけ、各 $i=1,\ldots,n$ に対して
$$ z_i=(a_i,b_i) $$
と書く。また、
$$ p_i:=p(a_i,b_i), \quad q_i:=p_X(a_i)p_Y(b_i) $$
と定める。このとき、上の和は
$$ \sum_{\substack{1\le i\le n\\ p_i>0}} p_i\log_{b}\frac{p_i}{q_i} $$
と同じである。
ギブスの不等式の等号成立条件より、
$$ \sum_{\substack{1\le i\le n\\ p_i>0}} p_i\log_{b}\frac{p_i}{q_i} = 0 $$
が成り立つための必要十分条件は、任意の $i=1,\ldots,n$ に対して
$$ p_i=q_i $$
が成り立つことであった( 証明はコチラ )。
したがって、等号
$$ H_{b}(Y\mid X)=H_{b}(Y) $$
が成り立つための必要十分条件は、任意の $i=1,\ldots,n$ に対して
$$ p(a_i,b_i)=p_X(a_i)p_Y(b_i) $$
が成り立つことである。
これは、番号づけを外して書けば、任意の $(x,y)\in\mathcal X\times\mathcal Y$ に対して
$$ p(x,y)=p_X(x)p_Y(y) $$
が成り立つことと同値である。
すなわち、
$$ \mathbb P(X=x,Y=y) = \mathbb P(X=x)\mathbb P(Y=y) \quad (x\in\mathcal X,\ y\in\mathcal Y) $$
が成り立つことであるが、これは、$X$ と $Y$ が独立であることにほかならない。

-以上より、
$$ H_{b}(Y\mid X)\leq H_{b}(Y) $$
が成り立ち、等号成立条件は $X$ と $Y$ が独立であることである。
$$ \Box$$

意味

この命題は、$X$ を知ることで $Y$ に関する平均的な不確実性が増えることはない、という性質を表す。
すなわち、有限値離散確率変数について、条件付きエントロピーは
$$ H_{b}(Y\mid X)\leq H_{b}(Y) $$
を満たす。
また、$X$ と $Y$ が独立である場合、$X$ を知っても $Y$ の分布は変わらないため、
$$ H_{b}(Y\mid X)=H_{b}(Y) $$
が成り立つ。
一方、$X$ と $Y$ が独立でない場合には、$X$ は $Y$ について何らかの情報をもつため、
$$ H_{b}(Y\mid X)< H_{b}(Y) $$
が成り立つ。

$H_{b}(Y)$ の和を $S_{X,Y}$ 上の和に直せる理由

$H_{b}(Y)$ の計算では、
$$ p_Y(y) = \sum_{x\in\mathcal X}p(x,y) $$
を用いる。したがって、$p_Y(y)>0$ である $y\in\mathcal Y$ について、
$$ p_Y(y)\log_{b} p_Y(y) = \sum_{x\in\mathcal X}p(x,y)\log_{b} p_Y(y) $$
である。
ここで、$p(x,y)=0$ である項は
$$ p(x,y)\log_{b} p_Y(y)=0 $$
となるため、和に寄与しない。よって、
$$ \sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}} \sum_{x\in\mathcal X} p(x,y)\log_{b} p_Y(y) = \sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}} \sum_{\substack{x\in\mathcal X\\ p(x,y)>0}} p(x,y)\log_{b} p_Y(y) $$
である。
さらに、$p(x,y)>0$ ならば、
$$ p_Y(y) = \sum_{x'\in\mathcal X}p(x',y) \geq p(x,y)>0 $$
である。したがって、
$$ p(x,y)>0 \Rightarrow p_Y(y)>0 $$
が成り立つ。
ゆえに、添字集合について
$$ \{(x,y)\in\mathcal X\times\mathcal Y\mid p_Y(y)>0,\ p(x,y)>0\} = \{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\} = S_{X,Y} $$
である。
以上より、
$$ -\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}} \left(\sum_{x\in\mathcal X}p(x,y)\right)\log_{b} p_Y(y) = -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_Y(y) $$
である。

ギブスの不等式の復習

$\mathcal X\times\mathcal Y$ は有限集合であるから、ある $n\in\mathbb N$ を用いて
$$ \mathcal X\times\mathcal Y = \{z_1,\ldots,z_n\} $$
と番号づけることができる。
各 $i=1,\ldots,n$ に対して、
$$ z_i=(a_i,b_i) $$
と書く。このとき、
$$ p_i:=p(a_i,b_i), \quad q_i:=p_X(a_i)p_Y(b_i) $$
と定める。

まず、$(p_1,\ldots,p_n)$ は確率分布である。
実際、任意の $i=1,\ldots,n$ に対して、
$$ p_i=p(a_i,b_i)\geq0 $$
である。また、
$$ \begin{align} \sum_{i=1}^{n}p_i &= \sum_{i=1}^{n}p(a_i,b_i) &&\because\ p_i:=p(a_i,b_i)\\ &= \sum_{(x,y)\in\mathcal X\times\mathcal Y}p(x,y) &&\because\ \mathcal X\times\mathcal Y=\{z_1,\ldots,z_n\},\ z_i=(a_i,b_i)\\ &= \sum_{(x,y)\in\mathcal X\times\mathcal Y}\mathbb P(X=x,Y=y) &&\because\ p(x,y):=\mathbb P(X=x,Y=y)\\ &= \mathbb P\left( \bigcup_{(x,y)\in\mathcal X\times\mathcal Y} \{X=x,Y=y\} \right) &&\because\ \{X=x,Y=y\}\text{ は互いに排反であり、有限加法性が使える}\\ &= \mathbb P(\Omega) &&\because\ (X,Y)\text{ は }\mathcal X\times\mathcal Y\text{ に値をもつ}\\ &= 1 &&\because\ \mathbb P(\Omega)=1 \end{align} $$
である。
したがって、$(p_1,\ldots,p_n)$ は確率分布である。
$ $
次に、$(q_1,\ldots,q_n)$ も確率分布である。
実際、任意の $i=1,\ldots,n$ に対して、
$$ q_i=p_X(a_i)p_Y(b_i)\geq0 $$
である。また、
$$ \begin{align} \sum_{i=1}^{n}q_i &= \sum_{i=1}^{n}p_X(a_i)p_Y(b_i) &&\because\ q_i:=p_X(a_i)p_Y(b_i)\\ &= \sum_{(x,y)\in\mathcal X\times\mathcal Y}p_X(x)p_Y(y) &&\because\ \mathcal X\times\mathcal Y=\{z_1,\ldots,z_n\},\ z_i=(a_i,b_i)\\ &= \sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}p_X(x)p_Y(y)\\ &= \sum_{x\in\mathcal X}p_X(x) \left(\sum_{y\in\mathcal Y}p_Y(y)\right)\\ &= \left(\sum_{x\in\mathcal X}p_X(x)\right) \left(\sum_{y\in\mathcal Y}p_Y(y)\right)\\ &= 1\cdot1 &&\because\ p_X,\ p_Y\text{ は確率質量関数である}\\ &= 1 \end{align} $$
である。
したがって、$(q_1,\ldots,q_n)$ は確率分布である。
$ $
さらに、ギブスの不等式を用いるために、
$$ p_i>0\Rightarrow q_i>0 $$
を確認する。
$p_i>0$ とする。このとき、
$$ p(a_i,b_i)>0 $$
である。
したがって、
$$ \begin{align} p_X(a_i) &= \sum_{y\in\mathcal Y}p(a_i,y)\\ &\geq p(a_i,b_i)\\ &>0 \end{align} $$
である。同様に、
$$ \begin{align} p_Y(b_i) &= \sum_{x\in\mathcal X}p(x,b_i)\\ &\geq p(a_i,b_i)\\ &>0 \end{align} $$
である。
ゆえに、
$$ q_i = p_X(a_i)p_Y(b_i)>0 $$
である。

-以上より、$(p_1,\ldots,p_n)$ と $(q_1,\ldots,q_n)$ はギブスの不等式の仮定を満たす。
したがって、ギブスの不等式より、
$$ -\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} p_i \leq -\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} q_i $$
である。
両辺を移項すると、
$$ \sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} p_i - \sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} q_i \geq0 $$
である。すなわち、
$$ \sum_{\substack{1\le i\le n\\ p_i>0}}p_i \log_{b}\frac{p_i}{q_i} \geq0 $$
である。
ここで、
$$ \begin{align} p_i>0 &\Longleftrightarrow p(a_i,b_i)>0\\ &\Longleftrightarrow (a_i,b_i)\in S_{X,Y} \end{align} $$
である。また、
$$ p_i=p(a_i,b_i), \quad q_i=p_X(a_i)p_Y(b_i) $$
である。
したがって、
$$ \sum_{\substack{1\le i\le n\\ p_i>0}}p_i \log_{b}\frac{p_i}{q_i} = \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)} $$
である。
ゆえに、
$$ \sum_{(x,y)\in S_{X,Y}}p(x,y) \log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)} \geq0 $$
が成り立つ。

結合エントロピーの連鎖律【その②】

各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$ p(x,y):=\mathbb P(X=x,Y=y) $$
で定める。
また、各 $y\in\mathcal Y$ に対して、
$$ p_Y(y):=\mathbb P(Y=y) $$
と定める。このとき、
$$ p_Y(y)=\sum_{x\in\mathcal X}p(x,y) $$
である。さらに、
$$ S_Y:=\{y\in\mathcal Y\mid p_Y(y)>0\} $$
および
$$ S_{X,Y}:=\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\} $$
とおく。
$y\in S_Y$ に対して、条件付き確率質量関数を
$$ p_{X\mid Y}(x\mid y) := \frac{p(x,y)}{p_Y(y)} $$
で定め、また、
$$ S_{X\mid Y} := \{(x,y)\in\mathcal X\times\mathcal Y\mid y\in S_Y,\ p_{X\mid Y}(x\mid y)>0\} $$
とおく。
$ $
まず、
$$ S_{X,Y}=S_{X\mid Y} $$
を示す。
i) 任意の $(x,y)\in S_{X,Y}$ をとる。このとき、
$$ p(x,y)>0 $$
　である。また、
$$ p_Y(y) = \sum_{x'\in\mathcal X}p(x',y) \geq p(x,y)>0 $$
　であるから、$y\in S_Y$ である。したがって、
$$ p_{X\mid Y}(x\mid y) = \frac{p(x,y)}{p_Y(y)} > 0 $$
　である。よって、
$$ (x,y)\in S_{X\mid Y} $$
　である。
$ $
ii) 逆に、任意の $(x,y)\in S_{X\mid Y}$ をとる。このとき、$y\in S_Y$ かつ
$$ p_{X\mid Y}(x\mid y)>0 $$
　である。したがって、
$$ p(x,y) = p_Y(y)p_{X\mid Y}(x\mid y) > 0 $$
　である。よって、
$$ (x,y)\in S_{X,Y} $$
　である。
以上より、
$$ S_{X,Y}=S_{X\mid Y} $$
である。
$ $
結合エントロピーの定義より、
$$ H_b(X,Y) = -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_b p(x,y) $$
である。
ここで、$(x,y)\in S_{X,Y}$ とする。このとき、上で示したように $y\in S_Y$ であり、
$$ p(x,y) = p_Y(y)p_{X\mid Y}(x\mid y) $$
である。また、
$$ p_Y(y)>0, \quad p_{X\mid Y}(x\mid y)>0 $$
であるから、以下に現れる対数はすべて定義される。
したがって、
$$ \begin{align} H_b(X,Y) &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p(x,y)\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b\{p_Y(y)p_{X\mid Y}(x\mid y)\}\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\{\log_b p_Y(y)+\log_b p_{X\mid Y}(x\mid y)\}\\ &= -\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_Y(y) - \sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_{X\mid Y}(x\mid y) \end{align} $$
である。
$ $
第 $1$ 項を計算する。
$p(x,y)=0$ である項を加えても和の値は変わらない。また、$y\in S_Y$ ならば $\log_b p_Y(y)$ は定義される。したがって、
$$ \begin{align} -\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_b p_Y(y) &= -\sum_{y\in S_Y}\sum_{x\in\mathcal X} p(x,y)\log_b p_Y(y)\\ &= -\sum_{y\in S_Y} \left(\sum_{x\in\mathcal X}p(x,y)\right)\log_b p_Y(y)\\ &= -\sum_{y\in S_Y} p_Y(y)\log_b p_Y(y)\\ &= H_b(Y) \end{align} $$
である。
$ $
第 $2$ 項を計算する。
すでに示したように、
$$ S_{X,Y}=S_{X\mid Y} $$
であるから、
$$ \begin{align} &-\sum_{(x,y)\in S_{X,Y}} p(x,y)\log_b p_{X\mid Y}(x\mid y)\\ &= -\sum_{(x,y)\in S_{X\mid Y}} p(x,y)\log_b p_{X\mid Y}(x\mid y)\\ &= -\sum_{y\in S_Y} \sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p(x,y)\log_b p_{X\mid Y}(x\mid y)\\ &= -\sum_{y\in S_Y} \sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p_Y(y)p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y)\\ &= \sum_{y\in S_Y} p_Y(y) \left( -\sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}} p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y) \right)\\ &= \sum_{y\in S_Y}p_Y(y)H_b(X\mid Y=y)\\ &= H_b(X\mid Y) \end{align} $$
である。4. と5. より、
$$ \begin{align} H_b(X,Y) &= H_b(Y)+H_b(X\mid Y) \end{align} $$
である。

-以上より、
$$ H_b(X,Y)=H_b(Y)+H_b(X\mid Y) $$
が成り立つ。
$$ \Box$$

既存の連鎖律との関係

既に示した連鎖律
$$ H_b(U,V)=H_b(U)+H_b(V\mid U) $$
において、$U=Y,\ V=X$ とおくと、
$$ H_b(Y,X)=H_b(Y)+H_b(X\mid Y) $$
が得られる。
さらに、結合エントロピーの対称性
$$ H_b(X,Y)=H_b(Y,X) $$
より、
$$ H_b(X,Y)=H_b(Y)+H_b(X\mid Y) $$
が従う。
したがって、
$$ H_b(X,Y) = H_b(X)+H_b(Y\mid X) = H_b(Y)+H_b(X\mid Y) $$
である。

参考文献

[1]

Chapter 2 Entropy, Relative Entropy and Mutual Information, 閲覧日 2026年5月13日, https://sites.stat.columbia.edu/liam/teaching/neurostat-spr11/papers/EM/Cover%26Thomas-Ch2.pdf

[2]

Thomas M.Cover, Joy A. Thomas, Elements of Information theory,2nd Edition

投稿日：5日前

更新日：5日前

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

4729

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

他の人のコメント

コメントはありません。

読み込み中

Kagura

結合エントロピーと条件付きエントロピーの基本的な性質