$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
-このとき、$X$ と $Y$ の底 $b$ に関する結合エントロピーを
$$
H_b(X,Y)
:=
\mathbb E[I_{X,Y}]
$$
で定義する。
結合エントロピー $H_b(X,Y)$ は、$X$ と $Y$ を同時に観測するときの平均自己情報量である。
つまり、$(X,Y)$ を $1$ つの $\mathcal X\times\mathcal Y$ 値確率変数と見たときのシャノン・エントロピーである。
言い換えると、$H_b(X,Y)$ は、同時分布 $p_{X,Y}$ がもつ不確実性を測る量である。
結合自己情報量 $I_{X,Y}$ は、各 $\omega\in\Omega$ に対して
$$
I_{X,Y}(\omega)
=
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
1_{\{X=x,Y=y\}}(\omega)
$$
と書ける。実際、$(X(\omega),Y(\omega))\in S_{X,Y}$ のとき、ただ $1$ つの $(x,y)\in S_{X,Y}$ について
$$
X(\omega)=x,\quad Y(\omega)=y
$$
となるため、指示関数の定義より
$$
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
1_{\{X=x,Y=y\}}(\omega)
=
-\log_b p_{X,Y}(X(\omega),Y(\omega))
$$
である。また、$(X(\omega),Y(\omega))\notin S_{X,Y}$ のとき、すべての $(x,y)\in S_{X,Y}$ について
$$
(X(\omega),Y(\omega))\ne(x,y)
$$
であるから、指示関数の定義から
$$
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
1_{\{X=x,Y=y\}}(\omega)
=
0
$$
である。したがって、
$$
I_{X,Y}
=
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
1_{\{X=x,Y=y\}}
$$
である。よって、期待値の線形性より、
$$
\begin{align}
H_b(X,Y)
&=
\mathbb E[I_{X,Y}]
\\
&=
\mathbb E\left[
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
1_{\{X=x,Y=y\}}
\right]
\\
&=
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
\mathbb E[1_{\{X=x,Y=y\}}]
\\
&=
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
\mathbb P(X=x,Y=y)
\\
&=
\sum_{(x,y)\in S_{X,Y}}
\left(-\log_b p_{X,Y}(x,y)\right)
p_{X,Y}(x,y)
\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)
\end{align}
$$
である(
期待値の性質はコチラ
)。
なお、$S_{X,Y}$ は有限集合であり、各 $(x,y)\in S_{X,Y}$ について $p_{X,Y}(x,y)>0$ であるから、
$I_{X,Y}$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_{X,Y}$ の期待値はよく定義される。
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
-このとき、$Y$ が与えられたときの $X$ の底 $b$ に関する条件付きエントロピーを
$$
H_b(X\mid Y)
:=
\mathbb E[I_{X\mid Y}]
$$
で定義する。
$H_b(X\mid Y)$ は、$Y$ の値を知ったあとに残る $X$ の平均的な不確実性を表す。
各 $y\in S_Y$ に対して、$H_b(X\mid Y=y)$ は $Y=y$ と分かった場合の $X$ の不確実性である。
そして、$H_b(X\mid Y)$ はそれらを $Y$ の分布 $p_Y(y)$ によって平均した量である。
$p_Y(y)=0$ の場合、通常の条件付き確率
$$
\mathbb P(X=x\mid Y=y)
=
\frac{\mathbb P(X=x,Y=y)}{\mathbb P(Y=y)}
$$
は定義されない。
したがって、$p_{X\mid Y}(x\mid y)$ が条件付き確率質量関数として意味をもつのは、$y\in S_Y$ の場合である。
一方で、本文では $y\notin S_Y$ の場合に
$$
p_{X\mid Y}(x\mid y):=0
$$
と定めた。これは通常の条件付き確率を定義しているのではなく、条件付き自己情報量確率変数 $I_{X\mid Y}$ を全ての $\omega\in\Omega$ 上で定義するための便宜的な拡張である。
なお、$y\notin S_Y$ の場合には
$$
\mathbb P(Y=y)=0
$$
であるから、このような $y$ に対応する点は期待値 $H_b(X\mid Y)$ の値に影響しない。
条件付き自己情報量 $I_{X\mid Y}$ は、各 $\omega\in\Omega$ に対して
$$
I_{X\mid Y}(\omega)
=
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
1_{\{X=x,Y=y\}}(\omega)
$$
と書ける。
実際、$(X(\omega),Y(\omega))\in S_{X\mid Y}$ のとき、ただ $1$ つの $(x,y)\in S_{X\mid Y}$ について
$$
X(\omega)=x,\quad Y(\omega)=y
$$
となるため、指示関数の定義より
$$
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
1_{\{X=x,Y=y\}}(\omega)
=
-\log_b p_{X\mid Y}(X(\omega)\mid Y(\omega))
$$
である。
また、$(X(\omega),Y(\omega))\notin S_{X\mid Y}$ のとき、すべての $(x,y)\in S_{X\mid Y}$ について
$$
(X(\omega),Y(\omega))\ne(x,y)
$$
であるから、指示関数の定義から
$$
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
1_{\{X=x,Y=y\}}(\omega)
=
0
$$
である。したがって、
$$
I_{X\mid Y}
=
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
1_{\{X=x,Y=y\}}
$$
である。
よって、期待値の線形性より、
$$
\begin{align}
H_b(X\mid Y)
&=
\mathbb E[I_{X\mid Y}]
\\
&=
\mathbb E\left[
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
1_{\{X=x,Y=y\}}
\right]
\\
&=
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
\mathbb E[1_{\{X=x,Y=y\}}]
\\
&=
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
\mathbb P(X=x,Y=y)
\\
&=
\sum_{(x,y)\in S_{X\mid Y}}
\left(-\log_b p_{X\mid Y}(x\mid y)\right)
p_{X,Y}(x,y)
\\
&=
-\sum_{(x,y)\in S_{X\mid Y}}
p_{X,Y}(x,y)\log_b p_{X\mid Y}(x\mid y)
\end{align}
$$
である(
期待値の性質はコチラ
)。
なお、$S_{X\mid Y}$ は有限集合であり、各 $(x,y)\in S_{X\mid Y}$ について $p_{X\mid Y}(x\mid y)>0$ であるから、
$I_{X\mid Y}$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_{X\mid Y}$ の期待値はよく定義される。
$ $
さらに、$(x,y)\in S_{X\mid Y}$ ならば $y\in S_Y$ であり、
$$
p_{X,Y}(x,y)
=
p_Y(y)p_{X\mid Y}(x\mid y)
$$
であるから、
$$
\begin{align}
H_b(X\mid Y)
&=
-\sum_{(x,y)\in S_{X\mid Y}}
p_{X,Y}(x,y)\log_b p_{X\mid Y}(x\mid y)
\\
&=
-\sum_{y\in S_Y}
\sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}}
p_Y(y)p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y)
\\
&=
-\sum_{y\in S_Y}
p_Y(y)
\sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}}
p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y)
\end{align}
$$
である。
ここで、各 $y\in S_Y$ に対して
$$
H_b(X\mid Y=y)
:=
-\sum_{\substack{x\in\mathcal X\\ p_{X\mid Y}(x\mid y)>0}}
p_{X\mid Y}(x\mid y)\log_b p_{X\mid Y}(x\mid y)
$$
と定めれば、
$$
H_b(X\mid Y)
=
\sum_{y\in S_Y}p_Y(y)H_b(X\mid Y=y)
$$
である。
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$\mathcal X$ を有限集合とし、$X:\Omega\to\mathcal X$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(X,X)=H_b(X)
$$
が成り立つ。
各 $x\in\mathcal X$ に対して、$X$ の確率質量関数を
$$
p_X(x):=\mathbb P(X=x)
$$
で定める。また、
$$
S_X:=\{x\in\mathcal X\mid p_X(x)>0\}
$$
とおく。
一方、各 $(x,y)\in\mathcal X\times\mathcal X$ に対して、$(X,X)$ の同時確率質量関数を
$$
p_{X,X}(x,y):=\mathbb P(X=x,X=y)
$$
で定める。また、
$$
S_{X,X}
:=
\{(x,y)\in\mathcal X\times\mathcal X\mid p_{X,X}(x,y)>0\}
$$
とおく。
$ $
まず、任意の $x,y\in\mathcal X$ に対して、
$$
p_{X,X}(x,y)
=
\begin{cases}
p_X(x), & x=y,\\
0, & x\ne y
\end{cases}
$$
であることを示す。
$x=y$ のとき、
$$
\{X=x,X=y\}
=
\{X=x\}
$$
であるから、
$$
p_{X,X}(x,y)
=
\mathbb P(X=x,X=y)
=
\mathbb P(X=x)
=
p_X(x)
$$
である。
$x\ne y$ のとき、
$$
\{X=x,X=y\}
=
\varnothing
$$
である。したがって、
$$
\begin{align}
p_{X,X}(x,y)
&=
\mathbb P(X=x,X=y)\\
&=
\mathbb P(\varnothing)\\
&=
0
\end{align}
$$
である(
証明はコチラ
)。
よって、
$$
p_{X,X}(x,y)
=
\begin{cases}
p_X(x), & x=y,\\
0, & x\ne y
\end{cases}
$$
が成り立つ。
したがって、$(X,X)$ の台は
$$
S_{X,X}
=
\{(x,x)\in\mathcal X\times\mathcal X\mid x\in S_X\}
$$
である。
結合エントロピーの定義より、
$$
\begin{align}
H_b(X,X)
&=
-\sum_{(x,y)\in S_{X,X}}
p_{X,X}(x,y)\log_b p_{X,X}(x,y)\\
&=
-\sum_{x\in S_X}
p_{X,X}(x,x)\log_b p_{X,X}(x,x)\\
&=
-\sum_{x\in S_X}
p_X(x)\log_b p_X(x)\\
&=
H_b(X)
\end{align}
$$
である。
以上より、
$$
H_b(X,X)=H_b(X)
$$
が成り立つ。
$$ \Box$$
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(X,Y)\geq0
$$
が成り立つ。
各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$
p_{X,Y}(x,y):=\mathbb P(X=x,Y=y)
$$
で定める。また、
$$
S_{X,Y}
:=
\{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\}
$$
とおく。
$ $
任意の $(x,y)\in S_{X,Y}$ をとる。
このとき、$S_{X,Y}$ の定義より、
$$
p_{X,Y}(x,y)>0
$$
である。また、
$$
\{X=x,Y=y\}\subseteq\Omega
$$
であるから、確率測度の単調性(
証明はコチラ
)より、
$$
p_{X,Y}(x,y)
=
\mathbb P(X=x,Y=y)
\leq
\mathbb P(\Omega)
=
1
$$
である。したがって、
$$
0< p_{X,Y}(x,y)\leq1
$$
である。
底 $b>1$ の対数関数 $\log_b$ は $(0,\infty)$ 上で単調増加であるから、
$$
\log_b p_{X,Y}(x,y)\leq \log_b1=0
$$
である。よって、
$$
-\log_b p_{X,Y}(x,y)\geq0
$$
である。
さらに、
$$
p_{X,Y}(x,y)>0
$$
であるから、
$$
-p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\geq0
$$
である。
以上より、任意の $(x,y)\in S_{X,Y}$ に対して、
$$
-p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\geq0
$$
が成り立つ。
ここで、$\mathcal X$ と $\mathcal Y$ は有限集合であるから、$S_{X,Y}\subseteq\mathcal X\times\mathcal Y$ も有限集合である。
したがって、結合エントロピーの定義より、
$$
\begin{align}
H_b(X,Y)
&=
-\sum_{(x,y)\in S_{X,Y}}
p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\\
&\geq0
\end{align}
$$
である。
以上より、
$$
H_b(X,Y)\geq0
$$
が成り立つ。
$$ \Box$$
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(Y\mid X)\geq0
$$
が成り立つ。
各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$
p(x,y):=\mathbb P(X=x,Y=y)
$$
で定める。また、各 $x\in\mathcal X$ に対して、
$$
p_X(x):=\mathbb P(X=x)
$$
とおく。このとき、
$$
\{X=x\}
=
\bigcup_{y\in\mathcal Y}\{X=x,Y=y\}
$$
であり、この和集合は互いに排反な有限和であるから、
$$
p_X(x)
=
\sum_{y\in\mathcal Y}p(x,y)
$$
である。さらに、
$$
S_X:=\{x\in\mathcal X\mid p_X(x)>0\}
$$
とおく。
$ $
任意の $x\in S_X$ をとる。このとき、
$$
p_X(x)>0
$$
であるから、任意の $y\in\mathcal Y$ に対して条件付き確率質量関数
$$
p_{Y\mid X}(y\mid x)
:=
\mathbb P(Y=y\mid X=x)
=
\frac{\mathbb P(X=x,Y=y)}{\mathbb P(X=x)}
=
\frac{p(x,y)}{p_X(x)}
$$
が定義される。
また、
$$
\{X=x,Y=y\}\subseteq\{X=x\}
$$
であるから、確率測度の単調性より、
$$
0\leq p(x,y)\leq p_X(x)
$$
である(
証明はコチラ
)。
したがって、$p_X(x)>0$ より、両辺を $p_X(x)>0$ で割れば
$$
0\leq p_{Y\mid X}(y\mid x)\leq1
$$
を得る。ここで、
$$
S_{Y\mid X=x}
:=
\{y\in\mathcal Y\mid p_{Y\mid X}(y\mid x)>0\}
$$
とおく。
任意の $y\in S_{Y\mid X=x}$ をとる。このとき、
$$
0< p_{Y\mid X}(y\mid x)\leq1
$$
である。
底 $b>1$ の対数関数 $\log_b$ は $(0,\infty)$ 上で単調増加であるから、
$$
\log_b p_{Y\mid X}(y\mid x)
\leq
\log_b1
=
0
$$
である。したがって、
$$
-\log_b p_{Y\mid X}(y\mid x)\geq0
$$
である。
さらに、
$$
p_{Y\mid X}(y\mid x)>0
$$
であるから、
$$
-p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x)\geq0
$$
である。
よって、$S_{Y\mid X=x}$ は有限集合であり、各項が非負であるから、
$$
\begin{align}
H_b(Y\mid X=x)
&=
-\sum_{y\in S_{Y\mid X=x}}
p_{Y\mid X}(y\mid x)\log_b p_{Y\mid X}(y\mid x)\\
&\geq0
\end{align}
$$
である。
したがって、任意の $x\in S_X$ に対して、
$$
p_X(x)H_b(Y\mid X=x)\geq0
$$
である。
条件付きエントロピーの定義より、
$$
\begin{align}
H_b(Y\mid X)
&=
\sum_{x\in S_X}p_X(x)H_b(Y\mid X=x)\\
&\geq0
\end{align}
$$
である。
以上より、
$$
H_b(Y\mid X)\geq0
$$
が成り立つ。
$$ \Box$$
底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(X,Y)=H_b(Y,X)
$$
が成り立つ。
任意の $x\in\mathcal X$ と $y\in\mathcal Y$ をとる。
このとき、
$$
\{X=x,Y=y\}
=
\{\omega\in\Omega\mid X(\omega)=x,\ Y(\omega)=y\}
$$
であり、
$$
\{Y=y,X=x\}
=
\{\omega\in\Omega\mid Y(\omega)=y,\ X(\omega)=x\}
$$
である。右辺の条件は順序が異なるだけで同じ条件であるから、
$$
\{X=x,Y=y\}
=
\{Y=y,X=x\}
$$
である。
したがって、確率測度 $\mathbb P$ を両辺に適用すると、
$$
\mathbb P(X=x,Y=y)
=
\mathbb P(Y=y,X=x)
$$
である。すなわち、
$$
p_{X,Y}(x,y)=p_{Y,X}(y,x)
$$
である。ここで、
$$
S_{X,Y}
:=
\{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\}
$$
および
$$
S_{Y,X}
:=
\{(y,x)\in\mathcal Y\times\mathcal X\mid p_{Y,X}(y,x)>0\}
$$
とおく。既に示した
$$
p_{X,Y}(x,y)=p_{Y,X}(y,x)
$$
より、
$$
(x,y)\in S_{X,Y}
\Longleftrightarrow
(y,x)\in S_{Y,X}
$$
である。
したがって、
$$
\begin{align}
H_b(Y,X)
&=
-\sum_{(y,x)\in S_{Y,X}}
p_{Y,X}(y,x)\log_b p_{Y,X}(y,x)\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p_{Y,X}(y,x)\log_b p_{Y,X}(y,x)\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)\\
&=
H_b(X,Y)
\end{align}
$$
である。
以上より、
$$
H_b(X,Y)=H_b(Y,X)
$$
が成り立つ。
$$ \Box$$
底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
$X$ と $Y$ が独立であるとき、
$$
H_b(X,Y)=H_b(X)+H_b(Y)
$$
が成り立つ。
各 $x\in\mathcal X$ と $y\in\mathcal Y$ に対して、
$$
p_X(x):=\mathbb P(X=x),
\quad
p_Y(y):=\mathbb P(Y=y)
$$
と定める。また、各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、
$$
p_{X,Y}(x,y):=\mathbb P(X=x,Y=y)
$$
と定める。
さらに、
$$
S_X:=\{x\in\mathcal X\mid p_X(x)>0\},
\quad
S_Y:=\{y\in\mathcal Y\mid p_Y(y)>0\}
$$
および
$$
S_{X,Y}:=
\{(x,y)\in\mathcal X\times\mathcal Y\mid p_{X,Y}(x,y)>0\}
$$
とおく。
$ $
$X$ と $Y$ が独立であるとする。
このとき、任意の $x\in\mathcal X$ と任意の $y\in\mathcal Y$ に対して、事象 $\{X=x\}$ と $\{Y=y\}$ は独立であるから、
$$
p_{X,Y}(x,y)
=
\mathbb P(X=x,Y=y)
=
\mathbb P(X=x)\mathbb P(Y=y)
=
p_X(x)p_Y(y)
$$
である。
したがって、
$$
p_{X,Y}(x,y)>0
\Longleftrightarrow
p_X(x)p_Y(y)>0
$$
である。
確率は常に非負であるから、
$$
p_X(x)p_Y(y)>0
\Longleftrightarrow
p_X(x)>0\land p_Y(y)>0
$$
である。
よって、
$$
(x,y)\in S_{X,Y}
\Longleftrightarrow
x\in S_X\land y\in S_Y
$$
である。したがって、
$$
S_{X,Y}=S_X\times S_Y
$$
である。
結合エントロピーの定義より、
$$
H_b(X,Y)
=
-\sum_{(x,y)\in S_{X,Y}}
p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)
$$
である。いま、$S_{X,Y}=S_X\times S_Y$ であるから、
$$
H_b(X,Y)
=
-\sum_{x\in S_X}\sum_{y\in S_Y}
p_{X,Y}(x,y)\log_b p_{X,Y}(x,y)
$$
である。
さらに、独立性より $p_{X,Y}(x,y)=p_X(x)p_Y(y)$ であるから、
$$
\begin{align}
H_b(X,Y)
&=
-\sum_{x\in S_X}\sum_{y\in S_Y}
p_X(x)p_Y(y)\log_b\{p_X(x)p_Y(y)\}\\
&=
-\sum_{x\in S_X}\sum_{y\in S_Y}
p_X(x)p_Y(y)\{\log_b p_X(x)+\log_b p_Y(y)\}
\end{align}
$$
である。
ここで、$x\in S_X$ かつ $y\in S_Y$ であるから、
$$
p_X(x)>0,
\quad
p_Y(y)>0
$$
であり、対数はすべて定義されている。
したがって、
$$
\begin{align}
H_b(X,Y)
&=
-\sum_{x\in S_X}\sum_{y\in S_Y}
p_X(x)p_Y(y)\log_b p_X(x)\\
&\quad
-\sum_{x\in S_X}\sum_{y\in S_Y}
p_X(x)p_Y(y)\log_b p_Y(y)
\end{align}
$$
である。
-以上より、
$$
H_b(X,Y)=H_b(X)+H_b(Y)
$$
が成り立つ。
$$ \Box$$
$X$ と $Y$ が独立であるとき、$X$ を知っても $Y$ に関する不確実性は減らず、$Y$ を知っても $X$ に関する不確実性は減らない。
そのため、$(X,Y)$ を同時に観測するときの不確実性は、$X$ の不確実性と $Y$ の不確実性の和として表される。
すなわち、
$$
H_b(X,Y)=H_b(X)+H_b(Y)
$$
である。
底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(X,Y)=H_b(X)+H_b(Y\mid X)
$$
が成り立つ。
各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$
p(x,y):=\mathbb P(X=x,Y=y)
$$
で定める。また、各 $x\in\mathcal X$ に対して
$$
p_X(x):=\mathbb P(X=x)
$$
とおく。
このとき、
$$
\{X=x\}
=
\bigcup_{y\in\mathcal Y}\{X=x,Y=y\}
$$
であり、この和集合は互いに排反な有限和であるから、
$$
p_X(x)=\sum_{y\in\mathcal Y}p(x,y)
$$
である。
さらに、
$$
S_X:=\{x\in\mathcal X\mid p_X(x)>0\},
\quad
S_{X,Y}:=\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\}
$$
とおく。
結合エントロピーの定義より、
$$
H_b(X,Y)
=
-\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_b p(x,y)
$$
である。
ここで、$(x,y)\in S_{X,Y}$ とする。このとき、
$$
p(x,y)>0
$$
であるから、
$$
p_X(x)
=
\sum_{y'\in\mathcal Y}p(x,y')
\geq
p(x,y)
>
0
$$
である。したがって、$x\in S_X$ である。
よって、$p_{Y\mid X}(y\mid x)$ が定義され、
$$
p_{Y\mid X}(y\mid x)
=
\frac{p(x,y)}{p_X(x)}
$$
である。したがって、
$$
p(x,y)
=
p_X(x)p_{Y\mid X}(y\mid x)
$$
である。
また、$(x,y)\in S_{X,Y}$ ならば $p(x,y)>0$ であるから、
$$
p_X(x)>0,
\quad
p_{Y\mid X}(y\mid x)>0
$$
である(補足を参照)。したがって、以下の対数はすべて定義される。
ゆえに、
$$
\begin{align}
H_b(X,Y)
&=
-\sum_{(x,y)\in S_{X,Y}}
p(x,y)\log_b p(x,y)\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p(x,y)\log_b\{p_X(x)p_{Y\mid X}(y\mid x)\}\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p(x,y)\{\log_b p_X(x)+\log_b p_{Y\mid X}(y\mid x)\}\\
&=
-\sum_{(x,y)\in S_{X,Y}}
p(x,y)\log_b p_X(x)
-
\sum_{(x,y)\in S_{X,Y}}
p(x,y)\log_b p_{Y\mid X}(y\mid x)
\end{align}
$$
である。
-以上より、
$$
H_b(X,Y)
=
H_b(X)+H_b(Y\mid X)
$$
が成り立つ。
$$ \Box$$
この命題は、$(X,Y)$ を同時に観測するときの不確実性が、まず $X$ を観測するために必要な不確実性と、
$X$ を知ったあとに残る $Y$ の不確実性に分解できることを表す。
すなわち、
$$
H_b(X,Y)=H_b(X)+H_b(Y\mid X)
$$
は、結合エントロピーを段階的な情報量として分解する公式である。
示したいことは、
$$
(x,y)\in S_{X,Y}
\Longleftrightarrow
x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0
$$
である。ここで、
$$
S_{X,Y}
=
\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\}
$$
であり、
$$
S_X
=
\{x\in\mathcal X\mid p_X(x)>0\}
$$
である。
-以上より、
$$
(x,y)\in S_{X,Y}
\Longleftrightarrow
x\in S_X\ \text{かつ}\ p_{Y\mid X}(y\mid x)>0
$$
である。
底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_{b}(Y\mid X)\leq H_{b}(Y)
$$
が成り立つ。
さらに、等号が成り立つための必要十分条件は、$X$ と $Y$ が独立であることである。
まず、各 $(x,y)\in\mathcal X\times\mathcal Y$ に対して、$(X,Y)$ の同時確率質量関数を
$$
p(x,y):=\mathbb P(X=x,Y=y)
$$
とおく。ここで
$$
p_X(x):=\mathbb P(X=x),
\quad
p_Y(y):=\mathbb P(Y=y)
$$
であり、
$$
S_{X,Y}:=\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\}
$$
とおく。
$ $
-以上より、
$$
H_{b}(Y\mid X)\leq H_{b}(Y)
$$
が成り立ち、等号成立条件は $X$ と $Y$ が独立であることである。
$$ \Box$$
この命題は、$X$ を知ることで $Y$ に関する平均的な不確実性が増えることはない、という性質を表す。
すなわち、有限値離散確率変数について、条件付きエントロピーは
$$
H_{b}(Y\mid X)\leq H_{b}(Y)
$$
を満たす。
また、$X$ と $Y$ が独立である場合、$X$ を知っても $Y$ の分布は変わらないため、
$$
H_{b}(Y\mid X)=H_{b}(Y)
$$
が成り立つ。
一方、$X$ と $Y$ が独立でない場合には、$X$ は $Y$ について何らかの情報をもつため、
$$
H_{b}(Y\mid X)< H_{b}(Y)
$$
が成り立つ。
$H_{b}(Y)$ の計算では、
$$
p_Y(y)
=
\sum_{x\in\mathcal X}p(x,y)
$$
を用いる。したがって、$p_Y(y)>0$ である $y\in\mathcal Y$ について、
$$
p_Y(y)\log_{b} p_Y(y)
=
\sum_{x\in\mathcal X}p(x,y)\log_{b} p_Y(y)
$$
である。
ここで、$p(x,y)=0$ である項は
$$
p(x,y)\log_{b} p_Y(y)=0
$$
となるため、和に寄与しない。よって、
$$
\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}}
\sum_{x\in\mathcal X}
p(x,y)\log_{b} p_Y(y)
=
\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}}
\sum_{\substack{x\in\mathcal X\\ p(x,y)>0}}
p(x,y)\log_{b} p_Y(y)
$$
である。
さらに、$p(x,y)>0$ ならば、
$$
p_Y(y)
=
\sum_{x'\in\mathcal X}p(x',y)
\geq p(x,y)>0
$$
である。したがって、
$$
p(x,y)>0
\Rightarrow
p_Y(y)>0
$$
が成り立つ。
ゆえに、添字集合について
$$
\{(x,y)\in\mathcal X\times\mathcal Y\mid p_Y(y)>0,\ p(x,y)>0\}
=
\{(x,y)\in\mathcal X\times\mathcal Y\mid p(x,y)>0\}
=
S_{X,Y}
$$
である。
以上より、
$$
-\sum_{\substack{y\in\mathcal Y\\ p_Y(y)>0}}
\left(\sum_{x\in\mathcal X}p(x,y)\right)\log_{b} p_Y(y)
=
-\sum_{(x,y)\in S_{X,Y}}p(x,y)\log_{b} p_Y(y)
$$
である。
$\mathcal X\times\mathcal Y$ は有限集合であるから、ある $n\in\mathbb N$ を用いて
$$
\mathcal X\times\mathcal Y
=
\{z_1,\ldots,z_n\}
$$
と番号づけることができる。
各 $i=1,\ldots,n$ に対して、
$$
z_i=(a_i,b_i)
$$
と書く。このとき、
$$
p_i:=p(a_i,b_i),
\quad
q_i:=p_X(a_i)p_Y(b_i)
$$
と定める。
-以上より、$(p_1,\ldots,p_n)$ と $(q_1,\ldots,q_n)$ はギブスの不等式の仮定を満たす。
したがって、ギブスの不等式より、
$$
-\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} p_i
\leq
-\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} q_i
$$
である。
両辺を移項すると、
$$
\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} p_i
-
\sum_{\substack{1\le i\le n\\ p_i>0}}p_i\log_{b} q_i
\geq0
$$
である。すなわち、
$$
\sum_{\substack{1\le i\le n\\ p_i>0}}p_i
\log_{b}\frac{p_i}{q_i}
\geq0
$$
である。
ここで、
$$
\begin{align}
p_i>0
&\Longleftrightarrow
p(a_i,b_i)>0\\
&\Longleftrightarrow
(a_i,b_i)\in S_{X,Y}
\end{align}
$$
である。また、
$$
p_i=p(a_i,b_i),
\quad
q_i=p_X(a_i)p_Y(b_i)
$$
である。
したがって、
$$
\sum_{\substack{1\le i\le n\\ p_i>0}}p_i
\log_{b}\frac{p_i}{q_i}
=
\sum_{(x,y)\in S_{X,Y}}p(x,y)
\log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)}
$$
である。
ゆえに、
$$
\sum_{(x,y)\in S_{X,Y}}p(x,y)
\log_{b}\frac{p(x,y)}{p_X(x)p_Y(y)}
\geq0
$$
が成り立つ。
底 $b>1$ を固定する。$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。
$\mathcal X,\mathcal Y$ を有限集合とし、$X:\Omega\to\mathcal X$ と $Y:\Omega\to\mathcal Y$ を有限集合に値をもつ離散確率変数とする。
このとき、
$$
H_b(X,Y)=H_b(Y)+H_b(X\mid Y)
$$
が成り立つ。
-以上より、
$$
H_b(X,Y)=H_b(Y)+H_b(X\mid Y)
$$
が成り立つ。
$$ \Box$$
既に示した連鎖律
$$
H_b(U,V)=H_b(U)+H_b(V\mid U)
$$
において、$U=Y,\ V=X$ とおくと、
$$
H_b(Y,X)=H_b(Y)+H_b(X\mid Y)
$$
が得られる。
さらに、結合エントロピーの対称性
$$
H_b(X,Y)=H_b(Y,X)
$$
より、
$$
H_b(X,Y)=H_b(Y)+H_b(X\mid Y)
$$
が従う。
したがって、
$$
H_b(X,Y)
=
H_b(X)+H_b(Y\mid X)
=
H_b(Y)+H_b(X\mid Y)
$$
である。