$$$$
Def.
シャノン・エントロピー【平均自己情報量】
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
- $N\geq1$ とし、$\mathcal X$ を有限集合
$$
\mathcal X=\{x_1,\ldots,x_N\}
$$
とする。 - $\mathcal X$ には $\mathcal P(\mathcal X)$ を入れ、$X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X))$ を可測写像とする。
すなわち、$X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。 - 各 $x\in\mathcal X$ に対して、$X$ の確率質量関数を
$$
p_X(x):=\mathbb P(X=x)
$$
で定める。ただし、
$$
\{X=x\}:=\{\omega\in\Omega\mid X(\omega)=x\}
$$
である。 - $S_X:=\{x\in\mathcal X\mid p_X(x)>0\}$ とおく。$X$ の自己情報量確率変数 $I_X:\Omega\to[0,\infty)$ を
$$
I_X(\omega)
:=
\begin{cases}
-\log_b p_X(X(\omega)), & X(\omega)\in S_X,\\
0, & X(\omega)\notin S_X
\end{cases}
$$
で定める。
-このとき、$X$ の底 $b$ に関するシャノン・エントロピーを、自己情報量確率変数 $I_X$ の期待値として
$$
H_b(X):=\mathbb E[I_X]
$$
で定義する。
和による表示
自己情報量 $I_X$ は、各 $\omega\in\Omega$ に対して
$$
I_X(\omega)
=
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
1_{\{X=x\}}(\omega)
$$
と書ける。実際、$X(\omega)\in S_X$ のとき、ただ $1$ つの $x\in S_X$ について $X(\omega)=x$ となるため、
指示関数の定義より
$$
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
1_{\{X=x\}}(\omega)
=
-\log_b p_X(X(\omega))
$$
である。また、$X(\omega)\notin S_X$ のとき、すべての $x\in S_X$ について $X(\omega)\ne x$ であるから、
指示関数の定義から
$$
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
1_{\{X=x\}}(\omega)
=
0
$$
である。したがって、
$$
I_X
=
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
1_{\{X=x\}}
$$
である。よって、期待値の線形性より、
$$
\begin{align}
H_b(X)
&=
\mathbb E[I_X]
\\
&=
\mathbb E\left[
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
1_{\{X=x\}}
\right]
\\
&=
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
\mathbb E[1_{\{X=x\}}]
\\
&=
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
\mathbb P(X=x)
\\
&=
\sum_{x\in S_X}
\left(-\log_b p_X(x)\right)
p_X(x)
\\
&=
-\sum_{x\in S_X}
p_X(x)\log_b p_X(x)
\end{align}
$$
である(
指示関数の期待値の証明はコチラ
)。
なお、$S_X$ は有限集合であり、各 $x\in S_X$ について $p_X(x)>0$ であるから、
$I_X$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_X$ の期待値はよく定義される。
$0\log_b0$ について
本定義では、
$$
H_b(X)
=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
$$
であり、$S_X=\{x\in\mathcal X\mid p_X(x)>0\}$ であるため、$p_X(x)=0$ である値 $x$ は初めから和に含まれない。
したがって、この表示では $0\log_b0$ を定義する必要はない。
$ $
一方で、関数 $\varphi:[0,1]\to[0,\infty)$ を
$$
\varphi(t)
:=
\begin{cases}
-t\log_b t, & t>0,\\
0, & t=0
\end{cases}
$$
で定めれば、
$$
H_b(X)
=
\sum_{i=1}^{N}\varphi(p_X(x_i))
$$
と書ける。これを慣用的に
$$
H_b(X)
=
-\sum_{i=1}^{N}p_X(x_i)\log_b p_X(x_i)
$$
と書く。この表示では、$p_X(x_i)=0$ の項を
$$
0\log_b0=0
$$
と約束して $0$ とみなしている。
この約束は、次の極限に基づく。
$$
\lim_{t\downarrow0}t\log_b t=0
$$
すなわち、$0\log_b0=0$ は、$S_X$ 上の厳密な和表示を、有限集合全体 $\mathcal X$ 上の和表示として書くための慣用的な約束である。
$H_b(X)=\mathbb E[-\log_b p_X(X)]$ について
同様に、期待値表示についても注意が必要である。
関数 $g:\mathcal X\to[0,\infty)$ を
$$
g(x)
:=
\begin{cases}
-\log_b p_X(x), & x\in S_X,\\
0, & x\notin S_X
\end{cases}
$$
で定める。このとき、
$$
I_X=g\circ X
$$
であるから、
$$
H_b(X)
=
\mathbb E[g(X)]
$$
である。
ここで、$g(X)$ は $p_X(X)=0$ となる点でも値が $0$ と定められているため、全ての $\omega\in\Omega$ で定義されている。
一方、
$$
-\log_b p_X(X)
$$
という式は、$p_X(X(\omega))=0$ となる $\omega$ ではそのままでは定義されない。
したがって、
$$
H_b(X)
=
\mathbb E[-\log_b p_X(X)]
$$
という表示は、$p_X(X)=0$ となる点で値を $0$ と補っていると理解したうえでの慣用的な表示である。
エントロピーの意味
シャノン・エントロピーは、個々の事象そのものではなく、確率変数 $X$ の値の分布全体の不確実性を測る量である。
$X$ の値がある $1$ 点に確率 $1$ で集中している場合、不確実性は最小であり、
$$
H_b(X)=0
$$
である。
一方、$X$ が有限集合
$$
\mathcal X=\{x_1,\ldots,x_N\}
$$
上の一様分布に従う場合、すなわち任意の $i=1,\ldots,N$ に対して
$$
p_X(x_i)=\frac{1}{N}
$$
である場合、
$$
H_b(X)=\log_b N
$$
である(最後に示す)。
対数の底と単位
対数の底 $b$ はエントロピーの単位を決める。
$b=2$ のとき、単位は bit である。
$b=e$ のとき、単位は nat である。
特に断らない場合は、自然対数を用いて
$$
H(X):=H_e(X)
$$
と書く。
Prop&Proof
$-\log x$ の狭義凸性
関数 $g:(0,\infty)\to\mathbb R$ を
$$
g(x):=-\log x
$$
で定める。ただし、$\log$ は自然対数である。このとき、$g$ は $(0,\infty)$ 上で狭義凸である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$
-\log(tx+(1-t)y)
\le
-\{t\log x+(1-t)\log y\}
$$
が成り立つ。
さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$
-\log(tx+(1-t)y)
<
-\{t\log x+(1-t)\log y\}
$$
が成り立つ。
任意の $x\in(0,\infty)$ に対して、
$$
g(x)=-\log x
$$
である。
- まず、$g$ の導関数を計算する。
$$
g'(x)=-\frac{1}{x}
$$
である。さらに、
$$
g''(x)=\frac{1}{x^2}
$$
である。
ここで、任意の $x\in(0,\infty)$ に対して、
$$
x^2>0
$$
であるから、
$$
\frac{1}{x^2}>0
$$
である。したがって、
$$
g''(x)>0
\qquad
(x\in(0,\infty))
$$
が成り立つ。
よって、第 $2$ 導関数による狭義凸性の判定より、$g$ は $(0,\infty)$ 上で狭義凸である(
証明はコチラ
)。
$ $ - 次に、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ を取る。このとき、
$$
tx+(1-t)y>0
$$
であるから、$g(tx+(1-t)y)$ は定義される。
$g$ は狭義凸であるから、特に凸である。したがって、
$$
g(tx+(1-t)y)
\le
t g(x)+(1-t)g(y)
$$
が成り立つ。
$g(x)=-\log x$ であるから、
$$
g(tx+(1-t)y)
=
-\log(tx+(1-t)y)
$$
であり、
$$
t g(x)+(1-t)g(y)
=
-t\log x-(1-t)\log y
=
-\{t\log x+(1-t)\log y\}
$$
である。
したがって、
$$
-\log(tx+(1-t)y)
\le
-\{t\log x+(1-t)\log y\}
$$
が成り立つ。
$ $ - さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、狭義凸性より
$$
g(tx+(1-t)y)
<
t g(x)+(1-t)g(y)
$$
が成り立つ。
よって、
$$
-\log(tx+(1-t)y)
<
-\{t\log x+(1-t)\log y\}
$$
が成り立つ。
-以上より、$-\log x$ は $(0,\infty)$ 上で狭義凸である。
$$ \Box$$
$\log$ の凹性について
以上より、関数
$$
g:(0,\infty)\to\mathbb R,\qquad g(x):=-\log x
$$
は $(0,\infty)$ 上で狭義凸である。
ここで、関数
$$
f:(0,\infty)\to\mathbb R,\qquad f(x):=\log x
$$
を考える。このとき、任意の $x\in(0,\infty)$ に対して
$$
g(x)=-f(x)
$$
である。すなわち、
$$
g=-f
$$
である。
$ $
したがって、既に示した「凹関数と凸関数の関係」(
証明はコチラ
)より、
$-f=g$ が凸関数であることから、$f$ は $(0,\infty)$ 上で凹関数である。
すなわち、
$$
\log x
$$
は $(0,\infty)$ 上で凹関数である。
$ $
さらに、$-\log x$ が狭義凸であることから、$\log x$ は $(0,\infty)$ 上で狭義凹関数である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$
\log(tx+(1-t)y)
\geq
t\log x+(1-t)\log y
$$
が成り立つ。さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$
\log(tx+(1-t)y)
>
t\log x+(1-t)\log y
$$
が成り立つ。
シャノン・エントロピーの非負性
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。$N\geq1$ とし、
$$
\mathcal X=\{x_1,\ldots,x_N\}
$$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
このとき、
$$
H_b(X)\geq0
$$
である。
- シャノン・エントロピーの和による表示より、
$$
H_b(X)
=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
$$
である(定義:シャノン・エントロピーの注記を参照)。
$ $ - 任意に $x\in S_X$ を取る。$S_X$ の定義より、
$$
p_X(x)>0
$$
である。また、$p_X(x)$ は確率であるから、
$$
p_X(x)\leq1
$$
である。したがって、
$$
0< p_X(x)\leq1
$$
である。
$ $ - 底 $b>1$ であるから、対数関数 $\log_b$ は単調増加である。
よって、
$$
\log_b p_X(x)\leq\log_b1=0
$$
である。したがって、
$$
p_X(x)\log_b p_X(x)\leq0
$$
であり、
$$
-p_X(x)\log_b p_X(x)\geq0
$$
である。
以上より、任意の $x\in S_X$ に対して
$$
-p_X(x)\log_b p_X(x)\geq0
$$
である。
-したがって、$H_b(X)$ は非負項の有限和であるから、
$$
H_b(X)
=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
\geq0
$$
である。
$$ \Box$$
等号成立条件
命題において、等号
$$
H_b(X)=0
$$
が成り立つための必要十分条件は、ある $k\in\{1,\ldots,N\}$ が存在して
$$
p_X(x_k)=1
$$
かつ、任意の $i\neq k$ に対して
$$
p_X(x_i)=0
$$
となることである。
- 実際、まず、ある $k\in\{1,\ldots,N\}$ が存在して
$$
p_X(x_k)=1
$$
かつ、任意の $i\neq k$ に対して
$$
p_X(x_i)=0
$$
であるとする。このとき、
$$
S_X=\{x_k\}
$$
であるから、
$$
\begin{align}
H_b(X)
&=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
\\
&=
-p_X(x_k)\log_b p_X(x_k)
\\
&=
-1\cdot\log_b1
\\
&=
0
\end{align}
$$
である。
$ $ - 逆に、
$$
H_b(X)=0
$$
であるとする。
上の証明より、任意の $x\in S_X$ に対して
$$
-p_X(x)\log_b p_X(x)\geq0
$$
である。また、
$$
H_b(X)
=
\sum_{x\in S_X}\left(-p_X(x)\log_b p_X(x)\right)
=
0
$$
であるから、非負項の有限和が $0$ であることより、任意の $x\in S_X$ に対して
$$
-p_X(x)\log_b p_X(x)=0
$$
である。ここで、$x\in S_X$ であるから
$$
p_X(x)>0
$$
である。また、$p_X(x)$ は確率であるから
$$
p_X(x)\leq1
$$
である。したがって、
$$
0< p_X(x)\leq1
$$
である。ゆえに、
$$
0< p_X(x)<1
\quad\text{または}\quad
p_X(x)=1
$$
のいずれかが成り立つ。
もし
$$
0< p_X(x)<1
$$
ならば、
$$
\log_b p_X(x)<0
$$
であるから、
$$
-p_X(x)\log_b p_X(x)>0
$$
となる。これは
$$
-p_X(x)\log_b p_X(x)=0
$$
に反する。したがって、任意の $x\in S_X$ に対して
$$
p_X(x)=1
$$
である。一方、
$$
\sum_{i=1}^{N}p_X(x_i)=1
$$
であるから、$p_X(x)=1$ となる $x\in S_X$ はただ $1$ つである。
-よって、ある $k\in\{1,\ldots,N\}$ が存在して
$$
p_X(x_k)=1
$$
かつ、任意の $i\neq k$ に対して
$$
p_X(x_i)=0
$$
となる。以上より、等号成立条件が示された。
シャノン・エントロピーの底変換公式
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。$N\geq1$ とし、
$$
\mathcal X=\{x_1,\ldots,x_N\}
$$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$a>1,\ b>1$ とする。このとき、
$$
H_b(X)=\log_b a\cdot H_a(X)
$$
が成り立つ。
- シャノン・エントロピーの和による表示より、
$$
H_b(X)
=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
$$
である(定義:シャノン・エントロピーの注記を参照)。
$ $ - 任意の $x\in S_X$ に対して、
$$
p_X(x)>0
$$
であるから、$\log_b p_X(x)$ と $\log_a p_X(x)$ は定義される。
対数の底変換公式より、
$$
\log_b p_X(x)
=
\log_b a\cdot \log_a p_X(x)
$$
である。
$ $ - したがって、
$$
\begin{align}
H_b(X)
&=
-\sum_{x\in S_X}p_X(x)\log_b p_X(x)
\\
&=
-\sum_{x\in S_X}p_X(x)\left(\log_b a\cdot \log_a p_X(x)\right)
\\
&=
\log_b a\left(-\sum_{x\in S_X}p_X(x)\log_a p_X(x)\right)
\\
&=
\log_b a\cdot H_a(X)
\end{align}
$$
である。
-以上より、
$$
H_b(X)=\log_b a\cdot H_a(X)
$$
が成り立つ。
$$ \Box$$
シャノン・エントロピーの凹性
$n\geq1$ とし、$p=(p_1,\ldots,p_n)$ と $q=(q_1,\ldots,q_n)$ を $\{1,\ldots,n\}$ 上の確率分布とする(補足を参照)。また、$\lambda\in[0,1]$ とする。
関数 $\varphi:[0,1]\to\mathbb R$ を
$$
\varphi(t)
:=
\begin{cases}
-t\log t, & t>0,\\
0, & t=0
\end{cases}
$$
で定める。ただし、$\log$ は自然対数である。確率分布 $r=(r_1,\ldots,r_n)$ に対して
$$
H(r):=\sum_{i=1}^{n}\varphi(r_i)
$$
と定める。このとき、
$$
H(\lambda p+(1-\lambda)q)
\geq
\lambda H(p)+(1-\lambda)H(q)
$$
が成り立つ。
- まず、$\lambda p+(1-\lambda)q$ が確率分布であることを確認する。
任意の $i=1,\ldots,n$ に対して、$p_i\geq0,\ q_i\geq0$ であり、$\lambda\in[0,1]$ であるから、
$$
\lambda p_i+(1-\lambda)q_i\geq0
$$
である。また、
$$
\begin{align}
\sum_{i=1}^{n}\left(\lambda p_i+(1-\lambda)q_i\right)
&=
\lambda\sum_{i=1}^{n}p_i
+
(1-\lambda)\sum_{i=1}^{n}q_i
\\
&=
\lambda\cdot1+(1-\lambda)\cdot1
\\
&=
1
\end{align}
$$
である。したがって、$\lambda p+(1-\lambda)q$ は $\{1,\ldots,n\}$ 上の確率分布である。
$ $ - 次に、$\varphi$ が $[0,1]$ 上で凹であることを示す。
$t\in(0,1)$ に対して、
$$
\varphi(t)=-t\log t
$$
である。したがって、積の微分公式と $\log t$ の微分公式より
$$
\begin{align}
\varphi'(t)
&=
-\frac{d}{dt}(t\log t)
\\
&=
-\left(1\cdot\log t+t\cdot\frac{1}{t}\right)
\\
&=
-(\log t+1)
\\
&=
-\log t-1
\end{align}
$$
であり、
$$
\begin{align}
\varphi''(t)
&=
\frac{d}{dt}(-\log t-1)
\\
&=
-\frac{d}{dt}(\log t)-\frac{d}{dt}(1)
\\
&=
-\frac{1}{t}-0
\\
&=
-\frac{1}{t}
\end{align}
$$
である。よって、任意の $t\in(0,1)$ に対して
$$
\varphi''(t)<0
$$
である。したがって、$\varphi$ は $(0,1)$ 上で狭義凹であり、特に $(0,1)$ 上で凹である(
証明はコチラ
)。
また、$t\mapsto -t\log t$ は $(0,1]$ 上で連続であり、
$$
\varphi(1)=-1\log1=0
$$
である。さらに、
$$
\lim_{t\downarrow0}(-t\log t)=0
$$
である(補足を参照)から、$\varphi(0)=0$ と定めた $\varphi$ は $[0,1]$ 上で連続である。
$ $ - 端点を含む場合を確認する(ここは冗長なので読み飛ばしても良い...)。
任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
$$
\varphi(\theta u+(1-\theta)v)
\geq
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つことを示す。
$ $
■ $\theta=0$ または $\theta=1$ の場合を確認する。
任意の $u,v\in[0,1]$ を取る。
i) $\theta=0$ の場合。
このとき、
$$
\theta u+(1-\theta)v
=
0\cdot u+(1-0)v
=
v
$$
である。したがって、
$$
\begin{align}
\varphi(\theta u+(1-\theta)v)
&=
\varphi(v)
\\
&=
0\cdot\varphi(u)+1\cdot\varphi(v)
\\
&=
\theta\varphi(u)+(1-\theta)\varphi(v)
\end{align}
$$
である。ゆえに、
$$
\varphi(\theta u+(1-\theta)v)
=
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つ。
$ $
ii) $\theta=1$ の場合。
このとき、
$$
\theta u+(1-\theta)v
=
1\cdot u+(1-1)v
=
u
$$
である。したがって、
$$
\begin{align}
\varphi(\theta u+(1-\theta)v)
&=
\varphi(u)
\\
&=
1\cdot\varphi(u)+0\cdot\varphi(v)
\\
&=
\theta\varphi(u)+(1-\theta)\varphi(v)
\end{align}
$$
である。ゆえに、
$$
\varphi(\theta u+(1-\theta)v)
=
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つ。以上より、$\theta=0$ または $\theta=1$ の場合は、凹性の不等式が等号として成り立つ。
$ $
■ $u=v$ の場合を確認する。
任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ を取る。
$u=v$ とする。このとき、
$$
\theta u+(1-\theta)v
=
\theta u+(1-\theta)u
=
(\theta+1-\theta)u
=
u
$$
である。したがって、
$$
\begin{align}
\varphi(\theta u+(1-\theta)v)
&=
\varphi(u)
\\
&=
(\theta+1-\theta)\varphi(u)
\\
&=
\theta\varphi(u)+(1-\theta)\varphi(u)
\\
&=
\theta\varphi(u)+(1-\theta)\varphi(v)
\end{align}
$$
である。ゆえに、
$$
\varphi(\theta u+(1-\theta)v)
=
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つ。
以上より、$u=v$ の場合は、凹性の不等式が等号として成り立つ。
$ $
よって、以下では $0<\theta<1$ かつ $u\ne v$ とする。必要なら $u$ と $v$ を入れ替えることにより、
$$
0\leq v< u\leq1
$$
としてよい(補足を参照)。ただし、$u$ と $v$ を入れ替える場合には、同時に $\theta$ を $1-\theta$ に置き換える。
$ $
i) $0< v< u<1$ の場合。
この場合、$u,v\in(0,1)$ であるから、$(0,1)$ 上の狭義凹性より、
$$
\varphi(\theta u+(1-\theta)v)
>
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つ。
$ $
ii) $v=0,\ 0< u\leq1$ の場合。
このとき、
$$
\begin{align}
\varphi(\theta u+(1-\theta)0)
&=
\varphi(\theta u)
\\
&=
-\theta u\log(\theta u)
\quad &&\because 0<\theta u\leq1\text{ かつ }\varphi(w)=-w\log w\ (w>0)
\\
&=
-\theta u(\log\theta+\log u)
\quad &&\because \log(\theta u)=\log\theta+\log u
\\
&=
-\theta u\log u-\theta u\log\theta
\quad &&\because \text{分配法則}
\\
&=
\theta\varphi(u)-\theta u\log\theta
\quad &&\because \varphi(u)=-u\log u
\end{align}
$$
である。ここで、$0<\theta<1$ より $\log\theta<0$ であり、$u>0$ であるから、
$$
-\theta u\log\theta>0
$$
である。したがって、
$$
\varphi(\theta u+(1-\theta)0)
>
\theta\varphi(u)
=
\theta\varphi(u)+(1-\theta)\varphi(0)
$$
である。
$ $
iii) $u=1,\ 0< v<1$ の場合。
関数 $\psi:[0,1]\to\mathbb R$ を
$$
\psi(\theta)
:=
\varphi(\theta\cdot1+(1-\theta)v)
-
\theta\varphi(1)
-
(1-\theta)\varphi(v)
$$
で定める。ここで、$0< v<1$ である。
・ まず、$\theta=0$ を代入すると、
$$
\begin{align}
\psi(0)
&=
\varphi(0\cdot1+(1-0)v)
-
0\cdot\varphi(1)
-
(1-0)\varphi(v)
\\
&=
\varphi(v)-\varphi(v)
\\
&=
0
\end{align}
$$
である。
・ 次に、$\theta=1$ を代入すると、
$$
\begin{align}
\psi(1)
&=
\varphi(1\cdot1+(1-1)v)
-
1\cdot\varphi(1)
-
(1-1)\varphi(v)
\\
&=
\varphi(1)-\varphi(1)
\\
&=
0
\end{align}
$$
である。
したがって、
$$
\psi(0)=0,\qquad \psi(1)=0
$$
である。
$ $
・ また、$0<\theta<1$ のとき、
$$
\theta\cdot1+(1-\theta)v\in(v,1)\subset(0,1)
$$
であるから、$\psi$ は $(0,1)$ 上で $2$ 回微分可能である。
ここで、$\varphi(1)=0$ であるから、
$$
\begin{align}
\psi(\theta)
&:=
\varphi(\theta\cdot1+(1-\theta)v)
-
\theta\varphi(1)
-
(1-\theta)\varphi(v)
\\
&=
\varphi(\theta+(1-\theta)v)
-
(1-\theta)\varphi(v)
\end{align}
$$
である。ここで、
$$
h(\theta):=\theta+(1-\theta)v
$$
とおくと、
$$
h'(\theta)=1-v
$$
である。
したがって、合成関数の微分公式より、$0<\theta<1$ に対して
$$
\begin{align}
\psi'(\theta)
&=
\frac{d}{d\theta}
\left\{
\varphi(h(\theta))
-
(1-\theta)\varphi(v)
\right\}
\\
&=
\varphi'(h(\theta))h'(\theta)
+
\varphi(v)
\\
&=
(1-v)\varphi'(\theta+(1-\theta)v)
+
\varphi(v)
\end{align}
$$
である。さらに、もう一度微分すると、
$$
\begin{align}
\psi''(\theta)
&=
\frac{d}{d\theta}
\left\{
(1-v)\varphi'(\theta+(1-\theta)v)
+
\varphi(v)
\right\}
\\
&=
(1-v)\frac{d}{d\theta}
\varphi'(\theta+(1-\theta)v)
+
0
\\
&=
(1-v)\varphi''(\theta+(1-\theta)v)\frac{d}{d\theta}\{\theta+(1-\theta)v\}
\\
&=
(1-v)\varphi''(\theta+(1-\theta)v)(1-v)
\\
&=
(1-v)^2\varphi''(\theta+(1-\theta)v)
\end{align}
$$
である。したがって、
$$
\psi''(\theta)
=
(1-v)^2\varphi''(\theta+(1-\theta)v)
$$
である。一方、すでに
$$
\varphi''(t)=-\frac{1}{t}
\qquad
(t\in(0,1))
$$
を示している。ここで、
$$
t=\theta+(1-\theta)v
$$
とおく。$0< v<1$ かつ $0<\theta<1$ であるから、
$$
0< v<\theta+(1-\theta)v<1
$$
である。したがって、
$$
\theta+(1-\theta)v\in(0,1)
$$
である。ゆえに、
$$
\varphi''(\theta+(1-\theta)v)
=
-\frac{1}{\theta+(1-\theta)v}
<
0
$$
である。また、$0< v<1$ であるから、
$$
1-v>0
$$
であり、
$$
(1-v)^2>0
$$
である。したがって、
$$
\begin{align}
\psi''(\theta)
&=
(1-v)^2\varphi''(\theta+(1-\theta)v)
\\
&<
0
\end{align}
$$
である。また、$\psi$ は $[0,1]$ 上で連続であり、$(0,1)$ 上で $2$ 回微分可能である。
したがって、第 $2$ 導関数による狭義凹性の判定より、$\psi$ は $[0,1]$ 上で狭義凹である(
証明はコチラ
)。
特に、$0<\theta<1$ に対して、
$$
\psi(\theta)
>
\theta\psi(1)+(1-\theta)\psi(0)
=
0
$$
である。すなわち、
$$
\varphi(\theta\cdot1+(1-\theta)v)
>
\theta\varphi(1)+(1-\theta)\varphi(v)
$$
が成り立つ。
$ $
以上より、任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
$$
\varphi(\theta u+(1-\theta)v)
\geq
\theta\varphi(u)+(1-\theta)\varphi(v)
$$
が成り立つ。したがって、$\varphi$ は $[0,1]$ 上で凹である。
さらに、$u\ne v$ かつ $0<\theta<1$ のときは、上の各場合で狭義不等号が成り立つため、$\varphi$ は $[0,1]$ 上で狭義凹である。
(長すぎる...〇す気ですか( ゚Д゚)?)
$ $ - 各成分に凹性を適用する。
任意の $i=1,\ldots,n$ について、$p_i,q_i\in[0,1]$ である。
$\varphi$ は $[0,1]$ 上で凹であるから、
$$
\varphi(\lambda p_i+(1-\lambda)q_i)
\geq
\lambda\varphi(p_i)+(1-\lambda)\varphi(q_i)
$$
が成り立つ。
$ $ - 両辺を $i=1,\ldots,n$ について足し合わせると、
$$
\begin{align}
H(\lambda p+(1-\lambda)q)
&=
\sum_{i=1}^{n}\varphi(\lambda p_i+(1-\lambda)q_i)
\\
&\geq
\sum_{i=1}^{n}
\left(
\lambda\varphi(p_i)+(1-\lambda)\varphi(q_i)
\right)
\\
&=
\lambda\sum_{i=1}^{n}\varphi(p_i)
+
(1-\lambda)\sum_{i=1}^{n}\varphi(q_i)
\\
&=
\lambda H(p)+(1-\lambda)H(q)
\end{align}
$$
である。
-以上より、
$$
H(\lambda p+(1-\lambda)q)
\geq
\lambda H(p)+(1-\lambda)H(q)
$$
が成り立つ。
$$ \Box$$
ただし、$u$ と $v$ を入れ替える場合には、同時に $\theta$ を $1-\theta$ に置き換える。
実際、
$$
\theta u+(1-\theta)v
=
(1-\theta)v+\theta u
$$
であり、また、
$$
\theta\varphi(u)+(1-\theta)\varphi(v)
=
(1-\theta)\varphi(v)+\theta\varphi(u)
$$
である。
したがって、$u$ と $v$ の大小関係を入れ替えても、凹性の不等式の形は保たれる。
この命題の意味するところ
この命題は、混合分布のエントロピーが、各分布のエントロピーの加重平均以上になることを表している。
すなわち、分布を混合したときの不確実性は、混合前の不確実性の加重平均を下回らない。
特に、$0<\lambda<1$ かつ $p\neq q$ の場合には、混合分布のエントロピーは、各分布のエントロピーの加重平均より真に大きい。
$\{1,\ldots,n\}$ 上の確率分布の意味
- $p=(p_1,\ldots,p_n)$ が $\{1,\ldots,n\}$ 上の確率分布であるとは、各 $i=1,\ldots,n$ に対して $p_i$ が番号 $i$ に対応する確率を表し、
$$
p_i\geq0
\qquad
(i=1,\ldots,n)
$$
かつ
$$
\sum_{i=1}^{n}p_i=1
$$
を満たすことをいう。
$ $ - 同様に、$q=(q_1,\ldots,q_n)$ が $\{1,\ldots,n\}$ 上の確率分布であるとは、
$$
q_i\geq0
\qquad
(i=1,\ldots,n)
$$
かつ
$$
\sum_{i=1}^{n}q_i=1
$$
を満たすことをいう。
-すなわち、$p$ と $q$ は、同じ有限集合 $\{1,\ldots,n\}$ 上に定められた $2$ つの確率分布である。
等号成立条件
$0<\lambda<1$ とする。このとき、等号
$$
H(\lambda p+(1-\lambda)q)
=
\lambda H(p)+(1-\lambda)H(q)
$$
が成り立つための必要十分条件は、
$$
p=q
$$
である。
- まず、$p=q$ ならば、
$$
\lambda p+(1-\lambda)q=p
$$
であるから、
$$
\begin{align}
H(\lambda p+(1-\lambda)q)
&=
H(p)
\\
&=H(p)+(\lambda H(p)-\lambda H(p))
\\
&=
\lambda H(p)+(1-\lambda)H(p)
\\
&=
\lambda H(p)+(1-\lambda)H(q)
\end{align}
$$
である。
$ $ - 逆に、$p\neq q$ とする。このとき、ある $i\in\{1,\ldots,n\}$ が存在して
$$
p_i\neq q_i
$$
である。
$\varphi$ は $[0,1]$ 上で狭義凹であり、$0<\lambda<1$ であるから、
$$
\varphi(\lambda p_i+(1-\lambda)q_i)
>
\lambda\varphi(p_i)+(1-\lambda)\varphi(q_i)
$$
が成り立つ。
また、任意の $j\neq i$ に対しても、$\varphi$ の凹性より
$$
\varphi(\lambda p_j+(1-\lambda)q_j)
\geq
\lambda\varphi(p_j)+(1-\lambda)\varphi(q_j)
$$
が成り立つ。
したがって、全ての成分について和を取ると、
$$
H(\lambda p+(1-\lambda)q)
>
\lambda H(p)+(1-\lambda)H(q)
$$
である。
-よって、等号が成り立つならば
$$
p=q
$$
でなければならない。
なお、$\lambda=0$ または $\lambda=1$ の場合は、$p$ と $q$ が異なっていても等号が成り立つ。
$\lim_{t\downarrow0}(-t\log t)=0$ の証明
$t>0$ において、
$$
-t\log t
=
-\frac{\log t}{1/t}
$$
と書ける。
$t\downarrow0$ のとき、
$$
\log t\to-\infty
\quad\text{かつ}\quad
\frac{1}{t}\to\infty
$$
であるから、
$$
\frac{\log t}{1/t}
$$
は不定形($t\downarrow0$ で分子が $-\infty$、分母が $+\infty$ となる $\frac{-\infty}{+\infty}$ 型)である。そこで、ロピタルの定理を用いると、
$$
\begin{align}
\lim_{t\downarrow0}\frac{\log t}{1/t}
&=
\lim_{t\downarrow0}
\frac{\frac{d}{dt}\log t}{\frac{d}{dt}(1/t)}
\\
&=
\lim_{t\downarrow0}
\frac{1/t}{-1/t^2}
\\
&=
\lim_{t\downarrow0}(-t)
\\
&=
0
\end{align}
$$
である。したがって、
$$
\begin{align}
\lim_{t\downarrow0}(-t\log t)
&=
-\lim_{t\downarrow0}\frac{\log t}{1/t}
\\
&=
-0
\\
&=
0
\end{align}
$$
である。
このため、関数 $t\mapsto -t\log t$ は、$t=0$ における値を $0$ と定めることで、$[0,1]$ 上の連続関数として扱える。
対数関数の基本不等式 【補題】
任意の $x>0$ に対して、
$$
\ln x\leq x-1
$$
が成り立つ。
また、等号が成り立つのは
$$
x=1
$$
の場合に限る。
関数 $f:(0,\infty)\to\mathbb R$ を
$$
f(x):=\ln x-(x-1)
$$
で定める。このとき、任意の $x>0$ に対して
$$
\begin{align}
f'(x)
&=
\frac{d}{dx}\{\ln x-(x-1)\}
\\
&=
\frac{1}{x}-1
\end{align}
$$
である。
- $0< x<1$ の場合を考える。
区間 $[x,1]$ に平均値の定理を適用する。
$f$ は $[x,1]$ 上で連続であり、$(x,1)$ 上で微分可能であるから、ある $c\in(x,1)$ が存在して
$$
\frac{f(1)-f(x)}{1-x}
=
f'(c)
$$
が成り立つ。
ここで、$0< c<1$ であるから、
$$
f'(c)=\frac{1}{c}-1>0
$$
である。また、$0< x<1$ より $1-x>0$ であるから、
$$
f(1)-f(x)
=
f'(c)(1-x)>0
$$
である。したがって、
$$
f(x)< f(1)
$$
である。
$ $ - $x>1$ の場合を考える。
区間 $[1,x]$ に平均値の定理を適用する。
$f$ は $[1,x]$ 上で連続であり、$(1,x)$ 上で微分可能であるから、ある $c\in(1,x)$ が存在して
$$
\frac{f(x)-f(1)}{x-1}
=
f'(c)
$$
が成り立つ。
ここで、$c>1$ であるから、
$$
f'(c)=\frac{1}{c}-1<0
$$
である。また、$x>1$ より $x-1>0$ であるから、
$$
f(x)-f(1)
=
f'(c)(x-1)<0
$$
である。したがって、
$$
f(x)< f(1)
$$
である。
$ $ - $x=1$ の場合を考える。
$$
\begin{align}
f(1)
&=
\ln 1-(1-1)
\\
&=
0
\end{align}
$$
である。
-以上より、任意の $x>0$ に対して
$$
f(x)\leq f(1)=0
$$
である。したがって、
$$
\ln x-(x-1)\leq0
$$
であり、
$$
\ln x\leq x-1
$$
が成り立つ。
また、$x\neq1$ のときは
$$
f(x)< f(1)=0
$$
であるから、
$$
\ln x< x-1
$$
である。したがって、等号が成り立つのは $x=1$ の場合に限る。
$$ \Box$$
ギブスの不等式
$\log$ を自然対数とする。
$n\geq1$ とし、$p=(p_1,\ldots,p_n)$ と $q=(q_1,\ldots,q_n)$ を $\{1,\ldots,n\}$ 上の確率分布とする。
すなわち、任意の $i=1,\ldots,n$ に対して
$$
p_i\geq0,\quad q_i\geq0
$$
であり、
$$
\sum_{i=1}^{n}p_i=1,\quad \sum_{i=1}^{n}q_i=1
$$
である。さらに、任意の $i=1,\ldots,n$ に対して
$$
p_i>0\Rightarrow q_i>0
$$
を仮定する。このとき、
$$
-\sum_{\{i\mid p_i>0\}}p_i\log p_i
\leq
-\sum_{\{i\mid p_i>0\}}p_i\log q_i
$$
が成り立つ。
$S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\}$ とおく。任意の $i\in S_p$ に対して、仮定より
$$
p_i>0,\quad q_i>0
$$
である。したがって、
$$
\frac{q_i}{p_i}>0
$$
である。対数関数の不等式(直前に示した補題)より
$$
\log x\leq x-1\quad(x>0)
$$
を
$$
x=\frac{q_i}{p_i}
$$
に適用すると、
$$
\log\frac{q_i}{p_i}
\leq
\frac{q_i}{p_i}-1
$$
である。両辺に $p_i>0$ をかけると、
$$
p_i\log\frac{q_i}{p_i}
\leq
q_i-p_i
$$
である。
したがって、$i\in S_p$ について和を取ると、
$$
\begin{align}
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}
&\leq
\sum_{i\in S_p}(q_i-p_i)
\\
&=
\sum_{i\in S_p}q_i-\sum_{i\in S_p}p_i
\\
&=
\sum_{i\in S_p}q_i-1
\quad
\because
\sum_{i\in S_p}p_i=\sum_{i=1}^{n}p_i=1
\\
&\leq
0
\quad
\because
\sum_{i\in S_p}q_i\leq\sum_{i=1}^{n}q_i=1
\end{align}
$$
である。一方、
$$
\begin{align}
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}
&=
\sum_{i\in S_p}p_i(\log q_i-\log p_i)
\quad
\because
\log\frac{q_i}{p_i}=\log q_i-\log p_i
\\
&=
\sum_{i\in S_p}p_i\log q_i
-
\sum_{i\in S_p}p_i\log p_i
\end{align}
$$
である。よって、
$$
\sum_{i\in S_p}p_i\log q_i
-
\sum_{i\in S_p}p_i\log p_i
\leq0
$$
である。したがって、
$$
-\sum_{i\in S_p}p_i\log p_i
\leq
-\sum_{i\in S_p}p_i\log q_i
$$
が成り立つ。
$$ \Box$$
$q_i=0$ かつ $p_i>0$ の場合
もし、ある $i$ について
$$
p_i>0,\quad q_i=0
$$
であれば、
$$
-p_i\log q_i
$$
は拡張実数値の意味で $+\infty$ と解釈される。
この場合、$p_i=0$ の項は $0$ とみなすという約束のもとで、
$$
-\sum_{i=1}^{n}p_i\log q_i
=
+\infty
$$
となる。したがって、不等式自体は
$$
H(p)\leq+\infty
$$
として成り立つ。
しかし、この場合、右辺は有限の実数値ではないため、上の証明で用いたような実数値の範囲での式変形はできない。
そのため、有限値の範囲でギブスの不等式を証明する場合には、
$$
p_i>0\Rightarrow q_i>0
$$
を仮定するのが自然である。
これは、$p$ が正の確率を与える点では、$q$ も正の確率を与えることを要求している。
等号成立条件
等号が成り立つための必要十分条件は、
$$
p=q
$$
である。
- まず、$p=q$ ならば、任意の $i=1,\ldots,n$ に対して $p_i=q_i$ であるから、
$$
-\sum_{i\in S_p}p_i\log p_i
=
-\sum_{i\in S_p}p_i\log q_i
$$
である。したがって、等号が成り立つ。
$ $ - 逆に、等号が成り立つとする。
i) このとき、
$$
-\sum_{i\in S_p}p_i\log p_i
=
-\sum_{i\in S_p}p_i\log q_i
$$
であるから、両辺に $-1$ をかけて、
$$
\sum_{i\in S_p}p_i\log p_i
=
\sum_{i\in S_p}p_i\log q_i
$$
を得る。したがって、
$$
\begin{align}
0
&=
\sum_{i\in S_p}p_i\log q_i
-
\sum_{i\in S_p}p_i\log p_i
\\
&=
\sum_{i\in S_p}
\left(
p_i\log q_i-p_i\log p_i
\right)
\\
&=
\sum_{i\in S_p}
p_i(\log q_i-\log p_i)
\\
&=
\sum_{i\in S_p}
p_i\log\frac{q_i}{p_i}
\quad
\because i\in S_p\text{ では }p_i>0,q_i>0\text{ である}
\end{align}
$$
である。ゆえに、
$$
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0
$$
である。
$ $
ii) 一方、証明中で得た不等式より、
$$
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}
\leq
\sum_{i\in S_p}(q_i-p_i)
\leq
0
$$
である。いま、
$$
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0
$$
であるから、
$$
0
\leq
\sum_{i\in S_p}(q_i-p_i)
\leq
0
$$
である。したがって、
$$
\sum_{i\in S_p}(q_i-p_i)=0
$$
である。よって、
$$
\begin{align}
0
&=
\sum_{i\in S_p}(q_i-p_i)
-
\sum_{i\in S_p}p_i\log\frac{q_i}{p_i}
\\
&=
\sum_{i\in S_p}
\left\{
(q_i-p_i)
-
p_i\log\frac{q_i}{p_i}
\right\}
\end{align}
$$
である。
ここで、任意の $i\in S_p$ に対して、対数関数の不等式(直前に示した補題)より
$$
p_i\log\frac{q_i}{p_i}
\leq
q_i-p_i
$$
であるから、
$$
(q_i-p_i)-p_i\log\frac{q_i}{p_i}\geq0
$$
であり、かつ、この左辺の非負項の有限和が $0$ であることより、
任意の $i\in S_p$ に対して
$$
(q_i-p_i)-p_i\log\frac{q_i}{p_i}=0
$$
である。ゆえに、
$$
p_i\log\frac{q_i}{p_i}
=
q_i-p_i
$$
である。
ここで $i\in S_p$ であるから $p_i>0$ である。よって両辺を $p_i$ で割ると、
$$
\log\frac{q_i}{p_i}
=
\frac{q_i}{p_i}-1
$$
である。改めて対数関数の基本不等式
$$
\log x\leq x-1
$$
の等号成立条件は $x=1$ であるから、
$$
\frac{q_i}{p_i}=1
$$
である。したがって、任意の $i\in S_p$ に対して
$$
q_i=p_i
$$
である。
$ $
iii) また、
$$
\sum_{i\in S_p}(q_i-p_i)=0
$$
であり、
$$
\sum_{i\in S_p}p_i=1
$$
であるから、
$$
\sum_{i\in S_p}q_i=1
$$
である。一方で、
$$
\sum_{i=1}^{n}q_i=1
$$
であり、各 $q_i$ は非負である。したがって、任意の $i\notin S_p$ に対して
$$
q_i=0
$$
である。また、$i\notin S_p$ ならば $p_i=0$ である。
$ $
以上より、任意の $i=1,\ldots,n$ に対して
$$
p_i=q_i
$$
である。すなわち、
$$
p=q
$$
である。
-以上より、等号成立条件は $p=q$ である。
シャノン・エントロピーの最大値
$\log$ を自然対数とする。$n\geq1$ とし、
$$
\mathcal X=\{x_1,\ldots,x_n\}
$$
を有限集合とする。$X$ を $\mathcal X$ に値をもつ離散確率変数とし、
$$
p_i:=\mathbb P(X=x_i)
$$
とおく。また、$0\log0=0$ と約束して、
$$
H(X):=-\sum_{i=1}^{n}p_i\log p_i
$$
と定める。このとき、
$$
H(X)\leq\log n
$$
が成り立つ。
証明の前に
- ここで、$0\log0=0$ と約束しているため、
$$
-\sum_{i=1}^{n}p_i\log p_i
=
-\sum_{\{i\mid p_i>0\}}p_i\log p_i
$$
である。 - また、証明のなかで $q_i=\frac{1}{n}>0$ と定めるため、$p_i=0$ の項は
$$
-p_i\log q_i=0
$$
となる。
-したがって、
$$
-\sum_{i=1}^{n}p_i\log q_i
=
-\sum_{\{i\mid p_i>0\}}p_i\log q_i
$$
である。
(既に示した)ギブスの不等式より、
任意の確率分布 $p=(p_1,\ldots,p_n)$ と、任意の確率分布 $q=(q_1,\ldots,q_n)$ で、$p_i>0\Rightarrow q_i>0$ を満たすものに対して、
$$
-\sum_{i=1}^{n}p_i\log p_i
\leq
-\sum_{i=1}^{n}p_i\log q_i
$$
が成り立つ。ここで、
$$
q_i:=\frac{1}{n}
\qquad
(i=1,\ldots,n)
$$
とおく。このとき、定義より $q=(q_1,\ldots,q_n)$ は一様分布であり、任意の $i$ に対して $q_i>0$ である。
したがって、ギブスの不等式を適用すると、
$$
-\sum_{i=1}^{n}p_i\log p_i
\leq
-\sum_{i=1}^{n}p_i\log\frac{1}{n}
$$
である。
右辺を計算すると、
$$
\begin{align}
-\sum_{i=1}^{n}p_i\log\frac{1}{n}
&=
-\sum_{i=1}^{n}p_i(-\log n)
\quad
\because
\log\frac{1}{n}=-\log n
\\
&=
\sum_{i=1}^{n}p_i\log n
\\
&=
\log n\sum_{i=1}^{n}p_i
\quad
\because
\log n \text{ は } i \text{ に依存しない定数である}
\\
&=
\log n
\quad
\because
\sum_{i=1}^{n}p_i=1
\end{align}
$$
である。よって、
$$
H(X)
=
-\sum_{i=1}^{n}p_i\log p_i
\leq
\log n
$$
が成り立つ。
$$ \Box$$
等号成立条件
等号
$$
H(X)=\log n
$$
が成り立つための必要十分条件は、任意の $i=1,\ldots,n$ に対して
$$
p_i=\frac{1}{n}
$$
となることである。
実際、上の証明で用いたギブスの不等式の等号成立条件より、等号が成り立つための必要十分条件は
$$
p_i=q_i
\qquad
(i=1,\ldots,n)
$$
である。ここで、
$$
q_i=\frac{1}{n}
$$
であるから、等号成立条件は
$$
p_i=\frac{1}{n}
\qquad
(i=1,\ldots,n)
$$
である。
すなわち、$X$ が $\mathcal X$ 上の一様分布に従う場合、かつその場合に限り、
$$
H(X)=\log n
$$
が成り立つ。
以上の証明から、離散確率変数 $X$ のエントロピー $H(X)$ は $\log n$ を上限とし、
この上限に達するのは $X$ が $\{x_1,\ldots,x_n\}$ 上の一様分布に従う場合に限ることが示された。
この結果は情報理論の基本的な結果であり、様々な応用において重要な役割を果たす。
$ $
この定理は、確率質量がもっとも均等に分布している状態、すなわち一様分布において、
不確実性が最大になるという直感的な理解とも一致している。
イェンゼンの不等式による別証明
エントロピーの上限
$$
H(X)\leq\log n
$$
は、イェンゼンの不等式を用いて示すこともできる。
$$
S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\}
$$
とおく。このとき、
$$
\sum_{i\in S_p}p_i=1
$$
であり、任意の $i\in S_p$ に対して
$$
\frac{1}{p_i}>0
$$
である。
また、$\log$ は $(0,\infty)$ 上の凹関数(本記事で既に示した)であるから、
イェンゼンの不等式(
証明はコチラ
)より、
$$
\sum_{i\in S_p}p_i\log\frac{1}{p_i}
\leq
\log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right)
$$
が成り立つ。
- 左辺は
$$
\sum_{i\in S_p}p_i\log\frac{1}{p_i}
=
-\sum_{i\in S_p}p_i\log p_i
=
H(X)
$$
である。ただし、$p_i=0$ の項は $0\log0=0$ として和に寄与しない。 - 右辺は
$$
\begin{align}
\log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right)
&=
\log\left(\sum_{i\in S_p}1\right)
\\
&=
\log |S_p|
\end{align}
$$
である。
-したがって、
$$
H(X)\leq\log |S_p|\cdots①
$$
である。さらに、定義より
$$
|S_p|\leq n
$$
であり、$\log$ は単調増加であるから、
$$
\log |S_p|\leq\log n
$$
である。よって、式①より
$$
H(X)\leq\log n
$$
が成り立つ。
$ $
■ 等号成立条件を考える。
$H(X)=\log n$ が成り立つためには、
$$
H(X)=\log |S_p|
$$
かつ
$$
\log |S_p|=\log n
$$
が必要である。
ここで、$\log$ は $(0,\infty)$ 上で狭義単調増加である。したがって、正の数 $a,b$ に対して
$$
\log a=\log b
$$
ならば、
$$
a=b
$$
である。いま、
$$
\log |S_p|=\log n
$$
であり、$|S_p|>0$ かつ $n>0$ であるから、
$$
|S_p|=n
$$
である。また、$S_p\subseteq\{1,\ldots,n\}$ であるから、$|S_p|=n$ ならば
$$
S_p=\{1,\ldots,n\}
$$
である。
また、$\log$ は $(0,\infty)$ 上で狭義凹関数(本記事内で証明済み)であるから、
イェンゼンの不等式で等号が成り立つためには、
$$
\frac{1}{p_i}
$$
が $i\in S_p$ によらず一定であることが必要十分である(
詳しくはコチラ
)。
したがって、ある定数 $c>0$ が存在して、任意の $i\in S_p$ に対して
$$
\frac{1}{p_i}=c
$$
である。ゆえに、任意の $i\in S_p$ に対して $p_i$ は同じ値である。
いま $S_p=\{1,\ldots,n\}$ であり、
$$
\sum_{i=1}^{n}p_i=1
$$
であるから、任意の $i=1,\ldots,n$ に対して
$$
p_i=\frac{1}{n}
$$
である。
逆に、任意の $i=1,\ldots,n$ に対して
$$
p_i=\frac{1}{n}
$$
であれば、
$$
\begin{align}
H(X)
&=
-\sum_{i=1}^{n}\frac{1}{n}\log\frac{1}{n}
\\
&=
-\sum_{i=1}^{n}\frac{1}{n}(-\log n)
\\
&=
\log n
\end{align}
$$
である。
したがって、$H(X)=\log n$ が成り立つための必要十分条件は、$X$ が $\mathcal X$ 上の一様分布に従うことである。
最大エントロピー原理との関係
この命題は、最大エントロピー原理の最も基本的な場合である。
最大エントロピー原理とは、与えられた制約を満たす確率分布の中で、エントロピーを最大にする分布を選ぶという考え方である。
ここで考えている制約は、次の $2$ つだけである。
- 確率変数 $X$ の値集合が
$$
\mathcal X=\{x_1,\ldots,x_n\}
$$
で与えられている。
$ $ - 確率質量関数は
$$
p_i\ge0,
\qquad
\sum_{i=1}^n p_i=1
$$
を満たす。
-この制約のもとで、シャノン・エントロピー
$$
H(X)
=
-\sum_{i=1}^n p_i\log p_i
$$
を最大にする分布は、一様分布
$$
p_i=\frac{1}{n}
\qquad
(i=1,\ldots,n)
$$
である。そのとき、
$$
\begin{align}
H(X)
&=
-\sum_{i=1}^n \frac{1}{n}\log\frac{1}{n}
\\
&=
-\sum_{i=1}^n \frac{1}{n}(-\log n)
\\
&=
\sum_{i=1}^n \frac{1}{n}\log n
\\
&=
\log n
\end{align}
$$
である。したがって、
$$
H(X)\le\log n
$$
という命題は、値集合が $n$ 個の元からなり、それ以外に追加制約がない場合には、一様分布が最も不確実な分布であることを表している。
この意味で、この命題は最大エントロピー原理と直接関係している。
$ $
【注意】
ただし、最大エントロピー原理はこの命題だけを指すわけではない。
たとえば、平均値や分散などの追加制約がある場合には、その制約を満たす確率分布の中でエントロピーを最大化する分布を考える。
つまり、この命題は、追加制約がなく、値集合の大きさだけが決まっている場合の最大エントロピー原理である。