大学数学基礎解説

文献あり

【情報理論】ギブス不等式の証明と最大エントロピー原理の初歩

統計,確率,データサイエンス

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

Def.

シャノン・エントロピー【平均自己情報量】

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

$N\geq1$ とし、$\mathcal X$ を有限集合
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
とする。
$\mathcal X$ には $\mathcal P(\mathcal X)$ を入れ、$X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X))$ を可測写像とする。
すなわち、$X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
各 $x\in\mathcal X$ に対して、$X$ の確率質量関数を
$$ p_X(x):=\mathbb P(X=x) $$
で定める。ただし、
$$ \{X=x\}:=\{\omega\in\Omega\mid X(\omega)=x\} $$
である。
$S_X:=\{x\in\mathcal X\mid p_X(x)>0\}$ とおく。$X$ の自己情報量確率変数 $I_X:\Omega\to[0,\infty)$ を
$$ I_X(\omega) := \begin{cases} -\log_b p_X(X(\omega)), & X(\omega)\in S_X,\\ 0, & X(\omega)\notin S_X \end{cases} $$
で定める。

-このとき、$X$ の底 $b$ に関するシャノン・エントロピーを、自己情報量確率変数 $I_X$ の期待値として
$$ H_b(X):=\mathbb E[I_X] $$
で定義する。

和による表示

自己情報量 $I_X$ は、各 $\omega\in\Omega$ に対して
$$ I_X(\omega) = \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) $$
と書ける。実際、$X(\omega)\in S_X$ のとき、ただ $1$ つの $x\in S_X$ について $X(\omega)=x$ となるため、
指示関数の定義より
$$ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) = -\log_b p_X(X(\omega)) $$
である。また、$X(\omega)\notin S_X$ のとき、すべての $x\in S_X$ について $X(\omega)\ne x$ であるから、
指示関数の定義から
$$ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) = 0 $$
である。したがって、
$$ I_X = \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}} $$
である。よって、期待値の線形性より、
$$ \begin{align} H_b(X) &= \mathbb E[I_X] \\ &= \mathbb E\left[ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}} \right] \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) \mathbb E[1_{\{X=x\}}] \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) \mathbb P(X=x) \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) p_X(x) \\ &= -\sum_{x\in S_X} p_X(x)\log_b p_X(x) \end{align} $$
である( 指示関数の期待値の証明はコチラ )。
なお、$S_X$ は有限集合であり、各 $x\in S_X$ について $p_X(x)>0$ であるから、
$I_X$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_X$ の期待値はよく定義される。

$0\log_b0$ について

本定義では、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
であり、$S_X=\{x\in\mathcal X\mid p_X(x)>0\}$ であるため、$p_X(x)=0$ である値 $x$ は初めから和に含まれない。
したがって、この表示では $0\log_b0$ を定義する必要はない。
$ $
一方で、関数 $\varphi:[0,1]\to[0,\infty)$ を
$$ \varphi(t) := \begin{cases} -t\log_b t, & t>0,\\ 0, & t=0 \end{cases} $$
で定めれば、
$$ H_b(X) = \sum_{i=1}^{N}\varphi(p_X(x_i)) $$
と書ける。これを慣用的に
$$ H_b(X) = -\sum_{i=1}^{N}p_X(x_i)\log_b p_X(x_i) $$
と書く。この表示では、$p_X(x_i)=0$ の項を
$$ 0\log_b0=0 $$
と約束して $0$ とみなしている。
この約束は、次の極限に基づく。
$$ \lim_{t\downarrow0}t\log_b t=0 $$
すなわち、$0\log_b0=0$ は、$S_X$ 上の厳密な和表示を、有限集合全体 $\mathcal X$ 上の和表示として書くための慣用的な約束である。

$H_b(X)=\mathbb E[-\log_b p_X(X)]$ について

同様に、期待値表示についても注意が必要である。
関数 $g:\mathcal X\to[0,\infty)$ を
$$ g(x) := \begin{cases} -\log_b p_X(x), & x\in S_X,\\ 0, & x\notin S_X \end{cases} $$
で定める。このとき、
$$ I_X=g\circ X $$
であるから、
$$ H_b(X) = \mathbb E[g(X)] $$
である。
ここで、$g(X)$ は $p_X(X)=0$ となる点でも値が $0$ と定められているため、全ての $\omega\in\Omega$ で定義されている。
一方、
$$ -\log_b p_X(X) $$
という式は、$p_X(X(\omega))=0$ となる $\omega$ ではそのままでは定義されない。
したがって、
$$ H_b(X) = \mathbb E[-\log_b p_X(X)] $$
という表示は、$p_X(X)=0$ となる点で値を $0$ と補っていると理解したうえでの慣用的な表示である。

エントロピーの意味

シャノン・エントロピーは、個々の事象そのものではなく、確率変数 $X$ の値の分布全体の不確実性を測る量である。
$X$ の値がある $1$ 点に確率 $1$ で集中している場合、不確実性は最小であり、
$$ H_b(X)=0 $$
である。
一方、$X$ が有限集合
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
上の一様分布に従う場合、すなわち任意の $i=1,\ldots,N$ に対して
$$ p_X(x_i)=\frac{1}{N} $$
である場合、
$$ H_b(X)=\log_b N $$
である(最後に示す)。

対数の底と単位

対数の底 $b$ はエントロピーの単位を決める。
$b=2$ のとき、単位は bit である。
$b=e$ のとき、単位は nat である。
特に断らない場合は、自然対数を用いて
$$ H(X):=H_e(X) $$
と書く。

Prop&Proof

$-\log x$ の狭義凸性

関数 $g:(0,\infty)\to\mathbb R$ を
$$ g(x):=-\log x $$
で定める。ただし、$\log$ は自然対数である。このとき、$g$ は $(0,\infty)$ 上で狭義凸である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$ -\log(tx+(1-t)y) \le -\{t\log x+(1-t)\log y\} $$
が成り立つ。
さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$ -\log(tx+(1-t)y) < -\{t\log x+(1-t)\log y\} $$
が成り立つ。

任意の $x\in(0,\infty)$ に対して、
$$ g(x)=-\log x $$
である。

まず、$g$ の導関数を計算する。
$$ g'(x)=-\frac{1}{x} $$
である。さらに、
$$ g''(x)=\frac{1}{x^2} $$
である。
ここで、任意の $x\in(0,\infty)$ に対して、
$$ x^2>0 $$
であるから、
$$ \frac{1}{x^2}>0 $$
である。したがって、
$$ g''(x)>0 \qquad (x\in(0,\infty)) $$
が成り立つ。
よって、第 $2$ 導関数による狭義凸性の判定より、$g$ は $(0,\infty)$ 上で狭義凸である( 証明はコチラ )。
$ $
次に、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ を取る。このとき、
$$ tx+(1-t)y>0 $$
であるから、$g(tx+(1-t)y)$ は定義される。
$g$ は狭義凸であるから、特に凸である。したがって、
$$ g(tx+(1-t)y) \le t g(x)+(1-t)g(y) $$
が成り立つ。
$g(x)=-\log x$ であるから、
$$ g(tx+(1-t)y) = -\log(tx+(1-t)y) $$
であり、
$$ t g(x)+(1-t)g(y) = -t\log x-(1-t)\log y = -\{t\log x+(1-t)\log y\} $$
である。
したがって、
$$ -\log(tx+(1-t)y) \le -\{t\log x+(1-t)\log y\} $$
が成り立つ。
$ $
さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、狭義凸性より
$$ g(tx+(1-t)y) < t g(x)+(1-t)g(y) $$
が成り立つ。
よって、
$$ -\log(tx+(1-t)y) < -\{t\log x+(1-t)\log y\} $$
が成り立つ。

-以上より、$-\log x$ は $(0,\infty)$ 上で狭義凸である。
$$ \Box$$

$\log$ の凹性について

以上より、関数
$$ g:(0,\infty)\to\mathbb R,\qquad g(x):=-\log x $$
は $(0,\infty)$ 上で狭義凸である。
ここで、関数
$$ f:(0,\infty)\to\mathbb R,\qquad f(x):=\log x $$
を考える。このとき、任意の $x\in(0,\infty)$ に対して
$$ g(x)=-f(x) $$
である。すなわち、
$$ g=-f $$
である。
$ $
したがって、既に示した「凹関数と凸関数の関係」( 証明はコチラ )より、
$-f=g$ が凸関数であることから、$f$ は $(0,\infty)$ 上で凹関数である。
すなわち、
$$ \log x $$
は $(0,\infty)$ 上で凹関数である。
$ $
さらに、$-\log x$ が狭義凸であることから、$\log x$ は $(0,\infty)$ 上で狭義凹関数である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$ \log(tx+(1-t)y) \geq t\log x+(1-t)\log y $$
が成り立つ。さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$ \log(tx+(1-t)y) > t\log x+(1-t)\log y $$
が成り立つ。

シャノン・エントロピーの非負性

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。$N\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
このとき、
$$ H_b(X)\geq0 $$
である。

シャノン・エントロピーの和による表示より、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
である(定義：シャノン・エントロピーの注記を参照)。
$ $
任意に $x\in S_X$ を取る。$S_X$ の定義より、
$$ p_X(x)>0 $$
である。また、$p_X(x)$ は確率であるから、
$$ p_X(x)\leq1 $$
である。したがって、
$$ 0< p_X(x)\leq1 $$
である。
$ $
底 $b>1$ であるから、対数関数 $\log_b$ は単調増加である。
よって、
$$ \log_b p_X(x)\leq\log_b1=0 $$
である。したがって、
$$ p_X(x)\log_b p_X(x)\leq0 $$
であり、
$$ -p_X(x)\log_b p_X(x)\geq0 $$
である。
以上より、任意の $x\in S_X$ に対して
$$ -p_X(x)\log_b p_X(x)\geq0 $$
である。

-したがって、$H_b(X)$ は非負項の有限和であるから、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \geq0 $$
である。
$$ \Box$$

等号成立条件

命題において、等号
$$ H_b(X)=0 $$
が成り立つための必要十分条件は、ある $k\in\{1,\ldots,N\}$ が存在して
$$ p_X(x_k)=1 $$
かつ、任意の $i\neq k$ に対して
$$ p_X(x_i)=0 $$
となることである。

実際、まず、ある $k\in\{1,\ldots,N\}$ が存在して
$$ p_X(x_k)=1 $$
かつ、任意の $i\neq k$ に対して
$$ p_X(x_i)=0 $$
であるとする。このとき、
$$ S_X=\{x_k\} $$
であるから、
$$ \begin{align} H_b(X) &= -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \\ &= -p_X(x_k)\log_b p_X(x_k) \\ &= -1\cdot\log_b1 \\ &= 0 \end{align} $$
である。
$ $
逆に、
$$ H_b(X)=0 $$
であるとする。
上の証明より、任意の $x\in S_X$ に対して
$$ -p_X(x)\log_b p_X(x)\geq0 $$
である。また、
$$ H_b(X) = \sum_{x\in S_X}\left(-p_X(x)\log_b p_X(x)\right) = 0 $$
であるから、非負項の有限和が $0$ であることより、任意の $x\in S_X$ に対して
$$ -p_X(x)\log_b p_X(x)=0 $$
である。ここで、$x\in S_X$ であるから
$$ p_X(x)>0 $$
である。また、$p_X(x)$ は確率であるから
$$ p_X(x)\leq1 $$
である。したがって、
$$ 0< p_X(x)\leq1 $$
である。ゆえに、
$$ 0< p_X(x)<1 \quad\text{または}\quad p_X(x)=1 $$
のいずれかが成り立つ。
もし
$$ 0< p_X(x)<1 $$
ならば、
$$ \log_b p_X(x)<0 $$
であるから、
$$ -p_X(x)\log_b p_X(x)>0 $$
となる。これは
$$ -p_X(x)\log_b p_X(x)=0 $$
に反する。したがって、任意の $x\in S_X$ に対して
$$ p_X(x)=1 $$
である。一方、
$$ \sum_{i=1}^{N}p_X(x_i)=1 $$
であるから、$p_X(x)=1$ となる $x\in S_X$ はただ $1$ つである。

-よって、ある $k\in\{1,\ldots,N\}$ が存在して
$$ p_X(x_k)=1 $$
かつ、任意の $i\neq k$ に対して
$$ p_X(x_i)=0 $$
となる。以上より、等号成立条件が示された。

シャノン・エントロピーの底変換公式

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。$N\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$a>1,\ b>1$ とする。このとき、
$$ H_b(X)=\log_b a\cdot H_a(X) $$
が成り立つ。

シャノン・エントロピーの和による表示より、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
である(定義：シャノン・エントロピーの注記を参照)。
$ $
任意の $x\in S_X$ に対して、
$$ p_X(x)>0 $$
であるから、$\log_b p_X(x)$ と $\log_a p_X(x)$ は定義される。
対数の底変換公式より、
$$ \log_b p_X(x) = \log_b a\cdot \log_a p_X(x) $$
である。
$ $
したがって、
$$ \begin{align} H_b(X) &= -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \\ &= -\sum_{x\in S_X}p_X(x)\left(\log_b a\cdot \log_a p_X(x)\right) \\ &= \log_b a\left(-\sum_{x\in S_X}p_X(x)\log_a p_X(x)\right) \\ &= \log_b a\cdot H_a(X) \end{align} $$
である。

-以上より、
$$ H_b(X)=\log_b a\cdot H_a(X) $$
が成り立つ。
$$ \Box$$

シャノン・エントロピーの凹性

$n\geq1$ とし、$p=(p_1,\ldots,p_n)$ と $q=(q_1,\ldots,q_n)$ を $\{1,\ldots,n\}$ 上の確率分布とする(補足を参照)。また、$\lambda\in[0,1]$ とする。
関数 $\varphi:[0,1]\to\mathbb R$ を
$$ \varphi(t) := \begin{cases} -t\log t, & t>0,\\ 0, & t=0 \end{cases} $$
で定める。ただし、$\log$ は自然対数である。確率分布 $r=(r_1,\ldots,r_n)$ に対して
$$ H(r):=\sum_{i=1}^{n}\varphi(r_i) $$
と定める。このとき、
$$ H(\lambda p+(1-\lambda)q) \geq \lambda H(p)+(1-\lambda)H(q) $$
が成り立つ。

まず、$\lambda p+(1-\lambda)q$ が確率分布であることを確認する。
任意の $i=1,\ldots,n$ に対して、$p_i\geq0,\ q_i\geq0$ であり、$\lambda\in[0,1]$ であるから、
$$ \lambda p_i+(1-\lambda)q_i\geq0 $$
である。また、
$$ \begin{align} \sum_{i=1}^{n}\left(\lambda p_i+(1-\lambda)q_i\right) &= \lambda\sum_{i=1}^{n}p_i + (1-\lambda)\sum_{i=1}^{n}q_i \\ &= \lambda\cdot1+(1-\lambda)\cdot1 \\ &= 1 \end{align} $$
である。したがって、$\lambda p+(1-\lambda)q$ は $\{1,\ldots,n\}$ 上の確率分布である。
$ $
次に、$\varphi$ が $[0,1]$ 上で凹であることを示す。
$t\in(0,1)$ に対して、
$$ \varphi(t)=-t\log t $$
である。したがって、積の微分公式と $\log t$ の微分公式より
$$ \begin{align} \varphi'(t) &= -\frac{d}{dt}(t\log t) \\ &= -\left(1\cdot\log t+t\cdot\frac{1}{t}\right) \\ &= -(\log t+1) \\ &= -\log t-1 \end{align} $$
であり、
$$ \begin{align} \varphi''(t) &= \frac{d}{dt}(-\log t-1) \\ &= -\frac{d}{dt}(\log t)-\frac{d}{dt}(1) \\ &= -\frac{1}{t}-0 \\ &= -\frac{1}{t} \end{align} $$
である。よって、任意の $t\in(0,1)$ に対して
$$ \varphi''(t)<0 $$
である。したがって、$\varphi$ は $(0,1)$ 上で狭義凹であり、特に $(0,1)$ 上で凹である( 証明はコチラ )。
また、$t\mapsto -t\log t$ は $(0,1]$ 上で連続であり、
$$ \varphi(1)=-1\log1=0 $$
である。さらに、
$$ \lim_{t\downarrow0}(-t\log t)=0 $$
である(補足を参照)から、$\varphi(0)=0$ と定めた $\varphi$ は $[0,1]$ 上で連続である。
$ $
端点を含む場合を確認する(ここは冗長なので読み飛ばしても良い...)。
任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi(\theta u+(1-\theta)v) \geq \theta\varphi(u)+(1-\theta)\varphi(v) $$
が成り立つことを示す。
$ $
■ $\theta=0$ または $\theta=1$ の場合を確認する。
　　任意の $u,v\in[0,1]$ を取る。
　　i) $\theta=0$ の場合。
　　このとき、
$$ \theta u+(1-\theta)v = 0\cdot u+(1-0)v = v $$
　　である。したがって、
$$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(v) \\ &= 0\cdot\varphi(u)+1\cdot\varphi(v) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
　　である。ゆえに、
$$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
　　が成り立つ。
$ $
　　ii) $\theta=1$ の場合。
　　このとき、
$$ \theta u+(1-\theta)v = 1\cdot u+(1-1)v = u $$
　　である。したがって、
$$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(u) \\ &= 1\cdot\varphi(u)+0\cdot\varphi(v) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
　　である。ゆえに、
$$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
　　が成り立つ。以上より、$\theta=0$ または $\theta=1$ の場合は、凹性の不等式が等号として成り立つ。
$ $
■ $u=v$ の場合を確認する。
　　任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ を取る。
　　$u=v$ とする。このとき、
$$ \theta u+(1-\theta)v = \theta u+(1-\theta)u = (\theta+1-\theta)u = u $$
　　である。したがって、
$$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(u) \\ &= (\theta+1-\theta)\varphi(u) \\ &= \theta\varphi(u)+(1-\theta)\varphi(u) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
　　である。ゆえに、
$$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
　　が成り立つ。
　　以上より、$u=v$ の場合は、凹性の不等式が等号として成り立つ。
$ $
よって、以下では $0<\theta<1$ かつ $u\ne v$ とする。必要なら $u$ と $v$ を入れ替えることにより、
$$ 0\leq v< u\leq1 $$
としてよい(補足を参照)。ただし、$u$ と $v$ を入れ替える場合には、同時に $\theta$ を $1-\theta$ に置き換える。
$ $
i)　$0< v< u<1$ の場合。
　　この場合、$u,v\in(0,1)$ であるから、$(0,1)$ 上の狭義凹性より、
$$ \varphi(\theta u+(1-\theta)v) > \theta\varphi(u)+(1-\theta)\varphi(v) $$
　　が成り立つ。
$ $
ii) $v=0,\ 0< u\leq1$ の場合。
　　このとき、
$$ \begin{align} \varphi(\theta u+(1-\theta)0) &= \varphi(\theta u) \\ &= -\theta u\log(\theta u) \quad &&\because 0<\theta u\leq1\text{ かつ }\varphi(w)=-w\log w\ (w>0) \\ &= -\theta u(\log\theta+\log u) \quad &&\because \log(\theta u)=\log\theta+\log u \\ &= -\theta u\log u-\theta u\log\theta \quad &&\because \text{分配法則} \\ &= \theta\varphi(u)-\theta u\log\theta \quad &&\because \varphi(u)=-u\log u \end{align} $$
　　である。ここで、$0<\theta<1$ より $\log\theta<0$ であり、$u>0$ であるから、
$$ -\theta u\log\theta>0 $$
　　である。したがって、
$$ \varphi(\theta u+(1-\theta)0) > \theta\varphi(u) = \theta\varphi(u)+(1-\theta)\varphi(0) $$
　　である。
$ $
iii) $u=1,\ 0< v<1$ の場合。
　　関数 $\psi:[0,1]\to\mathbb R$ を
$$ \psi(\theta) := \varphi(\theta\cdot1+(1-\theta)v) - \theta\varphi(1) - (1-\theta)\varphi(v) $$
　　で定める。ここで、$0< v<1$ である。
　　・　まず、$\theta=0$ を代入すると、
$$ \begin{align} \psi(0) &= \varphi(0\cdot1+(1-0)v) - 0\cdot\varphi(1) - (1-0)\varphi(v) \\ &= \varphi(v)-\varphi(v) \\ &= 0 \end{align} $$
　　　　である。
　　・　次に、$\theta=1$ を代入すると、
$$ \begin{align} \psi(1) &= \varphi(1\cdot1+(1-1)v) - 1\cdot\varphi(1) - (1-1)\varphi(v) \\ &= \varphi(1)-\varphi(1) \\ &= 0 \end{align} $$
　　　　である。
　　したがって、
$$ \psi(0)=0,\qquad \psi(1)=0 $$
　　である。
$ $
　　・　また、$0<\theta<1$ のとき、
$$ \theta\cdot1+(1-\theta)v\in(v,1)\subset(0,1) $$
　　　　であるから、$\psi$ は $(0,1)$ 上で $2$ 回微分可能である。
　　　　ここで、$\varphi(1)=0$ であるから、
$$ \begin{align} \psi(\theta) &:= \varphi(\theta\cdot1+(1-\theta)v) - \theta\varphi(1) - (1-\theta)\varphi(v) \\ &= \varphi(\theta+(1-\theta)v) - (1-\theta)\varphi(v) \end{align} $$
　　　　である。ここで、
$$ h(\theta):=\theta+(1-\theta)v $$
　　　　とおくと、
$$ h'(\theta)=1-v $$
　　　　である。
　　　　したがって、合成関数の微分公式より、$0<\theta<1$ に対して
$$ \begin{align} \psi'(\theta) &= \frac{d}{d\theta} \left\{ \varphi(h(\theta)) - (1-\theta)\varphi(v) \right\} \\ &= \varphi'(h(\theta))h'(\theta) + \varphi(v) \\ &= (1-v)\varphi'(\theta+(1-\theta)v) + \varphi(v) \end{align} $$
　　　　である。さらに、もう一度微分すると、
$$ \begin{align} \psi''(\theta) &= \frac{d}{d\theta} \left\{ (1-v)\varphi'(\theta+(1-\theta)v) + \varphi(v) \right\} \\ &= (1-v)\frac{d}{d\theta} \varphi'(\theta+(1-\theta)v) + 0 \\ &= (1-v)\varphi''(\theta+(1-\theta)v)\frac{d}{d\theta}\{\theta+(1-\theta)v\} \\ &= (1-v)\varphi''(\theta+(1-\theta)v)(1-v) \\ &= (1-v)^2\varphi''(\theta+(1-\theta)v) \end{align} $$
　　　　である。したがって、
$$ \psi''(\theta) = (1-v)^2\varphi''(\theta+(1-\theta)v) $$
　　　　である。一方、すでに
$$ \varphi''(t)=-\frac{1}{t} \qquad (t\in(0,1)) $$
　　　　を示している。ここで、
$$ t=\theta+(1-\theta)v $$
　　　　とおく。$0< v<1$ かつ $0<\theta<1$ であるから、
$$ 0< v<\theta+(1-\theta)v<1 $$
　　　　である。したがって、
$$ \theta+(1-\theta)v\in(0,1) $$
　　　　である。ゆえに、
$$ \varphi''(\theta+(1-\theta)v) = -\frac{1}{\theta+(1-\theta)v} < 0 $$
　　　　である。また、$0< v<1$ であるから、
$$ 1-v>0 $$
　　　　であり、
$$ (1-v)^2>0 $$
　　　　である。したがって、
$$ \begin{align} \psi''(\theta) &= (1-v)^2\varphi''(\theta+(1-\theta)v) \\ &< 0 \end{align} $$
　　　　である。また、$\psi$ は $[0,1]$ 上で連続であり、$(0,1)$ 上で $2$ 回微分可能である。
　　　　したがって、第 $2$ 導関数による狭義凹性の判定より、$\psi$ は $[0,1]$ 上で狭義凹である( 証明はコチラ )。
　　　　特に、$0<\theta<1$ に対して、
$$ \psi(\theta) > \theta\psi(1)+(1-\theta)\psi(0) = 0 $$
　　　　である。すなわち、
$$ \varphi(\theta\cdot1+(1-\theta)v) > \theta\varphi(1)+(1-\theta)\varphi(v) $$
　　　　が成り立つ。
$ $
以上より、任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi(\theta u+(1-\theta)v) \geq \theta\varphi(u)+(1-\theta)\varphi(v) $$
が成り立つ。したがって、$\varphi$ は $[0,1]$ 上で凹である。
さらに、$u\ne v$ かつ $0<\theta<1$ のときは、上の各場合で狭義不等号が成り立つため、$\varphi$ は $[0,1]$ 上で狭義凹である。
(長すぎる...〇す気ですか( ﾟДﾟ)？)
$ $
各成分に凹性を適用する。
任意の $i=1,\ldots,n$ について、$p_i,q_i\in[0,1]$ である。
$\varphi$ は $[0,1]$ 上で凹であるから、
$$ \varphi(\lambda p_i+(1-\lambda)q_i) \geq \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) $$
が成り立つ。
$ $
両辺を $i=1,\ldots,n$ について足し合わせると、
$$ \begin{align} H(\lambda p+(1-\lambda)q) &= \sum_{i=1}^{n}\varphi(\lambda p_i+(1-\lambda)q_i) \\ &\geq \sum_{i=1}^{n} \left( \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) \right) \\ &= \lambda\sum_{i=1}^{n}\varphi(p_i) + (1-\lambda)\sum_{i=1}^{n}\varphi(q_i) \\ &= \lambda H(p)+(1-\lambda)H(q) \end{align} $$
である。

-以上より、
$$ H(\lambda p+(1-\lambda)q) \geq \lambda H(p)+(1-\lambda)H(q) $$
が成り立つ。
$$ \Box$$

ただし、$u$ と $v$ を入れ替える場合には、同時に $\theta$ を $1-\theta$ に置き換える。
実際、
$$ \theta u+(1-\theta)v = (1-\theta)v+\theta u $$
であり、また、
$$ \theta\varphi(u)+(1-\theta)\varphi(v) = (1-\theta)\varphi(v)+\theta\varphi(u) $$
である。
したがって、$u$ と $v$ の大小関係を入れ替えても、凹性の不等式の形は保たれる。

この命題の意味するところ

この命題は、混合分布のエントロピーが、各分布のエントロピーの加重平均以上になることを表している。
すなわち、分布を混合したときの不確実性は、混合前の不確実性の加重平均を下回らない。
特に、$0<\lambda<1$ かつ $p\neq q$ の場合には、混合分布のエントロピーは、各分布のエントロピーの加重平均より真に大きい。

$\{1,\ldots,n\}$ 上の確率分布の意味

$p=(p_1,\ldots,p_n)$ が $\{1,\ldots,n\}$ 上の確率分布であるとは、各 $i=1,\ldots,n$ に対して $p_i$ が番号 $i$ に対応する確率を表し、
$$ p_i\geq0 \qquad (i=1,\ldots,n) $$
かつ
$$ \sum_{i=1}^{n}p_i=1 $$
を満たすことをいう。
$ $
同様に、$q=(q_1,\ldots,q_n)$ が $\{1,\ldots,n\}$ 上の確率分布であるとは、
$$ q_i\geq0 \qquad (i=1,\ldots,n) $$
かつ
$$ \sum_{i=1}^{n}q_i=1 $$
を満たすことをいう。

-すなわち、$p$ と $q$ は、同じ有限集合 $\{1,\ldots,n\}$ 上に定められた $2$ つの確率分布である。

等号成立条件

$0<\lambda<1$ とする。このとき、等号
$$ H(\lambda p+(1-\lambda)q) = \lambda H(p)+(1-\lambda)H(q) $$
が成り立つための必要十分条件は、
$$ p=q $$
である。

まず、$p=q$ ならば、
$$ \lambda p+(1-\lambda)q=p $$
であるから、
$$ \begin{align} H(\lambda p+(1-\lambda)q) &= H(p) \\ &=H(p)+(\lambda H(p)-\lambda H(p)) \\ &= \lambda H(p)+(1-\lambda)H(p) \\ &= \lambda H(p)+(1-\lambda)H(q) \end{align} $$
である。
$ $
逆に、$p\neq q$ とする。このとき、ある $i\in\{1,\ldots,n\}$ が存在して
$$ p_i\neq q_i $$
である。
$\varphi$ は $[0,1]$ 上で狭義凹であり、$0<\lambda<1$ であるから、
$$ \varphi(\lambda p_i+(1-\lambda)q_i) > \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) $$
が成り立つ。
また、任意の $j\neq i$ に対しても、$\varphi$ の凹性より
$$ \varphi(\lambda p_j+(1-\lambda)q_j) \geq \lambda\varphi(p_j)+(1-\lambda)\varphi(q_j) $$
が成り立つ。
したがって、全ての成分について和を取ると、
$$ H(\lambda p+(1-\lambda)q) > \lambda H(p)+(1-\lambda)H(q) $$
である。

-よって、等号が成り立つならば
$$ p=q $$
でなければならない。
なお、$\lambda=0$ または $\lambda=1$ の場合は、$p$ と $q$ が異なっていても等号が成り立つ。

$\lim_{t\downarrow0}(-t\log t)=0$ の証明

$t>0$ において、
$$ -t\log t = -\frac{\log t}{1/t} $$
と書ける。
$t\downarrow0$ のとき、
$$ \log t\to-\infty \quad\text{かつ}\quad \frac{1}{t}\to\infty $$
であるから、
$$ \frac{\log t}{1/t} $$
は不定形($t\downarrow0$ で分子が $-\infty$、分母が $+\infty$ となる $\frac{-\infty}{+\infty}$ 型)である。そこで、ロピタルの定理を用いると、
$$ \begin{align} \lim_{t\downarrow0}\frac{\log t}{1/t} &= \lim_{t\downarrow0} \frac{\frac{d}{dt}\log t}{\frac{d}{dt}(1/t)} \\ &= \lim_{t\downarrow0} \frac{1/t}{-1/t^2} \\ &= \lim_{t\downarrow0}(-t) \\ &= 0 \end{align} $$
である。したがって、
$$ \begin{align} \lim_{t\downarrow0}(-t\log t) &= -\lim_{t\downarrow0}\frac{\log t}{1/t} \\ &= -0 \\ &= 0 \end{align} $$
である。
このため、関数 $t\mapsto -t\log t$ は、$t=0$ における値を $0$ と定めることで、$[0,1]$ 上の連続関数として扱える。

対数関数の基本不等式【補題】

任意の $x>0$ に対して、
$$ \ln x\leq x-1 $$
が成り立つ。
また、等号が成り立つのは
$$ x=1 $$
の場合に限る。

関数 $f:(0,\infty)\to\mathbb R$ を
$$ f(x):=\ln x-(x-1) $$
で定める。このとき、任意の $x>0$ に対して
$$ \begin{align} f'(x) &= \frac{d}{dx}\{\ln x-(x-1)\} \\ &= \frac{1}{x}-1 \end{align} $$
である。

$0< x<1$ の場合を考える。
区間 $[x,1]$ に平均値の定理を適用する。
$f$ は $[x,1]$ 上で連続であり、$(x,1)$ 上で微分可能であるから、ある $c\in(x,1)$ が存在して
$$ \frac{f(1)-f(x)}{1-x} = f'(c) $$
が成り立つ。
ここで、$0< c<1$ であるから、
$$ f'(c)=\frac{1}{c}-1>0 $$
である。また、$0< x<1$ より $1-x>0$ であるから、
$$ f(1)-f(x) = f'(c)(1-x)>0 $$
である。したがって、
$$ f(x)< f(1) $$
である。
$ $
$x>1$ の場合を考える。
区間 $[1,x]$ に平均値の定理を適用する。
$f$ は $[1,x]$ 上で連続であり、$(1,x)$ 上で微分可能であるから、ある $c\in(1,x)$ が存在して
$$ \frac{f(x)-f(1)}{x-1} = f'(c) $$
が成り立つ。
ここで、$c>1$ であるから、
$$ f'(c)=\frac{1}{c}-1<0 $$
である。また、$x>1$ より $x-1>0$ であるから、
$$ f(x)-f(1) = f'(c)(x-1)<0 $$
である。したがって、
$$ f(x)< f(1) $$
である。
$ $
$x=1$ の場合を考える。
$$ \begin{align} f(1) &= \ln 1-(1-1) \\ &= 0 \end{align} $$
である。

-以上より、任意の $x>0$ に対して
$$ f(x)\leq f(1)=0 $$
である。したがって、
$$ \ln x-(x-1)\leq0 $$
であり、
$$ \ln x\leq x-1 $$
が成り立つ。
また、$x\neq1$ のときは
$$ f(x)< f(1)=0 $$
であるから、
$$ \ln x< x-1 $$
である。したがって、等号が成り立つのは $x=1$ の場合に限る。
$$ \Box$$

ギブスの不等式

$\log$ を自然対数とする。
$n\geq1$ とし、$p=(p_1,\ldots,p_n)$ と $q=(q_1,\ldots,q_n)$ を $\{1,\ldots,n\}$ 上の確率分布とする。
すなわち、任意の $i=1,\ldots,n$ に対して
$$ p_i\geq0,\quad q_i\geq0 $$
であり、
$$ \sum_{i=1}^{n}p_i=1,\quad \sum_{i=1}^{n}q_i=1 $$
である。さらに、任意の $i=1,\ldots,n$ に対して
$$ p_i>0\Rightarrow q_i>0 $$
を仮定する。このとき、
$$ -\sum_{\{i\mid p_i>0\}}p_i\log p_i \leq -\sum_{\{i\mid p_i>0\}}p_i\log q_i $$
が成り立つ。

$S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\}$ とおく。任意の $i\in S_p$ に対して、仮定より
$$ p_i>0,\quad q_i>0 $$
である。したがって、
$$ \frac{q_i}{p_i}>0 $$
である。対数関数の不等式(直前に示した補題)より
$$ \log x\leq x-1\quad(x>0) $$
を
$$ x=\frac{q_i}{p_i} $$
に適用すると、
$$ \log\frac{q_i}{p_i} \leq \frac{q_i}{p_i}-1 $$
である。両辺に $p_i>0$ をかけると、
$$ p_i\log\frac{q_i}{p_i} \leq q_i-p_i $$
である。
したがって、$i\in S_p$ について和を取ると、
$$ \begin{align} \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} &\leq \sum_{i\in S_p}(q_i-p_i) \\ &= \sum_{i\in S_p}q_i-\sum_{i\in S_p}p_i \\ &= \sum_{i\in S_p}q_i-1 \quad \because \sum_{i\in S_p}p_i=\sum_{i=1}^{n}p_i=1 \\ &\leq 0 \quad \because \sum_{i\in S_p}q_i\leq\sum_{i=1}^{n}q_i=1 \end{align} $$
である。一方、
$$ \begin{align} \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} &= \sum_{i\in S_p}p_i(\log q_i-\log p_i) \quad \because \log\frac{q_i}{p_i}=\log q_i-\log p_i \\ &= \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \end{align} $$
である。よって、
$$ \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \leq0 $$
である。したがって、
$$ -\sum_{i\in S_p}p_i\log p_i \leq -\sum_{i\in S_p}p_i\log q_i $$
が成り立つ。
$$ \Box$$

$q_i=0$ かつ $p_i>0$ の場合

もし、ある $i$ について
$$ p_i>0,\quad q_i=0 $$
であれば、
$$ -p_i\log q_i $$
は拡張実数値の意味で $+\infty$ と解釈される。
この場合、$p_i=0$ の項は $0$ とみなすという約束のもとで、
$$ -\sum_{i=1}^{n}p_i\log q_i = +\infty $$
となる。したがって、不等式自体は
$$ H(p)\leq+\infty $$
として成り立つ。
しかし、この場合、右辺は有限の実数値ではないため、上の証明で用いたような実数値の範囲での式変形はできない。
そのため、有限値の範囲でギブスの不等式を証明する場合には、
$$ p_i>0\Rightarrow q_i>0 $$
を仮定するのが自然である。
これは、$p$ が正の確率を与える点では、$q$ も正の確率を与えることを要求している。

等号成立条件

等号が成り立つための必要十分条件は、
$$ p=q $$
である。

まず、$p=q$ ならば、任意の $i=1,\ldots,n$ に対して $p_i=q_i$ であるから、
$$ -\sum_{i\in S_p}p_i\log p_i = -\sum_{i\in S_p}p_i\log q_i $$
である。したがって、等号が成り立つ。
$ $
逆に、等号が成り立つとする。
i)　このとき、
$$ -\sum_{i\in S_p}p_i\log p_i = -\sum_{i\in S_p}p_i\log q_i $$
　　であるから、両辺に $-1$ をかけて、
$$ \sum_{i\in S_p}p_i\log p_i = \sum_{i\in S_p}p_i\log q_i $$
　　を得る。したがって、
$$ \begin{align} 0 &= \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \\ &= \sum_{i\in S_p} \left( p_i\log q_i-p_i\log p_i \right) \\ &= \sum_{i\in S_p} p_i(\log q_i-\log p_i) \\ &= \sum_{i\in S_p} p_i\log\frac{q_i}{p_i} \quad \because i\in S_p\text{ では }p_i>0,q_i>0\text{ である} \end{align} $$
　　である。ゆえに、
$$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0 $$
　　である。
$ $
ii)　一方、証明中で得た不等式より、
$$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} \leq \sum_{i\in S_p}(q_i-p_i) \leq 0 $$
　　である。いま、
$$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0 $$
　　であるから、
$$ 0 \leq \sum_{i\in S_p}(q_i-p_i) \leq 0 $$
　　である。したがって、
$$ \sum_{i\in S_p}(q_i-p_i)=0 $$
　　である。よって、
$$ \begin{align} 0 &= \sum_{i\in S_p}(q_i-p_i) - \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} \\ &= \sum_{i\in S_p} \left\{ (q_i-p_i) - p_i\log\frac{q_i}{p_i} \right\} \end{align} $$
　　である。
　　ここで、任意の $i\in S_p$ に対して、対数関数の不等式(直前に示した補題)より
$$ p_i\log\frac{q_i}{p_i} \leq q_i-p_i $$
　　であるから、
$$ (q_i-p_i)-p_i\log\frac{q_i}{p_i}\geq0 $$
　　であり、かつ、この左辺の非負項の有限和が $0$ であることより、
　　任意の $i\in S_p$ に対して
$$ (q_i-p_i)-p_i\log\frac{q_i}{p_i}=0 $$
　　である。ゆえに、
$$ p_i\log\frac{q_i}{p_i} = q_i-p_i $$
　　である。
　　ここで $i\in S_p$ であるから $p_i>0$ である。よって両辺を $p_i$ で割ると、
$$ \log\frac{q_i}{p_i} = \frac{q_i}{p_i}-1 $$
　　である。改めて対数関数の基本不等式
$$ \log x\leq x-1 $$
　　の等号成立条件は $x=1$ であるから、
$$ \frac{q_i}{p_i}=1 $$
　　である。したがって、任意の $i\in S_p$ に対して
$$ q_i=p_i $$
　　である。
$ $
iii)　また、
$$ \sum_{i\in S_p}(q_i-p_i)=0 $$
　　であり、
$$ \sum_{i\in S_p}p_i=1 $$
　　であるから、
$$ \sum_{i\in S_p}q_i=1 $$
　　である。一方で、
$$ \sum_{i=1}^{n}q_i=1 $$
　　であり、各 $q_i$ は非負である。したがって、任意の $i\notin S_p$ に対して
$$ q_i=0 $$
　　である。また、$i\notin S_p$ ならば $p_i=0$ である。
$ $
以上より、任意の $i=1,\ldots,n$ に対して
$$ p_i=q_i $$
である。すなわち、
$$ p=q $$
である。

-以上より、等号成立条件は $p=q$ である。

シャノン・エントロピーの最大値

$\log$ を自然対数とする。$n\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_n\} $$
を有限集合とする。$X$ を $\mathcal X$ に値をもつ離散確率変数とし、
$$ p_i:=\mathbb P(X=x_i) $$
とおく。また、$0\log0=0$ と約束して、
$$ H(X):=-\sum_{i=1}^{n}p_i\log p_i $$
と定める。このとき、
$$ H(X)\leq\log n $$
が成り立つ。

証明の前に

ここで、$0\log0=0$ と約束しているため、
$$ -\sum_{i=1}^{n}p_i\log p_i = -\sum_{\{i\mid p_i>0\}}p_i\log p_i $$
である。
また、証明のなかで $q_i=\frac{1}{n}>0$ と定めるため、$p_i=0$ の項は
$$ -p_i\log q_i=0 $$
となる。

-したがって、
$$ -\sum_{i=1}^{n}p_i\log q_i = -\sum_{\{i\mid p_i>0\}}p_i\log q_i $$
である。

(既に示した)ギブスの不等式より、
任意の確率分布 $p=(p_1,\ldots,p_n)$ と、任意の確率分布 $q=(q_1,\ldots,q_n)$ で、$p_i>0\Rightarrow q_i>0$ を満たすものに対して、
$$ -\sum_{i=1}^{n}p_i\log p_i \leq -\sum_{i=1}^{n}p_i\log q_i $$
が成り立つ。ここで、
$$ q_i:=\frac{1}{n} \qquad (i=1,\ldots,n) $$
とおく。このとき、定義より $q=(q_1,\ldots,q_n)$ は一様分布であり、任意の $i$ に対して $q_i>0$ である。
したがって、ギブスの不等式を適用すると、
$$ -\sum_{i=1}^{n}p_i\log p_i \leq -\sum_{i=1}^{n}p_i\log\frac{1}{n} $$
である。
右辺を計算すると、
$$ \begin{align} -\sum_{i=1}^{n}p_i\log\frac{1}{n} &= -\sum_{i=1}^{n}p_i(-\log n) \quad \because \log\frac{1}{n}=-\log n \\ &= \sum_{i=1}^{n}p_i\log n \\ &= \log n\sum_{i=1}^{n}p_i \quad \because \log n \text{ は } i \text{ に依存しない定数である} \\ &= \log n \quad \because \sum_{i=1}^{n}p_i=1 \end{align} $$
である。よって、
$$ H(X) = -\sum_{i=1}^{n}p_i\log p_i \leq \log n $$
が成り立つ。
$$ \Box$$

等号成立条件

等号
$$ H(X)=\log n $$
が成り立つための必要十分条件は、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
となることである。
実際、上の証明で用いたギブスの不等式の等号成立条件より、等号が成り立つための必要十分条件は
$$ p_i=q_i \qquad (i=1,\ldots,n) $$
である。ここで、
$$ q_i=\frac{1}{n} $$
であるから、等号成立条件は
$$ p_i=\frac{1}{n} \qquad (i=1,\ldots,n) $$
である。
すなわち、$X$ が $\mathcal X$ 上の一様分布に従う場合、かつその場合に限り、
$$ H(X)=\log n $$
が成り立つ。

以上の証明から、離散確率変数 $X$ のエントロピー $H(X)$ は $\log n$ を上限とし、
この上限に達するのは $X$ が $\{x_1,\ldots,x_n\}$ 上の一様分布に従う場合に限ることが示された。
この結果は情報理論の基本的な結果であり、様々な応用において重要な役割を果たす。
$ $
この定理は、確率質量がもっとも均等に分布している状態、すなわち一様分布において、
不確実性が最大になるという直感的な理解とも一致している。

イェンゼンの不等式による別証明

エントロピーの上限
$$ H(X)\leq\log n $$
は、イェンゼンの不等式を用いて示すこともできる。
$$ S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\} $$
とおく。このとき、
$$ \sum_{i\in S_p}p_i=1 $$
であり、任意の $i\in S_p$ に対して
$$ \frac{1}{p_i}>0 $$
である。
また、$\log$ は $(0,\infty)$ 上の凹関数(本記事で既に示した)であるから、
イェンゼンの不等式( 証明はコチラ )より、
$$ \sum_{i\in S_p}p_i\log\frac{1}{p_i} \leq \log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right) $$
が成り立つ。

左辺は
$$ \sum_{i\in S_p}p_i\log\frac{1}{p_i} = -\sum_{i\in S_p}p_i\log p_i = H(X) $$
である。ただし、$p_i=0$ の項は $0\log0=0$ として和に寄与しない。
右辺は
$$ \begin{align} \log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right) &= \log\left(\sum_{i\in S_p}1\right) \\ &= \log |S_p| \end{align} $$
である。

-したがって、
$$ H(X)\leq\log |S_p|\cdots① $$
である。さらに、定義より
$$ |S_p|\leq n $$
であり、$\log$ は単調増加であるから、
$$ \log |S_p|\leq\log n $$
である。よって、式①より
$$ H(X)\leq\log n $$
が成り立つ。
$ $
■　等号成立条件を考える。
　　$H(X)=\log n$ が成り立つためには、
$$ H(X)=\log |S_p| $$
　　かつ
$$ \log |S_p|=\log n $$
　　が必要である。
　　ここで、$\log$ は $(0,\infty)$ 上で狭義単調増加である。したがって、正の数 $a,b$ に対して
$$ \log a=\log b $$
　　ならば、
$$ a=b $$
　　である。いま、
$$ \log |S_p|=\log n $$
　　であり、$|S_p|>0$ かつ $n>0$ であるから、
$$ |S_p|=n $$
　　である。また、$S_p\subseteq\{1,\ldots,n\}$ であるから、$|S_p|=n$ ならば
$$ S_p=\{1,\ldots,n\} $$
　　である。
　　また、$\log$ は $(0,\infty)$ 上で狭義凹関数(本記事内で証明済み)であるから、
　　イェンゼンの不等式で等号が成り立つためには、
$$ \frac{1}{p_i} $$
　　が $i\in S_p$ によらず一定であることが必要十分である( 詳しくはコチラ )。
　　したがって、ある定数 $c>0$ が存在して、任意の $i\in S_p$ に対して
$$ \frac{1}{p_i}=c $$
　　である。ゆえに、任意の $i\in S_p$ に対して $p_i$ は同じ値である。
　　いま $S_p=\{1,\ldots,n\}$ であり、
$$ \sum_{i=1}^{n}p_i=1 $$
　　であるから、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
　　である。
　　逆に、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
　　であれば、
$$ \begin{align} H(X) &= -\sum_{i=1}^{n}\frac{1}{n}\log\frac{1}{n} \\ &= -\sum_{i=1}^{n}\frac{1}{n}(-\log n) \\ &= \log n \end{align} $$
　　である。
　　したがって、$H(X)=\log n$ が成り立つための必要十分条件は、$X$ が $\mathcal X$ 上の一様分布に従うことである。

最大エントロピー原理との関係

この命題は、最大エントロピー原理の最も基本的な場合である。
最大エントロピー原理とは、与えられた制約を満たす確率分布の中で、エントロピーを最大にする分布を選ぶという考え方である。
ここで考えている制約は、次の $2$ つだけである。

確率変数 $X$ の値集合が
$$ \mathcal X=\{x_1,\ldots,x_n\} $$
で与えられている。
$ $
確率質量関数は
$$ p_i\ge0, \qquad \sum_{i=1}^n p_i=1 $$
を満たす。

-この制約のもとで、シャノン・エントロピー
$$ H(X) = -\sum_{i=1}^n p_i\log p_i $$
を最大にする分布は、一様分布
$$ p_i=\frac{1}{n} \qquad (i=1,\ldots,n) $$
である。そのとき、
$$ \begin{align} H(X) &= -\sum_{i=1}^n \frac{1}{n}\log\frac{1}{n} \\ &= -\sum_{i=1}^n \frac{1}{n}(-\log n) \\ &= \sum_{i=1}^n \frac{1}{n}\log n \\ &= \log n \end{align} $$
である。したがって、
$$ H(X)\le\log n $$
という命題は、値集合が $n$ 個の元からなり、それ以外に追加制約がない場合には、一様分布が最も不確実な分布であることを表している。
この意味で、この命題は最大エントロピー原理と直接関係している。
$ $
【注意】
ただし、最大エントロピー原理はこの命題だけを指すわけではない。
たとえば、平均値や分散などの追加制約がある場合には、その制約を満たす確率分布の中でエントロピーを最大化する分布を考える。
つまり、この命題は、追加制約がなく、値集合の大きさだけが決まっている場合の最大エントロピー原理である。

参考文献

[1]

Electrical Engineering 229A Lecture 1 Notes, 閲覧日 2026年5月7日, https://pillowmath.github.io/EE%20229A/Lec1.pdf

[2]

Gibbs' inequality, 閲覧日 2026年5月8日, https://en.wikipedia.org/wiki/Gibbs%27_inequality

[3]

Thomas M.Cover, Joy A. Thomas, Elements of Information theory,2nd Edition

投稿日：8日前

更新日：5日前

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

4729

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

他の人のコメント

コメントはありません。

読み込み中

Kagura

【情報理論】ギブス不等式の証明と最大エントロピー原理の初歩