1
大学数学基礎解説
文献あり

【情報理論】ギブス不等式の証明と最大エントロピー原理の初歩

41
0
$$$$

Def.

シャノン・エントロピー【平均自己情報量】

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。

  1. $N\geq1$ とし、$\mathcal X$ を有限集合
    $$ \mathcal X=\{x_1,\ldots,x_N\} $$
    とする。
  2. $\mathcal X$ には $\mathcal P(\mathcal X)$ を入れ、$X:(\Omega,\mathcal F)\to(\mathcal X,\mathcal P(\mathcal X))$ を可測写像とする。
    すなわち、$X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
  3. $x\in\mathcal X$ に対して、$X$ の確率質量関数を
    $$ p_X(x):=\mathbb P(X=x) $$
    で定める。ただし、
    $$ \{X=x\}:=\{\omega\in\Omega\mid X(\omega)=x\} $$
    である。
  4. $S_X:=\{x\in\mathcal X\mid p_X(x)>0\}$ とおく。$X$ の自己情報量確率変数 $I_X:\Omega\to[0,\infty)$
    $$ I_X(\omega) := \begin{cases} -\log_b p_X(X(\omega)), & X(\omega)\in S_X,\\ 0, & X(\omega)\notin S_X \end{cases} $$
    で定める。

-このとき、$X$ の底 $b$ に関するシャノン・エントロピーを、自己情報量確率変数 $I_X$ の期待値として
$$ H_b(X):=\mathbb E[I_X] $$
で定義する。

和による表示

自己情報量 $I_X$ は、各 $\omega\in\Omega$ に対して
$$ I_X(\omega) = \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) $$
と書ける。実際、$X(\omega)\in S_X$ のとき、ただ $1$ つの $x\in S_X$ について $X(\omega)=x$ となるため、
指示関数の定義より
$$ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) = -\log_b p_X(X(\omega)) $$
である。また、$X(\omega)\notin S_X$ のとき、すべての $x\in S_X$ について $X(\omega)\ne x$ であるから、
指示関数の定義から
$$ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}}(\omega) = 0 $$
である。したがって、
$$ I_X = \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}} $$
である。よって、期待値の線形性より、
$$ \begin{align} H_b(X) &= \mathbb E[I_X] \\ &= \mathbb E\left[ \sum_{x\in S_X} \left(-\log_b p_X(x)\right) 1_{\{X=x\}} \right] \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) \mathbb E[1_{\{X=x\}}] \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) \mathbb P(X=x) \\ &= \sum_{x\in S_X} \left(-\log_b p_X(x)\right) p_X(x) \\ &= -\sum_{x\in S_X} p_X(x)\log_b p_X(x) \end{align} $$
である( 指示関数の期待値の証明はコチラ )。
なお、$S_X$ は有限集合であり、各 $x\in S_X$ について $p_X(x)>0$ であるから、
$I_X$ は有限個の指示関数の線形結合として表される可測関数である。したがって、$I_X$ の期待値はよく定義される。

$0\log_b0$ について

本定義では、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
であり、$S_X=\{x\in\mathcal X\mid p_X(x)>0\}$ であるため、$p_X(x)=0$ である値 $x$ は初めから和に含まれない。
したがって、この表示では $0\log_b0$ を定義する必要はない。
$ $
一方で、関数 $\varphi:[0,1]\to[0,\infty)$
$$ \varphi(t) := \begin{cases} -t\log_b t, & t>0,\\ 0, & t=0 \end{cases} $$
で定めれば、
$$ H_b(X) = \sum_{i=1}^{N}\varphi(p_X(x_i)) $$
と書ける。これを慣用的に
$$ H_b(X) = -\sum_{i=1}^{N}p_X(x_i)\log_b p_X(x_i) $$
と書く。この表示では、$p_X(x_i)=0$ の項を
$$ 0\log_b0=0 $$
と約束して $0$ とみなしている。
この約束は、次の極限に基づく。
$$ \lim_{t\downarrow0}t\log_b t=0 $$
すなわち、$0\log_b0=0$ は、$S_X$ 上の厳密な和表示を、有限集合全体 $\mathcal X$ 上の和表示として書くための慣用的な約束である。

$H_b(X)=\mathbb E[-\log_b p_X(X)]$ について

同様に、期待値表示についても注意が必要である。
関数 $g:\mathcal X\to[0,\infty)$
$$ g(x) := \begin{cases} -\log_b p_X(x), & x\in S_X,\\ 0, & x\notin S_X \end{cases} $$
で定める。このとき、
$$ I_X=g\circ X $$
であるから、
$$ H_b(X) = \mathbb E[g(X)] $$
である。
ここで、$g(X)$$p_X(X)=0$ となる点でも値が $0$ と定められているため、全ての $\omega\in\Omega$ で定義されている。
一方、
$$ -\log_b p_X(X) $$
という式は、$p_X(X(\omega))=0$ となる $\omega$ ではそのままでは定義されない。
したがって、
$$ H_b(X) = \mathbb E[-\log_b p_X(X)] $$
という表示は、$p_X(X)=0$ となる点で値を $0$ と補っていると理解したうえでの慣用的な表示である。

エントロピーの意味

シャノン・エントロピーは、個々の事象そのものではなく、確率変数 $X$ の値の分布全体の不確実性を測る量である。
$X$ の値がある $1$ 点に確率 $1$ で集中している場合、不確実性は最小であり、
$$ H_b(X)=0 $$
である。
一方、$X$ が有限集合
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
上の一様分布に従う場合、すなわち任意の $i=1,\ldots,N$ に対して
$$ p_X(x_i)=\frac{1}{N} $$
である場合、
$$ H_b(X)=\log_b N $$
である(最後に示す)。

対数の底と単位

対数の底 $b$ はエントロピーの単位を決める。
$b=2$ のとき、単位は bit である。
$b=e$ のとき、単位は nat である。
特に断らない場合は、自然対数を用いて
$$ H(X):=H_e(X) $$
と書く。

Prop&Proof

$-\log x$ の狭義凸性

関数 $g:(0,\infty)\to\mathbb R$
$$ g(x):=-\log x $$
で定める。ただし、$\log$ は自然対数である。このとき、$g$$(0,\infty)$ 上で狭義凸である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$ -\log(tx+(1-t)y) \le -\{t\log x+(1-t)\log y\} $$
が成り立つ。
さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$ -\log(tx+(1-t)y) < -\{t\log x+(1-t)\log y\} $$
が成り立つ。

任意の $x\in(0,\infty)$ に対して、
$$ g(x)=-\log x $$
である。

  1. まず、$g$ の導関数を計算する。
    $$ g'(x)=-\frac{1}{x} $$
    である。さらに、
    $$ g''(x)=\frac{1}{x^2} $$
    である。
    ここで、任意の $x\in(0,\infty)$ に対して、
    $$ x^2>0 $$
    であるから、
    $$ \frac{1}{x^2}>0 $$
    である。したがって、
    $$ g''(x)>0 \qquad (x\in(0,\infty)) $$
    が成り立つ。
    よって、第 $2$ 導関数による狭義凸性の判定より、$g$$(0,\infty)$ 上で狭義凸である( 証明はコチラ )。
    $ $
  2. 次に、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ を取る。このとき、
    $$ tx+(1-t)y>0 $$
    であるから、$g(tx+(1-t)y)$ は定義される。
    $g$ は狭義凸であるから、特に凸である。したがって、
    $$ g(tx+(1-t)y) \le t g(x)+(1-t)g(y) $$
    が成り立つ。
    $g(x)=-\log x$ であるから、
    $$ g(tx+(1-t)y) = -\log(tx+(1-t)y) $$
    であり、
    $$ t g(x)+(1-t)g(y) = -t\log x-(1-t)\log y = -\{t\log x+(1-t)\log y\} $$
    である。
    したがって、
    $$ -\log(tx+(1-t)y) \le -\{t\log x+(1-t)\log y\} $$
    が成り立つ。
    $ $
  3. さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、狭義凸性より
    $$ g(tx+(1-t)y) < t g(x)+(1-t)g(y) $$
    が成り立つ。
    よって、
    $$ -\log(tx+(1-t)y) < -\{t\log x+(1-t)\log y\} $$
    が成り立つ。

-以上より、$-\log x$$(0,\infty)$ 上で狭義凸である。
$$ \Box$$

$\log$ の凹性について

以上より、関数
$$ g:(0,\infty)\to\mathbb R,\qquad g(x):=-\log x $$
$(0,\infty)$ 上で狭義凸である。
ここで、関数
$$ f:(0,\infty)\to\mathbb R,\qquad f(x):=\log x $$
を考える。このとき、任意の $x\in(0,\infty)$ に対して
$$ g(x)=-f(x) $$
である。すなわち、
$$ g=-f $$
である。
$ $
したがって、既に示した「凹関数と凸関数の関係」( 証明はコチラ )より、
$-f=g$ が凸関数であることから、$f$$(0,\infty)$ 上で凹関数である。
すなわち、
$$ \log x $$
$(0,\infty)$ 上で凹関数である。
$ $
さらに、$-\log x$ が狭義凸であることから、$\log x$$(0,\infty)$ 上で狭義凹関数である。
すなわち、任意の $x,y\in(0,\infty)$ と任意の $t\in[0,1]$ に対して、
$$ \log(tx+(1-t)y) \geq t\log x+(1-t)\log y $$
が成り立つ。さらに、$x\ne y$ かつ $t\in(0,1)$ のとき、
$$ \log(tx+(1-t)y) > t\log x+(1-t)\log y $$
が成り立つ。

シャノン・エントロピーの非負性

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。$N\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
このとき、
$$ H_b(X)\geq0 $$
である。

  1. シャノン・エントロピーの和による表示より、
    $$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
    である(定義:シャノン・エントロピーの注記を参照)。
    $ $
  2. 任意に $x\in S_X$ を取る。$S_X$ の定義より、
    $$ p_X(x)>0 $$
    である。また、$p_X(x)$ は確率であるから、
    $$ p_X(x)\leq1 $$
    である。したがって、
    $$ 0< p_X(x)\leq1 $$
    である。
    $ $
  3. $b>1$ であるから、対数関数 $\log_b$ は単調増加である。
    よって、
    $$ \log_b p_X(x)\leq\log_b1=0 $$
    である。したがって、
    $$ p_X(x)\log_b p_X(x)\leq0 $$
    であり、
    $$ -p_X(x)\log_b p_X(x)\geq0 $$
    である。
    以上より、任意の $x\in S_X$ に対して
    $$ -p_X(x)\log_b p_X(x)\geq0 $$
    である。

-したがって、$H_b(X)$ は非負項の有限和であるから、
$$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \geq0 $$
である。
$$ \Box$$

等号成立条件

命題において、等号
$$ H_b(X)=0 $$
が成り立つための必要十分条件は、ある $k\in\{1,\ldots,N\}$ が存在して
$$ p_X(x_k)=1 $$
かつ、任意の $i\neq k$ に対して
$$ p_X(x_i)=0 $$
となることである。

  1. 実際、まず、ある $k\in\{1,\ldots,N\}$ が存在して
    $$ p_X(x_k)=1 $$
    かつ、任意の $i\neq k$ に対して
    $$ p_X(x_i)=0 $$
    であるとする。このとき、
    $$ S_X=\{x_k\} $$
    であるから、
    $$ \begin{align} H_b(X) &= -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \\ &= -p_X(x_k)\log_b p_X(x_k) \\ &= -1\cdot\log_b1 \\ &= 0 \end{align} $$
    である。
    $ $
  2. 逆に、
    $$ H_b(X)=0 $$
    であるとする。
    上の証明より、任意の $x\in S_X$ に対して
    $$ -p_X(x)\log_b p_X(x)\geq0 $$
    である。また、
    $$ H_b(X) = \sum_{x\in S_X}\left(-p_X(x)\log_b p_X(x)\right) = 0 $$
    であるから、非負項の有限和が $0$ であることより、任意の $x\in S_X$ に対して
    $$ -p_X(x)\log_b p_X(x)=0 $$
    である。ここで、$x\in S_X$ であるから
    $$ p_X(x)>0 $$
    である。また、$p_X(x)$ は確率であるから
    $$ p_X(x)\leq1 $$
    である。したがって、
    $$ 0< p_X(x)\leq1 $$
    である。ゆえに、
    $$ 0< p_X(x)<1 \quad\text{または}\quad p_X(x)=1 $$
    のいずれかが成り立つ。
    もし
    $$ 0< p_X(x)<1 $$
    ならば、
    $$ \log_b p_X(x)<0 $$
    であるから、
    $$ -p_X(x)\log_b p_X(x)>0 $$
    となる。これは
    $$ -p_X(x)\log_b p_X(x)=0 $$
    に反する。したがって、任意の $x\in S_X$ に対して
    $$ p_X(x)=1 $$
    である。一方、
    $$ \sum_{i=1}^{N}p_X(x_i)=1 $$
    であるから、$p_X(x)=1$ となる $x\in S_X$ はただ $1$ つである。

-よって、ある $k\in\{1,\ldots,N\}$ が存在して
$$ p_X(x_k)=1 $$
かつ、任意の $i\neq k$ に対して
$$ p_X(x_i)=0 $$
となる。以上より、等号成立条件が示された。

シャノン・エントロピーの底変換公式

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とする。$N\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_N\} $$
を有限集合とする。$X:\Omega\to\mathcal X$ を有限集合 $\mathcal X$ に値をもつ離散確率変数とする。
$a>1,\ b>1$ とする。このとき、
$$ H_b(X)=\log_b a\cdot H_a(X) $$
が成り立つ。

  1. シャノン・エントロピーの和による表示より、
    $$ H_b(X) = -\sum_{x\in S_X}p_X(x)\log_b p_X(x) $$
    である(定義:シャノン・エントロピーの注記を参照)。
    $ $
  2. 任意の $x\in S_X$ に対して、
    $$ p_X(x)>0 $$
    であるから、$\log_b p_X(x)$$\log_a p_X(x)$ は定義される。
    対数の底変換公式より、
    $$ \log_b p_X(x) = \log_b a\cdot \log_a p_X(x) $$
    である。
    $ $
  3. したがって、
    $$ \begin{align} H_b(X) &= -\sum_{x\in S_X}p_X(x)\log_b p_X(x) \\ &= -\sum_{x\in S_X}p_X(x)\left(\log_b a\cdot \log_a p_X(x)\right) \\ &= \log_b a\left(-\sum_{x\in S_X}p_X(x)\log_a p_X(x)\right) \\ &= \log_b a\cdot H_a(X) \end{align} $$
    である。

-以上より、
$$ H_b(X)=\log_b a\cdot H_a(X) $$
が成り立つ。
$$ \Box$$

シャノン・エントロピーの凹性

$n\geq1$ とし、$p=(p_1,\ldots,p_n)$$q=(q_1,\ldots,q_n)$$\{1,\ldots,n\}$ 上の確率分布とする(補足を参照)。また、$\lambda\in[0,1]$ とする。
関数 $\varphi:[0,1]\to\mathbb R$
$$ \varphi(t) := \begin{cases} -t\log t, & t>0,\\ 0, & t=0 \end{cases} $$
で定める。ただし、$\log$ は自然対数である。確率分布 $r=(r_1,\ldots,r_n)$ に対して
$$ H(r):=\sum_{i=1}^{n}\varphi(r_i) $$
と定める。このとき、
$$ H(\lambda p+(1-\lambda)q) \geq \lambda H(p)+(1-\lambda)H(q) $$
が成り立つ。

  1. まず、$\lambda p+(1-\lambda)q$ が確率分布であることを確認する。
    任意の $i=1,\ldots,n$ に対して、$p_i\geq0,\ q_i\geq0$ であり、$\lambda\in[0,1]$ であるから、
    $$ \lambda p_i+(1-\lambda)q_i\geq0 $$
    である。また、
    $$ \begin{align} \sum_{i=1}^{n}\left(\lambda p_i+(1-\lambda)q_i\right) &= \lambda\sum_{i=1}^{n}p_i + (1-\lambda)\sum_{i=1}^{n}q_i \\ &= \lambda\cdot1+(1-\lambda)\cdot1 \\ &= 1 \end{align} $$
    である。したがって、$\lambda p+(1-\lambda)q$$\{1,\ldots,n\}$ 上の確率分布である。
    $ $
  2. 次に、$\varphi$$[0,1]$ 上で凹であることを示す。
    $t\in(0,1)$ に対して、
    $$ \varphi(t)=-t\log t $$
    である。したがって、積の微分公式と $\log t$ の微分公式より
    $$ \begin{align} \varphi'(t) &= -\frac{d}{dt}(t\log t) \\ &= -\left(1\cdot\log t+t\cdot\frac{1}{t}\right) \\ &= -(\log t+1) \\ &= -\log t-1 \end{align} $$
    であり、
    $$ \begin{align} \varphi''(t) &= \frac{d}{dt}(-\log t-1) \\ &= -\frac{d}{dt}(\log t)-\frac{d}{dt}(1) \\ &= -\frac{1}{t}-0 \\ &= -\frac{1}{t} \end{align} $$
    である。よって、任意の $t\in(0,1)$ に対して
    $$ \varphi''(t)<0 $$
    である。したがって、$\varphi$$(0,1)$ 上で狭義凹であり、特に $(0,1)$ 上で凹である( 証明はコチラ )。
    また、$t\mapsto -t\log t$$(0,1]$ 上で連続であり、
    $$ \varphi(1)=-1\log1=0 $$
    である。さらに、
    $$ \lim_{t\downarrow0}(-t\log t)=0 $$
    である(補足を参照)から、$\varphi(0)=0$ と定めた $\varphi$$[0,1]$ 上で連続である。
    $ $
  3. 端点を含む場合を確認する(ここは冗長なので読み飛ばしても良い...)。
    任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
    $$ \varphi(\theta u+(1-\theta)v) \geq \theta\varphi(u)+(1-\theta)\varphi(v) $$
    が成り立つことを示す。
    $ $
    $\theta=0$ または $\theta=1$ の場合を確認する。
      任意の $u,v\in[0,1]$ を取る。
      i) $\theta=0$ の場合。
      このとき、
    $$ \theta u+(1-\theta)v = 0\cdot u+(1-0)v = v $$
      である。したがって、
    $$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(v) \\ &= 0\cdot\varphi(u)+1\cdot\varphi(v) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
      である。ゆえに、
    $$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
      が成り立つ。
    $ $
      ii) $\theta=1$ の場合。
      このとき、
    $$ \theta u+(1-\theta)v = 1\cdot u+(1-1)v = u $$
      である。したがって、
    $$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(u) \\ &= 1\cdot\varphi(u)+0\cdot\varphi(v) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
      である。ゆえに、
    $$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
      が成り立つ。以上より、$\theta=0$ または $\theta=1$ の場合は、凹性の不等式が等号として成り立つ。
    $ $
    $u=v$ の場合を確認する。
      任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ を取る。
      $u=v$ とする。このとき、
    $$ \theta u+(1-\theta)v = \theta u+(1-\theta)u = (\theta+1-\theta)u = u $$
      である。したがって、
    $$ \begin{align} \varphi(\theta u+(1-\theta)v) &= \varphi(u) \\ &= (\theta+1-\theta)\varphi(u) \\ &= \theta\varphi(u)+(1-\theta)\varphi(u) \\ &= \theta\varphi(u)+(1-\theta)\varphi(v) \end{align} $$
      である。ゆえに、
    $$ \varphi(\theta u+(1-\theta)v) = \theta\varphi(u)+(1-\theta)\varphi(v) $$
      が成り立つ。
      以上より、$u=v$ の場合は、凹性の不等式が等号として成り立つ。
    $ $
    よって、以下では $0<\theta<1$ かつ $u\ne v$ とする。必要なら $u$$v$ を入れ替えることにより、
    $$ 0\leq v< u\leq1 $$
    としてよい(補足を参照)。ただし、$u$$v$ を入れ替える場合には、同時に $\theta$$1-\theta$ に置き換える。
    $ $
    i) $0< v< u<1$ の場合。
      この場合、$u,v\in(0,1)$ であるから、$(0,1)$ 上の狭義凹性より、
    $$ \varphi(\theta u+(1-\theta)v) > \theta\varphi(u)+(1-\theta)\varphi(v) $$
      が成り立つ。
    $ $
    ii) $v=0,\ 0< u\leq1$ の場合。
      このとき、
    $$ \begin{align} \varphi(\theta u+(1-\theta)0) &= \varphi(\theta u) \\ &= -\theta u\log(\theta u) \quad &&\because 0<\theta u\leq1\text{ かつ }\varphi(w)=-w\log w\ (w>0) \\ &= -\theta u(\log\theta+\log u) \quad &&\because \log(\theta u)=\log\theta+\log u \\ &= -\theta u\log u-\theta u\log\theta \quad &&\because \text{分配法則} \\ &= \theta\varphi(u)-\theta u\log\theta \quad &&\because \varphi(u)=-u\log u \end{align} $$
      である。ここで、$0<\theta<1$ より $\log\theta<0$ であり、$u>0$ であるから、
    $$ -\theta u\log\theta>0 $$
      である。したがって、
    $$ \varphi(\theta u+(1-\theta)0) > \theta\varphi(u) = \theta\varphi(u)+(1-\theta)\varphi(0) $$
      である。
    $ $
    iii) $u=1,\ 0< v<1$ の場合。
      関数 $\psi:[0,1]\to\mathbb R$
    $$ \psi(\theta) := \varphi(\theta\cdot1+(1-\theta)v) - \theta\varphi(1) - (1-\theta)\varphi(v) $$
      で定める。ここで、$0< v<1$ である。
      ・ まず、$\theta=0$ を代入すると、
    $$ \begin{align} \psi(0) &= \varphi(0\cdot1+(1-0)v) - 0\cdot\varphi(1) - (1-0)\varphi(v) \\ &= \varphi(v)-\varphi(v) \\ &= 0 \end{align} $$
        である。
      ・ 次に、$\theta=1$ を代入すると、
    $$ \begin{align} \psi(1) &= \varphi(1\cdot1+(1-1)v) - 1\cdot\varphi(1) - (1-1)\varphi(v) \\ &= \varphi(1)-\varphi(1) \\ &= 0 \end{align} $$
        である。
      したがって、
    $$ \psi(0)=0,\qquad \psi(1)=0 $$
      である。
    $ $
      ・ また、$0<\theta<1$ のとき、
    $$ \theta\cdot1+(1-\theta)v\in(v,1)\subset(0,1) $$
        であるから、$\psi$$(0,1)$ 上で $2$ 回微分可能である。
        ここで、$\varphi(1)=0$ であるから、
    $$ \begin{align} \psi(\theta) &:= \varphi(\theta\cdot1+(1-\theta)v) - \theta\varphi(1) - (1-\theta)\varphi(v) \\ &= \varphi(\theta+(1-\theta)v) - (1-\theta)\varphi(v) \end{align} $$
        である。ここで、
    $$ h(\theta):=\theta+(1-\theta)v $$
        とおくと、
    $$ h'(\theta)=1-v $$
        である。
        したがって、合成関数の微分公式より、$0<\theta<1$ に対して
    $$ \begin{align} \psi'(\theta) &= \frac{d}{d\theta} \left\{ \varphi(h(\theta)) - (1-\theta)\varphi(v) \right\} \\ &= \varphi'(h(\theta))h'(\theta) + \varphi(v) \\ &= (1-v)\varphi'(\theta+(1-\theta)v) + \varphi(v) \end{align} $$
        である。さらに、もう一度微分すると、
    $$ \begin{align} \psi''(\theta) &= \frac{d}{d\theta} \left\{ (1-v)\varphi'(\theta+(1-\theta)v) + \varphi(v) \right\} \\ &= (1-v)\frac{d}{d\theta} \varphi'(\theta+(1-\theta)v) + 0 \\ &= (1-v)\varphi''(\theta+(1-\theta)v)\frac{d}{d\theta}\{\theta+(1-\theta)v\} \\ &= (1-v)\varphi''(\theta+(1-\theta)v)(1-v) \\ &= (1-v)^2\varphi''(\theta+(1-\theta)v) \end{align} $$
        である。したがって、
    $$ \psi''(\theta) = (1-v)^2\varphi''(\theta+(1-\theta)v) $$
        である。一方、すでに
    $$ \varphi''(t)=-\frac{1}{t} \qquad (t\in(0,1)) $$
        を示している。ここで、
    $$ t=\theta+(1-\theta)v $$
        とおく。$0< v<1$ かつ $0<\theta<1$ であるから、
    $$ 0< v<\theta+(1-\theta)v<1 $$
        である。したがって、
    $$ \theta+(1-\theta)v\in(0,1) $$
        である。ゆえに、
    $$ \varphi''(\theta+(1-\theta)v) = -\frac{1}{\theta+(1-\theta)v} < 0 $$
        である。また、$0< v<1$ であるから、
    $$ 1-v>0 $$
        であり、
    $$ (1-v)^2>0 $$
        である。したがって、
    $$ \begin{align} \psi''(\theta) &= (1-v)^2\varphi''(\theta+(1-\theta)v) \\ &< 0 \end{align} $$
        である。また、$\psi$$[0,1]$ 上で連続であり、$(0,1)$ 上で $2$ 回微分可能である。
        したがって、第 $2$ 導関数による狭義凹性の判定より、$\psi$$[0,1]$ 上で狭義凹である( 証明はコチラ )。
        特に、$0<\theta<1$ に対して、
    $$ \psi(\theta) > \theta\psi(1)+(1-\theta)\psi(0) = 0 $$
        である。すなわち、
    $$ \varphi(\theta\cdot1+(1-\theta)v) > \theta\varphi(1)+(1-\theta)\varphi(v) $$
        が成り立つ。
    $ $
    以上より、任意の $u,v\in[0,1]$ と任意の $\theta\in[0,1]$ に対して、
    $$ \varphi(\theta u+(1-\theta)v) \geq \theta\varphi(u)+(1-\theta)\varphi(v) $$
    が成り立つ。したがって、$\varphi$$[0,1]$ 上で凹である。
    さらに、$u\ne v$ かつ $0<\theta<1$ のときは、上の各場合で狭義不等号が成り立つため、$\varphi$$[0,1]$ 上で狭義凹である。
    (長すぎる...〇す気ですか( ゚Д゚)?)
    $ $
  4. 各成分に凹性を適用する。
    任意の $i=1,\ldots,n$ について、$p_i,q_i\in[0,1]$ である。
    $\varphi$$[0,1]$ 上で凹であるから、
    $$ \varphi(\lambda p_i+(1-\lambda)q_i) \geq \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) $$
    が成り立つ。
    $ $
  5. 両辺を $i=1,\ldots,n$ について足し合わせると、
    $$ \begin{align} H(\lambda p+(1-\lambda)q) &= \sum_{i=1}^{n}\varphi(\lambda p_i+(1-\lambda)q_i) \\ &\geq \sum_{i=1}^{n} \left( \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) \right) \\ &= \lambda\sum_{i=1}^{n}\varphi(p_i) + (1-\lambda)\sum_{i=1}^{n}\varphi(q_i) \\ &= \lambda H(p)+(1-\lambda)H(q) \end{align} $$
    である。

-以上より、
$$ H(\lambda p+(1-\lambda)q) \geq \lambda H(p)+(1-\lambda)H(q) $$
が成り立つ。
$$ \Box$$

ただし、$u$$v$ を入れ替える場合には、同時に $\theta$$1-\theta$ に置き換える。
実際、
$$ \theta u+(1-\theta)v = (1-\theta)v+\theta u $$
であり、また、
$$ \theta\varphi(u)+(1-\theta)\varphi(v) = (1-\theta)\varphi(v)+\theta\varphi(u) $$
である。
したがって、$u$$v$ の大小関係を入れ替えても、凹性の不等式の形は保たれる。

この命題の意味するところ

この命題は、混合分布のエントロピーが、各分布のエントロピーの加重平均以上になることを表している。
すなわち、分布を混合したときの不確実性は、混合前の不確実性の加重平均を下回らない。
特に、$0<\lambda<1$ かつ $p\neq q$ の場合には、混合分布のエントロピーは、各分布のエントロピーの加重平均より真に大きい。

$\{1,\ldots,n\}$ 上の確率分布の意味
  1. $p=(p_1,\ldots,p_n)$$\{1,\ldots,n\}$ 上の確率分布であるとは、各 $i=1,\ldots,n$ に対して $p_i$ が番号 $i$ に対応する確率を表し、
    $$ p_i\geq0 \qquad (i=1,\ldots,n) $$
    かつ
    $$ \sum_{i=1}^{n}p_i=1 $$
    を満たすことをいう。
    $ $
  2. 同様に、$q=(q_1,\ldots,q_n)$$\{1,\ldots,n\}$ 上の確率分布であるとは、
    $$ q_i\geq0 \qquad (i=1,\ldots,n) $$
    かつ
    $$ \sum_{i=1}^{n}q_i=1 $$
    を満たすことをいう。

-すなわち、$p$$q$ は、同じ有限集合 $\{1,\ldots,n\}$ 上に定められた $2$ つの確率分布である。

等号成立条件

$0<\lambda<1$ とする。このとき、等号
$$ H(\lambda p+(1-\lambda)q) = \lambda H(p)+(1-\lambda)H(q) $$
が成り立つための必要十分条件は、
$$ p=q $$
である。

  1. まず、$p=q$ ならば、
    $$ \lambda p+(1-\lambda)q=p $$
    であるから、
    $$ \begin{align} H(\lambda p+(1-\lambda)q) &= H(p) \\ &=H(p)+(\lambda H(p)-\lambda H(p)) \\ &= \lambda H(p)+(1-\lambda)H(p) \\ &= \lambda H(p)+(1-\lambda)H(q) \end{align} $$
    である。
    $ $
  2. 逆に、$p\neq q$ とする。このとき、ある $i\in\{1,\ldots,n\}$ が存在して
    $$ p_i\neq q_i $$
    である。
    $\varphi$$[0,1]$ 上で狭義凹であり、$0<\lambda<1$ であるから、
    $$ \varphi(\lambda p_i+(1-\lambda)q_i) > \lambda\varphi(p_i)+(1-\lambda)\varphi(q_i) $$
    が成り立つ。
    また、任意の $j\neq i$ に対しても、$\varphi$ の凹性より
    $$ \varphi(\lambda p_j+(1-\lambda)q_j) \geq \lambda\varphi(p_j)+(1-\lambda)\varphi(q_j) $$
    が成り立つ。
    したがって、全ての成分について和を取ると、
    $$ H(\lambda p+(1-\lambda)q) > \lambda H(p)+(1-\lambda)H(q) $$
    である。

-よって、等号が成り立つならば
$$ p=q $$
でなければならない。
なお、$\lambda=0$ または $\lambda=1$ の場合は、$p$$q$ が異なっていても等号が成り立つ。

$\lim_{t\downarrow0}(-t\log t)=0$ の証明

$t>0$ において、
$$ -t\log t = -\frac{\log t}{1/t} $$
と書ける。
$t\downarrow0$ のとき、
$$ \log t\to-\infty \quad\text{かつ}\quad \frac{1}{t}\to\infty $$
であるから、
$$ \frac{\log t}{1/t} $$
は不定形($t\downarrow0$ で分子が $-\infty$、分母が $+\infty$ となる $\frac{-\infty}{+\infty}$ 型)である。そこで、ロピタルの定理を用いると、
$$ \begin{align} \lim_{t\downarrow0}\frac{\log t}{1/t} &= \lim_{t\downarrow0} \frac{\frac{d}{dt}\log t}{\frac{d}{dt}(1/t)} \\ &= \lim_{t\downarrow0} \frac{1/t}{-1/t^2} \\ &= \lim_{t\downarrow0}(-t) \\ &= 0 \end{align} $$
である。したがって、
$$ \begin{align} \lim_{t\downarrow0}(-t\log t) &= -\lim_{t\downarrow0}\frac{\log t}{1/t} \\ &= -0 \\ &= 0 \end{align} $$
である。
このため、関数 $t\mapsto -t\log t$ は、$t=0$ における値を $0$ と定めることで、$[0,1]$ 上の連続関数として扱える。

対数関数の基本不等式 【補題】

任意の $x>0$ に対して、
$$ \ln x\leq x-1 $$
が成り立つ。
また、等号が成り立つのは
$$ x=1 $$
の場合に限る。

関数 $f:(0,\infty)\to\mathbb R$
$$ f(x):=\ln x-(x-1) $$
で定める。このとき、任意の $x>0$ に対して
$$ \begin{align} f'(x) &= \frac{d}{dx}\{\ln x-(x-1)\} \\ &= \frac{1}{x}-1 \end{align} $$
である。

  1. $0< x<1$ の場合を考える。
    区間 $[x,1]$ に平均値の定理を適用する。
    $f$$[x,1]$ 上で連続であり、$(x,1)$ 上で微分可能であるから、ある $c\in(x,1)$ が存在して
    $$ \frac{f(1)-f(x)}{1-x} = f'(c) $$
    が成り立つ。
    ここで、$0< c<1$ であるから、
    $$ f'(c)=\frac{1}{c}-1>0 $$
    である。また、$0< x<1$ より $1-x>0$ であるから、
    $$ f(1)-f(x) = f'(c)(1-x)>0 $$
    である。したがって、
    $$ f(x)< f(1) $$
    である。
    $ $
  2. $x>1$ の場合を考える。
    区間 $[1,x]$ に平均値の定理を適用する。
    $f$$[1,x]$ 上で連続であり、$(1,x)$ 上で微分可能であるから、ある $c\in(1,x)$ が存在して
    $$ \frac{f(x)-f(1)}{x-1} = f'(c) $$
    が成り立つ。
    ここで、$c>1$ であるから、
    $$ f'(c)=\frac{1}{c}-1<0 $$
    である。また、$x>1$ より $x-1>0$ であるから、
    $$ f(x)-f(1) = f'(c)(x-1)<0 $$
    である。したがって、
    $$ f(x)< f(1) $$
    である。
    $ $
  3. $x=1$ の場合を考える。
    $$ \begin{align} f(1) &= \ln 1-(1-1) \\ &= 0 \end{align} $$
    である。

-以上より、任意の $x>0$ に対して
$$ f(x)\leq f(1)=0 $$
である。したがって、
$$ \ln x-(x-1)\leq0 $$
であり、
$$ \ln x\leq x-1 $$
が成り立つ。
また、$x\neq1$ のときは
$$ f(x)< f(1)=0 $$
であるから、
$$ \ln x< x-1 $$
である。したがって、等号が成り立つのは $x=1$ の場合に限る。
$$ \Box$$

ギブスの不等式

$\log$ を自然対数とする。
$n\geq1$ とし、$p=(p_1,\ldots,p_n)$$q=(q_1,\ldots,q_n)$$\{1,\ldots,n\}$ 上の確率分布とする。
すなわち、任意の $i=1,\ldots,n$ に対して
$$ p_i\geq0,\quad q_i\geq0 $$
であり、
$$ \sum_{i=1}^{n}p_i=1,\quad \sum_{i=1}^{n}q_i=1 $$
である。さらに、任意の $i=1,\ldots,n$ に対して
$$ p_i>0\Rightarrow q_i>0 $$
を仮定する。このとき、
$$ -\sum_{\{i\mid p_i>0\}}p_i\log p_i \leq -\sum_{\{i\mid p_i>0\}}p_i\log q_i $$
が成り立つ。

$S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\}$ とおく。任意の $i\in S_p$ に対して、仮定より
$$ p_i>0,\quad q_i>0 $$
である。したがって、
$$ \frac{q_i}{p_i}>0 $$
である。対数関数の不等式(直前に示した補題)より
$$ \log x\leq x-1\quad(x>0) $$

$$ x=\frac{q_i}{p_i} $$
に適用すると、
$$ \log\frac{q_i}{p_i} \leq \frac{q_i}{p_i}-1 $$
である。両辺に $p_i>0$ をかけると、
$$ p_i\log\frac{q_i}{p_i} \leq q_i-p_i $$
である。
したがって、$i\in S_p$ について和を取ると、
$$ \begin{align} \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} &\leq \sum_{i\in S_p}(q_i-p_i) \\ &= \sum_{i\in S_p}q_i-\sum_{i\in S_p}p_i \\ &= \sum_{i\in S_p}q_i-1 \quad \because \sum_{i\in S_p}p_i=\sum_{i=1}^{n}p_i=1 \\ &\leq 0 \quad \because \sum_{i\in S_p}q_i\leq\sum_{i=1}^{n}q_i=1 \end{align} $$
である。一方、
$$ \begin{align} \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} &= \sum_{i\in S_p}p_i(\log q_i-\log p_i) \quad \because \log\frac{q_i}{p_i}=\log q_i-\log p_i \\ &= \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \end{align} $$
である。よって、
$$ \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \leq0 $$
である。したがって、
$$ -\sum_{i\in S_p}p_i\log p_i \leq -\sum_{i\in S_p}p_i\log q_i $$
が成り立つ。
$$ \Box$$

$q_i=0$ かつ $p_i>0$ の場合

もし、ある $i$ について
$$ p_i>0,\quad q_i=0 $$
であれば、
$$ -p_i\log q_i $$
は拡張実数値の意味で $+\infty$ と解釈される。
この場合、$p_i=0$ の項は $0$ とみなすという約束のもとで、
$$ -\sum_{i=1}^{n}p_i\log q_i = +\infty $$
となる。したがって、不等式自体は
$$ H(p)\leq+\infty $$
として成り立つ。
しかし、この場合、右辺は有限の実数値ではないため、上の証明で用いたような実数値の範囲での式変形はできない。
そのため、有限値の範囲でギブスの不等式を証明する場合には、
$$ p_i>0\Rightarrow q_i>0 $$
を仮定するのが自然である。
これは、$p$ が正の確率を与える点では、$q$ も正の確率を与えることを要求している。

等号成立条件

等号が成り立つための必要十分条件は、
$$ p=q $$
である。

  1. まず、$p=q$ ならば、任意の $i=1,\ldots,n$ に対して $p_i=q_i$ であるから、
    $$ -\sum_{i\in S_p}p_i\log p_i = -\sum_{i\in S_p}p_i\log q_i $$
    である。したがって、等号が成り立つ。
    $ $
  2. 逆に、等号が成り立つとする。
    i) このとき、
    $$ -\sum_{i\in S_p}p_i\log p_i = -\sum_{i\in S_p}p_i\log q_i $$
      であるから、両辺に $-1$ をかけて、
    $$ \sum_{i\in S_p}p_i\log p_i = \sum_{i\in S_p}p_i\log q_i $$
      を得る。したがって、
    $$ \begin{align} 0 &= \sum_{i\in S_p}p_i\log q_i - \sum_{i\in S_p}p_i\log p_i \\ &= \sum_{i\in S_p} \left( p_i\log q_i-p_i\log p_i \right) \\ &= \sum_{i\in S_p} p_i(\log q_i-\log p_i) \\ &= \sum_{i\in S_p} p_i\log\frac{q_i}{p_i} \quad \because i\in S_p\text{ では }p_i>0,q_i>0\text{ である} \end{align} $$
      である。ゆえに、
    $$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0 $$
      である。
    $ $
    ii) 一方、証明中で得た不等式より、
    $$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} \leq \sum_{i\in S_p}(q_i-p_i) \leq 0 $$
      である。いま、
    $$ \sum_{i\in S_p}p_i\log\frac{q_i}{p_i}=0 $$
      であるから、
    $$ 0 \leq \sum_{i\in S_p}(q_i-p_i) \leq 0 $$
      である。したがって、
    $$ \sum_{i\in S_p}(q_i-p_i)=0 $$
      である。よって、
    $$ \begin{align} 0 &= \sum_{i\in S_p}(q_i-p_i) - \sum_{i\in S_p}p_i\log\frac{q_i}{p_i} \\ &= \sum_{i\in S_p} \left\{ (q_i-p_i) - p_i\log\frac{q_i}{p_i} \right\} \end{align} $$
      である。
      ここで、任意の $i\in S_p$ に対して、対数関数の不等式(直前に示した補題)より
    $$ p_i\log\frac{q_i}{p_i} \leq q_i-p_i $$
      であるから、
    $$ (q_i-p_i)-p_i\log\frac{q_i}{p_i}\geq0 $$
      であり、かつ、この左辺の非負項の有限和が $0$ であることより、
      任意の $i\in S_p$ に対して
    $$ (q_i-p_i)-p_i\log\frac{q_i}{p_i}=0 $$
      である。ゆえに、
    $$ p_i\log\frac{q_i}{p_i} = q_i-p_i $$
      である。
      ここで $i\in S_p$ であるから $p_i>0$ である。よって両辺を $p_i$ で割ると、
    $$ \log\frac{q_i}{p_i} = \frac{q_i}{p_i}-1 $$
      である。改めて対数関数の基本不等式
    $$ \log x\leq x-1 $$
      の等号成立条件は $x=1$ であるから、
    $$ \frac{q_i}{p_i}=1 $$
      である。したがって、任意の $i\in S_p$ に対して
    $$ q_i=p_i $$
      である。
    $ $
    iii) また、
    $$ \sum_{i\in S_p}(q_i-p_i)=0 $$
      であり、
    $$ \sum_{i\in S_p}p_i=1 $$
      であるから、
    $$ \sum_{i\in S_p}q_i=1 $$
      である。一方で、
    $$ \sum_{i=1}^{n}q_i=1 $$
      であり、各 $q_i$ は非負である。したがって、任意の $i\notin S_p$ に対して
    $$ q_i=0 $$
      である。また、$i\notin S_p$ ならば $p_i=0$ である。
    $ $
    以上より、任意の $i=1,\ldots,n$ に対して
    $$ p_i=q_i $$
    である。すなわち、
    $$ p=q $$
    である。

-以上より、等号成立条件は $p=q$ である。

シャノン・エントロピーの最大値

$\log$ を自然対数とする。$n\geq1$ とし、
$$ \mathcal X=\{x_1,\ldots,x_n\} $$
を有限集合とする。$X$$\mathcal X$ に値をもつ離散確率変数とし、
$$ p_i:=\mathbb P(X=x_i) $$
とおく。また、$0\log0=0$ と約束して、
$$ H(X):=-\sum_{i=1}^{n}p_i\log p_i $$
と定める。このとき、
$$ H(X)\leq\log n $$
が成り立つ。

証明の前に
  1. ここで、$0\log0=0$ と約束しているため、
    $$ -\sum_{i=1}^{n}p_i\log p_i = -\sum_{\{i\mid p_i>0\}}p_i\log p_i $$
    である。
  2. また、証明のなかで $q_i=\frac{1}{n}>0$ と定めるため、$p_i=0$ の項は
    $$ -p_i\log q_i=0 $$
    となる。

-したがって、
$$ -\sum_{i=1}^{n}p_i\log q_i = -\sum_{\{i\mid p_i>0\}}p_i\log q_i $$
である。

(既に示した)ギブスの不等式より、
任意の確率分布 $p=(p_1,\ldots,p_n)$ と、任意の確率分布 $q=(q_1,\ldots,q_n)$ で、$p_i>0\Rightarrow q_i>0$ を満たすものに対して、
$$ -\sum_{i=1}^{n}p_i\log p_i \leq -\sum_{i=1}^{n}p_i\log q_i $$
が成り立つ。ここで、
$$ q_i:=\frac{1}{n} \qquad (i=1,\ldots,n) $$
とおく。このとき、定義より $q=(q_1,\ldots,q_n)$ は一様分布であり、任意の $i$ に対して $q_i>0$ である。
したがって、ギブスの不等式を適用すると、
$$ -\sum_{i=1}^{n}p_i\log p_i \leq -\sum_{i=1}^{n}p_i\log\frac{1}{n} $$
である。
右辺を計算すると、
$$ \begin{align} -\sum_{i=1}^{n}p_i\log\frac{1}{n} &= -\sum_{i=1}^{n}p_i(-\log n) \quad \because \log\frac{1}{n}=-\log n \\ &= \sum_{i=1}^{n}p_i\log n \\ &= \log n\sum_{i=1}^{n}p_i \quad \because \log n \text{ は } i \text{ に依存しない定数である} \\ &= \log n \quad \because \sum_{i=1}^{n}p_i=1 \end{align} $$
である。よって、
$$ H(X) = -\sum_{i=1}^{n}p_i\log p_i \leq \log n $$
が成り立つ。
$$ \Box$$

等号成立条件

等号
$$ H(X)=\log n $$
が成り立つための必要十分条件は、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
となることである。
実際、上の証明で用いたギブスの不等式の等号成立条件より、等号が成り立つための必要十分条件は
$$ p_i=q_i \qquad (i=1,\ldots,n) $$
である。ここで、
$$ q_i=\frac{1}{n} $$
であるから、等号成立条件は
$$ p_i=\frac{1}{n} \qquad (i=1,\ldots,n) $$
である。
すなわち、$X$$\mathcal X$ 上の一様分布に従う場合、かつその場合に限り、
$$ H(X)=\log n $$
が成り立つ。

以上の証明から、離散確率変数 $X$ のエントロピー $H(X)$$\log n$ を上限とし、
この上限に達するのは $X$$\{x_1,\ldots,x_n\}$ 上の一様分布に従う場合に限ることが示された。
この結果は情報理論の基本的な結果であり、様々な応用において重要な役割を果たす。
$ $
この定理は、確率質量がもっとも均等に分布している状態、すなわち一様分布において、
不確実性が最大になるという直感的な理解とも一致している。

イェンゼンの不等式による別証明

エントロピーの上限
$$ H(X)\leq\log n $$
は、イェンゼンの不等式を用いて示すこともできる。
$$ S_p:=\{i\in\{1,\ldots,n\}\mid p_i>0\} $$
とおく。このとき、
$$ \sum_{i\in S_p}p_i=1 $$
であり、任意の $i\in S_p$ に対して
$$ \frac{1}{p_i}>0 $$
である。
また、$\log$$(0,\infty)$ 上の凹関数(本記事で既に示した)であるから、
イェンゼンの不等式( 証明はコチラ )より、
$$ \sum_{i\in S_p}p_i\log\frac{1}{p_i} \leq \log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right) $$
が成り立つ。

  1. 左辺は
    $$ \sum_{i\in S_p}p_i\log\frac{1}{p_i} = -\sum_{i\in S_p}p_i\log p_i = H(X) $$
    である。ただし、$p_i=0$ の項は $0\log0=0$ として和に寄与しない。
  2. 右辺は
    $$ \begin{align} \log\left(\sum_{i\in S_p}p_i\frac{1}{p_i}\right) &= \log\left(\sum_{i\in S_p}1\right) \\ &= \log |S_p| \end{align} $$
    である。

-したがって、
$$ H(X)\leq\log |S_p|\cdots① $$
である。さらに、定義より
$$ |S_p|\leq n $$
であり、$\log$ は単調増加であるから、
$$ \log |S_p|\leq\log n $$
である。よって、式①より
$$ H(X)\leq\log n $$
が成り立つ。
$ $
■ 等号成立条件を考える。
  $H(X)=\log n$ が成り立つためには、
$$ H(X)=\log |S_p| $$
  かつ
$$ \log |S_p|=\log n $$
  が必要である。
  ここで、$\log$$(0,\infty)$ 上で狭義単調増加である。したがって、正の数 $a,b$ に対して
$$ \log a=\log b $$
  ならば、
$$ a=b $$
  である。いま、
$$ \log |S_p|=\log n $$
  であり、$|S_p|>0$ かつ $n>0$ であるから、
$$ |S_p|=n $$
  である。また、$S_p\subseteq\{1,\ldots,n\}$ であるから、$|S_p|=n$ ならば
$$ S_p=\{1,\ldots,n\} $$
  である。
  また、$\log$$(0,\infty)$ 上で狭義凹関数(本記事内で証明済み)であるから、
  イェンゼンの不等式で等号が成り立つためには、
$$ \frac{1}{p_i} $$
  が $i\in S_p$ によらず一定であることが必要十分である( 詳しくはコチラ )。
  したがって、ある定数 $c>0$ が存在して、任意の $i\in S_p$ に対して
$$ \frac{1}{p_i}=c $$
  である。ゆえに、任意の $i\in S_p$ に対して $p_i$ は同じ値である。
  いま $S_p=\{1,\ldots,n\}$ であり、
$$ \sum_{i=1}^{n}p_i=1 $$
  であるから、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
  である。
  逆に、任意の $i=1,\ldots,n$ に対して
$$ p_i=\frac{1}{n} $$
  であれば、
$$ \begin{align} H(X) &= -\sum_{i=1}^{n}\frac{1}{n}\log\frac{1}{n} \\ &= -\sum_{i=1}^{n}\frac{1}{n}(-\log n) \\ &= \log n \end{align} $$
  である。
  したがって、$H(X)=\log n$ が成り立つための必要十分条件は、$X$$\mathcal X$ 上の一様分布に従うことである。

最大エントロピー原理との関係

この命題は、最大エントロピー原理の最も基本的な場合である。
最大エントロピー原理とは、与えられた制約を満たす確率分布の中で、エントロピーを最大にする分布を選ぶという考え方である。
ここで考えている制約は、次の $2$ つだけである。

  1. 確率変数 $X$ の値集合が
    $$ \mathcal X=\{x_1,\ldots,x_n\} $$
    で与えられている。
    $ $
  2. 確率質量関数は
    $$ p_i\ge0, \qquad \sum_{i=1}^n p_i=1 $$
    を満たす。

-この制約のもとで、シャノン・エントロピー
$$ H(X) = -\sum_{i=1}^n p_i\log p_i $$
を最大にする分布は、一様分布
$$ p_i=\frac{1}{n} \qquad (i=1,\ldots,n) $$
である。そのとき、
$$ \begin{align} H(X) &= -\sum_{i=1}^n \frac{1}{n}\log\frac{1}{n} \\ &= -\sum_{i=1}^n \frac{1}{n}(-\log n) \\ &= \sum_{i=1}^n \frac{1}{n}\log n \\ &= \log n \end{align} $$
である。したがって、
$$ H(X)\le\log n $$
という命題は、値集合が $n$ 個の元からなり、それ以外に追加制約がない場合には、一様分布が最も不確実な分布であることを表している。
この意味で、この命題は最大エントロピー原理と直接関係している。
$ $
【注意】
ただし、最大エントロピー原理はこの命題だけを指すわけではない。
たとえば、平均値や分散などの追加制約がある場合には、その制約を満たす確率分布の中でエントロピーを最大化する分布を考える。
つまり、この命題は、追加制約がなく、値集合の大きさだけが決まっている場合の最大エントロピー原理である。

参考文献

投稿日:8日前
更新日:5日前
数学の力で現場を変える アルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura
Kagura
7
4729
■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中