1
大学数学基礎解説
文献あり

コーシーの関数方程式から自己情報量を導出して凸性を確認する

45
0
$$$$

Def.

自己情報量

$(\Omega,\mathcal F,\mathbb{P})$ を確率空間とする。底 $b>1$ を固定する。
$A\in\mathcal F$ を事象とし、
$$ \mathbb{P}(A)>0 $$
とする(補足を参照)。このとき、事象 $A$ の底 $b$ に関する自己情報量を
$$ I_b(A):=-\log_b \mathbb{P}(A) $$
で定義する。

底と情報量の単位

$b$ の選び方によって、自己情報量の単位が決まる。
$b=2$ のとき、単位はビットである。
$b=e$ のとき、単位はナットである。
$b=10$ のとき、単位はハートレーである。

$\mathbb{P}(A)=0$ の場合

$\mathbb{P}(A)=0$ の場合、$\log_b \mathbb{P}(A)$ は実数として定義されない。
そこで、本稿では自己情報量を実数値として定義する場合は、$\mathbb{P}(A)>0$ を仮定する。

$\mathbb{P}(A)=1$ の場合

$\mathbb{P}(A)=1$ の場合、
$$ I_b(A)=-\log_b 1=0 $$
である。したがって、確率 $1$ で起こる事象の自己情報量は $0$ である。

Prop&Proof

有理数上の加法的関数の線形性

関数 $f:\mathbb Q\to\mathbb R$ が、任意の $x,y\in\mathbb Q$ に対して
$$ f(x+y)=f(x)+f(y) $$
を満たすとする。
このとき、ある $a\in\mathbb R$ が存在して、任意の $x\in\mathbb Q$ に対して
$$ f(x)=ax $$
が成り立つ。

関数 $f:\mathbb Q\to\mathbb R$ が、任意の $x,y\in\mathbb Q$ に対して
$$ f(x+y)=f(x)+f(y) $$
を満たすとする。
まず、$0\in\mathbb Q$ に対しては
$$ f(0)=f(0+0)=f(0)+f(0) $$
であるから、両辺から $f(0)$ を引いて
$$ f(0)=0 $$
である。
また、任意の $x\in\mathbb Q$ に対して、
$$ 0=f(0)=f(x+(-x))=f(x)+f(-x) $$
であるから、
$$ f(-x)=-f(x)\cdots① $$
が成り立つ。

  1. 整数倍について示す。
    任意の $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1) $$
    が成り立つことを数学的帰納法で示す。
    i) $n=0$ のとき、
    $$ f(0)=0=0f(1) $$
      であるから成り立つ。
    $ $
    ii) ある $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1) $$
      が成り立つと仮定する。
    $ $
    iii) このとき、
    $$ \begin{align} f(n+1)&=f(n)+f(1)\\ &=nf(1)+f(1)\quad \because f(n)=nf(1)\\ &=(n+1)f(1) \end{align} $$
      である。
    $ $
    iv) したがって、数学的帰納法により、任意の $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1)\cdots② $$
      が成り立つ。
    $ $
    v) また、任意の $n\in\mathbb N$ に対して、①,②より
    $$ \begin{align} f(-n)&=-f(n)&\because ① \\ &=-nf(1)&\because ② \\ \end{align} $$
      である。よって、任意の $m\in\mathbb Z$ に対して、
    $$ f(m)=mf(1) $$
      が成り立つ。
    $ $
  2. 有理数について示す。
    任意の $x\in\mathbb Q$ をとる。
    有理数の定義より、ある $p\in\mathbb Z$$q\in\mathbb Z_{>0}$ が存在して、
    $$ x=\frac{p}{q} $$
    と表せる。ここで、$q\in\mathbb Z_{>0}$ であるから、
    $$ q\cdot\frac{p}{q} = \underbrace{\frac{p}{q}+\frac{p}{q}+\cdots+\frac{p}{q}}_{q\text{個}} $$
    であり
    $$ q\cdot\frac{p}{q}=p $$
    であるから、
    $$ p = \underbrace{\frac{p}{q}+\frac{p}{q}+\cdots+\frac{p}{q}}_{q\text{個}} $$
    である。したがって、仮定より加法性を繰り返し用いると、
    $$ \begin{aligned} f(p) &= f\left( \underbrace{\frac{p}{q}+\frac{p}{q}+\cdots+\frac{p}{q}}_{q\text{個}} \right)\\ &= \underbrace{ f\left(\frac{p}{q}\right) + f\left(\frac{p}{q}\right) + \cdots + f\left(\frac{p}{q}\right) }_{q\text{個}}\\ &= qf\left(\frac{p}{q}\right) \end{aligned} $$
    である。一方で、整数の場合の結果より、
    $$ f(p)=pf(1) $$
    である。したがって、
    $$ qf\left(\frac{p}{q}\right)=pf(1) $$
    である。$q>0$ であるから、両辺を $q$ で割ると、
    $$ f\left(\frac{p}{q}\right)=\frac{p}{q}f(1) $$
    を得る。よって、
    $$ f(x)=xf(1) $$
    である。ここで、
    $$ a:=f(1) $$
    とおけば、$a\in\mathbb R$ であり、任意の $x\in\mathbb Q$ に対して、
    $$ f(x)=ax $$
    が成り立つ。
    $$ \Box$$
実数上のコーシーの関数方程式との違い

上の命題は、定義域が $\mathbb Q$ の場合である。
定義域が $\mathbb R$ の場合、加法性
$$ f(x+y)=f(x)+f(y) $$
だけでは、一般には $f(x)=ax$ の形に限られない。

連続な加法的関数の線形性

関数 $f:\mathbb R\to\mathbb R$ が、任意の $x,y\in\mathbb R$ に対して
$$ f(x+y)=f(x)+f(y) $$
を満たすとする。さらに、$f$ は連続であるとする。
このとき、ある $a\in\mathbb R$ が存在して、任意の $x\in\mathbb R$ に対して
$$ f(x)=ax $$
が成り立つ。

関数 $f:\mathbb R\to\mathbb R$ が、任意の $x,y\in\mathbb R$ に対して
$$ f(x+y)=f(x)+f(y) $$
を満たすとする。さらに $f$ は連続である。

  1. まず、$f$$\mathbb Q$ への制限
    $$ g:=f|_{\mathbb Q}:\mathbb Q\to\mathbb R $$
    を考える。
    任意の $r,s\in\mathbb Q$ に対して、$r,s\in\mathbb R$ でもあるから、仮定より
    $$ g(r+s) = f(r+s) = f(r)+f(s) = g(r)+g(s) $$
    である。
    したがって、直前の命題より、任意の $r\in\mathbb Q$ に対して、
    $$ g(r)=rg(1) $$
    が成り立つ。ここで、制限写像の定義より、任意の $r\in\mathbb Q$ に対して
    $$ g(r)=f(r) $$
    であり、特に $1\in\mathbb Q$ であるから、
    $$ g(1)=f(1) $$
    である。
    したがって、任意の $r\in\mathbb Q$ に対して、
    $$ f(r)=rf(1)\cdots① $$
    が成り立つ。
    $ $
  2. 任意の $x\in\mathbb R$ をとる。
    i) $\mathbb Q$$\mathbb R$ の稠密部分集合であるから、任意の $n\in\mathbb Z_{>0}$ に対して、ある $r_n\in\mathbb Q$ が存在して、
    $$ x-\frac{1}{n}< r_n< x+\frac{1}{n} $$
      を満たす。したがって、
    $$ -\frac{1}{n}< x-r_n<\frac{1}{n} $$
      すなわち、
    $$ |x-r_n|<\frac{1}{n} $$
      を満たす。
      そこで、任意の $\varepsilon>0$ に対して、アルキメデス性より、ある $N\in\mathbb Z_{>0}$ が存在して、
    $$ \frac{1}{N}<\varepsilon $$
      を満たす。このとき、$n\ge N$ ならば、
    $$ \frac{1}{n}\le \frac{1}{N}<\varepsilon $$
      である。したがって、$n\ge N$ ならば、
    $$ |x-r_n|<\frac{1}{n}<\varepsilon $$
      である。よって、
    $$ r_n\to x $$
      である。
    $ $
    ii) 仮定より $f$$\mathbb{R}$上で連続であるから、特に点 $x\in \mathbb{R}$ において連続である。
      すなわち、任意の $\varepsilon>0$ に対して、ある $\delta>0$ が存在して、$|t-x|<\delta$ を満たす任意の $t\in\mathbb R$ に対して、
    $$ |f(t)-f(x)|<\varepsilon $$
      が成り立つ。
      そこで、$r_n\to x$ であるから、この $\delta>0$ に対して、ある $N\in\mathbb Z_{>0}$ が存在して、
      $n\ge N$ を満たす任意の $n\in\mathbb Z_{>0}$ について、
    $$ |r_n-x|<\delta $$
      が成り立つ。
      したがって、任意の $n\in\mathbb Z_{>0}$ について、$n\ge N$ ならば、
    $$ |f(r_n)-f(x)|<\varepsilon $$
      である。
      ゆえに、数列 $\{f(r_n)\}_{n\in\mathbb Z_{>0}}$$f(x)$ に収束する。すなわち、
    $$ f(r_n)\to f(x) $$
      である。
    $ $
    iii) 一方で、各 $n\in\mathbb Z_{>0}$ に対して $r_n\in\mathbb Q$ であるから、①より
    $$ f(r_n)=r_nf(1)\cdots② $$
      である。
      また、$r_n\to x$ であり、$f(1)\in\mathbb R$ は定数であるから、
    $$ r_nf(1)\to xf(1) $$
      である。したがって、式②は
    $$ f(r_n)\to xf(1) $$
      である。一方で、ii) より、
    $$ f(r_n)\to f(x) $$
      である。よって、極限の一意性(補足を参照)より、
    $$ f(x)=xf(1) $$
      である。ここで、
    $$ a:=f(1) $$
      とおけば、$a\in\mathbb R$ であり、任意の $x\in\mathbb R$ に対して、
    $$ f(x)=ax $$
      が成り立つ。
    $$ \Box$$
連続性の役割

有理数上では、加法性だけで $f(x)=xf(1)$ が従う。
しかし、実数上では、加法性だけではすべての実数 $x$ に対して $f(x)=xf(1)$ とは限らない。
連続性を仮定すると、有理数列 $r_n\to x$ に対して $f(r_n)\to f(x)$ が使えるため、有理数上の結果を実数全体へ拡張できる。

極限の一意性

$(x_n)_{n\in\mathbb Z_{>0}}$ を実数列とし、$\alpha,\beta\in\mathbb R$ とする。このとき、
$$ x_n\to\alpha\ \land\ x_n\to\beta $$
であるならば、
$$ \alpha=\beta $$
である。
$ $
【証明】
$x_n\to\alpha$ かつ $x_n\to\beta$ であると仮定する。任意に $\varepsilon>0$ をとる。
$x_n\to\alpha$ であるから、ある $N_1\in\mathbb Z_{>0}$ が存在して、任意の $n\in\mathbb Z_{>0}$ に対して、
$$ n\ge N_1 \Rightarrow |x_n-\alpha|<\frac{\varepsilon}{2} $$
が成り立つ。
また、$x_n\to\beta$ であるから、ある $N_2\in\mathbb Z_{>0}$ が存在して、任意の $n\in\mathbb Z_{>0}$ に対して、
$$ n\ge N_2 \Rightarrow |x_n-\beta|<\frac{\varepsilon}{2} $$
が成り立つ。ここで、
$$ N:=\max\{N_1,N_2\} $$
とおく。
このとき、$N\ge N_1$ かつ $N\ge N_2$ であるから、
$$ |x_N-\alpha|<\frac{\varepsilon}{2} $$
かつ
$$ |x_N-\beta|<\frac{\varepsilon}{2} $$
が成り立つ。
三角不等式より、
$$ \begin{aligned} |\alpha-\beta| &= |\alpha-x_N+x_N-\beta|\\ &\le |\alpha-x_N|+|x_N-\beta|\\ &= |x_N-\alpha|+|x_N-\beta|\\ &< \frac{\varepsilon}{2}+\frac{\varepsilon}{2}\\ &= \varepsilon \end{aligned} $$
である。したがって、任意の $\varepsilon>0$ に対して、
$$ |\alpha-\beta|<\varepsilon\cdots(*) $$
が成り立つ。
ここで、$\alpha\ne\beta$ であると仮定する。すると、$\alpha-\beta\neq0$ であるから
$$ |\alpha-\beta|>0 $$
である。そこで、
$$ \varepsilon:=\frac{|\alpha-\beta|}{2} $$
とおくと、$\varepsilon>0$ である。しかし、式$(*)$より
$$ |\alpha-\beta|<\frac{|\alpha-\beta|}{2} $$
となり、これは矛盾である。よって、
$$ \alpha=\beta $$
である。
$$ \Box$$

乗法を加法に写す連続関数の形

連続な関数 $H:(0,\infty)\to\mathbb R$ が、任意の $n,m\in(0,\infty)$ に対して
$$ H(nm)=H(n)+H(m) $$
を満たすとする。
このとき、ある定数 $k\in\mathbb R$ が存在して、任意の $n\in(0,\infty)$ に対して
$$ H(n)=k\log n $$
が成り立つ。ここで、$\log$ は自然対数である。

連続な関数 $H:(0,\infty)\to\mathbb R$ が、任意の $n,m\in(0,\infty)$ に対して
$$ H(nm)=H(n)+H(m) $$
を満たすとする。

  1. 【乗法型の関数方程式を加法型の関数方程式に変換する】
    ここで、$x\in\mathbb R$ に対して、
    $$ f(x):=H(e^x) $$
    と定める。
    任意の $x\in\mathbb R$ に対して、
    $$ e^x\in(0,\infty) $$
    であり、仮定より $H:(0,\infty)\to\mathbb R$ であるから、
    $$ H(e^x)\in\mathbb R $$
    である。したがって、$f:\mathbb R\to\mathbb R$ は確かに定義される。
    また、指数関数 $x\mapsto e^x$$\mathbb R$ 上で連続であり、仮定より $H$ もまた $(0,\infty)$ 上で連続であるから、合成関数
    $$ f=H\circ \exp $$
    $\mathbb R$ 上で連続である。そこで、任意の $a,b\in\mathbb R$ をとる。
    このとき、
    $$ e^a\in(0,\infty),\qquad e^b\in(0,\infty) $$
    であるから、$H$ の仮定より、
    $$ H(e^ae^b)=H(e^a)+H(e^b) $$
    が成り立つ。また、指数法則より、
    $$ e^{a+b}=e^ae^b $$
    である。したがって、
    $$ \begin{aligned} f(a+b) &= H(e^{a+b})\\ &= H(e^ae^b)\\ &= H(e^a)+H(e^b)\\ &= f(a)+f(b) \end{aligned} $$
    である。よって、任意の $a,b\in\mathbb R$ に対して、
    $$ f(a+b)=f(a)+f(b)\cdots① $$
    が成り立つ。
    $ $
  2. 【連続な加法的関数の線形性を適用する】
    $1.$ より、$f:\mathbb R\to\mathbb R$ は連続であり、任意の $a,b\in\mathbb R$ に対して
    $$ f(a+b)=f(a)+f(b) $$
    を満たす。ここで、連続な加法的関数の線形性の命題(直前に示した命題)より、
    ある $k\in\mathbb R$ が存在して、任意の $x\in\mathbb R$ に対して
    $$ f(x)=kx $$
    が成り立つ。
    $ $
  3. $H$ の形に戻す】
    そこで、任意の $n\in(0,\infty)$ をとる。このとき、対数関数の定義より、
    $$ \log n\in\mathbb R $$
    であり、
    $$ e^{\log n}=n $$
    である。そこで、
    $$ x:=\log n $$
    とおくと、
    $$ n=e^x $$
    である。したがって、$f$ の定義と $f(x)=kx$ より、
    $$ \begin{aligned} H(n) &= H(e^x)\\ &= f(x)\\ &= kx\\ &= k\log n \end{aligned} $$
    である。

-よって、任意の $n\in(0,\infty)$ に対して、
$$ H(n)=k\log n $$
が成り立つ。
$$ \Box$$

$(0,1]$ 上で乗法を加法に写す連続関数の形

連続な関数 $I:(0,1]\to\mathbb R$ が、任意の $p,q\in(0,1]$ に対して
$$ I(pq)=I(p)+I(q) $$
を満たすとする。
このとき、ある定数 $c\in\mathbb R$ が存在して、任意の $p\in(0,1]$ に対して
$$ I(p)=c\log p $$
が成り立つ。ここで、$\log$ は自然対数である。

本命題と証明について

$\mathrm{Cauchy}$ の関数方程式
$$ f(x+y)=f(x)+f(y) $$
に関する標準的な事実は、通常、$f:\mathbb R\to\mathbb R$ に対して述べられる(そしてそれを既に示してきた)。
一方、自己情報量の関数形を確率 $p$ の関数として考えるとき、$p$ の範囲は通常
$$ p\in(0,1] $$
である。したがって、自己情報量に対応する連続関数
$$ I:(0,1]\to\mathbb R $$
については、定義域が $\mathbb R$ ではなく $(0,1]$ である点に注意する必要がある。
$ $
ここで、$(0,1]$ 上の連続性は、$\mathbb R$ の部分空間 $(0,1]$ に関する連続性を意味する。
特に、点 $1$ においては、定義域内から近づく場合の連続性を意味する。
$ $
ここで示す命題は、定義域を $(0,1]$ に制限した場合に、乗法を加法に写す連続関数の形を求めるものである。
しかし、$(0,\infty)$ 上の場合と本質的な考え方は同じであるので、以下の証明は必要に応じて参照すればよい。
$ $
相違点としては、変数変換によって得られる加法的関数の定義域が $\mathbb R$ ではなく $[0,\infty)$ になる点が異なる。
実際、
$$ f(t):=I(e^{-t}) $$
とおくと、$t\in[0,\infty)$ に対して $e^{-t}\in(0,1]$ であるため、$f$$[0,\infty)$ 上の関数として定義される。
そのため、証明では $f$$[0,\infty)$ 上の連続な加法的関数であることを確認し、そこから $f(t)=at$ の形を導く必要がある。

連続な関数 $I:(0,1]\to\mathbb R$ が、任意の $p,q\in(0,1]$ に対して
$$ I(pq)=I(p)+I(q) $$
を満たすとする。

  1. まず、$I(1)=0$ を示す。
    仮定より、
    $$ I(1)=I(1\cdot1)=I(1)+I(1) $$
    である。
    両辺から $I(1)$ を引くと、
    $$ I(1)=0 $$
    である。
    $ $
  2. 次に、乗法型の関数方程式を加法型の関数方程式に変換する。
    $t\in[0,\infty)$ に対して、
    $$ f(t):=I(e^{-t}) $$
    と定める。任意の $t\in[0,\infty)$ に対して、
    $$ 0< e^{-t}\le1 $$
    であるから、$e^{-t}\in(0,1]$ である。
    したがって、$I(e^{-t})$ は定義され、$f:[0,\infty)\to\mathbb R$ は確かに定義される。
    $ $
    また、写像 $t\mapsto e^{-t}$$[0,\infty)$ 上で連続であり、$I$ は仮定より $(0,1]$ 上で連続であるから、
    合成関数 $f$$[0,\infty)$ 上で連続である(補足を参照)。
    $ $
    さらに、任意の $s,t\in[0,\infty)$ に対して、
    $$ e^{-s},e^{-t}\in(0,1] $$
    であり、指数法則より
    $$ e^{-(s+t)}=e^{-s}e^{-t} $$
    である。よって、$I$ の加法性(仮定)より、
    $$ \begin{aligned} f(s+t) &=I(e^{-(s+t)})\\ &=I(e^{-s}e^{-t})\\ &=I(e^{-s})+I(e^{-t})\\ &=f(s)+f(t) \end{aligned} $$
    である。
    したがって、任意の $s,t\in[0,\infty)$ に対して、
    $$ f(s+t)=f(s)+f(t) $$
    が成り立つ。
    $ $
  3. $f$$[0,\infty)$ 上で線形であることを示す。
    まず、$f(0)=0$ を示す。$2.$ で示した $f$ の加法性より、
    $$ f(0)=f(0+0)=f(0)+f(0) $$
    であるから、
    $$ f(0)=0 $$
    である。
    次に、任意の $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1) $$
    が成り立つことを数学的帰納法で示す。
    i) $n=0$ のとき、
    $$ f(0)=0=0f(1) $$
      であるから成り立つ。
    $ $
    ii) ある $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1) $$
      が成り立つと仮定する。
    $ $
    iii) このとき、
    $$ \begin{align} f(n+1)&=f(n)+f(1)\\ &=nf(1)+f(1)\quad \because f(n)=nf(1)\\ &=(n+1)f(1) \end{align} $$
      である。
    $ $
    iv) したがって、数学的帰納法により、任意の $n\in\mathbb Z_{\ge 0}$ に対して、
    $$ f(n)=nf(1) $$
      が成り立つ。
    次に、任意の $n\in\mathbb Z_{>0}$ に対して、
    $$ 1=\underbrace{\frac{1}{n}+\frac{1}{n}+\cdots+\frac{1}{n}}_{n\text{個}} $$
    であるから、加法性を繰り返し用いると、
    $$ f(1)=nf\left(\frac{1}{n}\right) $$
    である。よって、
    $$ f\left(\frac{1}{n}\right)=\frac{1}{n}f(1) $$
    である。
    したがって、任意の $m\in\mathbb Z_{\ge0}$ と任意の $n\in\mathbb Z_{>0}$ に対して、
    $$ \frac{m}{n} = \underbrace{\frac{1}{n}+\frac{1}{n}+\cdots+\frac{1}{n}}_{m\text{個}} $$
    であるから、
    $$ \begin{aligned} f\left(\frac{m}{n}\right) &= mf\left(\frac{1}{n}\right)\\ &= m\frac{1}{n}f(1)\\ &= \frac{m}{n}f(1) \end{aligned} $$
    である(補足を参照)。よって、任意の $r\in\mathbb Q\cap[0,\infty)$ に対して、
    $$ f(r)=rf(1) $$
    が成り立つ。
    $ $
  4. 次に、任意の $t\in[0,\infty)$ をとる。
    まず、$\mathbb Q\cap[0,\infty)$ 上の点列で $t$ に収束するものを構成する。
    任意の $j\in\mathbb Z_{>0}$ に対して、
    $$ \alpha_j:=\max\left\{0,t-\frac{1}{j}\right\} $$
    とおく。このとき、
    $$ \alpha_j< t+\frac{1}{j} $$
    である。有理数の稠密性より、ある $r_j\in\mathbb Q$ が存在して、
    $$ \alpha_j< r_j< t+\frac{1}{j} $$
    を満たす。特に、$\alpha_j\ge0$ であるから、
    $$ r_j\in\mathbb Q\cap[0,\infty) $$
    である。また、$\alpha_j\ge t-\frac{1}{j}$ であるから、
    $$ t-\frac{1}{j}< r_j< t+\frac{1}{j} $$
    である。したがって、
    $$ |r_j-t|<\frac{1}{j} $$
    が成り立つ。よって、
    $$ r_j\to t $$
    である。
    $ $
  5. 次に、$f$$[0,\infty)$ 上で連続であるから、点 $t$ において連続である。
    したがって、$r_j\to t$ かつ各 $j\in\mathbb Z_{>0}$ について $r_j\in[0,\infty)$ であることより、
    $$ f(r_j)\to f(t) $$
    である(補足を参照)。
    一方、各 $j\in\mathbb Z_{>0}$ に対して、
    $$ r_j\in\mathbb Q\cap[0,\infty) $$
    であるから、非負有理数上で既に示した結果より、
    $$ f(r_j)=r_jf(1) $$
    である。また、
    $$ r_j\to t $$
    であり、$f(1)\in\mathbb R$ は定数であるから、数列の極限の定数倍の性質より、
    $$ r_jf(1)\to tf(1) $$
    である。したがって、
    $$ f(r_j)\to tf(1) $$
    である。以上より、同じ数列 $(f(r_j))_{j\in\mathbb Z_{>0}}$$f(t)$ にも $tf(1)$ にも収束する。
    実数列の極限の一意性(補足を参照)より、
    $$ f(t)=tf(1) $$
    である。$t\in[0,\infty)$ は任意であったから、任意の $t\in[0,\infty)$ に対して、
    $$ f(t)=tf(1) $$
    が成り立つ。
    $ $
  6. 最後に、$I$ の形へ戻す。
    任意の $p\in(0,1]$ をとる。このとき、
    $$ \log p\le0 $$
    であるから、
    $$ -\log p\in[0,\infty) $$
    である。また、
    $$ p=e^{-(-\log p)} $$
    である。よって、$f$ の定義より、
    $$ I(p)=I(e^{-(-\log p)})=f(-\log p) $$
    である。
    $5.$ より、任意の $t\in[0,\infty)$ に対して $f(t)=tf(1)$ であるから、
    $$ \begin{aligned} I(p) &=f(-\log p)\\ &=(-\log p)f(1)\\ &=-f(1)\log p \end{aligned} $$
    である。ここで、
    $$ c:=-f(1) $$
    とおくと、$c\in\mathbb R$ であり、任意の $p\in(0,1]$ に対して、
    $$ I(p)=c\log p $$
    が成り立つ。
    $$ \Box$$
合成関数 $f(t)=I(e^{-t})$ の連続性
  1. $t\in[0,\infty)$ に対して、
    $$ f(t):=I(e^{-t}) $$
    と定める。このとき、写像
    $$ g:[0,\infty)\to(0,1], \qquad g(t):=e^{-t} $$
    を考えると、任意の $t\in[0,\infty)$ に対して、
    $$ f(t)=I(e^{-t})=I(g(t))=(I\circ g)(t) $$
    である。したがって、
    $$ f=I\circ g $$
    である。
    $ $
  2. ここで、$g(t)=e^{-t}$$[0,\infty)$ 上で連続である。また、仮定より $I$$(0,1]$ 上で連続である。
    さらに、任意の $t\in[0,\infty)$ に対して、
    $$ 0< e^{-t}\le1 $$
    であるから、
    $$ g(t)=e^{-t}\in(0,1] $$
    である。したがって、$I(g(t))$ はすべての $t\in[0,\infty)$ に対して定義される。
    $ $
  3. よって、連続関数どうしの合成は連続であるから、$f=I\circ g$$[0,\infty)$ 上で連続である。
    このことを $\varepsilon$$\delta$ で確認する。任意に $t_0\in[0,\infty)$ をとる。
    このとき、
    $$ g(t_0)=e^{-t_0}\in(0,1] $$
    である。$I$$(0,1]$ 上で連続であるから、任意の $\varepsilon>0$ に対して、ある $\eta>0$ が存在して、
    $|u-e^{-t_0}|<\eta$ を満たすような任意の $u\in(0,1]$ に対して、
    $$ |I(u)-I(e^{-t_0})|<\varepsilon $$
    が成り立つ。
    また、$g(t)=e^{-t}$$[0,\infty)$ 上で連続であるから、この $\eta>0$ に対して、ある $\delta>0$ が存在して、
    $|t-t_0|<\delta$ を満たすような任意の $t\in[0,\infty)$ に対して、
    $$ |e^{-t}-e^{-t_0}|<\eta $$
    が成り立つ。
    ここで、$e^{-t}\in(0,1]$ であるから、$I$ の連続性を $u=e^{-t}$ に適用できる。よって、
    $$ |I(e^{-t})-I(e^{-t_0})|<\varepsilon $$
    である。
    すなわち、
    $$ |f(t)-f(t_0)|<\varepsilon $$
    である。

-したがって、$f$ は点 $t_0$ で連続である。
$t_0\in[0,\infty)$ は任意であったから、$f$$[0,\infty)$ 上で連続である。

$f(r_j)\to f(t)$

$f$$[0,\infty)$ 上で連続であるから、特に点 $t\in[0,\infty)$ において連続である。
すなわち、任意の $\varepsilon>0$ に対して、ある $\delta>0$ が存在して、任意の $x\in[0,\infty)$ に対して、
$$ |x-t|<\delta \Rightarrow |f(x)-f(t)|<\varepsilon $$
が成り立つ。
一方、$r_j\to t$ であるから、この $\delta>0$ に対して、ある $J\in\mathbb Z_{>0}$ が存在して、任意の $j\in\mathbb Z_{>0}$ に対して、
$$ j\ge J \Rightarrow |r_j-t|<\delta $$
が成り立つ。
また、各 $j\in\mathbb Z_{>0}$ について、
$$ r_j\in\mathbb Q\cap[0,\infty) $$
であるから、特に
$$ r_j\in[0,\infty) $$
である。
したがって、$j\ge J$ ならば、$r_j\in[0,\infty)$ かつ $|r_j-t|<\delta$ であるので、点 $t$ における $f$ の連続性より、
$$ |f(r_j)-f(t)|<\varepsilon $$
が成り立つ。
$ $
以上より、任意の $\varepsilon>0$ に対して、ある $J\in\mathbb Z_{>0}$ が存在して、任意の $j\in\mathbb Z_{>0}$ に対して、
$$ j\ge J \Rightarrow |f(r_j)-f(t)|<\varepsilon $$
が成り立つ。これは、数列 $(f(r_j))_{j\in\mathbb Z_{>0}}$$f(t)$ に収束することを意味する。

$f\left(\frac{m}{n}\right)=\frac{m}{n}f(1)$ について

厳密にするなら $m=0$ の場合と $m>0$ の場合を分ける必要がある。

  1. まず、$m=0$ のとき、
    $$ f\left(\frac{0}{n}\right)=f(0)=0=\frac{0}{n}f(1) $$
    である。
    $ $
  2. 次に、$m\in\mathbb Z_{>0}$ とする。このとき、
    $$ \frac{m}{n} = \underbrace{\frac{1}{n}+\frac{1}{n}+\cdots+\frac{1}{n}}_{m\text{個}} $$
    であるから、加法性を繰り返し用いて、
    $$ f\left(\frac{m}{n}\right) = mf\left(\frac{1}{n}\right) = \frac{m}{n}f(1) $$
    である。
極限の一意性

$(x_n)_{n\in\mathbb Z_{>0}}$ を実数列とし、$\alpha,\beta\in\mathbb R$ とする。このとき、
$$ x_n\to\alpha\ \land\ x_n\to\beta $$
であるならば、
$$ \alpha=\beta $$
である。
$ $
【証明】
$x_n\to\alpha$ かつ $x_n\to\beta$ であると仮定する。任意に $\varepsilon>0$ をとる。
$x_n\to\alpha$ であるから、ある $N_1\in\mathbb Z_{>0}$ が存在して、任意の $n\in\mathbb Z_{>0}$ に対して、
$$ n\ge N_1 \Rightarrow |x_n-\alpha|<\frac{\varepsilon}{2} $$
が成り立つ。
また、$x_n\to\beta$ であるから、ある $N_2\in\mathbb Z_{>0}$ が存在して、任意の $n\in\mathbb Z_{>0}$ に対して、
$$ n\ge N_2 \Rightarrow |x_n-\beta|<\frac{\varepsilon}{2} $$
が成り立つ。ここで、
$$ N:=\max\{N_1,N_2\} $$
とおく。
このとき、$N\ge N_1$ かつ $N\ge N_2$ であるから、
$$ |x_N-\alpha|<\frac{\varepsilon}{2} $$
かつ
$$ |x_N-\beta|<\frac{\varepsilon}{2} $$
が成り立つ。
三角不等式より、
$$ \begin{aligned} |\alpha-\beta| &= |\alpha-x_N+x_N-\beta|\\ &\le |\alpha-x_N|+|x_N-\beta|\\ &= |x_N-\alpha|+|x_N-\beta|\\ &< \frac{\varepsilon}{2}+\frac{\varepsilon}{2}\\ &= \varepsilon \end{aligned} $$
である。したがって、任意の $\varepsilon>0$ に対して、
$$ |\alpha-\beta|<\varepsilon\cdots(*) $$
が成り立つ。
ここで、$\alpha\ne\beta$ であると仮定する。すると、$\alpha-\beta\neq0$ であるから
$$ |\alpha-\beta|>0 $$
である。そこで、
$$ \varepsilon:=\frac{|\alpha-\beta|}{2} $$
とおくと、$\varepsilon>0$ である。しかし、式$(*)$より
$$ |\alpha-\beta|<\frac{|\alpha-\beta|}{2} $$
となり、これは矛盾である。よって、
$$ \alpha=\beta $$
である。
$$ \Box$$

自己情報量の関数形

$\log$ を自然対数とする。
関数 $I:(0,1]\to\mathbb R$ が次の性質を満たすとする。

  1. 単調減少性
    任意の $p_1,p_2\in(0,1]$ に対して、
    $$ p_1< p_2 \Rightarrow I(p_1)>I(p_2) $$
    が成り立つ。
    $ $
  2. 連続性
    $I$$(0,1]$ 上で連続である。
    $ $
  3. 加法性
    任意の $p,q\in(0,1]$ に対して、
    $$ I(pq)=I(p)+I(q) $$
    が成り立つ。

-このとき、ある定数 $K>0$ が存在して、任意の $p\in(0,1]$ に対して
$$ I(p)=-K\log p $$
が成り立つ。

$3$ つの要請の意図

ここで課している $3$ つの要請は、自己情報量に期待される基本的な性質を数学的に表したものである。
$1.$ 単調減少性:確率が小さい事象ほど多くの情報をもつ、という直観を表している。
$2.$ 連続性:確率が少しだけ変化したとき、自己情報量も急激に飛び跳ねず、少しだけ変化するべきである、という自然な要請である。
$3.$ 加法性:独立な事象が同時に起こるとき、その全体の情報量は各事象の情報量の和である、という考えを表している。

関数 $I:(0,1]\to\mathbb R$ が、命題の $1.\,\ 2.\,\ 3.$ を満たすとする。

  1. まず、連続性と加法性から対数型であることを導く。
    $I$$(0,1]$ 上で連続であり、任意の $p,q\in(0,1]$ に対して
    $$ I(pq)=I(p)+I(q) $$
    を満たす。
    したがって、既に示した $(0,1]$ 上で乗法を加法に写す連続関数の形より、ある $c\in\mathbb R$ が存在して、任意の $p\in(0,1]$ に対して
    $$ I(p)=c\log p $$
    が成り立つ。
    $ $
  2. 次に、単調減少性から $c<0$ を示す。
    $$ 0< e^{-1}<1 $$
    であり、$e^{-1},1\in(0,1]$ である。
    単調減少性の仮定より、
    $$ I(e^{-1})>I(1)\cdots① $$
    が成り立つ。
    一方、$1.$ で示した表示より、
    $$ \begin{align} I(e^{-1}) &=c\log(e^{-1})\\ &=c\cdot(-1) \quad \because \log(e^x)=x \\ &=-c \end{align} $$
    であり、
    $$ I(1)=c\log1=0 $$
    である。したがって、式①より
    $$ -c>0 $$
    である。よって、
    $$ c<0 $$
    である。ここで、
    $$ K:=-c $$
    とおく。また $c<0$ であるから、
    $$ K>0 $$
    である。故に、任意の $p\in(0,1]$ に対して、
    $$ I(p)=c\log p=-K\log p $$
    が成り立つ。

-したがって、ある定数 $K>0$ が存在して、任意の $p\in(0,1]$ に対して
$$ I(p)=-K\log p $$
が成り立つ。
$$ \Box$$

命題から自己情報量の定義へ

上の命題により、確率 $p\in(0,1]$ に対して定まる情報量 $I(p)$ が、単調減少性、連続性、加法性を満たすならば、
ある定数 $K>0$ が存在して、
$$ I(p)=-K\log p $$
と表されることが分かった。
$ $
これは、確率が小さい事象ほど情報量が大きく、確率が $1$ の事象の情報量は $0$ である。
$ $
そこで、確率空間 $(\Omega,\mathcal F,\mathbb P)$ における事象 $A\in\mathcal F$ に対して、$\mathbb P(A)>0$ のとき、事象 $A$ の自己情報量を
$$ I_b(A):=-\log_b\mathbb P(A) $$
で定義する。

ここで、$K>0$ は情報量の尺度を何倍で測るかを表す定数である。
一方、対数の底 $b>1$ を選ぶと、
$$ -\log_b \mathbb{P}(A) = -\frac{1}{\log b}\log \mathbb{P}(A) $$
である。
したがって、底 $b$ に関する自己情報量を
$$ I_b(A):=-\log_b \mathbb{P}(A) $$
と定義することは、自然対数表示において
$$ K=\frac{1}{\log b} $$
を選ぶことに対応する。

独立性と自己情報量の加法性の意味

$A,B\in\mathcal F$ が独立であるとは、
$$ \mathbb P(A\cap B)=\mathbb P(A)\mathbb P(B) $$
が成り立つことである。したがって、$A$$B$ が独立であり、
$$ \mathbb P(A)>0,\qquad \mathbb P(B)>0 $$
であるならば、
$$ \mathbb P(A\cap B)=\mathbb P(A)\mathbb P(B)>0 $$
である。
よって、$I(A\cap B)$ も実数として定義される。
このとき、
$$ \begin{align} I(A\cap B) &=-\log_b\mathbb P(A\cap B)\\ &=-\log_b(\mathbb P(A)\mathbb P(B)) \quad \because A\text{ と }B\text{ は独立である}\\ &=-(\log_b\mathbb P(A)+\log_b\mathbb P(B)) \quad \because \log_b(xy)=\log_b x+\log_b y\\ &=-\log_b\mathbb P(A)-\log_b\mathbb P(B)\\ &=I(A)+I(B) \end{align} $$
である。この性質は、独立な出来事から得られる情報量は足し合わされる、という直観を表している。
$ $
たとえば、$A$ が起こったという情報と、$B$ が起こったという情報が互いに独立ならば、
$A\cap B$ が起こったという情報は、その $2$ つの情報を同時に得たものと考えられる。
$ $
一方、$A$$B$ が独立でない場合には、一般に
$$ \mathbb P(A\cap B)\ne \mathbb P(A)\mathbb P(B) $$
である。そのため、一般には
$$ I(A\cap B)=I(A)+I(B) $$
とは限らない。

自己情報量の非負性

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、底 $b>1$ を固定する。
$A\in\mathcal F$ を事象とし、
$$ \mathbb P(A)>0 $$
とする。このとき、
$$ I_b(A)\ge0 $$
が成り立つ。

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、$A\in\mathcal F$ かつ $\mathbb P(A)>0$ とする。
確率測度の性質より、
$$ 0\le\mathbb P(A)\le1 $$
である。さらに、仮定より
$$ \mathbb P(A)>0 $$
であるから、
$$ 0<\mathbb P(A)\le1 $$
である。ここで、底 $b>1$ の対数関数 $\log_b x$$(0,\infty)$ 上で狭義単調増加である。
したがって、
$$ 0<\mathbb P(A)\le1\ \Longrightarrow \ \log_b\mathbb P(A)\le\log_b1 $$
である。また、
$$ \log_b1=0 $$
であるから、
$$ \log_b\mathbb P(A)\le0 $$
である。両辺に $-1$ を掛けると、不等号の向きが反転して、
$$ -\log_b\mathbb P(A)\ge0 $$
である。自己情報量の定義より、
$$ I_b(A):=-\log_b\mathbb P(A) $$
であるから、
$$ I_b(A)\ge0 $$
が成り立つ。
$$ \Box$$

等号成立条件

上の証明より、等号成立条件は
$$ I_b(A)=0 \Longleftrightarrow -\log_b\mathbb P(A)=0 $$
である。底 $b>1$ の対数関数について、
$$ \log_b x=0 \Longleftrightarrow x=1 $$
であるから、
$$ I_b(A)=0 \Longleftrightarrow \mathbb P(A)=1 $$
が成り立つ。したがって、確率 $1$ で起こる事象の自己情報量は $0$ である。

確率 $0$ に近づくと自己情報量が発散することの意味

自己情報量を
$$ I(p):=-K\log p \qquad (K>0) $$
で定める。このとき、
$$ \lim_{p\downarrow 0}I(p)=+\infty $$
である。これは、$p$$0$ に近づくほど、事象が極めて起こりにくくなり、
その事象が実際に起こったと知ったときの情報量がいくらでも大きくなることを意味する。
$ $
より具体的には、任意の $M>0$ に対して、ある $\delta>0$ が存在して、
$$ 0< p<\delta \Rightarrow I(p)>M $$
が成り立つ、ということである。実際、
$$ I(p)>M $$

$$ -K\log p>M $$
と同値である。ここで、$K>0$ であるから、
$$ \log p<-\frac{M}{K} $$
であるが、指数関数は狭義単調増加であるから、これは
$$ p< e^{-M/K} $$
である。したがって、
$$ \delta:=e^{-M/K} $$
とおけば、$0< p<\delta$ である任意の $p$ に対して、
$$ I(p)>M $$
が成り立つ。よって、
$$ \lim_{p\downarrow 0}I(p)=+\infty $$
である。
$ $
ただし、この主張は $p=0$$I(0)$ が実数として定義されるという意味ではない。
実数値の自己情報量では、$\log 0$ が定義されないため、通常は $p>0$ の範囲で
$$ I(p)=-K\log p $$
を考える。そのうえで、$p$$0$ に近づけると $I(p)$$+\infty$ へ発散する、という極限の主張をしているのである。

自己情報量の凸性

$K>0$ とし、関数
$$ I:(0,1]\to\mathbb R,\qquad I(p):=-K\log p $$
を定める。このとき、$I$$(0,1]$ 上の凸関数である。
すなわち、任意の $p,q\in(0,1]$ と任意の $t\in[0,1]$ に対して、
$$ I(tp+(1-t)q) \le tI(p)+(1-t)I(q) $$
が成り立つ。

$K>0$ とし、
$$ I(p):=-K\log p $$
と定める。

  1. まず、$(0,1)$ 上で $I$$2$ 階微分を計算する。
    任意の $p\in(0,1)$ に対して、
    $$ I'(p) = -\frac{K}{p} $$
    である。さらに微分すれば
    $$ I''(p) = \frac{K}{p^2} $$
    である。ここで、$p\in(0,1)$ であるから、
    $$ p^2>0 $$
    である。また、$K>0$ であるから、
    $$ I''(p)=\frac{K}{p^2}>0 $$
    である。したがって、任意の $p\in(0,1)$ に対して、
    $$ I''(p)\ge0 $$
    が成り立つ。
    $ $
  2. 次に、$(0,1)$ 上での凸性を示す。
    一般に、区間の内部で $2$ 回微分可能な関数 $f$
    $$ f''(x)\ge0 $$
    を満たすならば、$f$ はその区間上で凸関数である( 証明はこちら )。
    したがって、$1.$ より、$I$$(0,1)$ 上で凸関数である。
    すなわち、任意の $p,q\in(0,1)$ と任意の $t\in[0,1]$ に対して、
    $$ I(tp+(1-t)q) \le tI(p)+(1-t)I(q) $$
    が成り立つ。
    $ $
  3. 最後に、端点 $1$ を含む場合を示す。
    任意の $p,q\in(0,1]$ と任意の $t\in[0,1]$ をとる。
    $p,q\in(0,1)$ の場合は、$2.$ よりすでに成り立つ。そこで、少なくとも一方が $1$ である場合を考える。
    i) まず、$p=1$ の場合を考える。
     $q\in(0,1]$ とする。
     $q=1$ の場合は、
    $$ I(t\cdot1+(1-t)\cdot1) = I(1) = tI(1)+(1-t)I(1) $$
     であるから成り立つ。
    $ $
    ii) 次に、$q\in(0,1)$ とする。
     数列 $(p_n)_{n\in\mathbb Z_{>0}}$
    $$ p_n:=1-\frac{1}{n+1} $$
     で定める。
    $ $
    iii) このとき、任意の $n\in\mathbb Z_{>0}$ に対して、
    $$ p_n\in(0,1) $$
     であり、
    $$ p_n\to1 $$
     である。$2.$ より、任意の $n\in\mathbb Z_{>0}$ に対して、
    $$ I(tp_n+(1-t)q) \le tI(p_n)+(1-t)I(q) $$
     が成り立つ。
     ここで、$I$$(0,1]$ 上で連続である。また、
    $$ tp_n+(1-t)q\to t\cdot1+(1-t)q $$
     である。したがって、$n\to\infty$ とすると、
    $$ I(t\cdot1+(1-t)q) \le tI(1)+(1-t)I(q) $$
     が得られる。よって、$p=1$ の場合にも凸不等式が成り立つ。
     $q=1$ の場合も同様に、$q_n:=1-\frac{1}{n+1}$ として $q_n\to1$ とすれば、同じ議論により凸不等式が成り立つ。

-したがって、任意の $p,q\in(0,1]$ と任意の $t\in[0,1]$ に対して、
$$ I(tp+(1-t)q) \le tI(p)+(1-t)I(q) $$
が成り立つ。ゆえに、$I$$(0,1]$ 上の凸関数である。
$$ \Box$$

参考文献

投稿日:11日前
更新日:11日前
数学の力で現場を変える アルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura
Kagura
7
4872
■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。          ----------------------------------------------- ■ ノート『数学概論』の読み方     STEP1:まずは定義を一通り理解し覚える。 STEP2:各命題の主張を一通り理解する。 STEP3:証明を繰り返し読んで流れを掴む。 STEP4:何も見ずに定義に従って証明を創る。 STEP5:他の証明方法を創ってみる。     ※ポイントは全体から細部へ読む事(´・ω・`)

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中