$$$$
Prop&Proof
有限個の凸結合に対するイェンセンの不等式
$I\subseteq\mathbb R$ を空でない区間とし、$f:I\to\mathbb R$ を凸関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\le t f(x)+(1-t)f(y)
$$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n \alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\le
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
数学的帰納法により示す。
- まず、$n=1$ の場合を示す。
このとき、
$$
\sum_{i=1}^1\alpha_i=1
$$
より、
$$
\alpha_1=1
$$
である。したがって、
$$
f\left(\sum_{i=1}^1\alpha_i x_i\right)
=
f(\alpha_1 x_1)
=
f(x_1)
$$
であり、
$$
\sum_{i=1}^1\alpha_i f(x_i)
=
\alpha_1 f(x_1)
=
f(x_1)
$$
である。ゆえに、
$$
f\left(\sum_{i=1}^1\alpha_i x_i\right)
\le
\sum_{i=1}^1\alpha_i f(x_i)
$$
が成り立つ。
$ $ - 次に、$n=2$ の場合は、凸性の定義そのものである。
実際、$\alpha_1,\alpha_2\ge0$ かつ
$$
\alpha_1+\alpha_2=1
$$
ならば、
$$
\alpha_2=1-\alpha_1
$$
であり、$\alpha_1\in[0,1]$ である。
したがって、凸性の定義より、
$$
f(\alpha_1x_1+\alpha_2x_2)
=
f(\alpha_1x_1+(1-\alpha_1)x_2)
\le
\alpha_1f(x_1)+(1-\alpha_1)f(x_2)
=
\alpha_1f(x_1)+\alpha_2f(x_2)
$$
である。
$ $ - 次に、ある $k\in\mathbb N$ に対して、$n=k$ の場合に主張が成り立つと仮定する。
すなわち、任意の $x_1,\ldots,x_k\in I$ と任意の $\alpha_1,\ldots,\alpha_k\ge0$ で、
$$
\sum_{i=1}^k\alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^k\alpha_i x_i\right)
\le
\sum_{i=1}^k\alpha_i f(x_i)
$$
が成り立つと仮定する。
$ $ - $n=k+1$ の場合を示す。
$x_1,\ldots,x_{k+1}\in I$ と $\alpha_1,\ldots,\alpha_{k+1}\ge0$ を任意に取り、
$$
\sum_{i=1}^{k+1}\alpha_i=1
$$
とする。
ここで、
$$
\beta:=\sum_{i=1}^k\alpha_i
$$
とおく。
このとき、
$$
\beta+\alpha_{k+1}=1
$$
であり、
$$
0\le\beta\le1
$$
である。
$ $
i) $\beta=0$ の場合。
$\alpha_i\ge0$ であり、
$$
\beta=\sum_{i=1}^k\alpha_i=0
$$
であるから、
$$
\alpha_1=\alpha_2=\cdots=\alpha_k=0
$$
である。また、
$$
\beta+\alpha_{k+1}=1
$$
より、
$$
\alpha_{k+1}=1
$$
である。したがって、
$$
\sum_{i=1}^{k+1}\alpha_i x_i=x_{k+1}
$$
であり、
$$
\sum_{i=1}^{k+1}\alpha_i f(x_i)=f(x_{k+1})
$$
である。ゆえに、
$$
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
=
f(x_{k+1})
=
\sum_{i=1}^{k+1}\alpha_i f(x_i)
$$
である。したがって、この場合は等号として成り立つ。
$ $
ii) $\beta=1$ の場合。
このとき、
$$
\alpha_{k+1}=0
$$
である。したがって、
$$
\sum_{i=1}^{k+1}\alpha_i x_i
=
\sum_{i=1}^{k}\alpha_i x_i
$$
であり、
$$
\sum_{i=1}^{k+1}\alpha_i f(x_i)
=
\sum_{i=1}^{k}\alpha_i f(x_i)
$$
である。また、$\beta+\alpha_{k+1}=1$ より
$$
\sum_{i=1}^{k}\alpha_i=\beta=1
$$
であるから、帰納法の仮定より、
$$
f\left(\sum_{i=1}^{k}\alpha_i x_i\right)
\le
\sum_{i=1}^{k}\alpha_i f(x_i)
$$
である。したがって、
$$
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
\le
\sum_{i=1}^{k+1}\alpha_i f(x_i)
$$
が成り立つ。
$ $
iii) $0<\beta<1$ の場合。
このとき、$i=1,\ldots,k$ に対して、
$$
\lambda_i:=\frac{\alpha_i}{\beta}
$$
とおく。すると、
$$
\lambda_i\ge0
$$
であり、
$$
\sum_{i=1}^k\lambda_i
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}
=
\frac{1}{\beta}\sum_{i=1}^k\alpha_i
=
1
$$
である。ここで、
$$
y:=\sum_{i=1}^k\lambda_i x_i
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i
$$
とおく。
$ $
ここで、帰納法の仮定を適用するためには $y\in I$ であることが必要である。実際、$I$ は区間であり、区間は凸集合である。
さらに、$\lambda_i\ge0$ かつ $\sum_{i=1}^k\lambda_i=1$ であるから、$y$ は $x_1,\ldots,x_k$ の凸結合である。
よって、帰納法の仮定の適用対象として $y\in I$ である(
証明はコチラ
)。
$ $
帰納法の仮定より、
$$
f(y)
=
f\left(\sum_{i=1}^k\lambda_i x_i\right)
\le
\sum_{i=1}^k\lambda_i f(x_i)
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i)
$$
が成り立つ。また、
$$
\beta+\alpha_{k+1}=1
$$
であり、$0<\beta<1$ かつ $\alpha_{k+1}\ge0$ であるから、$\beta$ と $\alpha_{k+1}$ は $2$ 点の凸結合の重みである。
さらに、
$$
\begin{align}
\beta y+\alpha_{k+1}x_{k+1}
&=
\beta\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i+\alpha_{k+1}x_{k+1}
\\
&=
\sum_{i=1}^k\alpha_i x_i+\alpha_{k+1}x_{k+1}
\\
&=
\sum_{i=1}^{k+1}\alpha_i x_i
\end{align}
$$
である。凸性の定義より、
$$
f(\beta y+\alpha_{k+1}x_{k+1})
\le
\beta f(y)+\alpha_{k+1}f(x_{k+1})
$$
である。したがって、
$$
\begin{align}
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
&=
f(\beta y+\alpha_{k+1}x_{k+1})
\\
&\le
\beta f(y)+\alpha_{k+1}f(x_{k+1})
\\
&\le
\beta\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i)
+
\alpha_{k+1}f(x_{k+1})
\\
&=
\sum_{i=1}^k\alpha_i f(x_i)
+
\alpha_{k+1}f(x_{k+1})
\\
&=
\sum_{i=1}^{k+1}\alpha_i f(x_i)
\end{align}
$$
である。したがって、$n=k+1$ の場合も成り立つ。
-以上より、数学的帰納法により、任意の $n\in\mathbb N$ に対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$$ \Box$$
等号が成立する十分条件
有限個の凸結合に対するイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、等号がいつ成立するかは、$f$ が単なる凸関数である場合と、狭義凸関数である場合で異なる。
- まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
$$
x_i=a
$$
が成り立つ場合には、等号が成立する。
実際、このとき
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i=1}^n\alpha_i a
=
a\sum_{i=1}^n\alpha_i
=
a
$$
であるから、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
f(a)
$$
である。また、
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i=1}^n\alpha_i f(a)
=
f(a)\sum_{i=1}^n\alpha_i
=
f(a)
$$
である。したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$ $ - ただし、$f$ が単なる凸関数である場合、等号成立は必ずしも
$$
x_1=x_2=\cdots=x_n
$$
だけに限られない。
例えば、$f$ が $x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
$$
f(x)=ax+b
$$
と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
実際、このとき
$$
\begin{align}
f\left(\sum_{i=1}^n\alpha_i x_i\right)
&=
a\left(\sum_{i=1}^n\alpha_i x_i\right)+b
\\
&=
\sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i
\\
&=
\sum_{i=1}^n\alpha_i(ax_i+b)
\\
&=
\sum_{i=1}^n\alpha_i f(x_i)
\end{align}
$$
である。
狭義凸関数に対する有限個の凸結合のイェンセンの不等式
$I\subseteq\mathbb R$ を空でない区間とし、$f:I\to\mathbb R$ を狭義凸関数とする。
すなわち、任意の $u,v\in I$ と任意の $t\in(0,1)$ に対して、
$$
u\ne v
\Longrightarrow
f(tu+(1-t)v)< tf(u)+(1-t)f(v)
$$
が成り立つとする。
$n\in\mathbb N$ とし、$x_1,\ldots,x_n\in I$ とする。また、$\alpha_1,\ldots,\alpha_n\geq0$ が
$$
\sum_{i=1}^{n}\alpha_i=1
$$
を満たすとする。
さらに、正の重みをもつ添字集合を
$$
S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\}
$$
とおく。
このとき、ある $i,j\in S$ が存在して
$$
x_i\ne x_j
$$
が成り立つならば、
$$
f\left(\sum_{i=1}^{n}\alpha_i x_i\right)
<
\sum_{i=1}^{n}\alpha_i f(x_i)
$$
が成り立つ。
まず、$\alpha_i=0$ である添字は左辺にも右辺にも寄与しない。
実際、
$$
\alpha_i x_i=0,
\quad
\alpha_i f(x_i)=0
$$
である。
したがって、
$$
\sum_{i=1}^{n}\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
$$
かつ
$$
\sum_{i=1}^{n}\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
$$
である。また、
$$
\sum_{i\in S}\alpha_i=1
$$
であり、任意の $i\in S$ に対して
$$
\alpha_i>0
$$
である。よって、はじめからすべての重みが正である場合を示せば十分である。
そこで、$m:=|S|$ とし、$S=\{s_1,\ldots,s_m\}$ と書く。このとき、
$$
a_r:=\alpha_{s_r},
\quad
y_r:=x_{s_r}
\quad
(r=1,\ldots,m)
$$
とおくと、
$$
a_r>0,
\quad
\sum_{r=1}^{m}a_r=1
$$
であり、仮定より $y_1,\ldots,y_m$ はすべて等しいわけではない。
したがって、次を示せばよい。
$$
f\left(\sum_{r=1}^{m}a_r y_r\right)
<
\sum_{r=1}^{m}a_r f(y_r)
$$
これを $m$ に関する数学的帰納法で示す。
- $m=1$ の場合。
$m=1$ のとき、正の重みをもつ点は $1$ 個だけであるから、正の重みをもつ点が一定でないという仮定は成り立たない。
したがって、この場合は示すべき場合が存在しない。
$ $ - $m=2$ の場合。
$a_1,a_2>0$ かつ
$$
a_1+a_2=1
$$
であるから、
$$
a_1\in(0,1),
\quad
a_2=1-a_1
$$
である。
また、$y_1,y_2$ はすべて等しいわけではないので、
$$
y_1\ne y_2
$$
である。
$f$ は狭義凸関数であるから、
$$
f(a_1y_1+a_2y_2)
=
f(a_1y_1+(1-a_1)y_2)
<
a_1f(y_1)+(1-a_1)f(y_2)
=
a_1f(y_1)+a_2f(y_2)
$$
である。
よって、$m=2$ の場合は成り立つ。
$ $ - ある $m\geq2$ に対して、正の重みをもつ点が $m$ 個の場合に主張が成り立つと仮定する。
すなわち、任意の $z_1,\ldots,z_m\in I$ と任意の $b_1,\ldots,b_m>0$ で、
$$
\sum_{r=1}^{m}b_r=1
$$
を満たし、かつ $z_1,\ldots,z_m$ がすべて等しいわけではないならば、
$$
f\left(\sum_{r=1}^{m}b_r z_r\right)
<
\sum_{r=1}^{m}b_r f(z_r)
$$
が成り立つと仮定する。
$ $ - 正の重みをもつ点が $m+1$ 個の場合を示す。
$y_1,\ldots,y_{m+1}\in I$ と $a_1,\ldots,a_{m+1}>0$ が
$$
\sum_{r=1}^{m+1}a_r=1
$$
を満たし、かつ $y_1,\ldots,y_{m+1}$ がすべて等しいわけではないとする。
ここで、
$$
\beta:=\sum_{r=1}^{m}a_r
$$
とおく。
$a_{m+1}>0$ であるから、
$$
\beta=1-a_{m+1}<1
$$
である。また、$a_1,\ldots,a_m>0$ であるから、
$$
\beta>0
$$
である。よって、
$$
0<\beta<1
$$
である。各 $r=1,\ldots,m$ に対して、
$$
\lambda_r:=\frac{a_r}{\beta}
$$
とおく。このとき、
$$
\lambda_r>0
$$
であり、
$$
\sum_{r=1}^{m}\lambda_r
=
\sum_{r=1}^{m}\frac{a_r}{\beta}
=
\frac{1}{\beta}\sum_{r=1}^{m}a_r
=
1
$$
である。さらに、
$$
y:=\sum_{r=1}^{m}\lambda_r y_r
$$
とおく。$I$ は区間(凸集合)であり、$y$ は $I$ の元 $y_1,\ldots,y_m$ の凸結合であるから、
$$
y\in I
$$
である(
証明はコチラ
)。
ここで、場合分けする。
$ $
i) $y_1,\ldots,y_m$ がすべて等しい場合。
このとき、ある $c\in I$ が存在して、任意の $r=1,\ldots,m$ に対して
$$
y_r=c
$$
である。したがって、
$$
y=\sum_{r=1}^{m}\lambda_r y_r
=
\sum_{r=1}^{m}\lambda_r c
=
c
$$
である。
一方、$y_1,\ldots,y_{m+1}$ はすべて等しいわけではないので、
$$
y_{m+1}\ne c
$$
である。よって、
$$
y\ne y_{m+1}
$$
である。
$f$ は狭義凸関数であり、$0<\beta<1$ であるから、
$$
f(\beta y+a_{m+1}y_{m+1})
<
\beta f(y)+a_{m+1}f(y_{m+1})
$$
である。
また、$y=c$ であり、任意の $r=1,\ldots,m$ に対して $y_r=c$ であるから、
$$
\begin{align}
f(y)
&=
f(c)
&&\because y=c
\\
&=
1\cdot f(c)
&&\because 1\text{ を掛けても値は変わらない}
\\
&=
\left(\sum_{r=1}^{m}\lambda_r\right)f(c)
&&\because \sum_{r=1}^{m}\lambda_r=1
\\
&=
\sum_{r=1}^{m}\lambda_r f(c)
&&\because f(c)\text{ は }r\text{ によらない定数である}
\\
&=
\sum_{r=1}^{m}\lambda_r f(y_r)
&&\because \forall r=1,\ldots,m,\ y_r=c\text{ である}
\end{align}
$$
である。したがって、
$$
\begin{align}
f\left(\sum_{r=1}^{m+1}a_r y_r\right)
&=
f\left(\sum_{r=1}^{m}a_r y_r+a_{m+1}y_{m+1}\right)
&&\because \sum_{r=1}^{m+1}a_r y_r=\sum_{r=1}^{m}a_r y_r+a_{m+1}y_{m+1}
\\
&=
f\left(\beta\sum_{r=1}^{m}\lambda_r y_r+a_{m+1}y_{m+1}\right)
&&\because a_r=\beta\lambda_r\quad(r=1,\ldots,m)
\\
&=
f\left(\beta y+a_{m+1}y_{m+1}\right)
&&\because y=\sum_{r=1}^{m}\lambda_r y_r
\\
&<
\beta f(y)+a_{m+1}f(y_{m+1})
&&\because f\text{ は狭義凸関数であり、}0<\beta<1\text{ かつ }y\ne y_{m+1}
\\
&=
\beta\sum_{r=1}^{m}\lambda_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because f(y)=\sum_{r=1}^{m}\lambda_r f(y_r)
\\
&=
\sum_{r=1}^{m}\beta\lambda_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because \beta\text{ は }r\text{ によらない定数である}
\\
&=
\sum_{r=1}^{m}a_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because a_r=\beta\lambda_r\quad(r=1,\ldots,m)
\\
&=
\sum_{r=1}^{m+1}a_r f(y_r)
&&\because \sum_{r=1}^{m+1}a_r f(y_r)=\sum_{r=1}^{m}a_r f(y_r)+a_{m+1}f(y_{m+1})
\end{align}
$$
である。
$ $
ii) $y_1,\ldots,y_m$ がすべて等しいわけではない場合。
帰納法の仮定より、
$$
f(y)
=
f\left(\sum_{r=1}^{m}\lambda_r y_r\right)
<
\sum_{r=1}^{m}\lambda_r f(y_r)
$$
である。
一方、$f$ は凸関数でもあるから(補足を参照)、通常の $2$ 点の凸性より、
$$
f(\beta y+a_{m+1}y_{m+1})
\leq
\beta f(y)+a_{m+1}f(y_{m+1})
$$
である。
ここで、$\beta>0$ であるから、上の狭義不等式に $\beta$ を掛けて、
$$
\beta f(y)
<
\beta\sum_{r=1}^{m}\lambda_r f(y_r)
$$
を得る。したがって、
$$
\begin{align}
f\left(\sum_{r=1}^{m+1}a_r y_r\right)
&=
f\left(\sum_{r=1}^{m}a_r y_r+a_{m+1}y_{m+1}\right)
&&\because \sum_{r=1}^{m+1}a_r y_r=\sum_{r=1}^{m}a_r y_r+a_{m+1}y_{m+1}
\\
&=
f\left(\sum_{r=1}^{m}\beta\lambda_r y_r+a_{m+1}y_{m+1}\right)
&&\because a_r=\beta\lambda_r\quad(r=1,\ldots,m)
\\
&=
f\left(\beta\sum_{r=1}^{m}\lambda_r y_r+a_{m+1}y_{m+1}\right)
&&\because \beta\text{ は }r\text{ によらない定数である}
\\
&=
f\left(\beta y+a_{m+1}y_{m+1}\right)
&&\because y=\sum_{r=1}^{m}\lambda_r y_r
\\
&\leq
\beta f(y)+a_{m+1}f(y_{m+1})
&&\because f\text{ は凸関数であり、}0<\beta<1\text{ かつ }a_{m+1}=1-\beta
\\
&<
\beta\sum_{r=1}^{m}\lambda_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because \beta>0\text{ かつ }f(y)<\sum_{r=1}^{m}\lambda_r f(y_r)
\\
&=
\sum_{r=1}^{m}\beta\lambda_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because \beta\text{ は }r\text{ によらない定数である}
\\
&=
\sum_{r=1}^{m}a_r f(y_r)+a_{m+1}f(y_{m+1})
&&\because a_r=\beta\lambda_r\quad(r=1,\ldots,m)
\\
&=
\sum_{r=1}^{m+1}a_r f(y_r)
&&\because \sum_{r=1}^{m+1}a_r f(y_r)=\sum_{r=1}^{m}a_r f(y_r)+a_{m+1}f(y_{m+1})
\end{align}
$$
である。
よって、いずれの場合にも、
$$
f\left(\sum_{r=1}^{m+1}a_r y_r\right)
<
\sum_{r=1}^{m+1}a_r f(y_r)
$$
が成り立つ。
-以上より、数学的帰納法により、正の重みをもつ点が有限個あり、それらがすべて等しいわけではないならば、狭義のイェンセンの不等式が成り立つ。
したがって、もとの添字集合に戻すと、ある $i,j\in S$ が存在して $x_i\ne x_j$ ならば、
$$
f\left(\sum_{i=1}^{n}\alpha_i x_i\right)
<
\sum_{i=1}^{n}\alpha_i f(x_i)
$$
が成り立つ。
$$ \Box$$
なお、狭義凸関数は凸関数である。
実際、$u,v\in I$ と $t\in[0,1]$ を取る。
$t=0$ または $t=1$ の場合は等号として凸性の不等式が成り立つ。
$0< t<1$ の場合を考える。
- $u\ne v$ の場合、狭義凸性より
$$
f(tu+(1-t)v)< tf(u)+(1-t)f(v)
$$
であるから、特に
$$
f(tu+(1-t)v)\le tf(u)+(1-t)f(v)
$$
である。
$ $ - $u=v$ の場合、
$$
tu+(1-t)v=u
$$
であるから、
$$
f(tu+(1-t)v)=f(u)=tf(u)+(1-t)f(v)
$$
である。
-したがって、任意の $u,v\in I$ と任意の $t\in[0,1]$ に対して
$$
f(tu+(1-t)v)\le tf(u)+(1-t)f(v)
$$
が成り立つ。
有限個の凸結合に対する凹関数版のイェンセンの不等式
$I\subseteq\mathbb R$ を空でない区間とし、$f:I\to\mathbb R$ を凹関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\ge t f(x)+(1-t)f(y)
$$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n \alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\ge
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
関数 $g:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$
g(x):=(-f)(x)=-f(x)
$$
で定める。
- まず、$g$ が $I$ 上の凸関数であることを確認する。
仮定より、$f$ は $I$ 上の凹関数である。
したがって、命題「凹関数と凸関数の関係【$1$変数】」(冒頭で示した命題)より、$-f$ は $I$ 上の凸関数である。
ここで、$g=-f$ であるから、$g$ は $I$ 上の凸関数である。
$ $ - 次に、凸関数におけるイェンセンの不等式(
証明はコチラ
)を $g$ に適用する。
そこで、任意に $n\in\mathbb N$、$x_1,x_2,\ldots,x_n\in I$、$\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ を取り、
$$
\sum_{i=1}^n\alpha_i=1
$$
とする。
いま、$I$ は区間(凸集合)であり、$x_1,\ldots,x_n\in I$ であるから、
$$
\sum_{i=1}^n\alpha_i x_i\in I
$$
である(
証明はコチラ
)。
$g$ は $I$ 上の凸関数であるから、凸関数におけるイェンセンの不等式(
証明はコチラ
)より、
$$
g\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i g(x_i)
$$
が成り立つ。
$ $ - これを $f$ に関する不等式へ書き換える。
$g=-f$ であるから、
$$
g\left(\sum_{i=1}^n\alpha_i x_i\right)
=
-f\left(\sum_{i=1}^n\alpha_i x_i\right)
$$
である。また、任意の $i=1,\ldots,n$ に対して、
$$
g(x_i)=-f(x_i)
$$
であるから、
$$
\sum_{i=1}^n\alpha_i g(x_i)
=
\sum_{i=1}^n\alpha_i(-f(x_i))
=
-\sum_{i=1}^n\alpha_i f(x_i)
$$
である。したがって、
$$
g\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i g(x_i)
$$
は、
$$
-f\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
-\sum_{i=1}^n\alpha_i f(x_i)
$$
と書き換えられる。
両辺に $-1$ をかけると、不等号の向きが逆になり、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\ge
\sum_{i=1}^n\alpha_i f(x_i)
$$
を得る。
-以上より、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n\alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\ge
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
$$ \Box$$
等号が成立する十分条件
有限個の凸結合に対する凹関数版のイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\ge
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、等号がいつ成立するかは、$f$ が単なる凹関数である場合と、狭義凹関数である場合で異なる。
- まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
$$
x_i=a
$$
が成り立つ場合には、等号が成立する。
実際、このとき
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i=1}^n\alpha_i a
=
a\sum_{i=1}^n\alpha_i
=
a
$$
であるから、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
f(a)
$$
である。また、
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i=1}^n\alpha_i f(a)
=
f(a)\sum_{i=1}^n\alpha_i
=
f(a)
$$
である。したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$ $ - ただし、$f$ が単なる凹関数である場合、等号成立は必ずしも
$$
x_1=x_2=\cdots=x_n
$$
だけに限られない。
例えば、$f$ が $x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
$$
f(x)=ax+b
$$
と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
実際、このとき
$$
\begin{align}
f\left(\sum_{i=1}^n\alpha_i x_i\right)
&=
a\left(\sum_{i=1}^n\alpha_i x_i\right)+b
\\
&=
\sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i
\\
&=
\sum_{i=1}^n\alpha_i ax_i+\sum_{i=1}^n\alpha_i b
\\
&=
\sum_{i=1}^n\alpha_i(ax_i+b)
\\
&=
\sum_{i=1}^n\alpha_i f(x_i)
\end{align}
$$
である。
狭義凹関数の場合の等号成立条件
一方、$f$ が $I$ 上の狭義凹関数である場合には、等号成立条件はより強くなる。
$f$ が $I$ 上の狭義凹関数であるとする。
有限個の凸結合に対する凹関数版のイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\ge
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$
\alpha_i x_i=0
\quad
\text{かつ}
\quad
\alpha_i f(x_i)=0
$$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$
S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\}
$$
とおく。このとき、
$$
\sum_{i\in S}\alpha_i=1
$$
であり、
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
$$
かつ
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
$$
である。
したがって、凹関数版のイェンセンの不等式は
$$
f\left(\sum_{i\in S}\alpha_i x_i\right)
\ge
\sum_{i\in S}\alpha_i f(x_i)
$$
と同じである。
$ $
$f$ が狭義凹関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$
x_i=x_j
$$
が成り立つことである。
- まず、正の重みをもつ点がすべて等しいとする。
i) すなわち、ある $a\in I$ が存在して、任意の $i\in S$ に対して
$$
x_i=a
$$
が成り立つとする。このとき、
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
=
\sum_{i\in S}\alpha_i a
=
a\sum_{i\in S}\alpha_i
=
a
$$
である。したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
f(a)
$$
である。
$ $
ii) 一方で、
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(a)
=
f(a)\sum_{i\in S}\alpha_i
=
f(a)
$$
である。
よって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$ $ - 逆に、正の重みをもつ点の中に異なる $2$ 点が存在するとする。
つまり、ある $i,j\in S$ が存在して、
$$
x_i\ne x_j
$$
が成り立つとする。このとき、正の重みをもつ点はすべて等しいわけではない。
ここで、$g:I\to\mathbb R$ を
$$
g(x):=(-f)(x)=-f(x)
$$
で定める。
$f$ は $I$ 上の狭義凹関数であるから、$g=-f$ は $I$ 上の狭義凸関数である。
また、正の重みをもつ点 $x_i$ は一定でないから、
本記事で証明済みの補題「狭義凸関数では、正の重みをもつ点が一定でないなら狭義不等式になる」を $g$ に適用できる。
したがって、
$$
g\left(\sum_{i\in S}\alpha_i x_i\right)
<
\sum_{i\in S}\alpha_i g(x_i)
$$
が成り立つ。
$g=-f$ であるから、
$$
-f\left(\sum_{i\in S}\alpha_i x_i\right)
<
\sum_{i\in S}\alpha_i\{-f(x_i)\}
$$
である。右辺を整理すると、
$$
\sum_{i\in S}\alpha_i\{-f(x_i)\}
=
-\sum_{i\in S}\alpha_i f(x_i)
$$
であるから、
$$
-f\left(\sum_{i\in S}\alpha_i x_i\right)
<
-\sum_{i\in S}\alpha_i f(x_i)
$$
である。
両辺に $-1$ をかけると、不等号の向きが逆になり、
$$
f\left(\sum_{i\in S}\alpha_i x_i\right)
>
\sum_{i\in S}\alpha_i f(x_i)
$$
を得る。
したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
>
\sum_{i=1}^n\alpha_i f(x_i)
$$
である。
ゆえに、正の重みをもつ点の中に異なる $2$ 点が存在する場合には等号は成立しない。
$ $
-以上より、$f$ が狭義凹関数である場合、凹関数版のイェンセンの不等式における等号成立条件は
$$
\forall i,j\in S,\quad x_i=x_j
$$
である。
特に、すべての重みが正である場合、すなわち
$$
\alpha_i>0
\quad
(i=1,\ldots,n)
$$
である場合には、
$$
S=\{1,\ldots,n\}
$$
であるから、等号成立条件は
$$
x_1=x_2=\cdots=x_n
$$
である。
有限値離散確率変数に対するイェンセンの不等式
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、$Y:(\Omega,\mathcal F)\to(\mathbb R,\mathcal B(\mathbb R))$ を有限個の値をとる確率変数とする。
$Y$ の値域を
$$
Y(\Omega)=\{y_1,\ldots,y_n\}
$$
と書く。ただし、$n\in\mathbb N$ であり、$y_1,\ldots,y_n$ は互いに異なる実数である。
各 $i=1,\ldots,n$ に対して、
$$
p_i:=\mathbb P(\{\omega\in\Omega\mid Y(\omega)=y_i\})
$$
とおく。また、$\phi:\mathbb R\to\mathbb R$ を凸関数とする。
このとき、
$$
\phi(\mathbb E[Y])
\leq
\mathbb E[\phi(Y)]
$$
が成り立つ。
- $Y$ は有限個の値しか取らないので有界である。したがって、$Y$ は可積分であり、$\mathbb E[Y]$ は定義される。
まず、各 $i=1,\ldots,n$ に対して、
$$
A_i:=\{\omega\in\Omega\mid Y(\omega)=y_i\}
$$
とおく。
$Y$ は確率変数であり、$\{y_i\}\in\mathcal B(\mathbb R)$ であるから、
$$
A_i=Y^{-1}(\{y_i\})\in\mathcal F
$$
である。
また、$y_1,\ldots,y_n$ は互いに異なるので、$A_1,\ldots,A_n$ は互いに排反である。さらに、
$$
Y(\Omega)=\{y_1,\ldots,y_n\}
$$
であるから、
$$
\Omega=\bigcup_{i=1}^{n}A_i
$$
である。したがって、
$$
p_i=\mathbb P(A_i)\geq0
\quad
(i=1,\ldots,n)
$$
であり、確率の有限加法性より、
$$
\begin{align}
\sum_{i=1}^{n}p_i
&=
\sum_{i=1}^{n}\mathbb P(A_i)
\\
&=
\mathbb P\left(\bigcup_{i=1}^{n}A_i\right)
\\
&=
\mathbb P(\Omega)
\\
&=
1
\end{align}
$$
である。
$ $ - 次に、$Y$ の期待値を計算する。$Y$ は有限値確率変数であり、各 $\omega\in\Omega$ に対してちょうど $1$ つの $i$ が存在して $Y(\omega)=y_i$ となるので、
$$
Y=\sum_{i=1}^{n}y_i\mathbf 1_{A_i}
$$
である。したがって、期待値の線形性(
証明はコチラ
)より、
$$
\begin{align}
\mathbb E[Y]
&=
\mathbb E\left[\sum_{i=1}^{n}y_i\mathbf 1_{A_i}\right]
\\
&=
\sum_{i=1}^{n}y_i\mathbb E[\mathbf 1_{A_i}]
\\
&=
\sum_{i=1}^{n}y_i\mathbb P(A_i)
\\
&=
\sum_{i=1}^{n}p_i y_i
\end{align}
$$
である。
$ $ - 次に、$\phi(Y)$ について確認する。
任意のボレル集合 $B\in\mathcal B(\mathbb R)$ に対して、
$$
\begin{align}
\{\omega\in\Omega\mid \phi(Y(\omega))\in B\}
&=
\bigcup_{\substack{1\leq i\leq n\\ \phi(y_i)\in B}}
\{\omega\in\Omega\mid Y(\omega)=y_i\}
\\
&=
\bigcup_{\substack{1\leq i\leq n\\ \phi(y_i)\in B}}A_i
\end{align}
$$
である。右辺は $\mathcal F$ に属する有限個の集合の和集合であるから、$\mathcal F$ に属する。
したがって、$\phi(Y)$ は確率変数である。
$ $
また、$\phi(Y)$ も有限個の値しか取らないので有界である。したがって、$\phi(Y)$ は可積分であり、$\mathbb E[\phi(Y)]$ は定義される。
さらに、各 $\omega\in\Omega$ に対してちょうど $1$ つの $i$ が存在して $Y(\omega)=y_i$ となるので、
$$
\phi(Y)=\sum_{i=1}^{n}\phi(y_i)\mathbf 1_{A_i}
$$
である。したがって、期待値の線形性(
証明はコチラ
)より、
$$
\begin{align}
\mathbb E[\phi(Y)]
&=
\mathbb E\left[\sum_{i=1}^{n}\phi(y_i)\mathbf 1_{A_i}\right]
\\
&=
\sum_{i=1}^{n}\phi(y_i)\mathbb E[\mathbf 1_{A_i}]
\\
&=
\sum_{i=1}^{n}\phi(y_i)\mathbb P(A_i)
\\
&=
\sum_{i=1}^{n}p_i\phi(y_i)
\end{align}
$$
である。
$ $ - ここで、$\phi$ は $\mathbb R$ 上の凸関数であり、
$$
p_i\geq0
\quad
(i=1,\ldots,n)
$$
かつ
$$
\sum_{i=1}^{n}p_i=1
$$
である。
したがって、有限個の凸結合に対するイェンセンの不等式(証明済み)を、点 $y_1,\ldots,y_n$ と重み $p_1,\ldots,p_n$ に適用すると、
$$
\phi\left(\sum_{i=1}^{n}p_i y_i\right)
\leq
\sum_{i=1}^{n}p_i\phi(y_i)
$$
が成り立つ。
以上より、
$$
\begin{align}
\phi(\mathbb E[Y])
&=
\phi\left(\sum_{i=1}^{n}p_i y_i\right)
\\
&\leq
\sum_{i=1}^{n}p_i\phi(y_i)
\\
&=
\mathbb E[\phi(Y)]
\end{align}
$$
である。
-したがって、
$$
\phi(\mathbb E[Y])
\leq
\mathbb E[\phi(Y)]
$$
が成り立つ。
$$ \Box$$
有限値離散確率変数に対する凹関数版のイェンセンの不等式
$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、$Y:(\Omega,\mathcal F)\to(\mathbb R,\mathcal B(\mathbb R))$ を有限個の値をとる確率変数とする。
$Y$ の値域を
$$
Y(\Omega)=\{y_1,\ldots,y_n\}
$$
と書く。ただし、$n\in\mathbb N$ であり、$y_1,\ldots,y_n$ は互いに異なる実数である。
各 $i=1,\ldots,n$ に対して、
$$
p_i:=\mathbb P(\{\omega\in\Omega\mid Y(\omega)=y_i\})
$$
とおく。
また、$\phi:\mathbb R\to\mathbb R$ を凹関数とする。すなわち、任意の $x,y\in\mathbb R$ と任意の $t\in[0,1]$ に対して、
$$
\phi(tx+(1-t)y)
\geq
t\phi(x)+(1-t)\phi(y)
$$
が成り立つとする。
このとき、
$$
\phi(\mathbb E[Y])
\geq
\mathbb E[\phi(Y)]
$$
が成り立つ。
- $Y$ は有限個の値しか取らないので有界である。したがって、$Y$ は可積分であり、$\mathbb E[Y]$ は定義される。
まず、各 $i=1,\ldots,n$ に対して、
$$
A_i:=\{\omega\in\Omega\mid Y(\omega)=y_i\}
$$
とおく。
$Y$ は確率変数であり、$\{y_i\}\in\mathcal B(\mathbb R)$ であるから、
$$
A_i=Y^{-1}(\{y_i\})\in\mathcal F
$$
である。
また、$y_1,\ldots,y_n$ は互いに異なるので、$A_1,\ldots,A_n$ は互いに排反である。さらに、
$$
Y(\Omega)=\{y_1,\ldots,y_n\}
$$
であるから、
$$
\Omega=\bigcup_{i=1}^{n}A_i
$$
である。
したがって、
$$
p_i=\mathbb P(A_i)\geq0
\quad
(i=1,\ldots,n)
$$
であり、確率の有限加法性より、
$$
\begin{align}
\sum_{i=1}^{n}p_i
&=
\sum_{i=1}^{n}\mathbb P(A_i)
\\
&=
\mathbb P\left(\bigcup_{i=1}^{n}A_i\right)
\\
&=
\mathbb P(\Omega)
\\
&=
1
\end{align}
$$
である。
$ $ - 次に、$Y$ の期待値を計算する。各 $\omega\in\Omega$ に対してちょうど $1$ つの $i\in\{1,\ldots,n\}$ が存在して $Y(\omega)=y_i$ となるので、
$$
Y=\sum_{i=1}^{n}y_i\mathbf 1_{A_i}
$$
である。
したがって、期待値の線形性(
証明はコチラ
)より、
$$
\begin{align}
\mathbb E[Y]
&=
\mathbb E\left[\sum_{i=1}^{n}y_i\mathbf 1_{A_i}\right]
\\
&=
\sum_{i=1}^{n}y_i\mathbb E[\mathbf 1_{A_i}]
\\
&=
\sum_{i=1}^{n}y_i\mathbb P(A_i)
\\
&=
\sum_{i=1}^{n}p_i y_i
\end{align}
$$
である。
$ $ - 次に、$\phi(Y)$ について確認する。
任意のボレル集合 $B\in\mathcal B(\mathbb R)$ に対して、
$$
\begin{align}
\{\omega\in\Omega\mid \phi(Y(\omega))\in B\}
&=
\bigcup_{\substack{1\leq i\leq n\\ \phi(y_i)\in B}}
\{\omega\in\Omega\mid Y(\omega)=y_i\}
\\
&=
\bigcup_{\substack{1\leq i\leq n\\ \phi(y_i)\in B}}A_i
\end{align}
$$
である。
右辺は $\mathcal F$ に属する有限個の集合の和集合であるから、$\mathcal F$ に属する。したがって、$\phi(Y)$ は確率変数である。
$ $
また、$\phi(Y)$ は有限個の値しか取らないので有界である。したがって、$\phi(Y)$ は可積分であり、$\mathbb E[\phi(Y)]$ は定義される。
さらに、各 $\omega\in\Omega$ に対してちょうど $1$ つの $i\in\{1,\ldots,n\}$ が存在して $Y(\omega)=y_i$ となるので、
$$
\phi(Y)=\sum_{i=1}^{n}\phi(y_i)\mathbf 1_{A_i}
$$
である。
したがって、期待値の線形性(
証明はコチラ
)より、
$$
\begin{align}
\mathbb E[\phi(Y)]
&=
\mathbb E\left[\sum_{i=1}^{n}\phi(y_i)\mathbf 1_{A_i}\right]
\\
&=
\sum_{i=1}^{n}\phi(y_i)\mathbb E[\mathbf 1_{A_i}]
\\
&=
\sum_{i=1}^{n}\phi(y_i)\mathbb P(A_i)
\\
&=
\sum_{i=1}^{n}p_i\phi(y_i)
\end{align}
$$
である。
$ $ - ここで、$\phi$ は $\mathbb R$ 上の凹関数であり、
$$
p_i\geq0
\quad
(i=1,\ldots,n)
$$
かつ
$$
\sum_{i=1}^{n}p_i=1
$$
である。
したがって、有限個の凸結合に対する凹関数版のイェンセンの不等式(証明済み)を、点 $y_1,\ldots,y_n$ と重み $p_1,\ldots,p_n$ に適用すると、
$$
\phi\left(\sum_{i=1}^{n}p_i y_i\right)
\geq
\sum_{i=1}^{n}p_i\phi(y_i)
$$
が成り立つ。
以上より、
$$
\begin{align}
\phi(\mathbb E[Y])
&=
\phi\left(\sum_{i=1}^{n}p_i y_i\right)
\\
&\geq
\sum_{i=1}^{n}p_i\phi(y_i)
\\
&=
\mathbb E[\phi(Y)]
\end{align}
$$
である。
-したがって、
$$
\phi(\mathbb E[Y])
\geq
\mathbb E[\phi(Y)]
$$
が成り立つ。
$$ \Box$$
イェンセンの不等式から導く相加相乗平均の不等式
$n\in\mathbb N$ とし、
$$
x_1,\ldots,x_n>0
$$
とする。このとき、
$$
\frac{x_1+\cdots+x_n}{n}
\geq
\sqrt[n]{x_1x_2\cdots x_n}
$$
が成り立つ。
さらに、等号が成立するための必要十分条件は、
$$
x_1=x_2=\cdots=x_n
$$
である。
- 関数
$$
\log:(0,\infty)\to\mathbb R
$$
を考える。ここで、$\log$ は自然対数を表す。
任意の $x>0$ に対して、
$$
(\log x)'=\frac{1}{x}
$$
かつ
$$
(\log x)''=-\frac{1}{x^2}<0
$$
である。
したがって、$2$ 階微分による凹性の判定より、$\log$ は $(0,\infty)$ 上の狭義凹関数(
証明はコチラ
)である。
$ $ - 各 $i=1,\ldots,n$ に対して、
$$
\alpha_i:=\frac{1}{n}
$$
とおく。このとき、
$$
\alpha_i>0
\quad
(i=1,\ldots,n)
$$
であり、
$$
\begin{align}
\sum_{i=1}^{n}\alpha_i
&=
\sum_{i=1}^{n}\frac{1}{n}
\\
&=
\frac{n}{n}
\\
&=
1
\end{align}
$$
である。
また、$x_1,\ldots,x_n>0$ であるから、
$$
x_1,\ldots,x_n\in(0,\infty)
$$
である。
したがって、凹関数版の有限個の凸結合に対するイェンセンの不等式を、
関数 $\log$、点 $x_1,\ldots,x_n$、重み $\alpha_1,\ldots,\alpha_n$ に適用できる(証明済み)。
よって、
$$
\log\left(\sum_{i=1}^{n}\alpha_i x_i\right)
\geq
\sum_{i=1}^{n}\alpha_i\log x_i
$$
である。
ここで、左辺について $\alpha_i=\frac{1}{n}$ であるから、
$$
\begin{align}
\log\left(\sum_{i=1}^{n}\alpha_i x_i\right)
&=
\log\left(\sum_{i=1}^{n}\frac{1}{n}x_i\right)
\\
&=
\log\left(\frac{x_1+\cdots+x_n}{n}\right)
\end{align}
$$
であり、右辺は
$$
\begin{align}
\sum_{i=1}^{n}\alpha_i\log x_i
&=
\sum_{i=1}^{n}\frac{1}{n}\log x_i
\\
&=
\frac{1}{n}\sum_{i=1}^{n}\log x_i
\end{align}
$$
である。したがって、
$$
\log\left(\frac{x_1+\cdots+x_n}{n}\right)
\geq
\frac{1}{n}\sum_{i=1}^{n}\log x_i
$$
である。
次に、右辺を整理する。$x_1,\ldots,x_n>0$ であるから、対数の積の公式より、
$$
\begin{align}
\frac{1}{n}\sum_{i=1}^{n}\log x_i
&=
\frac{1}{n}\log(x_1x_2\cdots x_n)
\\
&=
\log\left((x_1x_2\cdots x_n)^{1/n}\right)
\\
&=
\log\left(\sqrt[n]{x_1x_2\cdots x_n}\right)
\end{align}
$$
である。ゆえに、
$$
\log\left(\frac{x_1+\cdots+x_n}{n}\right)
\geq
\log\left(\sqrt[n]{x_1x_2\cdots x_n}\right)
$$
を得る。ここで、
$$
\frac{x_1+\cdots+x_n}{n}>0
$$
であり、
$$
\sqrt[n]{x_1x_2\cdots x_n}>0
$$
である。また、$\log$ は $(0,\infty)$ 上で狭義単調増加である。
したがって、
$$
\frac{x_1+\cdots+x_n}{n}
\geq
\sqrt[n]{x_1x_2\cdots x_n}
$$
が成り立つ。
$ $ - 最後に、等号成立条件を確認する。
すべての重みは
$$
\alpha_i=\frac{1}{n}>0
$$
であり、$\log$ は狭義凹関数である(
証明はコチラ
)。
したがって、狭義凹関数版のイェンセンの不等式の等号成立条件(証明済み)より、
$$
\log\left(\sum_{i=1}^{n}\alpha_i x_i\right)
=
\sum_{i=1}^{n}\alpha_i\log x_i
$$
が成り立つための必要十分条件は、
$$
x_1=x_2=\cdots=x_n
$$
である。
また、$\log$ は狭義単調増加であるから、
$$
\log A=\log B
\Longleftrightarrow
A=B
$$
である。ただし、
$$
A:=\frac{x_1+\cdots+x_n}{n},
\quad
B:=\sqrt[n]{x_1x_2\cdots x_n}
$$
である。
したがって、
$$
\frac{x_1+\cdots+x_n}{n}
=
\sqrt[n]{x_1x_2\cdots x_n}
$$
が成り立つための必要十分条件は、
$$
x_1=x_2=\cdots=x_n
$$
である。
$$ \Box$$
イェンセンの不等式から導くコーシー・シュワルツの不等式
$n\in\mathbb N$ とし、
$$
a_1,\ldots,a_n\in\mathbb R,
\quad
b_1,\ldots,b_n\in\mathbb R
$$
とする。
- このとき、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2
\leq
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
$$
が成り立つ。 - さらに、等号が成立するための必要十分条件は、$2$ つのベクトル
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
が $\mathbb R^n$ において線形従属であることである。
すなわち、ある $(\lambda,\mu)\in\mathbb R^2\setminus\{(0,0)\}$ が存在して、任意の $i=1,\ldots,n$ に対して
$$
\lambda a_i+\mu b_i=0
$$
が成り立つことである。
- 関数 $\phi:\mathbb R\to\mathbb R$ を
$$
\phi(t):=t^2
$$
で定める。
このとき、任意の $t\in\mathbb R$ に対して、
$$
\phi''(t)=2>0
$$
である。したがって、$2$ 階微分による凸性の判定より、$\phi$ は $\mathbb R$ 上の狭義凸関数である(
証明はコチラ
)。
$ $ - まず、
$$
B:=\sum_{i=1}^{n}b_i^2
$$
とおく。
i) $B=0$ の場合を示す。
$B=0$ とする。このとき、
$$
\sum_{i=1}^{n}b_i^2=0
$$
である。
各 $b_i^2\geq0$ であるから、任意の $i=1,\ldots,n$ に対して
$$
b_i=0
$$
である。
したがって、
$$
\sum_{i=1}^{n}a_i b_i=0
$$
であり、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2=0
$$
である。また、
$$
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
=
\left(\sum_{i=1}^{n}a_i^2\right)B
=
0
$$
である。
よって、この場合は等号として成り立つ。
$ $
ii) $B>0$ の場合を示す。
$B>0$ とする。
$$
S:=\{i\in\{1,\ldots,n\}\mid b_i\ne0\}
$$
とおく。このとき、$B>0$ であるから、$S$ は空でない有限集合である。
よって、ある $m\in\mathbb N$ と互いに異なる添字 $s_1,\ldots,s_m\in\{1,\ldots,n\}$ によって、
$$
S=\{s_1,\ldots,s_m\}
$$
と書ける。
各 $r=1,\ldots,m$ に対して、
$$
\lambda_r:=\frac{b_{s_r}^2}{B}
$$
とおく。このとき、$s_r\in S$ より $b_{s_r}\ne0$ であるから、
$$
\lambda_r>0
\quad
(r=1,\ldots,m)
$$
である。また、
$$
\begin{align}
\sum_{r=1}^{m}\lambda_r
&=
\sum_{r=1}^{m}\frac{b_{s_r}^2}{B}
\\
&=
\frac{1}{B}\sum_{r=1}^{m}b_{s_r}^2
\\
&=
\frac{1}{B}\sum_{i\in S}b_i^2
\\
&=
\frac{1}{B}\sum_{i=1}^{n}b_i^2
\\
&=
\frac{B}{B}
\\
&=
1
\end{align}
$$
である。ここで、$i\notin S$ ならば $b_i=0$ であり、したがって $b_i^2=0$ であることを用いた。
さらに、各 $r=1,\ldots,m$ に対して、
$$
x_r:=\frac{a_{s_r}}{b_{s_r}}
$$
とおく。$s_r\in S$ より $b_{s_r}\ne0$ であるから、これは正しく定義される。
$\phi$ は $\mathbb R$ 上の凸関数であり、$\lambda_r>0$ かつ
$$
\sum_{r=1}^{m}\lambda_r=1
$$
である。したがって、有限個の凸結合に対するイェンセンの不等式(証明済み)より、
$$
\phi\left(\sum_{r=1}^{m}\lambda_r x_r\right)
\leq
\sum_{r=1}^{m}\lambda_r\phi(x_r)
$$
である。
$\phi(t)=t^2$ であるから、
$$
\left(\sum_{r=1}^{m}\lambda_r x_r\right)^2
\leq
\sum_{r=1}^{m}\lambda_r x_r^2
$$
である。
左辺の中身を計算すると、
$$
\begin{align}
\sum_{r=1}^{m}\lambda_r x_r
&=
\sum_{r=1}^{m}\frac{b_{s_r}^2}{B}\cdot\frac{a_{s_r}}{b_{s_r}}
\\
&=
\frac{1}{B}\sum_{r=1}^{m}a_{s_r}b_{s_r}
\\
&=
\frac{1}{B}\sum_{i\in S}a_i b_i
\\
&=
\frac{1}{B}\sum_{i=1}^{n}a_i b_i
\end{align}
$$
である。ここで、$i\notin S$ ならば $b_i=0$ であり、したがって $a_i b_i=0$ であることを用いた。
右辺を計算すると、
$$
\begin{align}
\sum_{r=1}^{m}\lambda_r x_r^2
&=
\sum_{r=1}^{m}\frac{b_{s_r}^2}{B}\left(\frac{a_{s_r}}{b_{s_r}}\right)^2
\\
&=
\frac{1}{B}\sum_{r=1}^{m}a_{s_r}^2
\\
&=
\frac{1}{B}\sum_{i\in S}a_i^2
\\
&\leq
\frac{1}{B}\sum_{i=1}^{n}a_i^2\cdots①
\end{align}
$$
である。最後の不等式では、各 $a_i^2\geq0$ であることを用いた。
したがって、
$$
\left(\frac{1}{B}\sum_{i=1}^{n}a_i b_i\right)^2
\leq
\frac{1}{B}\sum_{i=1}^{n}a_i^2
$$
である。
両辺に $B^2$ を掛ける。$B>0$ であるから $B^2>0$ であり、不等号の向きは変わらない。よって、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2
\leq
B\sum_{i=1}^{n}a_i^2
$$
である。
$B=\sum_{i=1}^{n}b_i^2$ であるから、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2
\leq
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
$$
を得る。
$ $
以上より、すべての場合において、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2
\leq
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
$$
が成り立つ。
$ $ - 等号成立条件を示す。
まず、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2
=
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
$$
が成り立つとする。
$ $
i) $B=0$ の場合。
$B=0$ ならば、任意の $i=1,\ldots,n$ に対して $b_i=0$ である。
したがって、
$$
(b_1,\ldots,b_n)=(0,\ldots,0)
$$
である。
よって、
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
は線形従属である。実際、$(\lambda,\mu)=(0,1)$ とおけば、任意の $i=1,\ldots,n$ に対して
$$
\lambda a_i+\mu b_i=b_i=0
$$
である。
$ $
ii) $B>0$ の場合。
この場合、上の証明において①式より等号が成立するためには、
$$
\sum_{r=1}^{m}\lambda_r x_r^2
=
\frac{1}{B}\sum_{i=1}^{n}a_i^2
$$
が成り立つ必要がある。
ここで、添字集合 $\{1,\ldots,n\}$ は、$S$ とその補集合に分かれる。
したがって、有限和の分解より、
$$
\sum_{i=1}^{n}a_i^2
=
\sum_{i\in S}a_i^2
+
\sum_{i\notin S}a_i^2\cdots②
$$
である。また、
$$
\frac{1}{B}\sum_{i\in S}a_i^2
=
\frac{1}{B}\sum_{i=1}^{n}a_i^2
$$
が成り立つとする。$B>0$ であるから、
$$
\sum_{i\in S}a_i^2
=
\sum_{i=1}^{n}a_i^2
$$
と同値である。ゆえに、式②は
$$
\sum_{i\in S}a_i^2
=
\sum_{i\in S}a_i^2+\sum_{i\notin S}a_i^2
$$
となる。ここで、両辺から共通する項を引くと、
$$
0=
\sum_{i\notin S}a_i^2
$$
を得る。すなわち、
$$
\sum_{i\notin S}a_i^2=0
$$
である。
逆に、
$$
\sum_{i\notin S}a_i^2=0
$$
が成り立つならば、
$$
\sum_{i=1}^{n}a_i^2
=
\sum_{i\in S}a_i^2+\sum_{i\notin S}a_i^2
=
\sum_{i\in S}a_i^2
$$
である。したがって、両辺を $B$ で割ると、
$$
\frac{1}{B}\sum_{i=1}^{n}a_i^2
=
\frac{1}{B}\sum_{i\in S}a_i^2
$$
である。ゆえに、
$$
\frac{1}{B}\sum_{i\in S}a_i^2
=
\frac{1}{B}\sum_{i=1}^{n}a_i^2
\Longleftrightarrow
\sum_{i\notin S}a_i^2=0
$$
である。
また、各 $i$ について $a_i^2\geq0$ であるから、非負項の有限和
$$
\sum_{i\notin S}a_i^2
$$
が $0$ になることは、各項がすべて $0$ であることと同値である。したがって、
$$
\sum_{i\notin S}a_i^2=0
\Longleftrightarrow
\forall i\notin S,\quad a_i^2=0
\Longleftrightarrow
\forall i\notin S,\quad a_i=0
$$
である。
また、(冒頭で示した通り)$\phi(t)=t^2$ は $\mathbb R$ 上の狭義凸関数であり、すべての $\lambda_r$ は正である。
$ $
したがって、狭義凸関数に対する有限個の凸結合のイェンセンの不等式の等号成立条件(証明済み)より、
イェンセンの不等式で等号が成立するための必要十分条件は、
$$
x_1=x_2=\cdots=x_m
$$
である。
すなわち、ある $c\in\mathbb R$ が存在して、任意の $r=1,\ldots,m$ に対して
$$
x_r=c
$$
が成り立つことである。
$x_r=\frac{a_{s_r}}{b_{s_r}}$ であるから、これは任意の $i\in S$ に対して
$$
a_i=c b_i
$$
が成り立つことと同値である。
さらに、$i\notin S$ ならば $b_i=0$ であり、上で見たように等号成立のためには $a_i=0$ が必要である。
したがって、任意の $i=1,\ldots,n$ に対して
$$
a_i=c b_i
$$
が成り立つ。よって、
$$
(a_1,\ldots,a_n)
=
c(b_1,\ldots,b_n)
$$
であるから、
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
は線形従属である。
$ $
以上より、等号が成立するならば、$2$ つのベクトル
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
は線形従属である。
$ $ - 逆に、$2$ つのベクトル
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
が線形従属であるとする。
このとき、少なくとも一方が零ベクトルである場合には、両辺は $0$ になり、等号が成立する(補足を参照)。
$ $
次に、どちらも零ベクトルでない場合を考える。
この場合、線形従属性より、ある $c\in\mathbb R$ が存在して、任意の $i=1,\ldots,n$ に対して
$$
a_i=c b_i
$$
が成り立つ。
したがって、
$$
\begin{align}
\left(\sum_{i=1}^{n}a_i b_i\right)^2
&=
\left(\sum_{i=1}^{n}c b_i^2\right)^2
\\
&=
c^2\left(\sum_{i=1}^{n}b_i^2\right)^2
\end{align}
$$
である。
また、
$$
\begin{align}
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
&=
\left(\sum_{i=1}^{n}c^2 b_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
\\
&=
c^2\left(\sum_{i=1}^{n}b_i^2\right)^2
\end{align}
$$
である。よって、等号が成立する。
したがって、等号が成立するための必要十分条件は、
$$
(a_1,\ldots,a_n),
\quad
(b_1,\ldots,b_n)
$$
が線形従属であることである。
$$ \Box$$
少なくとも一方が零ベクトルである場合を考える。
- まず、$(a_1,\ldots,a_n)=(0,\ldots,0)$ であるとする。
このとき、任意の $i=1,\ldots,n$ に対して $a_i=0$ であるから、
$$
\sum_{i=1}^{n}a_i b_i=0
$$
であり、
$$
\sum_{i=1}^{n}a_i^2=0
$$
である。したがって、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2=0
$$
かつ
$$
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
=
0\cdot\sum_{i=1}^{n}b_i^2
=
0
$$
である。
$ $ - 次に、$(b_1,\ldots,b_n)=(0,\ldots,0)$ であるとする。
このとき、任意の $i=1,\ldots,n$ に対して $b_i=0$ であるから、
$$
\sum_{i=1}^{n}a_i b_i=0
$$
であり、
$$
\sum_{i=1}^{n}b_i^2=0
$$
である。したがって、
$$
\left(\sum_{i=1}^{n}a_i b_i\right)^2=0
$$
かつ
$$
\left(\sum_{i=1}^{n}a_i^2\right)
\left(\sum_{i=1}^{n}b_i^2\right)
=
\left(\sum_{i=1}^{n}a_i^2\right)\cdot0
=
0
$$
である。
-よって、少なくとも一方が零ベクトルである場合には、両辺は $0$ になり、等号が成立する。
イェンセンの不等式から導くヤングの不等式
$p,q>1$ とし、
$$
\frac{1}{p}+\frac{1}{q}=1
$$
とする。
このとき、任意の $x,y\geq0$ に対して、
$$
xy
\leq
\frac{x^p}{p}+\frac{y^q}{q}
$$
が成り立つ。
さらに、等号が成立するための必要十分条件は、
$$
x^p=y^q
$$
である。
この不等式を、積に関するヤングの不等式という。
まず、$\log$ は自然対数を表すものとする。
- i) まず、$x>0$ かつ $y>0$ の場合を示す。
関数
$$
\log:(0,\infty)\to\mathbb R
$$
を考える。任意の $t>0$ に対して、
$$
(\log t)'=\frac{1}{t}
$$
かつ
$$
(\log t)''=-\frac{1}{t^2}<0
$$
である。したがって、$2$ 階微分による凹性の判定より、$\log$ は $(0,\infty)$ 上の狭義凹関数である(
証明はコチラ
)。
また、仮定より
$$
\frac{1}{p}>0,
\quad
\frac{1}{q}>0,
\quad
\frac{1}{p}+\frac{1}{q}=1
$$
である。
$x>0$ かつ $y>0$ より、
$$
x^p>0,
\quad
y^q>0
$$
である。
したがって、凹関数版の有限個の凸結合に対するイェンセンの不等式(
証明はコチラ
)を、
関数 $\log$、点 $x^p,y^q$、重み $\frac{1}{p},\frac{1}{q}$ に適用できる。
よって、
$$
\log\left(\frac{1}{p}x^p+\frac{1}{q}y^q\right)
\geq
\frac{1}{p}\log(x^p)+\frac{1}{q}\log(y^q)
$$
である。
右辺を整理する。$x>0$ かつ $y>0$ であるから、対数の性質より、
$$
\begin{align}
\frac{1}{p}\log(x^p)+\frac{1}{q}\log(y^q)
&=
\frac{1}{p}\cdot p\log x+\frac{1}{q}\cdot q\log y
\\
&=
\log x+\log y
\\
&=
\log(xy)
\end{align}
$$
である。
したがって、
$$
\log\left(\frac{x^p}{p}+\frac{y^q}{q}\right)
\geq
\log(xy)
$$
を得る。ここで、
$$
\frac{x^p}{p}+\frac{y^q}{q}>0
$$
かつ
$$
xy>0
$$
である。
また、$\log$ は $(0,\infty)$ 上で狭義単調増加である。したがって、
$$
xy
\leq
\frac{x^p}{p}+\frac{y^q}{q}
$$
$ $
ii) 次に、$x=0$ または $y=0$ の場合を示す。
このとき、
$$
xy=0
$$
である。また、$x,y\geq0$ かつ $p,q>1$ であるから、
$$
x^p\geq0,
\quad
y^q\geq0
$$
であり、
$$
\frac{x^p}{p}+\frac{y^q}{q}\geq0
$$
である。したがって、
$$
xy
=
0
\leq
\frac{x^p}{p}+\frac{y^q}{q}
$$
である。
以上より、任意の $x,y\geq0$ に対して、
$$
xy
\leq
\frac{x^p}{p}+\frac{y^q}{q}
$$
が成り立つ。
$ $ - i) 最後に、等号成立条件を確認する。
まず、$x>0$ かつ $y>0$ の場合を考える。
この場合、証明中で使った凹関数版のイェンセンの不等式(証明済み)において、重み
$$
\frac{1}{p},
\quad
\frac{1}{q}
$$
はいずれも正である。また、$\log$ は $(0,\infty)$ 上の狭義凹関数である。
したがって、狭義凹関数版のイェンセンの不等式の等号成立条件より、
$$
\log\left(\frac{1}{p}x^p+\frac{1}{q}y^q\right)
=
\frac{1}{p}\log(x^p)+\frac{1}{q}\log(y^q)\cdots①
$$
が成り立つための必要十分条件は、正の重みをもつ点がすべて等しいことである。
ゆえに、この等号成立条件は
$$
x^p=y^q
$$
である。
$ $
一方、$x>0$ かつ $y>0$ であるから、
$$
\frac{x^p}{p}+\frac{y^q}{q}>0,
\quad
xy>0
$$
である。
また、$\log$ は $(0,\infty)$ 上で狭義単調増加であるから、特に単射である。
したがって、任意の $A,B>0$ に対して、
$$
\log A=\log B
\Longleftrightarrow
A=B
$$
が成り立つ。よって、式①より
$$
\log\left(\frac{x^p}{p}+\frac{y^q}{q}\right)
=
\log(xy)
$$
が成り立つことは、
$$
\frac{x^p}{p}+\frac{y^q}{q}=xy
$$
が成り立つことと同値である。
以上より、
$$
\frac{x^p}{p}+\frac{y^q}{q}=xy
\Longleftrightarrow
\log\left(\frac{x^p}{p}+\frac{y^q}{q}\right)=\log(xy)
\Longleftrightarrow
x^p=y^q
$$
であるから、$x>0$ かつ $y>0$ の場合、ヤングの不等式
$$
xy\leq \frac{x^p}{p}+\frac{y^q}{q}
$$
で等号が成立するための必要十分条件は、
$$
x^p=y^q
$$
である。
$ $
ii) 次に、$x=0$ または $y=0$ の場合を考える。
$x=0$ かつ $y=0$ ならば、
$$
xy=0
$$
かつ
$$
\frac{x^p}{p}+\frac{y^q}{q}=0
$$
であるから、等号が成立する。このとき、
$$
x^p=0=y^q
$$
である。
$ $
一方、$x=0$ かつ $y>0$ ならば、
$$
xy=0
$$
であるが、
$$
\frac{x^p}{p}+\frac{y^q}{q}
=
\frac{y^q}{q}
>
0
$$
であるから、等号は成立しない。このとき、
$$
x^p=0< y^q
$$
である。
$ $
同様に、$x>0$ かつ $y=0$ ならば、
$$
xy=0
$$
であるが、
$$
\frac{x^p}{p}+\frac{y^q}{q}
=
\frac{x^p}{p}
>
0
$$
であるから、等号は成立しない。このとき、
$$
y^q=0< x^p
$$
である。
以上より、任意の $x,y\geq0$ に対して、等号が成立するための必要十分条件は、
$$
x^p=y^q
$$
である。
$$ \Box$$
ヤングの不等式から導くヘルダーの不等式
$n\in\mathbb N$ とし、
$$
a_1,\ldots,a_n\in\mathbb R,
\qquad
b_1,\ldots,b_n\in\mathbb R
$$
とする。また、$p,q>1$ が
$$
\frac{1}{p}+\frac{1}{q}=1
$$
を満たすとする。
このとき、
$$
\sum_{i=1}^{n}|a_i b_i|
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
\left(\sum_{i=1}^{n}|b_i|^q\right)^{1/q}
$$
が成り立つ。
この不等式を、有限次元の場合のヘルダーの不等式という。
ヤングの不等式を用いる。すなわち、任意の $x,y\geq0$ に対して、
$$
xy
\leq
\frac{x^p}{p}+\frac{y^q}{q}
$$
が成り立つことを用いる。
$$
A:=\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p},
\qquad
B:=\left(\sum_{i=1}^{n}|b_i|^q\right)^{1/q}
$$
とおく。
- $A=0$ または $B=0$ の場合を示す。
i) まず、$A=0$ とする。このとき、
$$
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}=0
$$
であるから、
$$
\sum_{i=1}^{n}|a_i|^p=0
$$
である。
各 $|a_i|^p\geq0$ であるから、任意の $i=1,\ldots,n$ に対して
$$
|a_i|^p=0
$$
である。したがって、任意の $i=1,\ldots,n$ に対して
$$
a_i=0
$$
である。ゆえに、
$$
\sum_{i=1}^{n}|a_i b_i|=0
$$
である。また、
$$
AB=0\cdot B=0
$$
である。したがって、
$$
\sum_{i=1}^{n}|a_i b_i|
=
0
=
AB
$$
である。
ii) 次に、$B=0$ とする。このとき、
$$
\left(\sum_{i=1}^{n}|b_i|^q\right)^{1/q}=0
$$
であるから、
$$
\sum_{i=1}^{n}|b_i|^q=0
$$
である。
各 $|b_i|^q\geq0$ であるから、任意の $i=1,\ldots,n$ に対して
$$
|b_i|^q=0
$$
である。したがって、任意の $i=1,\ldots,n$ に対して
$$
b_i=0
$$
である。ゆえに、
$$
\sum_{i=1}^{n}|a_i b_i|=0
$$
である。また、
$$
AB=A\cdot0=0
$$
である。したがって、
$$
\sum_{i=1}^{n}|a_i b_i|
=
0
=
AB
$$
である。
$ $
よって、$A=0$ または $B=0$ の場合には、
$$
\sum_{i=1}^{n}|a_i b_i|
\leq
AB
$$
が成り立つ。
$ $ - $A>0$ かつ $B>0$ の場合を示す。
各 $i=1,\ldots,n$ に対して、
$$
u_i:=\frac{|a_i|}{A},
\qquad
v_i:=\frac{|b_i|}{B}
$$
とおく。
このとき、任意の $i=1,\ldots,n$ に対して、
$$
u_i\geq0,
\qquad
v_i\geq0
$$
である。
また、$A>0$ より $A^p>0$ であり、
$$
A^p
=
\sum_{i=1}^{n}|a_i|^p
$$
である。したがって、
$$
\begin{align}
\sum_{i=1}^{n}u_i^p
&=
\sum_{i=1}^{n}\left(\frac{|a_i|}{A}\right)^p
\\
&=
\frac{1}{A^p}\sum_{i=1}^{n}|a_i|^p
\\
&=
\frac{1}{A^p}A^p
\\
&=
1
\end{align}
$$
である。
同様に、$B>0$ より $B^q>0$ であり、
$$
B^q
=
\sum_{i=1}^{n}|b_i|^q
$$
である。したがって、
$$
\begin{align}
\sum_{i=1}^{n}v_i^q
&=
\sum_{i=1}^{n}\left(\frac{|b_i|}{B}\right)^q
\\
&=
\frac{1}{B^q}\sum_{i=1}^{n}|b_i|^q
\\
&=
\frac{1}{B^q}B^q
\\
&=
1
\end{align}
$$
である。
ヤングの不等式より、任意の $i=1,\ldots,n$ に対して、
$$
u_i v_i
\leq
\frac{u_i^p}{p}+\frac{v_i^q}{q}
$$
である。
よって、有限和の単調性より、
$$
\begin{align}
\sum_{i=1}^{n}u_i v_i
&\leq
\sum_{i=1}^{n}\left(\frac{u_i^p}{p}+\frac{v_i^q}{q}\right)
\\
&=
\frac{1}{p}\sum_{i=1}^{n}u_i^p
+
\frac{1}{q}\sum_{i=1}^{n}v_i^q
\\
&=
\frac{1}{p}\cdot1+\frac{1}{q}\cdot1
\\
&=
\frac{1}{p}+\frac{1}{q}
\\
&=
1
\end{align}
$$
である。
一方で、
$$
\begin{align}
\sum_{i=1}^{n}u_i v_i
&=
\sum_{i=1}^{n}\frac{|a_i|}{A}\frac{|b_i|}{B}
\\
&=
\frac{1}{AB}\sum_{i=1}^{n}|a_i||b_i|
\\
&=
\frac{1}{AB}\sum_{i=1}^{n}|a_i b_i|
\end{align}
$$
である。
したがって、
$$
\frac{1}{AB}\sum_{i=1}^{n}|a_i b_i|
\leq
1
$$
である。
ここで、$A>0$ かつ $B>0$ より、
$$
AB>0
$$
である。よって、両辺に $AB$ を掛けても不等号の向きは変わらない。したがって、
$$
\sum_{i=1}^{n}|a_i b_i|
\leq
AB
$$
である。
$A,B$ の定義に戻すと、
$$
\sum_{i=1}^{n}|a_i b_i|
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
\left(\sum_{i=1}^{n}|b_i|^q\right)^{1/q}
$$
である。
-以上より、すべての場合において、
$$
\sum_{i=1}^{n}|a_i b_i|
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
\left(\sum_{i=1}^{n}|b_i|^q\right)^{1/q}
$$
が成り立つ。
$$ \Box$$
ヘルダーの不等式から導くミンコフスキーの不等式
$n\in\mathbb N$ とし、
$$
a_1,\ldots,a_n\in\mathbb R,
\qquad
b_1,\ldots,b_n\in\mathbb R
$$
とする。また、$p\geq1$ とする。
このとき、
$$
\left(\sum_{i=1}^{n}|a_i+b_i|^p\right)^{1/p}
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
+
\left(\sum_{i=1}^{n}|b_i|^p\right)^{1/p}
$$
が成り立つ。
この不等式を、有限次元の場合のミンコフスキーの不等式という。
- $p=1$ の場合を示す。
任意の $i=1,\ldots,n$ に対して、三角不等式より、
$$
|a_i+b_i|
\leq
|a_i|+|b_i|
$$
である。
したがって、有限和の単調性より、
$$
\begin{align}
\sum_{i=1}^{n}|a_i+b_i|
&\leq
\sum_{i=1}^{n}(|a_i|+|b_i|)
\\
&=
\sum_{i=1}^{n}|a_i|
+
\sum_{i=1}^{n}|b_i|
\end{align}
$$
である。
これは、
$$
\left(\sum_{i=1}^{n}|a_i+b_i|^1\right)^{1/1}
\leq
\left(\sum_{i=1}^{n}|a_i|^1\right)^{1/1}
+
\left(\sum_{i=1}^{n}|b_i|^1\right)^{1/1}
$$
を意味する。
よって、$p=1$ の場合は成り立つ。
$ $ - $p>1$ の場合を示す。
$p>1$ とする。
$q$ を
$$
q:=\frac{p}{p-1}
$$
で定める。このとき、
$$
q>1
$$
であり、
$$
\frac{1}{p}+\frac{1}{q}=1
$$
である。また、
$$
A:=
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p},
\qquad
B:=
\left(\sum_{i=1}^{n}|b_i|^p\right)^{1/p}
$$
とおき、
$$
C:=
\left(\sum_{i=1}^{n}|a_i+b_i|^p\right)^{1/p}
$$
とおく。
このとき、$A,B,C\geq0$ である。
まず、$C=0$ の場合を考える。このとき、左辺は $0$ である。また、$A\geq0$ かつ $B\geq0$ であるから、
$$
0\leq A+B
$$
である。したがって、
$$
C\leq A+B
$$
が成り立つ。
$ $
よって、以下では $C>0$ とする。
まず、
$$
C^p
=
\sum_{i=1}^{n}|a_i+b_i|^p
$$
である。
また、任意の $i=1,\ldots,n$ に対して、
$$
|a_i+b_i|^p
=
|a_i+b_i|\,|a_i+b_i|^{p-1}
$$
である。三角不等式より、
$$
|a_i+b_i|
\leq
|a_i|+|b_i|
$$
であり、さらに
$$
|a_i+b_i|^{p-1}\geq0
$$
であるから、
$$
|a_i+b_i|\,|a_i+b_i|^{p-1}
\leq
(|a_i|+|b_i|)|a_i+b_i|^{p-1}
$$
である。
したがって、
$$
\begin{align}
C^p
&=
\sum_{i=1}^{n}|a_i+b_i|^p
\\
&=
\sum_{i=1}^{n}|a_i+b_i|\,|a_i+b_i|^{p-1}
\\
&\leq
\sum_{i=1}^{n}(|a_i|+|b_i|)|a_i+b_i|^{p-1}
\\
&=
\sum_{i=1}^{n}|a_i|\,|a_i+b_i|^{p-1}
+
\sum_{i=1}^{n}|b_i|\,|a_i+b_i|^{p-1}
\end{align}
$$
である。
ここで、ヘルダーの不等式を
$$
|a_1|,\ldots,|a_n|
$$
と
$$
|a_1+b_1|^{p-1},\ldots,|a_n+b_n|^{p-1}
$$
に適用すると、
$$
\sum_{i=1}^{n}|a_i|\,|a_i+b_i|^{p-1}
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
\left(\sum_{i=1}^{n}\left(|a_i+b_i|^{p-1}\right)^q\right)^{1/q}
$$
である。ここで、
$$
(p-1)q
=
(p-1)\frac{p}{p-1}
=
p
$$
であるから、
$$
\begin{align}
\left(\sum_{i=1}^{n}\left(|a_i+b_i|^{p-1}\right)^q\right)^{1/q}
&=
\left(\sum_{i=1}^{n}|a_i+b_i|^{(p-1)q}\right)^{1/q}
\\
&=
\left(\sum_{i=1}^{n}|a_i+b_i|^p\right)^{1/q}
\\
&=
(C^p)^{1/q}
\\
&=
C^{p/q}
\end{align}
$$
である。また、
$$
\frac{p}{q}
=
p-1
$$
であるから、
$$
C^{p/q}=C^{p-1}
$$
である。したがって、
$$
\sum_{i=1}^{n}|a_i|\,|a_i+b_i|^{p-1}
\leq
A C^{p-1}
$$
である。
同様に、ヘルダーの不等式を
$$
|b_1|,\ldots,|b_n|
$$
と
$$
|a_1+b_1|^{p-1},\ldots,|a_n+b_n|^{p-1}
$$
に適用すると、
$$
\sum_{i=1}^{n}|b_i|\,|a_i+b_i|^{p-1}
\leq
\left(\sum_{i=1}^{n}|b_i|^p\right)^{1/p}
\left(\sum_{i=1}^{n}\left(|a_i+b_i|^{p-1}\right)^q\right)^{1/q}
$$
である。
上と同じ計算により、
$$
\left(\sum_{i=1}^{n}\left(|a_i+b_i|^{p-1}\right)^q\right)^{1/q}
=
C^{p-1}
$$
であるから、
$$
\sum_{i=1}^{n}|b_i|\,|a_i+b_i|^{p-1}
\leq
B C^{p-1}
$$
である。
以上より、
$$
\begin{align}
C^p
&\leq
A C^{p-1}+B C^{p-1}
\\
&=
(A+B)C^{p-1}
\end{align}
$$
である。
いま、$C>0$ かつ $p>1$ であるから、
$$
C^{p-1}>0
$$
である。したがって、両辺を $C^{p-1}$ で割ることができ、
$$
C\leq A+B
$$
を得る。
すなわち、
$$
\left(\sum_{i=1}^{n}|a_i+b_i|^p\right)^{1/p}
\leq
\left(\sum_{i=1}^{n}|a_i|^p\right)^{1/p}
+
\left(\sum_{i=1}^{n}|b_i|^p\right)^{1/p}
$$
である。
-以上より、$p\geq1$ に対して、有限次元の場合のミンコフスキーの不等式が成り立つ。
$$ \Box$$