$$$$
Def.
凸集合 【再掲】
$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
t\mathbf{x}+(1-t)\mathbf{y}\in C
$$
が成り立つことをいう。
幾何的意味
$C$ が凸集合であるとは、$C$ に属する任意の $2$ 点 $x,y$ を選んだとき、その $2$ 点を結ぶ線分全体が $C$ に含まれるということである。
すなわち、$C$ に属する $2$ 点を結んだ線分が、途中で $C$ の外に出ない集合である。
$tx+(1-t)y$ の意味
$t\in[0,1]$ のとき、
$$
tx+(1-t)y
$$
は $x$ と $y$ を結ぶ線分上の点である。
$t=1$ のとき $x$ になり、$t=0$ のとき $y$ になる。
また、$0< t<1$ かつ $x\neq y$ のとき、$tx+(1-t)y$ は $x$ と $y$ を結ぶ線分の端点を除いた部分にある点である。
凸集合の例
$\mathbb R^n$ 全体、空集合、$1$ 点集合、区間、半空間、閉球などは凸集合である。
特に、$\mathbb R$ の部分集合では、区間は凸集合である。
凸集合でない例
$\mathbb R^2$ において、穴の空いた領域や三日月形の領域は一般に凸集合ではない。
なぜなら、その集合の中の $2$ 点を結ぶ線分が、途中で集合の外に出る場合があるからである。
$1$ 変数の凸関数
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の凸関数であるとは、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\leq t f(x)+(1-t)f(y)
$$
が成り立つことをいう。
凸関数の幾何的意味
$f$ が凸関数であるとは、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分が、その $2$ 点の間にあるグラフの上側にあることを意味する。
より正確には、点 $tx+(1-t)y$ における関数値
$$
f(tx+(1-t)y)
$$
は、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$
t f(x)+(1-t)f(y)
$$
以下である。
狭義凸関数
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の狭義凸関数であるとは、任意の $x,y\in I$ と任意の $t\in(0,1)$ に対して、
$$
x\ne y
$$
ならば、
$$
f(tx+(1-t)y)< t f(x)+(1-t)f(y)
$$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$ 点 $x,y$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。
- ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
$$
tx+(1-t)y
$$
がそれぞれ $y$ または $x$ となり、常に等号が成り立ってしまうからである。
実際、$t=0$ のとき、
$$
f(tx+(1-t)y)=f(y)
$$
であり、
$$
t f(x)+(1-t)f(y)=f(y)
$$
である。また、$t=1$ のとき、
$$
f(tx+(1-t)y)=f(x)
$$
であり、
$$
t f(x)+(1-t)f(y)=f(x)
$$
である。
したがって、狭義凸性では $t\in(0,1)$ を仮定する。
$ $ - また、$x=y$ の場合にも常に等号が成り立つ。
実際、$x=y$ ならば、
$$
tx+(1-t)y
=
tx+(1-t)x
=
x
$$
であるから、
$$
f(tx+(1-t)y)=f(x)
$$
である。一方、
$$
t f(x)+(1-t)f(y)
=
t f(x)+(1-t)f(x)
=
f(x)
$$
である。
したがって、狭義凸性では $x\ne y$ を仮定する。
-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $tx+(1-t)y$ における関数値
$$
f(tx+(1-t)y)
$$
が、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$
t f(x)+(1-t)f(y)
$$
より真に小さいということである。
多変数の凸関数
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
\leq
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
が成り立つことをいう。
定義域が凸集合である必要性
$C$ が凸集合であることにより、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
t\mathbf{x}+(1-t)\mathbf{y}\in C
$$
が成り立つ。
したがって、左辺
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
$$
が常に定義される。
狭義凸関数
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の狭義凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in(0,1)$ に対して、
$$
\mathbf{x}\ne\mathbf{y}
$$
ならば、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
<
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$ 点 $\mathbf{x},\mathbf{y}$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。
- ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
$$
t\mathbf{x}+(1-t)\mathbf{y}
$$
がそれぞれ $\mathbf{y}$ または $\mathbf{x}$ となり、常に等号が成り立ってしまうからである。
実際、$t=0$ のとき、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{y})
$$
であり、
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{y})
$$
である。また、$t=1$ のとき、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x})
$$
であり、
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{x})
$$
である。
したがって、狭義凸性では $t\in(0,1)$ を仮定する。
$ $ - また、$\mathbf{x}=\mathbf{y}$ の場合にも常に等号が成り立つ。
実際、$\mathbf{x}=\mathbf{y}$ ならば、
$$
t\mathbf{x}+(1-t)\mathbf{y}
=
t\mathbf{x}+(1-t)\mathbf{x}
=
\mathbf{x}
$$
であるから、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x})
$$
である。一方、
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})
=
t f(\mathbf{x})+(1-t)f(\mathbf{x})
=
f(\mathbf{x})
$$
である。
したがって、狭義凸性では $\mathbf{x}\ne\mathbf{y}$ を仮定する。
-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $t\mathbf{x}+(1-t)\mathbf{y}$ における関数値
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
$$
が、グラフ上の $2$ 点 $(\mathbf{x},f(\mathbf{x}))$ と $(\mathbf{y},f(\mathbf{y}))$ を結ぶ線分上の点の高さ
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
より真に小さいということである。
凸結合
$m\in\mathbb N$ とし、$x_1,x_2,\ldots,x_m\in\mathbb R^n$ とする。
点 $x_1,x_2,\ldots,x_m$ の凸結合とは、ある実数 $\lambda_1,\lambda_2,\ldots,\lambda_m\in\mathbb R$ が存在して、
$$
\lambda_i\geq0\quad(i=1,2,\ldots,m),
\qquad
\sum_{i=1}^m\lambda_i=1
$$
を満たし、さらに
$$
x=\sum_{i=1}^m\lambda_i x_i
$$
と表される点 $x\in\mathbb R^n$ のことである。
$2$ 点の凸結合
$m=2$ の場合、点 $x_1,x_2\in\mathbb R^n$ の凸結合は、
$$
\lambda_1x_1+\lambda_2x_2
$$
であり、条件
$$
\lambda_1\geq0,\qquad \lambda_2\geq0,\qquad \lambda_1+\lambda_2=1
$$
を満たす。このとき、$\lambda_1=t$ とおくと $\lambda_2=1-t$ であり、$t\in[0,1]$ であるから、
$$
\lambda_1x_1+\lambda_2x_2
=
tx_1+(1-t)x_2
$$
と書ける。したがって、凸集合の定義に現れる
$$
tx+(1-t)y
$$
は、$2$ 点 $x,y$ の凸結合である。
凸結合と線分
$x,y\in\mathbb R^n$ とする。
$x$ と $y$ を結ぶ線分は、
$$
\{tx+(1-t)y \mid t\in[0,1]\}
$$
で表される。
したがって、$2$ 点の凸結合全体は、その $2$ 点を結ぶ線分である。
凸集合との関係
$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、$C$ の任意の $2$ 点の凸結合が再び $C$ に属することである。
すなわち、任意の $x,y\in C$ と任意の $t\in[0,1]$ に対して、
$$
tx+(1-t)y\in C
$$
が成り立つことである。
より一般に、$C$ が凸集合ならば、任意の $m\in\mathbb N$、任意の $x_1,x_2,\ldots,x_m\in C$、任意の $\lambda_1,\lambda_2,\ldots,\lambda_m\geq0$ で
$$
\sum_{i=1}^m\lambda_i=1
$$
を満たすものに対して、
$$
\sum_{i=1}^m\lambda_i x_i\in C
$$
が成り立つ。
Prop&Proof.
凸集合は有限個の凸結合で閉じている
$C\subseteq\mathbb R^n$ を凸集合とする。
$m$ を正の整数とし、$\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_m\in C$ とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_m\ge0$ とし、
$$
\sum_{i=1}^m\lambda_i=1
$$
を満たすとする。このとき、
$$
\sum_{i=1}^m\lambda_i\mathbf{x}_i\in C
$$
が成り立つ。
$m$ に関する数学的帰納法で示す。
- $m=1$ の場合を示す。
このとき、
$$
\sum_{i=1}^{1}\lambda_i=1
$$
であるから、
$$
\lambda_1=1
$$
である。
したがって、
$$
\sum_{i=1}^{1}\lambda_i\mathbf{x}_i
=
\lambda_1\mathbf{x}_1
=
\mathbf{x}_1
$$
である。
仮定より $\mathbf{x}_1\in C$ であるから、
$$
\sum_{i=1}^{1}\lambda_i\mathbf{x}_i\in C
$$
が成り立つ。
$ $ - ある正の整数 $m$ について命題が成り立つと仮定する。
すなわち、任意の $\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m\in C$ と、任意の $\mu_1,\mu_2,\ldots,\mu_m\ge0$ で
$$
\sum_{i=1}^{m}\mu_i=1
$$
を満たすものに対して、
$$
\sum_{i=1}^{m}\mu_i\mathbf{u}_i\in C
$$
が成り立つと仮定する。
$ $ - この仮定のもとで、$m+1$ 個の場合を示す。
$\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_{m+1}\in C$ とし、
$$
\lambda_1,\lambda_2,\ldots,\lambda_{m+1}\ge0,
\qquad
\sum_{i=1}^{m+1}\lambda_i=1
$$
とする。示すべきことは、
$$
\sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C
$$
である。
i) $\lambda_{m+1}=1$ の場合を考える。
このとき、
$$
\sum_{i=1}^{m}\lambda_i
=
1-\lambda_{m+1}
=
0
$$
である。
また、$\lambda_i\ge0$ であるから、任意の $i=1,\ldots,m$ に対して、
$$
\lambda_i=0
$$
である。したがって、
$$
\sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i
=
\mathbf{x}_{m+1}
$$
である。仮定より $\mathbf{x}_{m+1}\in C$ であるから、
$$
\sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C
$$
が成り立つ。
$ $
ii) $\lambda_{m+1}<1$ の場合を考える。
このとき、
$$
1-\lambda_{m+1}>0
$$
である。$i=1,\ldots,m$ に対して、
$$
\mu_i:=\frac{\lambda_i}{1-\lambda_{m+1}}
$$
と定める。$\lambda_i\ge0$ かつ $1-\lambda_{m+1}>0$ であるから、
$$
\mu_i\ge0
\qquad
(i=1,\ldots,m)
$$
である。また、
$$
\begin{align}
\sum_{i=1}^{m}\mu_i
&=
\sum_{i=1}^{m}\frac{\lambda_i}{1-\lambda_{m+1}}
\\
&=
\frac{1}{1-\lambda_{m+1}}\sum_{i=1}^{m}\lambda_i
\\
&=
\frac{1}{1-\lambda_{m+1}}\left(1-\lambda_{m+1}\right)
\\
&=
1
\end{align}
$$
である。したがって、$\mu_1,\ldots,\mu_m$ は非負で和が $1$ である。
帰納法の仮定より、
$$
\mathbf{y}:=\sum_{i=1}^{m}\mu_i\mathbf{x}_i
$$
とおくと、
$$
\mathbf{y}\in C
$$
が成り立つ。ここで、
$$
\begin{align}
(1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1}
&=
(1-\lambda_{m+1})\sum_{i=1}^{m}\mu_i\mathbf{x}_i
+
\lambda_{m+1}\mathbf{x}_{m+1}
\\
&=
(1-\lambda_{m+1})\sum_{i=1}^{m}
\frac{\lambda_i}{1-\lambda_{m+1}}\mathbf{x}_i
+
\lambda_{m+1}\mathbf{x}_{m+1}
\\
&=
\sum_{i=1}^{m}\lambda_i\mathbf{x}_i
+
\lambda_{m+1}\mathbf{x}_{m+1}
\\
&=
\sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i
\end{align}
$$
である。また、
$$
\mathbf{y}\in C,
\qquad
\mathbf{x}_{m+1}\in C
$$
であり、
$$
1-\lambda_{m+1}\ge0,
\qquad
\lambda_{m+1}\ge0,
\qquad
(1-\lambda_{m+1})+\lambda_{m+1}=1
$$
である。
$C$ は凸集合であるから、$2$ 点 $\mathbf{y},\mathbf{x}_{m+1}\in C$ の凸結合
$$
(1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1}
$$
は $C$ に属する。したがって、
$$
\sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C
$$
が成り立つ。
以上より、$m+1$ の場合にも成り立つ。
-1. と 2. より、数学的帰納法によって、任意の正の整数 $m$ に対して、
$$
\sum_{i=1}^{m}\lambda_i\mathbf{x}_i\in C
$$
が成り立つ。
$$ \Box$$
第 $2$ 導関数が非負なら凸である
$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能な関数とする。
任意の $t\in(a,b)$ に対して、
$$
\varphi''(t)\ge0
$$
が成り立つとする。
このとき、$\varphi$ は $[a,b]$ 上で凸である。すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$
\varphi((1-\theta)x+\theta y)
\le
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。
まず、任意の $u,v\in(a,b)$ で $u< v$ とする。
$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるから、$\varphi'$ は $(a,b)$ 上で微分可能である。
したがって、$\varphi'$ は $(u,v)$ 上で連続であり、また $u,v\in(a,b)$ であるため端点 $u,v$ においても連続である。
よって、$\varphi'$ は $[u,v]$ 上で連続、$(u,v)$ 上で微分可能である。
- ゆえに、平均値の定理(補足を参照)より、ある $c\in(u,v)$ が存在して、
$$
\frac{\varphi'(v)-\varphi'(u)}{v-u}
=
\varphi''(c)
$$
が成り立つ。また、仮定より任意の $s\in(u,v)$ に対して $\varphi''(s)\ge0$ である。
したがって、
$$
\varphi'(v)-\varphi'(u)
=
\varphi''(c)(v-u)
\ge0
$$
である。ゆえに、
$$
\varphi'(u)\le\varphi'(v)
$$
である。
したがって、$\varphi'$ は $(a,b)$ 上で単調増加である。
$ $ - 次に、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ をとる。
i) $x=y$ の場合を考える。
このとき、
$$
(1-\theta)x+\theta y
=
(1-\theta)x+\theta x
=
((1-\theta)+\theta)x
=
x
$$
である。したがって、左辺は
$$
\varphi((1-\theta)x+\theta y)
=
\varphi(x)
$$
である。一方、右辺は、$y=x$ より、
$$
(1-\theta)\varphi(x)+\theta\varphi(y)
=
(1-\theta)\varphi(x)+\theta\varphi(x)
=
((1-\theta)+\theta)\varphi(x)
=
\varphi(x)
$$
である。
ゆえに、
$$
\varphi((1-\theta)x+\theta y)
=
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。したがって、$x=y$ の場合、示すべき不等式は等号として成り立つ。
$ $
ii) 次に、$x\neq y$ とし、$\theta=0$ の場合を考える。
このとき、
$$
(1-\theta)x+\theta y
=
(1-0)x+0y
=
x
$$
である。したがって、左辺は
$$
\varphi((1-\theta)x+\theta y)
=
\varphi(x)
$$
である。一方、右辺は、
$$
(1-\theta)\varphi(x)+\theta\varphi(y)
=
(1-0)\varphi(x)+0\varphi(y)
=
\varphi(x)
$$
である。ゆえに、
$$
\varphi((1-\theta)x+\theta y)
=
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。したがって、$\theta=0$ の場合、示すべき不等式は等号として成り立つ。
$ $
iii) 次に、$x\neq y$ とし、$\theta=1$ の場合を考える。
このとき、
$$
(1-\theta)x+\theta y
=
(1-1)x+1y
=
y
$$
である。したがって、左辺は
$$
\varphi((1-\theta)x+\theta y)
=
\varphi(y)
$$
である。一方、右辺は、
$$
(1-\theta)\varphi(x)+\theta\varphi(y)
=
(1-1)\varphi(x)+1\varphi(y)
=
\varphi(y)
$$
である。ゆえに、
$$
\varphi((1-\theta)x+\theta y)
=
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。したがって、$\theta=1$ の場合、示すべき不等式は等号として成り立つ。
$ $
以上より、$x=y$ の場合、$\theta=0$ の場合、$\theta=1$ の場合には、示すべき不等式は等号として成り立つ。
したがって、残る場合は
$$
x\neq y,\quad 0<\theta<1
$$
の場合である。
よって、以下では $x\neq y$ かつ $0<\theta<1$ の場合を考える。
$ $ - まず $x>y$ の場合は $x$ と $y$ を入れ替え、$\theta$ を $1-\theta$ に置き換えれば同じ形の不等式になるため、$x< y$ の場合を示せば十分である。
そこで、$x< y$ とし、
$$
t=(1-\theta)x+\theta y
$$
とおく。このとき、$0<\theta<1$ より、
$$
x< t< y
$$
である。
平均値の定理より、ある $c\in(x,t)$ が存在して、
$$
\frac{\varphi(t)-\varphi(x)}{t-x}
=
\varphi'(c)
$$
が成り立つ。また、ある $d\in(t,y)$ が存在して、
$$
\frac{\varphi(y)-\varphi(t)}{y-t}
=
\varphi'(d)
$$
が成り立つ。ここで、$c< d$ であり、$\varphi'$ は単調増加であるから、
$$
\varphi'(c)\le\varphi'(d)
$$
である。したがって、
$$
\frac{\varphi(t)-\varphi(x)}{t-x}
\le
\frac{\varphi(y)-\varphi(t)}{y-t}
$$
である。
$t-x>0$ かつ $y-t>0$ であるから、両辺に $(t-x)(y-t)$ をかけて、
$$
(\varphi(t)-\varphi(x))(y-t)
\le
(\varphi(y)-\varphi(t))(t-x)
$$
を得る。これを整理すると、
$$
\begin{align}
(\varphi(t)-\varphi(x))(y-t)
&\le
(\varphi(y)-\varphi(t))(t-x)
\\
\varphi(t)(y-t)-\varphi(x)(y-t)
&\le
\varphi(y)(t-x)-\varphi(t)(t-x)
\\
\varphi(t)(y-t)+\varphi(t)(t-x)
&\le
\varphi(x)(y-t)+\varphi(y)(t-x)
\end{align}
$$
である。左辺を整理する。
$$
\begin{align}
\varphi(t)(y-t)+\varphi(t)(t-x)
&=
\varphi(t)\bigl((y-t)+(t-x)\bigr)
\\
&=
\varphi(t)(y-t+t-x)
\\
&=
\varphi(t)(y-x)
\end{align}
$$
以上より、
$$
\varphi(t)(y-x)
\le
\varphi(x)(y-t)+\varphi(y)(t-x)
$$
を得る。$y-x>0$ で割ると、
$$
\varphi(t)
\le
\frac{y-t}{y-x}\varphi(x)
+
\frac{t-x}{y-x}\varphi(y)
$$
を得る。ここで、
$$
t=(1-\theta)x+\theta y
$$
であるから、まず $t-x$ について、
$$
\begin{align}
t-x
&=
\bigl((1-\theta)x+\theta y\bigr)-x
\\
&=
(1-\theta)x+\theta y-x
\\
&=
(1-\theta)x-x+\theta y
\\
&=
\bigl((1-\theta)-1\bigr)x+\theta y
\\
&=
-\theta x+\theta y
\\
&=
\theta(y-x)
\end{align}
$$
を得る。
次に、$y-t$ について、
$$
\begin{align}
y-t
&=
y-\bigl((1-\theta)x+\theta y\bigr)
\\
&=
y-(1-\theta)x-\theta y
\\
&=
y-\theta y-(1-\theta)x
\\
&=
(1-\theta)y-(1-\theta)x
\\
&=
(1-\theta)(y-x)
\end{align}
$$
を得る。したがって、
$$
t-x=\theta(y-x)
$$
かつ
$$
y-t=(1-\theta)(y-x)
$$
である。したがって、
$$
\frac{t-x}{y-x}=\theta,
\quad
\frac{y-t}{y-x}=1-\theta
$$
である。
ゆえに、
$$
\varphi((1-\theta)x+\theta y)
\le
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。
-以上より、$\varphi$ は $[a,b]$ 上で凸である。
$$ \Box$$
平均値の定理の主張
平均値の定理とは、関数 $f$ が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であるとき、ある点 $c\in(\alpha,\beta)$ が存在して、
$$
f'(c)
=
\frac{f(\beta)-f(\alpha)}{\beta-\alpha}
$$
が成り立つという定理である。右辺
$$
\frac{f(\beta)-f(\alpha)}{\beta-\alpha}
$$
は、区間 $[\alpha,\beta]$ における平均変化率である。左辺 $f'(c)$ は、点 $c$ における瞬間変化率である。
したがって、平均値の定理は、区間全体での平均変化率と一致する瞬間変化率をもつ点が、
区間の内部に少なくとも $1$ つ存在することを主張している。
$ $
■ 平均値の定理を使うときの注意点
平均値の定理を使うには、関数が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であることを確認する必要がある。
端点 $\alpha,\beta$ では微分可能性を仮定する必要はない。
これは、平均値の定理で得られる点 $c$ が端点ではなく、開区間 $(\alpha,\beta)$ の内部に存在する点だからである。
$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上で凸な関数とする。さらに、$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるとする。
このとき、任意の $t\in(a,b)$ に対して、
$$
\varphi''(t)\ge0
$$
が成り立つ。
まず、$\varphi'$ が $(a,b)$ 上で単調増加であることを示す。
任意に $s,t\in(a,b)$ を取り、
$$
s< t
$$
とする。
- $0< h< t-s$ を満たす $h$ を取る。
まず、$s+h$ が $s$ と $t$ の凸結合として表されることを確認する。
$$
\begin{align}
s+h
&=
s+\frac{h}{t-s}(t-s)
\\
&=
s+\frac{h}{t-s}t-\frac{h}{t-s}s
\\
&=
s-\frac{h}{t-s}s+\frac{h}{t-s}t
\\
&=
\left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t
\end{align}
$$
また、$s< t$ より、
$$
t-s>0
$$
である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
$$
0<\frac{h}{t-s}<1
$$
を得る。したがって、
$$
\frac{h}{t-s}\in[0,1],
\quad
1-\frac{h}{t-s}\in[0,1]
$$
であり、
$$
\begin{align}
\left(1-\frac{h}{t-s}\right)+\frac{h}{t-s}
&=
1
\end{align}
$$
である。よって、
$$
s+h
=
\left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t
$$
は、$s$ と $t$ の凸結合である。
また、$0< h< t-s$ より、
$$
s< s+h< t
$$
であるから、$s+h\in(a,b)$ である。
仮定より $\varphi$ は凸であるから、凸性の定義より、
$$
\varphi(s+h)
\le
\left(1-\frac{h}{t-s}\right)\varphi(s)
+
\frac{h}{t-s}\varphi(t)
$$
が成り立つ。この不等式を整理する。
まず、両辺から $\varphi(s)$ を引くと、
$$
\begin{align}
\varphi(s+h)-\varphi(s)
&\le
\left(1-\frac{h}{t-s}\right)\varphi(s)
+
\frac{h}{t-s}\varphi(t)
-\varphi(s)
\\
&=
\left(1-\frac{h}{t-s}\right)\varphi(s)
-\varphi(s)
+
\frac{h}{t-s}\varphi(t)
\\
&=
\left(1-\frac{h}{t-s}-1\right)\varphi(s)
+
\frac{h}{t-s}\varphi(t)
\\
&=
-\frac{h}{t-s}\varphi(s)
+
\frac{h}{t-s}\varphi(t)
\\
&=
\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr)
\end{align}
$$
したがって、
$$
\varphi(s+h)-\varphi(s)
\le
\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr)
$$
である。
ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
$$
\begin{align}
\frac{\varphi(s+h)-\varphi(s)}{h}
&\le
\frac{1}{h}\cdot\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr)
\\
&=
\frac{\varphi(t)-\varphi(s)}{t-s}
\end{align}
$$
である。すなわち、
$$
\frac{\varphi(s+h)-\varphi(s)}{h}
\le
\frac{\varphi(t)-\varphi(s)}{t-s}
$$
である。ここで、$s\in(a,b)$ であり、$\varphi$ は $(a,b)$ 上で微分可能であるから、
$s$ における右微分係数は通常の微分係数 $\varphi'(s)$ に一致する。
したがって、
$$
\lim_{h\downarrow0}
\frac{\varphi(s+h)-\varphi(s)}{h}
=
\varphi'(s)
$$
である。一方、
$$
\frac{\varphi(t)-\varphi(s)}{t-s}
$$
は $h$ に依存しない定数である。
ゆえに、$h\downarrow0$ とすると、
$$
\varphi'(s)
\le
\frac{\varphi(t)-\varphi(s)}{t-s}
$$
を得る。
$ $ - 次に、同じく $0< h< t-s$ とする。
このとき、まず $t-h$ が $s$ と $t$ の凸結合として表されることを確認する。
$$
\begin{align}
t-h
&=
t-\frac{h}{t-s}(t-s)
\\
&=
t-\frac{h}{t-s}t+\frac{h}{t-s}s
\\
&=
\frac{h}{t-s}s+t-\frac{h}{t-s}t
\\
&=
\frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t
\end{align}
$$
また、$s< t$ より、
$$
t-s>0
$$
である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
$$
0<\frac{h}{t-s}<1
$$
を得る。したがって、
$$
\frac{h}{t-s}\in[0,1],
\quad
1-\frac{h}{t-s}\in[0,1]
$$
であり、
$$
\frac{h}{t-s}
+
\left(1-\frac{h}{t-s}\right)
=
1
$$
である。よって、
$$
t-h
=
\frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t
$$
は、$s$ と $t$ の凸結合である。$\varphi$ は凸であるから、凸性の定義より、
$$
\varphi(t-h)
\le
\frac{h}{t-s}\varphi(s)
+
\left(1-\frac{h}{t-s}\right)\varphi(t)
$$
が成り立つ。この不等式を整理する。
まず、両辺を $-1$ 倍すると、不等号の向きが反転して、
$$
-\varphi(t-h)
\ge
-\frac{h}{t-s}\varphi(s)
-
\left(1-\frac{h}{t-s}\right)\varphi(t)
$$
である。両辺に $\varphi(t)$ を加えると、
$$
\varphi(t)-\varphi(t-h)
\ge
\varphi(t)
-\frac{h}{t-s}\varphi(s)
-
\left(1-\frac{h}{t-s}\right)\varphi(t)
$$
である。
右辺を整理すると、
$$
\begin{align}
\varphi(t)
-\frac{h}{t-s}\varphi(s)
-
\left(1-\frac{h}{t-s}\right)\varphi(t)
&=
\varphi(t)
-\left(1-\frac{h}{t-s}\right)\varphi(t)
-\frac{h}{t-s}\varphi(s)
\\
&=
\left(1-\left(1-\frac{h}{t-s}\right)\right)\varphi(t)
-\frac{h}{t-s}\varphi(s)
\\
&=
\frac{h}{t-s}\varphi(t)
-\frac{h}{t-s}\varphi(s)
\\
&=
\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr)
\end{align}
$$
したがって、
$$
\varphi(t)-\varphi(t-h)
\ge
\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr)
$$
である。
ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
$$
\frac{\varphi(t)-\varphi(t-h)}{h}
\ge
\frac{\varphi(t)-\varphi(s)}{t-s}
$$
である。
また、$t\in(a,b)$ であり、$\varphi$ は $(a,b)$ 上で微分可能であるから、左微分係数は通常の微分係数に一致する。
したがって、$h\downarrow0$ とすると、
$$
\varphi'(t)
\ge
\frac{\varphi(t)-\varphi(s)}{t-s}
$$
を得る。
-以上より、
$$
\varphi'(s)
\le
\frac{\varphi(t)-\varphi(s)}{t-s}
\le
\varphi'(t)
$$
である。したがって、
$$
s< t
\Rightarrow
\varphi'(s)\le\varphi'(t)
$$
であるから、$\varphi'$ は $(a,b)$ 上で単調増加である。
$ $
次に、任意に $t\in(a,b)$ を取る。
$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるから、特に $\varphi'$ は $t$ で微分可能である。したがって、
$$
\varphi''(t)
=
\lim_{h\to0}
\frac{\varphi'(t+h)-\varphi'(t)}{h}
$$
が成り立つ。ここで、$t\in(a,b)$ であるから、
$$
t-a>0,\quad b-t>0
$$
である。そこで、
$$
\delta:=\frac{1}{2}\min\{t-a,b-t\}
$$
とおくと、$\delta>0$ である。このとき、$0<|h|<\delta$ ならば、
$$
-\delta< h<\delta
$$
であるから、
$$
t-\delta< t+h< t+\delta
$$
である。また、$\delta\le t-a$ かつ $\delta\le b-t$ であるから、
$$
a< t-\delta
$$
かつ
$$
t+\delta< b
$$
である。したがって、
$$
a< t+h< b
$$
である。ゆえに、
$$
t+h\in(a,b)
$$
である。
- ここで、$0< h<\delta$ の場合を考える。
このとき、
$$
t< t+h
$$
である。すでに示したように、$\varphi'$ は $(a,b)$ 上で単調増加であるから、
$$
\varphi'(t)\le \varphi'(t+h)
$$
である。したがって、
$$
\varphi'(t+h)-\varphi'(t)\ge0
$$
である。
また、$h>0$ であるから、正の数 $h$ で割っても不等号の向きは変わらない。よって、
$$
\frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0
$$
である。
$ $ - 次に、$-\delta< h<0$ の場合を考える。
このとき、
$$
t+h< t
$$
である。
すでに示したように、$\varphi'$ は $(a,b)$ 上で単調増加であるから、
$$
\varphi'(t+h)\le \varphi'(t)
$$
である。
したがって、
$$
\varphi'(t+h)-\varphi'(t)\le0
$$
である。また、$h<0$ であるから、負の数 $h$ で割ると不等号の向きが反転する。よって、
$$
\frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0
$$
である。
-以上より、任意の $h$ について、
$$
0<|h|<\delta
$$
ならば、
$$
\frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0
$$
が成り立つ。さらに $\varphi'$ は $t$ で微分可能であるから、
$$
\lim_{h\to0}\frac{\varphi'(t+h)-\varphi'(t)}{h}
=
\varphi''(t)
$$
である。ここで、非負な関数の極限は非負であることから
$$
\varphi''(t)
=
\lim_{h\to0}
\frac{\varphi'(t+h)-\varphi'(t)}{h}
\ge0
$$
である。$t\in(a,b)$ は任意であったから、
$$
\varphi''(t)\ge0
\quad
(\forall t\in(a,b))
$$
が成り立つ。
$$ \Box$$
今回の逆方向の命題は、$\varphi$ が凸であるだけではなく、$(a,b)$ 上で $2$ 回微分可能であるという仮定のもとで成り立つ。
凸関数は一般には微分可能とは限らない。例えば、絶対値関数 $f(x)=|x|$ は凸であるが、$x=0$ で微分可能ではない。
したがって、$\varphi''(t)\ge0$ を結論するには、少なくともその点で $2$ 回微分可能であることが必要である。
$2$ つの命題から分かること
$2$ つの命題を合わせると、$2$ 回微分可能な $1$ 変数関数について、凸性と第 $2$ 導関数の非負性が同値であることが分かる。
すなわち、$\varphi:[a,b]\to\mathbb R$ が $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能であるとき、
$$
\varphi\text{ が }[a,b]\text{ 上で凸である}
$$
ことと、
$$
\varphi''(t)\ge0
\quad
(\forall t\in(a,b))
$$
が成り立つことは同値である。つまり、
$$
\varphi\text{ が }[a,b]\text{ 上で凸である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)\ge0\quad(\forall t\in(a,b))
$$
である。
【重要】狭義凸性と第 $2$ 導関数の関係
$2$ 回微分可能な $1$ 変数関数について、凸性の場合は
$$
\varphi\text{ が凸である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)\ge0\quad(\forall t\in(a,b))
$$
が成り立つ。
一方、狭義凸性の場合は、これをそのまま狭義不等号に置き換えて
$$
\varphi\text{ が狭義凸である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)>0\quad(\forall t\in(a,b))
$$
とすることはできない。実際、
$$
\varphi''(t)>0\quad(\forall t\in(a,b))
$$
ならば、$\varphi$ は狭義凸である。
しかし、逆は一般には成り立たない。すなわち、$\varphi$ が狭義凸であっても、すべての $t\in(a,b)$ で
$$
\varphi''(t)>0
$$
が成り立つとは限らない。
$ $
例えば、
$$
\varphi(x)=x^4
$$
を考えると、$\varphi$ は狭義凸であるが、
$$
\varphi''(x)=12x^2
$$
であるため、
$$
\varphi''(0)=0
$$
となる。
したがって、狭義凸性から導けるのは、まず凸性によって
$$
\varphi''(t)\ge0\quad(\forall t\in(a,b))
$$
であり、
$$
\varphi''(t)>0\quad(\forall t\in(a,b))
$$
までは一般には導けない。
有限個の凸結合に対するイェンセンの不等式【$\text{Jensen's inequality}$】
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を凸関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\le t f(x)+(1-t)f(y)
$$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n \alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\le
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
数学的帰納法により示す。
- まず、$n=1$ の場合を示す。
このとき、
$$
\sum_{i=1}^1\alpha_i=1
$$
より、
$$
\alpha_1=1
$$
である。したがって、
$$
f\left(\sum_{i=1}^1\alpha_i x_i\right)
=
f(\alpha_1 x_1)
=
f(x_1)
$$
であり、
$$
\sum_{i=1}^1\alpha_i f(x_i)
=
\alpha_1 f(x_1)
=
f(x_1)
$$
である。ゆえに、
$$
f\left(\sum_{i=1}^1\alpha_i x_i\right)
\le
\sum_{i=1}^1\alpha_i f(x_i)
$$
が成り立つ。
$ $ - 次に、$n=2$ の場合は、凸性の定義そのものである。
実際、$\alpha_1,\alpha_2\ge0$ かつ
$$
\alpha_1+\alpha_2=1
$$
ならば、
$$
\alpha_2=1-\alpha_1
$$
であり、$\alpha_1\in[0,1]$ である。
したがって、凸性の定義より、
$$
f(\alpha_1x_1+\alpha_2x_2)
=
f(\alpha_1x_1+(1-\alpha_1)x_2)
\le
\alpha_1f(x_1)+(1-\alpha_1)f(x_2)
=
\alpha_1f(x_1)+\alpha_2f(x_2)
$$
である。
$ $ - 次に、ある $k\in\mathbb N$ に対して、$n=k$ の場合に主張が成り立つと仮定する。
すなわち、任意の $x_1,\ldots,x_k\in I$ と任意の $\alpha_1,\ldots,\alpha_k\ge0$ で、
$$
\sum_{i=1}^k\alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^k\alpha_i x_i\right)
\le
\sum_{i=1}^k\alpha_i f(x_i)
$$
が成り立つと仮定する。
$ $ - $n=k+1$ の場合を示す。
$x_1,\ldots,x_{k+1}\in I$ と $\alpha_1,\ldots,\alpha_{k+1}\ge0$ を任意に取り、
$$
\sum_{i=1}^{k+1}\alpha_i=1
$$
とする。
ここで、
$$
\beta:=\sum_{i=1}^k\alpha_i
$$
とおく。
このとき、
$$
\beta+\alpha_{k+1}=1
$$
であり、
$$
0\le\beta\le1
$$
である。
$ $
i) $\beta=0$ の場合。
$\alpha_i\ge0$ であり、
$$
\beta=\sum_{i=1}^k\alpha_i=0
$$
であるから、
$$
\alpha_1=\alpha_2=\cdots=\alpha_k=0
$$
である。また、
$$
\beta+\alpha_{k+1}=1
$$
より、
$$
\alpha_{k+1}=1
$$
である。したがって、
$$
\sum_{i=1}^{k+1}\alpha_i x_i=x_{k+1}
$$
であり、
$$
\sum_{i=1}^{k+1}\alpha_i f(x_i)=f(x_{k+1})
$$
である。ゆえに、
$$
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
=
f(x_{k+1})
=
\sum_{i=1}^{k+1}\alpha_i f(x_i)
$$
である。したがって、この場合は等号として成り立つ。
$ $
ii) $\beta=1$ の場合。
このとき、
$$
\alpha_{k+1}=0
$$
である。したがって、
$$
\sum_{i=1}^{k+1}\alpha_i x_i
=
\sum_{i=1}^{k}\alpha_i x_i
$$
であり、
$$
\sum_{i=1}^{k+1}\alpha_i f(x_i)
=
\sum_{i=1}^{k}\alpha_i f(x_i)
$$
である。また、$\beta+\alpha_{k+1}=1$ より
$$
\sum_{i=1}^{k}\alpha_i=\beta=1
$$
であるから、帰納法の仮定より、
$$
f\left(\sum_{i=1}^{k}\alpha_i x_i\right)
\le
\sum_{i=1}^{k}\alpha_i f(x_i)
$$
である。したがって、
$$
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
\le
\sum_{i=1}^{k+1}\alpha_i f(x_i)
$$
が成り立つ。
$ $
iii) $0<\beta<1$ の場合。
このとき、$i=1,\ldots,k$ に対して、
$$
\lambda_i:=\frac{\alpha_i}{\beta}
$$
とおく。すると、
$$
\lambda_i\ge0
$$
であり、
$$
\sum_{i=1}^k\lambda_i
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}
=
\frac{1}{\beta}\sum_{i=1}^k\alpha_i
=
1
$$
である。ここで、
$$
y:=\sum_{i=1}^k\lambda_i x_i
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i
$$
とおく。
$ $
ここで、帰納法の仮定を適用するためには $y\in I$ であることが必要である。実際、$I$ は区間であり、区間は凸集合である。
さらに、$\lambda_i\ge0$ かつ $\sum_{i=1}^k\lambda_i=1$ であるから、$y$ は $x_1,\ldots,x_k$ の凸結合である。
よって、帰納法の仮定の適用対象として $y\in I$ である(補足を参照)。
$ $
帰納法の仮定より、
$$
f(y)
=
f\left(\sum_{i=1}^k\lambda_i x_i\right)
\le
\sum_{i=1}^k\lambda_i f(x_i)
=
\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i)
$$
が成り立つ。また、
$$
\beta+\alpha_{k+1}=1
$$
であり、$0<\beta<1$ かつ $\alpha_{k+1}\ge0$ であるから、$\beta$ と $\alpha_{k+1}$ は $2$ 点の凸結合の重みである。
さらに、
$$
\begin{align}
\beta y+\alpha_{k+1}x_{k+1}
&=
\beta\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i+\alpha_{k+1}x_{k+1}
\\
&=
\sum_{i=1}^k\alpha_i x_i+\alpha_{k+1}x_{k+1}
\\
&=
\sum_{i=1}^{k+1}\alpha_i x_i
\end{align}
$$
である。凸性の定義より、
$$
f(\beta y+\alpha_{k+1}x_{k+1})
\le
\beta f(y)+\alpha_{k+1}f(x_{k+1})
$$
である。したがって、
$$
\begin{align}
f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right)
&=
f(\beta y+\alpha_{k+1}x_{k+1})
\\
&\le
\beta f(y)+\alpha_{k+1}f(x_{k+1})
\\
&\le
\beta\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i)
+
\alpha_{k+1}f(x_{k+1})
\\
&=
\sum_{i=1}^k\alpha_i f(x_i)
+
\alpha_{k+1}f(x_{k+1})
\\
&=
\sum_{i=1}^{k+1}\alpha_i f(x_i)
\end{align}
$$
である。したがって、$n=k+1$ の場合も成り立つ。
-以上より、数学的帰納法により、任意の $n\in\mathbb N$ に対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$$ \Box$$
帰納法の仮定を適用するための $y\in I$ の確認
証明中では、
$$
y:=\sum_{i=1}^k\lambda_i x_i
$$
と定めている。ここで帰納法の仮定を
$$
f\left(\sum_{i=1}^k\lambda_i x_i\right)
\le
\sum_{i=1}^k\lambda_i f(x_i)
$$
の形で適用するためには、まず
$$
y=\sum_{i=1}^k\lambda_i x_i\in I
$$
が成り立つことを確認する必要がある。なぜなら、$f$ は $I$ 上の関数
$$
f:I\to\mathbb R
$$
として定義されているので、$y\notin I$ であれば $f(y)$ が定義されないからである。
いま、$x_1,\ldots,x_k\in I$ であり、$\lambda_1,\ldots,\lambda_k\ge0$ かつ
$$
\sum_{i=1}^k\lambda_i=1
$$
である。
したがって、$y$ は $x_1,\ldots,x_k$ からなる有限個の凸結合である。
ただし、ここで使ってよいのは、まだ証明中の $\text{Jensen}$の不等式 ではなく、区間の基本性質である。
$ $
まず、$x_1,\ldots,x_k$ は有限個の実数であるから、最小値と最大値が存在する。そこで、
$$
m:=\min\{x_1,\ldots,x_k\},
\quad
M:=\max\{x_1,\ldots,x_k\}
$$
とおく。
このとき、$m$ と $M$ は $x_1,\ldots,x_k$ のいずれかであるから、
$$
m\in I,
\quad
M\in I
$$
である。また、任意の $i=1,\ldots,k$ に対して、
$$
m\le x_i\le M
$$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、不等式に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、任意の $i=1,\ldots,k$ に対して、
$$
\lambda_i m
\le
\lambda_i x_i
\le
\lambda_i M
$$
である。
これらを $i=1,\ldots,k$ について足し合わせると、
$$
\sum_{i=1}^k\lambda_i m
\le
\sum_{i=1}^k\lambda_i x_i
\le
\sum_{i=1}^k\lambda_i M
$$
を得る。さらに、
$$
\sum_{i=1}^k\lambda_i=1
$$
であるから、
$$
\sum_{i=1}^k\lambda_i m
=
m\sum_{i=1}^k\lambda_i
=
m
$$
であり、
$$
\sum_{i=1}^k\lambda_i M
=
M\sum_{i=1}^k\lambda_i
=
M
$$
である。よって、
$$
m
\le
\sum_{i=1}^k\lambda_i x_i
\le
M
$$
である。すなわち、
$$
m\le y\le M
$$
である。ここで、$I$ は区間であり、$m,M\in I$ である。
区間の定義より、$m\le z\le M$ を満たす任意の実数 $z$ は $I$ に属する。
したがって、$m\le y\le M$ であるから、
$$
y\in I
$$
が成り立つ。
以上より、$y$ は $I$ に属するので、$f(y)$ は定義されており、帰納法の仮定を
$$
x_1,\ldots,x_k
\quad\text{と}\quad
\lambda_1,\ldots,\lambda_k
$$
に適用できる。
等号成立条件
有限個の凸結合に対するイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、等号がいつ成立するかは、$f$ が単なる凸関数である場合と、狭義凸関数である場合で異なる。
- まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
$$
x_i=a
$$
が成り立つ場合には、等号が成立する。
実際、このとき
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i=1}^n\alpha_i a
=
a\sum_{i=1}^n\alpha_i
=
a
$$
であるから、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
f(a)
$$
である。また、
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i=1}^n\alpha_i f(a)
=
f(a)\sum_{i=1}^n\alpha_i
=
f(a)
$$
である。したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$ $ - ただし、$f$ が単なる凸関数である場合、等号成立は必ずしも
$$
x_1=x_2=\cdots=x_n
$$
だけに限られない。
例えば、$f$ が $x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
$$
f(x)=ax+b
$$
と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
実際、このとき
$$
\begin{align}
f\left(\sum_{i=1}^n\alpha_i x_i\right)
&=
a\left(\sum_{i=1}^n\alpha_i x_i\right)+b
\\
&=
\sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i
\\
&=
\sum_{i=1}^n\alpha_i(ax_i+b)
\\
&=
\sum_{i=1}^n\alpha_i f(x_i)
\end{align}
$$
である。
狭義凸関数の場合の等号成立条件
一方、$f$ が $I$ 上の狭義凸関数である場合には、等号成立条件はより強くなる。
$f$ が $I$ 上の狭義凸関数であるとする。
有限個の凸結合に対するイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\le
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$
\alpha_i x_i=0
\qquad
\text{かつ}
\qquad
\alpha_i f(x_i)=0
$$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$
S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\}
$$
とおく。このとき、
$$
\sum_{i\in S}\alpha_i=1
$$
であり、
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
$$
かつ
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
$$
である。したがって、イェンセンの不等式は
$$
f\left(\sum_{i\in S}\alpha_i x_i\right)
\le
\sum_{i\in S}\alpha_i f(x_i)
$$
と同じである。
$ $
$f$ が狭義凸関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$
x_i=x_j
$$
が成り立つことである。
$ $
- まず、正の重みをもつ点がすべて等しいとする。
i) すなわち、ある $a\in I$ が存在して、任意の $i\in S$ に対して
$$
x_i=a
$$
が成り立つとする。このとき、
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
=
\sum_{i\in S}\alpha_i a
=
a\sum_{i\in S}\alpha_i
=
a
$$
である。したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
f(a)
$$
である。
$ $
ii) 一方で、
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(a)
=
f(a)\sum_{i\in S}\alpha_i
=
f(a)
$$
である。よって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つ。
$ $ - 逆に、正の重みをもつ点の中に異なる $2$ 点が存在するとする。
つまり、ある $i,j\in S$ が存在して、
$$
x_i\ne x_j
$$
が成り立つとする。このとき、正の重みをもつ点はすべて等しいわけではない。
$f$ は狭義凸関数であるから、異なる $2$ 点の真の凸結合に対しては、狭義の不等式が成り立つ。
すなわち、$u,v\in I$、$u\ne v$、$0< t<1$ ならば、
$$
f(tu+(1-t)v)
<
tf(u)+(1-t)f(v)
$$
である。
この性質を有限個の凸結合に繰り返し用いると、正の重みをもつ点の中に異なる $2$ 点が存在する場合には、
$$
f\left(\sum_{i\in S}\alpha_i x_i\right)
<
\sum_{i\in S}\alpha_i f(x_i)
$$
が成り立つ。
したがって、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
<
\sum_{i=1}^n\alpha_i f(x_i)
$$
である。ゆえに、この場合には等号は成立しない。
$ $
-以上より、$f$ が狭義凸関数である場合、イェンセンの不等式における等号成立条件は
$$
\forall i,j\in S,\quad x_i=x_j
$$
である。特に、すべての重みが正である場合、すなわち
$$
\alpha_i>0
\qquad
(i=1,\ldots,n)
$$
である場合には、
$$
S=\{1,\ldots,n\}
$$
であるから、等号成立条件は
$$
x_1=x_2=\cdots=x_n
$$
である。