【最適化】凸関数と凸不等式についてのメモ

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

Def.

凸集合【再掲】

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つことをいう。

幾何的意味

$C$ が凸集合であるとは、$C$ に属する任意の $2$ 点 $x,y$ を選んだとき、その $2$ 点を結ぶ線分全体が $C$ に含まれるということである。
すなわち、$C$ に属する $2$ 点を結んだ線分が、途中で $C$ の外に出ない集合である。

$tx+(1-t)y$ の意味

$t\in[0,1]$ のとき、
$$ tx+(1-t)y $$
は $x$ と $y$ を結ぶ線分上の点である。
$t=1$ のとき $x$ になり、$t=0$ のとき $y$ になる。
また、$0< t<1$ かつ $x\neq y$ のとき、$tx+(1-t)y$ は $x$ と $y$ を結ぶ線分の端点を除いた部分にある点である。

凸集合の例

$\mathbb R^n$ 全体、空集合、$1$ 点集合、区間、半空間、閉球などは凸集合である。
特に、$\mathbb R$ の部分集合では、区間は凸集合である。

凸集合でない例

$\mathbb R^2$ において、穴の空いた領域や三日月形の領域は一般に凸集合ではない。
なぜなら、その集合の中の $2$ 点を結ぶ線分が、途中で集合の外に出る場合があるからである。

$1$ 変数の凸関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の凸関数であるとは、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\leq t f(x)+(1-t)f(y) $$
が成り立つことをいう。

凸関数の幾何的意味

$f$ が凸関数であるとは、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分が、その $2$ 点の間にあるグラフの上側にあることを意味する。
より正確には、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
は、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
以下である。

狭義凸関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の狭義凸関数であるとは、任意の $x,y\in I$ と任意の $t\in(0,1)$ に対して、
$$ x\ne y $$
ならば、
$$ f(tx+(1-t)y)< t f(x)+(1-t)f(y) $$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$ 点 $x,y$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。

ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
$$ tx+(1-t)y $$
がそれぞれ $y$ または $x$ となり、常に等号が成り立ってしまうからである。
実際、$t=0$ のとき、
$$ f(tx+(1-t)y)=f(y) $$
であり、
$$ t f(x)+(1-t)f(y)=f(y) $$
である。また、$t=1$ のとき、
$$ f(tx+(1-t)y)=f(x) $$
であり、
$$ t f(x)+(1-t)f(y)=f(x) $$
である。
したがって、狭義凸性では $t\in(0,1)$ を仮定する。
$ $
また、$x=y$ の場合にも常に等号が成り立つ。
実際、$x=y$ ならば、
$$ tx+(1-t)y = tx+(1-t)x = x $$
であるから、
$$ f(tx+(1-t)y)=f(x) $$
である。一方、
$$ t f(x)+(1-t)f(y) = t f(x)+(1-t)f(x) = f(x) $$
である。
したがって、狭義凸性では $x\ne y$ を仮定する。

-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
が、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
より真に小さいということである。

多変数の凸関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) \leq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。

定義域が凸集合である必要性

$C$ が凸集合であることにより、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つ。
したがって、左辺
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が常に定義される。

狭義凸関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の狭義凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in(0,1)$ に対して、
$$ \mathbf{x}\ne\mathbf{y} $$
ならば、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) < t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$ 点 $\mathbf{x},\mathbf{y}$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。

ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
$$ t\mathbf{x}+(1-t)\mathbf{y} $$
がそれぞれ $\mathbf{y}$ または $\mathbf{x}$ となり、常に等号が成り立ってしまうからである。
実際、$t=0$ のとき、
$$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{y}) $$
であり、
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{y}) $$
である。また、$t=1$ のとき、
$$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
であり、
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{x}) $$
である。
したがって、狭義凸性では $t\in(0,1)$ を仮定する。
$ $
また、$\mathbf{x}=\mathbf{y}$ の場合にも常に等号が成り立つ。
実際、$\mathbf{x}=\mathbf{y}$ ならば、
$$ t\mathbf{x}+(1-t)\mathbf{y} = t\mathbf{x}+(1-t)\mathbf{x} = \mathbf{x} $$
であるから、
$$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
である。一方、
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) = t f(\mathbf{x})+(1-t)f(\mathbf{x}) = f(\mathbf{x}) $$
である。
したがって、狭義凸性では $\mathbf{x}\ne\mathbf{y}$ を仮定する。

-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $t\mathbf{x}+(1-t)\mathbf{y}$ における関数値
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が、グラフ上の $2$ 点 $(\mathbf{x},f(\mathbf{x}))$ と $(\mathbf{y},f(\mathbf{y}))$ を結ぶ線分上の点の高さ
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
より真に小さいということである。

凸結合

$m\in\mathbb N$ とし、$x_1,x_2,\ldots,x_m\in\mathbb R^n$ とする。
点 $x_1,x_2,\ldots,x_m$ の凸結合とは、ある実数 $\lambda_1,\lambda_2,\ldots,\lambda_m\in\mathbb R$ が存在して、
$$ \lambda_i\geq0\quad(i=1,2,\ldots,m), \qquad \sum_{i=1}^m\lambda_i=1 $$
を満たし、さらに
$$ x=\sum_{i=1}^m\lambda_i x_i $$
と表される点 $x\in\mathbb R^n$ のことである。

$2$ 点の凸結合

$m=2$ の場合、点 $x_1,x_2\in\mathbb R^n$ の凸結合は、
$$ \lambda_1x_1+\lambda_2x_2 $$
であり、条件
$$ \lambda_1\geq0,\qquad \lambda_2\geq0,\qquad \lambda_1+\lambda_2=1 $$
を満たす。このとき、$\lambda_1=t$ とおくと $\lambda_2=1-t$ であり、$t\in[0,1]$ であるから、
$$ \lambda_1x_1+\lambda_2x_2 = tx_1+(1-t)x_2 $$
と書ける。したがって、凸集合の定義に現れる
$$ tx+(1-t)y $$
は、$2$ 点 $x,y$ の凸結合である。

凸結合と線分

$x,y\in\mathbb R^n$ とする。
$x$ と $y$ を結ぶ線分は、
$$ \{tx+(1-t)y \mid t\in[0,1]\} $$
で表される。
したがって、$2$ 点の凸結合全体は、その $2$ 点を結ぶ線分である。

凸集合との関係

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、$C$ の任意の $2$ 点の凸結合が再び $C$ に属することである。
すなわち、任意の $x,y\in C$ と任意の $t\in[0,1]$ に対して、
$$ tx+(1-t)y\in C $$
が成り立つことである。
より一般に、$C$ が凸集合ならば、任意の $m\in\mathbb N$、任意の $x_1,x_2,\ldots,x_m\in C$、任意の $\lambda_1,\lambda_2,\ldots,\lambda_m\geq0$ で
$$ \sum_{i=1}^m\lambda_i=1 $$
を満たすものに対して、
$$ \sum_{i=1}^m\lambda_i x_i\in C $$
が成り立つ。

Prop&Proof.

凸集合は有限個の凸結合で閉じている

$C\subseteq\mathbb R^n$ を凸集合とする。
$m$ を正の整数とし、$\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_m\in C$ とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_m\ge0$ とし、
$$ \sum_{i=1}^m\lambda_i=1 $$
を満たすとする。このとき、
$$ \sum_{i=1}^m\lambda_i\mathbf{x}_i\in C $$
が成り立つ。

$m$ に関する数学的帰納法で示す。

$m=1$ の場合を示す。
このとき、
$$ \sum_{i=1}^{1}\lambda_i=1 $$
であるから、
$$ \lambda_1=1 $$
である。
したがって、
$$ \sum_{i=1}^{1}\lambda_i\mathbf{x}_i = \lambda_1\mathbf{x}_1 = \mathbf{x}_1 $$
である。
仮定より $\mathbf{x}_1\in C$ であるから、
$$ \sum_{i=1}^{1}\lambda_i\mathbf{x}_i\in C $$
が成り立つ。
$ $
ある正の整数 $m$ について命題が成り立つと仮定する。
すなわち、任意の $\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m\in C$ と、任意の $\mu_1,\mu_2,\ldots,\mu_m\ge0$ で
$$ \sum_{i=1}^{m}\mu_i=1 $$
を満たすものに対して、
$$ \sum_{i=1}^{m}\mu_i\mathbf{u}_i\in C $$
が成り立つと仮定する。
$ $
この仮定のもとで、$m+1$ 個の場合を示す。
$\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_{m+1}\in C$ とし、
$$ \lambda_1,\lambda_2,\ldots,\lambda_{m+1}\ge0, \qquad \sum_{i=1}^{m+1}\lambda_i=1 $$
とする。示すべきことは、
$$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
である。
i) $\lambda_{m+1}=1$ の場合を考える。
　このとき、
$$ \sum_{i=1}^{m}\lambda_i = 1-\lambda_{m+1} = 0 $$
　である。
　また、$\lambda_i\ge0$ であるから、任意の $i=1,\ldots,m$ に対して、
$$ \lambda_i=0 $$
　である。したがって、
$$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i = \mathbf{x}_{m+1} $$
　である。仮定より $\mathbf{x}_{m+1}\in C$ であるから、
$$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
　が成り立つ。
$ $
ii) $\lambda_{m+1}<1$ の場合を考える。
　このとき、
$$ 1-\lambda_{m+1}>0 $$
　である。$i=1,\ldots,m$ に対して、
$$ \mu_i:=\frac{\lambda_i}{1-\lambda_{m+1}} $$
　と定める。$\lambda_i\ge0$ かつ $1-\lambda_{m+1}>0$ であるから、
$$ \mu_i\ge0 \qquad (i=1,\ldots,m) $$
　である。また、
$$ \begin{align} \sum_{i=1}^{m}\mu_i &= \sum_{i=1}^{m}\frac{\lambda_i}{1-\lambda_{m+1}} \\ &= \frac{1}{1-\lambda_{m+1}}\sum_{i=1}^{m}\lambda_i \\ &= \frac{1}{1-\lambda_{m+1}}\left(1-\lambda_{m+1}\right) \\ &= 1 \end{align} $$
　である。したがって、$\mu_1,\ldots,\mu_m$ は非負で和が $1$ である。
　帰納法の仮定より、
$$ \mathbf{y}:=\sum_{i=1}^{m}\mu_i\mathbf{x}_i $$
　とおくと、
$$ \mathbf{y}\in C $$
　が成り立つ。ここで、
$$ \begin{align} (1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1} &= (1-\lambda_{m+1})\sum_{i=1}^{m}\mu_i\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= (1-\lambda_{m+1})\sum_{i=1}^{m} \frac{\lambda_i}{1-\lambda_{m+1}}\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= \sum_{i=1}^{m}\lambda_i\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i \end{align} $$
　である。また、
$$ \mathbf{y}\in C, \qquad \mathbf{x}_{m+1}\in C $$
　であり、
$$ 1-\lambda_{m+1}\ge0, \qquad \lambda_{m+1}\ge0, \qquad (1-\lambda_{m+1})+\lambda_{m+1}=1 $$
　である。
　 $C$ は凸集合であるから、$2$ 点 $\mathbf{y},\mathbf{x}_{m+1}\in C$ の凸結合
$$ (1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1} $$
　は $C$ に属する。したがって、
$$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
　が成り立つ。
以上より、$m+1$ の場合にも成り立つ。

-1. と 2. より、数学的帰納法によって、任意の正の整数 $m$ に対して、
$$ \sum_{i=1}^{m}\lambda_i\mathbf{x}_i\in C $$
が成り立つ。
$$ \Box$$

第 $2$ 導関数が非負なら凸である

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能な関数とする。
任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\ge0 $$
が成り立つとする。
このとき、$\varphi$ は $[a,b]$ 上で凸である。すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi((1-\theta)x+\theta y) \le (1-\theta)\varphi(x)+\theta\varphi(y) $$
が成り立つ。

まず、任意の $u,v\in(a,b)$ で $u< v$ とする。
$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるから、$\varphi'$ は $(a,b)$ 上で微分可能である。
したがって、$\varphi'$ は $(u,v)$ 上で連続であり、また $u,v\in(a,b)$ であるため端点 $u,v$ においても連続である。
よって、$\varphi'$ は $[u,v]$ 上で連続、$(u,v)$ 上で微分可能である。

ゆえに、平均値の定理(補足を参照)より、ある $c\in(u,v)$ が存在して、
$$ \frac{\varphi'(v)-\varphi'(u)}{v-u} = \varphi''(c) $$
が成り立つ。また、仮定より任意の $s\in(u,v)$ に対して $\varphi''(s)\ge0$ である。
したがって、
$$ \varphi'(v)-\varphi'(u) = \varphi''(c)(v-u) \ge0 $$
である。ゆえに、
$$ \varphi'(u)\le\varphi'(v) $$
である。
したがって、$\varphi'$ は $(a,b)$ 上で単調増加である。
$ $
次に、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ をとる。
i) $x=y$ の場合を考える。
　このとき、
$$ (1-\theta)x+\theta y = (1-\theta)x+\theta x = ((1-\theta)+\theta)x = x $$
　である。したがって、左辺は
$$ \varphi((1-\theta)x+\theta y) = \varphi(x) $$
　である。一方、右辺は、$y=x$ より、
$$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-\theta)\varphi(x)+\theta\varphi(x) = ((1-\theta)+\theta)\varphi(x) = \varphi(x) $$
　である。
　ゆえに、
$$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
　が成り立つ。したがって、$x=y$ の場合、示すべき不等式は等号として成り立つ。
$ $
ii) 次に、$x\neq y$ とし、$\theta=0$ の場合を考える。
　このとき、
$$ (1-\theta)x+\theta y = (1-0)x+0y = x $$
　である。したがって、左辺は
$$ \varphi((1-\theta)x+\theta y) = \varphi(x) $$
　である。一方、右辺は、
$$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-0)\varphi(x)+0\varphi(y) = \varphi(x) $$
　である。ゆえに、
$$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
　が成り立つ。したがって、$\theta=0$ の場合、示すべき不等式は等号として成り立つ。
$ $
iii) 次に、$x\neq y$ とし、$\theta=1$ の場合を考える。
　このとき、
$$ (1-\theta)x+\theta y = (1-1)x+1y = y $$
　である。したがって、左辺は
$$ \varphi((1-\theta)x+\theta y) = \varphi(y) $$
　である。一方、右辺は、
$$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-1)\varphi(x)+1\varphi(y) = \varphi(y) $$
　である。ゆえに、
$$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
　が成り立つ。したがって、$\theta=1$ の場合、示すべき不等式は等号として成り立つ。
$ $
以上より、$x=y$ の場合、$\theta=0$ の場合、$\theta=1$ の場合には、示すべき不等式は等号として成り立つ。
したがって、残る場合は
$$ x\neq y,\quad 0<\theta<1 $$
の場合である。
よって、以下では $x\neq y$ かつ $0<\theta<1$ の場合を考える。
$ $
まず $x>y$ の場合は $x$ と $y$ を入れ替え、$\theta$ を $1-\theta$ に置き換えれば同じ形の不等式になるため、$x< y$ の場合を示せば十分である。
そこで、$x< y$ とし、
$$ t=(1-\theta)x+\theta y $$
とおく。このとき、$0<\theta<1$ より、
$$ x< t< y $$
である。
平均値の定理より、ある $c\in(x,t)$ が存在して、
$$ \frac{\varphi(t)-\varphi(x)}{t-x} = \varphi'(c) $$
が成り立つ。また、ある $d\in(t,y)$ が存在して、
$$ \frac{\varphi(y)-\varphi(t)}{y-t} = \varphi'(d) $$
が成り立つ。ここで、$c< d$ であり、$\varphi'$ は単調増加であるから、
$$ \varphi'(c)\le\varphi'(d) $$
である。したがって、
$$ \frac{\varphi(t)-\varphi(x)}{t-x} \le \frac{\varphi(y)-\varphi(t)}{y-t} $$
である。
$t-x>0$ かつ $y-t>0$ であるから、両辺に $(t-x)(y-t)$ をかけて、
$$ (\varphi(t)-\varphi(x))(y-t) \le (\varphi(y)-\varphi(t))(t-x) $$
を得る。これを整理すると、
$$ \begin{align} (\varphi(t)-\varphi(x))(y-t) &\le (\varphi(y)-\varphi(t))(t-x) \\ \varphi(t)(y-t)-\varphi(x)(y-t) &\le \varphi(y)(t-x)-\varphi(t)(t-x) \\ \varphi(t)(y-t)+\varphi(t)(t-x) &\le \varphi(x)(y-t)+\varphi(y)(t-x) \end{align} $$
である。左辺を整理する。
$$ \begin{align} \varphi(t)(y-t)+\varphi(t)(t-x) &= \varphi(t)\bigl((y-t)+(t-x)\bigr) \\ &= \varphi(t)(y-t+t-x) \\ &= \varphi(t)(y-x) \end{align} $$
以上より、
$$ \varphi(t)(y-x) \le \varphi(x)(y-t)+\varphi(y)(t-x) $$
を得る。$y-x>0$ で割ると、
$$ \varphi(t) \le \frac{y-t}{y-x}\varphi(x) + \frac{t-x}{y-x}\varphi(y) $$
を得る。ここで、
$$ t=(1-\theta)x+\theta y $$
であるから、まず $t-x$ について、
$$ \begin{align} t-x &= \bigl((1-\theta)x+\theta y\bigr)-x \\ &= (1-\theta)x+\theta y-x \\ &= (1-\theta)x-x+\theta y \\ &= \bigl((1-\theta)-1\bigr)x+\theta y \\ &= -\theta x+\theta y \\ &= \theta(y-x) \end{align} $$
を得る。
次に、$y-t$ について、
$$ \begin{align} y-t &= y-\bigl((1-\theta)x+\theta y\bigr) \\ &= y-(1-\theta)x-\theta y \\ &= y-\theta y-(1-\theta)x \\ &= (1-\theta)y-(1-\theta)x \\ &= (1-\theta)(y-x) \end{align} $$
を得る。したがって、
$$ t-x=\theta(y-x) $$
かつ
$$ y-t=(1-\theta)(y-x) $$
である。したがって、
$$ \frac{t-x}{y-x}=\theta, \quad \frac{y-t}{y-x}=1-\theta $$
である。
ゆえに、
$$ \varphi((1-\theta)x+\theta y) \le (1-\theta)\varphi(x)+\theta\varphi(y) $$
が成り立つ。

-以上より、$\varphi$ は $[a,b]$ 上で凸である。
$$ \Box$$

平均値の定理の主張

平均値の定理とは、関数 $f$ が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であるとき、ある点 $c\in(\alpha,\beta)$ が存在して、
$$ f'(c) = \frac{f(\beta)-f(\alpha)}{\beta-\alpha} $$
が成り立つという定理である。右辺
$$ \frac{f(\beta)-f(\alpha)}{\beta-\alpha} $$
は、区間 $[\alpha,\beta]$ における平均変化率である。左辺 $f'(c)$ は、点 $c$ における瞬間変化率である。
したがって、平均値の定理は、区間全体での平均変化率と一致する瞬間変化率をもつ点が、
区間の内部に少なくとも $1$ つ存在することを主張している。
$ $
■ 平均値の定理を使うときの注意点
平均値の定理を使うには、関数が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であることを確認する必要がある。
端点 $\alpha,\beta$ では微分可能性を仮定する必要はない。
これは、平均値の定理で得られる点 $c$ が端点ではなく、開区間 $(\alpha,\beta)$ の内部に存在する点だからである。

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上で凸な関数とする。さらに、$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるとする。
このとき、任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\ge0 $$
が成り立つ。

まず、$\varphi'$ が $(a,b)$ 上で単調増加であることを示す。
任意に $s,t\in(a,b)$ を取り、
$$ s< t $$
とする。

$0< h< t-s$ を満たす $h$ を取る。
まず、$s+h$ が $s$ と $t$ の凸結合として表されることを確認する。
$$ \begin{align} s+h &= s+\frac{h}{t-s}(t-s) \\ &= s+\frac{h}{t-s}t-\frac{h}{t-s}s \\ &= s-\frac{h}{t-s}s+\frac{h}{t-s}t \\ &= \left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t \end{align} $$
また、$s< t$ より、
$$ t-s>0 $$
である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
$$ 0<\frac{h}{t-s}<1 $$
を得る。したがって、
$$ \frac{h}{t-s}\in[0,1], \quad 1-\frac{h}{t-s}\in[0,1] $$
であり、
$$ \begin{align} \left(1-\frac{h}{t-s}\right)+\frac{h}{t-s} &= 1 \end{align} $$
である。よって、
$$ s+h = \left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t $$
は、$s$ と $t$ の凸結合である。
また、$0< h< t-s$ より、
$$ s< s+h< t $$
であるから、$s+h\in(a,b)$ である。
仮定より $\varphi$ は凸であるから、凸性の定義より、
$$ \varphi(s+h) \le \left(1-\frac{h}{t-s}\right)\varphi(s) + \frac{h}{t-s}\varphi(t) $$
が成り立つ。この不等式を整理する。
まず、両辺から $\varphi(s)$ を引くと、
$$ \begin{align} \varphi(s+h)-\varphi(s) &\le \left(1-\frac{h}{t-s}\right)\varphi(s) + \frac{h}{t-s}\varphi(t) -\varphi(s) \\ &= \left(1-\frac{h}{t-s}\right)\varphi(s) -\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= \left(1-\frac{h}{t-s}-1\right)\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= -\frac{h}{t-s}\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \end{align} $$
したがって、
$$ \varphi(s+h)-\varphi(s) \le \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) $$
である。
ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
$$ \begin{align} \frac{\varphi(s+h)-\varphi(s)}{h} &\le \frac{1}{h}\cdot\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \\ &= \frac{\varphi(t)-\varphi(s)}{t-s} \end{align} $$
である。すなわち、
$$ \frac{\varphi(s+h)-\varphi(s)}{h} \le \frac{\varphi(t)-\varphi(s)}{t-s} $$
である。ここで、$s\in(a,b)$ であり、$\varphi$ は $(a,b)$ 上で微分可能であるから、
$s$ における右微分係数は通常の微分係数 $\varphi'(s)$ に一致する。
したがって、
$$ \lim_{h\downarrow0} \frac{\varphi(s+h)-\varphi(s)}{h} = \varphi'(s) $$
である。一方、
$$ \frac{\varphi(t)-\varphi(s)}{t-s} $$
は $h$ に依存しない定数である。
ゆえに、$h\downarrow0$ とすると、
$$ \varphi'(s) \le \frac{\varphi(t)-\varphi(s)}{t-s} $$
を得る。
$ $
次に、同じく $0< h< t-s$ とする。
このとき、まず $t-h$ が $s$ と $t$ の凸結合として表されることを確認する。
$$ \begin{align} t-h &= t-\frac{h}{t-s}(t-s) \\ &= t-\frac{h}{t-s}t+\frac{h}{t-s}s \\ &= \frac{h}{t-s}s+t-\frac{h}{t-s}t \\ &= \frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t \end{align} $$
また、$s< t$ より、
$$ t-s>0 $$
である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
$$ 0<\frac{h}{t-s}<1 $$
を得る。したがって、
$$ \frac{h}{t-s}\in[0,1], \quad 1-\frac{h}{t-s}\in[0,1] $$
であり、
$$ \frac{h}{t-s} + \left(1-\frac{h}{t-s}\right) = 1 $$
である。よって、
$$ t-h = \frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t $$
は、$s$ と $t$ の凸結合である。$\varphi$ は凸であるから、凸性の定義より、
$$ \varphi(t-h) \le \frac{h}{t-s}\varphi(s) + \left(1-\frac{h}{t-s}\right)\varphi(t) $$
が成り立つ。この不等式を整理する。
まず、両辺を $-1$ 倍すると、不等号の向きが反転して、
$$ -\varphi(t-h) \ge -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) $$
である。両辺に $\varphi(t)$ を加えると、
$$ \varphi(t)-\varphi(t-h) \ge \varphi(t) -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) $$
である。
右辺を整理すると、
$$ \begin{align} \varphi(t) -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) &= \varphi(t) -\left(1-\frac{h}{t-s}\right)\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \left(1-\left(1-\frac{h}{t-s}\right)\right)\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \frac{h}{t-s}\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \end{align} $$
したがって、
$$ \varphi(t)-\varphi(t-h) \ge \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) $$
である。
ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
$$ \frac{\varphi(t)-\varphi(t-h)}{h} \ge \frac{\varphi(t)-\varphi(s)}{t-s} $$
である。
また、$t\in(a,b)$ であり、$\varphi$ は $(a,b)$ 上で微分可能であるから、左微分係数は通常の微分係数に一致する。
したがって、$h\downarrow0$ とすると、
$$ \varphi'(t) \ge \frac{\varphi(t)-\varphi(s)}{t-s} $$
を得る。

-以上より、
$$ \varphi'(s) \le \frac{\varphi(t)-\varphi(s)}{t-s} \le \varphi'(t) $$
である。したがって、
$$ s< t \Rightarrow \varphi'(s)\le\varphi'(t) $$
であるから、$\varphi'$ は $(a,b)$ 上で単調増加である。
$ $
次に、任意に $t\in(a,b)$ を取る。
$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるから、特に $\varphi'$ は $t$ で微分可能である。したがって、
$$ \varphi''(t) = \lim_{h\to0} \frac{\varphi'(t+h)-\varphi'(t)}{h} $$
が成り立つ。ここで、$t\in(a,b)$ であるから、
$$ t-a>0,\quad b-t>0 $$
である。そこで、
$$ \delta:=\frac{1}{2}\min\{t-a,b-t\} $$
とおくと、$\delta>0$ である。このとき、$0<|h|<\delta$ ならば、
$$ -\delta< h<\delta $$
であるから、
$$ t-\delta< t+h< t+\delta $$
である。また、$\delta\le t-a$ かつ $\delta\le b-t$ であるから、
$$ a< t-\delta $$
かつ
$$ t+\delta< b $$
である。したがって、
$$ a< t+h< b $$
である。ゆえに、
$$ t+h\in(a,b) $$
である。

ここで、$0< h<\delta$ の場合を考える。
このとき、
$$ t< t+h $$
である。すでに示したように、$\varphi'$ は $(a,b)$ 上で単調増加であるから、
$$ \varphi'(t)\le \varphi'(t+h) $$
である。したがって、
$$ \varphi'(t+h)-\varphi'(t)\ge0 $$
である。
また、$h>0$ であるから、正の数 $h$ で割っても不等号の向きは変わらない。よって、
$$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
である。
$ $
次に、$-\delta< h<0$ の場合を考える。
このとき、
$$ t+h< t $$
である。
すでに示したように、$\varphi'$ は $(a,b)$ 上で単調増加であるから、
$$ \varphi'(t+h)\le \varphi'(t) $$
である。
したがって、
$$ \varphi'(t+h)-\varphi'(t)\le0 $$
である。また、$h<0$ であるから、負の数 $h$ で割ると不等号の向きが反転する。よって、
$$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
である。

-以上より、任意の $h$ について、
$$ 0<|h|<\delta $$
ならば、
$$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
が成り立つ。さらに $\varphi'$ は $t$ で微分可能であるから、
$$ \lim_{h\to0}\frac{\varphi'(t+h)-\varphi'(t)}{h} = \varphi''(t) $$
である。ここで、非負な関数の極限は非負であることから
$$ \varphi''(t) = \lim_{h\to0} \frac{\varphi'(t+h)-\varphi'(t)}{h} \ge0 $$
である。$t\in(a,b)$ は任意であったから、
$$ \varphi''(t)\ge0 \quad (\forall t\in(a,b)) $$
が成り立つ。
$$ \Box$$

今回の逆方向の命題は、$\varphi$ が凸であるだけではなく、$(a,b)$ 上で $2$ 回微分可能であるという仮定のもとで成り立つ。
凸関数は一般には微分可能とは限らない。例えば、絶対値関数 $f(x)=|x|$ は凸であるが、$x=0$ で微分可能ではない。
したがって、$\varphi''(t)\ge0$ を結論するには、少なくともその点で $2$ 回微分可能であることが必要である。

$2$ つの命題から分かること

$2$ つの命題を合わせると、$2$ 回微分可能な $1$ 変数関数について、凸性と第 $2$ 導関数の非負性が同値であることが分かる。
すなわち、$\varphi:[a,b]\to\mathbb R$ が $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能であるとき、
$$ \varphi\text{ が }[a,b]\text{ 上で凸である} $$
ことと、
$$ \varphi''(t)\ge0 \quad (\forall t\in(a,b)) $$
が成り立つことは同値である。つまり、
$$ \varphi\text{ が }[a,b]\text{ 上で凸である} \quad \Longleftrightarrow \quad \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
である。

【重要】狭義凸性と第 $2$ 導関数の関係

$2$ 回微分可能な $1$ 変数関数について、凸性の場合は
$$ \varphi\text{ が凸である} \quad \Longleftrightarrow \quad \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
が成り立つ。
一方、狭義凸性の場合は、これをそのまま狭義不等号に置き換えて
$$ \varphi\text{ が狭義凸である} \quad \Longleftrightarrow \quad \varphi''(t)>0\quad(\forall t\in(a,b)) $$
とすることはできない。実際、
$$ \varphi''(t)>0\quad(\forall t\in(a,b)) $$
ならば、$\varphi$ は狭義凸である。
しかし、逆は一般には成り立たない。すなわち、$\varphi$ が狭義凸であっても、すべての $t\in(a,b)$ で
$$ \varphi''(t)>0 $$
が成り立つとは限らない。
$ $
例えば、
$$ \varphi(x)=x^4 $$
を考えると、$\varphi$ は狭義凸であるが、
$$ \varphi''(x)=12x^2 $$
であるため、
$$ \varphi''(0)=0 $$
となる。
したがって、狭義凸性から導けるのは、まず凸性によって
$$ \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
であり、
$$ \varphi''(t)>0\quad(\forall t\in(a,b)) $$
までは一般には導けない。

有限個の凸結合に対するイェンセンの不等式【$\text{Jensen's inequality}$】

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を凸関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\le t f(x)+(1-t)f(y) $$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$ \sum_{i=1}^n \alpha_i=1 $$
を満たすものに対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \le \sum_{i=1}^n \alpha_i f(x_i) $$
が成り立つ。

数学的帰納法により示す。

まず、$n=1$ の場合を示す。
このとき、
$$ \sum_{i=1}^1\alpha_i=1 $$
より、
$$ \alpha_1=1 $$
である。したがって、
$$ f\left(\sum_{i=1}^1\alpha_i x_i\right) = f(\alpha_1 x_1) = f(x_1) $$
であり、
$$ \sum_{i=1}^1\alpha_i f(x_i) = \alpha_1 f(x_1) = f(x_1) $$
である。ゆえに、
$$ f\left(\sum_{i=1}^1\alpha_i x_i\right) \le \sum_{i=1}^1\alpha_i f(x_i) $$
が成り立つ。
$ $
次に、$n=2$ の場合は、凸性の定義そのものである。
実際、$\alpha_1,\alpha_2\ge0$ かつ
$$ \alpha_1+\alpha_2=1 $$
ならば、
$$ \alpha_2=1-\alpha_1 $$
であり、$\alpha_1\in[0,1]$ である。
したがって、凸性の定義より、
$$ f(\alpha_1x_1+\alpha_2x_2) = f(\alpha_1x_1+(1-\alpha_1)x_2) \le \alpha_1f(x_1)+(1-\alpha_1)f(x_2) = \alpha_1f(x_1)+\alpha_2f(x_2) $$
である。
$ $
次に、ある $k\in\mathbb N$ に対して、$n=k$ の場合に主張が成り立つと仮定する。
すなわち、任意の $x_1,\ldots,x_k\in I$ と任意の $\alpha_1,\ldots,\alpha_k\ge0$ で、
$$ \sum_{i=1}^k\alpha_i=1 $$
を満たすものに対して、
$$ f\left(\sum_{i=1}^k\alpha_i x_i\right) \le \sum_{i=1}^k\alpha_i f(x_i) $$
が成り立つと仮定する。
$ $
$n=k+1$ の場合を示す。
$x_1,\ldots,x_{k+1}\in I$ と $\alpha_1,\ldots,\alpha_{k+1}\ge0$ を任意に取り、
$$ \sum_{i=1}^{k+1}\alpha_i=1 $$
とする。
ここで、
$$ \beta:=\sum_{i=1}^k\alpha_i $$
とおく。
このとき、
$$ \beta+\alpha_{k+1}=1 $$
であり、
$$ 0\le\beta\le1 $$
である。
$ $
i) $\beta=0$ の場合。
　 $\alpha_i\ge0$ であり、
$$ \beta=\sum_{i=1}^k\alpha_i=0 $$
　であるから、
$$ \alpha_1=\alpha_2=\cdots=\alpha_k=0 $$
　である。また、
$$ \beta+\alpha_{k+1}=1 $$
　より、
$$ \alpha_{k+1}=1 $$
　である。したがって、
$$ \sum_{i=1}^{k+1}\alpha_i x_i=x_{k+1} $$
　であり、
$$ \sum_{i=1}^{k+1}\alpha_i f(x_i)=f(x_{k+1}) $$
　である。ゆえに、
$$ f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) = f(x_{k+1}) = \sum_{i=1}^{k+1}\alpha_i f(x_i) $$
　である。したがって、この場合は等号として成り立つ。
$ $
ii) $\beta=1$ の場合。
　このとき、
$$ \alpha_{k+1}=0 $$
　である。したがって、
$$ \sum_{i=1}^{k+1}\alpha_i x_i = \sum_{i=1}^{k}\alpha_i x_i $$
　であり、
$$ \sum_{i=1}^{k+1}\alpha_i f(x_i) = \sum_{i=1}^{k}\alpha_i f(x_i) $$
　である。また、$\beta+\alpha_{k+1}=1$ より
$$ \sum_{i=1}^{k}\alpha_i=\beta=1 $$
　であるから、帰納法の仮定より、
$$ f\left(\sum_{i=1}^{k}\alpha_i x_i\right) \le \sum_{i=1}^{k}\alpha_i f(x_i) $$
　である。したがって、
$$ f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) \le \sum_{i=1}^{k+1}\alpha_i f(x_i) $$
　が成り立つ。
$ $
iii) $0<\beta<1$ の場合。
　このとき、$i=1,\ldots,k$ に対して、
$$ \lambda_i:=\frac{\alpha_i}{\beta} $$
　とおく。すると、
$$ \lambda_i\ge0 $$
　であり、
$$ \sum_{i=1}^k\lambda_i = \sum_{i=1}^k\frac{\alpha_i}{\beta} = \frac{1}{\beta}\sum_{i=1}^k\alpha_i = 1 $$
　である。ここで、
$$ y:=\sum_{i=1}^k\lambda_i x_i = \sum_{i=1}^k\frac{\alpha_i}{\beta}x_i $$
　とおく。
$ $
　ここで、帰納法の仮定を適用するためには $y\in I$ であることが必要である。実際、$I$ は区間であり、区間は凸集合である。
　さらに、$\lambda_i\ge0$ かつ $\sum_{i=1}^k\lambda_i=1$ であるから、$y$ は $x_1,\ldots,x_k$ の凸結合である。
　よって、帰納法の仮定の適用対象として $y\in I$ である(補足を参照)。
$ $
　帰納法の仮定より、
$$ f(y) = f\left(\sum_{i=1}^k\lambda_i x_i\right) \le \sum_{i=1}^k\lambda_i f(x_i) = \sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i) $$
　が成り立つ。また、
$$ \beta+\alpha_{k+1}=1 $$
　であり、$0<\beta<1$ かつ $\alpha_{k+1}\ge0$ であるから、$\beta$ と $\alpha_{k+1}$ は $2$ 点の凸結合の重みである。
　さらに、
$$ \begin{align} \beta y+\alpha_{k+1}x_{k+1} &= \beta\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i+\alpha_{k+1}x_{k+1} \\ &= \sum_{i=1}^k\alpha_i x_i+\alpha_{k+1}x_{k+1} \\ &= \sum_{i=1}^{k+1}\alpha_i x_i \end{align} $$
　である。凸性の定義より、
$$ f(\beta y+\alpha_{k+1}x_{k+1}) \le \beta f(y)+\alpha_{k+1}f(x_{k+1}) $$
　である。したがって、
$$ \begin{align} f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) &= f(\beta y+\alpha_{k+1}x_{k+1}) \\ &\le \beta f(y)+\alpha_{k+1}f(x_{k+1}) \\ &\le \beta\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i) + \alpha_{k+1}f(x_{k+1}) \\ &= \sum_{i=1}^k\alpha_i f(x_i) + \alpha_{k+1}f(x_{k+1}) \\ &= \sum_{i=1}^{k+1}\alpha_i f(x_i) \end{align} $$
　である。したがって、$n=k+1$ の場合も成り立つ。

-以上より、数学的帰納法により、任意の $n\in\mathbb N$ に対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つ。
$$ \Box$$

帰納法の仮定を適用するための $y\in I$ の確認

証明中では、
$$ y:=\sum_{i=1}^k\lambda_i x_i $$
と定めている。ここで帰納法の仮定を
$$ f\left(\sum_{i=1}^k\lambda_i x_i\right) \le \sum_{i=1}^k\lambda_i f(x_i) $$
の形で適用するためには、まず
$$ y=\sum_{i=1}^k\lambda_i x_i\in I $$
が成り立つことを確認する必要がある。なぜなら、$f$ は $I$ 上の関数
$$ f:I\to\mathbb R $$
として定義されているので、$y\notin I$ であれば $f(y)$ が定義されないからである。
いま、$x_1,\ldots,x_k\in I$ であり、$\lambda_1,\ldots,\lambda_k\ge0$ かつ
$$ \sum_{i=1}^k\lambda_i=1 $$
である。
したがって、$y$ は $x_1,\ldots,x_k$ からなる有限個の凸結合である。
ただし、ここで使ってよいのは、まだ証明中の $\text{Jensen}$の不等式ではなく、区間の基本性質である。
$ $
まず、$x_1,\ldots,x_k$ は有限個の実数であるから、最小値と最大値が存在する。そこで、
$$ m:=\min\{x_1,\ldots,x_k\}, \quad M:=\max\{x_1,\ldots,x_k\} $$
とおく。
このとき、$m$ と $M$ は $x_1,\ldots,x_k$ のいずれかであるから、
$$ m\in I, \quad M\in I $$
である。また、任意の $i=1,\ldots,k$ に対して、
$$ m\le x_i\le M $$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、不等式に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、任意の $i=1,\ldots,k$ に対して、
$$ \lambda_i m \le \lambda_i x_i \le \lambda_i M $$
である。
これらを $i=1,\ldots,k$ について足し合わせると、
$$ \sum_{i=1}^k\lambda_i m \le \sum_{i=1}^k\lambda_i x_i \le \sum_{i=1}^k\lambda_i M $$
を得る。さらに、
$$ \sum_{i=1}^k\lambda_i=1 $$
であるから、
$$ \sum_{i=1}^k\lambda_i m = m\sum_{i=1}^k\lambda_i = m $$
であり、
$$ \sum_{i=1}^k\lambda_i M = M\sum_{i=1}^k\lambda_i = M $$
である。よって、
$$ m \le \sum_{i=1}^k\lambda_i x_i \le M $$
である。すなわち、
$$ m\le y\le M $$
である。ここで、$I$ は区間であり、$m,M\in I$ である。
区間の定義より、$m\le z\le M$ を満たす任意の実数 $z$ は $I$ に属する。
したがって、$m\le y\le M$ であるから、
$$ y\in I $$
が成り立つ。
以上より、$y$ は $I$ に属するので、$f(y)$ は定義されており、帰納法の仮定を
$$ x_1,\ldots,x_k \quad\text{と}\quad \lambda_1,\ldots,\lambda_k $$
に適用できる。

等号成立条件

有限個の凸結合に対するイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
において、等号がいつ成立するかは、$f$ が単なる凸関数である場合と、狭義凸関数である場合で異なる。

まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
$$ x_i=a $$
が成り立つ場合には、等号が成立する。
実際、このとき
$$ \sum_{i=1}^n\alpha_i x_i = \sum_{i=1}^n\alpha_i a = a\sum_{i=1}^n\alpha_i = a $$
であるから、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
である。また、
$$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i=1}^n\alpha_i f(a) = f(a)\sum_{i=1}^n\alpha_i = f(a) $$
である。したがって、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つ。
$ $
ただし、$f$ が単なる凸関数である場合、等号成立は必ずしも
$$ x_1=x_2=\cdots=x_n $$
だけに限られない。
例えば、$f$ が $x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
$$ f(x)=ax+b $$
と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
実際、このとき
$$ \begin{align} f\left(\sum_{i=1}^n\alpha_i x_i\right) &= a\left(\sum_{i=1}^n\alpha_i x_i\right)+b \\ &= \sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i \\ &= \sum_{i=1}^n\alpha_i(ax_i+b) \\ &= \sum_{i=1}^n\alpha_i f(x_i) \end{align} $$
である。

狭義凸関数の場合の等号成立条件

一方、$f$ が $I$ 上の狭義凸関数である場合には、等号成立条件はより強くなる。
$f$ が $I$ 上の狭義凸関数であるとする。
有限個の凸結合に対するイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$ \alpha_i x_i=0 \qquad \text{かつ} \qquad \alpha_i f(x_i)=0 $$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$ S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\} $$
とおく。このとき、
$$ \sum_{i\in S}\alpha_i=1 $$
であり、
$$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i $$
かつ
$$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) $$
である。したがって、イェンセンの不等式は
$$ f\left(\sum_{i\in S}\alpha_i x_i\right) \le \sum_{i\in S}\alpha_i f(x_i) $$
と同じである。
$ $
$f$ が狭義凸関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$ x_i=x_j $$
が成り立つことである。
$ $

まず、正の重みをもつ点がすべて等しいとする。
i) すなわち、ある $a\in I$ が存在して、任意の $i\in S$ に対して
$$ x_i=a $$
　が成り立つとする。このとき、
$$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i = \sum_{i\in S}\alpha_i a = a\sum_{i\in S}\alpha_i = a $$
　である。したがって、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
　である。
$ $
ii) 一方で、
$$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(a) = f(a)\sum_{i\in S}\alpha_i = f(a) $$
　である。よって、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
　が成り立つ。
$ $
逆に、正の重みをもつ点の中に異なる $2$ 点が存在するとする。
つまり、ある $i,j\in S$ が存在して、
$$ x_i\ne x_j $$
が成り立つとする。このとき、正の重みをもつ点はすべて等しいわけではない。
$f$ は狭義凸関数であるから、異なる $2$ 点の真の凸結合に対しては、狭義の不等式が成り立つ。
すなわち、$u,v\in I$、$u\ne v$、$0< t<1$ ならば、
$$ f(tu+(1-t)v) < tf(u)+(1-t)f(v) $$
である。
この性質を有限個の凸結合に繰り返し用いると、正の重みをもつ点の中に異なる $2$ 点が存在する場合には、
$$ f\left(\sum_{i\in S}\alpha_i x_i\right) < \sum_{i\in S}\alpha_i f(x_i) $$
が成り立つ。
したがって、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) < \sum_{i=1}^n\alpha_i f(x_i) $$
である。ゆえに、この場合には等号は成立しない。
$ $

-以上より、$f$ が狭義凸関数である場合、イェンセンの不等式における等号成立条件は
$$ \forall i,j\in S,\quad x_i=x_j $$
である。特に、すべての重みが正である場合、すなわち
$$ \alpha_i>0 \qquad (i=1,\ldots,n) $$
である場合には、
$$ S=\{1,\ldots,n\} $$
であるから、等号成立条件は
$$ x_1=x_2=\cdots=x_n $$
である。

投稿日：13日前

更新日：9日前

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

4972

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。　　　　　　　　　 ----------------------------------------------- ■ ノート『数学概論』の読み方　　　　 STEP1：まずは定義を一通り理解し覚える。 STEP2：具体例を考えてみる。　　　 STEP3：各命題の主張を一通り理解する。 STEP4：証明を繰り返し読んで流れを掴む。 (まずはココまでで良い)　　　　　　　　 STEP5：何も見ずに定義に従って証明を創る。 STEP6：STEP5の他の証明方法を創ってみる。　　　 STEP7：自由に命題と証明を創ってみる　　

他の人のコメント

コメントはありません。

読み込み中

Kagura

【最適化】凸関数と凸不等式についてのメモ