0

【最適化】凸関数と凸不等式についてのメモ

66
0
$$$$

Def.

凸集合 【再掲】

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つことをいう。

幾何的意味

$C$ が凸集合であるとは、$C$ に属する任意の $2$$x,y$ を選んだとき、その $2$ 点を結ぶ線分全体が $C$ に含まれるということである。
すなわち、$C$ に属する $2$ 点を結んだ線分が、途中で $C$ の外に出ない集合である。

$tx+(1-t)y$ の意味

$t\in[0,1]$ のとき、
$$ tx+(1-t)y $$
$x$$y$ を結ぶ線分上の点である。
$t=1$ のとき $x$ になり、$t=0$ のとき $y$ になる。
また、$0< t<1$ かつ $x\neq y$ のとき、$tx+(1-t)y$$x$$y$ を結ぶ線分の端点を除いた部分にある点である。

凸集合の例

$\mathbb R^n$ 全体、空集合、$1$ 点集合、区間、半空間、閉球などは凸集合である。
特に、$\mathbb R$ の部分集合では、区間は凸集合である。

凸集合でない例

$\mathbb R^2$ において、穴の空いた領域や三日月形の領域は一般に凸集合ではない。
なぜなら、その集合の中の $2$ 点を結ぶ線分が、途中で集合の外に出る場合があるからである。

$1$ 変数の凸関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$$I$ 上の凸関数であるとは、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\leq t f(x)+(1-t)f(y) $$
が成り立つことをいう。

凸関数の幾何的意味

$f$ が凸関数であるとは、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分が、その $2$ 点の間にあるグラフの上側にあることを意味する。
より正確には、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
は、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
以下である。

狭義凸関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$$I$ 上の狭義凸関数であるとは、任意の $x,y\in I$ と任意の $t\in(0,1)$ に対して、
$$ x\ne y $$
ならば、
$$ f(tx+(1-t)y)< t f(x)+(1-t)f(y) $$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$$x,y$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。

  1. ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
    $$ tx+(1-t)y $$
    がそれぞれ $y$ または $x$ となり、常に等号が成り立ってしまうからである。
    実際、$t=0$ のとき、
    $$ f(tx+(1-t)y)=f(y) $$
    であり、
    $$ t f(x)+(1-t)f(y)=f(y) $$
    である。また、$t=1$ のとき、
    $$ f(tx+(1-t)y)=f(x) $$
    であり、
    $$ t f(x)+(1-t)f(y)=f(x) $$
    である。
    したがって、狭義凸性では $t\in(0,1)$ を仮定する。
    $ $
  2. また、$x=y$ の場合にも常に等号が成り立つ。
    実際、$x=y$ ならば、
    $$ tx+(1-t)y = tx+(1-t)x = x $$
    であるから、
    $$ f(tx+(1-t)y)=f(x) $$
    である。一方、
    $$ t f(x)+(1-t)f(y) = t f(x)+(1-t)f(x) = f(x) $$
    である。
    したがって、狭義凸性では $x\ne y$ を仮定する。

-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
が、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
より真に小さいということである。

多変数の凸関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$$C$ 上の凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) \leq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。

定義域が凸集合である必要性

$C$ が凸集合であることにより、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つ。
したがって、左辺
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が常に定義される。

狭義凸関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$$C$ 上の狭義凸関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in(0,1)$ に対して、
$$ \mathbf{x}\ne\mathbf{y} $$
ならば、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) < t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。
つまり、狭義凸関数では、異なる $2$$\mathbf{x},\mathbf{y}$ の端点を除いた凸結合において、
通常の凸関数の不等式が狭義の意味で不等式として成り立つ。

  1. ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
    $$ t\mathbf{x}+(1-t)\mathbf{y} $$
    がそれぞれ $\mathbf{y}$ または $\mathbf{x}$ となり、常に等号が成り立ってしまうからである。
    実際、$t=0$ のとき、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{y}) $$
    であり、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{y}) $$
    である。また、$t=1$ のとき、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
    であり、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{x}) $$
    である。
    したがって、狭義凸性では $t\in(0,1)$ を仮定する。
    $ $
  2. また、$\mathbf{x}=\mathbf{y}$ の場合にも常に等号が成り立つ。
    実際、$\mathbf{x}=\mathbf{y}$ ならば、
    $$ t\mathbf{x}+(1-t)\mathbf{y} = t\mathbf{x}+(1-t)\mathbf{x} = \mathbf{x} $$
    であるから、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
    である。一方、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) = t f(\mathbf{x})+(1-t)f(\mathbf{x}) = f(\mathbf{x}) $$
    である。
    したがって、狭義凸性では $\mathbf{x}\ne\mathbf{y}$ を仮定する。

-幾何的には、狭義凸関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真上側にある関数である。
言い換えると、点 $t\mathbf{x}+(1-t)\mathbf{y}$ における関数値
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が、グラフ上の $2$$(\mathbf{x},f(\mathbf{x}))$$(\mathbf{y},f(\mathbf{y}))$ を結ぶ線分上の点の高さ
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
より真に小さいということである。

凸結合

$m\in\mathbb N$ とし、$x_1,x_2,\ldots,x_m\in\mathbb R^n$ とする。
$x_1,x_2,\ldots,x_m$ の凸結合とは、ある実数 $\lambda_1,\lambda_2,\ldots,\lambda_m\in\mathbb R$ が存在して、
$$ \lambda_i\geq0\quad(i=1,2,\ldots,m), \qquad \sum_{i=1}^m\lambda_i=1 $$
を満たし、さらに
$$ x=\sum_{i=1}^m\lambda_i x_i $$
と表される点 $x\in\mathbb R^n$ のことである。

$2$ 点の凸結合

$m=2$ の場合、点 $x_1,x_2\in\mathbb R^n$ の凸結合は、
$$ \lambda_1x_1+\lambda_2x_2 $$
であり、条件
$$ \lambda_1\geq0,\qquad \lambda_2\geq0,\qquad \lambda_1+\lambda_2=1 $$
を満たす。このとき、$\lambda_1=t$ とおくと $\lambda_2=1-t$ であり、$t\in[0,1]$ であるから、
$$ \lambda_1x_1+\lambda_2x_2 = tx_1+(1-t)x_2 $$
と書ける。したがって、凸集合の定義に現れる
$$ tx+(1-t)y $$
は、$2$$x,y$ の凸結合である。

凸結合と線分

$x,y\in\mathbb R^n$ とする。
$x$$y$ を結ぶ線分は、
$$ \{tx+(1-t)y \mid t\in[0,1]\} $$
で表される。
したがって、$2$ 点の凸結合全体は、その $2$ 点を結ぶ線分である。

凸集合との関係

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、$C$ の任意の $2$ 点の凸結合が再び $C$ に属することである。
すなわち、任意の $x,y\in C$ と任意の $t\in[0,1]$ に対して、
$$ tx+(1-t)y\in C $$
が成り立つことである。
より一般に、$C$ が凸集合ならば、任意の $m\in\mathbb N$、任意の $x_1,x_2,\ldots,x_m\in C$、任意の $\lambda_1,\lambda_2,\ldots,\lambda_m\geq0$
$$ \sum_{i=1}^m\lambda_i=1 $$
を満たすものに対して、
$$ \sum_{i=1}^m\lambda_i x_i\in C $$
が成り立つ。

Prop&Proof.

凸集合は有限個の凸結合で閉じている

$C\subseteq\mathbb R^n$ を凸集合とする。
$m$ を正の整数とし、$\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_m\in C$ とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_m\ge0$ とし、
$$ \sum_{i=1}^m\lambda_i=1 $$
を満たすとする。このとき、
$$ \sum_{i=1}^m\lambda_i\mathbf{x}_i\in C $$
が成り立つ。

$m$ に関する数学的帰納法で示す。

  1. $m=1$ の場合を示す。
    このとき、
    $$ \sum_{i=1}^{1}\lambda_i=1 $$
    であるから、
    $$ \lambda_1=1 $$
    である。
    したがって、
    $$ \sum_{i=1}^{1}\lambda_i\mathbf{x}_i = \lambda_1\mathbf{x}_1 = \mathbf{x}_1 $$
    である。
    仮定より $\mathbf{x}_1\in C$ であるから、
    $$ \sum_{i=1}^{1}\lambda_i\mathbf{x}_i\in C $$
    が成り立つ。
    $ $
  2. ある正の整数 $m$ について命題が成り立つと仮定する。
    すなわち、任意の $\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m\in C$ と、任意の $\mu_1,\mu_2,\ldots,\mu_m\ge0$
    $$ \sum_{i=1}^{m}\mu_i=1 $$
    を満たすものに対して、
    $$ \sum_{i=1}^{m}\mu_i\mathbf{u}_i\in C $$
    が成り立つと仮定する。
    $ $
  3. この仮定のもとで、$m+1$ 個の場合を示す。
    $\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_{m+1}\in C$ とし、
    $$ \lambda_1,\lambda_2,\ldots,\lambda_{m+1}\ge0, \qquad \sum_{i=1}^{m+1}\lambda_i=1 $$
    とする。示すべきことは、
    $$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
    である。
    i) $\lambda_{m+1}=1$ の場合を考える。
      このとき、
    $$ \sum_{i=1}^{m}\lambda_i = 1-\lambda_{m+1} = 0 $$
      である。
      また、$\lambda_i\ge0$ であるから、任意の $i=1,\ldots,m$ に対して、
    $$ \lambda_i=0 $$
      である。したがって、
    $$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i = \mathbf{x}_{m+1} $$
      である。仮定より $\mathbf{x}_{m+1}\in C$ であるから、
    $$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
      が成り立つ。
    $ $
    ii) $\lambda_{m+1}<1$ の場合を考える。
      このとき、
    $$ 1-\lambda_{m+1}>0 $$
      である。$i=1,\ldots,m$ に対して、
    $$ \mu_i:=\frac{\lambda_i}{1-\lambda_{m+1}} $$
      と定める。$\lambda_i\ge0$ かつ $1-\lambda_{m+1}>0$ であるから、
    $$ \mu_i\ge0 \qquad (i=1,\ldots,m) $$
      である。また、
    $$ \begin{align} \sum_{i=1}^{m}\mu_i &= \sum_{i=1}^{m}\frac{\lambda_i}{1-\lambda_{m+1}} \\ &= \frac{1}{1-\lambda_{m+1}}\sum_{i=1}^{m}\lambda_i \\ &= \frac{1}{1-\lambda_{m+1}}\left(1-\lambda_{m+1}\right) \\ &= 1 \end{align} $$
      である。したがって、$\mu_1,\ldots,\mu_m$ は非負で和が $1$ である。
      帰納法の仮定より、
    $$ \mathbf{y}:=\sum_{i=1}^{m}\mu_i\mathbf{x}_i $$
      とおくと、
    $$ \mathbf{y}\in C $$
      が成り立つ。ここで、
    $$ \begin{align} (1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1} &= (1-\lambda_{m+1})\sum_{i=1}^{m}\mu_i\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= (1-\lambda_{m+1})\sum_{i=1}^{m} \frac{\lambda_i}{1-\lambda_{m+1}}\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= \sum_{i=1}^{m}\lambda_i\mathbf{x}_i + \lambda_{m+1}\mathbf{x}_{m+1} \\ &= \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i \end{align} $$
      である。また、
    $$ \mathbf{y}\in C, \qquad \mathbf{x}_{m+1}\in C $$
      であり、
    $$ 1-\lambda_{m+1}\ge0, \qquad \lambda_{m+1}\ge0, \qquad (1-\lambda_{m+1})+\lambda_{m+1}=1 $$
      である。
      $C$ は凸集合であるから、$2$$\mathbf{y},\mathbf{x}_{m+1}\in C$ の凸結合
    $$ (1-\lambda_{m+1})\mathbf{y}+\lambda_{m+1}\mathbf{x}_{m+1} $$
      は $C$ に属する。したがって、
    $$ \sum_{i=1}^{m+1}\lambda_i\mathbf{x}_i\in C $$
      が成り立つ。
    以上より、$m+1$ の場合にも成り立つ。

-1. と 2. より、数学的帰納法によって、任意の正の整数 $m$ に対して、
$$ \sum_{i=1}^{m}\lambda_i\mathbf{x}_i\in C $$
が成り立つ。
$$ \Box$$

$2$ 導関数が非負なら凸である

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上連続で、$(a,b)$$2$ 回微分可能な関数とする。
任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\ge0 $$
が成り立つとする。
このとき、$\varphi$$[a,b]$ 上で凸である。すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi((1-\theta)x+\theta y) \le (1-\theta)\varphi(x)+\theta\varphi(y) $$
が成り立つ。

まず、任意の $u,v\in(a,b)$$u< v$ とする。
$\varphi$$(a,b)$ 上で $2$ 回微分可能であるから、$\varphi'$$(a,b)$ 上で微分可能である。
したがって、$\varphi'$$(u,v)$ 上で連続であり、また $u,v\in(a,b)$ であるため端点 $u,v$ においても連続である。
よって、$\varphi'$$[u,v]$ 上で連続、$(u,v)$ 上で微分可能である。

  1. ゆえに、平均値の定理(補足を参照)より、ある $c\in(u,v)$ が存在して、
    $$ \frac{\varphi'(v)-\varphi'(u)}{v-u} = \varphi''(c) $$
    が成り立つ。また、仮定より任意の $s\in(u,v)$ に対して $\varphi''(s)\ge0$ である。
    したがって、
    $$ \varphi'(v)-\varphi'(u) = \varphi''(c)(v-u) \ge0 $$
    である。ゆえに、
    $$ \varphi'(u)\le\varphi'(v) $$
    である。
    したがって、$\varphi'$$(a,b)$ 上で単調増加である。
    $ $
  2. 次に、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ をとる。
    i) $x=y$ の場合を考える。
      このとき、
    $$ (1-\theta)x+\theta y = (1-\theta)x+\theta x = ((1-\theta)+\theta)x = x $$
      である。したがって、左辺は
    $$ \varphi((1-\theta)x+\theta y) = \varphi(x) $$
      である。一方、右辺は、$y=x$ より、
    $$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-\theta)\varphi(x)+\theta\varphi(x) = ((1-\theta)+\theta)\varphi(x) = \varphi(x) $$
      である。
      ゆえに、
    $$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
      が成り立つ。したがって、$x=y$ の場合、示すべき不等式は等号として成り立つ。
    $ $
    ii) 次に、$x\neq y$ とし、$\theta=0$ の場合を考える。
      このとき、
    $$ (1-\theta)x+\theta y = (1-0)x+0y = x $$
      である。したがって、左辺は
    $$ \varphi((1-\theta)x+\theta y) = \varphi(x) $$
      である。一方、右辺は、
    $$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-0)\varphi(x)+0\varphi(y) = \varphi(x) $$
      である。ゆえに、
    $$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
      が成り立つ。したがって、$\theta=0$ の場合、示すべき不等式は等号として成り立つ。
    $ $
    iii) 次に、$x\neq y$ とし、$\theta=1$ の場合を考える。
      このとき、
    $$ (1-\theta)x+\theta y = (1-1)x+1y = y $$
      である。したがって、左辺は
    $$ \varphi((1-\theta)x+\theta y) = \varphi(y) $$
      である。一方、右辺は、
    $$ (1-\theta)\varphi(x)+\theta\varphi(y) = (1-1)\varphi(x)+1\varphi(y) = \varphi(y) $$
      である。ゆえに、
    $$ \varphi((1-\theta)x+\theta y) = (1-\theta)\varphi(x)+\theta\varphi(y) $$
      が成り立つ。したがって、$\theta=1$ の場合、示すべき不等式は等号として成り立つ。
    $ $
    以上より、$x=y$ の場合、$\theta=0$ の場合、$\theta=1$ の場合には、示すべき不等式は等号として成り立つ。
    したがって、残る場合は
    $$ x\neq y,\quad 0<\theta<1 $$
    の場合である。
    よって、以下では $x\neq y$ かつ $0<\theta<1$ の場合を考える。
    $ $
  3. まず $x>y$ の場合は $x$$y$ を入れ替え、$\theta$$1-\theta$ に置き換えれば同じ形の不等式になるため、$x< y$ の場合を示せば十分である。
    そこで、$x< y$ とし、
    $$ t=(1-\theta)x+\theta y $$
    とおく。このとき、$0<\theta<1$ より、
    $$ x< t< y $$
    である。
    平均値の定理より、ある $c\in(x,t)$ が存在して、
    $$ \frac{\varphi(t)-\varphi(x)}{t-x} = \varphi'(c) $$
    が成り立つ。また、ある $d\in(t,y)$ が存在して、
    $$ \frac{\varphi(y)-\varphi(t)}{y-t} = \varphi'(d) $$
    が成り立つ。ここで、$c< d$ であり、$\varphi'$ は単調増加であるから、
    $$ \varphi'(c)\le\varphi'(d) $$
    である。したがって、
    $$ \frac{\varphi(t)-\varphi(x)}{t-x} \le \frac{\varphi(y)-\varphi(t)}{y-t} $$
    である。
    $t-x>0$ かつ $y-t>0$ であるから、両辺に $(t-x)(y-t)$ をかけて、
    $$ (\varphi(t)-\varphi(x))(y-t) \le (\varphi(y)-\varphi(t))(t-x) $$
    を得る。これを整理すると、
    $$ \begin{align} (\varphi(t)-\varphi(x))(y-t) &\le (\varphi(y)-\varphi(t))(t-x) \\ \varphi(t)(y-t)-\varphi(x)(y-t) &\le \varphi(y)(t-x)-\varphi(t)(t-x) \\ \varphi(t)(y-t)+\varphi(t)(t-x) &\le \varphi(x)(y-t)+\varphi(y)(t-x) \end{align} $$
    である。左辺を整理する。
    $$ \begin{align} \varphi(t)(y-t)+\varphi(t)(t-x) &= \varphi(t)\bigl((y-t)+(t-x)\bigr) \\ &= \varphi(t)(y-t+t-x) \\ &= \varphi(t)(y-x) \end{align} $$
    以上より、
    $$ \varphi(t)(y-x) \le \varphi(x)(y-t)+\varphi(y)(t-x) $$
    を得る。$y-x>0$ で割ると、
    $$ \varphi(t) \le \frac{y-t}{y-x}\varphi(x) + \frac{t-x}{y-x}\varphi(y) $$
    を得る。ここで、
    $$ t=(1-\theta)x+\theta y $$
    であるから、まず $t-x$ について、
    $$ \begin{align} t-x &= \bigl((1-\theta)x+\theta y\bigr)-x \\ &= (1-\theta)x+\theta y-x \\ &= (1-\theta)x-x+\theta y \\ &= \bigl((1-\theta)-1\bigr)x+\theta y \\ &= -\theta x+\theta y \\ &= \theta(y-x) \end{align} $$
    を得る。
    次に、$y-t$ について、
    $$ \begin{align} y-t &= y-\bigl((1-\theta)x+\theta y\bigr) \\ &= y-(1-\theta)x-\theta y \\ &= y-\theta y-(1-\theta)x \\ &= (1-\theta)y-(1-\theta)x \\ &= (1-\theta)(y-x) \end{align} $$
    を得る。したがって、
    $$ t-x=\theta(y-x) $$
    かつ
    $$ y-t=(1-\theta)(y-x) $$
    である。したがって、
    $$ \frac{t-x}{y-x}=\theta, \quad \frac{y-t}{y-x}=1-\theta $$
    である。
    ゆえに、
    $$ \varphi((1-\theta)x+\theta y) \le (1-\theta)\varphi(x)+\theta\varphi(y) $$
    が成り立つ。

-以上より、$\varphi$$[a,b]$ 上で凸である。
$$ \Box$$

平均値の定理の主張

平均値の定理とは、関数 $f$ が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であるとき、ある点 $c\in(\alpha,\beta)$ が存在して、
$$ f'(c) = \frac{f(\beta)-f(\alpha)}{\beta-\alpha} $$
が成り立つという定理である。右辺
$$ \frac{f(\beta)-f(\alpha)}{\beta-\alpha} $$
は、区間 $[\alpha,\beta]$ における平均変化率である。左辺 $f'(c)$ は、点 $c$ における瞬間変化率である。
したがって、平均値の定理は、区間全体での平均変化率と一致する瞬間変化率をもつ点が、
区間の内部に少なくとも $1$ つ存在することを主張している。
$ $
■ 平均値の定理を使うときの注意点
平均値の定理を使うには、関数が閉区間 $[\alpha,\beta]$ 上で連続であり、開区間 $(\alpha,\beta)$ 上で微分可能であることを確認する必要がある。
端点 $\alpha,\beta$ では微分可能性を仮定する必要はない。
これは、平均値の定理で得られる点 $c$ が端点ではなく、開区間 $(\alpha,\beta)$ の内部に存在する点だからである。

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上で凸な関数とする。さらに、$\varphi$$(a,b)$ 上で $2$ 回微分可能であるとする。
このとき、任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\ge0 $$
が成り立つ。

まず、$\varphi'$$(a,b)$ 上で単調増加であることを示す。
任意に $s,t\in(a,b)$ を取り、
$$ s< t $$
とする。

  1. $0< h< t-s$ を満たす $h$ を取る。
    まず、$s+h$$s$$t$ の凸結合として表されることを確認する。
    $$ \begin{align} s+h &= s+\frac{h}{t-s}(t-s) \\ &= s+\frac{h}{t-s}t-\frac{h}{t-s}s \\ &= s-\frac{h}{t-s}s+\frac{h}{t-s}t \\ &= \left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t \end{align} $$
    また、$s< t$ より、
    $$ t-s>0 $$
    である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
    $$ 0<\frac{h}{t-s}<1 $$
    を得る。したがって、
    $$ \frac{h}{t-s}\in[0,1], \quad 1-\frac{h}{t-s}\in[0,1] $$
    であり、
    $$ \begin{align} \left(1-\frac{h}{t-s}\right)+\frac{h}{t-s} &= 1 \end{align} $$
    である。よって、
    $$ s+h = \left(1-\frac{h}{t-s}\right)s+\frac{h}{t-s}t $$
    は、$s$$t$ の凸結合である。
    また、$0< h< t-s$ より、
    $$ s< s+h< t $$
    であるから、$s+h\in(a,b)$ である。
    仮定より $\varphi$ は凸であるから、凸性の定義より、
    $$ \varphi(s+h) \le \left(1-\frac{h}{t-s}\right)\varphi(s) + \frac{h}{t-s}\varphi(t) $$
    が成り立つ。この不等式を整理する。
    まず、両辺から $\varphi(s)$ を引くと、
    $$ \begin{align} \varphi(s+h)-\varphi(s) &\le \left(1-\frac{h}{t-s}\right)\varphi(s) + \frac{h}{t-s}\varphi(t) -\varphi(s) \\ &= \left(1-\frac{h}{t-s}\right)\varphi(s) -\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= \left(1-\frac{h}{t-s}-1\right)\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= -\frac{h}{t-s}\varphi(s) + \frac{h}{t-s}\varphi(t) \\ &= \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \end{align} $$
    したがって、
    $$ \varphi(s+h)-\varphi(s) \le \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) $$
    である。
    ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
    $$ \begin{align} \frac{\varphi(s+h)-\varphi(s)}{h} &\le \frac{1}{h}\cdot\frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \\ &= \frac{\varphi(t)-\varphi(s)}{t-s} \end{align} $$
    である。すなわち、
    $$ \frac{\varphi(s+h)-\varphi(s)}{h} \le \frac{\varphi(t)-\varphi(s)}{t-s} $$
    である。ここで、$s\in(a,b)$ であり、$\varphi$$(a,b)$ 上で微分可能であるから、
    $s$ における右微分係数は通常の微分係数 $\varphi'(s)$ に一致する。
    したがって、
    $$ \lim_{h\downarrow0} \frac{\varphi(s+h)-\varphi(s)}{h} = \varphi'(s) $$
    である。一方、
    $$ \frac{\varphi(t)-\varphi(s)}{t-s} $$
    $h$ に依存しない定数である。
    ゆえに、$h\downarrow0$ とすると、
    $$ \varphi'(s) \le \frac{\varphi(t)-\varphi(s)}{t-s} $$
    を得る。
    $ $
  2. 次に、同じく $0< h< t-s$ とする。
    このとき、まず $t-h$$s$$t$ の凸結合として表されることを確認する。
    $$ \begin{align} t-h &= t-\frac{h}{t-s}(t-s) \\ &= t-\frac{h}{t-s}t+\frac{h}{t-s}s \\ &= \frac{h}{t-s}s+t-\frac{h}{t-s}t \\ &= \frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t \end{align} $$
    また、$s< t$ より、
    $$ t-s>0 $$
    である。さらに、$0< h< t-s$ であるから、正の数 $t-s$ で割って、
    $$ 0<\frac{h}{t-s}<1 $$
    を得る。したがって、
    $$ \frac{h}{t-s}\in[0,1], \quad 1-\frac{h}{t-s}\in[0,1] $$
    であり、
    $$ \frac{h}{t-s} + \left(1-\frac{h}{t-s}\right) = 1 $$
    である。よって、
    $$ t-h = \frac{h}{t-s}s+\left(1-\frac{h}{t-s}\right)t $$
    は、$s$$t$ の凸結合である。$\varphi$ は凸であるから、凸性の定義より、
    $$ \varphi(t-h) \le \frac{h}{t-s}\varphi(s) + \left(1-\frac{h}{t-s}\right)\varphi(t) $$
    が成り立つ。この不等式を整理する。
    まず、両辺を $-1$ 倍すると、不等号の向きが反転して、
    $$ -\varphi(t-h) \ge -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) $$
    である。両辺に $\varphi(t)$ を加えると、
    $$ \varphi(t)-\varphi(t-h) \ge \varphi(t) -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) $$
    である。
    右辺を整理すると、
    $$ \begin{align} \varphi(t) -\frac{h}{t-s}\varphi(s) - \left(1-\frac{h}{t-s}\right)\varphi(t) &= \varphi(t) -\left(1-\frac{h}{t-s}\right)\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \left(1-\left(1-\frac{h}{t-s}\right)\right)\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \frac{h}{t-s}\varphi(t) -\frac{h}{t-s}\varphi(s) \\ &= \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) \end{align} $$
    したがって、
    $$ \varphi(t)-\varphi(t-h) \ge \frac{h}{t-s}\bigl(\varphi(t)-\varphi(s)\bigr) $$
    である。
    ここで、$h>0$ であるから、両辺を $h$ で割っても不等号の向きは変わらない。よって、
    $$ \frac{\varphi(t)-\varphi(t-h)}{h} \ge \frac{\varphi(t)-\varphi(s)}{t-s} $$
    である。
    また、$t\in(a,b)$ であり、$\varphi$$(a,b)$ 上で微分可能であるから、左微分係数は通常の微分係数に一致する。
    したがって、$h\downarrow0$ とすると、
    $$ \varphi'(t) \ge \frac{\varphi(t)-\varphi(s)}{t-s} $$
    を得る。

-以上より、
$$ \varphi'(s) \le \frac{\varphi(t)-\varphi(s)}{t-s} \le \varphi'(t) $$
である。したがって、
$$ s< t \Rightarrow \varphi'(s)\le\varphi'(t) $$
であるから、$\varphi'$$(a,b)$ 上で単調増加である。
$ $
次に、任意に $t\in(a,b)$ を取る。
$\varphi$$(a,b)$ 上で $2$ 回微分可能であるから、特に $\varphi'$$t$ で微分可能である。したがって、
$$ \varphi''(t) = \lim_{h\to0} \frac{\varphi'(t+h)-\varphi'(t)}{h} $$
が成り立つ。ここで、$t\in(a,b)$ であるから、
$$ t-a>0,\quad b-t>0 $$
である。そこで、
$$ \delta:=\frac{1}{2}\min\{t-a,b-t\} $$
とおくと、$\delta>0$ である。このとき、$0<|h|<\delta$ ならば、
$$ -\delta< h<\delta $$
であるから、
$$ t-\delta< t+h< t+\delta $$
である。また、$\delta\le t-a$ かつ $\delta\le b-t$ であるから、
$$ a< t-\delta $$
かつ
$$ t+\delta< b $$
である。したがって、
$$ a< t+h< b $$
である。ゆえに、
$$ t+h\in(a,b) $$
である。

  1. ここで、$0< h<\delta$ の場合を考える。
    このとき、
    $$ t< t+h $$
    である。すでに示したように、$\varphi'$$(a,b)$ 上で単調増加であるから、
    $$ \varphi'(t)\le \varphi'(t+h) $$
    である。したがって、
    $$ \varphi'(t+h)-\varphi'(t)\ge0 $$
    である。
    また、$h>0$ であるから、正の数 $h$ で割っても不等号の向きは変わらない。よって、
    $$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
    である。
    $ $
  2. 次に、$-\delta< h<0$ の場合を考える。
    このとき、
    $$ t+h< t $$
    である。
    すでに示したように、$\varphi'$$(a,b)$ 上で単調増加であるから、
    $$ \varphi'(t+h)\le \varphi'(t) $$
    である。
    したがって、
    $$ \varphi'(t+h)-\varphi'(t)\le0 $$
    である。また、$h<0$ であるから、負の数 $h$ で割ると不等号の向きが反転する。よって、
    $$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
    である。

-以上より、任意の $h$ について、
$$ 0<|h|<\delta $$
ならば、
$$ \frac{\varphi'(t+h)-\varphi'(t)}{h}\ge0 $$
が成り立つ。さらに $\varphi'$$t$ で微分可能であるから、
$$ \lim_{h\to0}\frac{\varphi'(t+h)-\varphi'(t)}{h} = \varphi''(t) $$
である。ここで、非負な関数の極限は非負であることから
$$ \varphi''(t) = \lim_{h\to0} \frac{\varphi'(t+h)-\varphi'(t)}{h} \ge0 $$
である。$t\in(a,b)$ は任意であったから、
$$ \varphi''(t)\ge0 \quad (\forall t\in(a,b)) $$
が成り立つ。
$$ \Box$$

今回の逆方向の命題は、$\varphi$ が凸であるだけではなく、$(a,b)$ 上で $2$ 回微分可能であるという仮定のもとで成り立つ。
凸関数は一般には微分可能とは限らない。例えば、絶対値関数 $f(x)=|x|$ は凸であるが、$x=0$ で微分可能ではない。
したがって、$\varphi''(t)\ge0$ を結論するには、少なくともその点で $2$ 回微分可能であることが必要である。

$2$ つの命題から分かること

$2$ つの命題を合わせると、$2$ 回微分可能な $1$ 変数関数について、凸性と第 $2$ 導関数の非負性が同値であることが分かる。
すなわち、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上連続で、$(a,b)$$2$ 回微分可能であるとき、
$$ \varphi\text{ が }[a,b]\text{ 上で凸である} $$
ことと、
$$ \varphi''(t)\ge0 \quad (\forall t\in(a,b)) $$
が成り立つことは同値である。つまり、
$$ \varphi\text{ が }[a,b]\text{ 上で凸である} \quad \Longleftrightarrow \quad \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
である。

【重要】狭義凸性と第 $2$ 導関数の関係

$2$ 回微分可能な $1$ 変数関数について、凸性の場合は
$$ \varphi\text{ が凸である} \quad \Longleftrightarrow \quad \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
が成り立つ。
一方、狭義凸性の場合は、これをそのまま狭義不等号に置き換えて
$$ \varphi\text{ が狭義凸である} \quad \Longleftrightarrow \quad \varphi''(t)>0\quad(\forall t\in(a,b)) $$
とすることはできない。実際、
$$ \varphi''(t)>0\quad(\forall t\in(a,b)) $$
ならば、$\varphi$ は狭義凸である。
しかし、逆は一般には成り立たない。すなわち、$\varphi$ が狭義凸であっても、すべての $t\in(a,b)$
$$ \varphi''(t)>0 $$
が成り立つとは限らない。
$ $
例えば、
$$ \varphi(x)=x^4 $$
を考えると、$\varphi$ は狭義凸であるが、
$$ \varphi''(x)=12x^2 $$
であるため、
$$ \varphi''(0)=0 $$
となる。
したがって、狭義凸性から導けるのは、まず凸性によって
$$ \varphi''(t)\ge0\quad(\forall t\in(a,b)) $$
であり、
$$ \varphi''(t)>0\quad(\forall t\in(a,b)) $$
までは一般には導けない。

有限個の凸結合に対するイェンセンの不等式【$\text{Jensen's inequality}$

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を凸関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\le t f(x)+(1-t)f(y) $$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$ \sum_{i=1}^n \alpha_i=1 $$
を満たすものに対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \le \sum_{i=1}^n \alpha_i f(x_i) $$
が成り立つ。

数学的帰納法により示す。

  1. まず、$n=1$ の場合を示す。
    このとき、
    $$ \sum_{i=1}^1\alpha_i=1 $$
    より、
    $$ \alpha_1=1 $$
    である。したがって、
    $$ f\left(\sum_{i=1}^1\alpha_i x_i\right) = f(\alpha_1 x_1) = f(x_1) $$
    であり、
    $$ \sum_{i=1}^1\alpha_i f(x_i) = \alpha_1 f(x_1) = f(x_1) $$
    である。ゆえに、
    $$ f\left(\sum_{i=1}^1\alpha_i x_i\right) \le \sum_{i=1}^1\alpha_i f(x_i) $$
    が成り立つ。
    $ $
  2. 次に、$n=2$ の場合は、凸性の定義そのものである。
    実際、$\alpha_1,\alpha_2\ge0$ かつ
    $$ \alpha_1+\alpha_2=1 $$
    ならば、
    $$ \alpha_2=1-\alpha_1 $$
    であり、$\alpha_1\in[0,1]$ である。
    したがって、凸性の定義より、
    $$ f(\alpha_1x_1+\alpha_2x_2) = f(\alpha_1x_1+(1-\alpha_1)x_2) \le \alpha_1f(x_1)+(1-\alpha_1)f(x_2) = \alpha_1f(x_1)+\alpha_2f(x_2) $$
    である。
    $ $
  3. 次に、ある $k\in\mathbb N$ に対して、$n=k$ の場合に主張が成り立つと仮定する。
    すなわち、任意の $x_1,\ldots,x_k\in I$ と任意の $\alpha_1,\ldots,\alpha_k\ge0$ で、
    $$ \sum_{i=1}^k\alpha_i=1 $$
    を満たすものに対して、
    $$ f\left(\sum_{i=1}^k\alpha_i x_i\right) \le \sum_{i=1}^k\alpha_i f(x_i) $$
    が成り立つと仮定する。
    $ $
  4. $n=k+1$ の場合を示す。
    $x_1,\ldots,x_{k+1}\in I$$\alpha_1,\ldots,\alpha_{k+1}\ge0$ を任意に取り、
    $$ \sum_{i=1}^{k+1}\alpha_i=1 $$
    とする。
    ここで、
    $$ \beta:=\sum_{i=1}^k\alpha_i $$
    とおく。
    このとき、
    $$ \beta+\alpha_{k+1}=1 $$
    であり、
    $$ 0\le\beta\le1 $$
    である。
    $ $
    i) $\beta=0$ の場合。
      $\alpha_i\ge0$ であり、
    $$ \beta=\sum_{i=1}^k\alpha_i=0 $$
      であるから、
    $$ \alpha_1=\alpha_2=\cdots=\alpha_k=0 $$
      である。また、
    $$ \beta+\alpha_{k+1}=1 $$
      より、
    $$ \alpha_{k+1}=1 $$
      である。したがって、
    $$ \sum_{i=1}^{k+1}\alpha_i x_i=x_{k+1} $$
      であり、
    $$ \sum_{i=1}^{k+1}\alpha_i f(x_i)=f(x_{k+1}) $$
      である。ゆえに、
    $$ f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) = f(x_{k+1}) = \sum_{i=1}^{k+1}\alpha_i f(x_i) $$
      である。したがって、この場合は等号として成り立つ。
    $ $
    ii) $\beta=1$ の場合。
      このとき、
    $$ \alpha_{k+1}=0 $$
      である。したがって、
    $$ \sum_{i=1}^{k+1}\alpha_i x_i = \sum_{i=1}^{k}\alpha_i x_i $$
      であり、
    $$ \sum_{i=1}^{k+1}\alpha_i f(x_i) = \sum_{i=1}^{k}\alpha_i f(x_i) $$
      である。また、$\beta+\alpha_{k+1}=1$ より
    $$ \sum_{i=1}^{k}\alpha_i=\beta=1 $$
      であるから、帰納法の仮定より、
    $$ f\left(\sum_{i=1}^{k}\alpha_i x_i\right) \le \sum_{i=1}^{k}\alpha_i f(x_i) $$
      である。したがって、
    $$ f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) \le \sum_{i=1}^{k+1}\alpha_i f(x_i) $$
      が成り立つ。
    $ $
    iii) $0<\beta<1$ の場合。
      このとき、$i=1,\ldots,k$ に対して、
    $$ \lambda_i:=\frac{\alpha_i}{\beta} $$
      とおく。すると、
    $$ \lambda_i\ge0 $$
      であり、
    $$ \sum_{i=1}^k\lambda_i = \sum_{i=1}^k\frac{\alpha_i}{\beta} = \frac{1}{\beta}\sum_{i=1}^k\alpha_i = 1 $$
      である。ここで、
    $$ y:=\sum_{i=1}^k\lambda_i x_i = \sum_{i=1}^k\frac{\alpha_i}{\beta}x_i $$
      とおく。
    $ $
      ここで、帰納法の仮定を適用するためには $y\in I$ であることが必要である。実際、$I$ は区間であり、区間は凸集合である。
      さらに、$\lambda_i\ge0$ かつ $\sum_{i=1}^k\lambda_i=1$ であるから、$y$$x_1,\ldots,x_k$ の凸結合である。
      よって、帰納法の仮定の適用対象として $y\in I$ である(補足を参照)。
    $ $
      帰納法の仮定より、
    $$ f(y) = f\left(\sum_{i=1}^k\lambda_i x_i\right) \le \sum_{i=1}^k\lambda_i f(x_i) = \sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i) $$
      が成り立つ。また、
    $$ \beta+\alpha_{k+1}=1 $$
      であり、$0<\beta<1$ かつ $\alpha_{k+1}\ge0$ であるから、$\beta$$\alpha_{k+1}$$2$ 点の凸結合の重みである。
      さらに、
    $$ \begin{align} \beta y+\alpha_{k+1}x_{k+1} &= \beta\sum_{i=1}^k\frac{\alpha_i}{\beta}x_i+\alpha_{k+1}x_{k+1} \\ &= \sum_{i=1}^k\alpha_i x_i+\alpha_{k+1}x_{k+1} \\ &= \sum_{i=1}^{k+1}\alpha_i x_i \end{align} $$
      である。凸性の定義より、
    $$ f(\beta y+\alpha_{k+1}x_{k+1}) \le \beta f(y)+\alpha_{k+1}f(x_{k+1}) $$
      である。したがって、
    $$ \begin{align} f\left(\sum_{i=1}^{k+1}\alpha_i x_i\right) &= f(\beta y+\alpha_{k+1}x_{k+1}) \\ &\le \beta f(y)+\alpha_{k+1}f(x_{k+1}) \\ &\le \beta\sum_{i=1}^k\frac{\alpha_i}{\beta}f(x_i) + \alpha_{k+1}f(x_{k+1}) \\ &= \sum_{i=1}^k\alpha_i f(x_i) + \alpha_{k+1}f(x_{k+1}) \\ &= \sum_{i=1}^{k+1}\alpha_i f(x_i) \end{align} $$
      である。したがって、$n=k+1$ の場合も成り立つ。

-以上より、数学的帰納法により、任意の $n\in\mathbb N$ に対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つ。
$$ \Box$$

帰納法の仮定を適用するための $y\in I$ の確認

証明中では、
$$ y:=\sum_{i=1}^k\lambda_i x_i $$
と定めている。ここで帰納法の仮定を
$$ f\left(\sum_{i=1}^k\lambda_i x_i\right) \le \sum_{i=1}^k\lambda_i f(x_i) $$
の形で適用するためには、まず
$$ y=\sum_{i=1}^k\lambda_i x_i\in I $$
が成り立つことを確認する必要がある。なぜなら、$f$$I$ 上の関数
$$ f:I\to\mathbb R $$
として定義されているので、$y\notin I$ であれば $f(y)$ が定義されないからである。
いま、$x_1,\ldots,x_k\in I$ であり、$\lambda_1,\ldots,\lambda_k\ge0$ かつ
$$ \sum_{i=1}^k\lambda_i=1 $$
である。
したがって、$y$$x_1,\ldots,x_k$ からなる有限個の凸結合である。
ただし、ここで使ってよいのは、まだ証明中の $\text{Jensen}$の不等式 ではなく、区間の基本性質である。
$ $
まず、$x_1,\ldots,x_k$ は有限個の実数であるから、最小値と最大値が存在する。そこで、
$$ m:=\min\{x_1,\ldots,x_k\}, \quad M:=\max\{x_1,\ldots,x_k\} $$
とおく。
このとき、$m$$M$$x_1,\ldots,x_k$ のいずれかであるから、
$$ m\in I, \quad M\in I $$
である。また、任意の $i=1,\ldots,k$ に対して、
$$ m\le x_i\le M $$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、不等式に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、任意の $i=1,\ldots,k$ に対して、
$$ \lambda_i m \le \lambda_i x_i \le \lambda_i M $$
である。
これらを $i=1,\ldots,k$ について足し合わせると、
$$ \sum_{i=1}^k\lambda_i m \le \sum_{i=1}^k\lambda_i x_i \le \sum_{i=1}^k\lambda_i M $$
を得る。さらに、
$$ \sum_{i=1}^k\lambda_i=1 $$
であるから、
$$ \sum_{i=1}^k\lambda_i m = m\sum_{i=1}^k\lambda_i = m $$
であり、
$$ \sum_{i=1}^k\lambda_i M = M\sum_{i=1}^k\lambda_i = M $$
である。よって、
$$ m \le \sum_{i=1}^k\lambda_i x_i \le M $$
である。すなわち、
$$ m\le y\le M $$
である。ここで、$I$ は区間であり、$m,M\in I$ である。
区間の定義より、$m\le z\le M$ を満たす任意の実数 $z$$I$ に属する。
したがって、$m\le y\le M$ であるから、
$$ y\in I $$
が成り立つ。
以上より、$y$$I$ に属するので、$f(y)$ は定義されており、帰納法の仮定を
$$ x_1,\ldots,x_k \quad\text{と}\quad \lambda_1,\ldots,\lambda_k $$
に適用できる。

等号成立条件

有限個の凸結合に対するイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
において、等号がいつ成立するかは、$f$ が単なる凸関数である場合と、狭義凸関数である場合で異なる。

  1. まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
    $$ x_i=a $$
    が成り立つ場合には、等号が成立する。
    実際、このとき
    $$ \sum_{i=1}^n\alpha_i x_i = \sum_{i=1}^n\alpha_i a = a\sum_{i=1}^n\alpha_i = a $$
    であるから、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
    である。また、
    $$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i=1}^n\alpha_i f(a) = f(a)\sum_{i=1}^n\alpha_i = f(a) $$
    である。したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
    が成り立つ。
    $ $
  2. ただし、$f$ が単なる凸関数である場合、等号成立は必ずしも
    $$ x_1=x_2=\cdots=x_n $$
    だけに限られない。
    例えば、$f$$x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
    $$ f(x)=ax+b $$
    と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
    実際、このとき
    $$ \begin{align} f\left(\sum_{i=1}^n\alpha_i x_i\right) &= a\left(\sum_{i=1}^n\alpha_i x_i\right)+b \\ &= \sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i \\ &= \sum_{i=1}^n\alpha_i(ax_i+b) \\ &= \sum_{i=1}^n\alpha_i f(x_i) \end{align} $$
    である。
狭義凸関数の場合の等号成立条件

一方、$f$$I$ 上の狭義凸関数である場合には、等号成立条件はより強くなる。
$f$$I$ 上の狭義凸関数であるとする。
有限個の凸結合に対するイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i f(x_i) $$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$ \alpha_i x_i=0 \qquad \text{かつ} \qquad \alpha_i f(x_i)=0 $$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$ S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\} $$
とおく。このとき、
$$ \sum_{i\in S}\alpha_i=1 $$
であり、
$$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i $$
かつ
$$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) $$
である。したがって、イェンセンの不等式は
$$ f\left(\sum_{i\in S}\alpha_i x_i\right) \le \sum_{i\in S}\alpha_i f(x_i) $$
と同じである。
$ $
$f$ が狭義凸関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$ x_i=x_j $$
が成り立つことである。
$ $

  1. まず、正の重みをもつ点がすべて等しいとする。
    i) すなわち、ある $a\in I$ が存在して、任意の $i\in S$ に対して
    $$ x_i=a $$
      が成り立つとする。このとき、
    $$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i = \sum_{i\in S}\alpha_i a = a\sum_{i\in S}\alpha_i = a $$
      である。したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
      である。
    $ $
    ii) 一方で、
    $$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(a) = f(a)\sum_{i\in S}\alpha_i = f(a) $$
      である。よって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
      が成り立つ。
    $ $
  2. 逆に、正の重みをもつ点の中に異なる $2$ 点が存在するとする。
    つまり、ある $i,j\in S$ が存在して、
    $$ x_i\ne x_j $$
    が成り立つとする。このとき、正の重みをもつ点はすべて等しいわけではない。
    $f$ は狭義凸関数であるから、異なる $2$ 点の真の凸結合に対しては、狭義の不等式が成り立つ。
    すなわち、$u,v\in I$$u\ne v$$0< t<1$ ならば、
    $$ f(tu+(1-t)v) < tf(u)+(1-t)f(v) $$
    である。
    この性質を有限個の凸結合に繰り返し用いると、正の重みをもつ点の中に異なる $2$ 点が存在する場合には、
    $$ f\left(\sum_{i\in S}\alpha_i x_i\right) < \sum_{i\in S}\alpha_i f(x_i) $$
    が成り立つ。
    したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) < \sum_{i=1}^n\alpha_i f(x_i) $$
    である。ゆえに、この場合には等号は成立しない。
    $ $

-以上より、$f$ が狭義凸関数である場合、イェンセンの不等式における等号成立条件は
$$ \forall i,j\in S,\quad x_i=x_j $$
である。特に、すべての重みが正である場合、すなわち
$$ \alpha_i>0 \qquad (i=1,\ldots,n) $$
である場合には、
$$ S=\{1,\ldots,n\} $$
であるから、等号成立条件は
$$ x_1=x_2=\cdots=x_n $$
である。

投稿日:13日前
更新日:9日前
数学の力で現場を変える アルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura
Kagura
7
4972
■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。          ----------------------------------------------- ■ ノート『数学概論』の読み方     STEP1:まずは定義を一通り理解し覚える。 STEP2:具体例を考えてみる。    STEP3:各命題の主張を一通り理解する。 STEP4:証明を繰り返し読んで流れを掴む。 (まずはココまでで良い)         STEP5:何も見ずに定義に従って証明を創る。 STEP6:STEP5の他の証明方法を創ってみる。    STEP7:自由に命題と証明を創ってみる  

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中