0

凹関数の諸性質を凸関数に帰着させて示す。

18
0
$$$$

Def.

凸集合 【再掲】

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つことをいう。

「非凸」という用語について

この後で定義する凹関数は、凸集合上で定義される関数である。
凸解析では、集合に対しては通常「凹集合」という用語は用いない。
$ $
$C\subseteq\mathbb R^n$ が凸集合でない場合は、$C$ を凹集合とは呼ばず、非凸(集合)であるという。
すなわち、$C$ が非凸な集合であるとは、ある $\mathbf{x},\mathbf{y}\in C$ とある $t\in(0,1)$ が存在して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\notin C $$
が成り立つことをいう。

幾何的意味【再掲】

$C$ が凸集合であるとは、$C$ に属する任意の $2$$x,y$ を選んだとき、その $2$ 点を結ぶ線分全体が $C$ に含まれるということである。
すなわち、$C$ に属する $2$ 点を結んだ線分が、途中で $C$ の外に出ない集合である。

$tx+(1-t)y$ の意味【再掲】

$t\in[0,1]$ のとき、
$$ tx+(1-t)y $$
$x$$y$ を結ぶ線分上の点である。$t=1$ のとき $x$ になり、$t=0$ のとき $y$ になる。
また、$0< t<1$ かつ $x\neq y$ のとき、$tx+(1-t)y$$x$$y$ を結ぶ線分の端点を除いた部分にある点である。

凸集合の例【再掲】

$\mathbb R^n$ 全体、空集合、$1$ 点集合、区間、半空間、閉球などは凸集合である。
特に、$\mathbb R$ の部分集合では、区間は凸集合である。

凸集合でない例【再掲】

$\mathbb R^2$ において、穴の空いた領域や三日月形の領域は一般に凸集合ではない。
なぜなら、その集合の中の $2$ 点を結ぶ線分が、途中で集合の外に出る場合があるからである。

$1$ 変数の凹関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$$I$ 上の凹関数であるとは、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\geq t f(x)+(1-t)f(y) $$
が成り立つことをいう。

凹関数の幾何的意味

$f$ が凹関数であるとは、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分が、その $2$ 点の間にあるグラフの下側にあることを意味する。
より正確には、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
は、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
以上である。

狭義凹関数

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$$I$ 上の狭義凹関数であるとは、任意の $x,y\in I$ と任意の $t\in(0,1)$ に対して、
$$ x\ne y $$
ならば、
$$ f(tx+(1-t)y)>t f(x)+(1-t)f(y) $$
が成り立つことをいう。
つまり、狭義凹関数では、異なる $2$$x,y$ の端点を除いた凸結合において、
通常の凹関数の不等式が狭義の意味で不等式として成り立つ。

  1. ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
    $$ tx+(1-t)y $$
    がそれぞれ $y$ または $x$ となり、常に等号が成り立ってしまうからである。
    実際、$t=0$ のとき、
    $$ f(tx+(1-t)y)=f(y) $$
    であり、
    $$ t f(x)+(1-t)f(y)=f(y) $$
    である。また、$t=1$ のとき、
    $$ f(tx+(1-t)y)=f(x) $$
    であり、
    $$ t f(x)+(1-t)f(y)=f(x) $$
    である。したがって、狭義凹性では $t\in(0,1)$ を仮定する。
    $ $
  2. また、$x=y$ の場合にも常に等号が成り立つ。
    実際、$x=y$ ならば、
    $$ tx+(1-t)y = tx+(1-t)x = x $$
    であるから、
    $$ f(tx+(1-t)y)=f(x) $$
    である。一方、
    $$ t f(x)+(1-t)f(y) = t f(x)+(1-t)f(x) = f(x) $$
    である。
    したがって、狭義凹性では $x\ne y$ を仮定する。

-幾何的には、狭義凹関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真下側にある関数である。
言い換えると、点 $tx+(1-t)y$ における関数値
$$ f(tx+(1-t)y) $$
が、グラフ上の $2$$(x,f(x))$$(y,f(y))$ を結ぶ線分上の点の高さ
$$ t f(x)+(1-t)f(y) $$
より真に大きいということである。

多変数の凹関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$$C$ 上の凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) \geq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。

定義域が凸集合である必要性

$C$ が凸集合であることにより、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
が成り立つ。したがって、左辺
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が常に定義される。

狭義凹関数

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$$C$ 上の狭義凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in(0,1)$ に対して、
$$ \mathbf{x}\ne\mathbf{y} $$
ならば、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) > t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。
つまり、狭義凹関数では、異なる $2$$\mathbf{x},\mathbf{y}$ の端点を除いた凸結合において、通常の凹関数の不等式が狭義不等式として成り立つ。

  1. ここで、$t=0$ または $t=1$ の場合を除くのは、その場合には
    $$ t\mathbf{x}+(1-t)\mathbf{y} $$
    がそれぞれ $\mathbf{y}$ または $\mathbf{x}$ となり、常に等号が成り立ってしまうからである。
    実際、$t=0$ のとき、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{y}) $$
    であり、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{y}) $$
    である。また、$t=1$ のとき、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
    であり、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y})=f(\mathbf{x}) $$
    である。
    したがって、狭義凹性では $t\in(0,1)$ を仮定する。
    $ $
  2. また、$\mathbf{x}=\mathbf{y}$ の場合にも常に等号が成り立つ。
    実際、$\mathbf{x}=\mathbf{y}$ ならば、
    $$ t\mathbf{x}+(1-t)\mathbf{y} = t\mathbf{x}+(1-t)\mathbf{x} = \mathbf{x} $$
    であるから、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y})=f(\mathbf{x}) $$
    である。一方、
    $$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) = t f(\mathbf{x})+(1-t)f(\mathbf{x}) = f(\mathbf{x}) $$
    である。
    したがって、狭義凹性では $\mathbf{x}\ne\mathbf{y}$ を仮定する。

-幾何的には、狭義凹関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真下側にある関数である。
言い換えると、点 $t\mathbf{x}+(1-t)\mathbf{y}$ における関数値
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) $$
が、グラフ上の $2$$(\mathbf{x},f(\mathbf{x}))$$(\mathbf{y},f(\mathbf{y}))$ を結ぶ線分上の点の高さ
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
より真に大きいということである。

凸結合 【再掲】

$m\in\mathbb N$ とし、$x_1,x_2,\ldots,x_m\in\mathbb R^n$ とする。
$x_1,x_2,\ldots,x_m$ の凸結合とは、ある実数 $\lambda_1,\lambda_2,\ldots,\lambda_m\in\mathbb R$ が存在して、
$$ \lambda_i\geq0\quad(i=1,2,\ldots,m), \qquad \sum_{i=1}^m\lambda_i=1 $$
を満たし、さらに
$$ x=\sum_{i=1}^m\lambda_i x_i $$
と表される点 $x\in\mathbb R^n$ のことである。

凸結合と凹関数

凸結合は、凸関数だけでなく凹関数の定義にも用いられる。
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。$f$$C$ 上の凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$ f(t\mathbf{x}+(1-t)\mathbf{y}) \geq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
が成り立つことをいう。
ここで、
$$ t\mathbf{x}+(1-t)\mathbf{y} $$
$\mathbf{x}$$\mathbf{y}$ の凸結合である。
また、
$$ t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
は実数 $f(\mathbf{x})$$f(\mathbf{y})$ の凸結合である。
したがって、凹関数の定義は、入力の凸結合における関数値が、関数値の凸結合以上になることを表している。

$2$ 点の凸結合 【再掲】

$m=2$ の場合、点 $x_1,x_2\in\mathbb R^n$ の凸結合は、
$$ \lambda_1x_1+\lambda_2x_2 $$
であり、条件
$$ \lambda_1\geq0,\qquad \lambda_2\geq0,\qquad \lambda_1+\lambda_2=1 $$
を満たす。このとき、$\lambda_1=t$ とおくと $\lambda_2=1-t$ であり、$t\in[0,1]$ であるから、
$$ \lambda_1x_1+\lambda_2x_2 = tx_1+(1-t)x_2 $$
と書ける。したがって、凸集合の定義に現れる
$$ tx+(1-t)y $$
は、$2$$x,y$ の凸結合である。

凸結合と線分 【再掲】

$x,y\in\mathbb R^n$ とする。
$x$$y$ を結ぶ線分は、
$$ \{tx+(1-t)y\mid t\in[0,1]\} $$
で表される。
したがって、$2$ 点の凸結合全体は、その $2$ 点を結ぶ線分である。

凸集合との関係 【再掲】

$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、$C$ の任意の $2$ 点の凸結合が再び $C$ に属することである。
すなわち、任意の $x,y\in C$ と任意の $t\in[0,1]$ に対して、
$$ tx+(1-t)y\in C $$
が成り立つことである。
より一般に、$C$ が凸集合ならば、任意の $m\in\mathbb N$、任意の $x_1,x_2,\ldots,x_m\in C$、任意の $\lambda_1,\lambda_2,\ldots,\lambda_m\geq0$
$$ \sum_{i=1}^m\lambda_i=1 $$
を満たすものに対して、
$$ \sum_{i=1}^m\lambda_i x_i\in C $$
が成り立つ。
この性質は、$2$ 点の場合の凸性を繰り返し用いることで、数学的帰納法により示される( 証明はコチラ )。

Prop&Proof

凹関数と凸関数の関係【$1$変数】

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
関数 $-f:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$ (-f)(x):=-f(x) $$
で定める。このとき、$f$$I$ 上の凹関数であることと、$-f$$I$ 上の凸関数であることは同値である。
すなわち、
$$ f\text{ は }I\text{ 上の凹関数} \Longleftrightarrow -f\text{ は }I\text{ 上の凸関数} $$
が成り立つ。

  1. $f$$I$ 上の凹関数であると仮定する。
    任意に $x,y\in I$$t\in[0,1]$ を取る。このとき、
    $$ tx+(1-t)y\in I $$
    である(補足を参照)。
    そこで、$f$$I$ 上の凹関数であるから、定義より
    $$ f(tx+(1-t)y)\geq t f(x)+(1-t)f(y) $$
    が成り立つ。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ -f(tx+(1-t)y)\leq -t f(x)-(1-t)f(y) $$
    となる。ここで、$-f$ の定義より、
    $$ -f(tx+(1-t)y)=(-f)(tx+(1-t)y) $$
    であり、また
    $$ -t f(x)=t(-f)(x), \qquad -(1-t)f(y)=(1-t)(-f)(y) $$
    である。
    したがって、
    $$ (-f)(tx+(1-t)y) \leq t(-f)(x)+(1-t)(-f)(y) $$
    が成り立つ。よって、$-f$$I$ 上の凸関数である。
    $ $
  2. $-f$$I$ 上の凸関数であると仮定する。
    任意に $x,y\in I$$t\in[0,1]$ を取る。このとき、
    $$ tx+(1-t)y\in I $$
    である(補足を参照)。
    そこで、$-f$$I$ 上の凸関数であるから、定義より
    $$ (-f)(tx+(1-t)y) \leq t(-f)(x)+(1-t)(-f)(y) $$
    が成り立つ。$-f$ の定義より、
    $$ (-f)(tx+(1-t)y)=-f(tx+(1-t)y) $$
    であり、また
    $$ t(-f)(x)+(1-t)(-f)(y) = -t f(x)-(1-t)f(y) $$
    である。したがって、
    $$ -f(tx+(1-t)y) \leq -t f(x)-(1-t)f(y) $$
    が成り立つ。両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ f(tx+(1-t)y) \geq t f(x)+(1-t)f(y) $$
    となる。
    よって、$f$$I$ 上の凹関数である。
    $ $

-以上より、
$$ f\text{ は }I\text{ 上の凹関数} \Longleftrightarrow -f\text{ は }I\text{ 上の凸関数} $$
が成り立つ。
$$ \Box$$

$z=tx+(1-t)y$$I$ に属すること

任意に $x,y\in I$$t\in[0,1]$ を取る。
$$ z:=tx+(1-t)y $$
とおく。
$z$$I$ に属することを確認する。

  1. まず、$x\le y$ の場合を考える。
    このとき、$t\in[0,1]$ より、
    $$ 0\le t\le1 $$
    である。したがって、
    $$ 0\le 1-t\le1 $$
    である。
    また、$y-x\ge0$ であるから、
    $$ 0\le (1-t)(y-x)\le y-x $$
    である。両辺に $x$ を加えると、
    $$ x\le x+(1-t)(y-x)\le y $$
    を得る。
    ここで、
    $$ \begin{align} x+(1-t)(y-x) &= x+(1-t)y-(1-t)x \\ &= tx+(1-t)y \\ &= z \end{align} $$
    であるから、
    $$ x\le z\le y $$
    である。
    $I$ は区間であり、$x,y\in I$ であるから、$x$$y$ の間にある点も $I$ に属する。したがって、
    $$ z\in I $$
    である。
    $ $
  2. 次に、$y\le x$ の場合を考える。
    このとき、$t\in[0,1]$ より、
    $$ 0\le t\le1 $$
    である。
    また、$x-y\ge0$ であるから、
    $$ 0\le t(x-y)\le x-y $$
    である。両辺に $y$ を加えると、
    $$ y\le y+t(x-y)\le x $$
    を得る。
    ここで、
    $$ \begin{align} y+t(x-y) &= y+tx-ty \\ &= tx+(1-t)y \\ &= z \end{align} $$
    であるから、
    $$ y\le z\le x $$
    である。
    $I$ は区間であり、$x,y\in I$ であるから、$y$$x$ の間にある点も $I$ に属する。したがって、
    $$ z\in I $$
    である。
    $ $

-以上より、いずれの場合も
$$ z=tx+(1-t)y\in I $$
である。

多変数の場合

同じ議論により、多変数関数の場合にも同様の対応が成り立つ。
すなわち、$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とすると、
$$ f\text{ は }C\text{ 上の凹関数} \Longleftrightarrow -f\text{ は }C\text{ 上の凸関数} $$
が成り立つ。

凹関数と凸関数の関係【多変数】

$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
関数 $-f:C\to\mathbb R$ を、任意の $\mathbf{x}\in C$ に対して
$$ (-f)(\mathbf{x}):=-f(\mathbf{x}) $$
で定める。このとき、$f$$C$ 上の凹関数であることと、$-f$$C$ 上の凸関数であることは同値である。
すなわち、
$$ f\text{ は }C\text{ 上の凹関数} \Longleftrightarrow -f\text{ は }C\text{ 上の凸関数} $$
が成り立つ。

  1. $f$$C$ 上の凹関数であると仮定する。
    任意に $\mathbf{x},\mathbf{y}\in C$$t\in[0,1]$ を取る。
    $C$ は凸集合であるから、定義より
    $$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
    である。$f$$C$ 上の凹関数であるから、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y}) \geq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
    が成り立つ。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ -f(t\mathbf{x}+(1-t)\mathbf{y}) \leq -t f(\mathbf{x})-(1-t)f(\mathbf{y}) $$
    となる。ここで、$-f$ の定義より、
    $$ -f(t\mathbf{x}+(1-t)\mathbf{y}) = (-f)(t\mathbf{x}+(1-t)\mathbf{y}) $$
    であり、また
    $$ -t f(\mathbf{x})=t(-f)(\mathbf{x}), \qquad -(1-t)f(\mathbf{y})=(1-t)(-f)(\mathbf{y}) $$
    である。したがって、
    $$ (-f)(t\mathbf{x}+(1-t)\mathbf{y}) \leq t(-f)(\mathbf{x})+(1-t)(-f)(\mathbf{y}) $$
    が成り立つ。
    よって、$-f$$C$ 上の凸関数である。
    $ $
  2. $-f$$C$ 上の凸関数であると仮定する。
    任意に $\mathbf{x},\mathbf{y}\in C$$t\in[0,1]$ を取る。
    $C$ は凸集合であるから、定義より
    $$ t\mathbf{x}+(1-t)\mathbf{y}\in C $$
    である。$-f$$C$ 上の凸関数であるから、
    $$ (-f)(t\mathbf{x}+(1-t)\mathbf{y}) \leq t(-f)(\mathbf{x})+(1-t)(-f)(\mathbf{y}) $$
    が成り立つ。$-f$ の定義より、
    $$ (-f)(t\mathbf{x}+(1-t)\mathbf{y}) = -f(t\mathbf{x}+(1-t)\mathbf{y}) $$
    であり、また
    $$ t(-f)(\mathbf{x})+(1-t)(-f)(\mathbf{y}) = -t f(\mathbf{x})-(1-t)f(\mathbf{y}) $$
    である。したがって、
    $$ -f(t\mathbf{x}+(1-t)\mathbf{y}) \leq -t f(\mathbf{x})-(1-t)f(\mathbf{y}) $$
    が成り立つ。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ f(t\mathbf{x}+(1-t)\mathbf{y}) \geq t f(\mathbf{x})+(1-t)f(\mathbf{y}) $$
    となる。
    よって、$f$$C$ 上の凹関数である。
    $ $

-以上より、
$$ f\text{ は }C\text{ 上の凹関数} \Longleftrightarrow -f\text{ は }C\text{ 上の凸関数} $$
が成り立つ。
$$ \Box$$

$2$ 導関数が非正なら凹である

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上連続で、$(a,b)$$2$ 回微分可能な関数とする。
任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\le0 $$
が成り立つとする。
このとき、$\varphi$$[a,b]$ 上で凹である。すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi((1-\theta)x+\theta y) \ge (1-\theta)\varphi(x)+\theta\varphi(y) $$
が成り立つ。

関数 $\psi:[a,b]\to\mathbb R$ を、任意の $x\in[a,b]$ に対して
$$ \psi(x):=-\varphi(x) $$
で定める。

  1. まず、$\psi$ に凸関数における同等の命題( 証明はコチラ )を適用できることを確認する。
    仮定より $\varphi$$[a,b]$ 上連続であるから、$-\varphi$$[a,b]$ 上連続である。
    したがって、$\psi$$[a,b]$ 上連続である。
    $ $
    また、仮定より $\varphi$$(a,b)$$2$ 回微分可能であるから、$\psi=-\varphi$$(a,b)$$2$ 回微分可能である。
    そこで、任意の $t\in(a,b)$ に対して、
    $$ \psi'(t) = -\varphi'(t) $$
    であり、さらに
    $$ \psi''(t) = -\varphi''(t) $$
    である。
    仮定より、任意の $t\in(a,b)$ に対して
    $$ \varphi''(t)\le0 $$
    であるから、
    $$ -\varphi''(t)\ge0 $$
    である。したがって、
    $$ \psi''(t)\ge0 \qquad (t\in(a,b)) $$
    が成り立つ。
    $ $
    よって、関数 $\psi:[a,b]\to\mathbb R$$[a,b]$ 上連続、$(a,b)$$2$ 回微分可能である。
    また、任意の $t\in(a,b)$ に対して、
    $$ \psi''(t)\ge0 $$
    が成り立つ。
    $ $
    したがって、凸関数版の命題「第 $2$ 導関数が非負なら凸である( 証明はコチラ )」を $\psi$ に適用できる。
    よって、$\psi$$[a,b]$ 上で凸である。
    $ $
    すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
    $$ \psi((1-\theta)x+\theta y) \le (1-\theta)\psi(x)+\theta\psi(y) $$
    が成り立つ。
    $ $
  2. 次に、$\psi$ の凸性から $\varphi$ の凹性を導く。
    いま、$\psi=-\varphi$ であるから、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
    $$ \psi((1-\theta)x+\theta y) = -\varphi((1-\theta)x+\theta y) $$
    であり、また
    $$ (1-\theta)\psi(x)+\theta\psi(y) = -(1-\theta)\varphi(x)-\theta\varphi(y) $$
    である。
    したがって、
    $$ \psi((1-\theta)x+\theta y) \le (1-\theta)\psi(x)+\theta\psi(y) $$
    は、
    $$ -\varphi((1-\theta)x+\theta y) \le -(1-\theta)\varphi(x)-\theta\varphi(y) $$
    と書き換えられる。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ \varphi((1-\theta)x+\theta y) \ge (1-\theta)\varphi(x)+\theta\varphi(y) $$
    を得る。
    よって、$\varphi$$[a,b]$ 上で凹である。
    $ $

-以上より、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$ \varphi((1-\theta)x+\theta y) \ge (1-\theta)\varphi(x)+\theta\varphi(y) $$
が成り立つ。
したがって、$\varphi$$[a,b]$ 上で凹である。
$$ \Box$$

凹関数なら第 $2$ 導関数は非正である

$a< b$ とし、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上で凹な関数とする。さらに、$\varphi$$(a,b)$ 上で $2$ 回微分可能であるとする。
このとき、任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\le0 $$
が成り立つ。

関数 $\psi:[a,b]\to\mathbb R$ を、任意の $x\in[a,b]$ に対して
$$ \psi(x):=-\varphi(x) $$
で定める。

  1. まず、$\psi$$[a,b]$ 上で凸であることを示す。
    仮定より、$\varphi$$[a,b]$ 上で凹である。
    したがって、命題「凹関数と凸関数の関係【$1$変数】」(冒頭で示した命題)より、$-\varphi$$[a,b]$ 上で凸である。
    ここで、$\psi=-\varphi$ であるから、$\psi$$[a,b]$ 上で凸である。
    $ $
  2. 次に、$\psi$$(a,b)$ 上で $2$ 回微分可能であることを確認する。
    仮定より、$\varphi$$(a,b)$ 上で $2$ 回微分可能である。
    $\psi=-\varphi$ であるから、任意の $t\in(a,b)$ に対して、
    $$ \psi'(t)=-\varphi'(t) $$
    であり、さらに
    $$ \psi''(t)=-\varphi''(t) $$
    である。
    したがって、$\psi$$(a,b)$ 上で $2$ 回微分可能である。
    $ $
  3. 既に証明済みの凸関数版の命題を用いる。
    凸関数における同等の命題( 証明はコチラ )より、
    $[a,b]$ 上で凸であり、$(a,b)$ 上で $2$ 回微分可能な関数の第 $2$ 導関数は非負である。
    $ $
    $1.$$2.$ より、$\psi$$[a,b]$ 上で凸であり、さらに $(a,b)$ 上で $2$ 回微分可能である。
    したがって、任意の $t\in(a,b)$ に対して、
    $$ \psi''(t)\ge0 $$
    が成り立つ( 証明はコチラ )。
    一方で、
    $$ \psi''(t)=-\varphi''(t) $$
    であるから、
    $$ -\varphi''(t)\ge0 $$
    である。両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ \varphi''(t)\le0 $$
    を得る。

-以上より、任意の $t\in(a,b)$ に対して、
$$ \varphi''(t)\le0 $$
が成り立つ。
$$ \Box$$

$2$ 導関数を用いるための仮定

今回の逆方向の命題は、$\varphi$ が凹であるだけではなく、$(a,b)$ 上で $2$ 回微分可能であるという仮定のもとで成り立つ。
凹関数は一般には微分可能とは限らない。例えば、関数 $f:\mathbb R\to\mathbb R$
$$ f(x)=-|x| $$
で定めると、$f$$\mathbb R$ 上で凹であるが、$x=0$ で微分可能ではない。
$ $
したがって、$\varphi''(t)\le0$ という結論を述べるためには、少なくともその点 $t$ において第 $2$ 導関数 $\varphi''(t)$ が存在している必要がある。
そのため、命題では $\varphi$$(a,b)$ 上で $2$ 回微分可能であることを仮定している。

連続性の仮定について

本命題
$$ \varphi\text{ が }[a,b]\text{ 上で凹である} \Rightarrow \varphi''(t)\le0\quad(t\in(a,b)) $$
では、$[a,b]$ 上の連続性を別に仮定する必要はない。
なぜなら、この命題では、端点を含む $[a,b]$ 上での凹性をすでに仮定しており、
結論は内部 $(a,b)$ における第 $2$ 導関数の符号だけだからである。
$ $
一方、直前の命題
$$ \varphi''(t)\le0\quad(t\in(a,b)) \Rightarrow \varphi\text{ は }[a,b]\text{ 上で凹である} $$
では、$[a,b]$ 上の連続性を仮定するのが自然である。
$ $
なぜなら、第 $2$ 導関数の条件は内部 $(a,b)$ の情報であり、端点 $a,b$ における関数値の挙動までは直接制御しないからである。
したがって、閉区間 $[a,b]$ 上の凹性を結論するために、$\varphi$$[a,b]$ 上連続であることを仮定する。

$2$ つの命題から分かること

$2$ つの命題を合わせると、閉区間 $[a,b]$ 上で連続であり、
開区間 $(a,b)$ 上で $2$ 回微分可能な $1$ 変数関数について、
凹性と第 $2$ 導関数の非正性(という言い方でいいのか...)が同値であることが分かる。
$ $
すなわち、$\varphi:[a,b]\to\mathbb R$$[a,b]$ 上連続で、$(a,b)$$2$ 回微分可能であるとき、
$$ \varphi\text{ が }[a,b]\text{ 上で凹である} $$
ことと、
$$ \varphi''(t)\le0 \quad (\forall t\in(a,b)) $$
が成り立つことは同値である。つまり、
$$ \varphi\text{ が }[a,b]\text{ 上で凹である} \quad \Longleftrightarrow \quad \varphi''(t)\le0\quad(\forall t\in(a,b)) $$
である。

【重要】狭義凹性と第 $2$ 導関数の関係

$2$ 回微分可能な $1$ 変数関数について、凹性の場合は
$$ \varphi\text{ が凹である} \quad \Longleftrightarrow \quad \varphi''(t)\le0\quad(\forall t\in(a,b)) $$
が成り立つ。
一方、狭義凹性の場合は、これをそのまま狭義の意味での不等号に置き換えて
$$ \varphi\text{ が狭義凹である} \quad \Longleftrightarrow \quad \varphi''(t)<0\quad(\forall t\in(a,b)) $$
とすることはできない。
実際、
$$ \varphi''(t)<0\quad(\forall t\in(a,b)) $$
ならば、$\varphi$ は狭義凹である。
しかし、逆は一般には成り立たない。すなわち、$\varphi$ が狭義凹であっても、すべての $t\in(a,b)$
$$ \varphi''(t)<0 $$
が成り立つとは限らない。
$ $
例えば、
$$ \varphi(x)=-x^4 $$
を考える。このとき、$\varphi$ は狭義凹である。
実際、関数
$$ g(x):=x^4 $$
は狭義凸であるから、
$$ \varphi(x)=-g(x)=-x^4 $$
は狭義凹である。
一方で、$\varphi$ の第 $2$ 導関数を計算すると、
$$ \varphi'(x)=-4x^3 $$
であり、
$$ \varphi''(x)=-12x^2 $$
である。したがって、
$$ \varphi''(0)=0 $$
となる。
よって、$\varphi(x)=-x^4$ は狭義凹であるにもかかわらず、
$$ \varphi''(x)<0\quad(\forall x\in\mathbb R) $$
は成り立たない。
したがって、狭義凹性から導けるのは、まず凹性によって
$$ \varphi''(t)\le0\quad(\forall t\in(a,b)) $$
であり、
$$ \varphi''(t)<0\quad(\forall t\in(a,b)) $$
までは一般には導けない。

有限個の凸結合に対する凹関数版のイェンセンの不等式【$\text{Jensen's inequality}$

$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を凹関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$ f(tx+(1-t)y)\ge t f(x)+(1-t)f(y) $$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$ \sum_{i=1}^n \alpha_i=1 $$
を満たすものに対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \ge \sum_{i=1}^n \alpha_i f(x_i) $$
が成り立つ。

関数 $g:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$ g(x):=(-f)(x)=-f(x) $$
で定める。

  1. まず、$g$$I$ 上の凸関数であることを確認する。
    仮定より、$f$$I$ 上の凹関数である。
    したがって、命題「凹関数と凸関数の関係【$1$変数】」(冒頭で示した命題)より、$-f$$I$ 上の凸関数である。
    ここで、$g=-f$ であるから、$g$$I$ 上の凸関数である。
    $ $
  2. 次に、凸関数におけるイェンセンの不等式( 証明はコチラ )を $g$ に適用する。
    そこで、任意に $n\in\mathbb N$$x_1,x_2,\ldots,x_n\in I$$\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ を取り、
    $$ \sum_{i=1}^n\alpha_i=1 $$
    とする。
    いま、$I$ は区間であり、$x_1,\ldots,x_n\in I$ であるから、
    $$ \sum_{i=1}^n\alpha_i x_i\in I $$
    である(補足を参照)。
    $g$$I$ 上の凸関数であるから、凸関数におけるイェンセンの不等式( 証明はコチラ )より、
    $$ g\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i g(x_i) $$
    が成り立つ。
    $ $
  3. これを $f$ に関する不等式へ書き換える。
    $g=-f$ であるから、
    $$ g\left(\sum_{i=1}^n\alpha_i x_i\right) = -f\left(\sum_{i=1}^n\alpha_i x_i\right) $$
    である。また、任意の $i=1,\ldots,n$ に対して、
    $$ g(x_i)=-f(x_i) $$
    であるから、
    $$ \sum_{i=1}^n\alpha_i g(x_i) = \sum_{i=1}^n\alpha_i(-f(x_i)) = -\sum_{i=1}^n\alpha_i f(x_i) $$
    である。したがって、
    $$ g\left(\sum_{i=1}^n\alpha_i x_i\right) \le \sum_{i=1}^n\alpha_i g(x_i) $$
    は、
    $$ -f\left(\sum_{i=1}^n\alpha_i x_i\right) \le -\sum_{i=1}^n\alpha_i f(x_i) $$
    と書き換えられる。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \ge \sum_{i=1}^n\alpha_i f(x_i) $$
    を得る。

-以上より、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$ \sum_{i=1}^n\alpha_i=1 $$
を満たすものに対して、
$$ f\left(\sum_{i=1}^n \alpha_i x_i\right) \ge \sum_{i=1}^n \alpha_i f(x_i) $$
が成り立つ。
$$ \Box$$

有限個の凸結合が区間 $I$ に属すること

イェンセンの不等式では、
$$ f\left(\sum_{i=1}^{n}\alpha_i x_i\right) $$
という形の関数値を考える。
この式が定義されるためには、まず
$$ \sum_{i=1}^{n}\alpha_i x_i\in I $$
であることを確認する必要がある。なぜなら、$f$$I$ 上の関数
$$ f:I\to\mathbb R $$
として定義されているので、入力が $I$ に属していなければ、$f$ の値が定義されないからである。
いま、$n$ を正の整数とし、
$$ x_1,\ldots,x_n\in I $$
とする。また、
$$ \alpha_1,\ldots,\alpha_n\ge0 $$
かつ
$$ \sum_{i=1}^{n}\alpha_i=1 $$
であるとする。このとき、
$$ \sum_{i=1}^{n}\alpha_i x_i $$
$x_1,\ldots,x_n$ の有限個の凸結合である。
$ $
まず、$x_1,\ldots,x_n$ は有限個の実数であるから、最小値と最大値が存在する。そこで、
$$ m:=\min\{x_1,\ldots,x_n\}, \qquad M:=\max\{x_1,\ldots,x_n\} $$
とおく。
このとき、$m$$M$$x_1,\ldots,x_n$ のいずれかであるから、
$$ m\in I, \qquad M\in I $$
である。
また、任意の $i=1,\ldots,n$ に対して、
$$ m\le x_i\le M $$
が成り立つ。
ここで、$\alpha_i\ge0$ であるから、不等式の各辺に $\alpha_i$ をかけても不等号の向きは変わらない。
したがって、任意の $i=1,\ldots,n$ に対して、
$$ \alpha_i m\le \alpha_i x_i\le \alpha_i M $$
である。
これらを $i=1,\ldots,n$ について足し合わせると、
$$ \sum_{i=1}^{n}\alpha_i m \le \sum_{i=1}^{n}\alpha_i x_i \le \sum_{i=1}^{n}\alpha_i M $$
を得る。
さらに、
$$ \sum_{i=1}^{n}\alpha_i=1 $$
であるから、
$$ \sum_{i=1}^{n}\alpha_i m = m\sum_{i=1}^{n}\alpha_i = m $$
であり、
$$ \sum_{i=1}^{n}\alpha_i M = M\sum_{i=1}^{n}\alpha_i = M $$
である。
よって、
$$ m \le \sum_{i=1}^{n}\alpha_i x_i \le M $$
である。ここで、$I$ は区間であり、$m,M\in I$ である。
区間の性質より、$m\le z\le M$ を満たす任意の実数 $z$$I$ に属する。
したがって、
$$ m \le \sum_{i=1}^{n}\alpha_i x_i \le M $$
であることから、
$$ \sum_{i=1}^{n}\alpha_i x_i\in I $$
が成り立つ。以上より、有限個の点 $x_1,\ldots,x_n\in I$ の凸結合
$$ \sum_{i=1}^{n}\alpha_i x_i $$
は再び $I$ に属する。したがって、イェンセンの不等式に現れる
$$ f\left(\sum_{i=1}^{n}\alpha_i x_i\right) $$
は定義される。

等号成立条件

有限個の凸結合に対する凹関数版のイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \ge \sum_{i=1}^n\alpha_i f(x_i) $$
において、等号がいつ成立するかは、$f$ が単なる凹関数である場合と、狭義凹関数である場合で異なる。

  1. まず、すべての $x_i$ が等しい場合、すなわちある $a\in I$ が存在して、任意の $i=1,\ldots,n$ に対して
    $$ x_i=a $$
    が成り立つ場合には、等号が成立する。
    実際、このとき
    $$ \sum_{i=1}^n\alpha_i x_i = \sum_{i=1}^n\alpha_i a = a\sum_{i=1}^n\alpha_i = a $$
    であるから、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
    である。また、
    $$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i=1}^n\alpha_i f(a) = f(a)\sum_{i=1}^n\alpha_i = f(a) $$
    である。したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
    が成り立つ。
    $ $
  2. ただし、$f$ が単なる凹関数である場合、等号成立は必ずしも
    $$ x_1=x_2=\cdots=x_n $$
    だけに限られない。
    例えば、$f$$x_1,\ldots,x_n$ を含む区間上でアフィン関数、すなわちある定数 $a,b\in\mathbb R$ によって
    $$ f(x)=ax+b $$
    と表される場合には、$x_i$ がすべて等しくなくても等号が成立する。
    実際、このとき
    $$ \begin{align} f\left(\sum_{i=1}^n\alpha_i x_i\right) &= a\left(\sum_{i=1}^n\alpha_i x_i\right)+b \\ &= \sum_{i=1}^n\alpha_i ax_i+b\sum_{i=1}^n\alpha_i \\ &= \sum_{i=1}^n\alpha_i ax_i+\sum_{i=1}^n\alpha_i b \\ &= \sum_{i=1}^n\alpha_i(ax_i+b) \\ &= \sum_{i=1}^n\alpha_i f(x_i) \end{align} $$
    である。
狭義凹関数の場合の等号成立条件

一方、$f$$I$ 上の狭義凹関数である場合には、等号成立条件はより強くなる。
$f$$I$ 上の狭義凹関数であるとする。
有限個の凸結合に対する凹関数版のイェンセンの不等式
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) \ge \sum_{i=1}^n\alpha_i f(x_i) $$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$ \alpha_i x_i=0 \qquad \text{かつ} \qquad \alpha_i f(x_i)=0 $$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$ S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\} $$
とおく。このとき、
$$ \sum_{i\in S}\alpha_i=1 $$
であり、
$$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i $$
かつ
$$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) $$
である。したがって、凹関数版のイェンセンの不等式は
$$ f\left(\sum_{i\in S}\alpha_i x_i\right) \ge \sum_{i\in S}\alpha_i f(x_i) $$
と同じである。
$ $
$f$ が狭義凹関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$ x_i=x_j $$
が成り立つことである。

  1. まず、正の重みをもつ点がすべて等しいとする。
    i) すなわち、ある $a\in I$ が存在して、任意の $i\in S$ に対して
    $$ x_i=a $$
    が成り立つとする。このとき、
    $$ \sum_{i=1}^n\alpha_i x_i = \sum_{i\in S}\alpha_i x_i = \sum_{i\in S}\alpha_i a = a\sum_{i\in S}\alpha_i = a $$
    である。したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = f(a) $$
    である。
    $ $
    ii) 一方で、
    $$ \sum_{i=1}^n\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(x_i) = \sum_{i\in S}\alpha_i f(a) = f(a)\sum_{i\in S}\alpha_i = f(a) $$
    である。
    よって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) = \sum_{i=1}^n\alpha_i f(x_i) $$
    が成り立つ。
    $ $
  2. 逆に、正の重みをもつ点の中に異なる $2$ 点が存在するとする。
    つまり、ある $i,j\in S$ が存在して、
    $$ x_i\ne x_j $$
    が成り立つとする。このとき、正の重みをもつ点はすべて等しいわけではない。
    $f$ は狭義凹関数であるから、異なる $2$ 点の真の凸結合に対しては、狭義の不等式が成り立つ。
    すなわち、$u,v\in I$$u\ne v$$0< t<1$ ならば、
    $$ f(tu+(1-t)v) > tf(u)+(1-t)f(v) $$
    である。
    この性質を有限個の凸結合に繰り返し用いると、正の重みをもつ点の中に異なる $2$ 点が存在する場合には、
    $$ f\left(\sum_{i\in S}\alpha_i x_i\right) > \sum_{i\in S}\alpha_i f(x_i) $$
    が成り立つ。
    したがって、
    $$ f\left(\sum_{i=1}^n\alpha_i x_i\right) > \sum_{i=1}^n\alpha_i f(x_i) $$
    である。ゆえに、この場合には等号は成立しない。

-以上より、$f$ が狭義凹関数である場合、凹関数版のイェンセンの不等式における等号成立条件は
$$ \forall i,j\in S,\quad x_i=x_j $$
である。特に、すべての重みが正である場合、すなわち
$$ \alpha_i>0 \qquad (i=1,\ldots,n) $$
である場合には、
$$ S=\{1,\ldots,n\} $$
であるから、等号成立条件は
$$ x_1=x_2=\cdots=x_n $$
である。

微分可能な凹関数の接線による特徴付け

$I\subseteq\mathbb R$ を開区間とし、$f:I\to\mathbb R$ を微分可能な関数とする。
このとき、$f$$I$ 上の凹関数であることと、任意の $x,y\in I$ に対して
$$ f(y)\le f(x)+f'(x)(y-x) $$
が成り立つことは同値である。

関数 $g:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$ g(x):=(-f)(x)=-f(x) $$
で定める。
このとき、$f$$I$ 上で微分可能であるから、$g$$I$ 上で微分可能であり、任意の $x\in I$ に対して
$$ g'(x)=-f'(x) $$
が成り立つ。

  1. $f$$I$ 上の凹関数であると仮定する。
    命題「凹関数と凸関数の関係【$1$変数】」(冒頭で示した命題)より、$g=-f$$I$ 上の凸関数である。
    したがって、命題「微分可能な凸関数の接線による特徴付け」( 証明はコチラ )より、任意の $x,y\in I$ に対して、
    $$ g(y)\ge g(x)+g'(x)(y-x) $$
    が成り立つ。
    ここで、$g=-f$ かつ $g'=-f'$ であるから、
    $$ -f(y)\ge -f(x)-f'(x)(y-x) $$
    である。
    両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ f(y)\le f(x)+f'(x)(y-x) $$
    を得る。
    したがって、任意の $x,y\in I$ に対して、
    $$ f(y)\le f(x)+f'(x)(y-x) $$
    が成り立つ。
    $ $
  2. 逆に、任意の $x,y\in I$ に対して
    $$ f(y)\le f(x)+f'(x)(y-x) $$
    が成り立つと仮定する。
    このとき、両辺に $-1$ をかけると、不等号の向きが逆になり、
    $$ -f(y)\ge -f(x)-f'(x)(y-x) $$
    である。
    $g=-f$ かつ $g'=-f'$ であるから、これは
    $$ g(y)\ge g(x)+g'(x)(y-x) $$
    と書ける。
    したがって、任意の $x,y\in I$ に対して、
    $$ g(y)\ge g(x)+g'(x)(y-x) $$
    が成り立つ。
    命題「微分可能な凸関数の接線による特徴付け」( 証明はコチラ )より、$g$$I$ 上の凸関数である。
    すなわち、$-f$$I$ 上の凸関数である。
    よって、命題「凹関数と凸関数の関係【$1$変数】」(冒頭で示した命題)より、$f$$I$ 上の凹関数である。
    $ $

-以上より、
$$ f\text{ は }I\text{ 上の凹関数} \Longleftrightarrow \forall x,y\in I,\quad f(y)\le f(x)+f'(x)(y-x) $$
が成り立つ。
$$ \Box$$

幾何的意味

上の命題は、微分可能な凹関数では、任意の点 $x\in I$ における接線
$$ y\mapsto f(x)+f'(x)(y-x) $$
が、関数のグラフを上から支えることを意味する。
すなわち、任意の $x,y\in I$ に対して、
$$ f(y)\le f(x)+f'(x)(y-x) $$
が成り立つので、点 $x$ における接線の高さは、点 $y$ における関数値 $f(y)$ 以上である。

狭義凹関数の停留点が一意な最大点になる理由

$g:\mathbb R\to\mathbb R$ を微分可能な狭義凹関数とする。
$a\in\mathbb R$$g$ の停留点であるとは、
$$ g'(a)=0 $$
が成り立つことをいう。このとき、$a$$g$ の一意な最大点である。
理由は次の通りである。

  1. まず、微分可能な凹関数は、任意の $x,a\in\mathbb R$ に対して
    $$ g(x)\le g(a)+g'(a)(x-a) $$
    を満たす(今示した命題)。
    これは、凹関数のグラフが各点における接線の下側にあることを表している。
    いま、$a$ は停留点であるから、
    $$ g'(a)=0 $$
    である。
    したがって、任意の $x\in\mathbb R$ に対して、
    $$ \begin{align} g(x) &\le g(a)+g'(a)(x-a)\\ &=g(a)+0\cdot(x-a)\\ &=g(a) \end{align} $$
    が成り立つ。
    よって、任意の $x\in\mathbb R$ に対して
    $$ g(x)\le g(a) $$
    であるから、$a$$g$ の最大点である。
    $ $
  2. 次に、一意性を示す。
    仮に、$a$ とは異なる最大点 $b\in\mathbb R$ が存在するとする。すなわち、
    $$ a\ne b $$
    かつ
    $$ g(a)=g(b) $$
    であり、どちらも最大値を与えるとする。
    このとき、$a\ne b$ であるから、
    $$ \frac{a+b}{2}\ne a, \qquad \frac{a+b}{2}\ne b $$
    である。
    また、$g$ は狭義凹関数であるため、
    $$ g\left(\frac{a+b}{2}\right) > \frac{1}{2}g(a)+\frac{1}{2}g(b) $$
    が成り立つ。
    いま、$g(a)=g(b)$ であるから、
    $$ \begin{align} \frac{1}{2}g(a)+\frac{1}{2}g(b) &= \frac{1}{2}g(a)+\frac{1}{2}g(a)\\ &= g(a) \end{align} $$
    である。
    したがって、
    $$ g\left(\frac{a+b}{2}\right)>g(a) $$
    となる。
    しかし、$a$ は最大点であるから、任意の $x\in\mathbb R$ に対して
    $$ g(x)\le g(a) $$
    でなければならない。
    これは
    $$ g\left(\frac{a+b}{2}\right)>g(a) $$
    に矛盾する。
    よって、$a$ とは異なる最大点 $b$ は存在しない。

-したがって、狭義凹関数の停留点は、一意な最大点である。

非負線形結合は凹性を保つ

$n$ を正の整数とする。
$I\subseteq\mathbb R$ を区間とし、$f_1,f_2,\ldots,f_n:I\to\mathbb R$ を凹関数とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_n\ge0$ とする。
関数 $f:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$ f(x):=\sum_{i=1}^{n}\lambda_i f_i(x) $$
で定める。このとき、$f$$I$ 上の凹関数である。

任意に $x,y\in I$$t\in[0,1]$ を取る。$I$ は区間であり、$x,y\in I$ であるから、
$$ tx+(1-t)y\in I $$
である(補足を参照)。
$f_i$$I$ 上の凹関数であるから、任意の $i=1,\ldots,n$ に対して、
$$ f_i(tx+(1-t)y) \ge t f_i(x)+(1-t)f_i(y) $$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、両辺に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、
$$ \lambda_i f_i(tx+(1-t)y) \ge \lambda_i\{t f_i(x)+(1-t)f_i(y)\} $$
が成り立つ。
これを $i=1,\ldots,n$ について足し合わせると、
$$ \sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y) \ge \sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\} $$
を得る。
右辺を整理すると、
$$ \begin{align} \sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\} &= \sum_{i=1}^{n}\{\lambda_i t f_i(x)+\lambda_i(1-t)f_i(y)\} \qquad \because \text{分配法則} \\ &= \sum_{i=1}^{n}\{t\lambda_i f_i(x)+(1-t)\lambda_i f_i(y)\} \qquad \because \text{実数の積は交換可能} \\ &= \sum_{i=1}^{n}t\lambda_i f_i(x) + \sum_{i=1}^{n}(1-t)\lambda_i f_i(y) \qquad \because \text{有限和は和に分けられる} \\ &= t\sum_{i=1}^{n}\lambda_i f_i(x) + (1-t)\sum_{i=1}^{n}\lambda_i f_i(y) \qquad \because t\text{ と }1-t\text{ は }i\text{ に依存しない定数である} \\ &= t f(x)+(1-t)f(y) \qquad \because f(x):=\sum_{i=1}^{n}\lambda_i f_i(x),\quad f(y):=\sum_{i=1}^{n}\lambda_i f_i(y) \end{align} $$
である。
また、$f$ の定義より、
$$ f(tx+(1-t)y) = \sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y) $$
である。
したがって、
$$ f(tx+(1-t)y) \ge t f(x)+(1-t)f(y) $$
が成り立つ。よって、$f$$I$ 上の凹関数である。
$$ \Box$$

非負係数である必要性

上の証明で重要なのは、各係数が
$$ \lambda_i\ge0 $$
を満たすことである。
なぜなら、不等式の両辺に $\lambda_i$ をかけるとき、$\lambda_i\ge0$ であれば不等号の向きは変わらないからである。
一方、負の係数が含まれる場合、凹関数の線形結合が凹関数になるとは限らない。
例えば、$f_1:\mathbb R\to\mathbb R$
$$ f_1(x)=-x^2 $$
で定めると、$f_1$$\mathbb R$ 上の凹関数である。しかし、係数 $\lambda_1=-1$ を取ると、
$$ \lambda_1 f_1(x)=x^2 $$
となる。
この関数は $\mathbb R$ 上の凹関数ではない。例えば、$x=-1,\ y=1,\ t=\frac{1}{2}$ とすると、
$$ tx+(1-t)y=0 $$
であるが、
$$ 0^2=0 $$
であり、一方で
$$ t(-1)^2+(1-t)1^2 = \frac{1}{2}\cdot1+\frac{1}{2}\cdot1 = 1 $$
である。したがって、凹性に必要な不等式
$$ f(tx+(1-t)y)\ge t f(x)+(1-t)f(y) $$
は、
$$ 0\ge1 $$
となり成り立たない。
よって、$x^2$$\mathbb R$ 上の凹関数ではない。
このように、一般に、凹関数の線形結合が凹関数であることを保証するためには、係数が非負であるという条件が本質的である。

$z=tx+(1-t)y$$I$ に属すること

任意に $x,y\in I$$t\in[0,1]$ を取る。
$$ z:=tx+(1-t)y $$
とおく。
$z$$I$ に属することを確認する。

  1. まず、$x\le y$ の場合を考える。
    このとき、$t\in[0,1]$ より、
    $$ 0\le t\le1 $$
    である。したがって、
    $$ 0\le 1-t\le1 $$
    である。
    また、$y-x\ge0$ であるから、
    $$ 0\le (1-t)(y-x)\le y-x $$
    である。両辺に $x$ を加えると、
    $$ x\le x+(1-t)(y-x)\le y $$
    を得る。
    ここで、
    $$ \begin{align} x+(1-t)(y-x) &= x+(1-t)y-(1-t)x \\ &= tx+(1-t)y \\ &= z \end{align} $$
    であるから、
    $$ x\le z\le y $$
    である。
    $I$ は区間であり、$x,y\in I$ であるから、$x$$y$ の間にある点も $I$ に属する。したがって、
    $$ z\in I $$
    である。
    $ $
  2. 次に、$y\le x$ の場合を考える。
    このとき、$t\in[0,1]$ より、
    $$ 0\le t\le1 $$
    である。
    また、$x-y\ge0$ であるから、
    $$ 0\le t(x-y)\le x-y $$
    である。両辺に $y$ を加えると、
    $$ y\le y+t(x-y)\le x $$
    を得る。
    ここで、
    $$ \begin{align} y+t(x-y) &= y+tx-ty \\ &= tx+(1-t)y \\ &= z \end{align} $$
    であるから、
    $$ y\le z\le x $$
    である。
    $I$ は区間であり、$x,y\in I$ であるから、$y$$x$ の間にある点も $I$ に属する。したがって、
    $$ z\in I $$
    である。
    $ $

-以上より、いずれの場合も
$$ z=tx+(1-t)y\in I $$
である。

投稿日:9日前
更新日:9日前
数学の力で現場を変える アルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura
Kagura
7
4936
■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。          ----------------------------------------------- ■ ノート『数学概論』の読み方     STEP1:まずは定義を一通り理解し覚える。 STEP2:具体例を考えてみる。    STEP3:各命題の主張を一通り理解する。 STEP4:証明を繰り返し読んで流れを掴む。 (まずはココまでで良い)         STEP5:何も見ずに定義に従って証明を創る。 STEP6:STEP5の他の証明方法を創ってみる。    STEP7:自由に命題と証明を創ってみる  

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中