$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
t\mathbf{x}+(1-t)\mathbf{y}\in C
$$
が成り立つことをいう。
この後で定義する凹関数は、凸集合上で定義される関数である。
凸解析では、集合に対しては通常「凹集合」という用語は用いない。
$ $
$C\subseteq\mathbb R^n$ が凸集合でない場合は、$C$ を凹集合とは呼ばず、非凸(集合)であるという。
すなわち、$C$ が非凸な集合であるとは、ある $\mathbf{x},\mathbf{y}\in C$ とある $t\in(0,1)$ が存在して、
$$
t\mathbf{x}+(1-t)\mathbf{y}\notin C
$$
が成り立つことをいう。
$C$ が凸集合であるとは、$C$ に属する任意の $2$ 点 $x,y$ を選んだとき、その $2$ 点を結ぶ線分全体が $C$ に含まれるということである。
すなわち、$C$ に属する $2$ 点を結んだ線分が、途中で $C$ の外に出ない集合である。
$t\in[0,1]$ のとき、
$$
tx+(1-t)y
$$
は $x$ と $y$ を結ぶ線分上の点である。$t=1$ のとき $x$ になり、$t=0$ のとき $y$ になる。
また、$0< t<1$ かつ $x\neq y$ のとき、$tx+(1-t)y$ は $x$ と $y$ を結ぶ線分の端点を除いた部分にある点である。
$\mathbb R^n$ 全体、空集合、$1$ 点集合、区間、半空間、閉球などは凸集合である。
特に、$\mathbb R$ の部分集合では、区間は凸集合である。
$\mathbb R^2$ において、穴の空いた領域や三日月形の領域は一般に凸集合ではない。
なぜなら、その集合の中の $2$ 点を結ぶ線分が、途中で集合の外に出る場合があるからである。
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の凹関数であるとは、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\geq t f(x)+(1-t)f(y)
$$
が成り立つことをいう。
$f$ が凹関数であるとは、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分が、その $2$ 点の間にあるグラフの下側にあることを意味する。
より正確には、点 $tx+(1-t)y$ における関数値
$$
f(tx+(1-t)y)
$$
は、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$
t f(x)+(1-t)f(y)
$$
以上である。
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
$f$ が $I$ 上の狭義凹関数であるとは、任意の $x,y\in I$ と任意の $t\in(0,1)$ に対して、
$$
x\ne y
$$
ならば、
$$
f(tx+(1-t)y)>t f(x)+(1-t)f(y)
$$
が成り立つことをいう。
つまり、狭義凹関数では、異なる $2$ 点 $x,y$ の端点を除いた凸結合において、
通常の凹関数の不等式が狭義の意味で不等式として成り立つ。
-幾何的には、狭義凹関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真下側にある関数である。
言い換えると、点 $tx+(1-t)y$ における関数値
$$
f(tx+(1-t)y)
$$
が、グラフ上の $2$ 点 $(x,f(x))$ と $(y,f(y))$ を結ぶ線分上の点の高さ
$$
t f(x)+(1-t)f(y)
$$
より真に大きいということである。
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
\geq
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
が成り立つことをいう。
$C$ が凸集合であることにより、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
t\mathbf{x}+(1-t)\mathbf{y}\in C
$$
が成り立つ。したがって、左辺
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
$$
が常に定義される。
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
$f$ が $C$ 上の狭義凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in(0,1)$ に対して、
$$
\mathbf{x}\ne\mathbf{y}
$$
ならば、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
>
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
が成り立つことをいう。
つまり、狭義凹関数では、異なる $2$ 点 $\mathbf{x},\mathbf{y}$ の端点を除いた凸結合において、通常の凹関数の不等式が狭義不等式として成り立つ。
-幾何的には、狭義凹関数とは、グラフ上の異なる $2$ 点を結ぶ線分の端点を除いた部分が、その間にあるグラフの真下側にある関数である。
言い換えると、点 $t\mathbf{x}+(1-t)\mathbf{y}$ における関数値
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
$$
が、グラフ上の $2$ 点 $(\mathbf{x},f(\mathbf{x}))$ と $(\mathbf{y},f(\mathbf{y}))$ を結ぶ線分上の点の高さ
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
より真に大きいということである。
$m\in\mathbb N$ とし、$x_1,x_2,\ldots,x_m\in\mathbb R^n$ とする。
点 $x_1,x_2,\ldots,x_m$ の凸結合とは、ある実数 $\lambda_1,\lambda_2,\ldots,\lambda_m\in\mathbb R$ が存在して、
$$
\lambda_i\geq0\quad(i=1,2,\ldots,m),
\qquad
\sum_{i=1}^m\lambda_i=1
$$
を満たし、さらに
$$
x=\sum_{i=1}^m\lambda_i x_i
$$
と表される点 $x\in\mathbb R^n$ のことである。
凸結合は、凸関数だけでなく凹関数の定義にも用いられる。
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。$f$ が $C$ 上の凹関数であるとは、任意の $\mathbf{x},\mathbf{y}\in C$ と任意の $t\in[0,1]$ に対して、
$$
f(t\mathbf{x}+(1-t)\mathbf{y})
\geq
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
が成り立つことをいう。
ここで、
$$
t\mathbf{x}+(1-t)\mathbf{y}
$$
は $\mathbf{x}$ と $\mathbf{y}$ の凸結合である。
また、
$$
t f(\mathbf{x})+(1-t)f(\mathbf{y})
$$
は実数 $f(\mathbf{x})$ と $f(\mathbf{y})$ の凸結合である。
したがって、凹関数の定義は、入力の凸結合における関数値が、関数値の凸結合以上になることを表している。
$m=2$ の場合、点 $x_1,x_2\in\mathbb R^n$ の凸結合は、
$$
\lambda_1x_1+\lambda_2x_2
$$
であり、条件
$$
\lambda_1\geq0,\qquad \lambda_2\geq0,\qquad \lambda_1+\lambda_2=1
$$
を満たす。このとき、$\lambda_1=t$ とおくと $\lambda_2=1-t$ であり、$t\in[0,1]$ であるから、
$$
\lambda_1x_1+\lambda_2x_2
=
tx_1+(1-t)x_2
$$
と書ける。したがって、凸集合の定義に現れる
$$
tx+(1-t)y
$$
は、$2$ 点 $x,y$ の凸結合である。
$x,y\in\mathbb R^n$ とする。
$x$ と $y$ を結ぶ線分は、
$$
\{tx+(1-t)y\mid t\in[0,1]\}
$$
で表される。
したがって、$2$ 点の凸結合全体は、その $2$ 点を結ぶ線分である。
$C\subseteq\mathbb R^n$ とする。
$C$ が凸集合であるとは、$C$ の任意の $2$ 点の凸結合が再び $C$ に属することである。
すなわち、任意の $x,y\in C$ と任意の $t\in[0,1]$ に対して、
$$
tx+(1-t)y\in C
$$
が成り立つことである。
より一般に、$C$ が凸集合ならば、任意の $m\in\mathbb N$、任意の $x_1,x_2,\ldots,x_m\in C$、任意の $\lambda_1,\lambda_2,\ldots,\lambda_m\geq0$ で
$$
\sum_{i=1}^m\lambda_i=1
$$
を満たすものに対して、
$$
\sum_{i=1}^m\lambda_i x_i\in C
$$
が成り立つ。
この性質は、$2$ 点の場合の凸性を繰り返し用いることで、数学的帰納法により示される(
証明はコチラ
)。
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を関数とする。
関数 $-f:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$
(-f)(x):=-f(x)
$$
で定める。このとき、$f$ が $I$ 上の凹関数であることと、$-f$ が $I$ 上の凸関数であることは同値である。
すなわち、
$$
f\text{ は }I\text{ 上の凹関数}
\Longleftrightarrow
-f\text{ は }I\text{ 上の凸関数}
$$
が成り立つ。
-以上より、
$$
f\text{ は }I\text{ 上の凹関数}
\Longleftrightarrow
-f\text{ は }I\text{ 上の凸関数}
$$
が成り立つ。
$$ \Box$$
任意に $x,y\in I$ と $t\in[0,1]$ を取る。
$$
z:=tx+(1-t)y
$$
とおく。
$z$ が $I$ に属することを確認する。
-以上より、いずれの場合も
$$
z=tx+(1-t)y\in I
$$
である。
同じ議論により、多変数関数の場合にも同様の対応が成り立つ。
すなわち、$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とすると、
$$
f\text{ は }C\text{ 上の凹関数}
\Longleftrightarrow
-f\text{ は }C\text{ 上の凸関数}
$$
が成り立つ。
$C\subseteq\mathbb R^n$ を凸集合とし、$f:C\to\mathbb R$ を関数とする。
関数 $-f:C\to\mathbb R$ を、任意の $\mathbf{x}\in C$ に対して
$$
(-f)(\mathbf{x}):=-f(\mathbf{x})
$$
で定める。このとき、$f$ が $C$ 上の凹関数であることと、$-f$ が $C$ 上の凸関数であることは同値である。
すなわち、
$$
f\text{ は }C\text{ 上の凹関数}
\Longleftrightarrow
-f\text{ は }C\text{ 上の凸関数}
$$
が成り立つ。
-以上より、
$$
f\text{ は }C\text{ 上の凹関数}
\Longleftrightarrow
-f\text{ は }C\text{ 上の凸関数}
$$
が成り立つ。
$$ \Box$$
$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能な関数とする。
任意の $t\in(a,b)$ に対して、
$$
\varphi''(t)\le0
$$
が成り立つとする。
このとき、$\varphi$ は $[a,b]$ 上で凹である。すなわち、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$
\varphi((1-\theta)x+\theta y)
\ge
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。
関数 $\psi:[a,b]\to\mathbb R$ を、任意の $x\in[a,b]$ に対して
$$
\psi(x):=-\varphi(x)
$$
で定める。
-以上より、任意の $x,y\in[a,b]$ と任意の $\theta\in[0,1]$ に対して、
$$
\varphi((1-\theta)x+\theta y)
\ge
(1-\theta)\varphi(x)+\theta\varphi(y)
$$
が成り立つ。
したがって、$\varphi$ は $[a,b]$ 上で凹である。
$$ \Box$$
$a< b$ とし、$\varphi:[a,b]\to\mathbb R$ を $[a,b]$ 上で凹な関数とする。さらに、$\varphi$ は $(a,b)$ 上で $2$ 回微分可能であるとする。
このとき、任意の $t\in(a,b)$ に対して、
$$
\varphi''(t)\le0
$$
が成り立つ。
関数 $\psi:[a,b]\to\mathbb R$ を、任意の $x\in[a,b]$ に対して
$$
\psi(x):=-\varphi(x)
$$
で定める。
-以上より、任意の $t\in(a,b)$ に対して、
$$
\varphi''(t)\le0
$$
が成り立つ。
$$ \Box$$
今回の逆方向の命題は、$\varphi$ が凹であるだけではなく、$(a,b)$ 上で $2$ 回微分可能であるという仮定のもとで成り立つ。
凹関数は一般には微分可能とは限らない。例えば、関数 $f:\mathbb R\to\mathbb R$ を
$$
f(x)=-|x|
$$
で定めると、$f$ は $\mathbb R$ 上で凹であるが、$x=0$ で微分可能ではない。
$ $
したがって、$\varphi''(t)\le0$ という結論を述べるためには、少なくともその点 $t$ において第 $2$ 導関数 $\varphi''(t)$ が存在している必要がある。
そのため、命題では $\varphi$ が $(a,b)$ 上で $2$ 回微分可能であることを仮定している。
本命題
$$
\varphi\text{ が }[a,b]\text{ 上で凹である}
\Rightarrow
\varphi''(t)\le0\quad(t\in(a,b))
$$
では、$[a,b]$ 上の連続性を別に仮定する必要はない。
なぜなら、この命題では、端点を含む $[a,b]$ 上での凹性をすでに仮定しており、
結論は内部 $(a,b)$ における第 $2$ 導関数の符号だけだからである。
$ $
一方、直前の命題
$$
\varphi''(t)\le0\quad(t\in(a,b))
\Rightarrow
\varphi\text{ は }[a,b]\text{ 上で凹である}
$$
では、$[a,b]$ 上の連続性を仮定するのが自然である。
$ $
なぜなら、第 $2$ 導関数の条件は内部 $(a,b)$ の情報であり、端点 $a,b$ における関数値の挙動までは直接制御しないからである。
したがって、閉区間 $[a,b]$ 上の凹性を結論するために、$\varphi$ が $[a,b]$ 上連続であることを仮定する。
$2$ つの命題を合わせると、閉区間 $[a,b]$ 上で連続であり、
開区間 $(a,b)$ 上で $2$ 回微分可能な $1$ 変数関数について、
凹性と第 $2$ 導関数の非正性(という言い方でいいのか...)が同値であることが分かる。
$ $
すなわち、$\varphi:[a,b]\to\mathbb R$ が $[a,b]$ 上連続で、$(a,b)$ 上 $2$ 回微分可能であるとき、
$$
\varphi\text{ が }[a,b]\text{ 上で凹である}
$$
ことと、
$$
\varphi''(t)\le0
\quad
(\forall t\in(a,b))
$$
が成り立つことは同値である。つまり、
$$
\varphi\text{ が }[a,b]\text{ 上で凹である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)\le0\quad(\forall t\in(a,b))
$$
である。
$2$ 回微分可能な $1$ 変数関数について、凹性の場合は
$$
\varphi\text{ が凹である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)\le0\quad(\forall t\in(a,b))
$$
が成り立つ。
一方、狭義凹性の場合は、これをそのまま狭義の意味での不等号に置き換えて
$$
\varphi\text{ が狭義凹である}
\quad
\Longleftrightarrow
\quad
\varphi''(t)<0\quad(\forall t\in(a,b))
$$
とすることはできない。
実際、
$$
\varphi''(t)<0\quad(\forall t\in(a,b))
$$
ならば、$\varphi$ は狭義凹である。
しかし、逆は一般には成り立たない。すなわち、$\varphi$ が狭義凹であっても、すべての $t\in(a,b)$ で
$$
\varphi''(t)<0
$$
が成り立つとは限らない。
$ $
例えば、
$$
\varphi(x)=-x^4
$$
を考える。このとき、$\varphi$ は狭義凹である。
実際、関数
$$
g(x):=x^4
$$
は狭義凸であるから、
$$
\varphi(x)=-g(x)=-x^4
$$
は狭義凹である。
一方で、$\varphi$ の第 $2$ 導関数を計算すると、
$$
\varphi'(x)=-4x^3
$$
であり、
$$
\varphi''(x)=-12x^2
$$
である。したがって、
$$
\varphi''(0)=0
$$
となる。
よって、$\varphi(x)=-x^4$ は狭義凹であるにもかかわらず、
$$
\varphi''(x)<0\quad(\forall x\in\mathbb R)
$$
は成り立たない。
したがって、狭義凹性から導けるのは、まず凹性によって
$$
\varphi''(t)\le0\quad(\forall t\in(a,b))
$$
であり、
$$
\varphi''(t)<0\quad(\forall t\in(a,b))
$$
までは一般には導けない。
$I\subseteq\mathbb R$ を区間とし、$f:I\to\mathbb R$ を凹関数とする。
すなわち、任意の $x,y\in I$ と任意の $t\in[0,1]$ に対して、
$$
f(tx+(1-t)y)\ge t f(x)+(1-t)f(y)
$$
が成り立つとする。
このとき、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n \alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\ge
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
関数 $g:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$
g(x):=(-f)(x)=-f(x)
$$
で定める。
-以上より、任意の $n\in\mathbb N$、任意の $x_1,x_2,\ldots,x_n\in I$、任意の $\alpha_1,\alpha_2,\ldots,\alpha_n\ge0$ で、
$$
\sum_{i=1}^n\alpha_i=1
$$
を満たすものに対して、
$$
f\left(\sum_{i=1}^n \alpha_i x_i\right)
\ge
\sum_{i=1}^n \alpha_i f(x_i)
$$
が成り立つ。
$$ \Box$$
イェンセンの不等式では、
$$
f\left(\sum_{i=1}^{n}\alpha_i x_i\right)
$$
という形の関数値を考える。
この式が定義されるためには、まず
$$
\sum_{i=1}^{n}\alpha_i x_i\in I
$$
であることを確認する必要がある。なぜなら、$f$ は $I$ 上の関数
$$
f:I\to\mathbb R
$$
として定義されているので、入力が $I$ に属していなければ、$f$ の値が定義されないからである。
いま、$n$ を正の整数とし、
$$
x_1,\ldots,x_n\in I
$$
とする。また、
$$
\alpha_1,\ldots,\alpha_n\ge0
$$
かつ
$$
\sum_{i=1}^{n}\alpha_i=1
$$
であるとする。このとき、
$$
\sum_{i=1}^{n}\alpha_i x_i
$$
は $x_1,\ldots,x_n$ の有限個の凸結合である。
$ $
まず、$x_1,\ldots,x_n$ は有限個の実数であるから、最小値と最大値が存在する。そこで、
$$
m:=\min\{x_1,\ldots,x_n\},
\qquad
M:=\max\{x_1,\ldots,x_n\}
$$
とおく。
このとき、$m$ と $M$ は $x_1,\ldots,x_n$ のいずれかであるから、
$$
m\in I,
\qquad
M\in I
$$
である。
また、任意の $i=1,\ldots,n$ に対して、
$$
m\le x_i\le M
$$
が成り立つ。
ここで、$\alpha_i\ge0$ であるから、不等式の各辺に $\alpha_i$ をかけても不等号の向きは変わらない。
したがって、任意の $i=1,\ldots,n$ に対して、
$$
\alpha_i m\le \alpha_i x_i\le \alpha_i M
$$
である。
これらを $i=1,\ldots,n$ について足し合わせると、
$$
\sum_{i=1}^{n}\alpha_i m
\le
\sum_{i=1}^{n}\alpha_i x_i
\le
\sum_{i=1}^{n}\alpha_i M
$$
を得る。
さらに、
$$
\sum_{i=1}^{n}\alpha_i=1
$$
であるから、
$$
\sum_{i=1}^{n}\alpha_i m
=
m\sum_{i=1}^{n}\alpha_i
=
m
$$
であり、
$$
\sum_{i=1}^{n}\alpha_i M
=
M\sum_{i=1}^{n}\alpha_i
=
M
$$
である。
よって、
$$
m
\le
\sum_{i=1}^{n}\alpha_i x_i
\le
M
$$
である。ここで、$I$ は区間であり、$m,M\in I$ である。
区間の性質より、$m\le z\le M$ を満たす任意の実数 $z$ は $I$ に属する。
したがって、
$$
m
\le
\sum_{i=1}^{n}\alpha_i x_i
\le
M
$$
であることから、
$$
\sum_{i=1}^{n}\alpha_i x_i\in I
$$
が成り立つ。以上より、有限個の点 $x_1,\ldots,x_n\in I$ の凸結合
$$
\sum_{i=1}^{n}\alpha_i x_i
$$
は再び $I$ に属する。したがって、イェンセンの不等式に現れる
$$
f\left(\sum_{i=1}^{n}\alpha_i x_i\right)
$$
は定義される。
有限個の凸結合に対する凹関数版のイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\ge
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、等号がいつ成立するかは、$f$ が単なる凹関数である場合と、狭義凹関数である場合で異なる。
一方、$f$ が $I$ 上の狭義凹関数である場合には、等号成立条件はより強くなる。
$f$ が $I$ 上の狭義凹関数であるとする。
有限個の凸結合に対する凹関数版のイェンセンの不等式
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
\ge
\sum_{i=1}^n\alpha_i f(x_i)
$$
において、$\alpha_i=0$ である添字 $i$ は、左辺にも右辺にも実質的に影響しない。
実際、$\alpha_i=0$ ならば、
$$
\alpha_i x_i=0
\qquad
\text{かつ}
\qquad
\alpha_i f(x_i)=0
$$
である。
したがって、等号成立条件を考えるときは、正の重みをもつ添字だけを考えればよい。
そこで、
$$
S:=\{i\in\{1,\ldots,n\}\mid \alpha_i>0\}
$$
とおく。このとき、
$$
\sum_{i\in S}\alpha_i=1
$$
であり、
$$
\sum_{i=1}^n\alpha_i x_i
=
\sum_{i\in S}\alpha_i x_i
$$
かつ
$$
\sum_{i=1}^n\alpha_i f(x_i)
=
\sum_{i\in S}\alpha_i f(x_i)
$$
である。したがって、凹関数版のイェンセンの不等式は
$$
f\left(\sum_{i\in S}\alpha_i x_i\right)
\ge
\sum_{i\in S}\alpha_i f(x_i)
$$
と同じである。
$ $
$f$ が狭義凹関数である場合、等号が成立するための必要十分条件は、正の重みをもつ点がすべて等しいことである。
すなわち、
$$
f\left(\sum_{i=1}^n\alpha_i x_i\right)
=
\sum_{i=1}^n\alpha_i f(x_i)
$$
が成り立つための必要十分条件は、任意の $i,j\in S$ に対して
$$
x_i=x_j
$$
が成り立つことである。
-以上より、$f$ が狭義凹関数である場合、凹関数版のイェンセンの不等式における等号成立条件は
$$
\forall i,j\in S,\quad x_i=x_j
$$
である。特に、すべての重みが正である場合、すなわち
$$
\alpha_i>0
\qquad
(i=1,\ldots,n)
$$
である場合には、
$$
S=\{1,\ldots,n\}
$$
であるから、等号成立条件は
$$
x_1=x_2=\cdots=x_n
$$
である。
$I\subseteq\mathbb R$ を開区間とし、$f:I\to\mathbb R$ を微分可能な関数とする。
このとき、$f$ が $I$ 上の凹関数であることと、任意の $x,y\in I$ に対して
$$
f(y)\le f(x)+f'(x)(y-x)
$$
が成り立つことは同値である。
関数 $g:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$
g(x):=(-f)(x)=-f(x)
$$
で定める。
このとき、$f$ は $I$ 上で微分可能であるから、$g$ も $I$ 上で微分可能であり、任意の $x\in I$ に対して
$$
g'(x)=-f'(x)
$$
が成り立つ。
-以上より、
$$
f\text{ は }I\text{ 上の凹関数}
\Longleftrightarrow
\forall x,y\in I,\quad f(y)\le f(x)+f'(x)(y-x)
$$
が成り立つ。
$$ \Box$$
上の命題は、微分可能な凹関数では、任意の点 $x\in I$ における接線
$$
y\mapsto f(x)+f'(x)(y-x)
$$
が、関数のグラフを上から支えることを意味する。
すなわち、任意の $x,y\in I$ に対して、
$$
f(y)\le f(x)+f'(x)(y-x)
$$
が成り立つので、点 $x$ における接線の高さは、点 $y$ における関数値 $f(y)$ 以上である。
$g:\mathbb R\to\mathbb R$ を微分可能な狭義凹関数とする。
$a\in\mathbb R$ が $g$ の停留点であるとは、
$$
g'(a)=0
$$
が成り立つことをいう。このとき、$a$ は $g$ の一意な最大点である。
理由は次の通りである。
-したがって、狭義凹関数の停留点は、一意な最大点である。
$n$ を正の整数とする。
$I\subseteq\mathbb R$ を区間とし、$f_1,f_2,\ldots,f_n:I\to\mathbb R$ を凹関数とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_n\ge0$ とする。
関数 $f:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$
f(x):=\sum_{i=1}^{n}\lambda_i f_i(x)
$$
で定める。このとき、$f$ は $I$ 上の凹関数である。
任意に $x,y\in I$ と $t\in[0,1]$ を取る。$I$ は区間であり、$x,y\in I$ であるから、
$$
tx+(1-t)y\in I
$$
である(補足を参照)。
各 $f_i$ は $I$ 上の凹関数であるから、任意の $i=1,\ldots,n$ に対して、
$$
f_i(tx+(1-t)y)
\ge
t f_i(x)+(1-t)f_i(y)
$$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、両辺に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、
$$
\lambda_i f_i(tx+(1-t)y)
\ge
\lambda_i\{t f_i(x)+(1-t)f_i(y)\}
$$
が成り立つ。
これを $i=1,\ldots,n$ について足し合わせると、
$$
\sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y)
\ge
\sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\}
$$
を得る。
右辺を整理すると、
$$
\begin{align}
\sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\}
&=
\sum_{i=1}^{n}\{\lambda_i t f_i(x)+\lambda_i(1-t)f_i(y)\}
\qquad
\because \text{分配法則}
\\
&=
\sum_{i=1}^{n}\{t\lambda_i f_i(x)+(1-t)\lambda_i f_i(y)\}
\qquad
\because \text{実数の積は交換可能}
\\
&=
\sum_{i=1}^{n}t\lambda_i f_i(x)
+
\sum_{i=1}^{n}(1-t)\lambda_i f_i(y)
\qquad
\because \text{有限和は和に分けられる}
\\
&=
t\sum_{i=1}^{n}\lambda_i f_i(x)
+
(1-t)\sum_{i=1}^{n}\lambda_i f_i(y)
\qquad
\because t\text{ と }1-t\text{ は }i\text{ に依存しない定数である}
\\
&=
t f(x)+(1-t)f(y)
\qquad
\because f(x):=\sum_{i=1}^{n}\lambda_i f_i(x),\quad
f(y):=\sum_{i=1}^{n}\lambda_i f_i(y)
\end{align}
$$
である。
また、$f$ の定義より、
$$
f(tx+(1-t)y)
=
\sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y)
$$
である。
したがって、
$$
f(tx+(1-t)y)
\ge
t f(x)+(1-t)f(y)
$$
が成り立つ。よって、$f$ は $I$ 上の凹関数である。
$$ \Box$$
上の証明で重要なのは、各係数が
$$
\lambda_i\ge0
$$
を満たすことである。
なぜなら、不等式の両辺に $\lambda_i$ をかけるとき、$\lambda_i\ge0$ であれば不等号の向きは変わらないからである。
一方、負の係数が含まれる場合、凹関数の線形結合が凹関数になるとは限らない。
例えば、$f_1:\mathbb R\to\mathbb R$ を
$$
f_1(x)=-x^2
$$
で定めると、$f_1$ は $\mathbb R$ 上の凹関数である。しかし、係数 $\lambda_1=-1$ を取ると、
$$
\lambda_1 f_1(x)=x^2
$$
となる。
この関数は $\mathbb R$ 上の凹関数ではない。例えば、$x=-1,\ y=1,\ t=\frac{1}{2}$ とすると、
$$
tx+(1-t)y=0
$$
であるが、
$$
0^2=0
$$
であり、一方で
$$
t(-1)^2+(1-t)1^2
=
\frac{1}{2}\cdot1+\frac{1}{2}\cdot1
=
1
$$
である。したがって、凹性に必要な不等式
$$
f(tx+(1-t)y)\ge t f(x)+(1-t)f(y)
$$
は、
$$
0\ge1
$$
となり成り立たない。
よって、$x^2$ は $\mathbb R$ 上の凹関数ではない。
このように、一般に、凹関数の線形結合が凹関数であることを保証するためには、係数が非負であるという条件が本質的である。
任意に $x,y\in I$ と $t\in[0,1]$ を取る。
$$
z:=tx+(1-t)y
$$
とおく。
$z$ が $I$ に属することを確認する。
-以上より、いずれの場合も
$$
z=tx+(1-t)y\in I
$$
である。