大学数学基礎解説

【初歩】凸関数についてもう少しやっておく

統計,確率,データサイエンス

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

記事の追記について

$3$ 日前に投稿した記事「【最適化】凸関数と凸不等式についてのメモ」に、以下の $3$ 点を追記した。

狭義凸関数の定義を注記として追加した。
狭義凸関数の場合には、第 $2$ 導関数の符号による判定が凸関数の場合と完全には同じ形にならないことを補足した。
特に、第 $2$ 導関数が正であれば狭義凸性を導けるが、狭義凸関数であることから常に第 $2$ 導関数が正であるとは限らないことを注記した。
イェンセンの不等式について、等号成立条件に関する注記を $2$ つ追加した。
具体的には、一般の凸関数の場合と狭義凸関数の場合で、等号成立条件の扱いが異なることを補足した。

Prop&Proof.

微分可能な凸関数の接線による特徴付け

$I\subseteq\mathbb R$ を開区間とし、$f:I\to\mathbb R$ を微分可能な関数とする。
このとき、$f$ が $I$ 上の凸関数であることと、任意の $x,y\in I$ に対して
$$ f(y)\ge f(x)+f'(x)(y-x) $$
が成り立つことは同値である。

$f$ が $I$ 上の凸関数であると仮定する。
任意に $x,y\in I$ を取る。
i) $x=y$ の場合を考える。
　このとき、左辺については
$$ f(y)=f(x) $$
　であり、右辺については $f'(x)(y-x)=0$ であるから
$$ f(x)+f'(x)(y-x) = f(x)+f'(x)(x-x) = f(x) $$
　である。したがって、
$$ f(y)=f(x)+f'(x)(y-x) $$
　が成り立つ。
$ $
ii) $x< y$ の場合を考える。
　 $0< t<1$ とする。このとき、
$$ x+t(y-x)=(1-t)x+ty $$
　である。ここで、$I$ は区間であり、$x,y\in I$ である。
　また、$x< y$ かつ $0< t<1$ より、
$$ x< x+t(y-x)< y $$
　が成り立つ。したがって、$x+t(y-x)$ は $x$ と $y$ の間の点である。
　ゆえに
$$ x+t(y-x)\in I $$
　である。そこで、$f$ が $I$ 上の凸関数であるから、凸関数の定義より
$$ f(x+t(y-x)) = f((1-t)x+ty) \le (1-t)f(x)+tf(y) $$
　が成り立つ。
　両辺から $f(x)$ を引くと、
$$ \begin{align} f(x+t(y-x))-f(x) &\le (1-t)f(x)+tf(y)-f(x) \\ &= -tf(x)+tf(y) \\ &= t(f(y)-f(x)) \end{align} $$
　である。ここで、$x< y$ かつ $0< t<1$ より、
$$ t(y-x)>0 $$
　である。したがって、両辺を $t(y-x)$ で割ると、
$$ \frac{f(x+t(y-x))-f(x)}{t(y-x)} \le \frac{f(y)-f(x)}{y-x} $$
　を得る。ここで、
$$ u:=t(y-x) $$
　とおくと、
$$ \frac{f(x+u)-f(x)}{u} \le \frac{f(y)-f(x)}{y-x} $$
　である。右辺は $u$ に依存しない定数であり、
　また左辺については、仮定より $f$ は $x$ で微分可能であるから、
$$ \lim_{u\to0} \frac{f(x+u)-f(x)}{u} $$
　が存在する。したがって、対応する片側極限も存在する(補足を参照)。
$ $
　したがって、$t\downarrow0$ として不等式の極限を取ることができる。
　そこで、$t\downarrow0$ のとき $u\downarrow0$ であり、
$$ x+t(y-x)=x+u $$
　である。よって、$t\downarrow0$ とすると、
$$ \lim_{u\downarrow0} \frac{f(x+u)-f(x)}{u} \le \frac{f(y)-f(x)}{y-x} $$
　を得る。
　 $f$ は $x$ で微分可能であるから、定義より右微分係数は通常の微分係数に一致する(補足を参照)。
　したがって、
$$ f'(x)\le \frac{f(y)-f(x)}{y-x} $$
　である。$y-x>0$ であるから、両辺に $y-x$ をかけて、
$$ f'(x)(y-x)\le f(y)-f(x) $$
　を得る。すなわち、
$$ f(y)\ge f(x)+f'(x)(y-x) $$
　が成り立つ。
$ $
iii) $x>y$ の場合を考える。
　 $0< t<1$ とする。このとき、
$$ x+t(y-x)=(1-t)x+ty $$
　である。ここで、$I$ は区間であり、$x,y\in I$ である。
　また、$x>y$ かつ $0< t<1$ より、
$$ y< x+t(y-x)< x $$
　が成り立つ。したがって、$x+t(y-x)$ は $x$ と $y$ の間の点である。
　ゆえに
$$ x+t(y-x)\in I $$
　である。そこで、$f$ が $I$ 上の凸関数であるから、凸関数の定義より
$$ f(x+t(y-x)) = f((1-t)x+ty) \le (1-t)f(x)+tf(y) $$
　が成り立つ。
　両辺から $f(x)$ を引くと、
$$ f(x+t(y-x))-f(x) \le t(f(y)-f(x)) $$
　である。
　ここで、$x>y$ かつ $0< t<1$ より、
$$ t(y-x)<0 $$
　である。したがって、両辺を $t(y-x)$ で割ると、不等号の向きが逆になり、
$$ \frac{f(x+t(y-x))-f(x)}{t(y-x)} \ge \frac{f(y)-f(x)}{y-x} $$
　を得る。ここで、
$$ u:=t(y-x) $$
　とおくと、
$$ \frac{f(x+u)-f(x)}{u} \ge \frac{f(y)-f(x)}{y-x} $$
　である。右辺は $u$ に依存しない定数であり、
　また左辺については、仮定より $f$ は $x$ で微分可能であるから、
$$ \lim_{u\to0} \frac{f(x+u)-f(x)}{u} $$
　が存在する。したがって、対応する片側極限も存在する(補足を参照)。
$ $
　したがって、$t\downarrow0$ として不等式の極限を取ることができる。
　ゆえに $t\downarrow0$ のとき $u\uparrow0$ であり、
$$ x+t(y-x)=x+u $$
　である。よって、$t\downarrow0$ とすると、
$$ \lim_{u\uparrow0} \frac{f(x+u)-f(x)}{u} \ge \frac{f(y)-f(x)}{y-x} $$
　を得る。
　 $f$ は $x$ で微分可能であるから、左微分係数は通常の微分係数に一致する(補足を参照)。
　したがって、
$$ f'(x)\ge \frac{f(y)-f(x)}{y-x} $$
　である。
　ここで、$y-x<0$ であるから、両辺に $y-x$ をかけると不等号の向きが逆になり、
$$ f'(x)(y-x)\le f(y)-f(x) $$
　を得る。すなわち、
$$ f(y)\ge f(x)+f'(x)(y-x) $$
　が成り立つ。
$ $
以上より、任意の $x,y\in I$ に対して、
$$ f(y)\ge f(x)+f'(x)(y-x) $$
が成り立つ。
$ $
逆に、任意の $x,y\in I$ に対して
$$ f(y)\ge f(x)+f'(x)(y-x) $$
が成り立つと仮定する。ここから、$f$ が $I$ 上の凸関数であることを示す。
任意に $x,y\in I$ と $\theta\in[0,1]$ を取る。
$$ z:=(1-\theta)x+\theta y $$
とおく。$I$ は区間であり、$x,y\in I$ であるから、
$$ z\in I $$
である(補足を参照)。
i) 仮定を $z$ と $x$ に適用すると、
$$ f(x)\ge f(z)+f'(z)(x-z) $$
　が成り立つ。
ii) また、仮定を $z$ と $y$ に適用すると、
$$ f(y)\ge f(z)+f'(z)(y-z) $$
　が成り立つ。
第 $1$ の不等式の両辺に $1-\theta$ をかけ、第 $2$ の不等式の両辺に $\theta$ をかける。
ここで、$1-\theta\ge0$ かつ $\theta\ge0$ であるから、不等号の向きは変わらない。
したがって、
$$ (1-\theta)f(x) \ge (1-\theta)f(z)+(1-\theta)f'(z)(x-z) $$
であり、
$$ \theta f(y) \ge \theta f(z)+\theta f'(z)(y-z) $$
である。これらを足し合わせると、
$$ \begin{align} (1-\theta)f(x)+\theta f(y) &\ge (1-\theta)f(z)+\theta f(z) \\ &\quad +f'(z)\{(1-\theta)(x-z)+\theta(y-z)\} \\ &= f(z)+f'(z)\{(1-\theta)(x-z)+\theta(y-z)\} \end{align} $$
である。ここで、
$$ \begin{align} (1-\theta)(x-z)+\theta(y-z) &= (1-\theta)x+\theta y-((1-\theta)+\theta)z \\ &= (1-\theta)x+\theta y-z \\ &= z-z \\ &= 0 \end{align} $$
である。したがって、
$$ (1-\theta)f(x)+\theta f(y)\ge f(z) $$
である。すなわち、$z:=(1-\theta)x+\theta y$ であるから
$$ f((1-\theta)x+\theta y) \le (1-\theta)f(x)+\theta f(y) $$
が成り立つ。よって、$f$ は $I$ 上の凸関数である。
$ $

-以上より、$f$ が $I$ 上の凸関数であることと、任意の $x,y\in I$ に対して
$$ f(y)\ge f(x)+f'(x)(y-x) $$
が成り立つことは同値である。
$$ \Box$$

微分可能性の復習

$I\subseteq\mathbb R$ を開区間とし、$f:I\to\mathbb R$ を関数とする。
$x\in I$ において $f$ が微分可能であるとは、$h\ne0$ かつ $x+h\in I$ を満たす $h$ について、極限
$$ \lim_{h\to0} \frac{f(x+h)-f(x)}{h} $$
が実数として存在することをいう。この極限値を $f'(x)$ と書き、$x$ における $f$ の微分係数という。
すなわち、
$$ f'(x) := \lim_{h\to0} \frac{f(x+h)-f(x)}{h} $$
である。
$ $
ここで、$h\to0$ は $h>0$ から $0$ に近づく場合と、$h<0$ から $0$ に近づく場合の両方を含む。

したがって、$f$ が $x$ で微分可能であるならば、右側からの極限
$$ \lim_{h\downarrow0} \frac{f(x+h)-f(x)}{h} $$
も存在し、
$$ \lim_{h\downarrow0} \frac{f(x+h)-f(x)}{h} = f'(x) $$
が成り立つ。
$ $
同様に、左側からの極限
$$ \lim_{h\uparrow0} \frac{f(x+h)-f(x)}{h} $$
も存在し、
$$ \lim_{h\uparrow0} \frac{f(x+h)-f(x)}{h} = f'(x) $$
が成り立つ。

-したがって、証明中で
$$ \lim_{u\downarrow0} \frac{f(x+u)-f(x)}{u} $$
が現れたとき、$f$ が $x$ で微分可能であれば、この右側からの極限は通常の微分係数 $f'(x)$ に一致する。
同様に左側からの極限もまた、微分係数 $f'(x)$ に一致する。

$z=(1-\theta)x+\theta y$ が $I$ に属すること

任意に $x,y\in I$ と $\theta\in[0,1]$ を取る。
$$ z:=(1-\theta)x+\theta y $$
とおく。

まず、$x\le y$ の場合を考える。
このとき、$\theta\in[0,1]$ より、
$$ 0\le \theta\le1 $$
である。したがって、$y-x\ge0$ であるから、
$$ 0\le \theta(y-x)\le y-x $$
である。両辺に $x$ を加えると、
$$ x\le x+\theta(y-x)\le y $$
を得る。ここで、
$$ \begin{align} x+\theta(y-x) &= x+\theta y-\theta x \\ &= (1-\theta)x+\theta y \\ &= z \end{align} $$
であるから、
$$ x\le z\le y $$
である。$I$ は区間であり、$x,y\in I$ であるから、$x$ と $y$ の間にある点も $I$ に属する。
したがって、
$$ z\in I $$
である。
$ $
次に、$y\le x$ の場合を考える。
このとき、$\theta\in[0,1]$ より、
$$ 0\le \theta\le1 $$
である。したがって、$x-y\ge0$ であるから、
$$ 0\le (1-\theta)(x-y)\le x-y $$
である。両辺に $y$ を加えると、
$$ y\le y+(1-\theta)(x-y)\le x $$
を得る。ここで、
$$ \begin{align} y+(1-\theta)(x-y) &= y+(1-\theta)x-(1-\theta)y \\ &= (1-\theta)x+\theta y \\ &= z \end{align} $$
であるから、
$$ y\le z\le x $$
である。$I$ は区間であり、$x,y\in I$ であるから、$y$ と $x$ の間にある点も $I$ に属する。
したがって、
$$ z\in I $$
である。
$ $

-以上より、いずれの場合も
$$ z=(1-\theta)x+\theta y\in I $$
である。

狭義凸関数の停留点が一意な最小点になる理由

$g:\mathbb R\to\mathbb R$ を微分可能な狭義凸関数とする。
$a\in\mathbb R$ が $g$ の停留点であるとは、
$$ g'(a)=0 $$
が成り立つことをいう。このとき、$a$ は $g$ の一意な最小点である。
理由は次の通りである。

まず、微分可能な凸関数は、任意の $x,a\in\mathbb R$ に対して
$$ g(x)\ge g(a)+g'(a)(x-a) $$
を満たす(今示した命題)。
これは、凸関数のグラフが各点における接線の上側にあることを表している。
いま、$a$ は停留点であるから、
$$ g'(a)=0 $$
である。
したがって、任意の $x\in\mathbb R$ に対して、
$$ \begin{align} g(x) &\ge g(a)+g'(a)(x-a)\\ &=g(a)+0\cdot(x-a)\\ &=g(a) \end{align} $$
が成り立つ。
よって、任意の $x\in\mathbb R$ に対して
$$ g(x)\ge g(a) $$
であるから、$a$ は $g$ の最小点である。
$ $
次に、一意性を示す。
仮に、$a$ とは異なる最小点 $b\in\mathbb R$ が存在するとする。すなわち、
$$ a\ne b $$
かつ
$$ g(a)=g(b) $$
であり、どちらも最小値を与えるとする。
このとき、$a\ne b$ であるから、
$$ \frac{a+b}{2}\ne a, \qquad \frac{a+b}{2}\ne b $$
である。
また、$g$ は狭義凸関数であるため、
$$ g\left(\frac{a+b}{2}\right) < \frac{1}{2}g(a)+\frac{1}{2}g(b) $$
が成り立つ。
いま、$g(a)=g(b)$ であるから、
$$ \begin{align} \frac{1}{2}g(a)+\frac{1}{2}g(b) &= \frac{1}{2}g(a)+\frac{1}{2}g(a)\\ &= g(a) \end{align} $$
である。
したがって、
$$ g\left(\frac{a+b}{2}\right)< g(a) $$
となる。
しかし、$a$ は最小点であるから、任意の $x\in\mathbb R$ に対して
$$ g(x)\ge g(a) $$
でなければならない。
これは
$$ g\left(\frac{a+b}{2}\right)< g(a) $$
に矛盾する。
よって、$a$ とは異なる最小点 $b$ は存在しない。

-したがって、狭義凸関数の停留点は、一意な最小点である。

非負線形結合は凸性を保つ

$n\in\mathbb N$ とする。
$I\subseteq\mathbb R$ を区間とし、$f_1,f_2,\ldots,f_n:I\to\mathbb R$ を凸関数とする。また、$\lambda_1,\lambda_2,\ldots,\lambda_n\ge0$ とする。
関数 $f:I\to\mathbb R$ を、任意の $x\in I$ に対して
$$ f(x):=\sum_{i=1}^{n}\lambda_i f_i(x) $$
で定める。このとき、$f$ は $I$ 上の凸関数である。

任意に $x,y\in I$ と $t\in[0,1]$ を取る。
$I$ は区間であり、$x,y\in I$ であるから、
$$ tx+(1-t)y\in I $$
である(補足を参照)。各 $f_i$ は $I$ 上の凸関数であるから、任意の $i=1,\ldots,n$ に対して、
$$ f_i(tx+(1-t)y) \le t f_i(x)+(1-t)f_i(y) $$
が成り立つ。
ここで、$\lambda_i\ge0$ であるから、両辺に $\lambda_i$ をかけても不等号の向きは変わらない。したがって、
$$ \lambda_i f_i(tx+(1-t)y) \le \lambda_i\{t f_i(x)+(1-t)f_i(y)\} $$
が成り立つ。
これを $i=1,\ldots,n$ について足し合わせると、
$$ \sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y) \le \sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\} $$
を得る。
右辺を整理すると、
$$ \begin{align} \sum_{i=1}^{n}\lambda_i\{t f_i(x)+(1-t)f_i(y)\} &= \sum_{i=1}^{n}\{\lambda_i t f_i(x)+\lambda_i(1-t)f_i(y)\} \qquad \because \text{分配法則} \\ &= \sum_{i=1}^{n}\{t\lambda_i f_i(x)+(1-t)\lambda_i f_i(y)\} \qquad \because \text{実数の積は交換可能} \\ &= \sum_{i=1}^{n}t\lambda_i f_i(x) + \sum_{i=1}^{n}(1-t)\lambda_i f_i(y) \qquad \because \text{有限和は和に分けられる} \\ &= t\sum_{i=1}^{n}\lambda_i f_i(x) + (1-t)\sum_{i=1}^{n}\lambda_i f_i(y) \qquad \because t\text{ と }1-t\text{ は }i\text{ に依存しない定数である} \\ &= t f(x)+(1-t)f(y) \qquad \because f(x):=\sum_{i=1}^{n}\lambda_i f_i(x),\quad f(y):=\sum_{i=1}^{n}\lambda_i f_i(y) \end{align} $$
である。
また、$f$ の定義より、
$$ f(tx+(1-t)y) = \sum_{i=1}^{n}\lambda_i f_i(tx+(1-t)y) $$
である。
したがって、
$$ f(tx+(1-t)y) \le t f(x)+(1-t)f(y) $$
が成り立つ。よって、$f$ は $I$ 上の凸関数である。
$$ \Box$$

非負係数である必要性

上の証明で重要なのは、各係数が
$$ \lambda_i\ge0 $$
を満たすことである。
なぜなら、不等式の両辺に $\lambda_i$ をかけるとき、$\lambda_i\ge0$ であれば不等号の向きは変わらないからである。
$ $
一方、負の係数が含まれる場合、凸関数の線形結合が凸関数になるとは限らない。
例えば、$f_1:\mathbb R\to\mathbb R$ を
$$ f_1(x)=x^2 $$
で定めると、$f_1$ は $\mathbb R$ 上の凸関数である。しかし、係数 $\lambda_1=-1$ を取ると、
$$ \lambda_1 f_1(x)=-x^2 $$
となる。
この関数は $\mathbb R$ 上の凸関数ではない。例えば、$x=-1,\ y=1,\ t=\frac{1}{2}$ とすると、
$$ t x+(1-t)y=0 $$
であるが、
$$ -0^2=0 $$
であり、一方で
$$ t(-(-1)^2)+(1-t)(-1^2) = \frac{1}{2}(-1)+\frac{1}{2}(-1) = -1 $$
である。したがって、
$$ 0\le -1 $$
は成り立たない。よって、$-x^2$ は $\mathbb R$ 上の凸関数ではない。
このように、一般に、凸関数の線形結合が凸関数であることを保証するためには、係数が非負であるという条件が本質的である。

$z=tx+(1-t)y$ が $I$ に属すること

任意に $x,y\in I$ と $t\in[0,1]$ を取る。
$$ z:=tx+(1-t)y $$
とおく。
$z$ が $I$ に属することを確認する。

まず、$x\le y$ の場合を考える。
このとき、$t\in[0,1]$ より、
$$ 0\le t\le1 $$
である。したがって、
$$ 0\le 1-t\le1 $$
である。
また、$y-x\ge0$ であるから、
$$ 0\le (1-t)(y-x)\le y-x $$
である。両辺に $x$ を加えると、
$$ x\le x+(1-t)(y-x)\le y $$
を得る。
ここで、
$$ \begin{align} x+(1-t)(y-x) &= x+(1-t)y-(1-t)x \\ &= tx+(1-t)y \\ &= z \end{align} $$
であるから、
$$ x\le z\le y $$
である。
$I$ は区間であり、$x,y\in I$ であるから、$x$ と $y$ の間にある点も $I$ に属する。したがって、
$$ z\in I $$
である。
$ $
次に、$y\le x$ の場合を考える。
このとき、$t\in[0,1]$ より、
$$ 0\le t\le1 $$
である。
また、$x-y\ge0$ であるから、
$$ 0\le t(x-y)\le x-y $$
である。両辺に $y$ を加えると、
$$ y\le y+t(x-y)\le x $$
を得る。
ここで、
$$ \begin{align} y+t(x-y) &= y+tx-ty \\ &= tx+(1-t)y \\ &= z \end{align} $$
であるから、
$$ y\le z\le x $$
である。
$I$ は区間であり、$x,y\in I$ であるから、$y$ と $x$ の間にある点も $I$ に属する。したがって、
$$ z\in I $$
である。
$ $

-以上より、いずれの場合も
$$ z=tx+(1-t)y\in I $$
である。

投稿日：9日前

更新日：8日前

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

4742

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

他の人のコメント

コメントはありません。

読み込み中

Kagura

【初歩】凸関数についてもう少しやっておく