文献あり

『機械学習のための連続最適化』補題2.10の証明

382

はじめに

『機械学習のための連続最適化』 p.30には補題 2.10として以下の補題が記述されている。

$S \subset R^{n}$ を任意の集合とし、 $c \in R^{n}$ , $a \in R$ とすると
$\inf {c^{⊤} x + a ∣ x \in S} = \inf {c^{⊤} x + a ∣ x \in conv (S)}$
が成り立つ。

ここで $conv (S)$ は集合 $S$ の凸包を表し、 $\inf$ は集合の下限を表す。1次関数の最適値は凸包で探しても変わらないことを主張している。しかしながら、同書では本補題の証明が省略されていたため、それを補ってみようというのが本記事の主旨である。できるだけself-containedとするため、冗長さを厭わずに説明を書く方針である。

前提知識

凸集合について

まずは凸集合を定義する。

凸集合

空でない集合 $S \subset R^{n}$ において、以下が成り立つとき、 $S$ を凸集合とよぶ。
$(1 - α) x + α y \in S ただし \forall x \in S, \forall y \in S, \forall α \in [0, 1]$

要するに２点を結ぶ線分が「すっかり $S$ に含まれる」ということである。続いて凸集合の共通部分に関する補題を述べる。

凸集合の共通部分はまた凸集合

$S$ , $T$ を凸集合とすると、その共通部分 $S \cap T$ も凸集合である。

$x, y \in S \cap T$ を任意にとり、 $α \in [0, 1]$ を任意にとる。示すべきは
$(1 - α) x + α y \in S \cap T$
である。
$x, y \in S$ であるから、 $S$ は凸集合という仮定より $(1 - α) x + α y \in S$ となる。また $x, y \in T$ であるから、 $T$ は凸集合という仮定より $(1 - α) x + α y \in T$ となる。
したがって
$(1 - α) x + α y \in S \cap T$
が言えて、補題が示された。

任意個数の凸集合の共通部分について同様のことが成り立つ。

任意個の凸集合の共通部分はまた凸集合

$Λ$ を有限濃度の添字集合とし、凸集合の族を
${S_{λ} | S_{λ} は凸集合, λ \in Λ}$
とする。このとき各凸集合の共通部分
$⋂_{λ \in Λ} S_{λ} = {x \in S_{λ}, \forall λ \in Λ}$
も凸集合である。

補題1を繰り返し用いると、3つの凸集合についてその共通部分が凸集合であることがいえる。つまり $R$ , $S$ , $T$ をそれぞれ凸集合とすれば $R \cap S$ が凸集合であり、 $(R \cap S) \cap T$ が凸集合であることが補題1からいえる。以降、4つの凸集合の共通部分、5つの凸集合の共通部分、のように同様の手続きを $Λ$ の要素数（＝濃度）まで繰り返せば補題が示される。

数学的帰納法を用いれば以下も成り立つ。

任意個の凸集合の共通部分はまた凸集合

$Λ$ を可算濃度の添字集合とし、凸集合の族を
${S_{λ} | S_{λ} は凸集合, λ \in Λ}$
とする。このとき各凸集合の共通部分
$⋂_{λ \in Λ} S_{λ} = {x \in S_{λ}, \forall λ \in Λ}$
も凸集合である。

添字集合が非可算無限のときも同様の補題が成り立つ。

$Λ$ を非可算濃度の添字集合とし、凸集合の族を
${S_{λ} | S_{λ} は凸集合, λ \in Λ}$
とする。このとき各凸集合の共通部分
$⋂_{λ \in Λ} S_{λ} = {x \in S_{λ}, \forall λ \in Λ}$
も凸集合である。

ただし選択公理は仮定している。

$x, y \in ⋂_{λ \in Λ} S_{λ}$ を任意にとり、 $α \in [0, 1]$ を任意にとる。各 $λ$ について、 $x, y \in S_{λ}$ であるから、 $S_{λ}$ は凸集合という仮定より $(1 - α) x + α y \in S_{λ}$ となる。したがって
$(1 - α) x + α y \in ⋂_{λ \in Λ} S_{λ}$
が言えて、補題が示された。

凸包について

凸集合を用いて、凸包を定義することができる。

凸包

空でない集合 $S \subset R^{n}$ について、 $S$ を含む最小の凸集合を凸包とよぶ。

本記事では $S$ の凸包を $conv (S)$ と書く。凸包の最小性を明示的に書くと以下を得る。

凸包

空でない集合 $S \subset R^{n}$ について、 $S$ を含む全ての凸集合の族を $C$ とし、その添字集合を $Λ$ とする。すなわち
$C = {T_{λ} ∣ T_{λ} は S を含む凸集合, λ \in Λ}$
凸包は $C$ に属する各凸集合 $T_{λ}$ ( $λ \in Λ$ ) の共通部分として
$conv (S) = ⋂_{λ \in Λ} T_{λ}$
と書くことができる。

$C$ に属する各集合は $S$ を含むから、右辺もまた $S$ を含む。補題1から4により、右辺もまた凸集合である。したがって凸包の最小性により
$conv (S) \subset ⋂_{λ \in Λ} T_{λ}$
が成り立つ。一方、凸包もまた $S$ を含む凸集合であるから $conv (S) \in C$ である。つまりある $λ^{'} \in Λ$ が存在して $conv (S) = T_{λ^{'}}$ である。ゆえに、
$⋂_{λ \in Λ} T_{λ} \subset conv (S)$
が成り立つ。よって補題は示された。

凸集合の定義に現れた「二点を結ぶ線分」を複数点に一般化することで、凸結合が定義される。

凸結合

$K (> 0)$ 個の実数 $α_{1}, α_{2}, \dots, α_{K}$ を $\sum_{i = 1}^{K} α_{i} = 1$ を満たすようにとる。ただし $α_{1} \geq 0, α_{2} \geq 0, \dots, α_{K} \geq 0$ である。対応して $x_{1}, x_{2}, \dots, x_{K} \in R^{n}$ とする。このとき、次式で定義される $x \in R^{n}$ を $x_{1}, x_{2}, \dots, x_{K}$ の凸結合という。

$x = α_{1} x_{1} + α_{2} x_{2} + \dots + α_{K} x_{K}$

$K = 2$ の場合が上で述べた「二点を結ぶ線分」であり、 $K = 3$ の場合が「三角形の周および内部」である。

さて凸包は凸結合を用いて書くこともできる。補題2.10を示すときのカギとなる定理である。

凸結合による凸包の表現

空でない集合 $S \subset R^{n}$ をとる。 $S$ の凸包 $conv (S)$ は $S$ に属する有限個の点の凸結合全体の集合に等しい。すなわち、
$conv (S) = ⋃_{K \in N} ⋃_{\forall (x_{1}, x_{2}, \dots, x_{K}) \in S^{K}} {α_{1} x_{1} + α_{2} x_{2} + \dots + α_{K} x_{K} | \sum_{i = 1}^{K} α_{i} = 1, α_{i} \geq 0}$

右辺は $S$ から取ってくる点の個数を $K = 1, 2, 3, \dots$ としたときの各凸結合から和集合をつくる、という意味である。また $S^{K}$ は $S$ の直積集合であり、「 $S$ から点を（一斉に） $K$ 個選びだすこと」は $S^{K}$ から1点を選び出すことに等しい。本定理は『機械学習のための連続最適化』においては補題2.6として紹介されていたが、あいにく証明は省略されている。よってここで証明をつける。

定理の右辺で表される集合を $R$ とする。 $conv (S) = R$ を示したい。

(i) $conv (S) \subset R$ について：
$S \subset R$ は明らかである（ $K = 1$ ）。 $R$ が凸集合であることを示せば、 $conv (S)$ の最小性により $conv (S) \subset R$ が言える。以下はその証明である。

$x,$ $y$ をそれぞれ $R$ の元とし， $λ \in [0, 1]$ とする。 $(1 - λ) x + λ y \in R$ を示したい。
まず $x = \sum_{i = 1}^{M} α_{i} x_{i}$ と $y = \sum_{j = 1}^{N} β_{j} y_{j}$ としてそれぞれの凸結合の表現を得る。各 $α_{i}, β_{j}, x_{i}, y_{j}$ は $R$ の制約に従う。すると
$(1 - λ) x + λ y = \sum_{l = 1}^{L} γ_{l} z_{l}$
のように書ける。ただし $L = M + N$ であり、
${γ_{1}, γ_{2},, \dots, γ_{L}} = {(1 - λ) α_{1}, (1 - λ) α_{2},, \dots, (1 - λ) α_{M}, λ β_{1}, λ β_{2},, \dots, λ β_{N}}$
である。各 $z_{l}$ は $x_{i}$ か $y_{j}$ のいずれかであり $z_{l} \in S$ である。また各 $γ_{l} \geq 0$ であることも明らかである。さらに
$\sum_{l = 1}^{L} γ_{l} = (1 - λ) \sum_{i = 1}^{M} α_{i} + λ \sum_{j = 1}^{N} β_{j} = (1 - λ) \cdot 1 + λ \cdot 1 = 1$
をも満たしている。よって $\sum_{l = 1}^{L} γ_{l} z_{l}$ は凸結合であり、 $(1 - λ) x + λ y$ は $R$ の元であることがわかった。

(ii) $R \subset conv (S)$ について：
$K$ についての数学的帰納法により示す。

$K = 1$ のとき
任意の $x \in S$ がまた $x \in conv (S)$ を満たすことは明らかである。
$K = N$ のとき成り立つと仮定する。
すなわち、任意の $x_{1}, x_{2}, \dots, x_{N} \in S$ について、その凸結合が $conv (S)$ に属すると仮定する。このとき任意の $N + 1$ 個の点 $x_{1}, x_{2}, \dots, x_{N}, x_{N + 1} \in S$ の凸結合が $conv (S)$ に属することを示したい。
いま、 $x_{1}, x_{2}, \dots, x_{N}, x_{N + 1}$ の凸結合が
$\sum_{i = 1}^{N + 1} α_{i} x_{i}$
と書けたとする。ただし $α_{i} \geq 0 (i = 1, 2, \dots, N + 1)$ であり $\sum_{i = 1}^{N + 1} α_{i} = 1$ である。もし $α_{N + 1} = 1$ ならば、ほかの $α_{i}$ は $0$ になってしまうが、 $1 \cdot x_{N + 1} = x_{N + 1} \in S$ となるから $K = N + 1$ のときも成り立つ。よって以降は $0 \leq α_{N + 1} < 1$ と仮定する。
上記の凸結合の式を変形すると
$\begin{array}{rcl} \sum_{i = 1}^{N + 1} α_{i} x_{i} & = & \sum_{i = 1}^{N} α_{i} x_{i} + α_{N + 1} x_{N + 1} \\ = & (1 - α_{N + 1}) \sum_{i = 1}^{N} \frac{α_{i}}{1 - α_{N + 1}} x_{i} + α_{N + 1} x_{N + 1} \end{array}$
を得る。 $\sum_{i = 1}^{N + 1} α_{i} = 1$ であるから $\sum_{i = 1}^{N} α_{i} = 1 - α_{N + 1}$ であり、両辺を $1 - α_{N + 1} > 0$ で割ると
$\sum_{i = 1}^{N} \frac{α_{i}}{1 - α_{N + 1}} = 1$
である。また $\frac{α_{i}}{1 - α_{N + 1}} \geq 0$ は仮定より明らかである。ゆえに
$\sum_{i = 1}^{N} \frac{α_{i}}{1 - α_{N + 1}} x_{i}$
は凸結合であり、帰納法の仮定から $conv (S)$ に属する。よって
$(1 - α_{N + 1}) \sum_{i = 1}^{N} \frac{α_{i}}{1 - α_{N + 1}} x_{i} + α_{N + 1} x_{N + 1}$
は二つの $conv (S)$ の点に関する凸結合であり、 $conv (S)$ に属することがいえる。なぜならば $K = 1$ のとき $x_{N + 1}$ は $conv (S)$ の点であり、 $conv (S)$ はその定義により凸集合である（ $∵$ $K = 2$ のときの凸結合は凸集合の定義そのもの）。

以上により、任意の $K \in N$ と任意の $x_{1}, x_{2}, \dots, x_{K} \in S$ について、その凸結合が $conv (S)$ に含まれることが示された。(i)と(ii)により $conv (S) = R$ がいえて、証明が終わる。

補題2.10の証明

以上の長い前置きを経て、ようやく本記事の目的である補題2.10の証明に入ることができる（メインパートなので定理扱い）。

『機械学習のための連続最適化』補題2.10

$S \subset R^{n}$ を任意の集合とし、 $c \in R^{n}$ , $a \in R$ とすると
$\inf {c^{⊤} x + a ∣ x \in S} = \inf {c^{⊤} x + a ∣ x \in conv (S)}$
が成り立つ。

左辺を $α$ 、右辺を $β$ と置く。 $α \leq β$ かつ $α \geq β$ をそれぞれ示すことで $α = β$ を証明する方針を取ることにする。

(i) $α \leq β$ ：
$β$ に関する下限の定義により、任意の実数 $ϵ > 0$ に対してある $x \in conv (S)$ が存在し、
$c^{⊤} x + a < β + ϵ$
が成り立つ。このとき補題6により、ある $K \in N$ と $\sum_{i = 1}^{K} γ_{i} = 1$ を満たす実数 $γ_{i} \geq 0$ （ $i = 1, 2, \dots, K$ ）が存在して
$x = \sum_{i = 1}^{K} γ_{i} x_{i},$
と書けるから、
$\sum_{i = 1}^{K} γ_{i} (c^{⊤} x_{i} + a) < β + ϵ$
が成り立つ。左辺の各 $c^{⊤} x_{i} + a$ の下限が $α$ であるから
$α < β + ϵ$
である（ $∵$ $\sum_{i = 1}^{K} γ_{i} = 1$ ）。さて $ϵ$ は任意だったから、特に $n$ を自然数として右辺を $b_{n} = β + 1 / n$ と置いてみる。すると $b_{n}$ は単調減少数列で下に有界だからある極限値に収束するが、これが $β$ に他ならない。 $α$ は ${b_{n}}$ に対する１つの下界であり、 $β$ は最大下界の意味で $α \leq β$ が成り立つ。

(ii) $β \leq α$ ：
$α$ に関する下限の定義より、任意の実数 $ϵ > 0$ に対してある $x \in S$ が存在し、
$c^{⊤} x + a < α + ϵ$
が成り立つ。凸包の定義より $x \in conv (S)$ であり、左辺の下限が $β$ であるから
$β < α + ϵ$
である。あとは(i)の最後と同じ論法で $β \leq α$ が示されるわけだが、背理法で示すこともできる。仮に $β > α$ として $ϵ = (β - α) / 2$ としてみる。すると $β < α + ϵ = (β + α) / 2 < β$ となり、矛盾するのである。

以上、(i)と(ii)により、補題2.10が示された。

おわりに

本記事では『機械学習のための連続最適化』補題2.10に証明をつけることを目的として、凸集合や凸結合の定義や補題をいくつか紹介した。それらの補題をもとにして一応の証明をつけることができ、当初の目的は達成されたと考えている。

肝心の「補題2.10」が、このあと補題としてどのように用いられるかについては、場所を改めて説明する機会を持ちたい（先延ばし！）。

参考文献

[1]

金森敬文、鈴木大慈、竹内一郎、佐藤一誠, 機械学習のための連続最適化, 機械学習プロフェッショナルシリーズ, 講談社, 2016

[2]

福島雅夫, 非線形最適化の理論, 講座・数理計画法, 産業図書, 1980

投稿日：2021年2月22日

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

ballforest

4735

他の人のコメント

コメントはありません。

読み込み中

ballforest

『機械学習のための連続最適化』補題2.10の証明

はじめに
前提知識
凸集合について
凸包について
補題2.10の証明
おわりに
参考文献

『機械学習のための連続最適化』 補題2.10の証明

はじめに

前提知識

凸集合について

凸包について

補題2.10の証明

おわりに

参考文献

この記事を高評価した人

この記事に送られたバッジ

投稿者

コメント

他の人のコメント

『機械学習のための連続最適化』補題2.10の証明