機械学習に関する数理1

バックプロパゲーションを理解しよう

んちゃ！
今回は機械学習の入門的記事としてバックプロパゲーションについて書いていくのだ。
ちなみに、いつも通り厳密性より分かるを重視しているので、「どんなものでも厳密でなければならぬ！」と考えている方はブラウザバック推奨なのだ。

ニューラルネットワークの構成

層(layer)

層とは次のようなものなのだ。入力 $x \in R^{m}$ 、重み $W \in R^{m} \times R^{n}$ 、バイアス $b \in R^{n}$ 、非線形関数列 $f = {f_{i}}_{i = 1, 2, . . ., n}$ 、出力 $y \in R^{n}$ とするとき、次の様な処理を行うものの事なのだ。
$y = f (x W + b)$
ただし、 $f (*)$ とは成分で書くと次の様に定義されているのだ。
$y_{i} = f_{i} (\sum_{j}^{m} x_{j} W_{j i} + b_{i})$
ちなみに、以下重み $W$ 、バイアス $b$ 、非線形関数列 $f$ の層を $L (W, b, f)$ の様に書くことにするのだ。

NeuralNetwork

NewuralNetworkとは、層 $L_{i} (W_{i}, b_{i}, f_{i}) (i = 1, 2, . . ., N)$ を接続して処理を行ったものなのだ。

バックプロパゲーション

高次のテーラー展開

ベクトル場 $f : R^{m} \to R^{n}$ の $x \in R^{m}$ でのTaylor展開は次の様に書けるのだ。
$f (x + ϵ) = \sum_{k = 0}^{\infty} \frac{(ϵ \cdot \nabla)^{k}}{k!} f (x)$

$\begin{array}{rcl} f_{i} (x + ϵ t) & = & g (t) \\ = & \sum_{k = 0}^{\infty} \frac{1}{k!} \frac{d^{k}}{d x^{k}} g (0) \\ = & \sum_{k = 0}^{\infty} \frac{(ϵ t \cdot \nabla)^{k}}{k!} f_{i} (x) \end{array}$

勾配降下法

パラメータ $a = (a_{1}, a_{2}, . . ., a_{N})$ を持つスカラー関数 $f (a_{1}, a_{2}, . . ., a_{N}) : R^{n} ∋ x \to f (a_{1}, a_{2}, . . ., a_{N}; x) \in R$ を極小にするパラメータは次のような方法を続ける事で近似できるのだ。
$a \to a - λ \nabla_{a} f (a, x) (λ \in R_{+} かつ λ は十分小ならしめる正数)$

$ϵ_{a} \in R^{N}$ を考えると
$f (a - λ \nabla_{a} f (a, x), x) ≃ f (a, x) - λ | | \nabla_{a} f (a, x) | |^{2}$
と書けるので、 $| | λ \nabla_{a} f (a, x) | |^{2} \geq 0$ なので、かならず負の値になるからなのだ。

チェインルール

実数 $x \in R$ から実ベクトル $v (x) = (F_{1} (x), F_{2} (x), . . ., F_{n} (x)) \in R^{n}$ への関数と、目的関数 $E : R^{n} \to R$ を考えるのだ。この時、 $\frac{d E}{d x}$ は次の様に書けるのだ。
$\frac{d E}{d x} = \sum_{k = 1}^{n} \frac{d F_{k}}{d x} \frac{\partial E}{\partial F_{k}}$

$\begin{array}{rcl} \frac{d E}{d x} & = & lim_{Δ x \to 0} \frac{1}{Δ x} [E (F_{1} (x + Δ x), F_{2} (x + Δ x), . . ., F_{n} (x + Δ x)) - E (F_{1} (x), F_{2} (x + Δ x), . . ., F_{n (x + Δ x)}) \\ + & E (F_{1} (x), F_{2} (x + Δ x), . . ., F_{n} (x + Δ x)) - E (F_{1} (x), F_{2} (x), . . ., F_{n} (x + Δ x)) \\ + & \dots \\ + & E (F_{1} (x), F_{2} (x), . . ., F_{n} (x + Δ x)) - E (F_{1} (x), F_{2} (x), . . ., F_{n} (x))] \\ = & \sum_{k = 1}^{n} \frac{d F_{k}}{d x} \frac{\partial E}{\partial F_{k}} \end{array}$

自己微分と目的微分

先の微分で $\frac{d F_{k}}{d x} (k = 1, 2, . . ., n)$ を自己微分列、 $\frac{\partial E}{\partial F_{k}} (k = 1, 2, . . ., n)$ を目的微分列と呼ぶことにするのだ。
＊自己微分列、目的微分列なる様な用語は一般的に使われていないので注意。この記事の中だけで通じる用語です。目的微分は誤差関数を入力xで微分したもの。勾配降下法ではこの微分したものが最も重要なことが分かるだろうなのだ。