$\mathbb{C}$上の$m\times n$行列の集合を$\mathbb{C}^{m\times n}$と書くことにする。ここでは、$m\leq n$の場合を考える。このとき、以下の定理が成立する。
任意の$m\times n$行列$A$についてあるユニタリ行列$U,\,V$と$\sigma_1\geq \cdots\geq\sigma_{m}\geq0$が存在し、
\begin{equation}
\Sigma=\begin{pmatrix}
\sigma_1 & & \\
& \ddots & & O\\
& & \sigma_m &
\end{pmatrix}\tag{1}
\end{equation}
としたときに、
\begin{equation}
A=U\Sigma V\tag{2}
\end{equation}
と一意に表せる。これを特異値分解と呼ぶ
特異値分解は最適化や学習理論などの応用数学で特に活用されている。特異値分解の存在と一意性を証明する手法として代数的な計算によるものが広く知られているが、実は特異値分解の存在については幾何的な証明が存在する。幾何的な証明は直感に訴えるもので、より飲み込みやすく感じるため共有する。なお、一意性についてはこの記事では証明しない。また、一部説明のギャップや感覚的な説明があるが、ご容赦いただきたい。
特異値分解が可能であることを証明するためには、任意の$A\in\mathbb{C}^{m\times n}$についてある自然数$r\leq m$と$\mathbb{C}^m$の正規直交系$\{u_1,\,\dots,\,u_r\}$と$\mathbb{C}^n$の正規直交系$\{v_1,\,\dots,\,v_r\}$、$\sigma_1\geq\cdots\geq\sigma_r>0$が存在して、
\begin{equation}
A=\sum_{i=1}^r\sigma_iu_iv_i^{T}\tag{3}
\end{equation}
と表されることを示せば良い。このように表されるとき、$\{u_1,\,\dots,\,u_m\}$と$\{v_1,\,\dots,\,v_n\}$が$\mathbb{C}^{m}$と$\mathbb{C}^n$の正規直交基底となるように正規直交系を延長し、$\sigma_{r+1}=\cdots=\sigma_{m}=0$となり
\begin{equation}
A=\sum_{i=1}^m\sigma_iu_iv_i^{T}\tag{4}
\end{equation}
である。このとき、
\begin{equation}
A=\begin{pmatrix}u_1&\cdots&u_m\end{pmatrix}\begin{pmatrix}
\sigma_1 & & \\
& \ddots & & O\\
& & \sigma_m &
\end{pmatrix}\begin{pmatrix}v_1^T\\\vdots\\v_n^T\end{pmatrix}\tag{5}
\end{equation}
実際、式(4)と式(5)の右辺に$\sum_{i=1}^nc_iv_i$をかけるとどちらも$\sum_{i=1}^m\sigma_ic_iu_i$を得るので式(4)と式(5)はどのような$\mathbb{C}^n$のベクトルについても同じベクトルを返す同じ行列である。
全ての行列が式(3)のように書くことができることを以下示す。
まず、
\begin{align}
{}&v_1=\mathrm{argmax}_{\|v\|=1}\|Av\|\tag{6}\\
{}&v_2=\mathrm{argmax}_{\|v\|=1,v\in\mathrm{span}\{v_1\}^{\bot}}\frac{\|Av\|}{\|v\|}\tag{7}
\end{align}
とする。このとき、$v_1,\,v_2$は長さ1のベクトルであり、$v_1$は$A$によるノルムの拡大率が最も大きいベクトル、$v_2$は$v_1$が生成する部分空間の直交補空間のうち$A$によるノルムの拡大率が最も大きいベクトルである。このとき、実は$Av_1\bot Av_2$であることを示す。
$Av_1\bot Av_2$ではなかったとする。このとき、$v_1\bot v_2$なので、
\begin{equation}
\frac{\|A(v_1+\varepsilon v_2)\|^2}{\|v_1+\varepsilon v_2\|^2}=\frac{\|Av_1\|^2+2\varepsilon\mathrm{Re}(Av_1,Av_2)+o(\varepsilon^2)}{\|v_1\|^2+O(\varepsilon^2)}\tag{8}
\end{equation}
となる。ここで、$(Av_1,Av_2)\neq0$なので、$\varepsilon$を十分小さい正の数/負の数としてとれば\begin{equation}\frac{\|A(v_1+\varepsilon v_2)\|^2}{\|v_1+\varepsilon v_2\|^2}>\frac{\|Av_1\|^2}{\|v_1\|^2}\tag{9}\end{equation}
となり、$v_1$が$A$によるノルムの拡大率が最も大きいベクトルであることに矛盾する。よって、$Av_1\bot Av_2$である。
同様に、$v_1,\,\dots,\,v_n$を
\begin{equation}
v_i=\mathrm{argmax}_{\|v\|=1,v\in\mathrm{span}\{v_1,\,\dots,\,v_{i-1}\}^{\bot}}\frac{\|Av\|}{\|v\|}\tag{10}
\end{equation}
とする。このとき、$Av_i\bot Av_j\ (i>j)$である。そうでないと仮定すると、先ほどと同様の議論で$\varepsilon$を十分小さい正の数/負の数としてとれば、$v_i+\varepsilon v_j$が$\mathrm{span}\{v_1,\,\dots,\,v_{i-1}\}^{\bot}$の中で$v_i$より$A$の拡大率が高い元となってしまい、$v_i$の取り方に反する。
よって、以上の議論により、$\mathbb{C}^n$の正規直交基底$\{v_1,\,\dots,\,v_n\}$で$A$で送った先が互いに直交するものが取れた。ここで、
\begin{equation}
\sigma_i=\frac{\|Av_i\|}{\|v_i\|}\tag{11}
\end{equation}
とする。$\{v_i\}$の取り方より、$\sigma_1\geq\cdots\geq\sigma_n\geq0$である。また、$\sigma_1=\cdots=\sigma_r>0$で$\sigma_{r+1}=0$となるような$r$を取る。このような$r$がない場合(全ての$\sigma_i$が正の場合)は$r=n$とする。このとき、$i=1,\,\dots,\,r$について
\begin{equation}
u_i=\frac{Av_i}{\|Av_i\|}\tag{12}
\end{equation}とする。このとき、$\{u_1,\,\dots,\,u_r\}$は$\mathrm{C}^m$の正規直交系である。また、$i=r+1,\,\dots,\,n$について、$\|Av_i\|=0\Leftrightarrow Av_i=0$である。以上より、$\mathbb{C}^n$の元$x$を
\begin{equation}
x=\sum_ic_iv_i\tag{13}
\end{equation}
と展開すると、$Av_{r+1}=\cdots=Av_{n}=0$より、
\begin{equation}
Ax=\sum_{i=1}^r\sigma_ic_iu_i\tag{14}
\end{equation}
である。よって、
\begin{equation}
A=\sum_{i=1}^r\sigma_iu_iv_i^{T}\tag{15}
\end{equation}
と表わせ、これは式(3)と一致する。
このように幾何的に特異値分解を理解すると、$n$番目の特異値や$n$番目の特異値に対応するベクトルの意味までが明瞭になる。その点で、幾何的な理解をしておくことが重要である。