文献あり

B1でもわかるKostant's convexity theoremについて Part.1

430

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

はじめに

基幹理工学部B1の卯月熊といいます. この記事は Wathematica Advent Calendar 2023 の12/24の記事です．B1が書いているので前提知識はB1数学です(本当か?). また間違いはないようにしますが、万が一何が間違ったことを言ってたり疑問点がある場合は正論とか質問攻めでぶん殴ってください. 今回はSchur-Horn theoremとそれの一般化であるKostant's convexity theoremについて解説していきます. Schur-Horn theoremはエルミート行列の固有値と対角成分との関係を述べる定理です. シンプレクティック幾何という微分幾何の一分野にモチベーションがあるそうですがあいにく何も知らないので, それ単独でも面白いステートメントだけ述べます.

エルミート行列・ユニタリ行列

エルミート行列とは以下のように定義される行列です.

エルミート行列

複素正方行列$H$で, $H^*=H$を満たすものをエルミート行列と呼ぶ. ただし, $A^*$で$A$の共役転置を表す.

エルミート行列は以下のような性質を持ちます.

エルミート行列の固有値

エルミート行列$H$は固有値がすべて実数である.

固有値の定義よりある固有値$\lambda$に対して固有ベクトル$\boldsymbol{x}$が存在して,$H\boldsymbol{x}=\lambda\boldsymbol{x}$を満たすので,
$\boldsymbol{x}^{*}H\boldsymbol{x}=\lambda\boldsymbol{x}^{*}\boldsymbol{x}$
この式の共役転置を取ると,
$\boldsymbol{x}^{*}H^{*}\boldsymbol{x}=\bar{\lambda}\boldsymbol{x}^{*}\boldsymbol{x}$
よって$\boldsymbol{x}^{*}H\boldsymbol{x}=\bar{\lambda}\boldsymbol{x}^{*}\boldsymbol{x}$
$\boldsymbol{x}^{*}H\boldsymbol{x}=\lambda\boldsymbol{x}^{*}\boldsymbol{x}$と比較すると$\lambda=\bar{\lambda}$
よって固有値$\lambda$は実数.

逆に与えられた実数の固有値に対してエルミート行列を作る事もできます.

ユニタリ行列

複素正方行列Uで, $U^*U=E$を満たすものをユニタリ行列と呼ぶ. ただし, $E$で単位行列を表す.

エルミート行列の対角化

エルミート行列$H$はユニタリ行列$U$を用いて対角化できる.

行列のサイズ$n$に関する数学的帰納法で示す. $n=1$のときは任意の行列は既に対角行列なので$U=E$とすれば良い. $n=k-1$のとき成立を仮定する。$H$の固有値の一つを$\lambda_1$とし, $\lambda_1$に属する単位固有ベクトルを$\boldsymbol{x}_1$として, それで生成される$\mathbb{C}^n$の部分空間を$W$として, その直交補空間を$W^\perp$ としてその正規直交基底を$\boldsymbol{x}_2',\cdots,\boldsymbol{x}_{n-1}'$, $U=[\boldsymbol{x}_1,\boldsymbol{x}_2',\cdots,\boldsymbol{x}_{n-1}']$と定める(グラムシュミットの直交化法で存在が示せる)とユニタリ行列になりこの行列で基底を変換すると$U^{-1}HU=\begin{pmatrix}\lambda_1&*\\\boldsymbol{0} & H'\\\end{pmatrix}$
この式の共役転置を取るとエルミート行列とユニタリ行列の性質より$U^{-1}HU=\begin{pmatrix}\lambda_1&{}^t\boldsymbol{0}\\ * & H'^*\\\end{pmatrix}$
なので$H'$はエルミート行列となり, 結局
$U^{-1}HU=\begin{pmatrix}\lambda_1&{}^t\boldsymbol{0}\\ \boldsymbol{0} & H'\\\end{pmatrix}$
であり仮定より$H'=U'\Lambda U'^{-1}$($\Lambda$は対角行列)なるユニタリ行列$U'$が存在するので$U''=\begin{pmatrix}1&{}^t\boldsymbol{0}\\ \boldsymbol{0} & U'\\\end{pmatrix}U$とすれば$H$を$U''$で対角化できる. よって題意は示された.

この事実により逆にエルミート行列は成分が実数の対角行列をユニタリ行列で変換したものということもできます.

Majorizationと二重確率行列

次に数列の偏りを表す概念について解説していきます. この記事においては明言がない限り$n$は$2$以上の整数とします.

Majorization

$n$項の非増加実数列$\boldsymbol{a}=\{a_n\}$, $\boldsymbol{b}=\{b_n\}$に対して, $\boldsymbol{a}\prec\boldsymbol{b}$($\boldsymbol{b}$ majorizes $\boldsymbol{a}$)であるとは

$\displaystyle\sum_{i=1}^ma_i\leq\displaystyle\sum_{i=1}^mb_i$($1\leq m\leq n-1$)
$\displaystyle\sum_{i=1}^na_i=\displaystyle\sum_{i=1}^nb_i$
の条件を満たすことである. また, 非増加でないときは非増加列に並び替えて定義される.

これはもちろん推移律「$\boldsymbol{a}\prec\boldsymbol{b}$かつ$\boldsymbol{b}\prec\boldsymbol{c}$ならば$\boldsymbol{a}\prec\boldsymbol{c}$」を満たします.
また, これと深く関わるT-変換も紹介しておきます. これは成分を二つ選んで均すことです.

T-変換

$\mathbb{R}^n$上の点$\boldsymbol{a}=(a_1,a_2,\cdots,a_n)$と$0\leq t\leq 1$に対して$T\boldsymbol{a}=(a_1,a_2,\cdots,ta_i+(1-t)a_j,\cdots,(1-t)a_i+ta_j,\cdots,a_n)$とする線型変換$T$をT-変換(T-transform)という.

T-変換の性質

$\mathbb{R}^n$上の$\boldsymbol{a}$に対して$T\boldsymbol{a}\prec\boldsymbol{a}$.

$a_i,(T\boldsymbol{a})_i$で$i$番目に大きい成分を表す.
$S_m=\displaystyle\sum_{i=1}^ma_i-\displaystyle\sum_{i=1}^m(T\boldsymbol{a})_i$とおいて$(T\boldsymbol{a})_i=a_{i+1}\geq\cdots\geq a_k\geq ta_i+(1-t)a_j\geq\cdots$ $\geq (1-t)a_i+ta_j\geq a_l\geq\cdots \geq a_{j-1}=(T\boldsymbol{a})_j$
として計算すると, $S_m=\begin{cases}a_i-a_{m+1}　　　　(i\leq m\leq k-1)\\(1-t)(a_i-a_j)　(k\leq m\leq l)\\a_{m-1}-a_j　　　　(l+1\leq m\leq j)\\0　　　　　　　\quad\;\;(otherwise)\end{cases}$
よって題意は示された.

Majorizationの関係がある数列同士は二重確率行列という行列で結びつけることができます.

二重確率行列

各成分が$0$以上で, 各行と各列の和が$1$となるような行列を二重確率行列(double stochasic matrix)と呼ぶ.

二重確率行列とMajorization

$n$項の実数列$\boldsymbol{a},\boldsymbol{b}$を$\mathbb{R}^n$のベクトルとみなしたとき, 以下は同値である:

$\boldsymbol{a}\prec\boldsymbol{b}$
$\boldsymbol{a}$は$\boldsymbol{b}$の有限回のT-変換で書ける
$\boldsymbol{b}$の座標を並び替えてできる点のなす集合を$\tilde{\boldsymbol{b}}$として, $\boldsymbol{a}=\sum_i\sigma_i\tilde{b}_i$なる$\tilde{b}_i\in\tilde{\boldsymbol{b}}$と$\sum_i\sigma_i=1$を満たす$0$以上の$\sigma_i$が存在する($\tilde{\boldsymbol{b}}$の凸包に$\boldsymbol{a}$が含まれるという, $\sum_i\sigma_i\tilde{b}_i$を凸結合(convex combination)という)
ある二重確率行列$D$に対して$\boldsymbol{a}=D\boldsymbol{b}$

(iii)は$\tilde{\boldsymbol{b}}$がなす多面体(pemutation polytope)の内部及び表面の点に$\boldsymbol{a}$が属するということです.

$a_i,b_i$で$i$番目に大きい$\boldsymbol{a},\boldsymbol{b}$の成分を表す.

(i)⇒(ii)
$n=2$の時は一回のT-変換で表すことができるので, 帰納法で一般の$n$に拡張する. $n-1$次元で成り立つと仮定する. $\boldsymbol{a}\prec\boldsymbol{b}$なので$b_n\leq a_1\leq b_1$であるから, $b_k\leq a_1\leq b_{k+1}$なる$k$を選べ, $a_1=tb_1+(1-t)b_k$なる$0\leq t\leq 1$が選べる. この$t$を用いてT-変換$T_1$を$z\in\mathbb{R}^n$に対して,
$T_1z=(tz_1+(1-t)z_k,z_2,\cdots,z_{k-1},(1-t)z_1+tz_k,\cdots,z_n)$
と定め,
$\boldsymbol{a}'=(a_2,\cdots,a_n)$, $\boldsymbol{b}'=(b_2,\cdots,b_{k-1},(1-t)b_1+tb_k,\cdots,b_n)$とすると$\boldsymbol{a}'\prec\boldsymbol{b}'$. 実際, $2\leq m\leq k-1$で,
$\displaystyle\sum_{j=2}^ma_j\leq\displaystyle\sum_{j=2}^mb_j$
$k\leq m\leq n$で,
$\displaystyle\sum_{j=2}^mb_j'=\displaystyle\sum_{j=1}^mb_j-tb_1+(t-1)b_k=\displaystyle\sum_{j=1}^mb_j-a_1$ $\geq\displaystyle\sum_{j=1}^ma_j-a_1=\sum_{j=2}^ma_j$
これは$\boldsymbol{a}\prec\boldsymbol{b}$より$m=n$の時に等号が成立するので$\boldsymbol{a}'\prec\boldsymbol{b}'$. よって帰納法の仮定からT-変換$T_2,\cdots,T_r$を用いて$\boldsymbol{a}'=T_r\cdots T_2\boldsymbol{b}'$と書けて,
$T_r\cdots T_2T_1\boldsymbol{b}=T_r\cdots T_2(a_1,\boldsymbol{b}')=\boldsymbol{a}$となり$n$次元で成立する. よって題意は示された.
(ii)⇒(iii)
有限回のT-変換は置換行列の凸結合, すなわち和が$1$となるような係数がかかった線形結合で表されるので成立.
(iii)⇒(iv)
置換行列の凸結合は成分を計算すると二重確率行列になるので成立.
(iv)⇒(i)
二重確率行列の$(i,j)$-成分を$d_{ij}$とする.
$\displaystyle\sum_{j=1}^kb_j=\displaystyle\sum_{j=1}^k\sum_{i=1}^nd_{ij}a_i$なので, もし$t_i=\displaystyle\sum_{j=1}^kd_{ij}$とおけば$k-\displaystyle\sum_{i=1}^nt_i=0$であり,
$\displaystyle\sum_{j=1}^kb_j-\displaystyle\sum_{j=1}^ka_j=\sum_{i=1}^nt_ia_i-\sum_{i=1}^ka_i$
$=\displaystyle\sum_{i=1}^nt_ia_i-\displaystyle\sum_{i=1}^ka_i+\left(k-\sum_{i=1}^nt_i\right)a_k$
$=\displaystyle\sum_{i=1}^k(t_i-1)(a_i-a_k)+\displaystyle\sum_{i=k+1}^nt_i(a_i-a_k)\leq 0$
$k=n$の時に$t_i=1$なので等号が成立するため, $\boldsymbol{a}\prec\boldsymbol{b}$.

これを使ったいろいろな不等式があります. (証明は重み付き相加平均・相乗平均を使うので省略)

Muirheadの不等式

$\boldsymbol{a}=(a_1,\cdots,a_n)$と$\boldsymbol{b}=(b_1,\cdots,b_n)$に対して$\boldsymbol{a}\prec\boldsymbol{b}$ならば
$\displaystyle\sum_{\sigma}x_{\sigma(1)}^{a_1}\cdots x_{\sigma(n)}^{a_n}\leq\displaystyle\sum_{\sigma}x_{\sigma(1)}^{b_1}\cdots x_{\sigma(n)}^{b_n}$

Karamataの不等式

$\boldsymbol{a}=(a_1,\cdots,a_n)$と$\boldsymbol{b}=(b_1,\cdots,b_n)$に対して$\boldsymbol{a}\prec\boldsymbol{b}$であり, $f$が凸関数ならば$\displaystyle\sum_if(a_i)\leq\displaystyle\sum_if(b_i)$

詳しく知りたい方は, Muirheadの不等式に関してはこれを, Karamataの不等式に関してはこれを参照すると良いです. (どちらも高校数学の美しい物語のリンクです)

Schur-Horn theorem

また, 二重確率行列に関しては以下のような定理があります.

Birkhoff–von Neumann theorem

二重確率行列$D$は置換行列の凸結合で表される.

証明はこれを参照してください. (これまた高校数学の美しい物語のリンクです)
この主張, さっき見たという方はこの定理を勘違いしていて, 「置換行列の凸結合は二重確率行列」というのは定理4の(iii)⇒(iv)で使いましたが, 今回は逆を主張しています.
また, 以下のような定理もあります.

ユニタリ行列の性質

ユニタリ行列$U$の$(i,j)$-成分を$u_{ij}$としたときに$\displaystyle\sum_i|u_{ij}|^2=\sum_j|u_{ij}|^2=1$
すなわち$|u_{ij}|^2$を成分に持つ行列は二重確率行列.

$UU^{*}=1$の$(i,i)$-成分を比較すると$\displaystyle\sum_ju_{ij}u_{ji}^*=\sum_ju_{ij}\overline{u_{ij}}=1$すなわち$\sum_j|u_{ij}|^2=1$. ユニタリ行列は転置を取ってもユニタリ行列なので, 題意は示された.

Schur-Horn theorem

$\boldsymbol{d}$と$\boldsymbol{\lambda}$を非増加列である$n$次元実ベクトルとする. この時以下は同値である.

対角成分$\boldsymbol{d}$, 固有値$\boldsymbol{\lambda}$(左上から)となるようなエルミート行列$H$が存在
$\boldsymbol{d}\prec\boldsymbol{\lambda}$

(i)⇒(ii)
命題2より, エルミート行列$H$はユニタリ行列$U$で対角化でき, 多角化後の行列を$\Lambda$と書くと, $H=U\Lambda U^{-1}=U\Lambda U^*$とできるため, 行列$H,U,U^*,U\Lambda$の$(i,j)$-成分をそれぞれ$h_{ij}, u_{ij},u_{ij}^*,(U\Lambda)_{ij}$と書くと, $h_{ii}=\displaystyle\sum_{j=1}^n (U\Lambda)_{ij}u^*_{ji}=\displaystyle\sum_{j=1}^n (U\Lambda)_{ij}\overline{u_{ij}}=$
$\displaystyle\sum_{j=1}^n u_{ij}\lambda_{j}\overline{u_{ij}}=\displaystyle\sum_{j=1}^n \lambda_{j}|u_{ij}|^2$
すなわち, $|u_{ij}|^2$を成分とする二重確率行列$D$が存在して, $\boldsymbol{d}=D\boldsymbol{\lambda}$となるから, 定理4より$\boldsymbol{d}\prec\boldsymbol{\lambda}$.
(ii)⇒(i)
行列$A$(成分$a_{ij}$, 対角成分$\boldsymbol{d}_A$)に対して$\xi(A)\in\mathbb{C}$を$\overline{\xi(A) a_{jk}}=-\xi(A) a_{jk}$を満たすものとして,
$U(A)=\begin{pmatrix}1&\quad&\quad&\quad&\quad&\quad&\quad\\ \quad&\ddots&\quad&\quad&\quad&\quad&\quad\\ \quad&\quad&\xi\sqrt{t}&\quad&-\sqrt{1-t}&\quad&\quad\\ \quad&\quad&\quad&\ddots&\quad&\quad&\quad\\ \quad&\quad&\sqrt{t}&\quad&-\xi\sqrt{1-t}&\quad&\quad\\ \quad&\quad&\quad&\quad&\quad&\ddots&\quad\\ \quad&\quad&\quad&\quad&\quad&\quad&1\\ \end{pmatrix}$
(文字が入っている行, 列は$j,k$行, 列目であり, 他の対角成分は1)とすると, これはユニタリ行列であり, $(U(A))^{-1}AU(A)$の対角成分$\boldsymbol{d}'_A$は($j,k$番目の成分に対する)T-変換$T$が存在して $T\boldsymbol{d}_A$と書ける. $\boldsymbol{d}\prec\boldsymbol{\lambda}$のとき$\boldsymbol{d}$は$\boldsymbol{\lambda}$の有限回のT-変換で書けるので, $\boldsymbol{\lambda}$を対角成分として持つ対角行列を$\Lambda$とし, $U_{i}=U(U_{i-1}^{-1}\cdots U_1^{-1}\Lambda U_1\cdots U_{i-1})$と定義すると$H=U_n^{-1}\cdots U_1^{-1}\Lambda U_1\cdots U_n$で$\boldsymbol{d}$を対角成分に持つようなエルミート行列$H$となる. ここでユニタリ行列の積はユニタリ行列であることを使った.

次回これの拡張をします.

位相空間

　Schur-Horn theoremを拡張するために~~嘘つき集団~~リー群(Lie group)を定義する必要があるのですが, そのためにまずは位相空間と呼ばれるものを定義します. ざっくり言えば線形空間と違ってぐにゃぐにゃした空間も含めた"空間"の概念です. 知っている方は次の記事まで飛ばすか粗探ししてください.

位相空間

$X$を集合とし$\mathcal{O}$を$X$の冪集合の部分集合とする. $\mathcal{O}$が以下の条件を満たすとき, 組$(X,\mathcal{O})$を位相空間(topological space)と呼ぶ. また, $\mathcal{O}$を開集合系といい, その元を開集合(open set)という. また開集合の補集合を閉集合(closed set)という.

$\emptyset,X\in\mathcal{O}$
どのような$O_1,O_2\in\mathcal{O}$に対しても$O_1\cap O_2\in\mathcal{O}$
$\Lambda$で添字付けられた集合族$\{O_\lambda\}_{\lambda\in\Lambda}$($O_\lambda\in\mathcal{O}$)(edited: 2023/12/24 17:03)に対して$\displaystyle\bigcup_{\lambda\in\Lambda}O_\lambda$が$\mathcal{O}$に含まれる

まあここを間違える人はいないと思いますが, 閉集合は開集合ではない集合ではないです. (実際に開集合でも閉集合でもない集合と開集合でも閉集合でもある集合がある場合があります)
距離空間と呼ばれる, 距離という写像が入った空間にはこの位相空間の構造が入ります.

距離空間

集合$X$に対して写像$d:X\times X\longrightarrow\mathbb{R}$が存在して, 以下の条件を満たすとき集合と写像の組$(X,d)$を距離空間(metric space)という.

全ての$x,y\in X$に対し$d(x,y)\geq 0$であり $d(x,y)=0$ならば$x=y$
全ての$x,y\in X$に対し$d(x,y)=d(y,x)$
全ての$x,y,z\in X$に対し$d(x,y)+d(y,z)\geq d(x,z)$(三角不等式)

開近傍

正の実数$\varepsilon$, 距離空間$X$上の点$x$に対して$d(x,y)<\varepsilon$を満たす$y\in Y$の集合を$x$の$\varepsilon$-近傍($\varepsilon$-neighborhood)と呼び, $B_\varepsilon(x)$で表す.

距離空間の位相

距離空間$X$の部分集合$U$ですべての$x\in U$に対して$B_\varepsilon(x)$が$U$に含まれるような$\varepsilon$が存在する$U$の集まり$\mathcal{O}$を開集合系とすると位相空間になる.

$\emptyset\in\mathcal{O}$は明らかで$X\in\mathcal{O}$は定義7(i)より成立するので, 他の二つを示す.

どのような$O_1,O_2\in\mathcal{O}$に対しても$O_1\cap O_2\in\mathcal{O}$
$O_1,O_2\in\mathcal{O}$を取ってきたとき, $O_1\cap O_2$が空集合になった場合は成立するし, それ以外の時は$O_1\cap O_2$に含まれる$x$をとると$B_{\varepsilon_1}(x),B_{\varepsilon_2}(x)$が$O_1,O_2$に含まれるような$\varepsilon_1,\varepsilon_2$が存在するので$\varepsilon:=\min\{\varepsilon_1,\varepsilon_2\}$とすれば$O_1\cap O_2\in\mathcal{O}$
$\Lambda$で添字付けられた集合族$(O_\lambda)_{\lambda\in\Lambda}$に対して$\displaystyle\bigcup_{\lambda\in\Lambda}O_\lambda$が$\mathcal{O}$に含まれる
$x\in\displaystyle\bigcup_{\lambda\in\Lambda}O_\lambda$をとると, ある$\mu\in\Lambda$に対して$x\in O_\mu$であるため, $B_\varepsilon(x)$が$O_\mu$に含まれるような$\varepsilon$が存在する.

ということで我々のよく知っているユークリッド空間には距離が入るので位相が入ります.

ユークリッド空間の位相

$\mathbb{R}^n$上の点$\boldsymbol{x}=(x_1,\cdots,x_n)$, $\boldsymbol{y}(y_1,\cdots,y_n)$の距離を$d(\boldsymbol{x},\boldsymbol{y})=\sqrt{\displaystyle\sum_i(x_i-y_i)^2}$
で定めると距離空間になり, 命題8より位相空間になる. (三角不等式以外は簡単に示せ, 三角不等式はCauchy–Schwarzの不等式で示せる)

あとそういえば言い忘れてましたが$\varepsilon$-近傍は開集合です.

$\varepsilon$-近傍は開集合

距離空間$X$に対して,$B_\varepsilon(x)\in \mathcal{O}_X$

任意の$y\in B_\varepsilon(x)$に対して, $d(x,y)<\varepsilon$となるので, $\varepsilon'=\varepsilon-d(x,y)$とおくと$\varepsilon'>0$となる.
任意の$z\in B_{\varepsilon'}(y)$を取ると, 三角不等式より
$d(x,z)\leq d(x,y)+d(y,z)< d(x,y)+\varepsilon'=\varepsilon-d(x,y)+d(x,y)=\varepsilon$
なので$z\in B_\varepsilon(x)$
すなわち$B_{\varepsilon'}(y)\subset B_\varepsilon(x)$. よって命題8の開集合系の条件を満たしているので, $B_\varepsilon(x)\in \mathcal{O}_X$.

ところで, 位相空間って相当条件が緩いので条件を付けないと密着位相(開集合は空集合と全体のみ)とか離散位相(すべて開集合)とかいう変な位相も入れることができちゃうんですよね. ということでいい感じの条件を付けていきましょう(適当). 以下の条件はなんか説明に必要ないい感じの性質という適当な印象しかないので詳しい情報をお持ちの方は@uzukikumaまで.

位相空間に追加する条件

位相空間$(X,\mathcal{O})$に対して,

すべての$x,y\in X$に対して$x\in O_1\in\mathcal{O}$, $y\in O_2\in\mathcal{O}$となるような$O_1,O_2$で($O_1,O_2$をそれぞれ$x,y$の開近傍(open neighborhood)という), $O_1\cap O_2=\emptyset$なるものが選べるものをハウスドルフ空間(Hausdorff space)という.
$\mathcal{O}$の元が$\mathcal{B}$の元の和集合で表されるとき, $\mathcal{B}$を開基(basis)といい, $\mathcal{B}$の元が可算個, すなわち自然数から$\mathcal{B}$への全単射があるとき, 第二可算空間(second-countable space)という.
開集合の集合族$\{U_\lambda\}_{\lambda\in\Lambda}$がある$X$の部分集合$A$に対して$A\subset\bigcup_{\lambda\in\Lambda}U_\lambda$を満たすとき$\{U_\lambda\}_{\lambda\in\Lambda}$が$A$の開被覆(open cover)といい, 有限集合$S\subset\Lambda$に対して$A\subset\bigcup_{\lambda\in S}U_\lambda$とできるなら$A$をコンパクト集合(compact set)という.
空でない開集合$A,B$で, $A\cap B=\emptyset$となるようなものを用いて$X=A\cup B$とできないような位相空間を連結(connected)であるという.

ユークリッド空間は第二可算でハウスドルフです.

ユークリッド空間の性質

ユークリッド空間は第二可算でハウスドルフ.

第二可算性
中心が, 座標がすべて有理数の点(有理点)で半径が有理数の開球の集合を$\mathcal{Q}$とする. 任意の$O\in\mathcal{O}$を取って, $O=\displaystyle\bigcup_{x\in O}Q_x$となるような$Q_x\in\mathcal{Q}$を取ることができればよい.
$x\in O$に対して, 開集合の定義から$B_{\varepsilon(x)}(x)\subset O$となる$\varepsilon(x)>0$を取ることができ, $\varepsilon'(x)$を$ \dfrac{\varepsilon(x)}{2}$とすると, 有理数の稠密性から$B_{\varepsilon'(x)}(x)$の中の有理点$q_x$を取れ, $d(x,q_x)<\varepsilon'(x)=\dfrac{\varepsilon(x)}{2}$ なので$\dfrac{\varepsilon(x)}{2}=\varepsilon(x)-\varepsilon'(x)>r_x>d(x,q_x)$となるような有理数$r_x$が取れることより, $x\in B_{r_x}(q_x)$. $Q_x=B_{r_x}(q_x)$とすると, $O\subset\displaystyle\bigcup_{x\in O}Q_x$であり, また, $Q_x$の任意の元$y$に対して,
$d(y,x)\leq d(y,q_x)+d(x,q_x)< r_x+\dfrac{\varepsilon(x)}{2}<\dfrac{\varepsilon(x)}{2}+\dfrac{\varepsilon(x)}{2}=\varepsilon(x)$
から$y\in B_{\varepsilon(x)}(x)\subset O$. よって$O\supset\displaystyle\bigcup_{x\in O}Q_x$. $Q_x\in\mathcal{Q}$なのでユークリッド空間は第二可算.
ハウスドルフ性
ユークリッド空間上の二点$x,y$を取ったとき, $\varepsilon=\dfrac{d(x,y)}{2}$とする. この時, $B_\varepsilon(x)\cap B_\varepsilon(y)=\emptyset$である. 実際, $z\in B_\varepsilon(x)\cap B_\varepsilon(y)$なる$z$があるとすると, $d(x,y)\leq d(x,z)+d(z,y)<2\varepsilon=d(x,y)$より矛盾.

また, 二つの位相空間に対して写像を考えます.

連続・同相写像

二つの位相空間$(X,\mathcal{O}_X)$, $(Y,\mathcal{O}_Y)$に対して$X$から$Y$への写像$f$があって,

「$V\in\mathcal{O}_Y$ならば$f^{-1}(V)\in\mathcal{O}_X$」をみたすならば$f$は連続写像(continuous map)
連続で, 全単射で, 逆写像が連続な写像のことを同相写像(homeomorphism)

という.

この連続性の定義は距離空間では$\varepsilon,\delta$-論法と同値になります.

$\varepsilon,\delta$-論法と位相空間での写像の連続性

距離空間$(X,\mathcal{O}_X)$, $(Y,\mathcal{O}_Y)$と$X$から$Y$への写像$f$に対して以下は同値である.

$V\in\mathcal{O}_Y$ならば$f^{-1}(V)\in\mathcal{O}_X$をみたす.
すべての$x\in X$, $\varepsilon>0$に対して, 「すべての$y\in X$に対して$d_X(x,y)<\delta$ならば$d_Y(f(x),f(y))<\varepsilon$」を満たすような$\delta>0$が存在する.

(i)⇒(ii)
任意の$x\in X, \varepsilon>0$を取ると, 命題9より$B_\varepsilon(f(x))\in \mathcal{O}_Y$なので, (i)の仮定から$f^{-1}(B_\varepsilon(f(x)))\in \mathcal{O}_X$とできて, $f^{-1}(f(x))\subset\{x\}$と$ \{f(x)\}\subset B_\varepsilon(f(x))$から$x\in f^{-1}(B_\varepsilon(f(x)))$であり, 距離空間の開集合系の定義からある$\delta>0$に対して$B_\delta(x)\subset f^{-1}(B_\varepsilon(f(x)))$.
すなわちすべての$y\in X$に対して$d_X(x,y)<\delta$ならば$y\in f^{-1}(B_\varepsilon(f(x)))\Leftrightarrow f(y)\in B_\varepsilon(f(x))$なので$d_Y(f(x),f(y))<\varepsilon$.
(ii)⇒(i)
任意の$V\in\mathcal{O}_Y$を取るとすべての$x\in f^{-1}(V)$に対して$f(x)\in V\in\mathcal{O}_Y$で, 距離空間の開集合系の定義からある$\varepsilon>0$に対して$B_\varepsilon(f(x))\subset V$, 仮定より「すべての$y\in X$に対して$d_X(x,y)<\delta$ならば$d_Y(f(x),f(y))<\varepsilon$」となるような$\delta$が取れる, すなわち「すべての$f(y)\in f(B_\delta(x))$に対して$d_Y(f(x),f(y))<\varepsilon$」$\Leftrightarrow f(B_\delta(x))\subset B_\varepsilon(f(x))$
よって任意の$z\in B_\delta(x)$を取ると$f(z)\in f(B_\delta(x))\subset B_\varepsilon(f(x))\Leftrightarrow z\in f^{-1}(B_\varepsilon(f(x)))\subset f^{-1}(V)$よって$B_\delta(x)\subset f^{-1}(V)$となって開集合の定義に当てはまるので$f^{-1}(V)\in\mathcal{O}_X$.

多様体

これで多様体を定義する準備が整いました.

多様体

第二可算でHausdorffな位相空間$(M,\mathcal{O})$に対して, 任意の$p\in M$に対して,

$p$の開近傍$U$
開近傍$U$から$\mathbb{R}^n$の開集合$U'$への同相写像$\varphi_U$

が存在するとき, $U$を$p$の座標近傍(coordinate neighborhood)といい, 組$(U,\varphi_U)$をチャート(chart)といい, 位相空間$(M,\mathcal{O})$のことを$n$次元位相多様体(topological manifold)という.

Hausdorff性は流石に成り立っててほしいのでともかく, 第二可算が条件に付いてる理由が分かりませんが, まあいい感じの性質なので入れといても問題はないでしょう(これも詳しく知っている方は @uzukikuma まで). これは, 各点の周りで部分的にユークリッド空間と見れるような位相空間を多様体と呼んでいるという感じで, 例えば我々が考えるような曲面(十分近くを見ればまっすぐに見える)とかみたいなイメージです.

アトラス

位相多様体$M$に対して, チャートの族$\{(U_\lambda,\varphi_{U_\lambda})\}_{\lambda\in\Lambda}$で, $M=\displaystyle \bigcup_{\lambda\in\Lambda}U_\lambda$を満たすようなものをアトラス(atlas)という.

要するに多様体を全部覆うようなチャートの族のことですね.

これを用いるといくらでも微分できる多様体, $C^\infty$多様体が定義できます. その前に通常のユークリッド空間についてみていきましょう.

ユークリッド空間における$C^\infty$級写像

開集合$U\subset\mathbb{R}^m$に対して, 連続写像$f:U\longrightarrow\mathbb{R}^n$が$C^\infty$級写像であるとは, 各変数に対して何回でも偏微分可能であることを言う.

微分同相

開集合$U,V\in\mathbb{R}^n$に対し同相写像$\varphi:U\longrightarrow V$が微分同相写像(diffeomorphism)であるとは, $\varphi$と$\varphi^{-1}$が$C^\infty$級であることを言う.

$C^\infty$多様体

$n$次元位相多様体で, あるアトラス$\mathcal{A}$の任意のチャート$(U,f_U)$, $(V,f_V)$で$U\cap V\neq \emptyset$となるようなものに対して$f_U\circ f_V^{-1}:(\mathbb{R}^n\supset)f_V(U\cap V)\longrightarrow f_U(U\cap V)(\subset\mathbb{R}^n)$を座標変換(coordinate transformation)と呼び, 座標変換が微分同相であったらアトラス$\mathcal{A}$を$C^\infty$級アトラスといい, そのようなアトラスがある多様体を$n$次元$C^\infty$多様体, あるいは滑らかな多様体という.
　また, チャート$(U,f_U)$, $(V,f_V)$に対して座標変換が微分同相であること自体は二つのチャートは両立する(compatible)と呼ばれる.

　ユークリッド空間は部分的にユークリッド空間とみなせるどころかユークリッド空間そのものなので, 位相多様体であり, 恒等写像という~~変換してない~~座標変換という$C^\infty$写像を持っていますから$C^\infty$多様体です.

$C^\infty$多様体としてのユークリッド空間

ユークリッド空間は任意の$U\cap V=\emptyset$なる開集合$U,V$に対して$f_U:U\longrightarrow\mathbb{R}^n$, $\boldsymbol{x}\mapsto \boldsymbol{x}$と$f_V:V\longrightarrow\mathbb{R}^n$, $\boldsymbol{x}\mapsto \boldsymbol{x}$と定めると$f_U\circ f_V^{-1}:f_V(U\cap V)\longrightarrow f_U(U\cap V)$が微分同相なので$C^\infty$多様体.

$f_U\circ f_V^{-1}$は恒等写像なので, $x$の成分を$x_i$とすると任意の$i,j$に対して$\dfrac{\partial}{\partial x_i}(f_U\circ f_V^{-1})={}^t(0,\cdots,0,1,0,\cdots,0)$, $\dfrac{\partial}{\partial x_j}{}^t(0,\cdots,0,1,0,\cdots,0)=\boldsymbol{0}$, $\boldsymbol{0}$はどの変数でどれだけ偏微分しても$\boldsymbol{0}$なので$C^\infty$級,　$f_U\circ f_V^{-1}:U\cap V\longrightarrow U\cap V$は全単射であり, 逆写像も同様に$C^\infty$級, 開集合の逆像は恒等写像なので開集合に移り連続であるため, 微分同相.

(まあ一枚の$(\mathbb{R}^n,\mathrm{id})$という~~デカすぎる~~チャートからなる雑アトラスでもいいのですが)

また, 議論がアトラスに依存しないように, 出来るだけチャートを詰め込んだ極大アトラスを定義します.

極大アトラス

位相空間$M$の$C^\infty$級アトラス$\mathcal{A}$に対し$\mathcal{A}$を含むようなアトラスで, 包含関係に対して極大(edited: 2023/12/24 18:10)であるものを極大アトラス(maximal atlas)という.

追記(2023/12/24 18:10)

同相であるが微分同相でない可微分多様体の例があるそうなので$C^\infty$級多様体とみなせる位相空間$M$の極大アトラスが一意に定まるというわけではないそうです.

　$C^\infty$多様体は今後この極大アトラスが搭載(？)されているものとします.
　$C^\infty$多様体$M,N$に対して, 位相, チャートの直積を取って積多様体$M\times N$を定義することもできます.

積多様体

$C^\infty$多様体$M,N$に対して, $M\times N$に$M,N$の開集合の直積で得られる集合を開集合とした直積位相(product topology)を定めることができ, これはハウスドルフかつ第二可算(本当は証明が必要)であり, $M,N$の$C^\infty$アトラス$\mathcal{M},\mathcal{N}$のチャート$(U,f_U)$, $(V,f_V)$の直積を取った$((U,V),(f_U,f_V))$を集めたものは$C^\infty$アトラスとなり(これも本当は証明が必要), $C^\infty$多様体$M\times N$という積多様体(product manifold)を作ることができる.

また, 多様体間の写像に関しても$C^\infty$級を定められます.

$C^\infty$級写像

$C^\infty$多様体$M,N$に対して$f:M\longrightarrow N$が$C^\infty$級写像であるとは, すべての$p\in M$に対して以下の条件を満たす$M$のチャート$(U,f_U)$, $N$のチャート$(V,f_V)$が存在することである.

$p\in U$かつ$f(p)\in V$
$f(U)\subset V$
$ f_V\circ f\circ f_U^{-1}$が$C^\infty$級

　リー群についてはもうこの時点で定義できるのですが, リー代数について定義するために, 接空間まわりに関して定義していきます. 本来はチャートの像(局所座標と呼ばれる)に依存しない定義としてライプニッツ則と線形性を持つものを微分と思うことにして接空間上のベクトルとみなす定義(方向微分)があるのですが, 以下に示す定義だと具体的な計算がしやすいということでそちらを採用します.

接空間

$C^\infty(M)$で$M\longrightarrow \mathbb{R}$の$C^\infty$写像の全体を表すこととする.
$C^\infty$多様体$M$上の点$p$においてその点におけるチャート$(U,\varphi)$に対して$\left. \dfrac{\partial}{\partial x_i}\right|_{p}:C^\infty(M)\longrightarrow \mathbb{R}, f\mapsto\dfrac{\partial f}{\partial x_i}(p):=\dfrac{\partial (f\circ\varphi^{-1})}{\partial x_i'}(\varphi(p))$の$n$個のベクトルを基底(自然基底という)とするベクトル空間を点$p$における接空間(tangent space)と言い, $T_pM$で表す. また, 接空間上のベクトルを接ベクトル(tangent vector)という. 但し, $x_i$を多様体上の$i$番目の座標, $x_i'$を$\mathbb{R}^n$上の$i$番目の座標としている.

複雑な定義なのですが, $f\circ\varphi^{-1}$は$(\mathbb{R}^n\supset)V\longrightarrow \mathbb{R}$なので$x_i'$で偏微分することができます.
　ところで, 多様体$M$上の曲線は以下のように定義されます.

曲線周りの定義

$\mathbb{R}$の開区間$I$から多様体$M$への$C^\infty$写像を$C^\infty$曲線($C^\infty$ curve)という. また$C^\infty$曲線$\gamma$に対して$\dfrac{d\gamma}{dt}(t_0)(f):=\dfrac{d(f\circ\gamma)}{dt}(t_0)$となるような$\dfrac{d\gamma}{dt}(t_0):C^\infty(M)\longrightarrow \mathbb{R}$を$p=\gamma(t_0)$の速度ベクトル(tangent vector)という.

接空間はある曲線の速度ベクトルで表すことができます.

接空間と速度ベクトル

$C^\infty$多様体$M$上の任意の点$p$に対してその任意の接ベクトル$v\in T_pM$は$p=\gamma(0)$となるようなある曲線$\gamma$の速度ベクトルである.

$M$上の任意の点$p$に対して$p$を含むチャートとして$(U,\varphi)$を取ると,
$\varphi$は平行移動することによって$\varphi(p)=0$となるようにできる.
任意の接ベクトル$v$に対して$v=\displaystyle\sum_iv_i\left. \dfrac{\partial}{\partial x_i}\right|_{p}$($v_i\in\mathbb{R}$)とおいて$\gamma(t)=\varphi^{-1}((tv_1,\cdots,tv_n))$(ただし定義域は十分小さい正の実数$\varepsilon$に対し, $t\in(-\varepsilon,\varepsilon)$)とおき, $\boldsymbol{v}$を$\boldsymbol{v}(t)=(tv_1,\cdots,tv_n)$で定義される写像とすると
$\dfrac{d\gamma}{dt}(0)(f)=\left. \dfrac{d(f\circ\gamma)}{dt}\right|_{t=0}$
$=\left.\dfrac{d(f\circ\varphi^{-1}\circ \boldsymbol{v})}{dt}\right|_{t=0}$
$=\dfrac{d\boldsymbol{v}}{dt}\left.\dfrac{d(f\circ\varphi^{-1})}{d\boldsymbol{v}}\right|_{\boldsymbol{v}=\boldsymbol{0}}$
$=(v_1,\cdots,v_n)\left.\dfrac{d(f\circ\varphi^{-1})}{d\boldsymbol{v}}\right|_{\boldsymbol{v}=\boldsymbol{0}}$
$=(v_1,\cdots,v_n)\,\left.{}^t\left(\dfrac{\partial(f\circ\varphi^{-1})}{\partial x_1'},\cdots,\dfrac{\partial(f\circ\varphi^{-1})}{\partial x_n'}\right)\right|_{\varphi(p)}$
$=(v_1,\cdots,v_n)\,\left.{}^t\left(\dfrac{\partial f}{\partial x_1},\cdots,\dfrac{\partial f}{\partial x_n}\right)\right|_{p}$
$=\displaystyle\sum_iv_i\left. \dfrac{\partial}{\partial x_i}\right|_{p}(f)$
$=v(f)$
より示された.
(ここで, $f\circ\varphi^{-1}$と$\varphi$の定義域と終域がユークリッド空間の部分集合であることを用いてchain ruleを適用している)

これで写像の微分の定義ができます.

写像の微分

$C^\infty$多様体$M$, $N$に対して$C^\infty$写像$F:M\longrightarrow N$が与えられたとき, 点$p\in M$における$F$の微分(differential of $F$ at $p$)とは,
$v$が速度ベクトルとなるような曲線$\gamma_v$($\gamma_v(0)=p$)に対して,
$(dF)_p: T_pM\rightarrow T_{F(p)}N$, $v\mapsto \left((C^\infty(N)\ni)f \mapsto \dfrac{d(f\circ F\circ\gamma_v)}{dt}(0)\right)$(edited:2025/09/25 18:10)

写像の微分は線形写像です.

写像の微分は線形写像

$C^\infty$多様体$M$, $N$に対して$C^\infty$写像$F:M\longrightarrow N$が与えられたとき, $T_pF$は線形写像.

疲れたのでここの証明は追っていませんが, 多様体のような曲がった空間上にくっついたまっすぐな接平面同士のでの基底変換なのでそれはそうみたいな感じしますね(疲れ).

区切りがいいのでここで一旦切ります. 続き(ふくせんかいしゅう)は明日.

参考文献

[1]

254A, Notes 3a: Eigenvalues and sums of Hermitian matrices, 閲覧日 2023年10月15日, https://terrytao.wordpress.com/2010/01/12/254a-notes-3a-eigenvalues-and-sums-of-hermitian-matrices/#more-3341

[2]

Barry C. Arnold, Majorization and the Lorenz Order: A Brief Introduction, Lecture Notes in Statistics, Springer New York, NY, 2012, 14

[3]

Rajendra Bhatia, Matrix Analysis, Graduate Texts in Mathematics, Springer New York, NY, 2013, 33-34

[4]

Albert W. Marshall , Ingram Olkin , Barry C. Arnold, Inequalities: Theory of Majorization and Its Applications, Springer Series in Statistics, Springer New York, NY, 2010

[5]

Schur–Horn theorem, 閲覧日 2023年10月29日, https://en.wikipedia.org/wiki/Schur%E2%80%93Horn_theorem

[6]

Loring W. Tu, An Introduction to Manifolds, Universitext

投稿日：2023年12月23日

更新日：2025年9月24日