こんにちは.
Le Algorithm
の著者をしているのぶしみ(
@knewknowl
)と申します. 数学系の記事を執筆しやすそうなMathlogというサービスを知ったので, 試しがてらに一記事を執筆しようと思い立ったのでエクスパンダーグラフについての紹介記事を書いています.
グラフ理論やグラフアルゴリズム関連の研究に携わると「エクスパンダーグラフ」という単語に出会うことがあります. この記事ではこのエクスパンダーグラフについて概説します. 前提知識としては, 線形代数の基本的な事柄(固有値の定義とか)が分かっていれば大丈夫です. 念の為, 本記事の末尾に付録Aとして行列のスペクトルノルムの定義や基本的な性質を載せています.
1. 基本的な定義
基本的な用語の定義をします. グラフの隣接行列, 遷移確率行列, グラフラプラシアンの定義を知っていれば1章は読み飛ばして頂いても構いません.
有限集合に対し,とします. に対し, 組をグラフ (graph)と呼びます (正確には有限無向グラフですが, この記事では簡単にグラフとします) ここでを辺集合, を頂点集合と呼び, それぞれの要素を辺(edge)及び頂点(vertex)と呼びます. この記事中では頂点集合のサイズをで表すことにします.
グラフの各頂点に対し, をの隣接頂点集合とし, をの次数(degree)と呼びます. 全ての頂点の次数がに等しいグラフを-正則グラフ(-regular graph)または単に正則グラフ(regular graph)と呼びます.
グラフの隣接行列(adjacency matrix)を以下で定めます:
また, 対角行列を
とします. また, を成分が全てのベクトルとし, でゼロベクトルを表すことにします.
で与えられる行列をの遷移確率行列(transition matrix)と呼びます. 特に, 遷移確率行列の各成分は, のときはとなります. 隣接行列は対称行列ですが, は必ずしも対称にはならないことに注意してください.
遷移確率行列という名称は, ランダムウォークに由来します. 一つの頂点から始めて隣接頂点を一様ランダムに選びそこに遷移するという確率過程をランダムウォーク(random walk) (より正確には, 単純ランダムウォーク) と言いますが, グラフ上のランダムウォークにおいて頂点から頂点に移動する確率はとなり, この確率を全てのに対し行列として表現したものが遷移確率行列になります.
で与えられる行列をグラフラプラシアン (graph Laplacian)と呼びます. また, で与えられる行列を正規化したラプラシアン (normalized Laplacian)と呼びます. ここで, はそれぞれ, で与えられる行列です.
2. スペクトルグラフ理論
グラフに付随する行列を定義しました. 実はグラフ理論には, グラフの構造的性質をその固有値を使って解析する理論があり, スペクトルグラフ理論(spectral graph theory)と呼ばれています.
2.1. 実固有値性
隣接行列とグラフラプラシアン及びその正規化はどれも対称行列なので実固有値を持ちます. 一方で遷移確率行列は対称ではないので一見すると実固有値を持たないように見えますが, 実はの固有値は全て実数になることが示せます:
任意のグラフに対し, 遷移確率行列の固有値は実数であり, を満たす.
行列を考えます. この行列は対称行列なので, 全ての固有値は実数になります. の固有値に対応する固有ベクトルをとします. すなわち, が成り立ちます. ベクトルを考えます.
より, とは同じ固有値を持ちます.
また,
Gershgorinの定理
より, の全ての固有値はに属し, 特によりはを最大固有値として持ちます.
また, グラフラプラシアンはより, 必ずを固有値に持ちます. 特にグラフが正則グラフのとき, なので, どの行列を考えても本質的に等価です (は単位行列).
2.2. 連結性
連結性
グラフを考える. 任意の二頂点に対して, 以下を満たす頂点の列が存在するとき, は連結(connected)であるという:
connectivity
直感的に言えば, どの二頂点も辺を辿って行き来できればそのグラフは連結であるということになります.
連結成分を二つ持つグラフを考え, その連結成分のなすグラフをとし, それぞれの遷移確率行列をとします. するとの隣接行列は, 頂点番号を適切に振り分けることで以下のブロック対角行列として表すことができます:
ここでは全ての要素がゼロの行列です. ベクトルとを考えると, どちらもを満たすことが確認できます. なのでの固有値1の多重度はになっていて, これはの連結成分の個数と等しくなります. 一般的に, 次の命題が成り立ちます.
グラフの遷移確率行列の固有値1の多重度は, の連結成分の個数と等しい. さらにこの値は, のグラフラプラシアンの固有値0の多重度と等しい.
2.3. 二部グラフ
二部グラフ
グラフを考える. の分割が存在して, とできるとき, は二部グラフ(bipartite graph)であるという.
bipartite_example
直感的に言えば, の間にしか辺がないような分割がとれるグラフのことを二部グラフといいます. 二部グラフの遷移確率行列は次の形で表すことができます:
ここでです. 内部には辺がないので, -成分は全てになるからこのように表すことができます. ベクトルをの固有値に対する固有ベクトルとします. このとき, 及びが成り立ちます. なので, に対してを計算すると
すなわちはの固有値に対する固有ベクトルになっています! ですので, の固有値はに関して対称的になっていて, が成り立つことがわかります. 特になのでです. 実は逆も成り立っており, 固有値のに関する対称性がグラフの二部性を特徴付けています:
グラフが二部グラフであることの必要十分条件は, その遷移確率行列の固有値が全てのに対しが成り立つことである.
2.4. 例
色んなグラフに対しの固有値を見ていきましょう.
サイクルグラフ
サイクルグラフ は, に対してで定義されるグラフです (下図).
C_8
は-正則グラフで, 遷移確率行列は
です. 少し計算は面倒ですが, 固有値を求めると () となります. が偶数のときは二部グラフになりますが, このときこれらの固有値はに関する対称性を持ちます.
完全グラフ
完全グラフは, かつとなるグラフです. つまり全ての頂点対に辺があるグラフなので, -正則です. 隣接行列はに対し遷移確率行列はとなります. 行列はが固有値の固有ベクトルになっていて, 他の全ての固有ベクトルはに直交するためとなるため, は多重度1の固有値と多重度の固有値を持ちます. このことからの固有値はとです.
3. エクスパンダー
エクスパンダーグラフの定義は色んな仕方があります. この記事では以下で定めた-エクスパンダーという概念を考えます (他にも定義4の-エクスパンダーという用語も知られていますがこの定義は本記事ではここ以外では取り上げないので, 本記事を読む上では覚えなくても構いません).
-エクスパンダー
グラフの遷移確率行列の固有値を大きい順にとする. を満たすとき, を-エクスパンダー(expander)と呼ぶ.
-エクスパンダー
頂点-正則グラフが-エクスパンダーであるとき, を特に-エクスパンダーと呼ぶ.
簡潔に言えば, 非自明な固有値が全て小さい値をとるときにそのグラフをエクスパンダーといいます. 任意のグラフは-エクスパンダーですが, 特に二部グラフは明らかに-エクスパンダーです. 命題3で主張したように二部グラフは固有値に対称性があるのでも自明な固有値に含まれてしまいます. 二部グラフに対してエクスパンダーを議論したい場合はを考えることがあります. 本記事では特にこのようなことはせず, 二部グラフは1-エクスパンダーであるとします(なので二部グラフに対しては自明な事実しか言えません).
専門家向けの注釈(断り):
正則グラフに対してエクスパンダーなものを定義して議論するという文献が非常に多いため, 定義4の方が知れ渡っています. しかしそうすると正則でないグラフに対する議論などができないので本記事では定義3を採用しています. また, グラフラプラシアンを使ったエクスパンダーの定義もよく知られています. しかし, 遷移確率行列の固有値を考えた方がExpander Mixing Lemmaの導入が楽なので遷移確率行列による定義を採用しました.)
エクスパンダーグラフは線形代数のテクニックと非常に親和性が高く, 面白い性質が多く知られています. 以降では, -エクスパンダーの色んな性質を紹介していきます. 結論から言えばエクスパンダーは辺がの全体に満遍なく散らばっているという構造的性質を持つことを見ていきます.
4. Expander Mixing Lemma
を正則グラフとします. 二つの頂点部分集合に対してとします. 言い換えれば, はとの間にある辺の集合になっていて, が大きいほど間の結合が強いことを意味します.
E(S,T)1
特に, のとき, は内の辺を2回カウントすることに注意してください. 例えば下図では辺がに含まれているため, なのでです.
E(S,T)2
正則グラフに対するExpander Mixing Lemma
を-正則かつ-エクスパンダーとする. このとき, 任意のに対して
定理4の気持ちを述べます. グラフは-正則グラフなので, です. グラフは最大で本の辺を持ちうるので, の辺密度はになります. Expander Mixing Lemmaは, 小さいに対してグラフが-エクスパンダーであるならば, この辺はに満遍なく散らばっているということを主張している定理です. 満遍なく辺が散らばっているとき, どの二つの頂点集合に対して間の辺の密度は全体の辺密度とほぼ同じ値になります. すなわち, となります. Expander Mixing Lemmaはこのの評価を行っていると解釈することができます.
(注: この証明で出てくる行列のノルムや付随する不等式については本記事の最後の章に付録として定義などを載せてあるので, 分からない方はそれを参照してください)
頂点部分集合に対し, をの指示ベクトルとする. すなわち
をの隣接行列とし, 行列について
となります. 一方で, Cauchy-Schwarzの不等式より
ここで, は行列のスペクトルノルム, は行列のレイリー商としています (付録A参照).
行列とおき, そのレイリー商を評価します. が正則なので, . すなわちとなるので, とすると(ここではと直交),
今, を最大化するを考えると, より, でなければなりません. このときとなりますが, の直交性からなので, となることから, です. はの第一固有ベクトルに直交しているので, です (は行列の番目に大きい固有値). 仮定よりグラフは-エクスパンダーなので, です. 今までの議論をまとめると
を得ます.
一般グラフに対するExpander Mixing Lemma
非正則グラフに対するExpander Mixing Lemmaはあまりグラフ理論の文脈では注目されていませんが, ランダムウォークの理論では知れ渡っています. 定理の主張を述べるために少し準備します.
定常分布
グラフに対してベクトルを定常分布(stationary distribution)という.
実際, 定常分布は上の確率分布になります. というのも
握手補題
より, なので, になります. 例えばが正則グラフの場合はは上の一様分布になります. また, はの左固有ベクトルになっていて, を満たすことが簡単に確認できます. このことから, 適当な初期分布から始めてと定義すると, 適当の条件下ではに収束することが示せます. これが「定常」分布たる所以です.
最後に以下を定義します:
はマルコフ連鎖理論においてedge measure[2]と呼ばれる値で, 実はが成り立ちます. また, は「の隣接点をランダムに選んだときにその点がに含まれている確率」と解釈することができます. 例えばが-正則のときは, より
となります.
一般グラフのExpander Mixing Lemma
定理5の証明は本記事では省きますが, 文献[2]に載っています. また, が正則グラフの場合, 定理5は定理4と等価になります.
5. Cheegerの不等式
Cheeger定数やCheegerの不等式は多様体の文脈で知られている結果ですが, その離散の世界における解釈がグラフ理論で知られています. 導入を単純にするために, まずは正則グラフを考え, そのあとに一般のグラフに対するCheegerの不等式を紹介します.
正則グラフの辺拡張率
-正則グラフとその頂点部分集合に対し, 辺拡張率(edge expansion) をで定める. グラフの辺拡張率(またはCheeger定数)をで定める.
頂点部分集合に対してはに接続している辺の総数になっていて, はこれらの辺のうちの外側と繋がっているものをカウントしています. つまり, が大きいということはの辺のうち外部に接続しているものが多いということを意味しており, が小さいということはは外部から孤立気味になっているということを意味します.
phi
Cheegerの不等式
正則グラフの正則化されたグラフラプラシアンの第二固有値(i.e., 二番目に大きい固有値)をとする. このとき
-正則グラフのはとなるので, をの固有値とすると, となります. したがってCheegerの不等式は遷移確率行列の言葉を使うと次のように言い直すことができます.
正則グラフの遷移確率行列の固有値をとする. このとき,
特にがエクスパンダーのとき, が小さいのでが大きいはずです. すなわちどのに対してが大きいので, どのに対してもは孤立気味になっていないということになり, 結果としてExpander Mixing Lemmaの帰結(辺が満遍なく分散している)のようなことがわかります.
一般グラフに対するCheegerの不等式
5章で定義したedge measure と定常分布を思い出してください. 特に, です. が正則グラフの場合は及びとなります.
一般グラフの辺拡張率
グラフとその頂点部分集合に対し, 辺拡張率をで定める. また, グラフの辺拡張率をで定める.
特に, 命題1の証明より, の固有値との固有値の間にはという関係が成り立つので, 定理7は遷移確率行列の言葉で言い直すこともできます.
一般グラフに対するCheegerの不等式
グラフの正規化したグラフラプラシアンの第二固有値をとする. このとき,
7. 結論
グラフ理論でよく見かけるエクスパンダーというグラフの性質を見てきました. 特に, グラフの構造的性質をそれに付随する行列の固有値から導出していくスペクトルグラフ理論という理論の紹介を簡単に行い, その後にExpander Mixing LemmaとCheegerの不等式を紹介しました. 正則グラフに対するExpander Mixing Lemma(定理4)の証明を見ると分かるように, 線形代数の色んな道具を使っています. グラフという組合せ論的なものの性質を線形代数を使って解析できるというのが面白いですね.
8. Notes
参考文献[1]はマルコフ連鎖の非常に有名な英語書籍で, ランダムウォークなどを学びたい方にはおすすめです. 色んな結果が載っているので論文を書くときに引用されることも多いです.
参考文献[2]は計算量理論の非常に有名な本です. 英語で書かれていますが, 幅広いトピックを網羅しており, 21章と22章ではエクスパンダーグラフを応用した様々な理論的結果を紹介しています.
付録A. 線形代数の復習 (ノルム)
行列やベクトルのノルムとその基本的な性質を書いておきます. 知っている方は読まなくても大丈夫です. この記事では基本的に実ベクトルや実行列を扱います.
ユークリッドノルム, スペクトルノルム
ベクトルに対し, そのユークリッドノルム(Euclidean norm)をで定める.
行列に対し, そのスペクトルノルム(spectral norm)をで定める.
次の命題はの定義より明らかですが, よく使います.
スペクトルノルムと特異値・固有値の関係
任意の行列に対し, はの最大固有値の平方根に等しい. 特に, が対称行列のときは. ただしはの固有値.
レイリー商
対称行列とベクトルに対し, そのレイリー商(Rayleigh quotient)をで定める.
レイリー商と最大固有値の関係
対称行列の最大固有値はに等しい. 最小固有値はに等しい.