EM（expectation–maximization）アルゴリズムの基礎

140

観測されるデータをまとめて $y$ と書くことにし, 次の対数尤度関数を最大にする $θ$ を求めたいとする.

$ℓ (θ) = \log p (y | θ)$

ここで $p (\cdot)$ は確率変数ごとに定義された密度を表す記号とした（つまり $p (y)$ と $p (z)$ が同じ関数とは限らない）.

適当な確率変数 $z$ を用いて,
$p (y | θ) = \int p (y, z | θ) d z$
と書けるとしよう. ここでの積分記号は定義域全区間に渡る積分を意味する.
この記事ではそれ以外の範囲での積分は出てこないので混乱することは多分ないだろうと思う.

条件付き確率より,
$p (z | y, θ) = p (y, z | θ) / p (y | θ)$
であるから, 両辺の対数の期待値を取り,
$\begin{matrix} (1) & \log p (y | θ) = E [\log p (y, z | θ)] - E [\log p (z | y, θ)] \end{matrix}$
も成り立つ. ここでの期待値は「 $y$ を所与としたときの $z$ の条件付き期待値」,
$E [f (z)] = \int f (z) p (z | y) d z$
である. これも単に $E [\cdot]$ という記号で書いてしまったが, この記事ではこれ以外の分布による期待値は出てこない.

さて, EMアルゴリズムでは, (1)式の第1項を求め（期待値を取る操作なのでこれをEステップと呼ぶ）, 第1項が大きくなるようにパラメータを更新する（最大化を目指す操作なのでこれをMステップと呼ぶ）.

EMアルゴリズムでは右辺の第2項は明示的に計算する必要がない.

なぜならば, ある $θ_{0}$ を固定して任意の $θ$ を考えると,
$\begin{aligned} E [\log p (z | y, θ)] - E [\log p (z | y, θ_{0})] \\ = \int \log (\frac{p (z | y, θ)}{p (z | y, θ_{0})}) p (z | y, θ_{0}) d z \\ \leq \log (\int \frac{p (z | y, θ)}{p (z | y, θ_{0})} p (z | y, θ_{0}) d z) = \log 1 = 0 \end{aligned}$
が成り立つ. 3行目はイェンセンの不等式による.

よって, 「第1項が大きくなるようにパラメータを更新する」すなわち
$E [\log p (y, z | θ)] - E [\log p (y, z | θ_{0})] \geq 0$
が満たされていれば,
$\log p (y | θ) - \log p (y | θ_{0}) \geq 0$
も成り立つことがわかる.