観測されるデータをまとめて
ここで
適当な確率変数
と書けるとしよう. ここでの積分記号は定義域全区間に渡る積分を意味する.
この記事ではそれ以外の範囲での積分は出てこないので混乱することは多分ないだろうと思う.
条件付き確率より,
であるから, 両辺の対数の期待値を取り,
も成り立つ. ここでの期待値は「
である. これも単に
さて, EMアルゴリズムでは, (1)式の第1項を求め(期待値を取る操作なのでこれをEステップと呼ぶ), 第1項が大きくなるようにパラメータを更新する(最大化を目指す操作なのでこれをMステップと呼ぶ).
EMアルゴリズムでは右辺の第2項は明示的に計算する必要がない.
なぜならば, ある
が成り立つ. 3行目はイェンセンの不等式による.
よって, 「第1項が大きくなるようにパラメータを更新する」すなわち
が満たされていれば,
も成り立つことがわかる.
これがEMアルゴリズムの基礎である.
MAP推定の場合も, 尤度に事前分布の密度をかけ合わせるだけで全く同様の議論ができる.