やりたいこと
PRML本に出てくる以下の1.68式が不明のため、導出を試みます。
事後予測分布と事後分布の一般的な関係性
1.68式を証明する前に、事後予測分布と事後分布の一般的な関係性を述べます。
※PRML本の記号と混同しないように、このパートだけ敢えて別の記号を用いております。
個の与えられたデータの確率変数と予測したい確率変数は、パラメータを表す確率変数の下で独立とします。すなわち、それぞれの実現値をと表記したとき、その条件付確率について
が成り立つとします(このような性質を条件付独立といいます)。
このとき、事後予測確率は事後確率を用いて次のように表すことができます。
右辺の意味
ところで、この右辺はをで確率加重平均していることから、
のように表記することもできます。ここで、は条件付確率密度関数を持つ確率変数の期待値です。つまり、ある関数について、
で定義される条件付期待値です。
は確率モデルと呼ばれます。上記の算式は、与えられたデータから事後分布(が与えられた下でのの分布)を推定し、事後分布から作成した(が与えられた下での)確率モデルの条件付期待値が事後予測分布になることを意味していると言えます。
<補足>
多くの機械学習の書籍等では記号の煩雑さを避けるため、確率変数や条件付であることを明記せずにのような表記がなされることが多いようです。
この場合でも上記の条件付期待値と同じ式を意味します。
1.68式の証明にあたっての課題
さて、この等式を1.68式にそのまま適用しようとすると上手く行きません。
例えば、をに、をに置き換えるだけではとなって1.68式の左辺と一致せず、
をに、をに置き換えてものような表記となり、一般に見られない記号となってしまうため、この式がとどう関係するのか更に検討しなければなりません。
そのため、以下のような仮定を設定して1.68式の証明を試みることとします。
記号の定義と仮定
1.68式に出てくる記号とそれぞれの仮定を整理しておきます。
まず、記号はPRML本に基づくと以下の通りです。
<記号の定義>訓練データセット
- :個の訓練データの入力値
- :個の訓練データの出力値
- :訓練データセット(入力値と出力値の組み合わせ)
予測データセット
- :予測データの入力値
- :予測データの出力値(入力値とパラメータから出力される値)
- :予測データセット(入力値と出力値の組み合わせ)
パラメータセット
PRML本では明記されておりませんが、通常は訓練データセット・予測データセット・パラメータには以下の関係性が仮定されます。
<仮定①>と訓練データは互いに独立である。すなわち、
これは予測データセットの入力値が訓練データセットとは関連しないことを意味します。
<仮定②>とパラメータは互いに独立である。すなわち、
パラメータは訓練データセットのみで推定されることから、訓練データセットと独立なはパラメータとも独立となります。
<注意>
予測データの出力値はパラメータおよびこれを推定するための訓練データセットによって予測される値であることから、については仮定①②を設定せず、入力値についてのみ仮定①②を設定していることを補足しておきます。
<仮定③>予測データセットと訓練データセットは、パラメータが与えられた条件の下で互いに独立である。すなわち、
訓練データセットと予測データセットはパラメータが固定されれば互いに関連しないという条件付独立を仮定します。
これは前記の命題1の条件付独立と同じ仮定となります。
1.68式の証明
以上の仮定のもと、1.68式を証明していきます。
まず、左辺を以下のように式変形していきます。
最後の等式は仮定③「とがの下での条件付独立である」ことを用いました。
ここで、
を代入すると次式が得られます。
余分なが出てきました。これについては、
- 「仮定②とが互いに独立である」ことより、
- 「仮定①とが互いに独立である」ことより、
となるので、
よって、求める等式
が得られました。
左辺と右辺それぞれの意味
1.68式の左辺は訓練データセットと予測データの入力値が与えられた下でのの確率(事後予測確率)です。
一方、右辺の積分はをで確率加重平均していることから、
のように表記することもできます。ここで、は条件付確率密度関数を持つ確率変数の期待値です。つまり、ある関数について、
で定義される条件付期待値です。
は確率モデルと呼ばれます。上記の算式は、与えられた訓練データセットから事後分布を推定し、事後分布から作成した確率モデルの条件付期待値が事後予測分布になることを意味していると言えます。
<補足>
多くの機械学習の書籍等では記号の煩雑さを避けるため、確率変数や条件付であることを明記せずにのような表記がなされることが多いようです。
この場合でも上記の条件付期待値と同じ式を意味します(確かにこの表記は冗長すぎる気がしますね)。
機械学習系の数学では期待値の記号を簡略化することが多いため、文脈からどの確率密度関数で期待値を計算しているかを判断する必要があります。
疑問
「1.68式の証明にあたっての課題」のところで述べましたが、命題1の等式に対して形式的に「を」、「を」、「を」に置き換えることで、
という式が出てきます。もし一般の事象に対してが成り立てば、
より仮定①②を満たさずとも仮定③のみで1.68式が導かれます。しかしながら、一般にP(A|B|C)が定義されるのか調べても分かりませんでした。
※なお、仮にが独立な場合にが成り立つとしたら、仮定①②(および仮定③)によって1.68式が導かれます。