0
応用数学解説
文献あり

PRML1.68式の導出方法をガッツリ考えてみる。

20
0

やりたいこと

PRML本に出てくる以下の1.68式が不明のため、導出を試みます。

<1.68式>

p(t|x,t,x)=p(t|x,w)p(w|t,x)dw

事後予測分布と事後分布の一般的な関係性

1.68式を証明する前に、事後予測分布と事後分布の一般的な関係性を述べます。
※PRML本の記号と混同しないように、このパートだけ敢えて別の記号を用いております。

n個の与えられたデータの確率変数Y=(Y1,Y2,...,Yn)と予測したい確率変数Yは、パラメータを表す確率変数Θの下で独立とします。すなわち、それぞれの実現値をy,y,θと表記したとき、その条件付確率について
p(y,y|θ)=p(y|θ)p(y|θ)
が成り立つとします(このような性質を条件付独立といいます)。
このとき、事後予測確率p(y|y)は事後確率p(θ|y)を用いて次のように表すことができます。
p(y|y)=p(y|θ)p(θ|y)dθ

以下のようにして求めることができます。
p(y|y)=p(y,y)p(y)=1p(y)p(y,y,θ)dθ=1p(y)p(y,y|θ)p(θ)dθ=1p(y)p(y|θ)p(y|θ)p(θ)dθ=1p(y)p(y|θ)p(y,θ)dθ=p(y|θ)p(y,θ)p(y)dθ=p(y|θ)p(θ|y)dθ

右辺の意味

ところで、この右辺はp(y|θ)p(θ|y)で確率加重平均していることから、
p(y|y)=E[p(y|Θ)|Y=y]
のように表記することもできます。ここで、E[|Y=y]は条件付確率密度関数p(θ|y)を持つ確率変数の期待値です。つまり、ある関数g(θ)について、
E[g(Θ)|Y=y]:=g(θ)p(θ|y)dθ
で定義される条件付期待値です。

p(y|θ)確率モデルと呼ばれます。上記の算式は、与えられたデータyから事後分布(yが与えられた下でのΘの分布)を推定し、事後分布から作成した(yが与えられた下での)確率モデルp(y|Θ)の条件付期待値が事後予測分布p(y|y)になることを意味していると言えます。

データy確率モデルの設定と事後分布の推定事後予測確率p(y|y)を確率モデルの条件付期待値によって推定
<補足>
多くの機械学習の書籍等では記号の煩雑さを避けるため、確率変数や条件付であることを明記せずにE[p(y|θ)]のような表記がなされることが多いようです。
この場合でも上記の条件付期待値E[p(y|Θ)|Y=y]と同じ式を意味します。

1.68式の証明にあたっての課題

さて、この等式p(y|y)=p(y|θ)p(θ|y)dθを1.68式にそのまま適用しようとすると上手く行きません。
例えば、yx,tに、yt,xに置き換えるだけではp(x,t|t,x)となって1.68式の左辺p(t|x,t,x)と一致せず、
yt|xに、yt,xに置き換えてもp(t|x|t,x)のような表記となり、一般に見られない記号となってしまうため、この式がp(t|x,t,x)とどう関係するのか更に検討しなければなりません。

そのため、以下のような仮定を設定して1.68式の証明を試みることとします。

記号の定義と仮定

1.68式に出てくる記号とそれぞれの仮定を整理しておきます。
まず、記号はPRML本に基づくと以下の通りです。

<記号の定義>

訓練データセット

  • x=(x1,...,xN)TN個の訓練データの入力値
  • t=(t1,...,tN)TN個の訓練データの出力値
  • (x,t):訓練データセット(入力値と出力値の組み合わせ)

予測データセット

  • x:予測データの入力値
  • t:予測データの出力値(入力値とパラメータから出力される値)
  • (x,t):予測データセット(入力値と出力値の組み合わせ)

パラメータセット

  • w:(訓練データセットから推定される)パラメータ

PRML本では明記されておりませんが、通常は訓練データセット・予測データセット・パラメータには以下の関係性が仮定されます。

<仮定①>

xと訓練データ(x,t)は互いに独立である。すなわち、
p(x,t,x)=p(x)p(t,x)

これは予測データセットの入力値xが訓練データセット(x,t)とは関連しないことを意味します。

<仮定②>

xとパラメータwは互いに独立である。すなわち、
p(x,w)=p(x)p(w)

パラメータwは訓練データセット(x,t)のみで推定されることから、訓練データセットと独立なxはパラメータwとも独立となります。

<注意>
予測データの出力値tはパラメータwおよびこれを推定するための訓練データセット(x,t)によって予測される値であることから、tについては仮定①②を設定せず、入力値xについてのみ仮定①②を設定していることを補足しておきます。

<仮定③>

予測データセット(x,t)と訓練データセット(x,t)は、パラメータwが与えられた条件の下で互いに独立である。すなわち、
p(t,x,t,x|w)=p(t,x|w)p(t,x|w)

訓練データセットと予測データセットはパラメータが固定されれば互いに関連しないという条件付独立を仮定します。
これは前記の命題1の条件付独立p(y,y|θ)=p(y|θ)p(y|θ)と同じ仮定となります。

1.68式の証明

以上の仮定のもと、1.68式を証明していきます。

まず、左辺p(t|x,t,x)を以下のように式変形していきます。
p(t|x,t,x)=p(t,x,t,x)p(x,t,x)=1p(x,t,x)p(t,x,t,x,w)dw=1p(x,t,x)p(t,x,t,x|w)p(w)dw=1p(x,t,x)p(t,x|w)p(t,x|w)p(w)dw
最後の等式は仮定③「(t,x)(t,x)wの下での条件付独立である」ことを用いました。
ここで、
p(t,x|w)=p(t,x,w)p(w)=p(t|x,w)p(x,w)p(w)p(t,x|w)=p(t,x,w)p(w)=p(w|t,x)p(t,x)p(w)
を代入すると次式が得られます。
p(t|x,t,x)=1p(x,t,x)(p(t|x,w)p(x,w)p(w))(p(w|t,x)p(t,x)p(w))p(w)dw=p(t|x,w)p(w|t,x)(p(x,w)p(w)p(t,x)p(x,t,x))dw
余分な(p(x,w)p(w)p(t,x)p(x,t,x))が出てきました。これについては、

  • 「仮定②xwが互いに独立である」ことより、 p(x,w)=p(x)p(w)
  • 「仮定①x(t,x)が互いに独立である」ことより、p(x,t,x)=p(x)p(t,x)

となるので、
(p(x,w)p(w)p(t,x)p(x,t,x))=(p(x)p(w)p(w)p(t,x)p(x)p(t,x))=1
よって、求める等式
p(t|x,t,x)=p(t|x,w)p(w|t,x)dw
が得られました。

左辺と右辺それぞれの意味

1.68式の左辺p(t|x,t,x)は訓練データセット(t,x)と予測データの入力値xが与えられた下でのtの確率(事後予測確率)です。
一方、右辺の積分はp(t|x,w)p(w|t,x)で確率加重平均していることから、
p(t|x,w)=E[p(y|x,W)|T=t,X=x]
のように表記することもできます。ここで、E[|T=t,X=x]は条件付確率密度関数p(w|t,x)を持つ確率変数の期待値です。つまり、ある関数g(w)について、
E[g(W)|T=t,X=x]:=g(w)p(w|t,x)dw
で定義される条件付期待値です。
p(t|x,w)確率モデルと呼ばれます。上記の算式は、与えられた訓練データセット(t,x)から事後分布を推定し、事後分布から作成した確率モデルp(y|x,W)の条件付期待値が事後予測分布p(t|x,t,x)になることを意味していると言えます。
訓練データ(t,x)確率モデルの設定と事後分布(パラメータwの分布)の推定入力値xが与えられた下での事後予測確率p(t|x,t,x)を確率モデルの条件付期待値によって推定

<補足>
多くの機械学習の書籍等では記号の煩雑さを避けるため、確率変数や条件付であることを明記せずにE[p(y|w)]のような表記がなされることが多いようです。
この場合でも上記の条件付期待値E[p(y|x,W)|T=t,X=x]と同じ式を意味します(確かにこの表記は冗長すぎる気がしますね)。
機械学習系の数学では期待値の記号を簡略化することが多いため、文脈からどの確率密度関数で期待値を計算しているかを判断する必要があります。

疑問

「1.68式の証明にあたっての課題」のところで述べましたが、命題1の等式p(y|y)=p(y|θ)p(θ|y)dθに対して形式的に「yt|x」、「y(x,t)」、「θw」に置き換えることで、
p(t|x|t,x)=p(t|x|w)p(w|t,x)dw
という式が出てきます。もし一般の事象A,B,Cに対してP(A|B|C)=P(A|B,C)が成り立てば、

p(t|x|t,x)=p(t|x,t,x),p(t|x|w)=p(t|x,w)
より仮定①②を満たさずとも仮定③のみで1.68式が導かれます。しかしながら、一般にP(A|B|C)が定義されるのか調べても分かりませんでした。

※なお、仮にB,Cが独立な場合にP(A|B|C)=P(A|B,C)が成り立つとしたら、仮定①②(および仮定③)によって1.68式が導かれます。

参考文献

[1]
C.M. ビショップ (著), パターン認識と機械学習 上
投稿日:2024211
更新日:2024211
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

数学の勉強用

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. やりたいこと
  2. 事後予測分布と事後分布の一般的な関係性
  3. 記号の定義と仮定
  4. 1.68式の証明
  5. 左辺と右辺それぞれの意味
  6. 疑問
  7. 参考文献