0
大学数学基礎解説
文献あり

Maximum Entropy Inverse Reinforcementの行間埋め

199
0

制約付きエントロピー最大化問題について考える。

maxi=1Mpilogpis.t.i=1Mpifi=E[f]i=1Mpi=1

ラグランジュの未定乗数法より、解析解をえる。

pi=exp(θTfi)i=1Mexp(θTfi)

ラグランジュの未定乗数法

L(pi,θ,λ)=i=1Mpilogpi+θT(i=1MpifiE[f])+μT(i=1Mpi1)

Lpi=0より、

logpi1+θTfi+μ=0

よって、

pi=exp(1+θTfi+μ)

Lμ=0より、

i=1Mpi=1

よって、

i=1Mexp(1+θTfi+μ)=1exp(1+μ)i=1Mexp(θTfi)=1exp(1+μ)=1i=1Mexp(θTfi)
よって、

pi=exp(θTfi)i=1Mexp(θTfi)

参考文献

投稿日:2023314
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

hdk105
hdk105
14
15801
計測・制御・情報に興味があります. 備忘録として残していきます.

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中