0
大学数学基礎解説
文献あり

Maximum Entropy Inverse Reinforcementの行間埋め

80
0
$$$$

制約付きエントロピー最大化問題について考える。

\begin{eqnarray} \max & & -\sum_{i=1}^M p_i\log p_i\\ \mathrm{s.t.} & &\sum_{i=1}^M p_i \mathbf{f}_i=\mathbb{E}[\mathbf{f}]\\ & &\sum_{i=1}^Mp_i = 1 \end{eqnarray}

ラグランジュの未定乗数法より、解析解をえる。

\begin{eqnarray} p_i = \dfrac{\exp(\theta^T\mathbf{f}_i)}{\sum_{i=1}^M\exp(\theta^T\mathbf{f}_i)} \end{eqnarray}

ラグランジュの未定乗数法

\begin{eqnarray} L(p_i,\theta,\lambda) = - \sum_{i=1}^M p_i\log p_i + \theta^T(\sum_{i=1}^M p_i \mathbf{f}_i - \mathbb{E}[\mathbf{f}]) + \mu^T(\sum_{i=1}^Mp_i- 1) \end{eqnarray}

$\dfrac{\partial L}{\partial p_i}=0$より、

$-\log p_i - 1 +\theta^T\mathbf{f}_i+\mu = 0$

よって、

$p_i = \exp (-1 +\theta^T\mathbf{f}_i+\mu)$

$\dfrac{\partial L}{\partial \mu}=0$より、

\begin{eqnarray} \sum_{i=1}^M p_i = 1 \end{eqnarray}

よって、

\begin{eqnarray} && \sum_{i=1}^M \exp (-1 +\theta^T\mathbf{f}_i+\mu) = 1\\ && \exp(-1+\mu)\sum_{i=1}^M \exp (\theta^T\mathbf{f}_i) = 1\\ && \exp(-1+\mu) = \dfrac{1}{\sum_{i=1}^M \exp (\theta^T\mathbf{f}_i)} \end{eqnarray}
よって、

\begin{eqnarray} p_{i} = \dfrac{\exp (\theta^T\mathbf{f}_i)}{\sum_{i=1}^M \exp (\theta^T\mathbf{f}_i)} \end{eqnarray}

参考文献

投稿日:2023314

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

hdk105
hdk105
14
10461
計測・制御・情報に興味があります. 備忘録として残していきます.

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中