まず次のように記号を定義する.
leave-one-out(loo)情報量を次で定義する:
$$ \operatorname{LOOIC} =-\sum_{k=1}^n \log \left( \int p(x_k|\theta) \phi^*_k(\theta)\,d\theta. \right) $$
この右辺は「データを1個抜いて作った事後分布で作った予測分布で抜いておいたデータの対数尤度を評価したときの値の総和」を意味している.
これと事後分布の定義;
$$
\phi^*(\theta) = \frac{\phi(\theta)p(x_k|\theta)\prod_{i=1}^n p(x_i|\theta)\,d\theta}{\int \phi(\theta)\prod_{i\ne k} p(x_i | \theta)\,d\theta}
$$
から愚直に計算して, 次を得る.
$$\begin{aligned}
\operatorname{LOOIC} &= -\sum_{k=1}^n \log\left(
\frac
{\int \phi(\theta)p(x_k|\theta)\prod_{i\ne k} p(x_k|\theta)\,d\theta}
{\int \phi(\theta)\prod_{i\ne k} p(x_i | \theta)\,d\theta} \right)
\\ &= -\sum_{k=1}^n \log\left(
\frac
{\int \phi(\theta)\prod_{i=1}^n p(x_i | \theta)\,d\theta}
{\int \phi(\theta)p(x_i|\theta)^{-1}\prod_{i=1}^n p(x_i| \theta)\,d\theta}
\right)
\\ &= \sum_{k=1}^n \log\left(
\frac
{\int \phi(\theta)p(x_k|\theta)^{-1}\prod_{i=1}^n p(x_i|\theta)\,d\theta}
{\int \phi(\theta)\prod_{i=1}^n p(x_i | \theta)\,d\theta}
\right)
\\ &=\sum_{k=1}^n\log \left( \int p(x_k|\theta)^{-1} \phi^*(\theta) \, d \theta\right)
\end{aligned}$$
この等式は「サンプル1つあたりの尤度の逆数を事後分布により平均したものの総和」で loo 情報量が得られることを示している. つまり事後分布を何回も作り直す必要がなくなって便利である.
汎化損失を次で定義する:
$$
\operatorname{GE} = -\int q(x) \log p(x) \,dx.
$$
ここで $q(x)$ はデータを生成した分布, $p(x)$ は予測分布の密度関数である.
汎化損失を次のように書き直してみる:
$$ \operatorname{GE} = \int q(x) \log \frac{q(x)}{p(x)} \,dx-\int q(x) \log q(x) \,dx. $$
この等式から,
であるから, 汎化損失が小さいほどデータを生成した分布に近い予測分布が得られていることが言える.
loo 情報量は汎化損失をデータ(標本の実現値)で置き換えて計算しているので, 標本サイズ $n$ が大きいとき汎化損失の近似となる.
一般にデータを生成した分布 $q(x)$ は未知(それがわかっていたら統計的推定をする必要がない場面ということ)であり, 汎化損失は直接計算することができないため, 汎化損失が近似的にでも計算できることは嬉しい.