$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、$X:\Omega\to\mathbb R$ を実数値確率変数とする。
このとき、関数 $F_X:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$
F_X(x):=\mathbb P(\{\omega\in\Omega\mid X(\omega)\le x\})
$$
で定める。この関数 $F_X$ を、確率変数 $X$ の分布関数という。
通常は、
$$
F_X(x):=\mathbb P(X\le x)
$$
と略記する。
確率変数 $X$ が標準正規分布にしたがうとする。すなわち、
$$
X\sim N(0,1)
$$
とする。
このとき、$X$ の確率密度関数 $f_X:\mathbb R\to[0,\infty)$ は、任意の $t\in\mathbb R$ に対して
$$
f_X(t)
=
\frac{1}{\sqrt{2\pi}}
\exp\left(-\frac{t^2}{2}\right)
$$
で与えられる。
したがって、$X$ の分布関数 $F_X:\mathbb R\to[0,1]$ は、任意の $x\in\mathbb R$ に対して
$$
F_X(x)
=
\mathbb P(X\le x)
=
\int_{-\infty}^{x}
\frac{1}{\sqrt{2\pi}}
\exp\left(-\frac{t^2}{2}\right)
\,dt
$$
で与えられる。
関数 $F:\mathbb R\to[0,1]$ について、次の $2$ 条件は同値である。
-すなわち、単調非減少性、右連続性、両端極限の $3$ つの条件は、実数値確率変数の分布関数を特徴づける条件である。
実数値確率変数の分布関数全体の集合を
$$
\Psi
:=
\left\{
F:\mathbb R\to[0,1]
\mid
F\text{ は単調非減少で右連続であり、}
\lim_{x\to-\infty}F(x)=0,\
\lim_{x\to\infty}F(x)=1
\right\}
$$
と定義する。
「すべての分布関数の集合」として定義するため、
特定の確率空間 $(\Omega,\mathcal F,\mathbb P)$ や特定の確率変数 $X$ に依存させない書き方とした。
分布関数の特徴づけより、関数 $F:\mathbb R\to[0,1]$ が $\Psi$ に属することは、
$F$ がある実数値確率変数の分布関数として実現できることと同値である。
$ $
すなわち、任意の $F\in\Psi$ に対して、ある確率空間 $(\Omega,\mathcal F,\mathbb P)$ と実数値確率変数 $X:\Omega\to\mathbb R$ が存在して、
任意の $x\in\mathbb R$ に対して
$$
F(x)=\mathbb P(X\le x)
$$
が成り立つ。
$\Psi$ を実数値確率変数の分布関数全体の集合とする。
集合
$$
\Phi\subseteq\Psi
$$
を、母集団分布の候補として考える分布関数の集合とする。このとき、$\Phi$ を分布関数による統計モデルという。
統計モデル $\Phi$ は、未知の母集団分布 $F_X$ の候補として考える分布関数の集合である。
したがって、統計モデルを定めることは、推測の対象となる母集団分布の候補を制限することである。
なお、実際の母集団分布 $F_X$ が
$$
F_X\in\Phi
$$
を満たす場合、この統計モデルは正しく設定されているという(後述)。
$k\in\mathbb N$ とし、$\Theta\subseteq\mathbb R^k$ を空でない集合とする。
各パラメータ
$$
\boldsymbol\theta=(\theta_1,\ldots,\theta_k)\in\Theta
$$
に対して、分布関数
$$
F_{\boldsymbol\theta}\in\Psi
$$
が対応しているとする。
このとき、
$$
\Phi
:=
\left\{
F_{\boldsymbol\theta}
\mid
\boldsymbol\theta\in\Theta
\right\}
\subseteq\Psi
$$
で定まる統計モデル $\Phi$ を、分布関数によるパラメトリック統計モデルという。
また、$\Theta$ をパラメータ空間といい、$\boldsymbol\theta\in\Theta$ をパラメータという。
パラメトリック統計モデルでは、母集団分布の候補が有限次元のパラメータ
$$
\boldsymbol\theta\in\Theta\subseteq\mathbb R^k
$$
によって指定される。
したがって、分布関数そのものを無制限に考えるのではなく、
$$
F_{\boldsymbol\theta}
$$
という形で表される分布関数だけを候補として考える。
母集団からの $1$ つの観測値を表す実数値確率変数を $X$ とする。
未知の母集団分布が正規分布であると仮定する。ただし、平均と標準偏差は未知であるとする。
このとき、パラメータ空間を
$$
\Theta:=\mathbb R\times(0,\infty)
$$
と定める。
各パラメータ
$$
\boldsymbol\theta=(\mu,\sigma)\in\Theta
$$
に対して、分布関数 $F_{\mu,\sigma}:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$
F_{\mu,\sigma}(x)
:=
\int_{-\infty}^{x}
\frac{1}{\sqrt{2\pi}\sigma}
\exp\left(
-\frac{(t-\mu)^2}{2\sigma^2}
\right)
\,dt
$$
で定める。
これは、平均 $\mu$、分散 $\sigma^2$ の正規分布
$$
N(\mu,\sigma^2)
$$
の分布関数である。
したがって、正規分布族による統計モデルは
$$
\Phi
:=
\left\{
F_{\mu,\sigma}
\mid
(\mu,\sigma)\in\mathbb R\times(0,\infty)
\right\}
\subseteq\Psi
$$
と表される。
$ $
この統計モデルでは、母集団分布 $F_X$ の候補を、すべての分布関数からなる集合 $\Psi$ 全体ではなく、
正規分布の分布関数だけからなる集合 $\Phi$ に制限している。
$ $
すなわち、このモデルでは
$$
F_X\in\Phi
$$
であると仮定し、ある $\mu\in\mathbb R$ と $\sigma>0$ が存在して、
$$
F_X=F_{\mu,\sigma}
$$
と表されると考える。
このとき、統計的推測の対象は、母集団分布 $F_X$ そのものではなく、未知のパラメータ
$$
(\mu,\sigma)\in\mathbb R\times(0,\infty)
$$
である。
$\Psi$ を実数値確率変数の分布関数全体の集合とし、
$$
\Phi\subseteq\Psi
$$
を分布関数による統計モデルとする。
また、真の母集団分布を表す分布関数を
$$
F_X\in\Psi
$$
とする。
モデルが正しく設定されているとは、実際の母集団分布 $F_X$ が、候補として用意した統計モデル $\Phi$ の中に含まれているということである。
したがって、モデルが正しく設定されている場合には、ある候補分布 $F\in\Phi$ が存在して、
$$
F_X=F
$$
が成り立つ。
一方で、モデルが誤指定である場合には、
$$
F_X\notin\Phi
$$
であるため、どの候補分布 $F\in\Phi$ を選んでも、
$$
F_X=F
$$
とはならない。
つまり、モデルが誤って設定されている場合、統計モデル $\Phi$ の中には真の母集団分布そのものは含まれていない。
パラメータ空間 $\Theta$ と、各 $\boldsymbol\theta\in\Theta$ に分布関数 $F_{\boldsymbol\theta}\in\Psi$ を対応させる写像
$$
\boldsymbol\theta\mapsto F_{\boldsymbol\theta}
$$
によって定まるパラメトリック統計モデル
$$
\Phi
=
\left\{
F_{\boldsymbol\theta}
\mid
\boldsymbol\theta\in\Theta
\right\}
$$
が与えられているとする。
また、母集団分布 $F_X$ がこのモデルに含まれているとする。すなわち、
$$
F_X\in\Phi
$$
が成り立つとする。
このとき、
$$
F_X=F_{\boldsymbol\theta_0}
$$
を満たす $\boldsymbol\theta_0\in\Theta$ を、母集団分布 $F_X$ に対応する真のパラメータという。
一般には、異なるパラメータが同じ分布関数を与えることがある。
すなわち、
$$
\boldsymbol\theta\ne\boldsymbol\eta
$$
であっても、
$$
F_{\boldsymbol\theta}=F_{\boldsymbol\eta}
$$
となる場合がある。
この場合、同じ母集団分布 $F_X$ に対して、複数のパラメータが真のパラメータとなり得る。
したがって、真のパラメータは一般には一意に定まらない。
パラメータ空間を
$$
\Theta:=\mathbb R
$$
とする。
各 $\theta\in\Theta$ に対して、分布関数 $F_\theta:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$
F_\theta(x)
:=
\int_{-\infty}^{x}
\frac{1}{\sqrt{2\pi}}
\exp\left(
-\frac{(t-\theta^2)^2}{2}
\right)
\,dt
$$
で定める。
これは平均 $\theta^2$、分散 $1$ の正規分布
$$
N(\theta^2,1)
$$
の分布関数である。
したがって、このパラメトリック統計モデルは
$$
\Phi
:=
\left\{
F_\theta
\mid
\theta\in\mathbb R
\right\}
$$
で与えられる。このとき、たとえば
$$
1\ne -1
$$
であるが、
$$
1^2=(-1)^2=1
$$
であるため、任意の $x\in\mathbb R$ に対して
$$
F_1(x)
=
\int_{-\infty}^{x}
\frac{1}{\sqrt{2\pi}}
\exp\left(
-\frac{(t-1)^2}{2}
\right)
\,dt
=
F_{-1}(x)
$$
が成り立つ。したがって、
$$
F_1=F_{-1}
$$
である。
ここで、実際の母集団分布 $F_X$ が
$$
F_X=F_1
$$
であるとする。このとき、
$$
F_X=F_1=F_{-1}
$$
であるから、$\theta_0=1$ も $\theta_0=-1$ も、どちらも母集団分布 $F_X$ に対応する真のパラメータである。
したがって、このモデルでは真のパラメータは一意に定まらない。
$ $
このように、異なるパラメータ $\theta$ と $\eta$ が同じ分布関数を与える場合、すなわち
$$
\theta\ne\eta
\quad\text{かつ}\quad
F_\theta=F_\eta
$$
となる場合には、モデルは識別可能(後述)ではなく、真のパラメータは一般には一意に定まらない。
パラメータ空間 $\Theta$ と、各 $\boldsymbol\theta\in\Theta$ に分布関数 $F_{\boldsymbol\theta}\in\Psi$ を対応させる写像
$$
\boldsymbol\theta\mapsto F_{\boldsymbol\theta}
$$
によって定まるパラメトリック統計モデル
$$
\Phi
=
\left\{
F_{\boldsymbol\theta}
\mid
\boldsymbol\theta\in\Theta
\right\}
$$
が与えられているとする。
任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta$ に対して、
$$
F_{\boldsymbol\theta}=F_{\boldsymbol\eta}
\Rightarrow
\boldsymbol\theta=\boldsymbol\eta
$$
が成り立つとき、このパラメータ付けは識別可能であるという。
識別可能性とは、異なるパラメータが異なる分布関数を与えるという条件である。
すなわち、対偶を取って任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta$ に対して、
$$
\boldsymbol\theta\ne\boldsymbol\eta
\Rightarrow
F_{\boldsymbol\theta}\ne F_{\boldsymbol\eta}
$$
が成り立つことと同値である。
$ $
したがって、モデルが正しく設定されており、ある $\boldsymbol\theta_0\in\Theta$ が存在して
$$
F_X=F_{\boldsymbol\theta_0}
$$
が成り立つとする。このとき、さらにモデルが識別可能であれば、そのような $\boldsymbol\theta_0$ は一意に定まる。
パラメトリック統計モデル
$$
\Phi
=
\left\{
F_{\boldsymbol\theta}
\mid
\boldsymbol\theta\in\Theta
\right\}
$$
が与えられているとする。
母集団分布 $F_X$ がこのモデルに含まれ、さらにモデルが識別可能であるとする。
このとき、ある一意な $\boldsymbol\theta_0\in\Theta$ が存在して、
$$
F_X=F_{\boldsymbol\theta_0}
$$
が成り立つ。
この一意な真のパラメータ $\boldsymbol\theta_0$ を、観測データを用いて推測する問題を、パラメータ推定問題という。
$\Theta\subseteq\mathbb R^k$ とし、$\Theta$ には $\mathbb R^k$ から誘導されるボレル $\sigma$ 代数を入れる。
$X_1,\ldots,X_n$ を、母集団分布 $F_X$ に独立同分布にしたがう実数値確率変数とする。
可測写像
$$
T_n:\mathbb R^n\to\Theta
$$
によって定まる統計量
$$
\widehat{\boldsymbol\theta}_n
=
T_n(X_1,\ldots,X_n)
$$
を、真のパラメータ $\boldsymbol\theta_0$ の推定量という。
ここで、$\widehat{\boldsymbol\theta}_n$ は観測データ $(X_1,\ldots,X_n)$ の関数であり、未知の真のパラメータ $\boldsymbol\theta_0$ そのものには依存しない。
以下では、$X_1,\ldots,X_n$ を独立同分布な観測値とする。
$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、分布関数によるパラメトリック統計モデル
$$
\Phi
=
\left\{
F_{\boldsymbol\theta}
\mid
\boldsymbol\theta\in\Theta
\right\}
$$
が与えられているとする。
-このとき、観測値 $x$ を固定し、$\boldsymbol\theta$ の関数として
$$
L(\boldsymbol\theta;x)
:=
\prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i)
$$
を定める。この関数 $L(\cdot;x):\Theta\to[0,\infty)$ を、観測値 $x$ に対する尤度関数という。
尤度関数では、観測値 $x_1,\ldots,x_n$ は固定し、パラメータ $\boldsymbol\theta$ を変数として考える。
独立同分布の仮定より、観測値全体の同時確率質量関数または同時密度関数は
$$
p_{\boldsymbol\theta}^{(n)}(x_1,\ldots,x_n)
=
\prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i)
$$
と表される。
したがって、尤度関数
$$
L(\boldsymbol\theta;x)
=
\prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i)
$$
は、観測されたデータ $x_1,\ldots,x_n$ が、パラメータ $\boldsymbol\theta$ のもとでどれくらいもっともらしいかを表す関数である。
離散型の場合には、$L(\boldsymbol\theta;x)$ は観測値 $x_1,\ldots,x_n$ が得られる確率として解釈できる。
一方、連続型の場合には、$L(\boldsymbol\theta;x)$ は観測値における密度の値を用いて定義される。
したがって、連続型の場合には、特定の観測値そのものが得られる確率ではなく、パラメータを比較するための密度に基づく尺度である。
$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値 $x_1,\ldots,x_n$ に対する尤度関数を
$$
L:\Theta\to[0,\infty)
$$
とする。
尤度関数 $L$ を最大にするパラメータ全体の集合を
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
:=
\left\{
\boldsymbol\theta\in\Theta
\mid
L(\boldsymbol\theta)
=
\sup_{\boldsymbol\eta\in\Theta}L(\boldsymbol\eta)
\right\}
$$
で定める。
この集合が空でないとき、すなわち
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
\ne
\varnothing
$$
であるとき、任意の
$$
\widehat{\boldsymbol\theta}
\in
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
$$
を、観測値 $x_1,\ldots,x_n$ に対する最尤推定値という。
$\operatorname*{arg\,max}$ は、関数の最大値そのものではなく、最大値を与える点全体の集合を表す。
すなわち、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta;x)
$$
は、尤度関数 $L(\boldsymbol\theta;x)$ を最大にするパラメータ $\boldsymbol\theta$ 全体の集合である。
より厳密には、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta;x)
:=
\left\{
\boldsymbol\theta\in\Theta
\mid
L(\boldsymbol\theta;x)
=
\sup_{\boldsymbol\eta\in\Theta}L(\boldsymbol\eta;x)
\right\}
$$
である。
したがって、最大点が複数存在する場合、最尤推定値は一意に定まらない。
また、最大点が存在しない場合には、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta;x)
=
\varnothing
$$
となり、最尤推定値は存在しない。
一方で、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
=
\{\widehat{\boldsymbol\theta}\}
$$
である場合、最尤推定値は一意に定まる。このとき、慣習的に
$$
\widehat{\boldsymbol\theta}
=
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
$$
と略記することがある。
このように、観測データから最尤推定値を求める方法を、最尤法という。
最尤法では、観測値 $x_1,\ldots,x_n$ を固定したうえで、尤度関数
$$
L(\boldsymbol\theta)
$$
を最大にするパラメータ $\boldsymbol\theta$ を探す。
すなわち、最尤法は
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta}
L(\boldsymbol\theta)
$$
を求める方法である。
繰り返しだが、尤度関数を最大にするパラメータが常に存在するとは限らない。
また、存在しても一意であるとは限らない。
$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値
$$
x=(x_1,\ldots,x_n)
$$
に対する尤度関数を
$$
L(\boldsymbol\theta;x)
$$
とする。
尤度関数が正であるパラメータ全体の集合を
$$
\Theta_x
:=
\{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\}
$$
と定める(補足を参照)。
このとき、関数 $\ell:\Theta_x\to\mathbb R$ を、任意の $\boldsymbol\theta\in\Theta_x$ に対して
$$
\ell(\boldsymbol\theta;x)
:=
\log L(\boldsymbol\theta;x)
$$
で定める。この関数 $\ell$ を、観測値 $x$ に対する対数尤度関数という。ここで、$\log$ は自然対数である。
対数尤度関数
$$
\ell(\boldsymbol\theta;x)
=
\log L(\boldsymbol\theta;x)
$$
は、通常の実数値関数としては
$$
L(\boldsymbol\theta;x)>0
$$
である範囲で定義される。
そのため、上では
$$
\Theta_x
=
\{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\}
$$
上で対数尤度関数を定義した。
対数尤度関数を用いる主な理由は、尤度関数の最大化を扱いやすい形に直すためである。
独立同分布の観測値 $x_1,\ldots,x_n$ に対して、尤度関数が
$$
L(\boldsymbol\theta;x)
=
\prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i)
$$
で与えられるとする。
このとき、$\boldsymbol\theta\in\Theta_x$ に対して、
$$
\begin{align}
\ell(\boldsymbol\theta;x)
&=
\log L(\boldsymbol\theta;x)\\
&=
\log\left(
\prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i)
\right)\\
&=
\sum_{i=1}^{n}\log p_{\boldsymbol\theta}(x_i)
\end{align}
$$
である。
したがって、対数を取ることで、積の形で表された尤度関数を、和の形で表された対数尤度関数に変換できる。
$ $
また、自然対数 $\log$ は狭義単調増加関数であるため、尤度関数を最大化するパラメータと、対数尤度関数を最大化するパラメータは一致する(後述)。
したがって、最尤法では通常、尤度関数そのものではなく対数尤度関数を最大化する。
$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値
$$
x=(x_1,\ldots,x_n)
$$
に対する対数尤度関数を
$$
\ell:\Theta_x\to\mathbb R
$$
とする。
ここで、$\Theta_x\subseteq\Theta$ は、対数尤度関数 $\ell(\boldsymbol\theta;x)$ が実数値として定義されるパラメータの集合である。
対数尤度関数を最大にするパラメータ全体の集合を
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
:=
\left\{
\boldsymbol\theta\in\Theta_x
\mid
\ell(\boldsymbol\theta;x)
=
\sup_{\boldsymbol\eta\in\Theta_x}\ell(\boldsymbol\eta;x)
\right\}
$$
で定める。
この集合が空でないとき、任意の
$$
\widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x)
\in
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
$$
を、観測値 $x$ に対する最尤推定値という。
特に、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
=
\{\widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x)\}
$$
である場合、すなわち最大点が一意に定まる場合には、
$$
\widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x)
=
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
$$
と略記することがある。
自然対数 $\log$ は狭義単調増加関数である。
したがって、任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta_x$ に対して、
$$
L(\boldsymbol\theta;x)
\le
L(\boldsymbol\eta;x)
\Longleftrightarrow
\ell(\boldsymbol\theta;x)
\le
\ell(\boldsymbol\eta;x)
$$
が成り立つ。
よって、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
L(\boldsymbol\theta;x)
=
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
$$
である。
したがって、尤度関数 $L(\boldsymbol\theta;x)$ を最大化する代わりに、対数尤度関数 $\ell(\boldsymbol\theta;x)$ を最大化しても、得られる最尤推定値は同じである。
繰り返しだが、尤度関数 $L(\boldsymbol\theta;x)$ から対数尤度関数を
$$
\ell(\boldsymbol\theta;x)
:=
\log L(\boldsymbol\theta;x)
$$
で定める場合、通常の実数値関数としては
$$
L(\boldsymbol\theta;x)>0
$$
である必要がある。
そのため、
$$
\Theta_x
:=
\{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\}
$$
とおき、その上で対数尤度関数を考えることが多い。
$D$ を空でない集合とし、
$$
f:D\to(0,\infty)
$$
を関数とする。また、$x_m\in D$ とする。
このとき、関数 $\log\circ f:D\to\mathbb R$ が $x_m$ で最大値をとることと、関数 $f:D\to(0,\infty)$ が $x_m$ で最大値をとることは同値である。
すなわち、
$$
\log f(x_m)\ge \log f(x)
\quad(\forall x\in D)
\Longleftrightarrow
f(x_m)\ge f(x)
\quad(\forall x\in D)
$$
が成り立つ。
$\log$ は $(0,\infty)$ 上の狭義単調増加関数である。
したがって、任意の $a,b\in(0,\infty)$ に対して、
$$
a\le b
\Longleftrightarrow
\log a\le \log b
$$
が成り立つ。
-以上より、
$$
\log f(x_m)\ge \log f(x)
\quad(\forall x\in D)
\Longleftrightarrow
f(x_m)\ge f(x)
\quad(\forall x\in D)
$$
が成り立つ。
$$ \Box$$
正値関数とその対数の最大点の一致は、定義域が $\mathbb R$ であることには依存しない。
実際、この補題で本質的に使っている事実は、任意の $a,b\in(0,\infty)$ に対して
$$
a\le b
\Longleftrightarrow
\log a\le \log b
$$
が成り立つことである。これは、$\log$ が $(0,\infty)$ 上の狭義単調増加関数であることから従う。
したがって、関数の定義域は $\mathbb R$ でなくてもよい。任意の空でない集合 $D$ と正値関数
$$
f:D\to(0,\infty)
$$
に対して、$f$ の最大点と $\log\circ f$ の最大点は一致する。
$ $
この形で述べておくと、後で尤度関数に適用しやすい。
なぜなら、尤度関数の定義域は一般に $\mathbb R$ 全体ではなく、パラメータ空間 $\Theta$ や、尤度が正である部分集合
$$
\Theta_x
=
\{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\}
$$
になるからである。
したがって、この補題は
$$
f:\mathbb R\to(0,\infty)
$$
として述べるよりも、
$$
f:D\to(0,\infty)
$$
として述べる方が、後続の最尤法への応用に適している。
$\Theta$ を集合とし、$x$ を固定された観測値とする。
$\Theta_x\subseteq\Theta$ を空でない集合とし、関数
$$
L(\cdot;x):\Theta_x\to(0,\infty)
$$
が与えられているとする。
自然対数を用いて、関数 $\ell:\Theta_x\to\mathbb R$ を、任意の $\boldsymbol\theta\in\Theta_x$ に対して
$$
\ell(\boldsymbol\theta;x)
:=
\log L(\boldsymbol\theta;x)
$$
で定める。
このとき、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
L(\boldsymbol\theta;x)
=
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
$$
が成り立つ。
すなわち、尤度関数 $L(\boldsymbol\theta;x)$ の最大点の集合と、対数尤度関数 $\ell(\boldsymbol\theta;x)$ の最大点の集合は一致する。
ここで、任意の関数 $f:\Theta_x\to\mathbb R$ に対して、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
f(\boldsymbol\theta)
:=
\left\{
\widehat{\boldsymbol\theta}\in\Theta_x
\mid
\forall \boldsymbol\eta\in\Theta_x,\
f(\boldsymbol\eta)\le f(\widehat{\boldsymbol\theta})
\right\}
$$
と定める。
-以上より、両方の包含関係が成り立つので、
$$
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
L(\boldsymbol\theta;x)
=
\operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x}
\ell(\boldsymbol\theta;x)
$$
が成り立つ。
したがって、尤度関数 $L(\boldsymbol\theta;x)$ の最大点の集合と、対数尤度関数 $\ell(\boldsymbol\theta;x)$ の最大点の集合は一致する。
特に、最尤推定値が存在する場合、尤度関数を最大化して得られる最尤推定値と、対数尤度関数を最大化して得られる最尤推定値は同じである。
$$ \Box$$
$n\in\mathbb N$ とし、$n\geq 2$ とする。
$X_1,\ldots,X_n$ は独立同分布であり、
$$
X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}N(\mu,\sigma^2)
$$
にしたがうとする。ただし、$\mu\in\mathbb R$ と $\sigma^2\in(0,\infty)$ は未知である。
観測値を
$$
x=(x_1,\ldots,x_n)\in\mathbb R^n
$$
とする。また、
$$
\bar{x}
:=
\frac{1}{n}\sum_{i=1}^{n}x_i
$$
とおき、
$$
v
:=
\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
とおく。さらに、
$$
v>0
$$
と仮定する。
このとき、観測値 $x$ に対する正規分布 $N(\mu,\sigma^2)$ の最尤推定値は、
$$
\hat{\mu}_{\mathrm{MLE}}(x)
=
\bar{x},
\qquad
\hat{\sigma}_{\mathrm{MLE}}^2(x)
=
v
=
\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
である。
同値に、最尤推定量は
$$
\hat{\mu}_{\mathrm{MLE}}
=
\bar{X},
\qquad
\hat{\sigma}_{\mathrm{MLE}}^2
=
\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2
$$
である。
正規分布 $N(\mu,\sigma^2)$ の密度関数は
$$
p_{\mu,\sigma^2}(x)
=
\frac{1}{\sqrt{2\pi\sigma^2}}
\exp\left(
-\frac{(x-\mu)^2}{2\sigma^2}
\right)
$$
である。
-以上より、対数尤度関数は
$$
\mu=\bar{x},
\qquad
\sigma^2=
\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
において一意に最大となる。
$\log$ は狭義単調増加関数であるため、対数尤度関数を最大にする点と尤度関数を最大にする点は一致する(冒頭で示した命題)。。
ゆえに、観測値 $x$ に対する正規分布 $N(\mu,\sigma^2)$ の最尤推定値は
$$
\hat{\mu}_{\mathrm{MLE}}(x)
=
\bar{x},
\qquad
\hat{\sigma}_{\mathrm{MLE}}^2(x)
=
\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
である。
同値に、最尤推定量は
$$
\hat{\mu}_{\mathrm{MLE}}
=
\bar{X},
\qquad
\hat{\sigma}_{\mathrm{MLE}}^2
=
\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2
$$
である。
$$ \Box$$
$g:\mathbb R\to\mathbb R$ を微分可能な狭義凹関数とする。
$a\in\mathbb R$ が $g$ の停留点であるとする。すなわち、
$$
g'(a)=0
$$
が成り立つとする。このとき、$a$ は $g$ の一意な最大点である。
理由は次の通りである。
-したがって、狭義凹関数の停留点は、一意な最大点である。
$n\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$
X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Poisson}(\lambda)
$$
にしたがうとする。ただし、$\lambda\in(0,\infty)$ は未知である。
観測値を
$$
x=(x_1,\ldots,x_n)\in\mathbb N_0^n
$$
とする。さらに、
$$
\sum_{i=1}^{n}x_i>0
$$
と仮定する。
このとき、観測値 $x$ に対するポアソン分布のパラメータ $\lambda$ の最尤推定値は
$$
\hat{\lambda}_{\mathrm{MLE}}(x)
=
\bar{x}
=
\frac{1}{n}\sum_{i=1}^{n}x_i
$$
である。
同値に、最尤推定量は
$$
\hat{\lambda}_{\mathrm{MLE}}
=
\bar{X}
=
\frac{1}{n}\sum_{i=1}^{n}X_i
$$
である。
ポアソン分布の確率質量関数は、$x\in\mathbb N_0$ に対して
$$
p_\lambda(x)
=
\mathbb P_\lambda(X=x)
=
e^{-\lambda}\frac{\lambda^x}{x!}
$$
である。
-ゆえに、観測値 $x$ に対するポアソン分布のパラメータ $\lambda$ の最尤推定値は
$$
\hat{\lambda}_{\mathrm{MLE}}(x)
=
\bar{x}
=
\frac{1}{n}\sum_{i=1}^{n}x_i
$$
である。
同値に、最尤推定量は
$$
\hat{\lambda}_{\mathrm{MLE}}
=
\bar{X}
=
\frac{1}{n}\sum_{i=1}^{n}X_i
$$
である。
$$ \Box$$
$n,m\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$
X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Binomial}(m,q)
$$
にしたがうとする。ただし、$m$ は既知であり、$q\in(0,1)$ は未知である。
観測値を
$$
x=(x_1,\ldots,x_n)\in\{0,1,\ldots,m\}^n
$$
とする。さらに、
$$
0<\sum_{i=1}^{n}x_i< nm
$$
を仮定する。
このとき、観測値 $x$ に対する二項分布 $\operatorname{Binomial}(m,q)$ の成功確率 $q$ の最尤推定値は
$$
\hat q_{\mathrm{MLE}}(x)
=
\frac{1}{mn}\sum_{i=1}^{n}x_i
=
\frac{\bar{x}}{m}
$$
である。ただし、
$$
\bar{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i
$$
である。
同値に、最尤推定量は
$$
\hat q_{\mathrm{MLE}}
=
\frac{1}{mn}\sum_{i=1}^{n}X_i
=
\frac{\bar{X}}{m}
$$
である。
二項分布 $\operatorname{Binomial}(m,q)$ の確率質量関数は、$x\in\{0,1,\ldots,m\}$ に対して
$$
p_q(x)
=
\binom{m}{x}q^x(1-q)^{m-x}
$$
である。
-ゆえに、観測値 $x$ に対する二項分布 $\operatorname{Binomial}(m,q)$ の成功確率 $q$ の最尤推定値は
$$
\hat q_{\mathrm{MLE}}(x)
=
\frac{S}{nm}
=
\frac{1}{mn}\sum_{i=1}^{n}x_i
=
\frac{\bar{x}}{m}
$$
である。
同値に、最尤推定量は
$$
\hat q_{\mathrm{MLE}}
=
\frac{1}{mn}\sum_{i=1}^{n}X_i
=
\frac{\bar{X}}{m}
$$
である。
$$ \Box$$
$n\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$
X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Geometric}(q)
$$
にしたがうとする。ただし、幾何分布は
$$
p_q(x)
=
q(1-q)^{x-1},
\qquad
x=1,2,3,\ldots
$$
で定義されるものとし、$q\in(0,1)$ は未知であるとする。
観測値を
$$
x=(x_1,\ldots,x_n)\in\mathbb N^n
$$
とする。さらに、
$$
\bar{x}
:=
\frac{1}{n}\sum_{i=1}^{n}x_i
$$
とおき、
$$
\bar{x}>1
$$
を仮定する。
このとき、観測値 $x$ に対する幾何分布の成功確率 $q$ の最尤推定値は
$$
\hat q_{\mathrm{MLE}}(x)
=
\frac{1}{\bar{x}}
$$
である。
同値に、最尤推定量は
$$
\hat q_{\mathrm{MLE}}
=
\frac{1}{\bar{X}}
$$
である。ただし、
$$
\bar{X}
:=
\frac{1}{n}\sum_{i=1}^{n}X_i
$$
である。
幾何分布の確率質量関数は、$x\in\mathbb N$ に対して
$$
p_q(x)
=
q(1-q)^{x-1}
$$
である。
-ゆえに、観測値 $x$ に対する幾何分布の成功確率 $q$ の最尤推定値は
$$
\hat q_{\mathrm{MLE}}(x)
=
\frac{1}{\bar{x}}
$$
である。
同値に、最尤推定量は
$$
\hat q_{\mathrm{MLE}}
=
\frac{1}{\bar{X}}
$$
である。
$$ \Box$$
$n\in\mathbb N$ とする。
$X_1,\ldots,X_n$ は独立同分布であり、
$$
X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Exponential}(\lambda)
$$
にしたがうとする。ただし、$\lambda\in(0,\infty)$ は未知である。
指数分布の確率密度関数を、$x>0$ に対して
$$
p_\lambda(x):=\lambda e^{-\lambda x}
$$
で定める。
観測値を
$$
x=(x_1,\ldots,x_n)\in(0,\infty)^n
$$
とする。また、
$$
\bar{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i
$$
とおく。
このとき、観測値 $x$ に対する指数分布の率パラメータ $\lambda$ の最尤推定値は
$$
\hat{\lambda}_{\mathrm{MLE}}(x)
=
\frac{1}{\bar{x}}
=
\frac{n}{\sum_{i=1}^{n}x_i}
$$
である。
同値に、最尤推定量は
$$
\hat{\lambda}_{\mathrm{MLE}}
=
\frac{1}{\bar{X}}
$$
である。ただし、
$$
\bar{X}:=\frac{1}{n}\sum_{i=1}^{n}X_i
$$
である。
-ゆえに、観測値 $x$ に対する指数分布の率パラメータ $\lambda$ の最尤推定値は
$$
\hat{\lambda}_{\mathrm{MLE}}(x)
=
\frac{1}{\bar{x}}
=
\frac{n}{\sum_{i=1}^{n}x_i}
$$
である。
同値に、最尤推定量は
$$
\hat{\lambda}_{\mathrm{MLE}}
=
\frac{1}{\bar{X}}
$$
である。
$$ \Box$$