文献あり

統計モデルとパラメーター推定の数学的基礎と尤度関数の最大化

この著者は初心者として投稿しています。間違いや考慮が足りていない点が含まれている可能性が高いです。見つけたらコメント欄で優しく指摘してあげましょう。

Def.

分布関数

$(\Omega,\mathcal F,\mathbb P)$ を確率空間とし、$X:\Omega\to\mathbb R$ を実数値確率変数とする。
このとき、関数 $F_X:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$ F_X(x):=\mathbb P(\{\omega\in\Omega\mid X(\omega)\le x\}) $$
で定める。この関数 $F_X$ を、確率変数 $X$ の分布関数という。

通常は、
$$ F_X(x):=\mathbb P(X\le x) $$
と略記する。

分布関数の具体例

確率変数 $X$ が標準正規分布にしたがうとする。すなわち、
$$ X\sim N(0,1) $$
とする。
このとき、$X$ の確率密度関数 $f_X:\mathbb R\to[0,\infty)$ は、任意の $t\in\mathbb R$ に対して
$$ f_X(t) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{t^2}{2}\right) $$
で与えられる。
したがって、$X$ の分布関数 $F_X:\mathbb R\to[0,1]$ は、任意の $x\in\mathbb R$ に対して
$$ F_X(x) = \mathbb P(X\le x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{t^2}{2}\right) \,dt $$
で与えられる。

分布関数の特徴づけ

関数 $F:\mathbb R\to[0,1]$ について、次の $2$ 条件は同値である。

$F$ はある実数値確率変数の分布関数である。
$F$ は単調非減少で右連続であり、
$$ \lim_{x\to-\infty}F(x)=0, \qquad \lim_{x\to\infty}F(x)=1 $$
を満たす。

-すなわち、単調非減少性、右連続性、両端極限の $3$ つの条件は、実数値確率変数の分布関数を特徴づける条件である。

分布関数全体の集合

実数値確率変数の分布関数全体の集合を
$$ \Psi := \left\{ F:\mathbb R\to[0,1] \mid F\text{ は単調非減少で右連続であり、} \lim_{x\to-\infty}F(x)=0,\ \lim_{x\to\infty}F(x)=1 \right\} $$
と定義する。

定義する上での注意

「すべての分布関数の集合」として定義するため、
特定の確率空間 $(\Omega,\mathcal F,\mathbb P)$ や特定の確率変数 $X$ に依存させない書き方とした。

分布関数の特徴づけ

分布関数の特徴づけより、関数 $F:\mathbb R\to[0,1]$ が $\Psi$ に属することは、
$F$ がある実数値確率変数の分布関数として実現できることと同値である。
$ $
すなわち、任意の $F\in\Psi$ に対して、ある確率空間 $(\Omega,\mathcal F,\mathbb P)$ と実数値確率変数 $X:\Omega\to\mathbb R$ が存在して、
任意の $x\in\mathbb R$ に対して
$$ F(x)=\mathbb P(X\le x) $$
が成り立つ。

分布関数による統計モデル

$\Psi$ を実数値確率変数の分布関数全体の集合とする。
集合
$$ \Phi\subseteq\Psi $$
を、母集団分布の候補として考える分布関数の集合とする。このとき、$\Phi$ を分布関数による統計モデルという。

統計モデルの意味

統計モデル $\Phi$ は、未知の母集団分布 $F_X$ の候補として考える分布関数の集合である。
したがって、統計モデルを定めることは、推測の対象となる母集団分布の候補を制限することである。
なお、実際の母集団分布 $F_X$ が
$$ F_X\in\Phi $$
を満たす場合、この統計モデルは正しく設定されているという(後述)。

分布関数によるパラメトリック統計モデル

$k\in\mathbb N$ とし、$\Theta\subseteq\mathbb R^k$ を空でない集合とする。
各パラメータ
$$ \boldsymbol\theta=(\theta_1,\ldots,\theta_k)\in\Theta $$
に対して、分布関数
$$ F_{\boldsymbol\theta}\in\Psi $$
が対応しているとする。
このとき、
$$ \Phi := \left\{ F_{\boldsymbol\theta} \mid \boldsymbol\theta\in\Theta \right\} \subseteq\Psi $$
で定まる統計モデル $\Phi$ を、分布関数によるパラメトリック統計モデルという。
また、$\Theta$ をパラメータ空間といい、$\boldsymbol\theta\in\Theta$ をパラメータという。

パラメトリック統計モデルの意味

パラメトリック統計モデルでは、母集団分布の候補が有限次元のパラメータ
$$ \boldsymbol\theta\in\Theta\subseteq\mathbb R^k $$
によって指定される。
したがって、分布関数そのものを無制限に考えるのではなく、
$$ F_{\boldsymbol\theta} $$
という形で表される分布関数だけを候補として考える。

分布関数による統計モデルの具体例

母集団からの $1$ つの観測値を表す実数値確率変数を $X$ とする。
未知の母集団分布が正規分布であると仮定する。ただし、平均と標準偏差は未知であるとする。
このとき、パラメータ空間を
$$ \Theta:=\mathbb R\times(0,\infty) $$
と定める。
各パラメータ
$$ \boldsymbol\theta=(\mu,\sigma)\in\Theta $$
に対して、分布関数 $F_{\mu,\sigma}:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$ F_{\mu,\sigma}(x) := \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(t-\mu)^2}{2\sigma^2} \right) \,dt $$
で定める。
これは、平均 $\mu$、分散 $\sigma^2$ の正規分布
$$ N(\mu,\sigma^2) $$
の分布関数である。
したがって、正規分布族による統計モデルは
$$ \Phi := \left\{ F_{\mu,\sigma} \mid (\mu,\sigma)\in\mathbb R\times(0,\infty) \right\} \subseteq\Psi $$
と表される。
$ $
この統計モデルでは、母集団分布 $F_X$ の候補を、すべての分布関数からなる集合 $\Psi$ 全体ではなく、
正規分布の分布関数だけからなる集合 $\Phi$ に制限している。
$ $
すなわち、このモデルでは
$$ F_X\in\Phi $$
であると仮定し、ある $\mu\in\mathbb R$ と $\sigma>0$ が存在して、
$$ F_X=F_{\mu,\sigma} $$
と表されると考える。
このとき、統計的推測の対象は、母集団分布 $F_X$ そのものではなく、未知のパラメータ
$$ (\mu,\sigma)\in\mathbb R\times(0,\infty) $$
である。

モデルが正しく設定されていること

$\Psi$ を実数値確率変数の分布関数全体の集合とし、
$$ \Phi\subseteq\Psi $$
を分布関数による統計モデルとする。
また、真の母集団分布を表す分布関数を
$$ F_X\in\Psi $$
とする。

このとき、
$$ F_X\in\Phi $$
が成り立つならば、統計モデル $\Phi$ は正しく設定されているという。
一方で、
$$ F_X\notin\Phi $$
であるならば、統計モデル $\Phi$ は誤って指定されている(誤指定である)という。

モデルが正しく設定されていることの意味

モデルが正しく設定されているとは、実際の母集団分布 $F_X$ が、候補として用意した統計モデル $\Phi$ の中に含まれているということである。
したがって、モデルが正しく設定されている場合には、ある候補分布 $F\in\Phi$ が存在して、
$$ F_X=F $$
が成り立つ。
一方で、モデルが誤指定である場合には、
$$ F_X\notin\Phi $$
であるため、どの候補分布 $F\in\Phi$ を選んでも、
$$ F_X=F $$
とはならない。
つまり、モデルが誤って設定されている場合、統計モデル $\Phi$ の中には真の母集団分布そのものは含まれていない。

真のパラメータ

パラメータ空間 $\Theta$ と、各 $\boldsymbol\theta\in\Theta$ に分布関数 $F_{\boldsymbol\theta}\in\Psi$ を対応させる写像
$$ \boldsymbol\theta\mapsto F_{\boldsymbol\theta} $$
によって定まるパラメトリック統計モデル
$$ \Phi = \left\{ F_{\boldsymbol\theta} \mid \boldsymbol\theta\in\Theta \right\} $$
が与えられているとする。
また、母集団分布 $F_X$ がこのモデルに含まれているとする。すなわち、
$$ F_X\in\Phi $$
が成り立つとする。
このとき、
$$ F_X=F_{\boldsymbol\theta_0} $$
を満たす $\boldsymbol\theta_0\in\Theta$ を、母集団分布 $F_X$ に対応する真のパラメータという。

真のパラメータは一般には一意とは限らない

一般には、異なるパラメータが同じ分布関数を与えることがある。
すなわち、
$$ \boldsymbol\theta\ne\boldsymbol\eta $$
であっても、
$$ F_{\boldsymbol\theta}=F_{\boldsymbol\eta} $$
となる場合がある。
この場合、同じ母集団分布 $F_X$ に対して、複数のパラメータが真のパラメータとなり得る。
したがって、真のパラメータは一般には一意に定まらない。

真のパラメータが一意に定まらない具体例

パラメータ空間を
$$ \Theta:=\mathbb R $$
とする。
各 $\theta\in\Theta$ に対して、分布関数 $F_\theta:\mathbb R\to[0,1]$ を、任意の $x\in\mathbb R$ に対して
$$ F_\theta(x) := \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{(t-\theta^2)^2}{2} \right) \,dt $$
で定める。
これは平均 $\theta^2$、分散 $1$ の正規分布
$$ N(\theta^2,1) $$
の分布関数である。
したがって、このパラメトリック統計モデルは
$$ \Phi := \left\{ F_\theta \mid \theta\in\mathbb R \right\} $$
で与えられる。このとき、たとえば
$$ 1\ne -1 $$
であるが、
$$ 1^2=(-1)^2=1 $$
であるため、任意の $x\in\mathbb R$ に対して
$$ F_1(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{(t-1)^2}{2} \right) \,dt = F_{-1}(x) $$
が成り立つ。したがって、
$$ F_1=F_{-1} $$
である。
ここで、実際の母集団分布 $F_X$ が
$$ F_X=F_1 $$
であるとする。このとき、
$$ F_X=F_1=F_{-1} $$
であるから、$\theta_0=1$ も $\theta_0=-1$ も、どちらも母集団分布 $F_X$ に対応する真のパラメータである。
したがって、このモデルでは真のパラメータは一意に定まらない。
$ $
このように、異なるパラメータ $\theta$ と $\eta$ が同じ分布関数を与える場合、すなわち
$$ \theta\ne\eta \quad\text{かつ}\quad F_\theta=F_\eta $$
となる場合には、モデルは識別可能(後述)ではなく、真のパラメータは一般には一意に定まらない。

識別可能性

パラメータ空間 $\Theta$ と、各 $\boldsymbol\theta\in\Theta$ に分布関数 $F_{\boldsymbol\theta}\in\Psi$ を対応させる写像
$$ \boldsymbol\theta\mapsto F_{\boldsymbol\theta} $$
によって定まるパラメトリック統計モデル
$$ \Phi = \left\{ F_{\boldsymbol\theta} \mid \boldsymbol\theta\in\Theta \right\} $$
が与えられているとする。
任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta$ に対して、
$$ F_{\boldsymbol\theta}=F_{\boldsymbol\eta} \Rightarrow \boldsymbol\theta=\boldsymbol\eta $$
が成り立つとき、このパラメータ付けは識別可能であるという。

識別可能性の意味

識別可能性とは、異なるパラメータが異なる分布関数を与えるという条件である。
すなわち、対偶を取って任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta$ に対して、
$$ \boldsymbol\theta\ne\boldsymbol\eta \Rightarrow F_{\boldsymbol\theta}\ne F_{\boldsymbol\eta} $$
が成り立つことと同値である。
$ $
したがって、モデルが正しく設定されており、ある $\boldsymbol\theta_0\in\Theta$ が存在して
$$ F_X=F_{\boldsymbol\theta_0} $$
が成り立つとする。このとき、さらにモデルが識別可能であれば、そのような $\boldsymbol\theta_0$ は一意に定まる。

パラメータ推定問題

パラメトリック統計モデル
$$ \Phi = \left\{ F_{\boldsymbol\theta} \mid \boldsymbol\theta\in\Theta \right\} $$
が与えられているとする。
母集団分布 $F_X$ がこのモデルに含まれ、さらにモデルが識別可能であるとする。
このとき、ある一意な $\boldsymbol\theta_0\in\Theta$ が存在して、
$$ F_X=F_{\boldsymbol\theta_0} $$
が成り立つ。
この一意な真のパラメータ $\boldsymbol\theta_0$ を、観測データを用いて推測する問題を、パラメータ推定問題という。

推定量

$\Theta\subseteq\mathbb R^k$ とし、$\Theta$ には $\mathbb R^k$ から誘導されるボレル $\sigma$ 代数を入れる。
$X_1,\ldots,X_n$ を、母集団分布 $F_X$ に独立同分布にしたがう実数値確率変数とする。
可測写像
$$ T_n:\mathbb R^n\to\Theta $$
によって定まる統計量
$$ \widehat{\boldsymbol\theta}_n = T_n(X_1,\ldots,X_n) $$
を、真のパラメータ $\boldsymbol\theta_0$ の推定量という。
ここで、$\widehat{\boldsymbol\theta}_n$ は観測データ $(X_1,\ldots,X_n)$ の関数であり、未知の真のパラメータ $\boldsymbol\theta_0$ そのものには依存しない。

推定量の簡単な具体例

以下では、$X_1,\ldots,X_n$ を独立同分布な観測値とする。

ベルヌーイ分布の成功確率の推定量
母集団分布がベルヌーイ分布
$$ \operatorname{Bernoulli}(p) $$
であると仮定する。ただし、$p\in[0,1]$ は未知である。
このとき、パラメータ空間は
$$ \Theta=[0,1] $$
である。
観測値 $(x_1,\ldots,x_n)\in\{0,1\}^n$ に対して、
$$ T_n(x_1,\ldots,x_n) := \frac{1}{n}\sum_{i=1}^{n}x_i $$
と定める。
このとき、
$$ \widehat p_n = T_n(X_1,\ldots,X_n) = \frac{1}{n}\sum_{i=1}^{n}X_i $$
は、真の成功確率 $p$ の推定量である。
これは、観測された $0$ と $1$ の平均、すなわち成功割合によって $p$ を推定している。
$ $
正規分布の平均の推定量
母集団分布が正規分布
$$ N(\mu,\sigma^2) $$
であると仮定する。ただし、分散 $\sigma^2>0$ は既知であり、平均 $\mu\in\mathbb R$ は未知であるとする。
このとき、パラメータ空間は
$$ \Theta=\mathbb R $$
である。
観測値 $X_1,\ldots,X_n$ に対して、
$$ T_n(x_1,\ldots,x_n) := \frac{1}{n}\sum_{i=1}^{n}x_i $$
と定める。
このとき、
$$ \widehat\mu_n = T_n(X_1,\ldots,X_n) = \frac{1}{n}\sum_{i=1}^{n}X_i $$
は、真の平均 $\mu$ の推定量である。これは標本平均と呼ばれる。

尤度関数と最尤法

$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、分布関数によるパラメトリック統計モデル
$$ \Phi = \left\{ F_{\boldsymbol\theta} \mid \boldsymbol\theta\in\Theta \right\} $$
が与えられているとする。

各 $\boldsymbol\theta\in\Theta$ に対して、$F_{\boldsymbol\theta}$ に対応する確率分布を $P_{\boldsymbol\theta}$ と書く。
さらに、各 $P_{\boldsymbol\theta}$ が、ある共通の測度 $\nu$ に関して密度
$$ p_{\boldsymbol\theta}:\mathbb R\to[0,\infty) $$
をもつとする。すなわち、任意のボレル集合 $A\in\mathcal B(\mathbb R)$ に対して、
$$ P_{\boldsymbol\theta}(A) = \int_A p_{\boldsymbol\theta}(x)\,\nu(dx) $$
が成り立つとする。
$ $
$X_1,\ldots,X_n$ を、$P_{\boldsymbol\theta}$ に独立同分布にしたがう観測値を表す確率変数とする。
観測値として
$$ x=(x_1,\ldots,x_n)\in\mathbb R^n $$
が得られたとする。

-このとき、観測値 $x$ を固定し、$\boldsymbol\theta$ の関数として
$$ L(\boldsymbol\theta;x) := \prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i) $$
を定める。この関数 $L(\cdot;x):\Theta\to[0,\infty)$ を、観測値 $x$ に対する尤度関数という。

尤度関数の意味

尤度関数では、観測値 $x_1,\ldots,x_n$ は固定し、パラメータ $\boldsymbol\theta$ を変数として考える。
独立同分布の仮定より、観測値全体の同時確率質量関数または同時密度関数は
$$ p_{\boldsymbol\theta}^{(n)}(x_1,\ldots,x_n) = \prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i) $$
と表される。
したがって、尤度関数
$$ L(\boldsymbol\theta;x) = \prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i) $$
は、観測されたデータ $x_1,\ldots,x_n$ が、パラメータ $\boldsymbol\theta$ のもとでどれくらいもっともらしいかを表す関数である。
離散型の場合には、$L(\boldsymbol\theta;x)$ は観測値 $x_1,\ldots,x_n$ が得られる確率として解釈できる。
一方、連続型の場合には、$L(\boldsymbol\theta;x)$ は観測値における密度の値を用いて定義される。
したがって、連続型の場合には、特定の観測値そのものが得られる確率ではなく、パラメータを比較するための密度に基づく尺度である。

最尤推定値

$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値 $x_1,\ldots,x_n$ に対する尤度関数を
$$ L:\Theta\to[0,\infty) $$
とする。
尤度関数 $L$ を最大にするパラメータ全体の集合を
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) := \left\{ \boldsymbol\theta\in\Theta \mid L(\boldsymbol\theta) = \sup_{\boldsymbol\eta\in\Theta}L(\boldsymbol\eta) \right\} $$
で定める。
この集合が空でないとき、すなわち
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) \ne \varnothing $$
であるとき、任意の
$$ \widehat{\boldsymbol\theta} \in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) $$
を、観測値 $x_1,\ldots,x_n$ に対する最尤推定値という。

$\operatorname*{arg\,max}$ の意味

$\operatorname*{arg\,max}$ は、関数の最大値そのものではなく、最大値を与える点全体の集合を表す。
すなわち、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta;x) $$
は、尤度関数 $L(\boldsymbol\theta;x)$ を最大にするパラメータ $\boldsymbol\theta$ 全体の集合である。
より厳密には、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta;x) := \left\{ \boldsymbol\theta\in\Theta \mid L(\boldsymbol\theta;x) = \sup_{\boldsymbol\eta\in\Theta}L(\boldsymbol\eta;x) \right\} $$
である。
したがって、最大点が複数存在する場合、最尤推定値は一意に定まらない。
また、最大点が存在しない場合には、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta;x) = \varnothing $$
となり、最尤推定値は存在しない。
一方で、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) = \{\widehat{\boldsymbol\theta}\} $$
である場合、最尤推定値は一意に定まる。このとき、慣習的に
$$ \widehat{\boldsymbol\theta} = \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) $$
と略記することがある。

このように、観測データから最尤推定値を求める方法を、最尤法という。
最尤法では、観測値 $x_1,\ldots,x_n$ を固定したうえで、尤度関数
$$ L(\boldsymbol\theta) $$
を最大にするパラメータ $\boldsymbol\theta$ を探す。
すなわち、最尤法は
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta} L(\boldsymbol\theta) $$
を求める方法である。
繰り返しだが、尤度関数を最大にするパラメータが常に存在するとは限らない。
また、存在しても一意であるとは限らない。

対数尤度関数

$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値
$$ x=(x_1,\ldots,x_n) $$
に対する尤度関数を
$$ L(\boldsymbol\theta;x) $$
とする。
尤度関数が正であるパラメータ全体の集合を
$$ \Theta_x := \{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\} $$
と定める(補足を参照)。
このとき、関数 $\ell:\Theta_x\to\mathbb R$ を、任意の $\boldsymbol\theta\in\Theta_x$ に対して
$$ \ell(\boldsymbol\theta;x) := \log L(\boldsymbol\theta;x) $$
で定める。この関数 $\ell$ を、観測値 $x$ に対する対数尤度関数という。ここで、$\log$ は自然対数である。

$L(\boldsymbol\theta;x)=0$ となる場合の注意

対数尤度関数
$$ \ell(\boldsymbol\theta;x) = \log L(\boldsymbol\theta;x) $$
は、通常の実数値関数としては
$$ L(\boldsymbol\theta;x)>0 $$
である範囲で定義される。
そのため、上では
$$ \Theta_x = \{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\} $$
上で対数尤度関数を定義した。

対数尤度関数を用いる理由

対数尤度関数を用いる主な理由は、尤度関数の最大化を扱いやすい形に直すためである。
独立同分布の観測値 $x_1,\ldots,x_n$ に対して、尤度関数が
$$ L(\boldsymbol\theta;x) = \prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i) $$
で与えられるとする。
このとき、$\boldsymbol\theta\in\Theta_x$ に対して、
$$ \begin{align} \ell(\boldsymbol\theta;x) &= \log L(\boldsymbol\theta;x)\\ &= \log\left( \prod_{i=1}^{n}p_{\boldsymbol\theta}(x_i) \right)\\ &= \sum_{i=1}^{n}\log p_{\boldsymbol\theta}(x_i) \end{align} $$
である。
したがって、対数を取ることで、積の形で表された尤度関数を、和の形で表された対数尤度関数に変換できる。
$ $
また、自然対数 $\log$ は狭義単調増加関数であるため、尤度関数を最大化するパラメータと、対数尤度関数を最大化するパラメータは一致する(後述)。
したがって、最尤法では通常、尤度関数そのものではなく対数尤度関数を最大化する。

対数尤度関数による最尤推定値

$\Theta\subseteq\mathbb R^k$ をパラメータ空間とし、観測値
$$ x=(x_1,\ldots,x_n) $$
に対する対数尤度関数を
$$ \ell:\Theta_x\to\mathbb R $$
とする。
ここで、$\Theta_x\subseteq\Theta$ は、対数尤度関数 $\ell(\boldsymbol\theta;x)$ が実数値として定義されるパラメータの集合である。
対数尤度関数を最大にするパラメータ全体の集合を
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) := \left\{ \boldsymbol\theta\in\Theta_x \mid \ell(\boldsymbol\theta;x) = \sup_{\boldsymbol\eta\in\Theta_x}\ell(\boldsymbol\eta;x) \right\} $$
で定める。
この集合が空でないとき、任意の
$$ \widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x) \in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
を、観測値 $x$ に対する最尤推定値という。

特に、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) = \{\widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x)\} $$
である場合、すなわち最大点が一意に定まる場合には、
$$ \widehat{\boldsymbol\theta}_{\mathrm{MLE}}(x) = \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
と略記することがある。

対数尤度関数による最大化の意味

自然対数 $\log$ は狭義単調増加関数である。
したがって、任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta_x$ に対して、
$$ L(\boldsymbol\theta;x) \le L(\boldsymbol\eta;x) \Longleftrightarrow \ell(\boldsymbol\theta;x) \le \ell(\boldsymbol\eta;x) $$
が成り立つ。
よって、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) = \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
である。
したがって、尤度関数 $L(\boldsymbol\theta;x)$ を最大化する代わりに、対数尤度関数 $\ell(\boldsymbol\theta;x)$ を最大化しても、得られる最尤推定値は同じである。

定義域 $\Theta_x$ について

繰り返しだが、尤度関数 $L(\boldsymbol\theta;x)$ から対数尤度関数を
$$ \ell(\boldsymbol\theta;x) := \log L(\boldsymbol\theta;x) $$
で定める場合、通常の実数値関数としては
$$ L(\boldsymbol\theta;x)>0 $$
である必要がある。
そのため、
$$ \Theta_x := \{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\} $$
とおき、その上で対数尤度関数を考えることが多い。

Prop&Proof.

正値関数とその対数の最大点【一般の定義域の場合】

$D$ を空でない集合とし、
$$ f:D\to(0,\infty) $$
を関数とする。また、$x_m\in D$ とする。
このとき、関数 $\log\circ f:D\to\mathbb R$ が $x_m$ で最大値をとることと、関数 $f:D\to(0,\infty)$ が $x_m$ で最大値をとることは同値である。
すなわち、
$$ \log f(x_m)\ge \log f(x) \quad(\forall x\in D) \Longleftrightarrow f(x_m)\ge f(x) \quad(\forall x\in D) $$
が成り立つ。

$\log$ は $(0,\infty)$ 上の狭義単調増加関数である。
したがって、任意の $a,b\in(0,\infty)$ に対して、
$$ a\le b \Longleftrightarrow \log a\le \log b $$
が成り立つ。

$\Rightarrow$ を示す。
$\log\circ f$ が $x_m$ で最大値をとると仮定する。
このとき、最大値の定義より、任意の $x\in D$ に対して、
$$ \log f(x)\le \log f(x_m) $$
が成り立つ。
また、$f:D\to(0,\infty)$ であるから、
$$ f(x)>0, \qquad f(x_m)>0 $$
である。
よって、$\log$ の狭義単調増加性より、任意の $x\in D$ に対して、
$$ f(x)\le f(x_m) $$
が成り立つ。
したがって、$f$ は $x_m$ で最大値をとる。
$ $
$\Leftarrow$ を示す。
$f$ が $x_m$ で最大値をとると仮定する。
このとき、最大値の定義より、任意の $x\in D$ に対して、
$$ f(x)\le f(x_m) $$
が成り立つ。
また、$f:D\to(0,\infty)$ であるから、
$$ f(x)>0, \qquad f(x_m)>0 $$
である。
よって、$\log$ の狭義単調増加性より、任意の $x\in D$ に対して、
$$ \log f(x)\le \log f(x_m) $$
が成り立つ。
したがって、$\log\circ f$ は $x_m$ で最大値をとる。

-以上より、
$$ \log f(x_m)\ge \log f(x) \quad(\forall x\in D) \Longleftrightarrow f(x_m)\ge f(x) \quad(\forall x\in D) $$
が成り立つ。
$$ \Box$$

定義域を一般の集合にする理由

正値関数とその対数の最大点の一致は、定義域が $\mathbb R$ であることには依存しない。
実際、この補題で本質的に使っている事実は、任意の $a,b\in(0,\infty)$ に対して
$$ a\le b \Longleftrightarrow \log a\le \log b $$
が成り立つことである。これは、$\log$ が $(0,\infty)$ 上の狭義単調増加関数であることから従う。
したがって、関数の定義域は $\mathbb R$ でなくてもよい。任意の空でない集合 $D$ と正値関数
$$ f:D\to(0,\infty) $$
に対して、$f$ の最大点と $\log\circ f$ の最大点は一致する。
$ $
この形で述べておくと、後で尤度関数に適用しやすい。
なぜなら、尤度関数の定義域は一般に $\mathbb R$ 全体ではなく、パラメータ空間 $\Theta$ や、尤度が正である部分集合
$$ \Theta_x = \{\boldsymbol\theta\in\Theta\mid L(\boldsymbol\theta;x)>0\} $$
になるからである。
したがって、この補題は
$$ f:\mathbb R\to(0,\infty) $$
として述べるよりも、
$$ f:D\to(0,\infty) $$
として述べる方が、後続の最尤法への応用に適している。

尤度関数と対数尤度関数の最大点の一致

$\Theta$ を集合とし、$x$ を固定された観測値とする。
$\Theta_x\subseteq\Theta$ を空でない集合とし、関数
$$ L(\cdot;x):\Theta_x\to(0,\infty) $$
が与えられているとする。
自然対数を用いて、関数 $\ell:\Theta_x\to\mathbb R$ を、任意の $\boldsymbol\theta\in\Theta_x$ に対して
$$ \ell(\boldsymbol\theta;x) := \log L(\boldsymbol\theta;x) $$
で定める。
このとき、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) = \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
が成り立つ。
すなわち、尤度関数 $L(\boldsymbol\theta;x)$ の最大点の集合と、対数尤度関数 $\ell(\boldsymbol\theta;x)$ の最大点の集合は一致する。

ここで、任意の関数 $f:\Theta_x\to\mathbb R$ に対して、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} f(\boldsymbol\theta) := \left\{ \widehat{\boldsymbol\theta}\in\Theta_x \mid \forall \boldsymbol\eta\in\Theta_x,\ f(\boldsymbol\eta)\le f(\widehat{\boldsymbol\theta}) \right\} $$
と定める。

$\log$ は $(0,\infty)$ 上の狭義単調増加関数である。
したがって、任意の正の実数 $a,b>0$ に対して、
$$ a\le b \Longleftrightarrow \log a\le \log b $$
が成り立つ。
いま、任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta_x$ に対して、
$$ L(\boldsymbol\theta;x)>0, \qquad L(\boldsymbol\eta;x)>0 $$
であるから、上の性質を
$$ a=L(\boldsymbol\theta;x), \qquad b=L(\boldsymbol\eta;x) $$
に適用できる。
よって、任意の $\boldsymbol\theta,\boldsymbol\eta\in\Theta_x$ に対して、
$$ \begin{align} L(\boldsymbol\theta;x)\le L(\boldsymbol\eta;x) &\Longleftrightarrow \log L(\boldsymbol\theta;x)\le \log L(\boldsymbol\eta;x)\\ &\Longleftrightarrow \ell(\boldsymbol\theta;x)\le \ell(\boldsymbol\eta;x) \end{align} $$
が成り立つ。
$ $
まず、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) \subseteq \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
を示す。$\widehat{\boldsymbol\theta}\in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x)$ とする。
このとき、最大点の定義より、任意の $\boldsymbol\eta\in\Theta_x$ に対して、
$$ L(\boldsymbol\eta;x) \le L(\widehat{\boldsymbol\theta};x) $$
が成り立つ。
したがって、(上で示した)同値性より、任意の $\boldsymbol\eta\in\Theta_x$ に対して、
$$ \ell(\boldsymbol\eta;x) \le \ell(\widehat{\boldsymbol\theta};x) $$
が成り立つ。
ゆえに、
$$ \widehat{\boldsymbol\theta} \in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
である。
よって、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) \subseteq \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
である。
$ $
次に、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) \subseteq \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) $$
を示す。$\widehat{\boldsymbol\theta}\in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x)$ とする。
このとき、最大点の定義より、任意の $\boldsymbol\eta\in\Theta_x$ に対して、
$$ \ell(\boldsymbol\eta;x) \le \ell(\widehat{\boldsymbol\theta};x) $$
が成り立つ。
したがって、(上で示した)同値性より、任意の $\boldsymbol\eta\in\Theta_x$ に対して、
$$ L(\boldsymbol\eta;x) \le L(\widehat{\boldsymbol\theta};x) $$
が成り立つ。
ゆえに、
$$ \widehat{\boldsymbol\theta} \in \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) $$
である。
よって、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) \subseteq \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) $$
である。

-以上より、両方の包含関係が成り立つので、
$$ \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} L(\boldsymbol\theta;x) = \operatorname*{arg\,max}_{\boldsymbol\theta\in\Theta_x} \ell(\boldsymbol\theta;x) $$
が成り立つ。
したがって、尤度関数 $L(\boldsymbol\theta;x)$ の最大点の集合と、対数尤度関数 $\ell(\boldsymbol\theta;x)$ の最大点の集合は一致する。
特に、最尤推定値が存在する場合、尤度関数を最大化して得られる最尤推定値と、対数尤度関数を最大化して得られる最尤推定値は同じである。
$$ \Box$$

正規分布の平均と分散の最尤推定値

$n\in\mathbb N$ とし、$n\geq 2$ とする。
$X_1,\ldots,X_n$ は独立同分布であり、
$$ X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}N(\mu,\sigma^2) $$
にしたがうとする。ただし、$\mu\in\mathbb R$ と $\sigma^2\in(0,\infty)$ は未知である。
観測値を
$$ x=(x_1,\ldots,x_n)\in\mathbb R^n $$
とする。また、
$$ \bar{x} := \frac{1}{n}\sum_{i=1}^{n}x_i $$
とおき、
$$ v := \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$
とおく。さらに、
$$ v>0 $$
と仮定する。
このとき、観測値 $x$ に対する正規分布 $N(\mu,\sigma^2)$ の最尤推定値は、
$$ \hat{\mu}_{\mathrm{MLE}}(x) = \bar{x}, \qquad \hat{\sigma}_{\mathrm{MLE}}^2(x) = v = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$
である。
同値に、最尤推定量は
$$ \hat{\mu}_{\mathrm{MLE}} = \bar{X}, \qquad \hat{\sigma}_{\mathrm{MLE}}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$
である。

正規分布 $N(\mu,\sigma^2)$ の密度関数は
$$ p_{\mu,\sigma^2}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right) $$
である。

独立同分布の仮定より、観測値 $x=(x_1,\ldots,x_n)$ に対する尤度関数は
$$ \begin{align} L(\mu,\sigma^2;x) &= \prod_{i=1}^{n}p_{\mu,\sigma^2}(x_i)\\ &= \prod_{i=1}^{n} \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x_i-\mu)^2}{2\sigma^2} \right) \right]\\ &= \left( \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \right) \left( \prod_{i=1}^{n} \exp\left( -\frac{(x_i-\mu)^2}{2\sigma^2} \right) \right)\\ &= \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \left( \prod_{i=1}^{n} \exp\left( -\frac{(x_i-\mu)^2}{2\sigma^2} \right) \right)\\ &= \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left( \sum_{i=1}^{n} -\frac{(x_i-\mu)^2}{2\sigma^2} \right)\\ &= \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right)\\ &= \left( (2\pi\sigma^2)^{-1/2} \right)^n \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right)\\ &= (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right) \end{align} $$
である。
$ $
ここで、$\sigma^2>0$ であるから、
$$ L(\mu,\sigma^2;x)>0 $$
である。
したがって、自然対数 $\log$ は $(0,\infty)$ 上の狭義単調増加関数であるから、
尤度関数を最大化する代わりに、対数尤度関数を最大化してよい(冒頭で示した命題)。
$ $
対数尤度関数は
$$ \begin{align} \ell(\mu,\sigma^2;x) &:= \log L(\mu,\sigma^2;x)\\ &= \log\left[ (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right) \right]\\ &= \log\left((2\pi\sigma^2)^{-n/2}\right) + \log\left[ \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right) \right]\\ &= -\frac{n}{2}\log(2\pi\sigma^2) + \left( -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \right)\\ &= -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2\\ &= -\frac{n}{2}\log\bigl((2\pi)(\sigma^2)\bigr) - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2\\ &= -\frac{n}{2} \left( \log(2\pi)+\log(\sigma^2) \right) - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2\\ &= -\frac{n}{2}\log(2\pi) -\frac{n}{2}\log\sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 \end{align} $$
である。
$ $
$\sigma^2>0$ を固定して、$\mu$ について最大化する。
$\mu$ に関する偏微分は
$$ \begin{align} \frac{\partial}{\partial\mu} \ell(\mu,\sigma^2;x) &= -\frac{1}{2\sigma^2} \frac{\partial}{\partial\mu} \sum_{i=1}^{n}(x_i-\mu)^2\\ &= -\frac{1}{2\sigma^2} \sum_{i=1}^{n}2(x_i-\mu)(-1)\\ &= \frac{1}{\sigma^2} \sum_{i=1}^{n}(x_i-\mu)\\ &= \frac{1}{\sigma^2} \left( \sum_{i=1}^{n}x_i-n\mu \right)\\ &= \frac{n}{\sigma^2}(\bar{x}-\mu) \end{align} $$
である。したがって、
$$ \frac{\partial}{\partial\mu} \ell(\mu,\sigma^2;x)=0 $$
であることは、
$$ \mu=\bar{x} $$
と同値である(/・ω・)/。また、$2$ 階偏微分は
$$ \begin{align} \frac{\partial^2}{\partial\mu^2} \ell(\mu,\sigma^2;x) &= \frac{\partial}{\partial\mu} \left[ \frac{n}{\sigma^2}(\bar{x}-\mu) \right]\\ &= -\frac{n}{\sigma^2} \end{align} $$
である。いま、$n\geq1$ かつ $\sigma^2>0$ であるから、
$$ -\frac{n}{\sigma^2}<0 $$
である。
ゆえに、固定した $\sigma^2>0$ のもとで、$\mu\mapsto\ell(\mu,\sigma^2;x)$ は狭義凹関数であり( 証明はコチラ )。
$\mu=\bar{x}$ において一意に最大となる(補足を参照)。
$ $
したがって、任意の $\mu\in\mathbb R$ と任意の $\sigma^2>0$ に対して、
$$ \ell(\mu,\sigma^2;x) \le \ell(\bar{x},\sigma^2;x) $$
が成り立つ。
$ $
次に、$\sigma^2$ について最大化する。
$$ S := \sum_{i=1}^{n}(x_i-\bar{x})^2 $$
とおく。このとき、$v>0$ より
$$ S=nv>0 $$
である。
$\tau:=\sigma^2$ とおくと、$\tau\in(0,\infty)$ であり、
$$ \ell(\bar{x},\tau;x) = -\frac{n}{2}\log(2\pi) -\frac{n}{2}\log\tau -\frac{S}{2\tau} $$
である。
$\tau$ に関する微分は
$$ \begin{align} \frac{d}{d\tau} \ell(\bar{x},\tau;x) &= -\frac{n}{2\tau} + \frac{S}{2\tau^2}\\ &= \frac{1}{2\tau^2} (S-n\tau) \end{align} $$
である。したがって、
$$ \frac{d}{d\tau} \ell(\bar{x},\tau;x)=0 $$
であることは、
$$ S-n\tau=0 $$
と同値である。ゆえに、停留点は
$$ \tau=\frac{S}{n} $$
である。また、既に示したように
$$ \frac{d}{d\tau} \ell(\bar{x},\tau;x) = \frac{1}{2\tau^2}(S-n\tau) $$
であるから、
$$ 0<\tau<\frac{S}{n} $$
のとき、
$$ \frac{d}{d\tau} \ell(\bar{x},\tau;x)>0 $$
であり、
$$ \tau>\frac{S}{n} $$
のとき、
$$ \frac{d}{d\tau} \ell(\bar{x},\tau;x)<0 $$
である。
したがって、$\ell(\bar{x},\tau;x)$ は
$$ \tau=\frac{S}{n} $$
において一意に最大となる。
すなわち、
$$ \sigma^2 = \frac{S}{n} = \frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x})^2 = v $$
である。

-以上より、対数尤度関数は
$$ \mu=\bar{x}, \qquad \sigma^2= \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$
において一意に最大となる。
$\log$ は狭義単調増加関数であるため、対数尤度関数を最大にする点と尤度関数を最大にする点は一致する(冒頭で示した命題)。。
ゆえに、観測値 $x$ に対する正規分布 $N(\mu,\sigma^2)$ の最尤推定値は
$$ \hat{\mu}_{\mathrm{MLE}}(x) = \bar{x}, \qquad \hat{\sigma}_{\mathrm{MLE}}^2(x) = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$
である。
同値に、最尤推定量は
$$ \hat{\mu}_{\mathrm{MLE}} = \bar{X}, \qquad \hat{\sigma}_{\mathrm{MLE}}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$
である。
$$ \Box$$

狭義凹関数の停留点が一意な最大点になる理由

$g:\mathbb R\to\mathbb R$ を微分可能な狭義凹関数とする。
$a\in\mathbb R$ が $g$ の停留点であるとする。すなわち、
$$ g'(a)=0 $$
が成り立つとする。このとき、$a$ は $g$ の一意な最大点である。
理由は次の通りである。

まず、微分可能な凹関数は、任意の $x,a\in\mathbb R$ に対して
$$ g(x)\le g(a)+g'(a)(x-a) $$
を満たす( 証明はコチラ )。
これは、凹関数のグラフが各点における接線の下側にあることを表している。
いま、$a$ は停留点であるから、
$$ g'(a)=0 $$
である。
したがって、任意の $x\in\mathbb R$ に対して、
$$ \begin{align} g(x) &\le g(a)+g'(a)(x-a)\\ &=g(a)+0\cdot(x-a)\\ &=g(a) \end{align} $$
が成り立つ。
よって、任意の $x\in\mathbb R$ に対して
$$ g(x)\le g(a) $$
であるから、$a$ は $g$ の最大点である。
$ $
次に、一意性を示す。
仮に、$a$ とは異なる最大点 $b\in\mathbb R$ が存在するとする。すなわち、
$$ a\ne b $$
かつ
$$ g(a)=g(b) $$
であり、どちらも最大値を与えるとする。
このとき、$a\ne b$ であるから、
$$ \frac{a+b}{2}\ne a, \qquad \frac{a+b}{2}\ne b $$
である。
また、$g$ は狭義凹関数であるため、
$$ g\left(\frac{a+b}{2}\right) > \frac{1}{2}g(a)+\frac{1}{2}g(b) $$
が成り立つ。
いま、$g(a)=g(b)$ であるから、
$$ \begin{align} \frac{1}{2}g(a)+\frac{1}{2}g(b) &= \frac{1}{2}g(a)+\frac{1}{2}g(a)\\ &= g(a) \end{align} $$
である。
したがって、
$$ g\left(\frac{a+b}{2}\right)>g(a) $$
となる。
しかし、$a$ は最大点であるから、任意の $x\in\mathbb R$ に対して
$$ g(x)\le g(a) $$
でなければならない。
これは
$$ g\left(\frac{a+b}{2}\right)>g(a) $$
に矛盾する。
よって、$a$ とは異なる最大点 $b$ は存在しない。

-したがって、狭義凹関数の停留点は、一意な最大点である。

ポアソン分布のパラメータの最尤推定値

$n\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$ X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Poisson}(\lambda) $$
にしたがうとする。ただし、$\lambda\in(0,\infty)$ は未知である。
観測値を
$$ x=(x_1,\ldots,x_n)\in\mathbb N_0^n $$
とする。さらに、
$$ \sum_{i=1}^{n}x_i>0 $$
と仮定する。
このとき、観測値 $x$ に対するポアソン分布のパラメータ $\lambda$ の最尤推定値は
$$ \hat{\lambda}_{\mathrm{MLE}}(x) = \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i $$
である。
同値に、最尤推定量は
$$ \hat{\lambda}_{\mathrm{MLE}} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i $$
である。

ポアソン分布の確率質量関数は、$x\in\mathbb N_0$ に対して
$$ p_\lambda(x) = \mathbb P_\lambda(X=x) = e^{-\lambda}\frac{\lambda^x}{x!} $$
である。

独立同分布の仮定より、観測値 $x=(x_1,\ldots,x_n)$ に対する尤度関数は
$$ \begin{align} L(\lambda;x) &= \prod_{i=1}^{n}p_\lambda(x_i)\\ &= \prod_{i=1}^{n} \left( e^{-\lambda}\frac{\lambda^{x_i}}{x_i!} \right)\\ &= \left( \prod_{i=1}^{n}e^{-\lambda} \right) \left( \prod_{i=1}^{n}\lambda^{x_i} \right) \left( \prod_{i=1}^{n}\frac{1}{x_i!} \right)\\ &= e^{-n\lambda} \lambda^{\sum_{i=1}^{n}x_i} \prod_{i=1}^{n}\frac{1}{x_i!}\\ &= e^{-n\lambda} \frac{\lambda^{\sum_{i=1}^{n}x_i}}{\prod_{i=1}^{n}x_i!} \end{align} $$
である。
$ $
ここで、$\lambda>0$ かつ $(x_1,\ldots,x_n)\in\mathbb N_0^n$ であるから、$L(\lambda;x)>0$ である。
したがって、自然対数 $\log$ は $(0,\infty)$ 上の狭義単調増加関数であるから、
尤度関数を最大化する代わりに、対数尤度関数を最大化してよい。
$ $
対数尤度関数は
$$ \begin{align} \ell(\lambda;x) &:= \log L(\lambda;x)\\ &= \log\left( e^{-n\lambda} \frac{\lambda^{\sum_{i=1}^{n}x_i}}{\prod_{i=1}^{n}x_i!} \right)\\ &= \log(e^{-n\lambda}) + \log\left( \lambda^{\sum_{i=1}^{n}x_i} \right) - \log\left( \prod_{i=1}^{n}x_i! \right)\\ &= -n\lambda + \left( \sum_{i=1}^{n}x_i \right)\log\lambda - \log\left( \prod_{i=1}^{n}x_i! \right) \end{align} $$
である。
$\lambda$ に関する微分を計算すると、
$$ \begin{align} \frac{d}{d\lambda}\ell(\lambda;x) &= \frac{d}{d\lambda} \left[ -n\lambda + \left( \sum_{i=1}^{n}x_i \right)\log\lambda - \log\left( \prod_{i=1}^{n}x_i! \right) \right]\\ &= -n + \left( \sum_{i=1}^{n}x_i \right)\frac{1}{\lambda}\\ &= -n+\frac{\sum_{i=1}^{n}x_i}{\lambda} \end{align} $$
である。
よって、停留点は
$$ \begin{align} \frac{d}{d\lambda}\ell(\lambda;x)=0 &\Longleftrightarrow -n+\frac{\sum_{i=1}^{n}x_i}{\lambda}=0\\ &\Longleftrightarrow \frac{\sum_{i=1}^{n}x_i}{\lambda}=n\\ &\Longleftrightarrow \lambda=\frac{1}{n}\sum_{i=1}^{n}x_i\\ &\Longleftrightarrow \lambda=\bar{x} \end{align} $$
である(*´ω｀)。仮定より、
$$ \sum_{i=1}^{n}x_i>0 $$
であるから、
$$ \bar{x}>0 $$
である。したがって、$\lambda=\bar{x}$ はパラメータ空間 $(0,\infty)$ に属する。
$ $
次に、この停留点が最大点であることを確認する。
$2$ 階微分を計算すると、
$$ \begin{align} \frac{d^2}{d\lambda^2}\ell(\lambda;x) &= \frac{d}{d\lambda} \left( -n+\frac{\sum_{i=1}^{n}x_i}{\lambda} \right)\\ &= -\frac{\sum_{i=1}^{n}x_i}{\lambda^2} \end{align} $$
である。
仮定より、
$$ \sum_{i=1}^{n}x_i>0 $$
であり、また $\lambda>0$ であるから、任意の $\lambda\in(0,\infty)$ に対して
$$ \frac{d^2}{d\lambda^2}\ell(\lambda;x)<0 $$
が成り立つ。
したがって、$\ell(\lambda;x)$ は $(0,\infty)$ 上の狭義凹関数である( 証明はコチラ )。
よって、狭義凹関数 $\ell(\lambda;x)$ の停留点 $\lambda=\bar{x}$ は一意な最大点である( 証明はコチラ )。
すなわち、
$$ \operatorname*{arg\,max}_{\lambda\in(0,\infty)} \ell(\lambda;x) = \{\bar{x}\} $$
である。
また、$\log$ は狭義単調増加関数であるから、対数尤度関数を最大化する $\lambda$ と尤度関数を最大化する $\lambda$ は一致する(冒頭で示した命題)。
したがって、
$$ \operatorname*{arg\,max}_{\lambda\in(0,\infty)} L(\lambda;x) = \{\bar{x}\} $$
である。

-ゆえに、観測値 $x$ に対するポアソン分布のパラメータ $\lambda$ の最尤推定値は
$$ \hat{\lambda}_{\mathrm{MLE}}(x) = \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i $$
である。
同値に、最尤推定量は
$$ \hat{\lambda}_{\mathrm{MLE}} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i $$
である。
$$ \Box$$

二項分布の成功確率の最尤推定値

$n,m\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$ X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Binomial}(m,q) $$
にしたがうとする。ただし、$m$ は既知であり、$q\in(0,1)$ は未知である。
観測値を
$$ x=(x_1,\ldots,x_n)\in\{0,1,\ldots,m\}^n $$
とする。さらに、
$$ 0<\sum_{i=1}^{n}x_i< nm $$
を仮定する。
このとき、観測値 $x$ に対する二項分布 $\operatorname{Binomial}(m,q)$ の成功確率 $q$ の最尤推定値は
$$ \hat q_{\mathrm{MLE}}(x) = \frac{1}{mn}\sum_{i=1}^{n}x_i = \frac{\bar{x}}{m} $$
である。ただし、
$$ \bar{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i $$
である。
同値に、最尤推定量は
$$ \hat q_{\mathrm{MLE}} = \frac{1}{mn}\sum_{i=1}^{n}X_i = \frac{\bar{X}}{m} $$
である。

二項分布 $\operatorname{Binomial}(m,q)$ の確率質量関数は、$x\in\{0,1,\ldots,m\}$ に対して
$$ p_q(x) = \binom{m}{x}q^x(1-q)^{m-x} $$
である。

独立同分布の仮定より、観測値 $x=(x_1,\ldots,x_n)$ に対する尤度関数は
$$ \begin{align} L(q;x) &= \prod_{i=1}^{n}p_q(x_i)\\ &= \prod_{i=1}^{n} \binom{m}{x_i}q^{x_i}(1-q)^{m-x_i}\\ &= \left( \prod_{i=1}^{n}\binom{m}{x_i} \right) q^{\sum_{i=1}^{n}x_i} (1-q)^{\sum_{i=1}^{n}(m-x_i)}\\ &= \left( \prod_{i=1}^{n}\binom{m}{x_i} \right) q^{\sum_{i=1}^{n}x_i} (1-q)^{nm-\sum_{i=1}^{n}x_i} \end{align} $$
である。ここで、
$$ S:=\sum_{i=1}^{n}x_i $$
とおく。仮定より、
$$ 0< S< nm $$
である。
$ $
$q\in(0,1)$ であるから、
$$ L(q;x)>0 $$
である。
したがって、自然対数 $\log$ は $(0,\infty)$ 上の狭義単調増加関数であるから、
尤度関数を最大化する代わりに、対数尤度関数を最大化してよい(冒頭で示した命題)。
$ $
対数尤度関数は
$$ \begin{align} \ell(q;x) &:= \log L(q;x)\\ &= \log\left[ \left( \prod_{i=1}^{n}\binom{m}{x_i} \right) q^S (1-q)^{nm-S} \right]\\ &= \log\left( \prod_{i=1}^{n}\binom{m}{x_i} \right) + S\log q + (nm-S)\log(1-q) \end{align} $$
である。
第 $1$ 項は $q$ に依存しない定数である。したがって、$q$ に関する微分は
$$ \begin{align} \frac{d}{dq}\ell(q;x) &= \frac{d}{dq} \left[ \log\left( \prod_{i=1}^{n}\binom{m}{x_i} \right) + S\log q + (nm-S)\log(1-q) \right]\\ &= \frac{S}{q} - \frac{nm-S}{1-q} \end{align} $$
である。
よって、停留点は
$$ \begin{align} \frac{d}{dq}\ell(q;x)=0 &\Longleftrightarrow \frac{S}{q} - \frac{nm-S}{1-q} =0\\ &\Longleftrightarrow S(1-q)-q(nm-S)=0\\ &\Longleftrightarrow S-Sq-qnm+qS=0\\ &\Longleftrightarrow S-qnm=0\\ &\Longleftrightarrow q=\frac{S}{nm}\\ &\Longleftrightarrow q=\frac{1}{mn}\sum_{i=1}^{n}x_i\\ &\Longleftrightarrow q=\frac{\bar{x}}{m} \end{align} $$
である。
また、仮定より $0< S< nm$ であるから、
$$ 0<\frac{S}{nm}<1 $$
である。したがって、この停留点はパラメータ空間 $(0,1)$ に属する。
$ $
次に、この停留点が最大点であることを確認する。
$2$ 階微分を計算すると、
$$ \begin{align} \frac{d^2}{dq^2}\ell(q;x) &= \frac{d}{dq} \left( \frac{S}{q} - \frac{nm-S}{1-q} \right)\\ &= -\frac{S}{q^2} - \frac{nm-S}{(1-q)^2} \end{align} $$
である。
仮定より、
$$ S>0, \qquad nm-S>0 $$
であり、また $q\in(0,1)$ であるから、任意の $q\in(0,1)$ に対して
$$ \frac{d^2}{dq^2}\ell(q;x)<0 $$
が成り立つ。
したがって、$\ell(q;x)$ は $(0,1)$ 上の狭義凹関数である( 証明はコチラ )。
よって、狭義凹関数 $\ell(q;x)$ の停留点
$$ q=\frac{S}{nm} $$
は一意な最大点である( 証明はコチラ )。
すなわち、
$$ \operatorname*{arg\,max}_{q\in(0,1)} \ell(q;x) = \left\{ \frac{S}{nm} \right\} $$
である。
また、$\log$ は狭義単調増加関数であるから、対数尤度関数を最大化する $q$ と尤度関数を最大化する $q$ は一致する(冒頭で示した命題)。
したがって、
$$ \operatorname*{arg\,max}_{q\in(0,1)} L(q;x) = \left\{ \frac{S}{nm} \right\} $$
である。

-ゆえに、観測値 $x$ に対する二項分布 $\operatorname{Binomial}(m,q)$ の成功確率 $q$ の最尤推定値は
$$ \hat q_{\mathrm{MLE}}(x) = \frac{S}{nm} = \frac{1}{mn}\sum_{i=1}^{n}x_i = \frac{\bar{x}}{m} $$
である。
同値に、最尤推定量は
$$ \hat q_{\mathrm{MLE}} = \frac{1}{mn}\sum_{i=1}^{n}X_i = \frac{\bar{X}}{m} $$
である。
$$ \Box$$

幾何分布の成功確率の最尤推定値

$n\in\mathbb N$ とする。$X_1,\ldots,X_n$ は独立同分布であり、
$$ X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Geometric}(q) $$
にしたがうとする。ただし、幾何分布は
$$ p_q(x) = q(1-q)^{x-1}, \qquad x=1,2,3,\ldots $$
で定義されるものとし、$q\in(0,1)$ は未知であるとする。
観測値を
$$ x=(x_1,\ldots,x_n)\in\mathbb N^n $$
とする。さらに、
$$ \bar{x} := \frac{1}{n}\sum_{i=1}^{n}x_i $$
とおき、
$$ \bar{x}>1 $$
を仮定する。
このとき、観測値 $x$ に対する幾何分布の成功確率 $q$ の最尤推定値は
$$ \hat q_{\mathrm{MLE}}(x) = \frac{1}{\bar{x}} $$
である。
同値に、最尤推定量は
$$ \hat q_{\mathrm{MLE}} = \frac{1}{\bar{X}} $$
である。ただし、
$$ \bar{X} := \frac{1}{n}\sum_{i=1}^{n}X_i $$
である。

幾何分布の確率質量関数は、$x\in\mathbb N$ に対して
$$ p_q(x) = q(1-q)^{x-1} $$
である。

独立同分布の仮定より、観測値 $x=(x_1,\ldots,x_n)$ に対する尤度関数は
$$ \begin{align} L(q;x) &= \prod_{i=1}^{n}p_q(x_i)\\ &= \prod_{i=1}^{n}q(1-q)^{x_i-1}\\ &= q^n(1-q)^{\sum_{i=1}^{n}(x_i-1)}\\ &= q^n(1-q)^{\sum_{i=1}^{n}x_i-n} \end{align} $$
である。
ここで、$q\in(0,1)$ であるから、
$$ L(q;x)>0 $$
である。
$ $
自然対数 $\log$ は $(0,\infty)$ 上の狭義単調増加関数であるから、
尤度関数を最大化する代わりに、対数尤度関数を最大化してよい(冒頭で示した命題)。
$ $
対数尤度関数は
$$ \begin{align} \ell(q;x) &:= \log L(q;x)\\ &= \log\left[ q^n(1-q)^{\sum_{i=1}^{n}x_i-n} \right]\\ &= n\log q + \left( \sum_{i=1}^{n}x_i-n \right)\log(1-q) \end{align} $$
である。
ここで、
$$ S:=\sum_{i=1}^{n}x_i $$
とおく。すると、
$$ \ell(q;x) = n\log q+(S-n)\log(1-q) $$
である。$q$ に関して微分すると、
$$ \begin{align} \frac{d}{dq}\ell(q;x) &= \frac{d}{dq} \left[ n\log q+(S-n)\log(1-q) \right]\\ &= \frac{n}{q} - \frac{S-n}{1-q} \end{align} $$
である。
したがって、停留点は
$$ \begin{align} \frac{d}{dq}\ell(q;x)=0 &\Longleftrightarrow \frac{n}{q} - \frac{S-n}{1-q} =0\\ &\Longleftrightarrow n(1-q)-q(S-n)=0\\ &\Longleftrightarrow n-nq-qS+qn=0\\ &\Longleftrightarrow n-qS=0\\ &\Longleftrightarrow q=\frac{n}{S}\\ &\Longleftrightarrow q=\frac{1}{S/n}\\ &\Longleftrightarrow q=\frac{1}{\bar{x}} \end{align} $$
である。
仮定より $\bar{x}>1$ であるから、
$$ 0<\frac{1}{\bar{x}}<1 $$
である。したがって、この停留点はパラメータ空間 $(0,1)$ に属する。
$ $
次に、この停留点が最大点であることを確認する。
$2$ 階微分を計算すると、
$$ \begin{align} \frac{d^2}{dq^2}\ell(q;x) &= \frac{d}{dq} \left( \frac{n}{q} - \frac{S-n}{1-q} \right)\\ &= -\frac{n}{q^2} - \frac{S-n}{(1-q)^2} \end{align} $$
である。
いま、$q\in(0,1)$ であり、また $x_i\in\mathbb N$ であるから、
$$ S-n = \sum_{i=1}^{n}(x_i-1) \ge0 $$
である。
さらに $n\ge1$ であるから、任意の $q\in(0,1)$ に対して
$$ \frac{d^2}{dq^2}\ell(q;x) = -\frac{n}{q^2} - \frac{S-n}{(1-q)^2} <0 $$
である。
したがって、$\ell(q;x)$ は $(0,1)$ 上の狭義凹関数である( 証明はコチラ )。
よって、狭義凹関数 $\ell(q;x)$ の停留点
$$ q=\frac{1}{\bar{x}} $$
は一意な最大点である( 証明はコチラ )。
すなわち、
$$ \operatorname*{arg\,max}_{q\in(0,1)} \ell(q;x) = \left\{ \frac{1}{\bar{x}} \right\} $$
である。
また、$\log$ は狭義単調増加関数であるから、対数尤度関数を最大化する $q$ と尤度関数を最大化する $q$ は一致する(冒頭で示した命題)。
したがって、
$$ \operatorname*{arg\,max}_{q\in(0,1)} L(q;x) = \left\{ \frac{1}{\bar{x}} \right\} $$
である。

-ゆえに、観測値 $x$ に対する幾何分布の成功確率 $q$ の最尤推定値は
$$ \hat q_{\mathrm{MLE}}(x) = \frac{1}{\bar{x}} $$
である。
同値に、最尤推定量は
$$ \hat q_{\mathrm{MLE}} = \frac{1}{\bar{X}} $$
である。
$$ \Box$$

指数分布の率パラメータの最尤推定値

$n\in\mathbb N$ とする。
$X_1,\ldots,X_n$ は独立同分布であり、
$$ X_1,\ldots,X_n\overset{\mathrm{i.i.d.}}{\sim}\operatorname{Exponential}(\lambda) $$
にしたがうとする。ただし、$\lambda\in(0,\infty)$ は未知である。
指数分布の確率密度関数を、$x>0$ に対して
$$ p_\lambda(x):=\lambda e^{-\lambda x} $$
で定める。
観測値を
$$ x=(x_1,\ldots,x_n)\in(0,\infty)^n $$
とする。また、
$$ \bar{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i $$
とおく。
このとき、観測値 $x$ に対する指数分布の率パラメータ $\lambda$ の最尤推定値は
$$ \hat{\lambda}_{\mathrm{MLE}}(x) = \frac{1}{\bar{x}} = \frac{n}{\sum_{i=1}^{n}x_i} $$
である。
同値に、最尤推定量は
$$ \hat{\lambda}_{\mathrm{MLE}} = \frac{1}{\bar{X}} $$
である。ただし、
$$ \bar{X}:=\frac{1}{n}\sum_{i=1}^{n}X_i $$
である。

独立同分布の仮定より、観測値 $x=(x_1,\ldots,x_n)$ に対する尤度関数は
$$ \begin{align} L(\lambda;x) &= \prod_{i=1}^{n}p_\lambda(x_i)\\ &= \prod_{i=1}^{n}\lambda e^{-\lambda x_i}\\ &= \lambda^n \exp\left( -\lambda\sum_{i=1}^{n}x_i \right) \end{align} $$
である。
ここで、$\lambda>0$ かつ $x_i>0$ であるから、
$$ L(\lambda;x)>0 $$
である。
$ $
自然対数 $\log$ は $(0,\infty)$ 上の狭義単調増加関数であるから、
尤度関数を最大化する代わりに、対数尤度関数を最大化してよい(冒頭で示した命題)。
$ $
対数尤度関数は
$$ \begin{align} \ell(\lambda;x) &:= \log L(\lambda;x)\\ &= \log\left[ \lambda^n \exp\left( -\lambda\sum_{i=1}^{n}x_i \right) \right]\\ &= n\log\lambda - \lambda\sum_{i=1}^{n}x_i \end{align} $$
である。
$\lambda$ に関して微分すると、
$$ \begin{align} \frac{d}{d\lambda}\ell(\lambda;x) &= \frac{n}{\lambda} - \sum_{i=1}^{n}x_i \end{align} $$
である。
$ $
したがって、停留点は
$$ \begin{align} \frac{d}{d\lambda}\ell(\lambda;x)=0 &\Longleftrightarrow \frac{n}{\lambda} - \sum_{i=1}^{n}x_i =0\\ &\Longleftrightarrow \frac{n}{\lambda} = \sum_{i=1}^{n}x_i\\ &\Longleftrightarrow \lambda = \frac{n}{\sum_{i=1}^{n}x_i}\\ &\Longleftrightarrow \lambda = \frac{1}{\bar{x}} \end{align} $$
である。
また、$x_i>0$ であるから、
$$ \sum_{i=1}^{n}x_i>0 $$
である。したがって、
$$ \frac{n}{\sum_{i=1}^{n}x_i}>0 $$
であり、この停留点はパラメータ空間 $(0,\infty)$ に属する。
$ $
次に、この停留点が最大点であることを確認する。
$2$ 階微分を計算すると、
$$ \begin{align} \frac{d^2}{d\lambda^2}\ell(\lambda;x) &= -\frac{n}{\lambda^2} \end{align} $$
である。
いま、$n\geq1$ かつ $\lambda>0$ であるから、任意の $\lambda\in(0,\infty)$ に対して
$$ -\frac{n}{\lambda^2}<0 $$
である。
したがって、$\ell(\lambda;x)$ は $(0,\infty)$ 上の狭義凹関数である( 証明はコチラ )。
よって、狭義凹関数 $\ell(\lambda;x)$ の停留点
$$ \lambda=\frac{1}{\bar{x}} $$
は一意な最大点である( 証明はコチラ )。
すなわち、
$$ \operatorname*{arg\,max}_{\lambda\in(0,\infty)} \ell(\lambda;x) = \left\{ \frac{1}{\bar{x}} \right\} $$
である。
また、$\log$ は狭義単調増加関数であるから、
対数尤度関数を最大化する $\lambda$ と尤度関数を最大化する $\lambda$ は一致する(冒頭で示した命題)。
したがって、
$$ \operatorname*{arg\,max}_{\lambda\in(0,\infty)} L(\lambda;x) = \left\{ \frac{1}{\bar{x}} \right\} $$
である。

-ゆえに、観測値 $x$ に対する指数分布の率パラメータ $\lambda$ の最尤推定値は
$$ \hat{\lambda}_{\mathrm{MLE}}(x) = \frac{1}{\bar{x}} = \frac{n}{\sum_{i=1}^{n}x_i} $$
である。
同値に、最尤推定量は
$$ \hat{\lambda}_{\mathrm{MLE}} = \frac{1}{\bar{X}} $$
である。
$$ \Box$$

参考文献

[1]

WHAT IS A STATISTICAL MODEL?, 閲覧日 2026年5月10日, https://www.stat.uchicago.edu/~pmcc/pubs/AOS023.pdf

[2]

Identifiability, 閲覧日 2026年5月10日, https://en.wikipedia.org/wiki/Identifiability

[3]

Robert V.Hogg, Joseph W.McKean, Allen T.Craig, 豊田秀樹監訳, 数理統計学ハンドブック Introduction to Mathematical Statistics 6th Edition, 朝倉書店, 2022

投稿日：5月10日

更新日：5月10日

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

Kagura

7371

■ 分野を問わず数学の証明が好きです。あとで自分が読み返したときに、きちんと理解できるノートを作ることを心がけています。不定期に過去のノートを確認し、修正&更新 (追加&削除) しています。定義、命題、証明などに誤りや不正確な点がございましたら、ご指摘いただけますと幸いです(2025年12月28日)。

他の人のコメント

コメントはありません。

読み込み中

Kagura

統計モデルとパラメーター推定の数学的基礎と尤度関数の最大化