Gauss-Markovの定理とその証明

491

はじめに

回帰モデルにおいて、最小二乗法(Least Squares Method, $L S M$ ) は最尤法(Maximun Likelihood, $M L$ )よりも古典的な手法ですが、確率分布(Prob. Dist.)を指定しない推定手法として広く用いられています。一般化線形モデル(Generalized Linear Model, $G L I M$ )の文脈では、 $M L$ は $L S M$ の特別な場合であることが知られています。ここでは $M L$ や $L S M$ の初歩的な内容は他の記事に譲り、一般線形モデル(General Linear Model, $G L M$ )を少し紹介します。そのあと回帰モデルにおける最小二乗推定量(Least Squares Estimator)がGauss-Markovの定理によって最良線形不偏推定量(Best Linear Unbiased Estimator, $B L U E$ )を満たすことに焦点を当てます。

準備

誤差項ベクトルが不偏性を持ったGLM

$\begin{array}{r} \overset{Y}{\overset{⏞}{(\begin{array}{cc} y_{1} \\ y_{2} \\ ⋮ \\ y_{i} \end{array})}} = \overset{X}{\overset{⏞}{(\begin{array}{cc} x_{11} & x_{12} & \dots & x_{1 j} \\ x_{21} & x_{22} & \dots & x_{2 j} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{i 1} & x_{i 2} & \dots & x_{i j} \end{array})}} \overset{β}{\overset{⏞}{(\begin{array}{cc} β_{1} \\ β_{2} \\ ⋮ \\ β_{j} \end{array})}} + \overset{ε}{\overset{⏞}{(\begin{array}{cc} ε_{1} \\ ε_{2} \\ ⋮ \\ ε_{i} \end{array})}} \end{array}, E (ε | X) = 0$
$w h e r e X - d e s i g n m t r x Y - o u t c o m e v a r i a b l e v e c t o r β - p a r a m e t e r v e c t o r ε - e r r o r t e r m v e c t o r$

ここでいう線形とは、任意のパラメータに関して線形であるという限られた意味で用いられているので注意してください。この形で回帰モデルや分散分析モデルなど、いろいろ表現できてしまうのがうれしいところです。

$E (ε | X) = 0$ を仮定することによって、ここでの $G L M$ は不偏性(unbiasedness)をもった線形モデルといえます。また、追加的に等分散性(Homoskedasticity)の仮定 $E (ε^{2} | X) = σ^{2}$ をおけば、 $V a r ε = σ^{2} I$ 　が見えます。よって $ε \sim M V N (0, σ^{2} I)$ といえるでしょう。この等分散性の仮定は、 $X$ と $ε$ の独立性を担保していることも示唆しています。

不偏性と等分散性をもった $G L M$ を考えることで $L S M$ の平均や分散を導出できますが、確認したい方はこちらへどうぞ。

Gauss-Markovの定理

そもそも $B L U E$ というのは、すべての線形不偏推定量の中で分散が最小のものであることをいうのでした。つまり、

Gauss-Markovの定理

最小二乗推定量を $\hat{β}$ と表し、 $\hat{b}$ を線形不偏推定量とすれば、 $V a r {\hat{β}}_{t} \leq V a r {\hat{b}}_{t}, t = 1, \dots, j$ が成り立つ。

確認ですが、Gauss-Markovの定理は、最小二乗推定量 $\hat{β}$ が $B L U E$ になることを主張しているのであって、 $B L U E$ そのものではありません。

さて、 $G L M$ における回帰モデルの最小二乗推定量は、 $Y$ の線形和を用いた $\hat{β}$ に関する線形関数として表すことができます。つまり、 $\hat{β} = (X^{'} X)^{- 1} X^{'} Y$ というよく見る正規方程式の解のことです。最小二乗推定量自身も線形不偏推定量なので、あとは分散が最小という意味で最良であればよいだけです。ではでは証明へレッツラゴー。

$A$ を $A^{'} X = I$ を満たす $X$ に関する行列としたとき、 $A^{'} Y$ は $β$ に対して不偏であって、分散 $σ^{2} A^{'} A$ を持つ。最小二乗推定量が不偏で、分散は $σ^{2} (X^{'} X)^{- 1}$ であることから、これら $2$ つの分散共分散行列の差が半正定値であることを示せればよいだろう。つまり $A^{'} A - (X^{'} X)^{- 1} > 0$ 。

$C \equiv A - X (X^{'} X)^{- 1}$ とし、 $X^{'} C = 0$ であることに注意すれば次のようになる。
$A^{'} A - (X^{'} X)^{- 1} = (C + X (X^{'} X)^{- 1})^{'} (C + X (X^{'} X)^{- 1}) - (X^{'} X)^{- 1} = C^{'} C + C^{'} X (X^{'} X)^{- 1} + (X^{'} X)^{- 1} X^{'} C + (X^{'} X)^{- 1} X^{'} X (X^{'} X)^{- 1} - (X^{'} X)^{- 1} = C^{'} C > 0$