回帰モデルにおいて、最小二乗法(Least Squares Method,$LSM$) は最尤法(Maximun Likelihood,$ML$)よりも古典的な手法ですが、確率分布(Prob. Dist.)を指定しない推定手法として広く用いられています。一般化線形モデル(Generalized Linear Model,$GLIM$)の文脈では、$ML$は$LSM$の特別な場合であることが知られています。ここでは$ML$や$LSM$の初歩的な内容は他の記事に譲り、一般線形モデル(General Linear Model,$GLM$)を少し紹介します。そのあと回帰モデルにおける最小二乗推定量(Least Squares Estimator)がGauss-Markovの定理によって最良線形不偏推定量(Best Linear Unbiased Estimator,$BLUE$)を満たすことに焦点を当てます。
$\
\begin{eqnarray}
\overbrace{\left(
\begin{array}{cc}
y_1 \\
y_2 \\
\vdots \\
y_i
\end{array}
\right)}^\boldsymbol{ Y }
=
\overbrace{
\left(
\begin{array}{cc}
x_{11} & x_{12} & … & x_{1j}\\
x_{21} & x_{22} & … & x_{2j}\\
\vdots & \vdots & \ddots
& \vdots \\
x_{i1} & x_{i2} & … & x_{ij}
\end{array}
\right)}^\boldsymbol{ X }
\overbrace{
\left(
\begin{array}{cc}
β_1\\
β_2\\
\vdots
\\
β_j
\end{array}
\right)}^\boldsymbol{β}
+
\overbrace{
\left(
\begin{array}{cc}
ε_1\\
ε_2\\
\vdots \\
ε_i
\end{array}
\right)}^\boldsymbol{ε}
\end{eqnarray}, E(ε| \boldsymbol{X})=0$
$where\\ \boldsymbol{X}-design\ mtrx\\
\boldsymbol{ Y }-outcome\ variable\ vector\\
β-parameter\ vector\\
ε-error\ term\ vector
$
ここでいう線形とは、任意のパラメータに関して線形であるという限られた意味で用いられているので注意してください。この形で回帰モデルや分散分析モデルなど、いろいろ表現できてしまうのがうれしいところです。
$E(ε|\boldsymbol{X})=0$を仮定することによって、ここでの$GLM$は不偏性(unbiasedness)をもった線形モデルといえます。また、追加的に等分散性(Homoskedasticity)の仮定$E(ε^2|\boldsymbol{X})=σ^2$をおけば、$Varε=σ^{2}\boldsymbol{ I }$ が見えます。よって$ε∼MVN(0,σ^2 \boldsymbol{I})$といえるでしょう。この等分散性の仮定は、$\boldsymbol{X}$と$ε$の独立性を担保していることも示唆しています。
不偏性と等分散性をもった$GLM$を考えることで$LSM$の平均や分散を導出できますが、確認したい方は こちら へどうぞ。
そもそも$BLUE$というのは、すべての線形不偏推定量の中で分散が最小のものであることをいうのでした。つまり、
最小二乗推定量を$\hat β$と表し、$\hat b$を線形不偏推定量とすれば、$Var\hat β_t \leq Var\hat b_t\ ,\ t=1,…,j$が成り立つ。
確認ですが、Gauss-Markovの定理は、最小二乗推定量$\hat β$が$BLUE$になることを主張しているのであって、$BLUE$そのものではありません。
さて、$GLM$における回帰モデルの最小二乗推定量は、$Y$の線形和を用いた$\hat β$に関する線形関数として表すことができます。つまり、$\hat β=(\boldsymbol{X'}\boldsymbol{X})^{-1}\boldsymbol{X'}\boldsymbol{Y}$というよく見る正規方程式の解のことです。最小二乗推定量自身も線形不偏推定量なので、あとは分散が最小という意味で最良であればよいだけです。ではでは証明へレッツラゴー。
$\boldsymbol{A}$を$\boldsymbol{A'X=I}$を満たす$\boldsymbol{X}$に関する行列としたとき、$\boldsymbol{A'Y}$は$β$に対して不偏であって、分散$\boldsymbol{σ^2A'A}$を持つ。最小二乗推定量が不偏で、分散は$\boldsymbol{σ^2(X'X)^{-1}}$であることから、これら$2$つの分散共分散行列の差が半正定値であることを示せればよいだろう。つまり$\boldsymbol{A'A-(X'X)^{-1}>0}$。
$\boldsymbol{C \equiv A-X(X'X)^{-1}}$とし、$\boldsymbol{X'C=0}$であることに注意すれば次のようになる。
$\boldsymbol{A'A-(X'X)^{-1}=(C+X(X'X)^{-1})'(C+X(X'X)^{-1})-(X'X)^{-1}\\=C'C+C'X(X'X)^{-1}+(X'X)^{-1}X'C+(X'X)^{-1}X'X(X'X)^{-1}-(X'X)^{-1}\\=C'C>0}$
最後の不等式は、$\boldsymbol{C'C}$が二次形式の性質から半正定値であることを示しています。
少し重い内容をどうまとめるか苦戦しました。要はGauss-Markovが言いたいのは、ある特定の条件の下では最小二乗推定量がbestになるんだよってことです。
ちなみに誤差が正規分布に従うと仮定したときには、最小二乗推定量は一様最小分散不偏推定量(Uniformly Minimum Variance Unbiased Estimator,$UMVUE$)になることが知られています。