本稿では,測度論やルベーグ積分に基づく公理的確率論の言葉を用いて,統計学における標本平均と標本分散,不偏標本分散について述べる.従って,読者は公理的確率論の基礎を理解しているものとする.加えて統計学の知識もあることが望ましいが,証明を追うだけであれば無くても問題はない.
以下,$(\Omega,\mathcal{F},P)$を確率空間とする.また,単に確率変数と言ったときは,$(\Omega,\mathcal{F})$上の実数値確率変数を意味するものとする.さらに,$\mathbb{R}$のBorel集合族,すなわち$\mathbb{R}$の開集合全体を含む最小の$\sigma$-加法族を$\mathcal{B}(\mathbb{R})$と書く.
確率変数$X,Y$が独立であるとは,任意の$A,B\in\mathcal{B(\mathbb{R})}$に対して
$$
P(X\in A, Y\in B)=P(X\in A)P(Y\in B)
$$
が成り立つことをいう.また,確率変数$X_1,X_2,\cdots,X_n$が独立であるとは,任意の$A_1,A_2,\cdots,A_n\in\mathcal{B(\mathbb{R})}$に対して
$$
P(X_1\in A_1, X_2\in A_2, \cdots, X_n\in A_n)=\prod_{i=1}^nP(X_i\in A_i)
$$
が成り立つことをいう.
$X$を確率変数とする.任意の$A\in\mathcal{B}(\mathbb{R})$に対して
$$
P_X(A)=P(X\in A)
$$
を満たす$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度$P_X$を,$X$の分布という.
定義2において,$P_X$が$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度であることを示せ.
確率変数$X$に対して,$E(X)=\displaystyle\int_\Omega X(\omega)\,P(d\omega)$を$X$の期待値という.
また,$V(X)=E(\{X-E(X)\}^2)$を$X$の分散という.
さらに,確率変数$X,Y$に対して,$C(X,Y)=E(\{X-E(X)\}\{Y-E(Y)\})$を$X,Y$の共分散という.
積分の線形性により,期待値にも線形性が備わっている.すなわち,確率変数$X,Y$と実数$a,b$に対して,常に$E(aX+bY)=aE(X)+bE(Y)$が成り立つ.
確率変数$X$が$E(|X|)<\infty$を満たすとき,$X$は可積分であるという.
また,$X$が$E(X^2)<\infty$を満たすとき,$X$は二乗可積分であるという.
確率変数$X$の分散$V(X)$の値が定義されるためには,$X$が二乗可積分であることが必要である.また,確率変数$X,Y$の共分散$C(X,Y)$の値が定義されるためには,$X,Y$がともに二乗可積分であることが必要である.以下,これらの値について述べる際には,適切な二乗可積分性が仮定されているものとする.
確率変数$X$に対して$V(X)=E(X^2)-E(X)^2$であることを示せ.
次の定理は,期待値すなわちルベーグ積分の定義に戻ることで証明できるが,冗長になるためここでは割愛する.
独立な可積分確率変数$X_1,X_2,\cdots,X_n$に対して$\displaystyle E\left(\prod_{i=1}^nX_i\right)=\prod_{i=1}^nE(X_i)$が成り立つ.
例えば,舟木直久『確率論』(朝倉書店,2004)補題3.17を参照せよ.
確率変数$X$および実数$a,b$に対して$V(aX+b)=a^2V(X)$が成り立つ.
分散の定義および期待値の線形性に注意して計算すると,
\begin{align}
V(aX+b)
&=E(\{(aX+b)-E(aX+b)\}^2)\\
&=E(\{aX+b-(aE(X)+b)\}^2)\\
&=E(\{a(X-E(X))\}^2)\\
&=a^2E(\{X-E(X)\}^2)\\
&=a^2V(X)
\end{align}
となる.
確率変数$X,Y$に対して$V(X+Y)=V(X)+V(Y)+2C(X,Y)$が成り立つ.
分散の定義および期待値の線形性に注意して計算すると,
\begin{align}
V(X+Y)
&=E(\{(X+Y)-E(X+Y)\}^2)\\
&=E(\{(X-E(X))+(Y-E(Y))\}^2)\\
&=E(\{X-E(X)\}^2+2\{X-E(X)\}\{Y-E(Y)\}+\{Y-E(Y)\}^2)\\
&=E(\{X-E(X)\}^2)+2E(\{X-E(X)\}\{Y-E(Y)\})+E(\{Y-E(Y)\}^2)\\
&=V(X)+2C(X,Y)+V(Y)
\end{align}
となる.
独立な確率変数$X,Y$に対して$C(X,Y)=0$が成り立つ.
共分散の定義および期待値の線形性に注意して計算すると,
\begin{align*}
C(X,Y)
&=E(\{X-E(X)\}\{Y-E(Y)\})\\
&=E(XY-X\cdot E(Y)-Y\cdot E(X)+E(X)E(Y))\\
&=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)\\
&=E(XY)-E(X)E(Y)
\end{align*}
となる.ここで,$X,Y$は独立ゆえ,定理1より$E(XY)=E(X)E(Y)$である.従って,$C(X,Y)=0$が成り立つ.
独立な確率変数$X,Y$に対して$V(X+Y)=V(X)+V(Y)$が成り立つ.
命題3と命題4から従う.
独立な確率変数$X_1,X_2,\cdots,X_n$に対して$\displaystyle V\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nV(X_i)$が成り立つことを示せ.
母集団の統計的推測を行うためには,標本が無作為に選ばれている必要がある.無作為に選ばれた標本,すなわち無作為標本は,数学的には独立同分布な確率変数列として定義される.以下,標本$X$と言ったとき,$X$は確率変数である.
標本$X_1,X_2,\cdots,X_n$が互いに独立かつ同一の分布$F$に従うとき,$X_1,X_2,\cdots,X_n$を母集団分布$F$から抽出された大きさ$n$の無作為標本という.
標本$X_1,X_2,\cdots,X_n$に対して,$\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i$を標本平均という.
また,$\displaystyle S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2$を標本分散という.
標本平均,標本分散の定義は,データの平均,分散の求め方を考えればごく自然である.しかし,分散については,次に定義する不偏標本分散を用いることが多い.その理由は次節で明らかになる.
標本$X_1,X_2,\cdots,X_n$に対して,$s^2=\displaystyle\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$を不偏標本分散という.
標本分散と不偏標本分散の違いは,偏差の平方和を$n$で割るか$n-1$で割るかだけである.よって,標本$X_1,X_2,\cdots,X_n$の標本分散,不偏標本分散をそれぞれ$S^2, s^2$とすると,$\displaystyle s^2=\frac{n}{n-1}S^2$が成り立つ.
標本平均や標本分散,不偏標本分散のように,標本の関数$T(X_1,X_2,\cdots,X_n)$として表されるものを統計量という.統計学では,これらの統計量を用いて,母平均や母分散といったパラメータを推定する.このように,推定に用いられる統計量を推定量という.
パラメータ$\theta$の推定量$X$が$E(X)=\theta$を満たすとき,$X$を$\theta$の不偏推定量という.
$X_1,X_2,\cdots,X_n$を,母平均$\mu$,母分散$\sigma^2$を持つ分布から抽出された大きさ$n$の無作為標本とする.このとき,標本平均$\overline{X}$,不偏標本分散$s^2$は,それぞれ母平均$\mu$,母分散$\sigma^2$の不偏推定量である.
標本平均の期待値は,期待値の線形性より
$$
E(\overline{X})
=E\left(\frac{1}{n}\sum_{i=1}^nX_i\right)
=\frac{1}{n}\sum_{i=1}^nE(X_i)
=\frac{1}{n}\cdot n\mu
=\mu
$$
となる.従って,標本平均$\overline{X}$は母平均$\mu$の不偏推定量である.一方,不偏標本分散の期待値は,
$$
E(s^2)
=E\left(\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\right)
=\frac{1}{n-1}E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)
$$
となる.ここで,$\overline{X}-\mu=\displaystyle\frac{1}{n}\sum_{i=1}^n(X_i-\mu)$に注意すると
\begin{align}
\sum_{i=1}^n(X_i-\overline{X})^2
&=\sum_{i=1}^n\{(X_i-\mu)-(\overline{X}-\mu)\}^2\\
&=\sum_{i=1}^n\{(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2\}\\
&=\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+n(\overline{X}-\mu)^2\\
&=\sum_{i=1}^n(X_i-\mu)^2-2n(\overline{X}-\mu)^2+n(\overline{X}-\mu)^2\\
&=\sum_{i=1}^n(X_i-\mu)^2-n(\overline{X}-\mu)^2
\end{align}
である.さらに,問題2および命題2,問題3より
\begin{align*}
E((X_i-\mu)^2)
&=E((X_i-\mu)^2)-E(X_i-\mu)^2\\
&=V(X_i-\mu)\\
&=V(X_i)\\
&=\sigma^2,\\
E((\overline{X}-\mu)^2)
&=E((\overline{X}-\mu)^2)-E(\overline{X}-\mu)^2\\
&=V(\overline{X}-\mu)\\
&=V(\overline{X})\\
&=V\left(\frac{1}{n}\sum_{i=1}^nX_i\right)\\
&=\frac{1}{n^2}V\left(\sum_{i=1}^nX_i\right)\\
&=\frac{1}{n^2}\sum_{i=1}^nV(X_i)\\
&=\frac{1}{n^2}\cdot n\sigma^2\\
&=\frac{\sigma^2}{n}
\end{align*}
と計算できる.ゆえに
$$
E(s^2)
=\frac{1}{n-1}\left(n\sigma^2-n\cdot\frac{\sigma^2}{n}\right)
=\frac{1}{n-1}\cdot(n-1)\sigma^2
=\sigma^2
$$
となる.従って,不偏標本分散$s^2$は母分散$\sigma^2$の不偏推定量である.
注意(標本分散と不偏標本分散の違い)と定理6より,母平均$\mu$,母分散$\sigma^2$を持つ分布から抽出された大きさ$n$の無作為標本$X_1,X_2,\cdots,X_n$に対し,その標本分散を$S^2$とすると,
$$
E(S^2)=E\left(\frac{n-1}{n}s^2\right)=\frac{n-1}{n}E(s^2)=\frac{n-1}{n}\sigma^2
$$
となる.すなわち,標本分散は母分散の不偏推定量ではない.
以上より,$P_X$は$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度である.
分散の定義および期待値の線形性に注意して計算すると,
\begin{align}
V(X)
&=E(\{X-E(X)\}^2)\\
&=E(X^2-2XE(X)+E(X)^2)\\
&=E(X^2)-2E(X)E(X)+E(X)^2\\
&=E(X^2)-E(X)^2
\end{align}
となる.
分散の定義および期待値の線形性に注意して計算すると,
\begin{align}
V\left(\sum_{i=1}^nX_i\right)
&=E\left(\left\{\sum_{i=1}^nX_i-E\left(\sum_{i=1}^nX_i\right)\right\}^2\right)\\
&=E\left(\left\{\sum_{i=1}^n\{X_i-E(X_i)\}\right\}^2\right)\\
&=E\left(\sum_{i=1}^n\{X_i-E(X_i)\}^2+2\sum_{1\leq i< j\leq n}\{X_i-E(X_i)\}\{X_j-E(X_j)\}\right)\\
&=\sum_{i=1}^nE(\{X_i-E(X_i)\}^2)+2\sum_{1\leq i< j\leq n}E(\{X_i-E(X_i)\}\{X_j-E(X_j)\})\\
&=\sum_{i=1}^nV(X_i)+2\sum_{1\leq i< j\leq n}C(X_i,X_j)
\end{align}
となる.ここで,$X_1,X_2,\cdots,X_n$は独立ゆえ,命題4より,相異なる$i,j\in\{1,2,\cdots,n\}$に対して$C(X_i,X_j)=0$である.従って,上式最後の第2項は$0$となるから$\displaystyle V\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nV(X_i)$を得る.