文献あり

確率論の言葉で書く標本平均・標本分散・不偏標本分散

263

概要

本稿では，測度論やルベーグ積分に基づく公理的確率論の言葉を用いて，統計学における標本平均と標本分散，不偏標本分散について述べる．従って，読者は公理的確率論の基礎を理解しているものとする．加えて統計学の知識もあることが望ましいが，証明を追うだけであれば無くても問題はない．

以下，$(\Omega,\mathcal{F},P)$を確率空間とする．また，単に確率変数と言ったときは，$(\Omega,\mathcal{F})$上の実数値確率変数を意味するものとする．さらに，$\mathbb{R}$のBorel集合族，すなわち$\mathbb{R}$の開集合全体を含む最小の$\sigma$-加法族を$\mathcal{B}(\mathbb{R})$と書く．

必要最低限の確率論の復習

用語の定義

確率変数の独立性

確率変数$X,Y$が独立であるとは，任意の$A,B\in\mathcal{B(\mathbb{R})}$に対して
$$ P(X\in A, Y\in B)=P(X\in A)P(Y\in B) $$
が成り立つことをいう．また，確率変数$X_1,X_2,\cdots,X_n$が独立であるとは，任意の$A_1,A_2,\cdots,A_n\in\mathcal{B(\mathbb{R})}$に対して
$$ P(X_1\in A_1, X_2\in A_2, \cdots, X_n\in A_n)=\prod_{i=1}^nP(X_i\in A_i) $$
が成り立つことをいう．

確率変数の分布

$X$を確率変数とする．任意の$A\in\mathcal{B}(\mathbb{R})$に対して
$$ P_X(A)=P(X\in A) $$
を満たす$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度$P_X$を，$X$の分布という．

確率変数の分布が確率測度であることの証明

定義2において，$P_X$が$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度であることを示せ．

確率変数の期待値，分散，共分散

確率変数$X$に対して，$E(X)=\displaystyle\int_\Omega X(\omega)\,P(d\omega)$を$X$の期待値という．
また，$V(X)=E(\{X-E(X)\}^2)$を$X$の分散という．
さらに，確率変数$X,Y$に対して，$C(X,Y)=E(\{X-E(X)\}\{Y-E(Y)\})$を$X,Y$の共分散という．

期待値の線形性

積分の線形性により，期待値にも線形性が備わっている．すなわち，確率変数$X,Y$と実数$a,b$に対して，常に$E(aX+bY)=aE(X)+bE(Y)$が成り立つ．

確率変数の可積分性

確率変数$X$が$E(|X|)<\infty$を満たすとき，$X$は可積分であるという．
また，$X$が$E(X^2)<\infty$を満たすとき，$X$は二乗可積分であるという．

分散や共分散が定義される条件

確率変数$X$の分散$V(X)$の値が定義されるためには，$X$が二乗可積分であることが必要である．また，確率変数$X,Y$の共分散$C(X,Y)$の値が定義されるためには，$X,Y$がともに二乗可積分であることが必要である．以下，これらの値について述べる際には，適切な二乗可積分性が仮定されているものとする．

確率変数$X$に対して$V(X)=E(X^2)-E(X)^2$であることを示せ．

諸性質とその証明

次の定理は，期待値すなわちルベーグ積分の定義に戻ることで証明できるが，冗長になるためここでは割愛する．

独立な可積分確率変数の積の期待値

独立な可積分確率変数$X_1,X_2,\cdots,X_n$に対して$\displaystyle E\left(\prod_{i=1}^nX_i\right)=\prod_{i=1}^nE(X_i)$が成り立つ．

例えば，舟木直久『確率論』（朝倉書店，2004）補題3.17を参照せよ．

分散の非線形性1

確率変数$X$および実数$a,b$に対して$V(aX+b)=a^2V(X)$が成り立つ．

分散の定義および期待値の線形性に注意して計算すると，
\begin{align} V(aX+b) &=E(\{(aX+b)-E(aX+b)\}^2)\\ &=E(\{aX+b-(aE(X)+b)\}^2)\\ &=E(\{a(X-E(X))\}^2)\\ &=a^2E(\{X-E(X)\}^2)\\ &=a^2V(X) \end{align}
となる．

分散の非線形性2

確率変数$X,Y$に対して$V(X+Y)=V(X)+V(Y)+2C(X,Y)$が成り立つ．

分散の定義および期待値の線形性に注意して計算すると，
\begin{align} V(X+Y) &=E(\{(X+Y)-E(X+Y)\}^2)\\ &=E(\{(X-E(X))+(Y-E(Y))\}^2)\\ &=E(\{X-E(X)\}^2+2\{X-E(X)\}\{Y-E(Y)\}+\{Y-E(Y)\}^2)\\ &=E(\{X-E(X)\}^2)+2E(\{X-E(X)\}\{Y-E(Y)\})+E(\{Y-E(Y)\}^2)\\ &=V(X)+2C(X,Y)+V(Y) \end{align}
となる．

確率変数の独立性と共分散

独立な確率変数$X,Y$に対して$C(X,Y)=0$が成り立つ．

共分散の定義および期待値の線形性に注意して計算すると，
\begin{align*} C(X,Y) &=E(\{X-E(X)\}\{Y-E(Y)\})\\ &=E(XY-X\cdot E(Y)-Y\cdot E(X)+E(X)E(Y))\\ &=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)\\ &=E(XY)-E(X)E(Y) \end{align*}
となる．ここで，$X,Y$は独立ゆえ，定理1より$E(XY)=E(X)E(Y)$である．従って，$C(X,Y)=0$が成り立つ．

独立な確率変数の分散の線形性

独立な確率変数$X,Y$に対して$V(X+Y)=V(X)+V(Y)$が成り立つ．

命題3と命題4から従う．

命題5の拡張

独立な確率変数$X_1,X_2,\cdots,X_n$に対して$\displaystyle V\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nV(X_i)$が成り立つことを示せ．

標本平均・標本分散・不偏標本分散

無作為標本と独立同分布性

母集団の統計的推測を行うためには，標本が無作為に選ばれている必要がある．無作為に選ばれた標本，すなわち無作為標本は，数学的には独立同分布な確率変数列として定義される．以下，標本$X$と言ったとき，$X$は確率変数である．

無作為標本

標本$X_1,X_2,\cdots,X_n$が互いに独立かつ同一の分布$F$に従うとき，$X_1,X_2,\cdots,X_n$を母集団分布$F$から抽出された大きさ$n$の無作為標本という．

標本平均・標本分散・不偏標本分散

標本平均と標本分散

標本$X_1,X_2,\cdots,X_n$に対して，$\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i$を標本平均という．
また，$\displaystyle S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2$を標本分散という．

標本平均，標本分散の定義は，データの平均，分散の求め方を考えればごく自然である．しかし，分散については，次に定義する不偏標本分散を用いることが多い．その理由は次節で明らかになる．

不偏標本分散

標本$X_1,X_2,\cdots,X_n$に対して，$s^2=\displaystyle\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$を不偏標本分散という．

標本分散と不偏標本分散の違い

標本分散と不偏標本分散の違いは，偏差の平方和を$n$で割るか$n-1$で割るかだけである．よって，標本$X_1,X_2,\cdots,X_n$の標本分散，不偏標本分散をそれぞれ$S^2, s^2$とすると，$\displaystyle s^2=\frac{n}{n-1}S^2$が成り立つ．

不偏推定量

標本平均や標本分散，不偏標本分散のように，標本の関数$T(X_1,X_2,\cdots,X_n)$として表されるものを統計量という．統計学では，これらの統計量を用いて，母平均や母分散といったパラメータを推定する．このように，推定に用いられる統計量を推定量という．

不偏推定量

パラメータ$\theta$の推定量$X$が$E(X)=\theta$を満たすとき，$X$を$\theta$の不偏推定量という．

母平均と母分散の不偏推定量

$X_1,X_2,\cdots,X_n$を，母平均$\mu$，母分散$\sigma^2$を持つ分布から抽出された大きさ$n$の無作為標本とする．このとき，標本平均$\overline{X}$，不偏標本分散$s^2$は，それぞれ母平均$\mu$，母分散$\sigma^2$の不偏推定量である．

標本平均の期待値は，期待値の線形性より
$$ E(\overline{X}) =E\left(\frac{1}{n}\sum_{i=1}^nX_i\right) =\frac{1}{n}\sum_{i=1}^nE(X_i) =\frac{1}{n}\cdot n\mu =\mu $$
となる．従って，標本平均$\overline{X}$は母平均$\mu$の不偏推定量である．一方，不偏標本分散の期待値は，
$$ E(s^2) =E\left(\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\right) =\frac{1}{n-1}E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right) $$
となる．ここで，$\overline{X}-\mu=\displaystyle\frac{1}{n}\sum_{i=1}^n(X_i-\mu)$に注意すると
\begin{align} \sum_{i=1}^n(X_i-\overline{X})^2 &=\sum_{i=1}^n\{(X_i-\mu)-(\overline{X}-\mu)\}^2\\ &=\sum_{i=1}^n\{(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2\}\\ &=\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+n(\overline{X}-\mu)^2\\ &=\sum_{i=1}^n(X_i-\mu)^2-2n(\overline{X}-\mu)^2+n(\overline{X}-\mu)^2\\ &=\sum_{i=1}^n(X_i-\mu)^2-n(\overline{X}-\mu)^2 \end{align}
である．さらに，問題2および命題2，問題3より
\begin{align*} E((X_i-\mu)^2) &=E((X_i-\mu)^2)-E(X_i-\mu)^2\\ &=V(X_i-\mu)\\ &=V(X_i)\\ &=\sigma^2，\\ E((\overline{X}-\mu)^2) &=E((\overline{X}-\mu)^2)-E(\overline{X}-\mu)^2\\ &=V(\overline{X}-\mu)\\ &=V(\overline{X})\\ &=V\left(\frac{1}{n}\sum_{i=1}^nX_i\right)\\ &=\frac{1}{n^2}V\left(\sum_{i=1}^nX_i\right)\\ &=\frac{1}{n^2}\sum_{i=1}^nV(X_i)\\ &=\frac{1}{n^2}\cdot n\sigma^2\\ &=\frac{\sigma^2}{n} \end{align*}
と計算できる．ゆえに
$$ E(s^2) =\frac{1}{n-1}\left(n\sigma^2-n\cdot\frac{\sigma^2}{n}\right) =\frac{1}{n-1}\cdot(n-1)\sigma^2 =\sigma^2 $$
となる．従って，不偏標本分散$s^2$は母分散$\sigma^2$の不偏推定量である．

不偏標本分散が用いられる理由

注意（標本分散と不偏標本分散の違い）と定理6より，母平均$\mu$，母分散$\sigma^2$を持つ分布から抽出された大きさ$n$の無作為標本$X_1,X_2,\cdots,X_n$に対し，その標本分散を$S^2$とすると，
$$ E(S^2)=E\left(\frac{n-1}{n}s^2\right)=\frac{n-1}{n}E(s^2)=\frac{n-1}{n}\sigma^2 $$
となる．すなわち，標本分散は母分散の不偏推定量ではない．

問題の解答

問題1

$X$は実数値確率変数であるから，$P_X(\varnothing)=P(X\in\varnothing)=0$および$P_X(\mathbb{R})=P(X\in\mathbb{R})=1$が成り立つ．
$A_n\in\mathcal{B}(\mathbb{R})$（$n=1,2,\cdots$）が互いに素，すなわち相異なる$i,j\in\{1,2,\cdots\}$に対して$A_i\cap A_j=\varnothing$を満たすとき，相異なる$i,j\in\{1,2,\cdots\}$に対して$\{X\in A_i\}\cap\{X\in A_j\}=\varnothing$が成り立つから，確率測度$P$の$σ$-加法性により
$$ P_X\left(\bigcup_{n=1}^\infty A_n\right) =P\left(\bigcup_{n=1}^\infty\{X\in A_n\}\right) =\sum_{n=1}^\infty P(X\in A_n)=\sum_{n=1}^\infty P_X(A_n) $$
となる．

以上より，$P_X$は$(\mathbb{R},\mathcal{B}(\mathbb{R}))$上の確率測度である．

問題2

分散の定義および期待値の線形性に注意して計算すると，
\begin{align} V(X) &=E(\{X-E(X)\}^2)\\ &=E(X^2-2XE(X)+E(X)^2)\\ &=E(X^2)-2E(X)E(X)+E(X)^2\\ &=E(X^2)-E(X)^2 \end{align}
となる．

問題3

分散の定義および期待値の線形性に注意して計算すると，
\begin{align} V\left(\sum_{i=1}^nX_i\right) &=E\left(\left\{\sum_{i=1}^nX_i-E\left(\sum_{i=1}^nX_i\right)\right\}^2\right)\\ &=E\left(\left\{\sum_{i=1}^n\{X_i-E(X_i)\}\right\}^2\right)\\ &=E\left(\sum_{i=1}^n\{X_i-E(X_i)\}^2+2\sum_{1\leq i< j\leq n}\{X_i-E(X_i)\}\{X_j-E(X_j)\}\right)\\ &=\sum_{i=1}^nE(\{X_i-E(X_i)\}^2)+2\sum_{1\leq i< j\leq n}E(\{X_i-E(X_i)\}\{X_j-E(X_j)\})\\ &=\sum_{i=1}^nV(X_i)+2\sum_{1\leq i< j\leq n}C(X_i,X_j) \end{align}
となる．ここで，$X_1,X_2,\cdots,X_n$は独立ゆえ，命題4より，相異なる$i,j\in\{1,2,\cdots,n\}$に対して$C(X_i,X_j)=0$である．従って，上式最後の第2項は$0$となるから$\displaystyle V\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nV(X_i)$を得る．