$$$$
Def.
非復元単純無作為抽出【順序なし】
$N,n\in\mathbb N_{\geq 1}$ とし、$n\leq N$ とする。
また、有限母集団を
$$
\mathcal P=\{\omega_1,\ldots,\omega_N\}
$$
とする。ただし、$\omega_1,\ldots,\omega_N$ は互いに異なる母集団要素であるとする。
大きさ $n$ の(順序なし)非復元単純無作為抽出とは、以下の $3$ つ組によって定義される確率空間である。
- 標本空間を
$$
\mathcal S_n
:=
\{S\subseteq\mathcal P\mid |S|=n\}
$$
で定める。 - $\mathcal S_n$ 上の $\sigma$-代数を
$$
2^{\mathcal S_n}
$$
で定める。 - 確率測度 $\mathbb{P}_{\mathrm{unord}}$ を、任意の $\mathcal A\subseteq\mathcal S_n$ に対して
$$
\mathbb{P}_{\mathrm{unord}}(\mathcal A)
:=
\frac{|\mathcal A|}{\binom{N}{n}}
$$
によって定める。
-この確率空間
$$
(\mathcal S_n,2^{\mathcal S_n},\mathbb{P}_{\mathrm{unord}})
$$
を、大きさ $n$ の (順序なし)非復元単純無作為抽出 に対応する標本抽出空間という。
一様性
この定義では、(順序なし)非復元単純無作為抽出とは、母集団 $\mathcal P$ の大きさ $n$ の部分集合をすべて等しい確率で選ぶ抽出である。
$\mathcal S_n=\{S\subseteq\mathcal P\mid |S|=n\}$ より
$$
|\mathcal S_n|=\binom{N}{n}
$$
である。
したがって、任意の $S\in\mathcal S_n$ に対して、
$$
\mathbb{P}_{\mathrm{unord}}(\{S\})
=
\frac{1}{\binom{N}{n}}
$$
が成り立つ。
また、
$$
\mathbb{P}_{\mathrm{unord}}(\mathcal S_n)
=
\frac{|\mathcal S_n|}{\binom{N}{n}}
=
1
$$
である。
すなわち、$\mathbb{P}_{\mathrm{unord}}$ は有限集合 $\mathcal S_n$ 上の一様確率測度である。
非復元性
非復元抽出であるため、同じ母集団要素が重複して標本に現れることはない。
この定義では標本 $S$ は集合であり、常に
$$
S\subseteq\mathcal P
$$
かつ
$$
|S|=n
$$
を満たす。
したがって、大きさ $n$ の非復元単純無作為抽出を定義するためには
$$
n\leq N
$$
が必要である。
順序を区別しない標本
この定義では標本は集合として扱われるため、
$$
\{\omega_1,\omega_2\}
=
\{\omega_2,\omega_1\}
$$
である。
したがって、(後述する)順序付きの非復元抽出を経由して考えるならば、
$\omega_1$ を先に選び、次に $\omega_2$ を選ぶことと、$\omega_2$ を先に選び、次に $\omega_1$ を選ぶことは、順序を忘れれば同じ標本
$$
\{\omega_1,\omega_2\}
$$
に対応する。
具体例
有限母集団を
$$
\mathcal P=\{\omega_1,\omega_2,\omega_3,\omega_4,\omega_5\}
$$
とし、大きさ $2$ の非復元単純無作為抽出を考える。
このとき、$N=5$、$n=2$ であり、
$$
\binom{N}{n}
=
\binom{5}{2}
=
10
$$
である。
標本空間は
$$
\mathcal S_2
=
\{S\subseteq\mathcal P\mid |S|=2\}
$$
であり、具体的には
$$
\begin{array}{c}
\mathcal S_2
=
\{
\{\omega_1,\omega_2\},
\{\omega_1,\omega_3\},
\{\omega_1,\omega_4\},
\{\omega_1,\omega_5\},\\
\{\omega_2,\omega_3\},
\{\omega_2,\omega_4\},
\{\omega_2,\omega_5\},
\{\omega_3,\omega_4\},
\{\omega_3,\omega_5\},
\{\omega_4,\omega_5\}
\}
\end{array}
$$
である。
- したがって、任意の $S\in\mathcal S_2$ に対して、
$$
\mathbb{P}_{\mathrm{unord}}(\{S\})
=
\frac{1}{10}
$$
である。例えば、
$$
\mathbb{P}_{\mathrm{unord}}(\{\{\omega_1,\omega_2\}\})
=
\frac{1}{10}
$$
である。
$ $ - さらに、事象
$$
\mathcal A
:=
\{S\in\mathcal S_2\mid \omega_1\in S\}
$$
を考えると、
$$
\mathcal A
=
\{
\{\omega_1,\omega_2\},
\{\omega_1,\omega_3\},
\{\omega_1,\omega_4\},
\{\omega_1,\omega_5\}
\}
$$
である。
よって、
$$
|\mathcal A|=4
$$
であるから、
$$
\mathbb{P}_{\mathrm{unord}}(\mathcal A)
=
\frac{|\mathcal A|}{\binom{5}{2}}
=
\frac{4}{10}
=
\frac{2}{5}
$$
である。
これは、大きさ $2$ の非復元単純無作為抽出において、母集団要素 $\omega_1$ が標本に含まれる確率が $\frac{2}{5}$ であることを表している。
非復元単純無作為抽出【順序付き】
$N,n\in\mathbb N_{\geq 1}$ とし、$n\leq N$ とする。
また、有限母集団を
$$
\mathcal P=\{\omega_1,\ldots,\omega_N\}
$$
とする。ただし、$\omega_1,\ldots,\omega_N$ は互いに異なる母集団要素であるとする。
大きさ $n$ の (順序付き)非復元単純無作為抽出とは、以下の $3$ つ組によって定義される確率空間である。
- 標本空間を
$$
\mathcal T_n
:=
\{(a_1,\ldots,a_n)\in\mathcal P^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow a_r\neq a_s\}
$$
で定める。 - $\mathcal T_n$ 上の $\sigma$-代数を
$$
2^{\mathcal T_n}
$$
で定める。 - 確率測度 $\mathbb P_{\mathrm{ord}}$ を、任意の $\mathcal A\subseteq\mathcal T_n$ に対して
$$
\mathbb P_{\mathrm{ord}}(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。
-この確率空間
$$
(\mathcal T_n,2^{\mathcal T_n},\mathbb P_{\mathrm{ord}})
$$
を、大きさ $n$ の (順序付き)非復元単純無作為抽出 に対応する標本抽出空間という。
一様性
標本空間 $\mathcal T_n$ の元の個数は
$$
|\mathcal T_n|
=
N(N-1)\cdots(N-n+1)
=
\frac{N!}{(N-n)!}
$$
である。
したがって、任意の $(a_1,\ldots,a_n)\in\mathcal T_n$ に対して、
$$
\mathbb P_{\mathrm{ord}}(\{(a_1,\ldots,a_n)\})
=
\frac{1}{N(N-1)\cdots(N-n+1)}
$$
である。
すなわち、(順序付き)非復元単純無作為抽出とは、
母集団 $\mathcal P$ から相異なる $n$ 個の母集団要素を順序付きで並べたすべての列を等しい確率で選ぶ抽出である。
非復元性と順序性
順序付き非復元抽出では、標本は順序付き列として扱われる。
したがって、$\omega_1\neq\omega_2$ であるとき、
$$
(\omega_1,\omega_2)
\neq
(\omega_2,\omega_1)
$$
である。
一方、非復元抽出であるため、同じ母集団要素が同じ列の中に重複して現れることはない。
したがって、任意の $(a_1,\ldots,a_n)\in\mathcal T_n$ は
$$
\forall r,s\in\{1,\ldots,n\},\quad r\neq s\Rightarrow a_r\neq a_s
$$
を満たす。
順序なし標本との関係
順序なし標本空間を
$$
\mathcal S_n
:=
\{S\subseteq\mathcal P\mid |S|=n\}
$$
とする。
順序を忘れる写像
$$
\pi:\mathcal T_n\to\mathcal S_n
$$
を
$$
\pi(a_1,\ldots,a_n)
:=
\{a_1,\ldots,a_n\}
$$
で定める。
このとき、任意の $S\in\mathcal S_n$ に対して、$\pi^{-1}(\{S\})$ の元の個数は
$$
|\pi^{-1}(\{S\})|=n!
$$
である。
したがって、
$$
\mathbb P_{\mathrm{ord}}(\pi^{-1}(\{S\}))
=
\frac{n!}{N(N-1)\cdots(N-n+1)}
=
\frac{1}{\binom{N}{n}}
$$
である。
さらに、任意の $\mathcal A\subseteq\mathcal S_n$ に対して、
$$
\mathbb P_{\mathrm{ord}}(\pi^{-1}(\mathcal A))
=
\sum_{S\in\mathcal A}\mathbb P_{\mathrm{ord}}(\pi^{-1}(\{S\}))
=
\sum_{S\in\mathcal A}\frac{1}{\binom{N}{n}}
=
\frac{|\mathcal A|}{\binom{N}{n}}
=
\mathbb P_{\mathrm{unord}}(\mathcal A)
$$
である。
以上より、順序付き非復元単純無作為抽出で得られた標本から順序を忘れると、順序なし非復元単純無作為抽出が得られる。
番号列による表示
順序付き標本空間
$$
\mathcal T_n
:=
\{(a_1,\ldots,a_n)\in\mathcal P^n\mid
\forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow a_r\neq a_s\}
$$
とは別に、番号列の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid
\forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
で定める。
写像 $\Phi:\mathcal I_n\to\mathcal T_n$ を
$$
\Phi(j_1,\ldots,j_n)
:=
(\omega_{j_1},\ldots,\omega_{j_n})
$$
で定めると、$\Phi$ は全単射である。
したがって、$\mathcal I_n$ 上で番号列を扱うことは、$\mathcal T_n$ 上で母集団要素列を扱うことと同値である。
順序付き標本による補助的表示
大きさ $n$ の非復元単純無作為抽出は、標本調査論的には、順序なし標本空間
$$
\mathcal S_n
:=
\{S\subseteq\mathcal P\mid |S|=n\}
$$
上の一様確率測度によって定義するのが自然である。
この定義では、標本は母集団 $\mathcal P$ の大きさ $n$ の部分集合であり、抽出順序は区別されない。
一方で、標本平均の期待値、標本平均の分散、異なる標本確率変数の共分散などを証明するときは、
各抽出位置に対応する確率変数を明示できる方が扱いやすい。
- 母集団観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。
順序付き標本空間 $\mathcal T_n$ 上で、各 $i\in\{1,\ldots,n\}$ に対して、
$i$ 番目に選ばれた母集団要素の番号を表す確率変数 $K_i:\mathcal T_n\to\{1,\ldots,N\}$ を
$$
K_i(a_1,\ldots,a_n)=k
\iff
a_i=\omega_k
$$
によって定める。
さらに、$i$ 番目に選ばれた観測値を表す確率変数 $X_i:\mathcal T_n\to\mathbb R$ を
$$
X_i(a_1,\ldots,a_n)
:=
x_{K_i(a_1,\ldots,a_n)}
$$
によって定める。
このとき、任意の $i\in\{1,\ldots,n\}$ と任意の $k\in\{1,\ldots,N\}$ に対して、
$$
\mathbb P_{\mathrm{ord}}(K_i=k)
=
\frac{1}{N}
$$
である。したがって、
$$
\mathbb E_{\mathbb P_{\mathrm{ord}}}[X_i]
=
\sum_{k=1}^N x_k\mathbb P_{\mathrm{ord}}(K_i=k)
=
\frac{1}{N}\sum_{k=1}^N x_k
$$
のように、$i$ 番目の抽出値の期待値を通常の確率変数の期待値として直接計算できる。
$ $
また、非復元抽出では $X_1,\ldots,X_n$ は一般に独立ではない。
そのため、標本平均
$$
\overline X_n
=
\frac{1}{n}\sum_{i=1}^n X_i
$$
の分散を計算するときには、
$$
\operatorname{Var}(\overline X_n)
=
\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)
$$
を展開し、
$$
\operatorname{Var}(X_i)
$$
および
$$
\operatorname{Cov}(X_i,X_j)
\quad
(i\neq j)
$$
を扱うことができる。
$ $
特に、順序付き標本空間上の一様性と非復元性により、$i\neq j$ かつ $k\neq \ell$ のとき、
$$
\mathbb P_{\mathrm{ord}}(K_i=k,K_j=\ell)
=
\frac{1}{N(N-1)}
$$
である。
また、$i\neq j$ のとき、同じ母集団要素は同時に現れないため、
$$
\mathbb P_{\mathrm{ord}}(K_i=k,K_j=k)
=
0
$$
である。
このような $2$ つの抽出位置の同時分布は、順序付き標本を用いると自然に書ける。
$ $ - 一方、順序なし標本空間 $\mathcal S_n$ だけでは、標本は集合 $S$ であり、
そこには抽出された順番としての「$i$ 番目」や「$j$ 番目」という情報がない。
そのため、$X_i$、$X_j$、$\operatorname{Cov}(X_i,X_j)$ のような対象は、追加の順序付けを入れない限り直接には定義できない。
もちろん、順序なし標本 $S$ に対しても標本平均
$$
\overline X(S)
=
\frac{1}{n}\sum_{\omega_k\in S}x_k
$$
は直接定義できる。
しかし、順序付き標本では
$$
\overline X_n
=
\frac{1}{n}\sum_{i=1}^n X_i
$$
と書けるため、期待値の線形性や分散の展開公式をそのまま使える。
-すなわち、順序付き標本を補助的に用いる主な理由は、
標本平均を確率変数の和として表し、期待値、分散、共分散の一般公式を使って証明できるようにするためである。
以上より、順序なし標本空間 $\mathcal S_n$ は、非復元単純無作為抽出そのものを定義するには自然である。
$ $
一方、順序付き標本空間 $\mathcal T_n$ は、$K_i$、$X_i$、$\operatorname{Cov}(X_i,X_j)$ などを明示して、
標本平均の期待値や分散を証明するための補助的表示として有用である。
Prop&Proof
非復元抽出における各標本確率変数の期待値
$N,n\in\mathbb N_{\geq 1}$ とし、$1\leq n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 母平均を
$$
\mu:=\frac{1}{N}\sum_{k=1}^{N}x_k
$$
と定める。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた母集団要素の番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n)
:=
x_{K_i(j_1,\ldots,j_n)}
$$
で定める。
-このとき、任意の $i\in\{1,\ldots,n\}$ に対して、
$$
\mathbb E[X_i]=\mu
$$
が成り立つ。
すなわち、非復元抽出であっても、$i$ 番目に取り出される観測値 $X_i$ の平均的な値は母平均 $\mu$ と一致する。
任意に $i\in\{1,\ldots,n\}$ を取る。
- まず、任意の $k\in\{1,\ldots,N\}$ に対して、
$$
\mathbb P(K_i=k)=\frac{1}{N}
$$
を示す。
実際、$K_i=k$ となる順序付き標本は、第 $i$ 成分を $k$ に固定し、
残りの $n-1$ 個の成分に $\{1,\ldots,N\}\setminus\{k\}$ から相異なる番号を順序付きで選ぶことで得られる。
したがって、その個数は
$$
\frac{(N-1)!}{(N-n)!}
$$
である。
一方、$\mathcal I_n$ の元の個数は
$$
|\mathcal I_n|
=
N(N-1)\cdots(N-n+1)
=
\frac{N!}{(N-n)!}
$$
である。
よって、
$$
\mathbb P(K_i=k)
=
\frac{\frac{(N-1)!}{(N-n)!}}{\frac{N!}{(N-n)!}}
=
\frac{1}{N}
$$
である。
$ $ - したがって、期待値の定義より、
$$
\begin{aligned}
\mathbb E[X_i]
&=
\sum_{k=1}^{N}x_k\mathbb P(K_i=k)\\
&=
\sum_{k=1}^{N}x_k\frac{1}{N}\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k\\
&=
\mu
\end{aligned}
$$
である。
-以上より、任意の $i\in\{1,\ldots,n\}$ に対して、
$$
\mathbb E[X_i]=\mu
$$
が成り立つ。
$$ \Box$$
非復元抽出における標本平均の不偏性
$N,n\in\mathbb N_{\geq 1}$ とし、$n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 母平均を
$$
\mu:=\frac{1}{N}\sum_{k=1}^N x_k
$$
と定める。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、$\mathcal I_n$ 上の確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n)
:=
x_{K_i(j_1,\ldots,j_n)}
$$
で定める。 - 標本平均を
$$
\overline X_n
:=
\frac{1}{n}\sum_{i=1}^n X_i
$$
と定める。
-このとき、
$$
\mathbb E[\overline X_n]=\mu
$$
が成り立つ。
- 任意に $i\in\{1,\ldots,n\}$ を取る。
任意の $k\in\{1,\ldots,N\}$ に対して、$K_i=k$ となる標本は、第 $i$ 成分を $k$ に固定し、
残りの $n-1$ 個の成分に $\{1,\ldots,N\}\setminus\{k\}$ から相異なる番号を順序付きで並べることで得られる。
したがって、その個数は
$$
\frac{(N-1)!}{(N-n)!}
$$
である。
一方で、
$$
|\mathcal I_n|
=
N(N-1)\cdots(N-n+1)
=
\frac{N!}{(N-n)!}
$$
である。よって、
$$
\mathbb P(K_i=k)
=
\frac{\frac{(N-1)!}{(N-n)!}}{\frac{N!}{(N-n)!}}
=
\frac{1}{N}
$$
である。
$ $ - $X_i=x_{K_i}$ であり、$K_i$ は有限集合 $\{1,\ldots,N\}$ に値をもつので、
$$
\begin{aligned}
\mathbb E[X_i]
&=
\sum_{k=1}^N x_k\mathbb P(K_i=k)\\
&=
\sum_{k=1}^N x_k\frac{1}{N}\\
&=
\frac{1}{N}\sum_{k=1}^N x_k\\
&=
\mu
\end{aligned}
$$
である。
したがって、期待値の線形性(
証明はコチラ
)より、
$$
\begin{aligned}
\mathbb E[\overline X_n]
&=
\mathbb E\left[\frac{1}{n}\sum_{i=1}^n X_i\right]\\
&=
\frac{1}{n}\sum_{i=1}^n\mathbb E[X_i]\\
&=
\frac{1}{n}\sum_{i=1}^n\mu\\
&=
\mu
\end{aligned}
$$
である。
-以上より、
$$
\mathbb E[\overline X_n]=\mu
$$
が成り立つ。
$$ \Box$$
非復元抽出における異なる標本確率変数の積の期待値
$N,n\in\mathbb N_{\geq 1}$ とし、$2\leq n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、$\mathcal I_n$ 上の確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n):=x_{K_i(j_1,\ldots,j_n)}
$$
で定める。
-このとき、任意の $i,j\in\{1,\ldots,n\}$ について、$i\neq j$ ならば、
$$
\mathbb E[X_iX_j]
=
\frac{1}{N(N-1)}
\sum_{k=1}^N
\sum_{\substack{\ell=1\\ \ell\neq k}}^N
x_kx_\ell
$$
が成り立つ。
任意に $i,j\in\{1,\ldots,n\}$ を取り、$i\neq j$ とする。
- まず、任意の $k\in\{1,\ldots,N\}$ に対して、非復元性より、同じ番号が異なる抽出位置に同時に現れることはない。
したがって、
$$
\mathbb P(K_i=k,K_j=k)=0
$$
である。
$ $ - 次に、$k,\ell\in\{1,\ldots,N\}$ かつ $k\neq \ell$ とする。
事象 $\{K_i=k,K_j=\ell\}$ に属する順序付き標本は、第 $i$ 成分を $k$ に固定し、第 $j$ 成分を $\ell$ に固定し、残りの $n-2$ 個の成分に $\{1,\ldots,N\}\setminus\{k,\ell\}$ から相異なる番号を順序付きで並べることで得られる。
したがって、その個数は
$$
\frac{(N-2)!}{(N-n)!}
$$
である。
一方、
$$
|\mathcal I_n|
=
N(N-1)\cdots(N-n+1)
=
\frac{N!}{(N-n)!}
$$
である。
よって、
$$
\mathbb P(K_i=k,K_j=\ell)
=
\frac{\frac{(N-2)!}{(N-n)!}}{\frac{N!}{(N-n)!}}
=
\frac{1}{N(N-1)}
$$
である。
$ $ - $X_i=x_{K_i}$ かつ $X_j=x_{K_j}$ であり、$K_i,K_j$ は有限集合 $\{1,\ldots,N\}$ に値をもつので、
$$
\begin{aligned}
\mathbb E[X_iX_j]
&=
\sum_{k=1}^N
\sum_{\ell=1}^N
x_kx_\ell
\mathbb P(K_i=k,K_j=\ell)\\
&=
\sum_{k=1}^N
\sum_{\substack{\ell=1\\ \ell\neq k}}^N
x_kx_\ell
\mathbb P(K_i=k,K_j=\ell)\\
&=
\sum_{k=1}^N
\sum_{\substack{\ell=1\\ \ell\neq k}}^N
x_kx_\ell
\frac{1}{N(N-1)}\\
&=
\frac{1}{N(N-1)}
\sum_{k=1}^N
\sum_{\substack{\ell=1\\ \ell\neq k}}^N
x_kx_\ell
\end{aligned}
$$
である。
-以上より、
$$
\mathbb E[X_iX_j]
=
\frac{1}{N(N-1)}
\sum_{k=1}^N
\sum_{\substack{\ell=1\\ \ell\neq k}}^N
x_kx_\ell
$$
が成り立つ。
$$ \Box$$
非復元抽出における異なる標本確率変数の共分散
$N,n\in\mathbb N_{\geq 1}$ とし、$2\leq n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 母平均と母分散をそれぞれ
$$
\mu
:=
\frac{1}{N}\sum_{k=1}^{N}x_k,
\quad
\sigma^2
:=
\frac{1}{N}\sum_{k=1}^{N}(x_k-\mu)^2
$$
と定める。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、$\mathcal I_n$ 上の確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n)
:=
x_{K_i(j_1,\ldots,j_n)}
$$
で定める。
-このとき、任意の $i,j\in\{1,\ldots,n\}$ について、$i\neq j$ ならば、
$$
\operatorname{Cov}(X_i,X_j)
=
-\frac{\sigma^2}{N-1}
$$
が成り立つ。
任意に $i,j\in\{1,\ldots,n\}$ を取り、$i\neq j$ とする。
- すでに示した通り、各抽出位置の周辺分布は一様であるから、
$$
\mathbb E[X_i]=\mu,
\quad
\mathbb E[X_j]=\mu
$$
である。
また、異なる抽出位置の積の期待値(既に本記事内で証明済み)は
$$
\mathbb E[X_iX_j]
=
\frac{1}{N(N-1)}
\sum_{k=1}^{N}
\sum_{\substack{\ell=1\\ \ell\neq k}}^{N}
x_kx_\ell
$$
である。
$ $ - ここで、二重和を整理する。
$$
\begin{aligned}
\sum_{k=1}^{N}
\sum_{\substack{\ell=1\\ \ell\neq k}}^{N}
x_kx_\ell
&=
\sum_{k=1}^{N}
x_k
\sum_{\substack{\ell=1\\ \ell\neq k}}^{N}
x_\ell\\
&=
\sum_{k=1}^{N}
x_k
\left(\sum_{\ell=1}^{N}x_\ell-x_k\right)\\
&=
\left(\sum_{k=1}^{N}x_k\right)
\left(\sum_{\ell=1}^{N}x_\ell\right)
-
\sum_{k=1}^{N}x_k^2\\
&=
N^2\mu^2-\sum_{k=1}^{N}x_k^2
\end{aligned}
$$
である。
$ $ - 一方、母分散の定義より、
$$
\begin{aligned}
\sigma^2
&=
\frac{1}{N}\sum_{k=1}^{N}(x_k-\mu)^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}(x_k^2-2\mu x_k+\mu^2)\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2
-\frac{2\mu}{N}\sum_{k=1}^{N}x_k
+\frac{1}{N}\sum_{k=1}^{N}\mu^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2
-2\mu^2+\mu^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2-\mu^2
\end{aligned}
$$
である。したがって、
$$
\sum_{k=1}^{N}x_k^2
=
N(\sigma^2+\mu^2)
$$
である。
ゆえに、
$$
\begin{aligned}
\mathbb E[X_iX_j]
&=
\frac{N^2\mu^2-\sum_{k=1}^{N}x_k^2}{N(N-1)}\\
&=
\frac{N^2\mu^2-N(\sigma^2+\mu^2)}{N(N-1)}\\
&=
\frac{N(N-1)\mu^2-N\sigma^2}{N(N-1)}\\
&=
\mu^2-\frac{\sigma^2}{N-1}
\end{aligned}
$$
である。
$ $ - 共分散の定義より、
$$
\begin{aligned}
\operatorname{Cov}(X_i,X_j)
&=
\mathbb E[X_iX_j]-\mathbb E[X_i]\mathbb E[X_j]\\
&=
\left(\mu^2-\frac{\sigma^2}{N-1}\right)-\mu^2\\
&=
-\frac{\sigma^2}{N-1}
\end{aligned}
$$
である。
-以上より、任意の $i,j\in\{1,\ldots,n\}$ について、$i\neq j$ ならば、
$$
\operatorname{Cov}(X_i,X_j)
=
-\frac{\sigma^2}{N-1}
$$
が成り立つ。
$$ \Box$$
非復元抽出では、異なる抽出位置の標本確率変数は一般に独立ではない。
上の公式より、
$$
\operatorname{Cov}(X_i,X_j)
=
-\frac{\sigma^2}{N-1}
\leq 0
$$
である。
特に、$\sigma^2>0$ ならば、任意の $i\neq j$ に対して
$$
\operatorname{Cov}(X_i,X_j)<0
$$
である。
これは、一方の抽出位置で母平均より大きい観測値が選ばれると、その母集団要素は他の抽出位置では再び選ばれないため、
残りの抽出位置の分布が条件付きで変化する。このことが異なる抽出位置の間に負の共分散を生じさせる。
この負の共分散のため、非復元抽出における標本平均の分散は、同じ母分散をもつ復元抽出の場合より小さくなる。
非復元抽出における各標本確率変数の分散
$N,n\in\mathbb N_{\geq 1}$ とし、$n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 母平均と母分散をそれぞれ
$$
\mu:=\frac{1}{N}\sum_{k=1}^{N}x_k,
\quad
\sigma^2:=\frac{1}{N}\sum_{k=1}^{N}(x_k-\mu)^2
$$
と定める。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、$\mathcal I_n$ 上の確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n)
:=
x_{K_i(j_1,\ldots,j_n)}
$$
で定める。
-このとき、任意の $i\in\{1,\ldots,n\}$ に対して、
$$
\operatorname{Var}(X_i)=\sigma^2
$$
が成り立つ。
任意に $i\in\{1,\ldots,n\}$ を取る。
- まず、任意の $k\in\{1,\ldots,N\}$ に対して、
$$
\mathbb P(K_i=k)=\frac{1}{N}
$$
を示す。
$K_i=k$ となる標本は、第 $i$ 成分を $k$ に固定し、
残りの $n-1$ 個の成分に $\{1,\ldots,N\}\setminus\{k\}$ から相異なる番号を順序付きで並べることで得られる。
したがって、その個数は
$$
\frac{(N-1)!}{(N-n)!}
$$
である。
一方、
$$
|\mathcal I_n|
=
N(N-1)\cdots(N-n+1)
=
\frac{N!}{(N-n)!}
$$
である。よって、
$$
\mathbb P(K_i=k)
=
\frac{\frac{(N-1)!}{(N-n)!}}{\frac{N!}{(N-n)!}}
=
\frac{1}{N}
$$
である。
$ $ - $X_i=x_{K_i}$ であり、$K_i$ は有限集合 $\{1,\ldots,N\}$ に値をもつので、
$$
\begin{aligned}
\mathbb E[X_i]
&=
\sum_{k=1}^{N}x_k\mathbb P(K_i=k)\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k\\
&=
\mu
\end{aligned}
$$
である。同様に、
$$
\begin{aligned}
\mathbb E[X_i^2]
&=
\sum_{k=1}^{N}x_k^2\mathbb P(K_i=k)\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2
\end{aligned}
$$
である。
$ $ - したがって、分散の公式(
証明はコチラ
)より、
$$
\begin{aligned}
\operatorname{Var}(X_i)
&=
\mathbb E[X_i^2]-(\mathbb E[X_i])^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2-\mu^2
\end{aligned}
$$
である。
一方、母分散の定義より、
$$
\begin{aligned}
\sigma^2
&=
\frac{1}{N}\sum_{k=1}^{N}(x_k-\mu)^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}(x_k^2-2\mu x_k+\mu^2)\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2
-\frac{2\mu}{N}\sum_{k=1}^{N}x_k
+\frac{1}{N}\sum_{k=1}^{N}\mu^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2
-2\mu^2+\mu^2\\
&=
\frac{1}{N}\sum_{k=1}^{N}x_k^2-\mu^2
\end{aligned}
$$
である。
-ゆえに、
$$
\operatorname{Var}(X_i)=\sigma^2
$$
である。
$$ \Box$$
非復元抽出における標本平均の分散
$N,n\in\mathbb N_{\geq 1}$ とし、$N\geq 2$ かつ $n\leq N$ とする。
- 有限母集団の観測値を
$$
x_1,\ldots,x_N\in\mathbb R
$$
とする。 - 母平均と母分散をそれぞれ
$$
\mu:=\frac{1}{N}\sum_{k=1}^{N}x_k,
\quad
\sigma^2:=\frac{1}{N}\sum_{k=1}^{N}(x_k-\mu)^2
$$
と定める。 - 順序付き非復元抽出の標本空間を
$$
\mathcal I_n
:=
\{(j_1,\ldots,j_n)\in\{1,\ldots,N\}^n\mid \forall r,s\in\{1,\ldots,n\},\ r\neq s\Rightarrow j_r\neq j_s\}
$$
とし、$\mathcal I_n$ 上の $\sigma$-代数を $2^{\mathcal I_n}$ とする。
また、$\mathcal I_n$ 上の確率測度 $\mathbb P$ を、任意の $\mathcal A\subseteq\mathcal I_n$ に対して
$$
\mathbb P(\mathcal A)
:=
\frac{|\mathcal A|}{N(N-1)\cdots(N-n+1)}
$$
によって定める。 - 各 $i\in\{1,\ldots,n\}$ に対して、$i$ 番目に選ばれた番号を表す確率変数 $K_i:\mathcal I_n\to\{1,\ldots,N\}$ を
$$
K_i(j_1,\ldots,j_n):=j_i
$$
で定める。
さらに、標本確率変数 $X_i:\mathcal I_n\to\mathbb R$ を
$$
X_i(j_1,\ldots,j_n)
:=
x_{K_i(j_1,\ldots,j_n)}
$$
で定める。 - 標本平均を
$$
\overline X_n:=\frac{1}{n}\sum_{i=1}^{n}X_i
$$
と定める。
-このとき、
$$
\operatorname{Var}(\overline X_n)
=
\frac{\sigma^2}{n}\cdot\frac{N-n}{N-1}
$$
が成り立つ。
- $n=1$ のとき、$\overline X_1=X_1$ であるから、$\operatorname{Var}(\overline X_1)=\operatorname{Var}(X_1)=\sigma^2$ である。
一方、
$$
\frac{\sigma^2}{1}\cdot\frac{N-1}{N-1}=\sigma^2
$$
である。したがって命題の主張は成り立つ。
$ $ - 以下、$2\leq n\leq N$ とする。
すでに示した通り、任意の $i\in\{1,\ldots,n\}$ に対して
$$
\operatorname{Var}(X_i)=\sigma^2
$$
である。
また、任意の $i,j\in\{1,\ldots,n\}$ について $i\neq j$ ならば、
$$
\operatorname{Cov}(X_i,X_j)
=
-\frac{\sigma^2}{N-1}
$$
である。
標本平均の定義より、
$$
\overline X_n
=
\frac{1}{n}\sum_{i=1}^{n}X_i
$$
であるから、分散の基本性質(
証明はコチラ
)より、
$$
\operatorname{Var}(\overline X_n)
=
\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)
=
\frac{1}{n^2}\operatorname{Var}\left(\sum_{i=1}^{n}X_i\right)
$$
である。
また、確率変数の和の分散公式(
証明はコチラ
)より、
$$
\operatorname{Var}\left(\sum_{i=1}^{n}X_i\right)
=
\sum_{i=1}^{n}\operatorname{Var}(X_i)
+
2\sum_{1\leq i< j\leq n}\operatorname{Cov}(X_i,X_j)
$$
である。
まず、
$$
\sum_{i=1}^{n}\operatorname{Var}(X_i)
=
\sum_{i=1}^{n}\sigma^2
=
n\sigma^2
$$
である。
また、$1\leq i< j\leq n$ を満たす組 $(i,j)$ の個数は、$n$ 個の添字から異なる $2$ 個を選ぶ組の個数であるから、
$$
\binom{n}{2}
=
\frac{n(n-1)}{2}
$$
である。
したがって、
$$
\begin{aligned}
2\sum_{1\leq i< j\leq n}\operatorname{Cov}(X_i,X_j)
&=
2\sum_{1\leq i< j\leq n}\left(-\frac{\sigma^2}{N-1}\right)\\
&=
2\cdot\frac{n(n-1)}{2}\cdot\left(-\frac{\sigma^2}{N-1}\right)\\
&=
-\frac{n(n-1)\sigma^2}{N-1}
\end{aligned}
$$
である。よって、
$$
\begin{aligned}
\operatorname{Var}\left(\sum_{i=1}^{n}X_i\right)
&=
n\sigma^2-\frac{n(n-1)\sigma^2}{N-1}\\
&=
n\sigma^2\left(1-\frac{n-1}{N-1}\right)\\
&=
n\sigma^2\cdot\frac{N-n}{N-1}
\end{aligned}
$$
である。したがって、
$$
\begin{aligned}
\operatorname{Var}(\overline X_n)
&=
\frac{1}{n^2}\operatorname{Var}\left(\sum_{i=1}^{n}X_i\right)\\
&=
\frac{1}{n^2}\cdot n\sigma^2\cdot\frac{N-n}{N-1}\\
&=
\frac{\sigma^2}{n}\cdot\frac{N-n}{N-1}
\end{aligned}
$$
である。
-以上より、
$$
\operatorname{Var}(\overline X_n)
=
\frac{\sigma^2}{n}\cdot\frac{N-n}{N-1}
$$
が成り立つ。
$$ \Box$$
有限母集団補正
上の公式に現れる
$$
\frac{N-n}{N-1}
$$
を、"分散に対する"有限母集団補正係数という。
$ $
非復元抽出では、異なる抽出位置の標本確率変数の間に負の共分散が生じるため、
標本平均の分散は復元抽出の場合より小さくなる。
- 実際、復元抽出において $X_1,\ldots,X_n$ が独立同分布であり、各 $X_i$ の分散が $\sigma^2$ である場合、
$$
\operatorname{Var}(X_1+\cdots+X_n)
=
n\sigma^2
$$
である。 - 一方、非復元抽出では、
$$
\operatorname{Var}(X_1+\cdots+X_n)
=
n\sigma^2\cdot\frac{N-n}{N-1}
$$
である。
したがって、非復元抽出における標本和の分散は、復元抽出の場合の標本和の分散に比べて
$$
\frac{N-n}{N-1}
$$
倍になる。
-特に、$n$ を固定して $N\to+\infty$ とすると、
$$
\lim_{N\to+\infty}\frac{N-n}{N-1}
=
1
$$
である。
そのため、母集団サイズ $N$ が標本サイズ $n$ に比べて十分大きい場合、非復元抽出における標本平均の分散は、
復元抽出における標本平均の分散に近くなる。
ただし、$n$ も $N$ とともに大きくなり、$n/N\to f$ となる場合には、
$$
\frac{N-n}{N-1}\to 1-f
$$
となるため、有限母集団補正の影響は一般には消えない。