この記事は第 1 回です.
統計学の中でも,特に統計的推測は,概念が分かりにくく,誤解を生じやすい分野です.よくある誤解としては次のようなものが挙げられます.
これから数回の記事にわたって統計的推測の基礎を説明し,これらの主張が間違っている理由を解説します.
統計的推測の辞書的な定義は,「母集団から抽出した標本をもとに,母集団分布に対する何らかの推測を行うこと」です.この章ではこの文の意味をもう少し詳しく説明します.
たとえば,全国の中学 2 年生男子の身長がどんな分布に従っているのか知りたいとします.分布とは,たとえば「平均$160$,分散$60$の正規分布」といったもので,「与えられた任意の$a, b\in\mathbb{R}$について,身長が$a$以上$b$以下であるような中学 2 年生男子が全体のどれだけの割合を占めるか答えられる」ようなものをいいます.
全国の中学 2 年生男子 50 万人全員の身長のデータを集めれば,当然それが分布となります.これを全数調査あるいは悉皆調査といいます.
一方,年齢や性別などの条件をそろえると身長はおおよそ正規分布に従うということが経験的に知られているので,これを利用すると一部(たとえば数百人)のデータのみを用いて全体の分布を推測することができます.このように,一部のデータから全体の分布に対する推測を行うのが統計的推測です.
統計的推測において,対象となる集団全体(例では全国の中学 2 年生男子全体)あるいはその属性(例では身長)の集まりのことを母集団といい,母集団から抽出した一部を標本といいます.標本は必ず無作為に抽出されなければなりません.
母集団の従う分布を母集団分布といいます.母集団分布に対し,平均$\mu$や分散$\sigma^2$など,分布の特徴を表す数を母数といいます.母集団分布が正規分布$\mathrm{N}(\mu, \sigma^2)$に従うということが分かっていれば,母数$\mu$,$\sigma^2$を推定することで母集団分布自体が推測できます.一方,「母集団が正規分布かどうかは分からないけど,平均の推定値は $160$ である」というように,母集団分布そのものは分からないまま,母数だけを推定することもあります.
統計的推測では,変数に対して次のような独特の捉え方をします:
まず,統計的推測によって母集団分布や母数自体を知ることはありません.できるのは,母数を推定したり,母数に対する仮説を検定したりすることだけです.この後母数の推定値$ \widehat{\theta} $というものが登場しますが,これはあくまで母数$ \theta $に近いと思われる値であって,母数$ \theta $そのものではありません.
統計的推測において量と呼ばれるものは確率変数です.ただし,母集団分布は(我々には分からないものの)何らかの決まった分布に従っており,ここに確率的要素はありません.ではどこで確率変数が登場するかというと,「母集団から標本を無作為に抽出する」という段階です.調査を行うことで得られる$n$個の標本$X_1, X_2, \ldots, X_n$は量であり,これらを標本量といいます.標本量は抽出の仕方に依存する確率変数であり,その分布は母集団分布と同一です(*1).また,$n$個の標本量の関数$T_n(X_1, X_2, \ldots, X_n)$も量であり,これを統計量といいます.
一方,値というのは,実際に調査を行ったときに各々の量がとった具体的な値を指します.量$ X $がとった値を$ X $の実現値といいます.標本量$X_1, X_2, \ldots, X_n$の実現値$x_1, x_2, \ldots, x_n$を標本値,統計量$T_n(X_1, X_2, \ldots, X_n)$の実現値$T_n(x_1, x_2, \ldots, x_n)$を統計値といいます.量と値を区別しないと混乱を生じます.
$1$つの統計量$\widehat{\theta} = T_n(X_1, X_2, \ldots, X_n) $を用いて,「母数$\theta$はおおよそ$\widehat{\theta}$である」と推定することを,点推定といいます.一方,$2$つの統計量$l=T_n(X_1, X_2, \ldots, X_n)$,$r=U_n(X_1, X_2, \ldots, X_n)$を用いて,「母数$\theta$に対して$l \leq \theta \leq r$が成り立つ確率が高い」と推定することを,区間推定といいます.
推定に用いる統計量$\widehat{\theta}$,$l$,$r$を推定量といいます.推定量の実現値を推定値といいます.
点推定において$\theta$は母数(定数),$\widehat{\theta}$は確率変数なので,良い推定を行うためには$\widehat{\theta}$の分布が$\theta$の周りに集中していることが求められます.$\theta$の実際の値を知ることはありませんが,関数$T_n$を適切に定めることで,$\widehat{\theta}$を$\theta$の良い推定量にすることができます.
では「良い推定量」とは何でしょうか.その基準として用いられるのが,一致性,不偏性,有効性です.
確率$1$で値$x$をとる確率変数の分布を,退化分布$\delta_x$といいます.$\widehat{\theta} = T_n(X_1, X_2, \ldots, X_n)$の分布を退化分布$\delta_\theta$にすることはできません.しかし,$ n \to \infty $の極限をとったときに$\widehat{\theta}$の分布が$\delta_\theta$に限りなく近づくように関数列$T_1, T_2, \ldots $を決めることは可能です(*2).「限りなく近づく」とは,この場合弱収束を指します.すなわち,任意の$\varepsilon > 0$について$$ \lim_{n \to \infty} P(| \widehat{\theta} - \theta | > \varepsilon) = 0 $$が成り立つという意味です.$\widehat{\theta}$がこれを満たすとき,$\widehat{\theta}$は$\theta$の一致推定量であるといいます.
$\widehat{\theta}$は,$\theta$を中心とする分布に従っているのが良さそうです.$$ \mathrm{E}[\widehat{\theta}] = \theta $$が成り立つとき,$\widehat{\theta}$は$\theta$の不偏推定量であるといいます.
たとえ$\widehat{\theta}$が$\theta$を中心とする分布に従っていても,その分布のすそがあまりに広いと,実際に調査を行って実現値を得てもそれが$\theta$に近いとはいいづらくなります.そこで,$2$つの推定量$\widehat{\theta}_1 = T_n(X_1, X_2, \ldots, X_n)$と$\widehat{\theta}_2 = U_n(X_1, X_2, \ldots, X_n)$について$$ \mathrm{V}[\widehat{\theta}_1] < \mathrm{V}[\widehat{\theta}_2] $$が成り立つとき,$\widehat{\theta}_1$は$\widehat{\theta}_2$よりも有効な推定量であるといいます.
区間推定では,母数$ \theta $と推定量$ l = T_n(X_1, X_2, \ldots, X_n)$,$r= U_n(X_1, X_2, \ldots, X_n) $について確率$$ P(l \leq \theta \leq r)$$を考え,これを水準まで上げることを考えます.この水準を$0.95$としたのが$95\%$信頼区間です.すなわち,$P(l \leq \theta \leq r) = 0.95$であるとき,区間$[l, r]$は母数$\theta$の$95\%$信頼区間であるといいます.
冒頭で,次の主張が謝りだと言いました.
$100$,$110$というのは,実際に調査を行って得られた標本値$x_1, x_2, \ldots, x_n$を$T_n$,$U_n$に代入した値$T_n(x_1, x_2, \ldots, x_n)$,$U_n(x_1, x_2, \ldots, x_n)$であって,量ではありません.確率変数を含まない式$100 \leq \theta \leq 110$が成り立つ確率が$95\%$であると主張することはできません.
第 1 回では次を説明しました.
第 2 回では,実際の点推定と区間推定の例として母平均の推定を説明します.
(*1) 標本の抽出は非復元抽出ですが,母集団のサイズが標本数より十分に大きければ復元抽出とみなせると考えます.
(*2) $T_n$が$n$標本の不偏分散である場合などは,$T_1$が定義できないので$n = 2$以降の関数列$T_2, T_3, \ldots$ を定義することになります.