演習等の解答
楽に無作為抽出をする方法
「単純抽出法」と「層化抽出法」
次回以降に向けて
演習2.2に関しては各自で確認してもらうこととして模範解答は載せません.
(載せたところであまり関係ないと判断したので...)
まずは,用語の確認からいきます
母集団とは,ある現象における観測値(データ)の全体を表すものでした.
また,標本はその母集団から一部分を取り出したものを指します.
無作為標本の作り方は
1.母集団に要素番号をつける.
2.一様乱数表で標本の大きさの分だけ乱数をとり,観測データ表をつくる.
となります.また,復元抽出と非復元抽出の違いは同じ乱数を繰り返し用いるかどうかの違いです.使い分け方は有限母集団に対しては,非復元抽出を,無限母集団に対しては,復元抽出を使います.
次に演習2.1の解答例を載せておきます.
大きさ10の標本が3つあるとは,観測データが10個ある標本が3組あるということです.つまり,データの数は$10\times 3=30$個あるということになります.
前回は無作為抽出をする方法について説明をしました.しかし,そのやり方は乱数を標本に使うデータの数だけ取ってくる必要がありました.つまり,データの数が増えるとちょっと大変ですよね...
そこで,もうちょっと楽に行う方法をここでは紹介します.まず最初に1つだけ乱数を取ります.そしてそれに対応する要素番号から10番おき,あるいは20番おき,などのように,一定の番号おきに採用していくと乱数をすべてとっていくやりかたと似たような無作為抽出をすることができるのです.
実際,アンケート調査を行うときも,最初の1件だけ乱数をとって,あとは戸籍台帳や電話帳などの一定の抽出率で標本データをとるかを決めています.
今まで紹介してきた標本抽出法はすべて単純抽出法という方法です.(より正確には単純無作為抽出法や単純任意抽出法といいます.)
これに対して,層化抽出法というもう少し手の込んだ方法があります.層化抽出法とはどういうものなのかを例を交えて説明していきます.
全国から1000世帯を選んで,その1000世帯の1ヶ月の食費を調べる.
例えば上のような状況でいきなり1000世帯を無作為に選ぶのではなく,まず,47都道府県の中から20の都道府県を無作為に抽出し,その選ばれた都道府県1つにつき,50世帯を無作為抽出するというのが層化抽出法の一例です.つまりは,いきなり標本全体を母集団から選ぶのではなく,母集団のどのあたりから標本抽出するかの検討をつけて,段階的に行う方法が層化抽出法なのです.
層化抽出法を定着のためにみなさんに実際にやってもらいたいとは思うのですが,母集団の一覧等を準備するのがちょっと大変なので,層化抽出法については一例を紹介するくらいにしておきます.
次回からはいよいよ分布の特性についての分析をするという段階に入っていきます.ですので,今まではあまり無かった計算や表,グラフを書くといった作業も増えてくるので,そのための準備をここでしておこうと思います.
前回,観測データ表の例として紹介したデータは生のデータと呼ばれます.これに対して,観測データを階級分けしたデータは階級別データまたは級別データと呼びます.級別データを表にしたものは度数分布表と呼びます.
度数分布表にするメリットは
ヒストグラムを描きやすく,分布の形がわかりやすい.
平均や標準偏差といった分布の特性値(次回以降に学習する)の計算がしやすい.
などがあげられます.
ここでは生のデータから階級分けをして度数分布表にする方法を説明します.
観測データから最大値と最小値を見つける.
分布の幅(最大値$-$最小値)を計算する.
分布の幅は略して幅ともいいます.また,記号Rを用いることも多いです.(range)
階級間隔(級間隔)と階級の数を決める.
この間隔と数は幅などに応じて適当に決めればよく,特に決まり事があるわけではない.
境界値と階級値を決める.
境界値とは1つ1つの級の境目の値であり,階級値は境界値と境界値のちょうど中間の値のことです.度数分布表には,境界値と階級値のどちらか一方でよく,両方書く必要はありません.
絶対度数を記入する.
絶対度数を各階級で記入すれば,度数分布表の完成です.相対度数は必要なときだけ書けばよいです.また,ヒストグラムも必要に応じて作成すればOKです.
20人の身長[cm]の観測データ表をもとに以下の問に答えよ.
観測データ表2
数学が得意でない人やまだ,高校数学を履修し終えてない,あるいは覚えてないよという人にとっては,次回以降に出てくる数式に抵抗を覚える人もいるかもしれないので,こで基礎知識を紹介していきます.
また,統計学では簡単な四則演算を何度も何度も計算することになるので,この記事を見るときや,統計学を参考書等で学習する場合は,電卓をためらいなく使うことをおすすめします.
ここからは統計学を学習する上で,頻繁に目にする総和記号$\sum$についての基礎知識を紹介します.内容は数Bの数列の範囲なので,そんなの知ってるよ!!って人は読み飛ばしていただいても結構です.
$x_1+x_2+\cdots +x_n$という$x_k$を$k=1,2,\ldots,n$まで足し合わせたものを以下のように表す.
$$ \sum_{k=1}^nx_k=x_1+x_2+\cdots +x_n$$
$a,b$を実数の定数とするとき,以下の等式が成り立つ.
$$ \sum_{k=1}^n(ax_k+b)=\sum_{k=1}^nax_k+\sum_{k=1}^nb=a\sum_{k=1}^nx_k+bn$$
とくに,
$$ \sum_{k=1}^na=a\sum_{k=1}^n1=an$$
である.
定理の証明を長々と書くのも癪なので,あえて書かないでおきます.(本質からちょっと外れるのも嫌なので)
今回は今までやってきた標本抽出の種類とやり方に加え,次回に向けた予備知識の紹介をしてきました.この3回分で第一章が終わったといいますか,一段落がついた状態まで来ました.これまで3回分の記事を書いてきました.ここまでは統計学っぽいことはほとんどしてきませんでしたが,次回からは今までとはまた違うことをやっていくので,これまでの復習をしっかりして,知識を整理しておきましょう.では,次回の記事でまた会いましょう.みなさん,お疲れさまでした.