大学数学基礎解説

0から始める統計学 Part3

初学者向け,定期更新記事,統計学

今回のテーマ

演習等の解答
楽に無作為抽出をする方法
「単純抽出法」と「層化抽出法」
次回以降に向けて

演習等の回答

演習2.2に関しては各自で確認してもらうこととして模範解答は載せません．
　(載せたところであまり関係ないと判断したので...)

まずは，用語の確認からいきます

母集団とは，ある現象における観測値(データ)の全体を表すものでした．

また，標本はその母集団から一部分を取り出したものを指します．

無作為標本の作り方は

1.母集団に要素番号をつける．

2.一様乱数表で標本の大きさの分だけ乱数をとり，観測データ表をつくる．

となります．また，復元抽出と非復元抽出の違いは同じ乱数を繰り返し用いるかどうかの違いです．使い分け方は有限母集団に対しては，非復元抽出を，無限母集団に対しては，復元抽出を使います．

次に演習2.1の解答例を載せておきます．

大きさ10の標本が3つあるとは，観測データが10個ある標本が3組あるということです.つまり，データの数は$10\times 3=30$個あるということになります．

楽に無作為抽出をする方法

前回は無作為抽出をする方法について説明をしました．しかし，そのやり方は乱数を標本に使うデータの数だけ取ってくる必要がありました．つまり，データの数が増えるとちょっと大変ですよね...
　そこで，もうちょっと楽に行う方法をここでは紹介します．まず最初に1つだけ乱数を取ります．そしてそれに対応する要素番号から10番おき，あるいは20番おき，などのように，一定の番号おきに採用していくと乱数をすべてとっていくやりかたと似たような無作為抽出をすることができるのです．
　実際，アンケート調査を行うときも，最初の1件だけ乱数をとって，あとは戸籍台帳や電話帳などの一定の抽出率で標本データをとるかを決めています．

「単純抽出法」と「層化抽出法」

今まで紹介してきた標本抽出法はすべて単純抽出法という方法です．(より正確には単純無作為抽出法や単純任意抽出法といいます．)
　これに対して，層化抽出法というもう少し手の込んだ方法があります．層化抽出法とはどういうものなのかを例を交えて説明していきます．

全国から1000世帯を選んで，その1000世帯の1ヶ月の食費を調べる．

例えば上のような状況でいきなり1000世帯を無作為に選ぶのではなく，まず，47都道府県の中から20の都道府県を無作為に抽出し，その選ばれた都道府県1つにつき，50世帯を無作為抽出するというのが層化抽出法の一例です．つまりは，いきなり標本全体を母集団から選ぶのではなく，母集団のどのあたりから標本抽出するかの検討をつけて，段階的に行う方法が層化抽出法なのです．
　層化抽出法を定着のためにみなさんに実際にやってもらいたいとは思うのですが，母集団の一覧等を準備するのがちょっと大変なので，層化抽出法については一例を紹介するくらいにしておきます．

次回以降に向けて

次回からはいよいよ分布の特性についての分析をするという段階に入っていきます．ですので，今まではあまり無かった計算や表，グラフを書くといった作業も増えてくるので，そのための準備をここでしておこうと思います．

階級分けしたデータの作り方

前回，観測データ表の例として紹介したデータは生のデータと呼ばれます．これに対して，観測データを階級分けしたデータは階級別データまたは級別データと呼びます．級別データを表にしたものは度数分布表と呼びます．
　度数分布表にするメリットは

ヒストグラムを描きやすく，分布の形がわかりやすい．
平均や標準偏差といった分布の特性値(次回以降に学習する)の計算がしやすい.

などがあげられます.

級別データを度数分布表にまとめる手順

ここでは生のデータから階級分けをして度数分布表にする方法を説明します．

観測データから最大値と最小値を見つける.
分布の幅(最大値$-$最小値)を計算する．
分布の幅は略して幅ともいいます．また，記号Rを用いることも多いです．(range)
階級間隔(級間隔)と階級の数を決める．
この間隔と数は幅などに応じて適当に決めればよく，特に決まり事があるわけではない．
境界値と階級値を決める．
境界値とは1つ1つの級の境目の値であり，階級値は境界値と境界値のちょうど中間の値のことです．度数分布表には，境界値と階級値のどちらか一方でよく，両方書く必要はありません．
絶対度数を記入する．
絶対度数を各階級で記入すれば，度数分布表の完成です．相対度数は必要なときだけ書けばよいです．また，ヒストグラムも必要に応じて作成すればOKです．

演習3.1

20人の身長[cm]の観測データ表をもとに以下の問に答えよ．

観測データ表2

最大値と最小値を答えよ．
幅を答えよ．
級間隔と級の数を設定し，度数分布表を作りなさい．
なお，境界値と階級値は両方とも度数分布表に明記し，相対度数も記入すること．

次回以降で使う演算について

数学が得意でない人やまだ，高校数学を履修し終えてない，あるいは覚えてないよという人にとっては，次回以降に出てくる数式に抵抗を覚える人もいるかもしれないので，こで基礎知識を紹介していきます．
　また，統計学では簡単な四則演算を何度も何度も計算することになるので，この記事を見るときや，統計学を参考書等で学習する場合は，電卓をためらいなく使うことをおすすめします．

総和記号$\sum$(シグマ)について

ここからは統計学を学習する上で，頻繁に目にする総和記号$\sum$についての基礎知識を紹介します．内容は数Bの数列の範囲なので，そんなの知ってるよ!!って人は読み飛ばしていただいても結構です．

総和記号

$x_1+x_2+\cdots +x_n$という$x_k$を$k=1,2,\ldots,n$まで足し合わせたものを以下のように表す．
$$ \sum_{k=1}^nx_k=x_1+x_2+\cdots +x_n$$

$a,b$を実数の定数とするとき，以下の等式が成り立つ.
$$ \sum_{k=1}^n(ax_k+b)=\sum_{k=1}^nax_k+\sum_{k=1}^nb=a\sum_{k=1}^nx_k+bn$$
　とくに，
$$ \sum_{k=1}^na=a\sum_{k=1}^n1=an$$
　である．

定理の証明を長々と書くのも癪なので，あえて書かないでおきます．(本質からちょっと外れるのも嫌なので)

今回のまとめ

今回は今までやってきた標本抽出の種類とやり方に加え，次回に向けた予備知識の紹介をしてきました．この3回分で第一章が終わったといいますか，一段落がついた状態まで来ました．これまで3回分の記事を書いてきました．ここまでは統計学っぽいことはほとんどしてきませんでしたが，次回からは今までとはまた違うことをやっていくので，これまでの復習をしっかりして，知識を整理しておきましょう．では，次回の記事でまた会いましょう．みなさん，お疲れさまでした．

投稿日：2020年11月15日

数学の力で現場を変えるアルゴリズムエンジニア募集 - Mathlog served by OptHub

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

LAMZAOO

1114

名大理学部1年のLAMZAOO(らむぞー)です数理学科志望で今は授業で線形代数と微積をやってて,個人的に解析,数論,統計を勉強しています(のちに代数もやりたいと思ってる) 記事の更新頻度はまちまちだと思いますがよければゆっくりみてくれると嬉しいです Twitterもやってるのでフォローしていただけると嬉しいです

他の人のコメント

コメントはありません。

読み込み中

LAMZAOO

0から始める統計学 Part3

0から始める統計学 Part3

今回のテーマ

演習等の回答

楽に無作為抽出をする方法

「単純抽出法」と「層化抽出法」

次回以降に向けて

階級分けしたデータの作り方

級別データを度数分布表にまとめる手順

演習3.1

次回以降で使う演算について

総和記号$\sum$(シグマ)について

今回のまとめ

この記事を高評価した人

この記事に送られたバッジ

投稿者

コメント

他の人のコメント

「単純抽出法」と「層化抽出法」