3

0から始める統計学 Part2

310
0
$$$$

今回のテーマ

  • 演習等の解答
  • 「母集団」と「標本」の意味を理解する.
  • 「標本抽出」の流れを理解する.

演習等の解答

まずは用語の確認からいきましょう.
「分布」とはある現象がさまざまな大きさをもって起こることでしたね.
「絶対度数」とは観測されたデータそのものの数値のことで,「相対度数」は絶対度数をデータの数で割った割合のことでした.
また,「確率」とはある現象が起こる確かさを割合のことでした.
皆さん,覚えていましたか?これはとても大事なので,もし間違ってたなって人は前回の記事を見直してみてはどうでしょうか.

次に,演習1.1,1.2の解答例を載せておきます.

演習1.1(解答例)
まず,相対度数はこのような感じです.有効数字を揃えて0.10とかにしたよって人も正解です.有効数字に関しては追々,話していこうかと思いますので,今はあまり気にしなくても結構です.
度数分布表 度数分布表
続いて,ヒストグラムの方は上の方が縦軸に絶対度数をとったもの,下は相対度数をとったものになります.軸に記号$X$$f$を書くことを忘れないようにしましょう.
ヒストグラム ヒストグラム
ヒストグラム ヒストグラム

演習1.2(解答例)
1.
(i)$P($Aさんの収入が50万円である$)=0.02$
(ii)$P($Aさんの収入$=$50万円$)=0.02$
(iii)$P(X=50)=0.02\,$ただし,$X=$Aさんの収入(万円)
2.
(i)$P($Aさんの収入が50万円以上である$)=0.02$
(ii)$P($Aさんの収入$\geqq$50万円$)=0.02$
(iii)$P(X\geqq50)=0.02\,$ただし,$X=$Aさんの収入(万円)

以上が解答例です.特に(iii)の表記の仕方をよく使うので覚えておきましょう.

母集団と標本

さて,前回は統計学の基本とも言える「確率分布」について学習しました.今回は前回のようにある現象の中身に注目するのではなく,現象そのものに焦点を当ててみようと思います.

母集団

ある現象のあらゆる観測値全体の集合を母集団という.
 母集団の大きさが無限のものを無限母集団という.
 逆に大きさが有限なものを有限母集団という.

「過去から未来にわたるあらゆる人の身長」は無限母集団である.

「A高校の学生1000人の身長」は有限母集団である.

例にあげたように仮に有限母集団であってもすべてを観測するのはかなり大変です.そこで,「母集団から一部だけを取り出す」ということを考えてみましょう.

標本

母集団から一部を取り出したものを標本という.
 取り出した標本を観測することを標本抽出という.

統計学は母集団がどのような「性質」をもつかをさまざまな方法を用いて知る学問です.つまりは,「標本」を作成することにより,母集団の性質を推測するというわけです.
 次は,どうすれば「母集団の『性質』」を表せるような標本抽出をすることできるかについて説明しようと思います.
 母集団の性質が現れるようにするには,標本を作成する際にできるだけ偏りのないようにすることが望ましいです.例えば,日本人の平均身長を知りたい場合,母集団である全国1億2000万人を調べるわけにはいきません.そこで,100人分の標本を作成するとした場合,この100人の標本の中に子どもが90人もいるのは「偏りすぎている」ので適切な標本抽出とは言えません.つまり,偏りのない$=$ランダムに選ぶというのが大切になってきます.

無作為標本

どの基準から見ても偏りのない標本を作成することを無作為抽出または無作為標本抽出という.
 また,無作為抽出によって作成された標本を無作為標本という.

無作為標本を作ることが,母集団の性質を推測する鍵になっているというわけです.
 では,どうすれば無作為標本を作ることができるでしょうか.

無作為標本の作り方

まずは,やり方を説明する前に必要な予備知識を述べておきます.

標本データの記入の仕方

母集団からいくつかデータを取り出した場合,分析する前に,それを表などにまとめて見やすくする必要があります.その記入の仕方を説明します.まとめ方としては,「観測データ表」の形式が1番わかりやすいかと思います.下の表がその一例です 観測データ表1 観測データ表1
 このように左にひとつひとつのデータの番号を,右にその番号におけるデータの数値を書き込むという形式です.データの数を一般的にしたい場合は,$n$を用いて書きます.また,統計学では,左がデータの番号,右がデータの数値というのは当たり前なので,下のように観測番号,観測値という文字を省くこともしばしばあります. 観測データ表2 観測データ表2

標本の数と標本の大きさ

母集団の性質をより正確にするために,標本をいくつか作成することがよくあります.そのとき,標本ひとつひとつに観測データ表を作るのですが,この観測データ表の数を標本の数といいます.また,ひとつひとつの標本には観測番号がついています.この観測番号の数(つまりは$n$の値)を標本の大きさといいます.

これで予備知識を説明し終えたので,これから無作為抽出をどのような手順で行うかをひとつひとつ順番に説明していきます.

  1. 母集団の要素ひとつひとつに要素番号をつける

母集団に含まれるひとつひとつのデータを「母集団の要素」といい,要素につける番号を要素番号といいます.
 母集団からランダム(無作為)に選ぶとき,母集団の要素に要素番号がついていると選びやすくなります.要素番号がついていれば,数字をランダム(無作為)に選ぶだけで,標本を取り出せるます.しかし,要素番号がついていないと,順番もはっきりしていない母集団から選ぶ必要がでてきてしまい,偏りができやすくなってしまいます.

2. 乱数表を使って抽出する標本の大きさの分だけ数字を取り出す

母集団に要素番号つけたら,次は抽出する要素番号を決める作業に移ります.その番号を決めるのに最も適していると言えるものが「乱数表」です.乱数表とは,数字がランダムに(規則性が無いように)並んでいます.この乱数表で選んだ数字を要素番号としてその要素を抽出します.また,乱数表にはいくつか種類があるのですが,無作為抽出には一様乱数表(矩形[くけい]乱数表)という乱数表を使います.一様乱数表は0~9までの数字が等しい確率でランダムに並んでいる乱数表です.一様乱数表は下のようなものです.
乱数表 乱数表
 横方向を「行」,縦方向を「列」といい,第$m$行第$n$列目の数字は$N$のように表現します.
 (一様)乱数表は,どこを基準としてもOKです.例えば,今年は2020年だから20行目の20列目から右に向かって選んでもいいですし,今15時48分だから,15行目の48列目から上に向かって選んでもいいのです.
 また,数字をいくつも選んでいると,途中で同じ数字がでてくるということがあります.このとき,同じ数を何度も採用する方法を復元抽出法といい,1度しか使わない方法を非復元抽出法という.どちらを使うかは場合によるので,次の項で説明します.

復元抽出をするか否か

ここでは,以下の2つの例から復元抽出法と非復元抽出法のどちらがより適しているかを説明します.

A地域には100軒の家があり,そのうち10軒を選び,大きさ10の標本を1つ作成する.

ある工場で製造される製品Bが不良品である確率を調べるため,そこで製造された製品Bを1000個のうち,いくつ不良品であるかを調べる.

復元抽出をするということはどういうことになるのかを考えてみましょう.例3は要素が100の有限母集団です.ここから10個ランダムに選ぶのですが,例えば1つだけ同じものを選ぶ場合,選ばれていない要素は91個あります.重複がなければ,選ばれていない要素は90個です.この1つの差に注目すると要素は100なので,復元抽出と非復元抽出で100分の1の差ができることになります.この1%分の誤差というのは統計学の世界では結構大きいものとなっています.(1%ってたいしたことないじゃんって思うかもしれませんが...) つまり,例3では,非復元抽出をするべきであると言えます.
 一方で,例4ではどうでしょうか.この例では要素がいくつかわかりませんね.ですので,これは無限母集団です.
 あれ? 有限母集団で要素は1000じゃないの??と思った人がいるかもしれません.確かに,そういった見方もできるかもしれません.しかし,例4で知りたいのは,1000個のうち,不良品がいくつあるか,工場で製造される製品Bの不良品の割合が知りたいので,無限母集団となるのです.もし,1000個のうち,不良品がいくつあるかを知りたければ,母集団は有限で,要素は1000となります.
 また,工場で作られる製品には限りがあるって思った人もいると思います.ですが,作ろうと思えば無限にすることができる場合は,無限母集団とみなすのです.(つまり,限りなく大きくできる=無限ととらえています)
 さて,本題のどちらの抽出法をとるかですが,無限母集団には要素番号がつけられません.では,どうすれば,無作為抽出できるのでしょうか?
 答えは, 有限母集団から復元抽出をする です.そのため,例4では1000個選びとって,有限母集団化しているのです.よって,例4では,復元抽出をするべきと言えます.
 有限母集団から復元抽出をすると,無限母集団からの標本抽出に近い結果が得られるのは,復元抽出は母集団に同じ要素を含むことを意味しており,要素の数を実質的に増やせる上に,無限母集団は非復元抽出と復元抽出に実質的な違いがない(誤差がない)からです.
 $k$個重複している場合の誤差$d_k(n)$は下のようになります.$$\lim_{n\to\infty}d_k(n)=\lim_{n\to\infty}\frac kn=0,k\in \mathbb N$$

今回のまとめ

今回は母集団と標本抽出とそのやり方について説明をしました.ちょっと長くて小難しいものとなってしまいましたので,確認や演習を多めにして理解の定着してもらいたいと思います.

用語の確認

  • 母集団とは何か?
  • 標本とは何か?
  • 無作為標本はどのようにすれば作れるか?
  • 復元抽出法と非復元抽出法の違いと使い分け方を述べよ.

演習2.1

大きさが10の標本が3つあるとはどういうことかを具体的に述べよ.

演習2.2

2桁の乱数を5つ取り出し,観測データ表をつくりなさい.
 (観測値は各自で好きに決めて良い)

投稿日:20201111

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

LAMZAOO
LAMZAOO
23
787
名大理学部1年のLAMZAOO(らむぞー)です 数理学科志望で今は授業で線形代数と微積をやってて,個人的に解析,数論,統計を勉強しています(のちに代数もやりたいと思ってる) 記事の更新頻度はまちまちだと思いますがよければゆっくりみてくれると嬉しいです Twitterもやってるのでフォローしていただけると嬉しいです

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中