皆さんいきなりですが,統計学という学問に興味はありますか.
...といっても(私の経験上ですが)統計学は数学じゃないとか楽しくないとかで実際はあまりいいイメージを持たれてないように感じます.
しかし,それは統計学を学ぶということを本格的にやってこなかったからだと私は感じます.(実際,私も大学生になるまでは統計分野は嫌いでした.)
ですので,これからたびたび統計学についての記事を0から書き上げていこうと思います.
統計学独特の考えを理解してもらう.
この記事を通して,できるだけ多くの人に統計学を好きになってもらう.
統計学そのもの統計学独特の考え方を知る.
「分布」と「確率」の意味を理解する.
統計学は大量のデータの中にある「法則性」を見つけ,それを科学的に分析する学問である.統計学は主に,「統計学史」「記述統計学」「推測統計学」「経済学への応用」に分類できるが,ここでは「記述統計学」と「推測統計学」の2つに焦点を当てて説明しようと思います.
統計学は他の学問とは違った独特な考え方がある.とりあえず今回は一つだけ紹介することにします.それは次のような考え方です.
「統計学なんてまったくわからないよ!!」って人には何のことかさっぱりだと思いますので,一つ一つ噛み砕いて説明していきます.
まず,「統計的事象」とは統計学を用いて分析する対象のことを指します.例えば,クラスの平均身長だとか,テストの平均点や偏差値といったもので,日常生活の中にもたくさんあります.
次に,「確率分布」についてですが,その前にまず,「確率」と「分布」とは何かを知るところから始めようと思います.
今後,枠内の説明は特に断りがなければ統計学におけるものです.
定義の場合は統計学ではこのように定義しているという意味になります.
ある現象がさまざまな大きさをもって起こることを分布をするという.
身長が160cmの人もいれば,170cmの人もいる.つまり身長は分布をする.
模試の偏差値が65の人もいれば,75の人もいる.つまり偏差値は分布をする.
これで「分布」とは何かがわかっていただけたのではないかと思います.
あるデータの分布がわかったところで,数字が乱雑に並んでいるだけで,統計学の目的である「法則性」は見えにくくなっています.
そこで,得られた分布を表やグラフにして一目でわかるようにすると,「法則性」がより見えやすくなります.今まで,小学校からずっと算数や数学で表やグラフを書いてきたと思います.統計学もほかの学問と変わりません.
ある事象において,それぞれ何回観測されたかを度数(頻度)という.
また,度数を一定の基準で分けて表にしたものを度数分布表という.
下の表は小学生100人の立ち幅跳びの記録を度数分布表にまとめたものです.
度数分布表
度数分布表を柱状のグラフにしたものをヒストグラム(柱状分布)という.
下のグラフは先ほどの度数分布表をヒストグラムにしたものです.
ヒストグラム
ヒストグラムのそれぞれの柱の頂点を線で結んだものを度数分布図(確率分布図)という.
下のグラフは上のヒストグラムに度数分布図も一緒に加えたものです.
度数分布図
例としてあげたヒストグラムや度数分布図を見て気づいたかもしれませんが,横軸には分析の対象となる変数の観測値をとっていて,記号$X$で表します.縦軸には度数(頻度)をとっていて,記号$f$(度数のfrequencyの頭文字)で表します.
また,変数Xの度数ということを明確にするために,$f(X)$と表記することもあります.
データそのものの数値を絶対度数(絶対頻度)という.
絶対度数の和(データの総数)に対するある絶対度数の割合を相対度数(相対頻度)という.
先ほどの度数分布表において,記録が170cm以上180cm未満における絶対度数は7である.
また,相対度数は0.07である.$(\,7\div100=0.07)$
相対度数はほとんどの場合,小数で表記する.分数表記をすることは滅多にありません.
以下の度数分布表は成人男性の100人の月収をまとめたものである.
空欄に当てはまる数値を書き込み,ヒストグラムを作成しなさい.(ただし,縦軸には絶対度数でも相対度数でもどちらでも良いとする.)
度数分布表 演習
ある現象が起こる確かさを割合で表したものを確率という.
また,事象$X$が起こる確率を$P(X)$のように表す.
ある地域では明日雨が降る確率が0.7のとき,$P($ある地域で明日雨が降る$)=0.7$と表記する.
くじでA賞が当たる確率が0.05のとき,$P(X)=0.05\,$ただし,$X=$くじでA賞が当たると表記する.
普段,確率は%で表すことが多いが,相対度数と同様に小数で表すことがほとんどです.
また,$X$の部分には文章や式を入れたり,文章と記号を組み合わせたものを入れたりすることができます.
これで,「分布」と「確率」の両方が理解できたかと思います.
さて,いよいよこの2つを組み合わせた「確率分布」という概念について説明していきたいと思います.先ほどの小学生100人の立ち幅跳びの記録の相対度数分布(相対度数を縦軸にとったヒストグラム)を見てみましょう.
相対度数分布
例えば,1番左の柱は「140cm以上150cm未満の相対度数は0.1」であることを示しています.これを記号で書くとすれば,次のようになります.
$$f(140\leqq X<150)=0.1$$また,この$0.1$という数値は「確率」とも見ることができるので,先ほど説明した「確率」の表記を使って次のように表せます.
$$P(140\leqq X<150)=0.1$$もう気づいている人もいるかもしれませんが,この$P(X)$は変数$X$を変えると,それに応じて変動します.つまり,これは分布をするということになります.これがまさに確率分布なのです.これで最初に紹介した統計学独特の考え方がな〜んとなくわかっていただけたのではないかと思います.
最後に「当たり前じゃん」って思う人もいるかもしれないですが,「確率分布」の基本定理について説明しようと思います.
$k=1,2,\ldots,n$について任意の確率分布$P(X_k)$について以下の不等式が成り立つ.$$0\leqq P(X_k)\leqq 1$$ また,以下の等式が成り立つ. $$P(X_1)+P(X_2)+\cdots +P(X_n)=\sum_{k=1}^nP(X_k)=1$$
これから更新していく記事の1番最後に今回学んだ用語等の確認を簡単な問題形式でまとめようと思います.この問題に答えられるようになったらその記事の内容は概ね理解できているものと思っていただいて結構です.問題の模範解答は次回の記事で演習も含めて載せようと思います.ですので,間違っていたら記事を読み進める前にいったん確認をするというのもいいかもしれません.
1.「Aさんの収入が50万円である確率は0.02である」ということを文章,式,記号と式の3通りの表現で表すとどうなるか?
2. 1の50万円を50万円以上に変えたとき,3通りの表現で表すとどうなるか?