6
大学数学基礎解説
文献あり

確率論を理解したい(随時更新)

1037
5
$$$$

目次

・はじめに
・記法・準備
・内容
・最後に

はじめに

どうも、色々やる数学徒です。
あけましておめでとうございます。
去年の$12$月は個人的に確率論を勉強していたので自分用のまとめ記事を書こうと思いこの記事を書いています。
確率論はつい最近手を出し始めた分野なのでおかしな箇所もあると思いますが良ければ最後まで読んでみてください。

参考にしたもの
マシロ様の記事
・確率・統計 PROBABILITY AND STATISTICS 柴田 文明
・PROBABILITY AND MEASURE J.R.NORRIS,N.BERESTYCKI

記法・定義

硬貨を投げる、カードを選ぶといった操作を試行、試行の結果起こった出来事を事象と呼ぶことにします。
全ての事象の集合を$\Omega$と書くことにします。(事象の$1$つを根元事象とか言ったりします)
ここでは空集合として$\varnothing$、集合$A$補集合として$A^c$を使います。

可測空間

$\Omega$は空でない集合とし、$\Omega$の部分集合族$\mathscr A$
[1]$\Omega\in\mathscr A$
[2]$A\in\mathscr A$ならば$A^c\in\mathscr A$
[3]$\{A_n\}\subset \mathscr A$ならば$\displaystyle \bigcup_{n=1}^{\infty}A_n\in\mathscr A$
を満たすとき$\mathscr A$$\sigma$集合体、組$(\Omega,\mathscr A)$を可測空間と呼ぶ

ここでわざわざ可測空間を導入するのは後で測度を導入するときに大きさを評価できる必要があるためです。
さらに後で使うのですが確率変数を通してより都合の良い可測空間を考えるためにBorel集合を定義しておきます。

Borel集合

$(X,\mathcal O)$を位相空間とし、$X$の開集合全体の集合$\mathcal O(X)$により生成される$\sigma$集合体をBorel集合族といい$\mathcal B(X)=\sigma(\mathcal O(X))$と書き、そのBorel集合族の元をBorel集合と呼びます。

ここで具体的に使うBorel集合は$\mathcal B(\mathbb R)$における$(a,b)$です。

内容

$5,6$で初めて確率というものを学校で習ったのですがそのとき教わった定義が曖昧なように感じて今まで確率を少し軽んじてしまっていたので今回の記事で克服しようと思います(`・ω・´)

小・中までの定義

事象の起こりやすさを確率という

僕はこんな感じで紹介されましたね。このとき起こりやすさってなんだよってめちゃくちゃ疑問でしたね。

$\Omega$の要素の個数を$n(\Omega)$と表します。

どの根元事象も同様に確からしく起こるとき
$\displaystyle P(C)=\frac{n(C)}{n(\Omega)}$を事象$C$の確率という

これならちゃんと納得できる定義ですね。
測度論を使えば次のように定義できます。

確率測度

可測空間$(\Omega,\mathscr F)$上の確率測度とは以下の$3$つを満たす関数$P$である
【1】$P(\Omega)=1$
【2】$A\in \mathscr{F}$なら$P(A)≧0$
【3】$A_1,A_2,A_3…\in\mathscr F$でありそれぞれが互いに素ならば$\displaystyle P\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}P(A_i)$
また、組$(\Omega,\mathscr F,P)$を確率空間と呼びます。

マシロ様の$2$つ目の記事にある定義をそのまま書きました。
マシロ様の記事がめちゃくちゃ初学者向けでわかりやすかったです。マジ神!
(ここでは一旦測度論は忘れて確率論を触ろうと思います)

次に条件付き確率を考えましょう。
ベン図 ベン図
上のベン図と定義4を用いると条件付き確率というものが考えられます。事象$A$が起こったという前提のもと事象$B$が起こる確率を条件付き確率といい$P(B|A)$と表します。$P_A(B)$とも書くみたいですがここでは前者を使います。
先程の定義4に基づき条件付き確率を考えましょう。
$\displaystyle \frac{n(A\cap B)/n(\Omega)}{n(A)/n(\Omega)}=\frac{P(A\cap B)}{P(A)}$より
$\displaystyle P(B|A)=\frac{P(A\cap B)}{P(A)}$が成り立ちます。
また、$P(B|A)=P(B)$のように条件付き確率が$A$に依存しなければ$A,B$は互いに独立と言います。
ここまでは中学校でも習う確率の話ですね。

条件付き確率の書き方の覚え方としては条件付き確率はあくまで$B$が主役だから先に書く、みたいなイメージですかね?わかりにくかったらすみません
あっていればどんな覚え方でも、オッケーです

次からどんどん大数の確率論を見ていきましょう。(今見るとこの大学数学の略大数と大数の法則ってまどろっこしいですね、どうでもいいけど)

確率変数

確率変数なるものを導入します。
試行に伴って根元事象にそれぞれ与えられた数値を返す変数$X$を確率変数と呼びます。
また、与えられた数値を実現値と呼びます。
e.g.)硬貨を投げて表がでる事象に$1$を裏がでる事象に$0$を割り当てるなど。($1,-1$のときもあるそうな…)
そして、上の例のように連続的でない確率変数を離散的確率変数、逆に連続的ならば連続的確率変数といいます。(まんまでわかりやすいですね)
以下、確率変数は$X$と書きます。
測度論的に確率変数を定義したら次のようになります。

確率変数

確率空間$(\Omega,\mathscr A,P)$,可測空間$(U,\mathscr L)$を考える

任意の$B\in\mathscr L$に対し$X^{-1}(B)\in\mathscr A$を満たす写像$X:\Omega\to U$を確率変数と呼ぶ

僕が初めて確率変数を見たとき「ん?写像じゃね」と思いツイートしたところ、どうやら後から確率測度空間からの写像としてみなされたようでした。先に名前がついっちゃってたパターンですね。

確率分布(離散)

確率分布を考えてみましょう。
確率変数$X$が離散的確率変数のとき、返す値$x_1,x_2,\cdots,x_n$のどれかは試行を行うまではわかりません。しかし、根元事象の確率がわかっているならば返される値の確率も考えることができます。
そこで$j$番目の$x_j$を返す確率を$P(X=x_j)=W_{j}$と表し$W_j$$X$の確率関数と言い、$W_j$が与えられるとき、$X$の確率分布が与えられていると言います。
e.g.)上の硬貨の具体例で考えてみましょう。
$\displaystyle P(X=x_1)=P(X=1)=W_1=\frac{1}{2}$
$2$も同様
また、確率の性質から$0≦W_j≦1$がわかります。

自然科学とかの論文を読むのが趣味の人とかだったら一度は確率分布という単語を見たことがあるのではないでしょうか。

確率関数に続き分布関数を導入します。
$X$$x$以下であるときの確率を
$\displaystyle F(x)=\sum_{x_j≦x}W_j$と表す。

分布関数の性質として以下が知られています。(性質というか満たさねばならない定義ですね)
1.$\displaystyle F(\infty)=1$
2.$F(-\infty)=0$
3.$X$$\left(a,b\right]$に入る確率は$F(b)-F(a)$となる

簡単に示せるのでぜひ手を動かしてみてください。

確率分布(連続)

離散的な場合の確率分布すでにやりましたね。では、連続的な場合はどうなるのでしょうか?
積分ですね。
実現値の微小区間$x〜x+\Delta x$を考えましょう。
この区間に実現値が入る確率を$W(x)\Delta x$と表します。これを確率密度と言います。(離散と違いぎゅうぎゅうに詰まっているイメージですね)
以上を使って離散で考えたように分布関数を考えてあげましょう。($x$以下をとる確率を考えるわけです)
$\displaystyle F(x)=\int_{-\infty}^xW(x)dx$
と書けますね。また上であげた性質も全て満たします。

よく確率論のpdfとかで積分を使っている理由が見えてきましたね。

測度論的な確率分布

一般に確率分布を考える際には上のように離散と連続で区別しなければなりませんでしたが測度論を用いればモーマンタイです。

確率分布

確率空間$(\Omega,\mathscr A,W)$の可測空間$(\mathbb R,\mathcal B(\mathbb R))$値確率変数$XについてW_X(B)=W(X^{-1}(B))$を満たすとき確率測度$W_X$を確率分布という

Bernoulli試行とPoisson分布

高校数学である試行を$n$回行ったとき確率$p$の事象が$x$回起こる確率というものを考えたと思います。
それは以下のように書けるのでした。

反復試行の確率

$\displaystyle P=\binom{n}{x}p^x(1-p)^{n-x}$

反復試行の確率は何気に高校数学ででてくる確率の公式で一番好きかもしれませんねw
よくゲームのガチャとかで遊ぶときに真剣に使っていましたね。導出自体は簡単なのでぜひ試してみてください。

これは確率論ではBernoulli分布といい同じ試行を繰り返すことを特にBernoulli試行と言います。
では具体的にグラフを描いてみましょう。
にゃんこ大戦争というゲームが有名なのでありがたく具体例で使わせていただきます。
超激レアというキャラがガチャで排出される確率が$0.05$だそうなので$100$回引いたうち$x$回排出される確率を考えることにします。
にゃんこ大戦争のガチャの確率 にゃんこ大戦争のガチャの確率
グラフにしたら上みたいな感じになりそうですね。
一番確率が高そうな$4$回で約$17$%…
高いですね!(にゃんこヘビーユーザーより)
また、Bernoulli分布を$B(n,p)$と表すことにします。

高校数学の振り返りが終わったので早速Poisson分布を導入します。(極限操作が多いので教科書片手に打っていきます…)
先程のBernoulli分布で$n$が充分大きく、$p$は充分小さい場合を考えましょう。
ただし、$np=\mu$とし有限とします。
反復試行を書き直してみましょう。
$\displaystyle W_x=\binom{n}{x}\left(\frac{\mu}{n}\right)^x\left(1-\frac{\mu}{n}\right)^{n-x}$
$\displaystyle =\frac{(n)_x}{x!n^x}\mu^x\left(1-\frac{\mu}{n}\right)^{n-x}$
(ここで$(n)_x$は降冪のポッホハマー記号としています。)
また、$(n)_x\cong n^x$より
$\displaystyle W_x\cong \frac{1}{x!}\mu^x\left(1-\frac{\mu}{n}\right)^n$

$\displaystyle W_x\cong \frac{1}{x!}\mu^xe^{-\mu}$(指数の定義より)
これをPoisson分布と言います。
前提からわかるようにこの分布は滅多に起こることない事象に対し何回も繰り返し試行することによって生じます。(ということは上の具体例は…まあいいや)

稀な事象を何回も繰り返し試行するとPoisson分布になるわけですが、不思議と自然界での事象を考えるとPoisson分布に合う現象があるそうな

正規分布

Poisson分布では大小関係から導入していったわけですがここでは大小はあまり気にしません。やったー
実は先程のPoisson分布では$n$が大きくなるといきなり大きく増加する地点がでてきます。そこで$\ln W_x$を考えます。($\ln$は単調ですからね、都合がいい)
また、ここでは離散を考えているのですが、$\ln(x!)$なら$x$が充分に大きいなら連続関数として扱えますね。
ということで次のように計算しちゃいましょう。
$\displaystyle \frac{\ln((x+\Delta x)!)-\ln(x!)}{\Delta x}\cong\frac{d}{dx}\ln(x!)$
これは離散なので
$\displaystyle \frac{d}{dx}\ln(x!)\cong \ln x$
が得られます。
定理$1$より
$\ln(W_x)=\ln(n!)-\ln(x!)-\ln((n-x)!)+x\ln p+(n-x)\ln(1-p)$
そして上より
$\displaystyle \frac{d}{dx}\ln W_x\cong-\ln x+\ln(n-x)+\ln p-\ln(1-p)$
もっとも確率が大きくなる地点での微分係数はもちろん$0$ですので
$\displaystyle \ln\left(\frac{\mu}{n-\mu}\right)=\ln\left(\frac{p}{1-p}\right)$
さらに$2$階微分すると
$\displaystyle \frac{d^2}{dx^2}\ln W_x\cong-\frac{n}{x(n-x)}$
ここで$\sigma^2=np(1-p)$という数を導入します。
すると$x=\mu$での$2$階微分係数は
$\displaystyle -\frac{1}{\sigma^2}$となります。
$\ln W_x$$\mu$の周りでテイラー展開します。
すると$\sigma^2$を導入しておいたおかげで綺麗に書けますね!
$\displaystyle \ln W_x=\ln W_x-\frac{(x-\mu)^2}{2\sigma^2}+\cdots$
$x$$3$次からの項は微少量となるため無視していいようです。
したがって、$\displaystyle W_x=W_{\mu}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$が得られます。
さあいよいよです。みなさん大好きなガウス積分を使います。
気持ちいい!!!

$\displaystyle \int_{-\infty}^{\infty}e^{-ax^2}dx=\sqrt{\frac{\pi}{a}},a>0$

積分自体もめちゃくちゃ面白いのに確率でも登場してくれるっ!
そこに痺れる憧れるぅ

そして分布関数は$\displaystyle \int_{-\infty}^{\infty}W_xdx=1$を満たさねばなりませんでしたね。
よって
$\displaystyle W_x=\frac{1}{\sqrt{2\pi \sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
が得られます。
確率密度がこのような形になる確率分布を正規分布といい、$N(\mu,\sigma^2)$と書きます。($\sigma^2$は特に分散と言いますね)
$\displaystyle Z=\frac{X-\mu}{\sigma}$という確率変数の確率密度は

確率密度

$\displaystyle W_x=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}$

となりこれを標準正規化分布といいます。

最後に

いかがだったでしょうか。
確率論を少し覗くことができたのではないでしょうか?
僕は最初、「正直確率とか統計って現実ではよく使う道具だけど数学的な面白みはあるの?」と疑問に思っていたのですが確率論の世界を覗きこんでみるととても素晴らしい数学が広がっていることに気づけました。
やはり、数学徒たるもの、数学の分野は全て楽しみたいですね。(好き嫌いはよくないと学べました)
より厳密でわかりやすい議論はマシロ様が記事を投稿予定なので楽しみに待っていましょう♪
そして、ここでは測度論的にPoisson分布の話を記せなかったり確率密度らへんで中途半端に終わってしまったので中心極限定理を理解するまでは確率論の勉強を続けようと思います。(☻-☻)
それじゃ!

参考文献

[1]
柴田 文明, 確率・統計 PROBABILITY AND STATISTICS , 岩波書店
投稿日:16
更新日:111
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

色数
色数
176
38059

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中