この文章では公理的に確率を扱う方法について簡単に紹介します。一般にやるのは難しいので、事象全体の集合が有限の場合に限ります。また、それに伴って確率変数やその期待値、部分加法族といった概念を紹介します。上の動画のレジュメですので、動画とともにお読みいただければと思います。
これを読むために必要な概念である冪集合や逆像については こちらの記事 をご覧ください。
有限集合$\Omega$と$F\subset 2^\Omega$がある条件を満たし ^1 、さらに写像$P:F\to[0,1]\subset\R$を合わせた三つ組$(\Omega,F,P)$が以下を満たすとき、この$(\Omega,F,P)$を確率空間という。
$P(\Omega)=1$
$P(\emptyset)=0$
$A,B\in F$に対し$A\cap B=\emptyset$なら$P(A\cup B)=P(A)+P(B)$
$\Omega$が有限集合でなくても確率空間を定義することはできるが少々ややこしくなるので、この講義ではしばらく$\Omega$を有限集合とし、$F=P(\Omega)$とする。
$\Omega$をトランプのカード$52$枚の集合としよう。
この集合を記号$S=\{\clubsuit, \diamondsuit, \heartsuit, \spadesuit\}$と数$N=\{1,2,3,4,5,6,7,8,9,10,11,12,13\}$の直積集合として表現しておく。
つまり$\Omega=S\times N$であり、$\Omega$の要素$\omega\in \Omega$は$\omega=(\heartsuit,3), (\clubsuit,12)$などと表示される。$F=2^\Omega$は例えばハート全体の集合$\{(\heartsuit,1),(\heartsuit,2),\ldots,(\heartsuit,13)\}$とか、$3$全体の集合$\{(\clubsuit,3),(\diamondsuit,3),(\heartsuit,3),(\spadesuit,3)\}$とか、適当に選んだ集合$\{(\diamondsuit,2),(\heartsuit,5),(\clubsuit,9),(\clubsuit,12)\}$などを要素に持つ集合 ^2 。$P:F\to\R$を$P(A)=\dfrac{\abs{A}}{52}$で定める。
ここで$\abs{A}$を$A$の要素の個数とする。
つまり、どのカードを引く確率も同様に確からしいとする。
これは確率空間になる。 定義を確かめよう。
まず$P(\Omega)=\dfrac{52}{52}=1, P(\Omega)=\dfrac{0}{52}=0$である。
また、$A\cap B=\emptyset$なとき、 $$\begin{eqnarray} \abs{A\cup B}=\abs{A}+\abs{B}-\abs{A\cap B}=\abs{A}+\abs{B}\end{eqnarray}$$なので$P(A\cup B)=P(A)+P(B)$である。
確率空間という概念が導入された経緯については こちらの動画 をご覧ください。
$(\Omega,F=2^\Omega,P)$を確率空間とする。
写像$X:\Omega\to\R$を確率変数という。
^3
前の例と同様トランプ$52$枚の集合$\Omega$、$F=2^\Omega$と、同様に確からしい確率$P$を用いて考える。
数字、色、記号、偶奇によって次のような確率変数$X_n, X_c, X_s, X_p$を定める。$X_n:\Omega\to\R$を $$\begin{eqnarray} X_n(s,n)=n\end{eqnarray}$$ とする。 $X_s:\Omega\to\R$を $$\begin{eqnarray} X_s(s,n)=\begin{cases}1&s=\clubsuit\\2&s=\diamondsuit\\3&s=\heartsuit\\4&s=\spadesuit\end{cases}\end{eqnarray}$$とする。 $X_c:\Omega\to\R$を $$\begin{eqnarray} X_c(s,n)=\begin{cases}1&s=\clubsuit,\spadesuit\\2&s=\diamondsuit,\heartsuit\end{cases}\end{eqnarray}$$とする。 $X_p:\Omega\to\R$を $$\begin{eqnarray} X_p(s,n)=(-1)^n\end{eqnarray}$$ とする。 ^4
確率変数に対しては、次のようにして期待値という数を定義できる。
確率空間$(\Omega,F,P)$と確率変数$X$に対し$X$の期待値を
$$\begin{eqnarray}
E(X)=\sum_{\omega\in\Omega}P(\{\omega\})X(\omega)\end{eqnarray}$$と定める。
上のトランプの確率空間$(\Omega,2^\Omega,P)$と確率変数$X_n,X_s,X_c,X_p$について、期待値は以下の通り。
$$\begin{eqnarray}
E(X_n)&=\dfrac{4}{52}(1+2+3+4+5+6+7+8+9+10+11+12+13)=7\\
E(X_s)&=\dfrac{13}{52}(1+2+3+4)=\dfrac{5}{2}\\
E(X_c)&=\dfrac{26}{52}(1+2)=\dfrac{3}{2}\\
E(X_p)&=\dfrac{24}{52}-\dfrac{28}{52}=-\frac{1}{13}\end{eqnarray}$$
$(\Omega,F,P)$を確率空間とする。$G\subset F$が部分加法族であるとは次を満たすこと。
$\emptyset\in G$
$A,B\in G$ならば$A\cup B\in G$
$A\in G$ならば$A^c=\Omega\setminus A\in G$
定義では$\cup, {}^c$のみを条件にしているが、実は$G$の要素に対して他の操作$\cap, \setminus$をしてもまた$G$に属することを示すことができる。
$G\subset F$が部分加法族であるとする。 このとき、
$\Omega\in G$
$A,B\in G$ならば$A\cap B\in G$
$A,B\in G$ならば$A\setminus B\in G$
証明は こちらの動画 をご覧ください。
つまり、$G$の要素に対して部分集合に対する操作(これは基本的な論理操作とも言える)を行ったときにまた$G$の要素になるというのが部分加法族の定義である。集合演算を代数的操作と見て、sub algebraともいう。
確率変数$X:\Omega\to\R$から$\sigma\{X\}$という部分加法族を次のようにして定める。
$(\Omega,F,P)$を確率空間、$X$を確率変数とする。 これに対し
$$\begin{eqnarray}
\sigma\{X\}=\{X^{-1}(A)\in F\vert A\in P(\R)\}\end{eqnarray}$$ と定める。
上で定めた$\sigma\{X\}\subset F$は部分加法族である。
これの証明は こちらの動画 をご覧ください。
上の例と同じくトランプの確率空間$(\Omega=S\times N, 2^\Omega,P)$を考える。
確率変数$X_p$に対して$\sigma\{X_p\}$は $$\begin{eqnarray} \sigma\{X_p\}=\{\emptyset, \{(s,n)\in \Omega\mid n\mbox{が偶数}\},\{(s,n)\in\Omega\mid n\mbox{が奇数}\}, \Omega\}\end{eqnarray}$$の$4$つの要素からなる集合。
確率変数$X_s$に対して$\sigma\{X_s\}$は要素が$16$からなる集合で、例えば
$$\begin{eqnarray}
\{(s,n)\in\Omega\mid s=\spadesuit\}&\in\sigma\{X_s\}\\
\{(s,n)\in\Omega\mid s=\heartsuit\mbox{または}\diamondsuit\}&\in\sigma\{X_s\}\\
\{(s,n)\in\Omega\mid s\neq\clubsuit\}&\in\sigma\{X_s\}\\\end{eqnarray}$$などを要素に持つ。
これは$X$が与える情報と見ることができる。このことをより理解しやすくするために、次に部分加法族の原子と分割という概念を導入する。
$G\subset F$を部分加法族とする。$A\in G$が$G$の原子であるとは、$A\neq\emptyset$であり、$B\subset A$ならば$B=A$または$B=\emptyset$であること。
自然数における素数の定義を思い出そう。$p$が素数であるとは、$p\neq1$であり、$x$が$p$を割り切るならば$x=p$または$x=1$であることである。これと似たような定義になっていることを確認しよう。
「原子」という言葉から想像できるように、これらが与えられた部分加法族の基本的な構成要素と言える。実際、部分加法族の他の要素は原子の和集合として表される。これは自然数が素数の積で表されるのと同様。
前の例と同様にトランプの確率空間$(\Omega=S\times N, 2^\Omega,P)$と、確率変数$X_n, X_p, X_s, X_c$を考える。
$\sigma\{X_n\}$の原子は次の$13$個の集合。 $$\begin{eqnarray} \{(s,1)\mid s\in S\},\ldots, \{(s,13)\mid s\in S\}\end{eqnarray}$$
$\sigma\{X_p\}$の原子は次の$2$個の集合。 $$\begin{eqnarray} \{(s,n)\mid s\in S, n\mbox{は偶数}\},\{(s,n)\mid s\in S, n\mbox{は奇数}\}\end{eqnarray}$$
$\sigma\{X_s\}$の原子は次の$4$個の集合。 $$\begin{eqnarray} \{(\heartsuit,n)\mid n\in N\},\{(\spadesuit,13)\mid n\in N\},\{(\diamondsuit,n)\mid n\in N\},\{(\clubsuit,13)\mid n\in N\}\end{eqnarray}$$
$\sigma\{X_c\}$の原子は次の$2$個の集合。 $$\begin{eqnarray} \{(s,n)\mid s=\heartsuit,\diamondsuit, n\in N\},\{(s,n)\mid s=\spadesuit,\clubsuit,n\in N\}\end{eqnarray}$$
確率変数$X:\Omega\to\R$に対して、$\sigma\{X\}$の原子はある$x\in \R$に対して$X^{-1}(x)$であって$\emptyset$でないものである。
集合$\Omega$の分割とは$F$の部分集合$\{B_1,\ldots,B_n\}$で
$i\neq j$ならば$B_i\cap B_j$
$\bigcup_{i=1}^nB_i=\Omega$
を満たすもの。
分割と部分加法族には次のような関係がある。
部分加法族$G\subset F$に対し、その原子を集めると$\Omega$の分割を与える。
逆に$\Omega$の分割から部分加法族を定める。
これらは互いに逆の対応になっている。
これについては こちらの動画 をご覧ください。
つまり$\Omega$が有限であれば、分割を与えることと部分加法族を与えることは等価。分割という概念の方がイメージはつきやすいが、部分加法族という概念の方が数学的な記述はスッキリする。例えば、$G_1, G_2$という二つの部分加法族があったとき、$G_1\subset G_2$であることで$G_2$の方がより豊富な情報を持つことを記述できる。分割で述べるのであれば$G_2$で定まる分割の方が細かいということになるが、数学的にこれを述べるのはやや面倒。このあたりの事情は こちらの動画 をご覧ください。
改めて$\sigma\{X\}$が情報であるということについて考える。これの原子は$X^{-1}(x)$であって$\emptyset$でないもの全体である。$X$の値を知ることで$\Omega$がどう分割できるかを捉えている。逆に、$\Omega$を分割するとそれに対応する確率変数を定めることもできる。
$(X,P,F)$を確率空間、$X$を確率変数、$G$を部分加法族とする。$X$が$G$可測であるとは、$\sigma\{X\}\subset G$であること。
言い換えると$X^{-1}(A)\in G$であること。
今は$\Omega$が有限集合であるから、$X$が$G$可測であることは$\sigma\{X\}$の原子について$X^{-1}(x)\in G$としても同値である。
つまり、$X$により定まる分割が$G$により定まる分割より粗いということ。言い換えれば、$G$で与えられた情報は$X$の様子を全て捕まえているということになる。
確率変数$X$が$G$可測であるとする。
このとき、$G$の原子において$X$は定数である。
$B$を$G$の原子とする。$X$の値が$B$の要素に対して$2$つ以上定まると仮定し$x_1, x_2$をそのような値とする。
つまり$X^{-1}(x_1)\cap B\neq\emptyset, X^{-1}(x_2)\cap B\neq\emptyset$であるとする。
これらはいずれも$B$とは一致しない。 このとき、$X$が$G$可測であるから$X^{-1}(x_1), X^{-1}(x_2)\in G$である。
さらに$B\in G$であることと$G$が部分加法族であることから、$X^{-1}(x_1)\cap B\in G, \emptyset\neq X^{-1}(x_1)\cap B\subset B$であり$X^{-1}\cap B\neq B$であるから$B$が原子であることに矛盾する。
よって$X$の値は$B$の上でただ一つである。
前の例と同様にトランプの確率空間$(\Omega=S\times N, 2^\Omega,P)$と、確率変数$X_n, X_p, X_s, X_c$を考える。
$X_p$は$\sigma\{X_n\}$可測である。
実際、$\sigma{X_p}$の原子は前に見たように $$\begin{eqnarray}
{(s,n)\mid s\in S, n\mbox{は偶数}},{(s,n)\mid s\in S, n\mbox{は奇数}}\end{eqnarray}$$であるが、例えば $$\begin{eqnarray}
{(s,n)\mid s\in S, n\mbox{は偶数}}
=\bigcup_{n\in N,n\mbox{は偶数}}{(s,n)\mid s\in S}\in\sigma{X_n}\end{eqnarray}$$である。
$X_c$は$\sigma\{X_s\}$可測である。 例えば $$\begin{eqnarray} \{(s,n)\mid s=\heartsuit,\diamondsuit, n\in N\}= \{(\heartsuit,n)\mid n\in N\}\cup\{(\diamondsuit,n)\mid n\in N\} \in\sigma\{X_s\}\end{eqnarray}$$ である。
$X_p$は$\sigma\{X_s\}$可測ではない。
もしそうなら$X_p$は$\sigma{X_s}$の各原子において定数となるが、例えば${(\heartsuit,n)\mid n\in N}$において$X_p$は$1, -1$両方の値をとる。
$X_c$は$\sigma\{X_n\}$可測ではない。
もしそうなら$X_c$は$\sigma{X_n}$の各原子において定数となるが、例えば${(s,1)\mid s\in S}$において$X_c$は$1, 2$両方の値をとる。
$(\Omega,F,P)$を確率空間とする。 $n\geq2$とする。$A_1,\ldots,A_n$をそれぞれ部分加法族、$X_1,\ldots,X_n$をそれぞれ確率変数とする。
$A_1,\ldots,A_n$が独立であるとは、任意の$B_1\in A_1,\ldots,B_n\in A_n$に対して
$$\begin{eqnarray}
P(B_1\cap\cdots\cap B_n)=P(B_1)\times\cdots\times P(B_n)\end{eqnarray}$$が成り立つこと。
$X_1,\ldots,X_n$が独立であるとは、$\sigma\{X_1\},\ldots,\sigma\{X_n\}$が独立なこと。
前の例と同様にトランプの確率空間$(\Omega=S\times N, 2^\Omega,P)$と、確率変数$X_n, X_p, X_s, X_c$を考える。
$X_s, X_n$は独立である。 例えば $$\begin{eqnarray} P(X_s^{-1}(1)\cap X_n^{-1}(1))&=\frac{1}{52}\\ P(X_s^{-1}(1))\times P(X_n^{-1}(1))&=\frac{13}{52}\times\frac{4}{52}=\frac{1}{52}\\\end{eqnarray}$$であり、他も同様である。
$X_s, X_c$は独立でない。 例えば $$\begin{eqnarray} P(X_s^{-1}(1)\cap X_c^{-1}(1))&=\frac{13}{52}\\ P(X_s^{-1}(1))\times P(X_c^{-1}(1))&=\frac{13}{52}\times\frac{26}{52}\\\end{eqnarray}$$である。
$(\Omega,F,P)$を確率空間、$X, Y$を確率変数とする。 $X,Y$が独立ならば
$$\begin{eqnarray}
E[XY]=E[X]E[Y]\end{eqnarray}$$ である。
より一般に、$X_1,\ldots,X_{n+m}$が独立な確率変数とし、$f:\R^n\to\R, g:\R^m\to\R$とする。 このとき $$\begin{eqnarray} E[f(X_1,\ldots,X_n)g(X_{n+1},\ldots,X_{n+m})]= E[f(X_1,\ldots,X_n)]E[g(X_{n+1},\ldots,X_{n+m})]\end{eqnarray}$$ である。
証明は こちらの動画 をご覧ください。