確率空間 $(\Omega,\mathcal F,\mathbb P)$ において、事象 $A,B\in\mathcal F$ をとる。
$\mathbb P(A)>0$ のとき、$A$ を条件とする $B$ の条件付き確率 $\mathbb P(B\mid A)$ を
$$
\mathbb P(B\mid A):=\frac{\mathbb P(A\cap B)}{\mathbb P(A)}
$$
で定める。
$A,B\in\mathcal F$ であり、$\mathcal F$ は有限回の共通部分について閉じているので、
$$
A\cap B\in\mathcal F
$$
である。
したがって、$\mathbb P(A\cap B)$ は定義されている。
$\mathbb P(A)=0$ のとき、上の式の分母が $0$ になるので、この式によっては $\mathbb P(B\mid A)$ は定義されない。
$\mathbb P(A)>0$ のもとで、条件付き確率の定義より
$$
\mathbb P(A\cap B)=\mathbb P(A)\,\mathbb P(B\mid A)
$$
が成り立つ。
確率空間 $(\Omega,\mathcal F,\mathbb P)$ において、$A,B,C\in\mathcal F$ とする。
さらに
$$
\mathbb P(B\cap C)>0
$$
と仮定する。このとき
$$
\mathbb P(A\cap B\cap C)
=
\mathbb P(A\mid B\cap C)\,\mathbb P(B\mid C)\,\mathbb P(C)
$$
が成り立つ。
$A,B,C\in\mathcal F$ とする。
$\mathcal F$ は有限回の共通部分について閉じているので、
$$
B\cap C\in\mathcal F,\qquad A\cap B\cap C\in\mathcal F
$$
である。
また、
$$
B\cap C\subseteq C
$$
であるから、確率測度の単調性より、
$$
\mathbb P(B\cap C)\le \mathbb P(C)
$$
である。
仮定より
$$
\mathbb P(B\cap C)>0
$$
であるから、
$$
0<\mathbb P(B\cap C)\le \mathbb P(C)
$$
である。したがって、
$$
\mathbb P(C)>0
$$
である。
よって、条件付き確率の定義により、
$$
\mathbb P(A\mid B\cap C)
=
\frac{\mathbb P(A\cap(B\cap C))}{\mathbb P(B\cap C)}
=
\frac{\mathbb P(A\cap B\cap C)}{\mathbb P(B\cap C)}
$$
であり、また、
$$
\mathbb P(B\mid C)
=
\frac{\mathbb P(B\cap C)}{\mathbb P(C)}
$$
である。
したがって、
$$
\begin{aligned}
\mathbb P(A\mid B\cap C)\,\mathbb P(B\mid C)\,\mathbb P(C)
&=
\frac{\mathbb P(A\cap B\cap C)}{\mathbb P(B\cap C)}
\cdot
\frac{\mathbb P(B\cap C)}{\mathbb P(C)}
\cdot
\mathbb P(C)\\
&=
\mathbb P(A\cap B\cap C)
\end{aligned}
$$
である。
ゆえに、
$$
\mathbb P(A\cap B\cap C)
=
\mathbb P(A\mid B\cap C)\,\mathbb P(B\mid C)\,\mathbb P(C)
$$
が成り立つ。
$$ \Box$$
確率空間 $(\Omega,\mathcal F,\mathbb P)$ において、$A,B\in\mathcal F$ とする。また、$\mathbb P(A)>0$ かつ $\mathbb P(B)>0$ を仮定する。
このとき
$$
\mathbb P(A\mid B)=\frac{\mathbb P(B\mid A)\,\mathbb P(A)}{\mathbb P(B)}
$$
が成り立つ。
$A,B\in\mathcal F$ とする。
$\mathcal F$ は有限回の共通部分について閉じているので、
$$
A\cap B\in\mathcal F
$$
である。
また、仮定より
$$
\mathbb P(A)>0,\qquad \mathbb P(B)>0
$$
である。
したがって、条件付き確率の定義より、
$$
\mathbb P(A\mid B)=\frac{\mathbb P(A\cap B)}{\mathbb P(B)}
$$
かつ
$$
\mathbb P(B\mid A)=\frac{\mathbb P(B\cap A)}{\mathbb P(A)}
$$
である。
ここで、集合の共通部分は可換であるから、
$$
B\cap A=A\cap B
$$
である。したがって、
$$
\mathbb P(B\mid A)=\frac{\mathbb P(A\cap B)}{\mathbb P(A)}
$$
である。
両辺に $\mathbb P(A)$ を掛けると、
$$
\mathbb P(B\mid A)\,\mathbb P(A)=\mathbb P(A\cap B)
$$
を得る。
これを
$$
\mathbb P(A\mid B)=\frac{\mathbb P(A\cap B)}{\mathbb P(B)}
$$
に代入すると、
$$
\begin{aligned}
\mathbb P(A\mid B)
&=
\frac{\mathbb P(A\cap B)}{\mathbb P(B)}\\
&=
\frac{\mathbb P(B\mid A)\,\mathbb P(A)}{\mathbb P(B)}
\end{aligned}
$$
である。
以上より、
$$
\mathbb P(A\mid B)=\frac{\mathbb P(B\mid A)\,\mathbb P(A)}{\mathbb P(B)}
$$
が成り立つ。
$$ \Box$$
確率空間 $(\Omega,\mathcal F,\mathbb P)$ において、$A,B_1,\dots,B_n\in\mathcal F$ とする。
$B_1,\dots,B_n$ は互いに排反であり、
$$
\bigcup_{i=1}^n B_i=\Omega
$$
を満たすとする。さらに、すべての $i\in\{1,\dots,n\}$ について
$$
\mathbb P(B_i)>0
$$
を仮定する。このとき、
$$
\mathbb P(A)=\sum_{i=1}^n \mathbb P(A\mid B_i)\,\mathbb P(B_i)
$$
が成り立つ。
$\bigcup_{i=1}^n B_i=\Omega$ より、
$$
\begin{aligned}
A
&=A\cap\Omega\\
&=A\cap\left(\bigcup_{i=1}^n B_i\right)\\
&=\bigcup_{i=1}^n(A\cap B_i)
\end{aligned}
$$
である。
ここで、$B_1,\dots,B_n$ は互いに排反であるから、$A\cap B_1,\dots,A\cap B_n$ も互いに排反である。
実際、$i,j\in\{1,\dots,n\}$ かつ $i\neq j$ とする。このとき、
$$
\begin{aligned}
(A\cap B_i)\cap(A\cap B_j)
&=A\cap A\cap B_i\cap B_j\\
&=A\cap(B_i\cap B_j)\\
&=A\cap\varnothing\\
&=\varnothing
\end{aligned}
$$
である。
したがって、有限加法性より、
$$
\begin{aligned}
\mathbb P(A)
&=
\mathbb P\left(\bigcup_{i=1}^n(A\cap B_i)\right)\\
&=
\sum_{i=1}^n \mathbb P(A\cap B_i)
\end{aligned}
$$
が成り立つ。
一方、各 $i\in\{1,\dots,n\}$ について $\mathbb P(B_i)>0$ であるから、条件付き確率の定義より、
$$
\mathbb P(A\mid B_i)=\frac{\mathbb P(A\cap B_i)}{\mathbb P(B_i)}
$$
である。したがって、
$$
\mathbb P(A\cap B_i)=\mathbb P(A\mid B_i)\,\mathbb P(B_i)
$$
が成り立つ。
これを代入して、
$$
\mathbb P(A)
=
\sum_{i=1}^n \mathbb P(A\mid B_i)\,\mathbb P(B_i)
$$
を得る。
$$ \Box$$
$A_1,\dots,A_n\in\mathcal F$ が互いに排反であり、
$$
\bigcup_{i=1}^n A_i=\Omega
$$
を満たすとする。さらに、各 $i\in\{1,\dots,n\}$ について $\mathbb P(A_i)>0$ とし、また $\mathbb P(B)>0$ とする。
このとき、ベイズの定理より、
$$
\mathbb P(A_k\mid B)=\frac{\mathbb P(B\mid A_k)\,\mathbb P(A_k)}{\mathbb P(B)}
$$
が成り立つ。
一方、全確率の公式を事象 $B$ と分割 $A_1,\dots,A_n$ に適用すると、
$$
\mathbb P(B)=\sum_{i=1}^n \mathbb P(B\mid A_i)\,\mathbb P(A_i)
$$
を得る。
したがって、この式を分母 $\mathbb P(B)$ に代入すれば、
$$
\mathbb P(A_k\mid B)
=
\frac{\mathbb P(B\mid A_k)\,\mathbb P(A_k)}
{\sum_{i=1}^n \mathbb P(B\mid A_i)\,\mathbb P(A_i)}
$$
となる。
すなわち、これはベイズの定理の分母 $\mathbb P(B)$ を、全確率の公式によって書き換えた形である。