$\displaystyle (\Omega,\mathcal{F},P)$ を確率空間とし、非負の確率変数 $X$(すなわち、どの結果についても $X \ge 0$ となるもの)で、
期待値 $\mathbb{E}[X]$ が有限であるとする。このとき、任意の $a>0$ に対して、
$$
P\bigl(\{\omega\in\Omega : X(\omega)\ge a\}\bigr) \le \frac{\mathbb{E}[X]}{a}\,
$$
が成り立つ。
任意の $ a > 0 $ に対し、事象
$$
A = \{\omega \in \Omega : X(\omega) \ge a\}
$$
を考える。
$X:\Omega\to\mathbb R$が確率変数であるとは、任意のボレル集合$B\in\mathcal B(\mathbb R)$に対して
$$
X^{-1}(B)\in\mathcal F
$$
が成り立つことをいう。いま$a>0$を固定し、事象
$$
A=\{\omega\in\Omega:X(\omega)\ge a\}
$$
を考える。ここで
$$
A=\{\omega\in\Omega:X(\omega)\in[a,\infty)\}
$$
であるから
$$
A=X^{-1}([a,\infty))
$$
と書ける。
$ $
区間$[a,\infty)$は閉集合であるから$\mathbb R$のボレル集合であり、すなわち
$$
[a,\infty)\in\mathcal B(\mathbb R)
$$
が成り立つ。従って確率変数の定義より
$$
A=X^{-1}([a,\infty))\in\mathcal F
$$
が従う。
$ $
以上より$A$は事象であり、(以下の)指示関数$1_A$は可測関数として定義される。従って$P(A)$および$\mathbb E[1_A]$は意味を持つ。
その指示関数を
$$
1_A(\omega) =
\begin{cases}
1, & \text{if } \omega \in A, \\
0, & \text{if } \omega \notin A
\end{cases}
$$
と定義する。仮定より、$ X $ は非負であるため、任意の $\omega\in\Omega$ に対して
$$
X(\omega) \ge a \cdot 1_A(\omega)
$$
が成立する。
仮定より、$\mathbb E[X]<\infty$なので$X$は可積分であり、また$0\le 1_A\le 1$より$1_A$も可積分で、
$a1_A$も可積分。したがって上記の不等式 $ X \ge a\cdot 1_A $ に対して期待値を取ると、
$$
\mathbb{E}[X] \ge \mathbb{E}[a\,1_A] = a\,\mathbb{E}[1_A]\cdots①
$$
ここで、$\mathbb{E}[1_A]$ は$1_A$の定義より、指示関数 $1_A$ は$A$ 上で $1$ で、$A^c$ 上で $0$ となるので、
$$
\mathbb{E}[1_A]
=\int_\Omega 1_A(\omega)\,dP(\omega)
=\int_A 1\,dP(\omega)+\int_{A^c} 0\,dP(\omega)
=P(A)+0
=P(A)
$$
したがって $\mathbb{E}[1_A]=P(A)$ が成り立つ。また、事象 $A$ を
$$
A=\{\omega\in\Omega: X(\omega)\ge a\}
$$
と定義しているから、これは「$X\ge a$ が起こる事象」そのものである。したがって
$$
P(A)=P(\{\omega: X(\omega)\ge a\})=P(X\ge a)
$$
となる。よって、式①は
$$
\mathbb{E}[X] \ge a\,P(X\ge a)
$$
上記の不等式を $P(X\ge a)$ について解くと
$$
P(X\ge a) \le \frac{\mathbb{E}[X]}{a}
$$
が得られる。以上より、任意の $a > 0$ に対して
$$
P\bigl(\{\omega\in\Omega : X(\omega)\ge a\}\bigr) \le \frac{\mathbb{E}[X]}{a}
$$
が成り立つ。
$$ \Box $$
確率変数 $X$ が有限な期待値 $\mu := \mathbb{E}[X]$ と有限な分散 $\sigma^2 := \mathrm{Var}(X)=\mathbb{E}[(X-\mu)^2]$ をもつとする。
このとき任意の $a>0$ に対して
$$
\mathbb{P}\{\,|X-\mu|\ge a\,\}\le \frac{\sigma^2}{a^2}
$$
が成り立つ。
特に $a=k\sigma$($k>0$)とおけば
$$
\mathbb{P}\{\,|X-\mu|\ge k\sigma\,\}\le \frac{1}{k^2}
$$
が成り立つ。
$ a>0 $ を任意に固定する。ここで
$$
Y := (X-\mu)^2
$$
とおく。
$X$が確率変数なら、$\omega\mapsto X(\omega)-\mu$やその二乗も可測なので、$Y$も確率変数となる。
すると任意の $\omega\in\Omega$ について平方は常に非負なので
$$
Y(\omega)=(X(\omega)-\mu)^2\ge 0
$$
が成り立ち、よって $Y$ は非負の確率変数である。また分散の定義より
$$
\mathbb{E}[Y]
=\mathbb{E}[(X-\mu)^2]
=\mathrm{Var}(X)
=\sigma^2
$$
である。仮定より、$\sigma^2=\mathbb E[(X-\mu)^2]<\infty$なので、$Y$は非負で可積分である。よってマルコフの不等式を$Y$に適用できる。
すなわち、非負確率変数 $Y$ と任意の $c>0$ に対して
$$
\mathbb{P}(Y\ge c)\le \frac{\mathbb{E}[Y]}{c}
$$
が成り立つ。
これ(マルコフの不等式)を $c=a^2$ に対して適用すると($a>0$ より $a^2>0$)、
$$
\mathbb{P}\{Y\ge a^2\}
\le \frac{\mathbb{E}[Y]}{a^2}
=\frac{\sigma^2}{a^2}
$$
を得る。ここで $Y=(X-\mu)^2$ であったから
$$
\mathbb{P}\{(X-\mu)^2\ge a^2\}\le \frac{\sigma^2}{a^2}
$$
となる。最後に、$a>0$ のもとで次の事象は一致することを確認する。
$$
\{\,|X-\mu|\ge a\,\}=\{\,(X-\mu)^2\ge a^2\,\}
$$
実際、任意の実数 $r$ と $a>0$ について
-これを $r=X(\omega)-\mu$ に適用すれば上の事象の一致が従う。
よって
$$
\mathbb{P}\{\,|X-\mu|\ge a\,\}
=\mathbb{P}\{(X-\mu)^2\ge a^2\}
\le \frac{\sigma^2}{a^2}
$$
が得られ、チェビシェフの不等式が示された。
$$ \Box$$