皆さんこんにちは.残暑が猛威を振るっておりますが,如何お過ごしでしょうか.私は夏期講習が終わって統計を学習しておりました.さて,夏と言えば色々なものがございますが,その中からサマージャンボ宝くじを思い浮かべる方も多いでしょう.そして,このブログを見るような皆さんは宝くじに関して,「宝くじは期待値を計算すれば損をしていることは明白だ.よって損得で見るのであれば宝くじを買うべきではない.」というようなことを聞いたことはないでしょうか.かくいう筆者も高校時代に塾で期待値を求めさせられて「これが数学の応用というものか」と思ったものです.しかし,統計をしっかり学習し計算をしてみれば実はこれはほとんど誤った主張であって,私たちが宝くじを購入する際には,別に期待値を意識することはありません.本稿は,数学(統計学?)界でトップレベルに勘違いされている,「宝くじは期待値で見れば損をする」について正しい説明を行う記事です.前提知識は期待値と分散の定義及びその感覚とします.本稿ではそれらの定義を与えないため,知らない方は統計学の成書(数学Bの教科書で構いません)を座右に置きながらご覧になってください.
まず本題に入る前に,簡単な例で期待値は恒にはあてにならないという感覚を皆さんに与えましょう.そのために以下のようなゲームを考えます.本節では数学的になぜこれで期待値が当てにならないかについて,深く追及することはしません.なのであまりじっくり考えず「まぁ確かにそうだな」くらいの気持ちで読んでください.状況も摩訶不思議ですから.
$0.0000001$%の確率で1000億円,
$99.9999999$%の確率で0円をもらえるゲームがある.
これの期待値は10000円だが,1000円を払ってこのゲームに参加するか?
極端な例ですが,このようなゲームを考えた際,ほとんどの人はお金を払ってまで参加しないと思います.何故か,それはまさに皆さんの直観が当たっていて,いくら期待値が1万円だといっても,ほんの数十回数百回やったくらいじゃ当たる見込みが全くなさそうだからです.
もしかすれば皆さんはお気づきかもしれませんが,これは極端な宝くじのようなもので,完ぺきにとは言えませんが,ある程度宝くじも今のような理由で期待値の当てにならなさが説明されます.ここまで納得していただけたら,本記事を最後まで読むべきかと思います.今の感覚を持ったまま,次の数学的な定式化をご覧ください.
それでは前座はこの程度にして.本節ではいよいよ,タイトルの通り今年のサマージャンボ宝くじを題材にして,数学的に宝くじにおける期待値の信頼性について説明していきたいと思います.
私は本稿に出てくる計算を,すべてGeoGebraのみで実行するつもりです.そのためもしかしたら打ち間違えにより数個所で計算ミスがあるかもしれませんが,理論の大筋には影響しないため,大目に見てください.
先ず,説明に用いる重要な定理を二つほど紹介しておきます.証明は与えません.
確率変数$X$に対し,平均$\mu = E[X],$分散$\sigma^2 = \textrm{Var[X]}$がそれぞれ存在するとき,任意の$k$に対し,次の不等式が成立する.
\begin{equation}
P(|X-\mu| \ge k)\leq \dfrac{\sigma^2}{k^2}
\end{equation}
$X_1,X_2,..., i.i.d. \sim (\mu, \sigma^2) $とし,$\sigma^2 = \textrm{Var[X]} \lt \infty $とする.このとき,$\bar{X}$は$\mu$に確率収束する.
ここに,確率収束するとは以下のことを指す.
確率変数の列$\lbrace U_n \rbrace _{n \in \mathbb{N}}$がある確率変数$U$に確率収束するとは,任意の $\varepsilon \in \mathbb{R}^{+}$ に対し,
\begin{equation}
\lim_{n \to \infty}P(\lvert U_n - U \rvert \ge \varepsilon) = 0
\end{equation}
が成立すること.記号は$U_n \to_P U$.
それでは今回の話題における準備①が整いました.次に,2025年サマージャンボの期待値及び分散を求めていきましょう.
雑談
恥ずかしながら私はこの記事を書くまで宝くじのユニットについて知りませんでした.なんで全部の賞について23の倍数本なんだろうと思って計算していたらおかしいことになっていたので確認したらそうでした.
公式ってありますが,公式じゃありません.目立つ囲み枠が欲しかっただけです.ともかく求めていきましょう.
2025年度のサマージャンボの期待値,2乗モーメント,分散をそれぞれ$\textrm{E}[X],\textrm{E}[X^2],\textrm{Var}[X]$とすれば,
$\textrm{E}[X] = \dfrac{1}{10000000}(500000000\cross 1 + 100000000\cross 2+ 100000\cross99 + 1000000\cross100 + 10000\cross 100+ 30000 \cross 100000 + 300 \cross 10000000)$
$= \dfrac{15099}{100}
\simeq 151$
$\textrm{E}[X^2] = \dfrac{1}{10000000}(500000000 ^2\cross 1 + 100000000^2\cross 2+ 100000^2\cross99 + 1000000^2\cross100 + 10000^2\cross 100+ 30000^2 \cross 100000 + 300^2 \cross 10000000)$ $= 27010298000 $
$ \textrm{Var}[X] =\textrm{E}[X^2] - (\textrm{E}[X])^2 = 27010275199$
よって期待値は(約)151円,分散が27010275199円(約270億円)となりますね.因みに,分散がとんでもないことになっていますが,これの平方根をとればだいたい標準偏差が16万円程度に落ち着くので,そこまで感覚的に変でもありません.
ということで,これにてすべての準備が整いましたので,準備①について多少の補足をしたのち,本格的に論じていきましょう.
いま,この$k$というのは許容できるズレの指標です.つまり,今回は宝くじで当たった額と期待値151円が$k$円以上ずれる確率が主張の不等式の如く抑えられることを示唆しています.また,Chebyshev不等式を用いれば,$P(|X-\mu| \ge k)\leq \dfrac{\textrm{E}[(X - \mu)^2]}{k^2} = \dfrac{\sigma^2}{nk^2}$であります.
これを用いることによって,両辺$n \to \infty $とすれば大数の弱法則が示され,大量の試行に対してはいずれ期待値へ確率収束していくことがわかります.つまり,先ほどの例での感覚である「少ない回数では当たらない」は,逆説的には「大量に行えば期待値を参考にしてもよい」ということだったのです.ですが,今回の宝くじで具体的にChebyshev不等式を利用してみれば,例えば誤差を150円にした際(つまり$k = 150$円のとき)は
(右辺)は$\dfrac{270000000}{150^2n} \simeq \dfrac{1200000}{n}$となりますよね.
つまり,期待値からのズレが上下150円に五分五分で収まるには240万枚程度購入しなくてはなりません.こんなもの参考になりませんよね.逆に,式からも感覚的にもわかるかと思いますが,もし枚数をそこまで多く買いたくないのなら,期待値からのズレをある程度犠牲しなくてはなりません.もし50枚くらいで済ませたいのであれば,4万6千円程度のズレを覚悟しなくてはなりません.これもまた参考になることはありません.
以上を総括しましょう.
結論として,宝くじは皆さん個人が購入する程度では期待値なんてものはまったくもって参考にならない.それは,大数の弱法則から説明ができて,分散が大きすぎる者に対してはあまり参考にできない.やはり,宝くじは夢を見るくらいに留めておいたほうがいいと,「数学的に」説明できる.(なので,恐らくパチンコ程度なら期待値を信用してもいいと思いますが,筆者はパチンコをやったことがないのであまりわかりません.)
因みに,この世には宝くじシミュレータというものがありまして,検索して30分程度でも計算しながら試してみると驚くほど現実が映し出されますよ.私は運悪く初手の500回で3等を当ててしまったためちょっとブレてしまいましたが.
ということで,今回はかなりお話しベースでしたが,皆さんの期待値の誤解を少しでも解けたなら本稿の目的は十分に達されたと思います.お読みいただきありがとうございました.最後に参考程度の表を載せておきます.気になる方はどうぞ.
【追記】
年末ジャンボ宝くじを購入しました。
3枚購入し、300円当たったので平均は100円でした。私は期待値周辺になってしまいました。
| 許容誤差(±) | 五分五分になるまでの回数 |
|---|---|
| 500円 | 21万6千回 |
| 1000円 | 5万4千回 |
| 1500円 | 2万4千回 |
| 2000円 | 1万5千回 |
| 2500円 | 8640回 |
| 3000円 | 6千回 |
| 3500円 | 4400回 |
| 4000円 | 3375回 |
| 4500円 | 2666回 |
| 5000円 | 2060回 |