文献あり

標本サイズがどれくらい大きければ、中心極限定理は適用できるのか？（Berry-Esseenの定理）

444

2024/11/18　追記

下記ポストにおいて、本記事に対する指摘を頂きましたので、こちらもご覧ください。
またこれに伴って、記事の記載を全面的に見直しました。
ご指摘感謝いたします。この場を借りてお礼を申し上げます。
https://x.com/genkuroki/status/1858375336125423768

はじめに

　よく書籍には「十分に大きな$n$であれば、中心極限定理を適用できる」といった文句が書かれている。しかし、十分に大きな$n$は具体的にどれくらいの値なのかを記載している文献は皆無である。文献によっては「一般に10～20くらいならよい近似を与える」とか「30もあれば十分」と記載されている場合もあるが、その根拠は示されていないケースが大半である。

　本記事では、中心極限定理の適用条件について厳密に考えてみることにする。ただ、初めに断っておくと、本記事で解説するのは、一つの考え方にすぎない。実際、どれくらいの大きさの$n$なら中心極限定理を適用してよいか、というのは人によって様々な考えがあると思われる。もし、他の考え方があれば、ぜひ私に教えて欲しい。

本記事で取り扱う中心極限定理

参考までに、本記事で取り扱う中心極限定理を掲示する。

中心極限定理

$X_1,X_2,X_3\cdots ,X_n$を独立同一分布な確率変数とし、期待値を$E[X]=\mu$、分散を$V[X]=\sigma^2$とする。このとき、$Z_n$を

$$ Z_n \coloneqq \frac{1}{\sigma \sqrt{n}}\sum_{j=1}^{n}(X_j-\mu) $$

と定義する。すると、次式が成り立つ。ここで、$\phi(x)$は標準正規分布の累積分布関数である。
$$ \lim_{n\rightarrow\infty}P(Z_n\le x) = \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-y^2/2}dy=\phi(x) $$
これを、中心極限定理（central limit theorem：CLT）という。

Berry-Esseenの定理

　一般の書籍において紹介されている中心極限定理は、$n\rightarrow \infty$の場合のみを記したものであるが、実は$n$が有限の場合（$n$が十分大きくない場合）においても成立する定理が存在する。これをBerry-Esseenの定理（Berry-Esseen theorem）もしくはBerry-Esseen不等式（Berry-Esseen inequality）という。

Berry-Esseenの定理

　$X_1,X_2,X_3\cdots ,X_n$を独立同一分布な確率変数とし、期待値を$E[X]=\mu$、分散を$V[X]=\sigma^2$とする。また、$\beta=E[|X -\mu|^3]/\sigma^3$とする。このとき、$Z_n$を

$$ Z_n \coloneqq \frac{1}{\sigma \sqrt{n}}\sum_{j=1}^{n}(X_j-\mu) $$

と定義し、さらに$Z_n$の累積分布関数を$F_n(x)$、標準正規分布の累積分布関数を$\phi(x)$とすると

$$ \sup_{x}|F_n(x)-\phi(x)|\le \frac{C \beta}{\sqrt{n}} $$

が成り立つ。上記の定理をBerry-Esseenの定理という。ただし、$C$は定数であり、$1/\sqrt{2\pi}\le C < 0.8$である。

Berry-Esseenの定理は、文献によって表記方法にかなり揺らぎがある（本質的にはどれも似たようなことを言っている）。他文献も併せて読まれる方は、その点十分に留意して頂きたい。

$\beta$は歪度ではない。歪度の定義は$E[(X -\mu)^3]/\sigma^3$である。

$C$の値は、母集団の分布によって変動し、どのような場合にも適用できる$C$の値は存在しないようである（このあたりについて明確に語られている文献が見つけられなかった）。$C$の上限の値については、少しでも小さくすべく様々な試みが行われており、文献により異なる。Berry-Esseenの定理は、中心極限定理における近似の誤差を厳密に与えるものではなく、あくまでも大まかな傾向を示すものにすぎない。

　さらに注意が必要なのは、累積分布関数の差の上限についてしか述べていないという点である。例えば、任意の値$x=b$を取ったとして、その値における$|F_n(b)-\phi(b)|$の値が、$C\beta /\sqrt{n}$よりも大きくはならないとはBerry-Esseenの定理から間違いなく言えるが、実際の誤差はそれよりも小さくなる。Berry-Esseenの定理を用いて標本サイズの見積もりをすると、実際に必要な標本サイズよりもかなり多めに見積もってしまう可能性がある。その点については、よく留意しなければならない。
　以上の性質上、Berry-Esseenの定理を使用した、中心極限定理を適用可能な標本サイズの見積もりは困難だと考えられる。既に述べたように、あくまでもBerry-Esseenの定理は、中心極限定理の収束における、一つの大雑把な指標に過ぎない。
　Berry-Esseenの定理を使って求められるのは「どれだけ最悪なケースでも、これくらい標本サイズを用意すれば、さすがに問題ないと思うよ？」という値である。そのため、実際には100程度で十分であるケースでも、Berry-Esseenの定理から1000,10000必要だと導かれる可能性は全く否定できない。標本サイズの見積もりは困難だ、というのはそういう意味である。

　左辺は、コルモゴロフ-スミルノフ検定で登場する検定統計量と同じである。Berry-Esseenの定理は、中心極限定理によって近似した標準正規分布が、実際の標本平均の累積分布にどれくらい近いかを定量的に表している定理といえる。

　$Z_n$は、下記に示すように、標本平均を使って表すことも出来る。どちらで計算しても、値は同じである。分かりやすい形式の方で考えれば良いだろう。

\begin{align*} Z_n&=\frac{1}{\sigma \sqrt{n}}\sum_{j=1}^{n}(X_j-\mu)\\ &=\frac{ \sqrt{n}}{\sigma}\cdot \frac{1}{n}\sum_{j=1}^{n}(X_j-\mu)\\ &=\frac{ \sqrt{n}}{\sigma}\left(\frac{1}{n}\sum_{j=1}^{n}X_j-\mu\right )\\ &=\frac{ \sqrt{n}}{\sigma}\left(\bar{X}-\mu\right )\\ \end{align*}

中心極限定理を適用するには、どれくらいの標本サイズが必要なのか？

　Berry-Esseenの定理から次のことが言える。

「母集団の分布」と「中心極限定理の近似精度をどれくらい求めるか」によって異なり、一概には言えない。

　よく「$n$が○○以上であれば、中心極限定理を適用可能」という説明が見られる。しかし、実際には、母集団分布を決めない限り、中心極限定理を適用可能な$n$について論ずることは不可能である。

　「$n$が○○以上であれば、中心極限定理を適用可能」という説明は、誤りとまでは言わないが、誤解を生みかねない解説である。

　統計学の専門書に「具体的にどれくらいの$n$であれば○○という定理が適用できるのか」といった類の説明が一般にあまりなされていないのは、統一的な理論が存在せず、実際に適用可能かどうかは、その都度判断しなくてはならないから、といった事情があると推察できる。丁寧に説明しようと思うと、多くの紙面を占有してしまい面倒なので、割愛されるケースが多いのだろう。

　中心極限定理に限った話ではないが、定理を適用する場合は、定理の適用条件についてよく考えなくてはならない。試験問題では問題文に「○○という定理を適用できる」と記載されている場合が多いが、現実世界ではそうはいかない。特に近似を行う際は、近似によって生ずる誤差について、検討しておかなければ、致命的な誤りを生む可能性がある。

おまけ１

　中心極限定理を適用可能な標本サイズを求める手法として、次の二つが考えられる。

標本平均（$Z_n$）のEdgeworth展開を考え、中心極限定理を適用した場合の誤差を検討する方法。
コンピューターシミュレーション。

一番目の手法においては、下記ポストで詳細に取り上げられている。
https://x.com/genkuroki/status/1858376430226477558

おまけ２

　任意の実数$a,b$について、$a\le b$が成り立っているものとする。このとき
$$ |\left(F_n(b)-F_n(a)\right) - \left(\phi(b)-\phi(a)\right)|\le \frac{2C \beta}{\sqrt{n}} $$
　が成り立つ。

証明の途中で三角不等式$|a+b|\le |a| + |b|$と$|-a|=|a|$を用いた。

三行目から四行目の式変形には、Berry-Esseenの定理を用いた。Berry-Esseenの定理は二つの累積分布関数の差の上限について述べている。したがって、任意の点を取ったときの差は、必ず$C \beta/\sqrt{n}$以下になる。

$$ \begin{align*} |\left(F_n(b)-F_n(a)\right) - \left(\phi(b)-\phi(a)\right)|&=|\left(F_n(b)-\phi(b)\right) + \left(\phi(a)-F_n(a)\right)|\\ &\le|F_n(b)-\phi(b) |+ |\phi(a)-F_n(a)|\\ &=|F_n(b)-\phi(b) |+ |F_n(a)-\phi(a)|\\ &\le \frac{C \beta}{\sqrt{n}} + \frac{C \beta}{\sqrt{n}} = \frac{2C \beta}{\sqrt{n}} \end{align*} $$