1
応用数学解説
文献あり

誤差解析論考2 〜 N か N-1 か 〜

115
1
$$$$

前回の内容

  前回 は誤差解析における様々な用語を定義したあと,同じ測定を何度も繰り返した場合のヒストグラムとその極限である極限分布を導入したのでした.特に系統的不確かさがゼロの場合,極限分布$f(x)$の平均
$$ \bar{x} = \int_{-\infty}^{\infty} \mathrm{d} x \ x \, f(x)$$
が測定した物理量の真値に厳密に一致する,ということを説明しました.
 一方で$f(x)$は具体的には何なのか,有限回の測定結果から真値つまり$\bar{x}$をどう見積もるのか,といったことは書かないままで終わっていました.その部分を,この第2稿ではまとめていきます.

以降,やはり系統的不確かさは無視します.

 

正規分布

 多くの実験では極限分布$f(x)$はある形を取ることがわかっています${}^{}$.それが以下のGauss関数で書かれる正規分布です.

Gauss関数

 Gauss関数$G_{X, \, \sigma}(x)$とは以下で定義される関数である.
$$ G_{X, \, \sigma}(x) \coloneqq \frac{1}{\sigma \sqrt{2 \pi}} \exp \bigg[ \frac{- (x - X)^2}{2\sigma^2} \bigg]$$

 多くの実験の極限分布はこの形になる.そのような極限分布を正規分布と呼ぶ.$X$を中心,$\sigma$を幅と呼ぶことがある.

 Gauss関数の負の無限大から正の無限大にわたる積分は1になります.これは極限分布が確率を表すという事実と整合的です.つまり全確率が確かに1です.

$$ \int_{-\infty}^{\infty} \mathrm{d}x \ \frac{1}{\sigma \sqrt{2 \pi}} \exp \bigg[ \frac{- (x - X)^2}{2\sigma^2} \bigg] = 1$$

 また式中で$X, \, \sigma$を用いたことからわかるように,これらは無限回の測定を行った場合の平均値と標準偏差になっています.

$$ \begin{align} X &= \int_{-\infty}^{\infty} \mathrm{d}x \ x \, \frac{1}{\sigma \sqrt{2 \pi}} \exp \bigg[ \frac{- (x - X)^2}{2\sigma^2} \bigg] \\[6pt] \sigma^2 &= \int_{-\infty}^{\infty} \mathrm{d}x \ (x - X)^2 \, \frac{1}{\sigma \sqrt{2 \pi}} \exp \bigg[ \frac{- (x - X)^2}{2\sigma^2} \bigg] \end{align}$$

 これらの証明は容易な上に重要でもないので飛ばすことにします.

 重要なのは$\sigma$の意味です.$X$は極限分布の平均であり,それは前回議論したように測定する物理量の真値に一致するのでした.一方で$\sigma$は実験の精度を表します.
 例えば目盛を無限回読むとき,もしそれを真正面から読めたならどの読み取り数値も真値に近くなるでしょう.つまり標準偏差$\sigma$は小さくなります.
 一方で色々な向きから読むような状況であれば,不確かさを統計的なものにすることはできるものの,読み取り数値は大きい方向にも小さい方向にも真値から離れ,様々な値を取ります.そして標準偏差は大きくなります.
 すなわち$\sigma$はある実験がどのくらいの精度で物理量を測定しているかを知る目安になるわけです.

 ただし精度と言っても指数関数の振る舞いから明らかなように,測定の結果は必ずしも$X \pm \sigma$の範囲内に現れるわけではありません.実は

$$ \int_{-\sigma}^{\sigma} \mathrm{d}x \ \frac{1}{\sigma \sqrt{2 \pi}} \exp \bigg[ \frac{- (x - X)^2}{2\sigma^2} \bigg] \simeq 0.68 $$

であることが数値計算で求まります(解析的には積分できません).つまり

極限分布が正規分布$G_{X, \, \sigma}(x)$であるような実験では
68%の確率で$X \pm \sigma$の範囲内の値が測定される

ということです.

 さてここで注意しておくべきことがあります.
 前回,私たちの目標は「有限回の測定結果から真値$X$を推定する」ことであると述べました.
 しかしここまでの説明からわかる通り,もはやこれだけでは済まされません.極限分布は無限回の測定の平均値(真値でもある)$X$と,無限回の測定の標準偏差(精度の目安)$\sigma$によって特徴付けられます.従って

真値$X$を推定する
測定精度$\sigma$を推定する

ことが必要になります.欲しかった物理量の真値の推定に加えて,その真値の推定はどのくらい確かなのか,どのくらいの精度なのかという量の推定も行うことになるのです.実験が変われば精度が変わるので,このことは極限分布がある実験(セットアップ)について定義されていたことを踏まえれば自然なことでしょう.

 最後に,第1稿で導入した統計的不確かさをきちんと述べ直しておきます.
 何らかの方法で$\sigma$を知っていたか或いは推定できていた状況で測定を行い,測定値$x$を得たとしましょう.このとき統計的不確かさを$\sigma$として書くことが多いです.つまり測定値を
$$ x \pm \sigma$$
のように書く場合が多数あるということです.これと先の割合の議論から

表記$x \pm a$は真値$X$が68%の確率で$x \pm a$の範囲内にあることを意味する
(ことが多い)

とわかります.これは不確かさの表記に関する極めて重要な事実で,ぜひ覚えておくべきものです.なお誤差棒の長さも大半はこの$\sigma$に一致させます${}^{1}$

${}^{1}$ この他に$2 \sigma \approx$95% を用いる場合もあります.(特に$1\sigma$でない場合には)何を使ったのかは明記すると親切でしょう.

 こうして問題は移り変わり,$X, \, \sigma$をどうやって推定すれば良いのかというところまで来ました.それを以下で考えていきます.

 

正規分布の性質

最尤性原理

 既に述べたように,無限回の測定結果のヒストグラムである極限分布$f(x)$を知ることはできないのでした.もちろん正規分布の$X, \, \sigma$も手に入れようが無く,実際には有限の$N$個の測定値$x_1, \, x_2, \ldots, \, x_N$から$X$$\sigma$を推定しなければなりません.そのための理念的手続きを与えるのが最尤性原理です.

最尤性原理${}^{2}$

 $N$個の測定値$x_1, \, \ldots, \, x_N$が得られているとする.$X, \, \sigma$の最良推定値とはこれらの測定値が得られる確率(密度)${}^{3}$を最大にするような$X, \, \sigma$である.

${}^{2}$ Mathlogに「原理」という囲み枠がないので「公理」で代用しました.

${}^{3}$ これ以降は単に「確率」と書きます.

 この原理を正規分布に用いるためには,上述の「測定値が得られる確率」が正規分布においてどう書けるかを示さなくてはいけません.それは以下のようになります.

 中心が$X$で幅が$\sigma$である正規分布を極限分布とする実験で$N$回の測定を行ったとき,測定値$x_1, \, \ldots, \, x_N$が得られる確率は
$$ \mathrm{Prob}_{X, \, \sigma}(x_1, \, \ldots, \, x_N) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \, \exp \bigg[ \frac{- \sum (x_i - X)^2}{2 \sigma^2} \bigg]$$
で与えられる.

定理1

 極限分布が$f(x)$である実験で測定結果$x_i$を得る確率は$f(x_i)$である(前回の記事参照)から.各測定が独立であるならば

$$ \begin{align} \mathrm{Prob}_{X, \, \sigma}(x_1, \, \ldots, \, x_N) &= \prod_{i=1}^{N} f(x_i) \\ &= \prod \frac{1}{\sigma \sqrt{2 \pi}} \, \exp \bigg[ \frac{-(x_i - X)^2}{2\sigma^2} \bigg] \\ &= \frac{1}{(\sigma \sqrt{2 \pi})^N} \, \exp \bigg[ \frac{- \sum (x_i - X)^2}{2 \sigma^2} \bigg]. \end{align}$$

 

最良推定値

 以上を元に$X, \, \sigma$の最良推定値を計算しましょう.最良推定値と真値は一般に異なる値となるので,最良推定値はそうだとわかるように$X_{\text{best}}, \, \sigma_{\text{best}}$のように書くこととします.まず$X$については次のようになります.

$X$の最良推定値

 測定結果$x_1, \, \ldots, \, x_N$が正規分布を極限分布とする実験で得られたものであるとき,その正規分布の中心$X$の最良推定値は
$$ X_{\text{best}} = \frac{1}{N} \sum_{i=1}^{N} x_i$$
である.つまり全測定結果の平均である.前回の議論よりこの$X_{\text{best}}$が真値の最良推定値である

定理2

 $\mathrm{Prob}_{X, \, \sigma}(x_1, \, \ldots, \, x_N)$$X$による偏微分が$0$となるところでこの確率が最大になる.

$$ \begin{align} 0 &= \pdv{}{X} \bigg( \frac{1}{(\sigma \sqrt{2 \pi})^N} \, \exp \bigg[ \frac{- \sum (x_i - X)^2}{2 \sigma^2} \bigg] \bigg) \\ &= A \cdot \bigg[- \sum_{i=1}^{N} (x_i - X) \bigg] \\ \therefore X &= \frac{1}{N}\sum_{i=1}^{N} x_i \end{align}$$
この等号は$N \to \infty$のときに厳密に成立する.$N$が有限のときは左辺が最良推定値となって
$$ X_{\text{best}} = \frac{1}{N} \sum_{i=1}^{N} x_i.$$

 測定値の平均値を実験結果として記す,ということは中学校以来ずっと行なってきたことですが,それは上述の性質によって正当化されわけです.
 
 続いて$\sigma$を考えましょう.以下に式を示します.「違う!」と思われるかもしれませんが,どうかまだブラウザバックせずにいてください.

$\sigma$の最良推定値

 定理2と同じ条件下で正規分布の幅$\sigma$の最良推定値は
$$ \sigma_{\text{best}} = \sqrt{\frac{1}{N} \, \sum_{i=1}^{N} (x_i - X_{\text{best}})^2}$$
で与えられる.ただし$X_{\text{best}}$は定理2で与えられる平均である.

定理3

 定理2と同様に$\mathrm{Prob}_{X, \, \sigma}(x_1, \, \ldots, \, x_N)$$\sigma$で偏微分する.

$$ \begin{align} 0 &= \pdv{}{\sigma} \bigg( \frac{1}{(\sigma \sqrt{2 \pi})^N} \, \exp \bigg[ \frac{- \sum (x_i - X)^2}{2 \sigma^2} \bigg] \bigg) \\ &\propto \big[ A \sigma^{-(N+3) - N \sigma^{-(N+1)}} \big] \, e^{-A/2\sigma^2} \\ &\propto A - N \sigma^2 \\ \therefore \sigma^2 &= \frac{1}{N} \sum_{i=1}^{N} (x_i - X)^2 \end{align}$$

但し$A = \sum (x_i - X)^2$である.定理2より$X$の最良推定値はわかっているから
$$ \sigma_{\text{best}}^2 = \frac{1}{N} \sum_{i=1}^{N} \Big(x_i - \frac{1}{N} \sum_{i=1}^{N}x_i \Big)$$
である.

 こうして私たちは,同一の物理量を複数回測定して得た$x_1, \, \ldots, \, x_N$からその真値$X$と測定の精度$\sigma$を推定することができるようになりました.
 従ってあとは誤差伝播の法則などを確かめれば良いのですが......その前に極めて重大な問題に答える必要があるでしょう.タイトルの副題にもなっている問いです.

$\sigma$の式の分母は$N$で良いのか
$N-1$ではないのか

  

$N$$N-1$

この節は筆者の考えを書いたものです.

 定理3の式に「ん?」と思った方も多いでしょう.一般に$\sigma$の推定量は

$$ \sigma = \sqrt{\frac{1}{N-1} \, \sum_{i=1}^{N} (x_i - X_{\text{best}})^2}$$

と書かれます.明らかに分母が異なっています.この違いを明らかにしなくてはいけないのですが,誤差解析の文脈でここを詳細に議論したものはあまり多くないように感じます.
 例えば前回の「分野の教科書」に挙げたBevingtonの書籍では,$X_{\text{best}}$の推定に測定値を使っているのでその分だけ自由度が下がって$N$の代わりに$N-1$となる,というような説明で済ませています.
 或いは次のような説明もよく見られるものです.つまり測定値が1つだけのときは幅など定義できないのだから,定義不能になるように分母を$N-1$にしておく,というものです.
 どちらも「それっぽい」ですが,何となくスッキリしません.特に上述の「最尤性原理」のような議論の後だと大雑把な説明に聞こえてしまいます.

 では統計学の書籍ではどう説明しているかというと,例えば倉田&星野『入門統計解析』(2023)では次のような議論を行なっています(記号を変えています).恒等式

$$ \begin{align} \sum_{i=1}^{N} (x_i - \bar{x})^2 &= \sum \big[ (x_i - X) - (\bar{x} - X) \big]^2 \\ &= \sum (x_i - X)^2 - N (\bar{x} - X)^2 \end{align}$$

の両辺の期待値を取って

$$ \begin{align} \mathrm{E}\bigg[ \sum (x_i - \bar{x})^2 \bigg] &= \mathrm{E} \bigg[ \sum (x_i - X)^2 \bigg] - N \mathrm{E} \big[ (\bar{x} - X)^2 \big] \\[6pt] &= \sum \mathrm{E} \big[ (x_i - X)^2 \big] - N \mathrm{V}(\bar{x}) \\[6pt] &= \sum \mathrm{V}(x_i) - N \times \frac{\sigma^2}{N} \\[6pt] &= N \sigma^2 - \sigma^2 \end{align}$$

を得ます.ただし$\bar{x}$$N$個の測定値の平均で$\mathrm{V}(\cdot)$は分散です.最右辺の$\sigma^2$は定理3の証明で出てきた$\sigma^2$と同じものです.一方で最左辺が$\sum(x_i - X_{\text{best}})^2$に対応します.よって因子$N-1$が出てくるというわけです.

 実はTaylorの教科書も(付録で)同様の議論をしています.ただしここで行なっている操作は期待値を顕わに用いるものではなく,$N$回測定を行う」ことを無限回繰り返して平均を取るというものです.すなわち測定は下図のようになっています(Taylor『誤差解析入門』より作成).

実験番号1回目の測定2回目の測定...$N$回目の測定
1$x_{1, \, 1}$$x_{1, \, 2}$...$x_{1, \, N}$
2$x_{2, \, 1}$$x_{2, \, 2}$...$x_{2, \, N}$
3$x_{3, \, 1}$$x_{3, \, 2}$...$x_{3, \, N}$
...............
$\lambda$$x_{\lambda, \, 1}$$x_{\lambda, \, 2}$...$x_{\lambda, \, N}$
...............

 各行が「一度の$N$回の測定」に対応します.つまり各行について$X_{\text{best}}, \, \sigma_{\text{best}}$が定まります.これを無限回繰り返しているのが縦方向(列)です.議論の詳細は今は書きませんが${}^{4}$,ともかくもこれを使って計算すると$N-1$が出てきます.「期待値を取る」ことと「無限回繰り返して平均を取ること」が対応しています

${}^{4}$ 多分12月の末か1月の初頭にはここに加筆すると思います.

 しかしこれらの議論には不明瞭な点があります.どうして期待値を取るのかなぜ無限回繰り返すのかという点です.

 最尤性原理から「手元のデータを最も良く説明する$X$$\sigma$は定理2及び3で与えられる」ことがわかっています.だったらこれを使えば良いじゃないか,という気がしてきます.

 しかし私たちは$X$$\sigma$の真の値を欲するがために実験を行なっているのでした.定理に書いた$X_{\text{best}}, \, \sigma_{\text{best}}$は確かに手元のデータの上では最も尤もらしいものです.しかしこの推定に用いた測定値は有限$N$個ですから,この$N$個自体が偏っている可能性があります.存在する極限分布から均等には出てきていないかもしれないのです.

 この可能性を排除するため,偏りを検出するために$N$回の測定を無限回繰り返すわけです.もちろんそんなことは実行できないのであくまで仮想的なものですが,これを用いた議論によって次が言えます(上述のTaylorを参照).

$$ \begin{align} X_{\text{best}} &= \langle X_{\text{best}} \rangle_{\text{無限回}} \\[6pt] \sigma_{\text{best}}^2 &= \frac{N-1}{N} \langle \sigma_{\text{best}}^2 \rangle_{\text{無限回}} \end{align}$$

 見ると$X$$N$回の測定を一度だけ行った場合とそれを無限回繰り返した場合とで値が同じになっていますが,$\sigma^2$の方は$N$に依存する因子が掛かって違いが生じています.

 そして現代の物理学ではこの右辺の$\langle \cdot \rangle_{\text{無限回}}$を使うべきであるとなっているのです

 なぜなら左辺の量は個別の測定に最も良く合うように「調整」された量であって,同一の実験を繰り返したとしてもその都度得られる値が系統的に真の$\sigma^2$よりも小さくなるからです.
 この「小さくなること」つまりズレが統計的なものではなく最尤性原理を用いたことによる系統的な偏りになっているため,補正を受けるのです${}^{5}$

${}^{5}$ $\langle \cdot \rangle_{\text{無限回}}$を用いても測定回数が有限である以上はその実験によって$\sigma^2$の推定値は変わりますが,それはあくまで統計的なものであって系統的なものではないことに注意してください.

 そしてその補正を済ませたのが$\langle \sigma_{\text{best}}^2 \rangle_{\text{無限回}}$なのです.この量は最尤性原理による推定を何度も繰り返した際の平均的な主張を表していて,一度の測定$x_1, \, \ldots, \, x_N$が持つ固有の偏りを取り除いたものになっています.実験の精度を表す指標としては個々の測定結果に偶然的に依存する値ではなく,このような平均的に真の値を再現する量を採用する方が合理的なのです.

 最後に(くどいかもしれませんが)アリストテレスたちで例えてみましょう.
 アリストテレスAが$X_{\text{best}}^{(A)}, \, \sigma_{\text{best}}^{(A)}$を求め,アリストテレスBが$X_{\text{best}}^{(B)}, \, \sigma_{\text{best}}^{(B)}$を求めたとします.これらの推定量は「各々の実験結果を」最も良く説明する推定になっています──ということは$\sigma_{\text{best}}$はAでもBでも「調整」されていて,極限分布の真の$\sigma$よりも小さくなっているのです.
 これはアリストテレスが何人増えても同じです.$\sigma_{\text{best}}$は常に「真の$\sigma$よりも小さく」なります.この系統的なズレを取り除くべく$N-1$が出てくるのです.
 さらに言えば,自然科学ではアリストテレスが何人も集まって色々な追実験をします.そのことを思えばこれらの追実験ごとの「調整」を除いた方が議論が普遍的になるでしょう.

 こうして

手元のデータを説明するには$1/N$が良いが
極限分布の値としては$1/(N-1)$が良い

ことが言えました.
 従って下記を受け入れることができます.

 物理量$X$を測るある一度の実験で測定結果$x_1, \, \ldots, \, x_N$が得られたとする.ただしこの実験の極限分布は中心が$X$で幅が$\sigma$の正規分布であるとする.
 このとき,この実験セットアップでは
$$ \begin{align} X &= \frac{1}{N} \sum_{i=1}^{N} x_i \\[6pt] \sigma &= \sqrt{\frac{1}{N-1} \, \sum_{i=1}^{N} (x_i - X_{\text{best}})^2} \end{align}$$
と見積もられる.

 これら,特に下の式は一般に使われるものです$N$を分母とするものではなくこちらが用いられます${}^{6}$.このことは「私の考え」ではなく事実なので,皆さんも$\sigma$の推定にはこちらを使いましょう.

${}^{6}$ 人によっては,$N$が極めて大きい場合には$N$$N-1$もほとんど同じであるのであまり気にしないようです.その場合でもどちらを使ったのかは明記するのが良いでしょう.

 

不確かさの伝播

 ここで少し話を変えて不確かさの伝播について記述します.その理由は,第一に誤差伝播の法則が正規分布の性質として現れてくるからであり,第二にこれが$N$回の測定の平均値の不確かさを調べるのに有用だからです.

 さて,前節までの議論によって私たちは次のことを知っています.

極限分布が正規分布$G_{X, \, \sigma}(x)$である実験を一回行って測定値$x$を得ると
$x$は68%の確率で$X \pm \sigma$の範囲にある
逆に$\sigma$の見当が付いていて$x$が得られているとき
真値$X$は68%の確率で$x \pm \sigma$の範囲にある

 これらは重要な事実です.しかし私たちが知りたいこと全てを教えてくれてはいません.
 前回の記事の冒頭で書きましたが,私たちが求めたい量は測定で得られる値そのものであるとは限りませんそこから計算された量であることも多いでしょう.例えば金の密度そのものは得られないから,体積と質量を測定してそこから密度を計算する,という具合です.
 ではそうして計算された量は「どんな」ものなのでしょうか.
 測定とそこからの計算をひとまとまりの実験とみなしたとき,この実験の極限分布はどうなるのでしょうか

 これに回答するのが誤差伝播の法則,或いは不確かさの伝播則です.

不確かさの伝播則

 $M$個の実験がある.これらは独立で,それぞれの極限分布は正規分布$G_{X_i, \, \sigma_i}(x_i)$であるとする.このとき$M$個の実験結果から
$$ Y = f(X_1, \, \ldots, \, X_M)$$
で定まる$Y$を計算するという「拡張された」実験を行うと,この実験の極限分布は正規分布$G_{Y, \, \sigma_Y}(y)$であり
$$ \sigma_Y^2 = \sum_{i=1}^{M} \bigg( \pdv{f(x_1, \, \ldots, \, x_M)}{X_i} \, \sigma_i \bigg)^2$$
となる.

定理5

 見やすさのために適宜$\vb*{X}, \, \vb*{\sigma}, \, \vb*{x}$$X_i, \, \sigma_i, \, x_i$をまとめて表す.まず
$$ Y = f_1(\vb*{X}) = A + X_j$$
の場合を考える.ただし$A$は定数である.このとき$X_j = Y - A$より,$Y$としてある値$y$を得る確率は$X_j$としてある値$y - A$を得る確率と同じである.
$$ \begin{align} \mathrm{Prob}(y) &= \mathrm{Prob}_{X_j , \, \sigma_j}(y - A) \\ &\propto \exp \bigg[ - \frac{[(y - A) - X_j]^2}{2 \sigma_j^2} \bigg] \\ &= \exp \bigg[ - \frac{[(y - (A + X_j)]^2}{2 \sigma_j^2} \bigg] \\ &= \exp \bigg[ - \frac{[y - f_1(\vb*{X})]^2}{2 \sigma_j^2} \bigg]. \end{align}$$
右辺はまさしく中心を$Y = f_1(\vb*{X})$とし幅を$\sigma_j$とする正規分布であり,よって$y$を得る実験の極限分布はこのような正規分布となる.
 次に
$$ Y = f_2(\vb*{X}) = B X_j$$
の場合を考える.ただし$B$は定数である.このときは
$$ \begin{align} \mathrm{Prob}(y) &= \mathrm{Prob}_{X_j, \, \sigma_j}(y/B) \\ &\propto \exp \bigg[ - \frac{(\frac{y}{B} - X_j)^2}{2 \sigma_j^2} \bigg] \\ &= \exp \bigg[ - \frac{(y - BX_j)^2}{2 B^2 \sigma_j^2} \bigg] \\ &= \exp \bigg[ - \frac{(y - f_2(\vb*{X}))^2}{2 (B\sigma_j)^2} \bigg] \end{align}$$
となるから,この場合の$y$を得る実験の極限分布は中心が$Y = f_2(\vb*{X})$で幅が$B \sigma_j$の正規分布である.
 続いて
$$ f_3(\vb*{X}) = \sum_{i=1}^{M} X_i$$
の場合を考える.ただし簡単のために$X_i$の真値はどれも0であるとする.すなわち
$$ \mathrm{Prob}_{X_i, \, \sigma_i}(x_i) \propto \exp \bigg[ -\frac{x_i^2}{2 \sigma_i^2} \bigg], \quad \forall i$$
を仮定する.各$X_i$は独立だから測定結果の組$\vb*{x} = (x_1, \, \ldots, \, x_M)$が得られる確率は
$$ \begin{align} \mathrm{Prob}_{\vb*{X}, \, \ldots, \, \vb*{\sigma}}(\vb*{x}) &\propto \prod_{i=1}^{N} \exp \bigg[ -\frac{x_i^2}{2 \sigma_i^2} \bigg] \\ &= \exp \bigg[ -\frac{1}{2} \sum_{i=1}^{M} \frac{x_i^2}{\sigma_i^2} \bigg] \\ &= \exp\ \Bigg[-\frac{1}{2} \Bigg( \frac{(\sum_i x_i)^2}{\sum_i \sigma_i^2} + \bigg[ \sum_i \frac{x_i^2}{\sigma_i^2} - \frac{(\sum_i x_i)^2}{\sum_i \sigma_i^2} \bigg] \Bigg) \Bigg]. \end{align}$$
指数関数内の第2項について
$$ \begin{align} \sum_i \frac{x_i^2}{\sigma_i^2} - \frac{(\sum_i x_i)^2}{\sum_i \sigma_i^2} &= \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \bigg[ \Big( \sum_j \sigma_j^2 \Big) \sum_i \frac{x_i^2}{\sigma_i^2} - \Big( \sum_i x_i \Big)^2 \bigg] \\ &= \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \sum_{i, j} \bigg( \frac{\sigma_j^2}{\sigma_i^2} x_i^2 - x_i x_j \bigg) \end{align}$$
が成立し,ここに
$$ x_i x_j = \frac{1}{2} \bigg[ \frac{\sigma_j^2}{\sigma_i^2} x_i^2 + \frac{\sigma_i^2}{\sigma_j^2} x_j^2 - \Big( \frac{\sigma_j}{\sigma_i} x_i - \frac{\sigma_i}{\sigma_j} x_j \Big)^2 \bigg]$$
を代入すると
$$ \begin{align} &= \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \sum_{i, j} \bigg( \frac{\sigma_j^2}{\sigma_i^2} x_i^2 - \frac{1}{2} \bigg[ \frac{\sigma_j^2}{\sigma_i^2} x_i^2 + \frac{\sigma_i^2}{\sigma_j^2} x_j^2 - \Big( \frac{\sigma_j}{\sigma_i} x_i - \frac{\sigma_i}{\sigma_j} x_j \Big)^2 \bigg] \bigg) \\ &= \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \sum_{i, j} \bigg[ \frac{1}{2} \frac{\sigma_j^2}{\sigma_i^2} x_i^2 - \frac{1}{2} \frac{\sigma_i^2}{\sigma_j^2} x_j^2 + \frac{1}{2} \Big( \frac{\sigma_j}{\sigma_i} x_i - \frac{\sigma_i}{\sigma_j} x_j \Big)^2 \bigg] \\ &= \frac{1}{2} \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \sum_{i, j} \Big( \frac{\sigma_j}{\sigma_i} x_i - \frac{\sigma_i}{\sigma_j} x_j \Big)^2 \end{align}$$
を得る.従って
$$ \mathrm{Prob}_{\vb*{X}, \, \ldots, \, \vb*{\sigma}}(\vb*{x}) \propto \exp \bigg[- \frac{y^2}{2\sum_i \sigma_i^2} \bigg] \ \prod_{i, j} \exp \bigg[- \frac{z_{i, j}^2}{2} \bigg] $$
と書ける.ただし
$$ \begin{align} y &\coloneqq \sum_i x_i \\ z_{i, j} &\coloneqq \bigg[ \sum_i \sigma_i^2 \bigg]^{-1} \Big( \frac{\sigma_j}{\sigma_i} x_i - \frac{\sigma_i}{\sigma_j} x_j \Big) \end{align}$$
である.今$\vb*{x}$$-\infty$から$\infty$まで$y = \sum_i x_i = \mathrm{const.}$の制約の元で動き,このとき$z_{i,j}$$-\infty$から$\infty$まで独立に自由に動く.従って$Y$についてある$y$が測定される確率は
$$ \begin{align} \mathrm{Prob}(y) &\propto \prod_{i,j} \int_{-\infty}^{\infty} \mathrm{d}z_{i,j} \ \exp \bigg[- \frac{y^2}{2\sum_i \sigma_i^2} \bigg] \exp \bigg[- \frac{z_{i,j}^2}{2} \bigg] \\ &\propto \exp \bigg[- \frac{y^2}{2\sum_i \sigma_i^2} \bigg] \end{align}$$
となる.ここで$z_{i, j}$についてのGauss積分を実行した.これはこの場合の極限分布が中心を0とし幅を$\sqrt{\sum_i \sigma_i^2}$とする正規分布となっていることを示している.

 直上の議論は$X_i$の真値が0でない場合にも拡張できる.実際,上記で$x_i$と書いていたものを$x_i - X_i$と書き,変数変換$\xi_i \coloneqq x_i - X_i$を行えば全く同じ議論が行えて
$$ \mathrm{Prob}(y) \propto \exp \bigg[- \frac{(y - f_3(\vb*{X}))^2}{2 \sum_i \sigma_i^2} \bigg]$$
となる.

 以上を利用して一般の
$$ Y = f(\vb*{X})$$
の場合を証明する.幅$\sigma_i$がどれも小さいとすると$x_i - X_i$も小さくなるから
$$ y = f(\vb*{x}) \approx f(\vb*{X}) + \sum_i \Big( \pdv{f}{X_i} \Big) (x_i - X_i)$$
と近似できる(これは$f$が性質の良い関数であることも要請する).ただしここで偏微分の$f$の引数を省略している.これと上述の議論を見比べると,初項は定数であるから最初の$f_1$の場合と同様に正規分布の中心を$f(\vb*{X})$にする寄与のみがある.第2項は$f_2$$f_3$の組み合わせであり,やはり中心を$f(\vb*{X})$にする寄与と,幅を$\sqrt{\sum_i \sigma_i^2}$にする寄与,そして各$i$について幅を$\partial f / \partial X_i$倍する寄与がある.従ってこれらを全て考慮すると
$$ \mathrm{Prob}(y) \propto \exp \bigg[ - \frac{1}{2} \frac{(y - f(\vb*{X}))^2}{\sum_i (\pdv{f}{X_i} \sigma_i)^2} \bigg].$$
よって示された.

 これにより,私たちは以下のことをも知るに至りました.

極限分布が正規分布$G_{X_i, \, \sigma_i}(x)$である$i=1, \, \ldots, \, M$の実験を行い
得られた測定値$x_i$から$f(\vb*{x})$を計算すると
$f(\vb*{x})$は68%の確率で$f(\vb*{X}) \pm \sigma_Y$の範囲にある
逆に$\sigma_i$の見当が付いていて$x_i$が得られているとき
真値$Y = f(\vb*{X})$は68%の確率で$f(\vb*{x}) \pm \sigma_Y$の範囲にある

 下の囲み枠に書いた事実こそが,一般に「不確かさの伝播則」や「誤差伝播の法則」と呼ばれるものです

 また重要なこととして,前提に書いた$M$個の実験はそれ自体が「拡張された」実験であっても構いません.生の測定結果から$Y$$\sigma_Y$を計算し,これを使ってさらに$Z$$\sigma_Z$を計算する,ということを伝播則は特に禁止していません.

 ところで気付いた人もいるかもしれませんが,上の証明では正規分布の性質をこれでもかと使っていました.ここから察せられるように,不確かさの伝播則というのは極限分布が正規分布でないと厳密には成立しません.つまり「全ての」不確かさの伝播を,つまり系統的不確かさの伝播までもを伝播則で計算するのは,実は素朴に過ぎます.
 例えば電圧計の表示する数値が$2.1 \ \mathrm{V}$であったとしましょう.このとき不確かさとして一桁下の$0.05 \ \mathrm{V}$を取ることが多いですが,この$0.05 \ \mathrm{V}$は正規分布の$\sigma$とは全く性質が違います.実際,正規分布で考えれば$2.1 \pm 0.05 \ \mathrm{V}$の範囲に68%の確率で真の電圧値があるということになるのに対し,このセットアップでは明らかに100%近い確率で$2.1 \pm 0.05 \ \mathrm{V}$にあるはずだからです.
 そういうわけで不確かさの伝播則は常に使えるものではありません.しかし統計的不確かさはほとんどが正規分布に従います.また伝播則は計算する上でとても便利なものであるので,よく不確かさを正規分布の$\sigma$と同じ意味だと決めて計算します${}^{7}$.このことは頭の片隅に残しておく価値があると思います.

${}^{7}$ 特に学生実験などの話です.もっと高度な,つまり最先端の研究で不確かさをどう扱っているかについては,私も詳しくないので書きません.ただ,例えば$z = x - y$に対して$\sigma_z = \sqrt{\sigma_x^2 + \sigma_y^2}$ですが,系統的な不確かさは$\delta z = \delta x + \delta y$とすることがあるようです.なぜならこれが伝播する不確かさの最大値だからです.

 

平均値の$\sigma$

 不確かさの伝播則の応用として,同一の物理量を$N$回測定しその結果の平均を取ることを考えましょう.つまり
$$ Y = f(\vb*{X}) = \frac{1}{N} \sum_{i=1}^{N} X_i$$
です.不確かさの伝播則から直ちに次のことがわかります.

 同一の正規分布$G_{X, \, \sigma_X}$(x)を極限分布とする実験を$N$回行う.$Y = \sum_i X_i / N$とすると(平均),$Y$は正規分布$G_{Y, \, \sigma_Y}(y)$に従う.ここで
$$ \sigma_y = \frac{\sigma_X}{\sqrt{N}}$$
である.

定理6

 不確かさの伝播則から
$$ \sigma_Y^2 = \sum_{i=1}^{N} \Big( \pdv{f}{X_i} \sigma_i \Big)^2 = \sum_{i=1}^{N} \Big( \frac{1}{N} \sigma_X \Big)^2 = \frac{1}{N} \sigma_X^2.$$

 この意味,重要性を述べておくことは大切でしょう.
 極限分布というのはその実験を無限回行った際のヒストグラムなのでした.では上の議論での「実験」が何かというと,それは「$N$回の測定を行ってその平均値を計算する」という,少し前に書いた「拡張された」実験です.詳しく書くと極限分布$G_{Y, \, \sigma_Y}(y)$は「$N$回測定して平均を取ることを$M$回行った場合の,計算した平均のヒストグラムの$M \to \infty$極限」になっています.
 このことと「最良推定値」及び「$N$$N-1$か」の節で書いた「同一の物理量の複数回の測定結果の平均は真値の最良推定値である」という事実から,以下が言えます.

$N$回の測定を行って平均を計算する,という実験を一度行う
この平均値は真値$X$から$\pm \sigma_Y$の範囲に68%の確率で入っている

 $\sigma_Y$というのは$1/\sqrt{N}$に比例していましたから,測定回数$N$を増やすほど幅は小さくなります.つまり$N$を増やすほど真値$X$は精度良く求まるのです.

 

まとめ

 本稿では

  • 正規分布の導入
  • 最良推定値の求め方
  • 不確かさの伝播則
  • 測定回数と$X$の精度の関係

などを扱いました.また$\sigma$の推定値は$N$$N-1$のどちらを用いるべきかを議論しました.

 当初はフィッティングについても書く予定だったのですがやはり間に合わず(本当にすみません),そちらは第3稿に突っ込もうと思います.つまり次回は

  • フィッティングの基本
  • フィッティングパラメータの不確かさ
  • MATLABで作成したフィッティング関数の紹介

が内容となる予定です.ちなみにAdventカレンダーにはなるかはかなり怪しいです.もしかしたらクリスマスを過ぎてAbventカレンダーになるかもしれません${}^{8}$
 ですのでこのように挨拶しておきます.皆さん,良いクリスマスを.

${}^{8}$ advent < adventus < advenio + tus < ad- + venio = 「〜へ向かって」+「来る」だから,造語して 「〜から離れて」+「来る」 = ab- + venio > abvenio + tus > abventus > abvent.

参考文献

[1]
John R. Taylor, 計測における誤差解析入門, 株式会社東京化学同人, 2025
[2]
Philip R. Bevington & D. Keith Robinson, Data Reduction and Error Analysis for the Physical Sciences, McGraw-Hill, 2002
[3]
入門統計解析, 倉田博史&星野崇宏, 新世社, 2023
投稿日:10日前
更新日:10日前
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中