$\require{enclose}$
更新履歴
('25/12/13)
・図1の誤差棒が$1\sigma$を意味しないことを注に書き加えました.
・不一致の説明にてここでの誤差棒が$1\sigma$を意味しないことを追記しました.
物理学において実験がその基盤であることは疑うべくも無いでしょう.このことから容易に,実験結果の扱いもまた重要であることがわかります.そしてこの「実験結果の扱い」の肝要こそが,誤差解析です.つまり誤差解析は大事なのです.Quite simple.
ところが,どうも誤差解析というものは軽視されている感じがあります.まずもって書籍が僅少です(「分野の教科書」参照).そして大学の講義として独立しているとも聞きません.少なくとも私の大学では実験と実験学の講義でさらっと触れられた程度です.
このような状態が継続することにどんな利益が見込めるというのでしょう?
そういうわけで僅かでも現状の改善を助けるため,この「誤差解析論考1」と続く「誤差解析論考2」で誤差の扱いの基本的な(簡単な?)点をまとめていきます.いくつかの内容は見知ったものかもしれませんが,その場合にはブラウザバックするか,或いは確認や復習のつもりで読んでみてください.
まずは誤差の大切さが直観できるよう平易かつ古典的な具体例を考えてみます.今2人の人物がいて,ある延べ棒を前にしてそれが純金($19.3 \ \mathrm{g \, cm}^{-3} $)か14金($13.5 \ \mathrm{g \, cm}^{-3}$)かで言い争っているとしましょう.そこに野良のアリストテレスAとBがやって来ます.そして鑑定してやろうと言います.アリストテレスAとBは何らかの方法によって延べ棒の密度を測定し,それぞれ以下のような結果を得ました.
$$ \rho_{\mathrm{A}} = 15 \pm 2 \ \mathrm{g} \, \mathrm{cm}^{-3}, \quad \rho_{\mathrm{B}} = 19 \pm 6 \ \mathrm{g} \, \mathrm{cm}^{-3} $$
$\pm 2, \, 6 \ \mathrm{g \, cm}^{-3}$は,例えば秤の針や数字がふらついていて正確に測れなかったことによるものです.さてこの金は純金と14金のどちらだと判断されるでしょうか? 当然,14金になります.Aの結果はこの金が14金でしかありえないことを示していて,一方Bの結果は純金でも14金でもありうると言っているのですから(図1)${}^{1}$.
金の密度の測定結果.Aの測定結果もBの測定結果も14金の密度と誤差棒の範囲で一致している.一方でAの測定結果は純金の密度と一致していない.ここから延べ棒は14金であると結論できる.
もし$15, \, 19$という数字だけがあって誤差が表記されていなかったなら判断は下せなかったかもしれません.あるいは逆になっていたかもしれません(上の図で誤差棒が無い場合を想像してみてください).
${}^{1}$ 知識のある方へ.この誤差棒はいわゆる$1\sigma$ではなく理想的に100%信頼区間のようなものだと捉えてください.
さて,こういう事例がもっと一般化されるわけです.ある2つの理論が同一の物理量について異なる予言をしているとき,その物理量を実験的に測定することでどちらが正しいかを検証することができますが.そのためには誠実に付けられた誤差が必要なのです.
もう一つ附言しましょう.例えばアリストテレスAは逍遥の途中で迷子になってしまい,アリストテレスBだけが実験結果を持って来たとします.すると彼は,残念! 言い争っている2人の人物の両方から失望されることとなります.なぜなら彼の得た$\rho$は誤差の範囲で$\rho_{\mathrm{pure}}$とも$\rho_{14}$とも一致しており,延べ棒の材質の判断材料にはならないからです${}^{2}$.つまり異なる理論の妥当性を調べたければ,それぞれが予言する物理量の値を両方含むことがないように誤差を小さくしなければならないのです.
${}^{2}$ もしAも来ていたなら「二つの実験結果は相互に矛盾しない」という有意義なことが言えたのですが.
以上の議論でわかるように,誤差の扱いは「理論の提唱→実験による検証→理論の提唱→……」と続く物理学のサイクルの要衝となっています.誤差論の動機は,まさにここに据えられているのです.
では誤差が付けられさえすればそれで十分かというと──そんなことはありません.誤差を小さくするには誤差の性質を知らなければなりません.また私たちが知りたい量は実験で得られる値そのものではなくそこから計算される量であることが多いですから,そのような値の誤差がどう計算されるかを理解しておく必要があります.さらに得られた誤差の「良し悪し」を解釈することも不可欠です.こうして以下のような諸々の概念が導入されます.
1. 系統誤差、統計誤差
2. 誤差の分布
3. 誤差伝播
4. 検定
本稿及び次稿では上記の4つの事柄について説明し,最終的にはフィッティングやその妥当性の判断などについて書いていく予定です.
この「誤差解析論考1」では,そのための第一歩として
を行なって、次回解説する正規分布への準備をします。上記リスト2つ目の途中までの内容ですね.それではよろしくお願いします.
話をするためにまずは言語を共有しましょう.
ここまでずっと「誤差」という語を使ってきましたが,実はこれは正しい用法ではありません.混乱を招かないようにきちんと用語を定義しておきます.
誤差とは,ある量の真値と測定値との違いである.
不確かさとは,誤差の見積もりである.
この2つは明確に別の概念です.
物理量には真の値があります${}^{3}$.殆どの場合は神のみぞ知る値です${}^{4}$.私たちはこれを知ろうとして測定を行うわけですから,多くの場合そんな未知の値と手元の測定値との差,つまり「誤差」など知りようがありません.
しかし見当を付けることはできるでしょう.正確な定規を使って鉛筆の長さを測りその一端が$10.4 \ \mathrm{cm}$と$10.5 \ \mathrm{cm}$の間に来たなら,真の値はこの中にあるとわかります.つまり測定値を$10.45 \ \mathrm{cm}$とし,この値と真値との差は$0.05 \ \mathrm{cm}$以内だと言えるわけです.この$0.05 \ \mathrm{cm}$が「不確かさ」です.
この2語はかなり用法が混乱していて特に何でもかんでも「誤差」と書いてあるものが多いのですが${}^{5}$,以降は明確に使い分けることにします.ただし「誤差棒」や「誤差解析」や「誤差伝播」などの決まった表現はそのまま用い,適宜註${}^{6}$にコメントを付すことにします.
${}^{3}$ この言い方は実は不正確で,その原因は今年(2025年)で100歳のあの人にあります.余裕があったらどこかで解説します.
${}^{4}$ 最近はそうでもない.Alea iacta est!
${}^{5}$ どうにもならなくなって,真の値と測定値の差を「真の誤差」と呼ぶこともあります.
${}^{6}$ さっきから出ているこいつのことです.
さて真値とは知り得ない物だと書きました.では実験で得られた「真値っぽい値」は何と呼べばよいでしょう.単に「測定値」「実験値」と言うこともありますが,誤差解析や統計の文脈ではよく以下の言葉が使われます.
最良推定値とは,実験とその解析を通して得られた,ある物理量の真値を最も良く表現している(真値に最も近い)と判断された値である.最尤推定値とも呼ぶ.
上の金の例で言うと,アリストテレスAによる密度の最良推定値は$15 \ \mathrm{g \, cm}^{-3}$であり,Bによる最良推定値は$19 \ \mathrm{g \, cm}^{-3}$です.先ほど書き忘れましたが$\pm 2 \ \mathrm{g \, cm}^{-3}$と$\pm 6 \ \mathrm{g \, cm}^{-3}$が不確かさです.
最良推定値を定義したことで以下が定義できます.
同一の物理量に対して異なる2つの測定を行ったとする.不一致とは,こうして得られたそれぞれの最良推定値同士のずれである.或いは理論値との差も指す.
また最初の例を使いますが,アリストテレスAの最良推定値とBの最良推定値の不一致は$4 \ \mathrm{g \, cm}^{-3}$です.
誤解が生じないように強調します.2人の実験結果には不一致があります.しかしそれは図1で示したように不確かさ(誤差棒)の範囲では重なっていたのでした.つまりこの不一致はあってもおかしくなく,説明できないものではないわけです.
これを一般化して,不一致が不確かさの範囲内である場合にはその不一致は有意でないと言います.逆に不一致が不確かさよりも大きい場合には不一致は有意であると言います(図2).
不一致が有意だった場合には何か新しい物理がある......か,学生実験ならレポートにかかる時間が増えることになります.
なお「不確かさの範囲で一致する」という表現もたまに見られます.
有意な不一致と有意でない不一致の例.AとB,BとCは誤差棒の範囲が重なっているから不一致は有意でない(不確かさの範囲で一致する).AとCは不確かさよりも大きな不一致があり,有意である.
( 実のところは誤差棒の範囲の意味を明確にして有意性を議論しなければなりませんが,それは分布を導入した後の方がわかりやすいので,ここでは「絶対にこの誤差棒の範囲に真値がある」という意味だと思っておきます${}^{7}$. )
${}^{7}$ 一番最初の注の繰り返しです.
さてここまでで基本的な概念をおさえました.少しポイントを整理しておきます.
2つ目については明記していなかったかもしれませんが,小数点以下無限桁を教えてくれる「ものさし」は無いこと,現代の実験に不可欠である電気回路は有限温度ではノイズを持つこと,などを踏まえればほとんど自明です.
以上の3点を踏まえると,私たちが考えるべきことは以下のようになります.
果たしてこの求め方,決め方には,あらゆる実験結果に適用できる万能にして唯一の方法があるのでしょうか?
──答えはNoです.万能の方法はありません.
特に不確かさは,大きく2つに大別できます.統計的不確かさと系統的不確かさです.
測定結果の不確かさのうち,同じ測定を繰り返すことで見積もることのできる不確かさを統計的不確かさと呼ぶ${}^{8}$.
統計的不確かさによる測定結果のばらつきは,真の値を中心としたランダムなものである.
統計的不確かさと異なり,同じ測定を繰り返しても大きさがわからない不確かさを系統的不確かさと呼ぶ${}^{9}$.
系統的不確かさはランダムではない.
わかりづらいので例を挙げましょう.
ピサの斜塔の頂上からボールを落とし,それが地面に着くまでの時間をストップウォッチで測ります.測定者は下でボールを待ち構えています.斜塔の上に立った人がボールを落とすと同時に笛を吹くので,その音を聞いたらストップウォッチのボタンを押して計測を開始します.そして地面に落ちたのを見て計測を止めます.
明らかに,ボールの落ち始めや到着と全く同時にボタンを押すことは不可能です.少し早かったり遅かったりするでしょう.ですから1回の測定結果は真の落下時間とはずれてしまいます.
しかしこれを何度も測定すればどうでしょうか.ずれは早い方にも遅い方にも満遍なく生じるので,複数回測定した際の平均は真の落下時間に近づいていくことが期待されます.そして測定値がその平均の周りにどの程度ばらつくかもわかります.つまり押すタイミングによる不確かさはこのばらつきで見積もることができるのです.
複数の結果が真の値の周りにばらついている,というのが「統計的」のイメージです.
一方,このストップウォッチ自体の進みが早い場合はどうでしょう.本当は$1 \ \mathrm{s}$しか経っていないのに表示が$1.1 \ \mathrm{s}$進んでしまうような場合です.このときはいくら実験を繰り返しても,同じストップウォッチを使っている限りそのずれが変わることはありません.得られる落下時間は常に1.1倍大きなものになります.
複数の結果が全て同じ方向に同じようにずれている,というのが「系統的」のイメージです.「赤系統の色」の「系統」みたいなものです.
${}^{8}$ 多くの場合「統計誤差」と呼ばれます.
${}^{9}$ こちらも大抵は「系統誤差」と書かれます.
なぜこの2つを区別するのかというと,まさしく「統計的に扱えるかどうか」という点で断絶があるからです.
統計的不確かさは測定の回数を増やしていけば見積もることができます.しかも小さくすることもできます.そして多くの場合は「正規分布に従う」という極めて良い振る舞いをします.びっくりするほどのお利口さんです.
これに対して系統誤差は実験回数を増やしても改善しませんし,実験によって要因も違い,とにかく測定器の校正をしなければなりません.何より統計的に良い振る舞いをしません.
次々章で分布を用いた統計的な議論によって不確かさを扱うのですが,それが適用できるのは統計的不確かさだけなのです.
扱い方が違うために両者を分けて考えているのです${}^{10}$.
${}^{10}$ 実際は,というか最近は何やら変化が生じつつあるようですが.詳細は本稿の末尾に記したGUMの文書でどうぞ.
上述の説明ではさも「全ての不確かさは統計的なものと系統的なものとに綺麗に二分できる」というような雰囲気で書きましたが,実際はそんなことはありません.同じものに起因する不確かさが,実験のセットアップや測定方法によっては系統的になったり統計的になったりします.良い例をTaylor (2025)から改変して記述します.
何かの目盛を読むとしましょう.人によって読み方に色々な「癖」「傾向」があります.ちょっと斜めに読んでしまったり,眼鏡で読みがずれてしまったり.ですから同じ人が何度も実験をして目盛を読み取っていたなら,この傾向が変わることはないので系統的不確かさになります.
一方もし複数人で目盛を読むことができれば,人によって異なる傾向が全体では平均化されると予想されるので統計的な不確かさとして扱えます.
実験の際はある不確かさが系統的か統計的か,きちんと吟味することが必要です.また系統的なものよりは統計的なものの方が扱いやすいことが多いので,上述のような場合はなるべく複数人で読むのが良いでしょう.
統計的不確かさに話を限る前に,もう1つだけ共通事項を話しておきます.不確かさをどう表記するか,ということです.
まずは基本から.最良推定値に正負の符号かカッコ書きで不確かさを書きます.単位も一緒に書きます.カッコ内の数値の位は最良推定値の一番下の位と同じです.
$$ d = 2.41 \pm 0.03 \ \mathrm{m} = 2.41(3) \ \mathrm{m}$$
不確かさは基本的に1桁だけです.$d = 2.41 \pm 0.032 \ \mathrm{m}$のような書き方はしません.丸めます.ただし不確かさの一番上の位が$1$または$2$の場合はもう1桁下まで書きます.
$$ d = 2.41 \pm 0.12 \ \mathrm{m} = 2.41(12) \ \mathrm{m}$$
$$ d = 2.41 \pm 0.23 \ \mathrm{m} = 2.41(23) \ \mathrm{m}$$
$2.41(12)$という表記を見たときはこのように理解しないといけないです.$2.41 \pm 0.012$ではないので注意が必要です.
指数表記の場合は以下のように書きます.
$$ d = (2.41 \pm 0.03) \times 10^{2} \ \mathrm{m} = 2.41(3) \times 10^2 \ \mathrm{m}$$
指数部(10の何乗)は揃えた方が見やすいです.
最良推定値には当然有効数字があるわけですが,この有効数字よりずっと大きな不確かさがついている場合には,それより下の位はもはや有効ではありません.
$$\enclose{horizontalstrike}{ d = 2.415 \pm 0.3 \ \mathrm{m} }$$
$$ d = 2.4 \pm 0.3 \ \mathrm{m} = 2.4(3) \ \mathrm{m}$$
もし最良推定値が有効数字で$2.41$になり,これに比べて不確かさが$0.00003$のように小さい場合は,この不確かさを表記しても仕方無いので書かないことがあります.ただしその場合でも「誤差は十分に小さかった」という旨を記しておくことが重要です.なぜなら世界には慣習という深淵があって,そこから這い出てくる謎の規則が「$2.41$は$2.41 \pm 0.005 = 2.410(5)$のことである」とおどろおどろしい声で囁くからです.
以上が,不確かさの表記の決まりになります.
それではいよいよ
前々章で「統計的不確かさは同じ測定を繰り返すことで云々」と書きました.これについて詳しく見るため,冒頭の例に戻ってアリストテレスAの実験を覗いてみます.実のところ彼はこの実験に本気で,なんと100回の測定をしていました.全ては載せられませんがその値は例えば以下のようになっています.
$$ 12.3, \ 21.1, \ 16.5, \ 14.9, \ 16.4, \ \ldots$$
ではこの結果において「どんな値が」「どのくらいの頻度で」出ているのでしょうか.それを可視化したのがヒストグラムです(図3).
アリストテレスAの100回の実験結果のヒストグラム.横軸はある1回の測定結果を幅$1 \ \mathrm{g \, cm}^{-3}$でサンプリングしたものであり${}^{11}$,縦軸はそのような測定結果が何回得られたかを表している.橙色の直線は100回の測定結果の平均$14.8 \ \mathrm{g \, cm}^{-3}$を表す.冒頭の$15 \ \mathrm{g \, cm}^{-3}$はこれを四捨五入して得られたものである.
図3は$14, \, 15 \ \mathrm{g \, cm}^{-3}$付近の数値が多く得られていることを示しています.これだけからでも,何となく「真の値は$14 \ \mathrm{g \, cm}^{-3}$から$15 \ \mathrm{g \, cm}^{-3}$の間にありそうだ」ということがわかります.また不確かさも,最低値が$10$で最高値が$22$なので,大きく見積もったとして$6$から$7$程度だと言えそうです.
${}^{11}$ 箱の幅の取り方には注意が必要です.小さく取りすぎると全ての箱が高さ0か1になり,どういう値が多く得られたかという情報が失われます.大きすぎるとほとんどのデータが同じ箱になってしまい,やはり情報が失われます.
これらの見積もりを正当化するために測定回数を(仮想的に)無限大にするのですが,その前にこのヒストグラムが持つ重要な意味を指摘しておきます.
それは次のようなものです.ヒストグラムの中の$i$番目の箱の高さを$F_i$とし,測定回数を$N$として$f_i = F_i / N$とすると
$$ f_i = \text{(ある1つの測定結果が$i$番目の箱に入っている割合)}$$
となります.
以上のことを踏まえた上で測定回数を無限大にします.データの数が増えるほどヒストグラムの箱の幅は小さくでき,特に無限大にすれば微小量にできます.すると上記のヒストグラムは(微小な幅の箱の上辺を繋いで)ある連続曲線になるでしょう.この連続曲線$f(x)$を極限分布とか(無限)母集団分布と言います(図4).
アリストテレスAの実験の極限分布.測定回数を(仮想的に)無限大にしたときに,どのような値がどのくらいの割合で現れるかを示す.横軸が密度,縦軸が割合.$15 \ \mathrm{g \, cm}^{-3}$にピークが来ている.
極限分布自体を実験で得ることは当然できません.しかしある実験の極限分布は,ヒストグラムの極限として確かに存在すると考えることができます.
すると驚くべきことが言えます.上で$f_i$の意味を述べましたが,極限分布$f(x)$については次のことが成立するのです.
$$ f(x)\mathrm{d}x = \text{(ある測定結果が$x$と$x + \mathrm{d}x$の間に入る確率)}$$
ヒストグラムでは「既に行った実験結果がどの箱に入っているか」が主張されていました.それに対し,極限分布では無限回の測定を行っているので「ある実験結果がどんな値か」を主張することができるのです! 「既に行った」という修飾語を取り外せるのです!
ここで発想を転換します。
今まではヒストグラムの極限,つまり実験回数を増やした極限として極限分布を考えていました.これをひっくり返して次のように考えます.
つまり測定値$x$は$f(x)$に従うのです.
さてもし$f(x)$がわかっていたなら,無限回の測定を行った場合の平均値$\bar{x}$と標準偏差$\sigma_x$が次のように求まります.
$$ \bar{x} = \int_{-\infty}^{\infty} \mathrm{d}x \ x \, f(x)$$
$$ {\sigma_x}^2 = \int_{-\infty}^{\infty} \mathrm{d}x \ (x - \bar{x})^2 \, f(x)$$
この$\bar{x}$のありがたみは以下の仮定を置くことで明らかになります.
このとき以下が成立します.
これは統計的不確かさの定義(の2行目)から言えることです.
このことにより,実験結果から真値を求めることは今や「有限個の実験結果から$\bar{x}$を推定する」ということに置き換えられます.
また$\sigma_x$が測定の統計的不確かさの指標になります。真値に一致する$\bar{x}$から測定結果がどのくらい離れるかを表すからです。
さて、1つ注意すべき点があります.
ここまでの議論は全て「無限回の測定」の話をしています。有限個しかない実際の実験の測定結果がどう関わってくるのかはまだ何もわかりません。
ではなぜ$\bar{x}$や$\sigma_x$について述べたのか?
──実は$f(x)$がある分布ならば,有限回の測定結果の平均や標準偏差から上記の$\bar{x}, \, \sigma_x$が求められるのです。
そしてもちろんこの「ある分布」こそが、次回導入する正規分布なのです.
本稿では
について記述しました.また正規分布の重要性について仄めかしました。
本当は正規分布まで書くつもりだったのですが、そうすると次回書くことが減るので今回はここまでとします${}^{12}$。この方がきりも良いですから。
そういうわけで、続く次稿では
${}^{12}$ 書き加えておくと,時間が足りませんでした.
ちなみに第3稿もあります.そこではデータが$x, \, y$双方に不確かさを持つ場合の任意の関数に対するフィッティングを扱うつもりです。MATLABで作ったプログラムがあるのでそれも放出しようかと思っています。
それでは皆さん、良い12月を。
──────────
冒頭に書いたように,誤差解析の良い教科書というのは私の知る限り多くありません.しかしそんな荒野にあって,月光の下に燦々たる花があります.
J. R. Taylor. (2025). 『計測における誤差解析入門』. 東京化学同人.
英語圏でよく読まれている誤差解析の教科書が和訳されたもので,本稿の執筆に当たっても参照した書籍です.大体のことは載っていますし,説明が詳しくて「何としても読者に理解させる」という意志を感じます.ただ人によっては冗長な感じがあるかもしれません.また序盤でとりあえず様々な公式を出しておきそれを5章で正規分布によって説明・証明し直すという組立は,伝統的ではあるものの論理的かと言われると......とはいえやはり良書です.これがあれば大抵は何とかなります.私もいつも助けてもらっています.おすすめ.
P. R. Bevington & D. K. Robinson. (2003). "Data Reduction and Error Analysis for the Physical Sciences". McGraw-Hill.
こちらは洋書.Taylorと同じく英語圏ではよく知られたもののようです.内容はTaylorよりも統計や数学に寄っている印象.証明をちゃんと書いてくれるので安心感があり,かつ実際の実験結果を使って解析方法もきちんと説明してくれます.フィッティングに関する記述が多いのもgood.難点は古いことと,本邦では殆ど流通していなそうなことです.私は図書館で借りています.
I. Hughes & T. Hase. (2010). "Measurements and their Uncertainties: A practical guide to modern error analysis". Oxford University Press.
こちらも洋書で,Taylor及びBevingtonと並んでよく読まれています.私は読んだことがありませんが(図書館の蔵書にも無し),図表が多く,数式は少なめで,簡潔であるそうです.あと私が観測した限りではこの中で一番安いです.
書籍だとこの三冊くらいでしょうか.国内の科学者の方々ももっと書けば良いと思うのですが.
これを執筆している最中に
Joint Committee for Guides in Metrology: JCGM
という国際機関の存在を知り,慌てて書き足しました.国際度量衡局(
Bureau International des Poids et Measure: BIPM
)などがSI単位系の維持のために設けられているのと同様,測定とその不確かさの扱いの国際標準を確立・維持するために設立されたのがJCGMです.
この機関がGuides to the expression of Uncertainty in Measurement (GUM)という文書を出しており,
JCGMのページ
や
BIPMのページ
で読むことができます.以前までは日本規格協会が本邦訳を出していたのですがもうやめてしまったらしく,本当に困った際は上記のガイドを読むしか(多分)手立てがありません.私も少しずつ読もうかと思っています.
ちなみにこの文書によると"Error" (誤差) という語は廃止の方向に向かっているようです.他にも従来の誤差解析論から変化があり,今後はそれに則った誤差解析の本が出てくると思われます${}^{13}$.
${}^{13}$ その際は「不確かさ解析」と呼ばれることになるのですかね.語呂が悪い.「尤度解析」とか「曖度解析」とかどうでしょうか.