このノートでは高校数学で習う相乗平均の統計的にどう使われるのか、簡単な例を書いています。
$n$個の正の実数のデータ$x_1,x_2,\cdots,x_n$に対して、
$$\sqrt[n]{x_1x_2\cdots x_n}$$
を$x_1,x_2,\cdots,x_n$の相乗平均と呼びます。
高校の教科書では、正の実数に対する不等式評価の一つとして、相加平均・相乗平均の関係が紹介されています。
$n$個の正の実数$x_1,x_2,\cdots,x_n$に対して、相加平均は相乗平均以上、すなわち、
$$\frac{x_1+x_2+\cdots+x_n}{n}\geqq\sqrt[n]{x_1x_2\cdots x_n}$$
が成り立ちます。
($x_1=x_2=\cdots=x_n$のときのみ等号が成立します。)
しかし、高校の教科書で相乗平均の登場シーンはこの不等式ぐらいしかありません。
個人的には、データの代表値としての相乗平均の使いどころを知らず、相乗平均を相加平均・相乗平均の関係のためだけに存在する概念だと認識する高校生が出てきてしまうことを危惧しています・・・
データの代表値としての相乗平均を使う具体例を挙げます。
ある野菜の年毎の収穫量が次のようになっているとします。
$2017$年 | $2018$年 | $2019$年 | $2020$年 | |
---|---|---|---|---|
収穫量($kg$) | $62500$ | $90000$ | $48600$ | $78732$ |
前年比($\%$) | $-$ | $144$ | $54$ | $162$ |
この野菜の$2017$年から$2020$年までの収穫量の前年比が平均で何$\%$増加なのか求めてみましょう。
取り敢えず、一般によく知られている平均(相加平均)を使って求めてみます。
$$\frac{1.44+0.54+1.62}{3}=1.20$$
つまり、平均で前年比$20\%$増加のようですが・・・本当にそうなっているのでしょうか?
実際に$2017$年の$62500kg$から$1.20$を繰り返し掛けてみましょう。
$2017$年 | $2018$年 | $2019$年 | $2020$年 | |
---|---|---|---|---|
収穫量($kg$) | $62500$ | $90000$ | $48600$ | $\color{red}{78732}$ |
前年比($\%$) | $-$ | $144$ | $54$ | $162$ |
$20\%$増加 | $62500$ | $75000$ | $90000$ | $\color{red}{108000}$ |
$2020$年の収穫量$78732kg$を大きく上回る$108000kg$になってしまいました。
どうやら相加平均の$20\%$増加は誤りのようです。
では、前年比の相乗平均を求めます。
$$\sqrt[3]{1.44 \times 0.54 \times 1.62}=1.08$$
平均で前年比$8\%$増加と求まりました。実際に$2017$年から$1.08$を繰り返し掛けると・・・
$2017$年 | $2018$年 | $2019$年 | $2020$年 | |
---|---|---|---|---|
収穫量($kg$) | $62500$ | $90000$ | $48600$ | $\color{red}{78732}$ |
前年比($\%$) | $-$ | $144$ | $54$ | $162$ |
$20\%$増加 | $62500$ | $75000$ | $90000$ | $108000$ |
$8\%$増加 | $62500$ | $67500$ | $72900$ | $\color{red}{78732}$ |
見事に$78732kg$と一致しました。相乗平均の前年比平均$8\%$増加が正解です。
$x_1,x_2,\cdots,x_n$の相加平均は、$n$個のデータを"足して"$n$で割っています。
相加平均は、足し算することに意味があるデータに対して、平均でどれくらいの足し算にあたるのかを表す代表値だと言えます。
対して、$x_1,x_2,\cdots,x_n$の相乗平均は、$n$個のデータを"掛けて"$n$乗根を取っています。
相乗平均は、掛け算することに意味があるデータに対して、平均でどれくらいの掛け算にあたるのかを表す代表値だと言えます。
上記の例では、ある2つの年の間の収穫量の比を求めるためには各年における前年比を掛ける必要があります。つまり、収穫量の前年比は掛け算することに意味があるデータです。だから相加平均ではなく相乗平均が使えます。
足し算することに意味があるのか、掛け算することに意味があるのか、このことを意識すれば、「このデータの平均は相加平均が適切なのか、それとも相乗平均なのか、あるいはまた別の平均なのか」判断を誤ることはないと思います。
以上、読んでいただきありがとうございます。