学部生と一緒に、竹村先生の「新装改訂版 現代数理統計学」を輪読する機会がありました。その際に分散(variance)あるいは標準偏差(standard deviation)、共分散(covariance)、相関係数(correlation coefficient)をまとめた話の内容に関して結構ウケが良かったので、そこから少し一般向けに表記を改変したものをここに置いておきます。
相関係数
この手の話では準備が必要です。統計学の入門的な話をするに当たっては1つの確率変数で考えるのが普通なのですが、相関の話は2変量以上で行われる議論なので、ここでは2つの確率変数で考えます。それから、確率変数は離散型と連続型どちらで考えても、細かいところを除いては一緒なので、この記事では後者にします。
というわけで
同時確率密度関数に関しては2つの確率変数で考えているわけだから、1つの確率変数に着目したいときには、一方をガン無視してもう一方だけを全範囲積分することもできます。その結果として周辺確率密度関数なるものが出来上がります。たとえば
という感じになります。確率分布関数に関しても同様に考えることができます。
同時分布と周辺分布の関係を頑張って散布図に表してみると下のようになります。同時分布は上から見たときの等高線と思ってもらって構いません。
scatterplot
統計学の入門書を見ると、
var
ピタゴラスの定理は余弦定理に一般化できるので、直角
となって、分子が
2つのベクトルが独立であれば内積は0になるという発想から、同じ結論をベクトルからも得ることができます。統計学では行列代数を多用するのですが、確率変数の直線的な関連の度合いを測るという点で、むしろベクトルの方が分かりやすいです。
では確率変数
scatterplot2
ここまでの議論を、準備で述べた同時確率の話に持ち込めば、次の結論が得られるでしょう。互いに互いの確率分布の情報を持たないことこそが独立であるわけだから、同時確率密度関数がそれぞれの確率密度関数の積であればよいのだと。つまり
という条件を満たせば独立であるということを示唆しているにすぎません。先の節では、
そもそも標準偏差なんてあくまでも共分散を標準化しただけなので、実はここまでの話って茶番です。結局のところ、
共分散は2つの確率変数の偏差積の平均をとったものとして紹介されていることが多いです。共分散の中でも代表的な表現方法として、以下のようなものがあります。
は2×2対称行列かつ非負定値行列で、その対角要素は確率変数の分散である。
この分散共分散行列は、分散の概念を拡張したものと解釈できます。しかしこの概念が突然出てくると少し難しく感じるので、モーメントを用いてもう少し掘り下げてみようと思います。
・原点まわり
・平均まわり
ここで
これを用いると、共分散は以下のように定義できます。
共分散は平均まわり
定義3と定義4をもとに、定義2にある分散共分散行列を変形すると、
となります。ここで
ここまでの記法を
分散の個所に関しては高校生にも参考にしてもらえるよう、マイルドな表現にしてみました。とにかくここら辺のトピックはさまざまな話に展開しやすく、皆が一度は苦しむであろう自由度の説明にはもってこいですし、独立性と無相関性の個所は行列代数を用いてもう少し丁寧に追いたかった個所です。最低限の理解ということで分散共分散行列に関しては深掘りしませんでしたし、主に2変数に限定していたり、細かいところや途中計算を省いている個所もあります。時間が許されるならば追記なり新規で記事を書こうかなあと思っています。