0

ピアソンの積率相関係数, スピアマンの順位相関係数, ファイ係数

446
0
$$$$

はじめに

組のデータ $(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき, ピアソン(Pearson)の積率相関係数 $r$ は次の式で求められる.

\begin{align} r &= \frac{\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i - \bar x)^2}\sqrt{\sum_{i=1}^n (y_i - \bar y)^2}}\\ &=\frac{n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2}}\\ &=\frac{\sum_{i=1}^n x_iy_i - \frac{1}{n}(\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{\sum_{i=1}^n x_i^2 - \frac{1}{n}(\sum_{i=1}^n x_i)^2}\sqrt{\sum_{i=1}^n y_i^2 - \frac{1}{n}(\sum_{i=1}^n y_i)^2}} \end{align}

ちなみにコサイン類似度は

\begin{align} \mathrm{cosin\_similality(x,y)} &= \frac{\sum_{i=1}^n (x_iy_i)}{\sqrt{\sum_{i=1}^n x_i^2}\sqrt{\sum_{i=1}^n y_i^2}} \end{align}

なので相関係数は標本平均からのズレ具合についてのコサイン類似度です.

また, 順位データ$(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき, スピアマン(Spearman)の順位相関係数 $r_s$ は次の式で求められる.

\begin{align} r_s = 1-\frac{6\sum_{i=1}^n (x_i - y_i)^2}{n(n^2-1)} \end{align}

そして, 2$\times$2 の分割表が次のように与えられたとき,

\begin{array}{|c|cc|} \hline y\backslash x &0 & 1\\ \hline 0 & a & b\\ 1& c & d\\ \hline \end{array}

ファイ係数 $\phi$ は次の式で求められる.

\begin{align} \phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \end{align}

多くの教科書には, 「順位相関係数は積率相関係数の特殊な場合である」とか, 「ファイ係数は2値データどうしの相関係数と等しい」とか書いてある.

でもそのことの証明などはたいてい省略されている.

そこでここでは初等的な計算により, 順位相関係数は順位データどうしの相関係数であり, ファイ係数は2値データどうしの相関係数であることを示す.

スピアマンの順位相関係数

$x_i$, $y_i$ はどちらも順位データ(1から$n$までの重複のない自然数)であるから, $\sum_{i=1}^n x_i=\sum_{i=1}^n y_i$, $\sum_{i=1}^n x_i^2=\sum_{i=1}^n y_i^2$ が成り立つ.

\begin{align} r &= \frac{n\sum_{i=1}^n x_i y_i - (\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}y_i)^2}}\\ &=\frac{-(-2\sum_{i=1}^n x_i y_i) - \frac{2}{n}(\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2}\\ &=\frac{-(\sum_{i=1}^nx_i^2 + \sum_{i=1}^ny_i^2 -2\sum_{i=1}^n x_i y_i) +\sum_{i=1}^nx_i^2 + \sum_{i=1}^ny_i^2 - \frac{2}{n}(\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2}\\ &= 1- \frac{\sum_{i=1}^n(x_i-y_i)^2}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2} \end{align}

ここで,

\begin{align*} \mbox{(分母)} &= 2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2\\ &= 2\frac{1}{6} n (n+1)(2n+1) - \frac{2}{n}(\frac{1}{2}n(n+1))^2\\ &=\frac{1}{6} ( 2n(n+1)(2n+1) - 3n(n+1)^2 )\\ &=\frac{1}{6} n(n^2-1) \end{align*}

結果,
\begin{align} r = r_s = 1-\frac{6\sum_{i=1}^n (x_i - y_i)^2}{n(n^2-1)}. \end{align}

ファイ係数

分割表を再掲する.

\begin{array}{|c|cc|} \hline y\backslash x &0 & 1\\ \hline 0 & a & b\\ 1& c & d\\ \hline \end{array}

2値(0または1の値をとる)変数 $x_i$, $y_i$ の積の合計 $\sum_{i=1}^n x_i y_i$ は分割表の $d$ の値であるから,

\begin{align} r &= \frac{n\sum_{i=1}^n x_i y_i - (\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}}\\ \end{align}

\begin{align} \mbox{(分子)} &= nd - (b+d)(c+d)\\ &=(a+b+c+d)d-(bc+bd+cd+d^2)\\ &=ad-bc \end{align}

\begin{align*} n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2 &= n(b+d) - (b+d)^2\\ &=(a+b+c+d - (b+d))(b+d)\\ &=(a+c)(b+d) \end{align*}

\begin{align*} n\sum_{i=1}^n y_i^2 - (\sum_{i=1}y_i)^2 &= n(c+d) - (c+d)^2\\ &=(a+b+c+d - (c+d))(c+d)\\ &=(a+b)(c+d) \end{align*}

結果,

\begin{align*} r=\phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \end{align*}

おしまい.

投稿日:20201118
更新日:531
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

cocotan
0
2339

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中