0

ピアソンの積率相関係数, スピアマンの順位相関係数, ファイ係数

358
0
$$$$

はじめに

組のデータ $(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき, ピアソン(Pearson)の積率相関係数 $r$ は次の式で求められる.

\begin{align} r &= \frac{\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i - \bar x)^2}\sqrt{\sum_{i=1}^n (y_i - \bar y)^2}}\\ &=\frac{n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2}}\\ &=\frac{\sum_{i=1}^n x_iy_i - \frac{1}{n}(\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{\sum_{i=1}^n x_i^2 - \frac{1}{n}(\sum_{i=1}^n x_i)^2}\sqrt{\sum_{i=1}^n y_i^2 - \frac{1}{n}(\sum_{i=1}^n y_i)^2}} \end{align}

また, 順位データ$(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき, スピアマン(Spearman)の順位相関係数 $r_s$ は次の式で求められる.

\begin{align} r_s = 1-\frac{6\sum_{i=1}^n (x_i - y_i)^2}{n(n^2-1)} \end{align}

そして, 2$\times$2 の分割表が次のように与えられたとき,

\begin{array}{|c|cc|} \hline y\backslash x &0 & 1\\ \hline 0 & a & b\\ 1& c & d\\ \hline \end{array}

ファイ係数 $\phi$ は次の式で求められる.

\begin{align} \phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \end{align}

多くの教科書には, 「順位相関係数は積率相関係数の特殊な場合である」とか, 「ファイ係数は2値データどうしの相関係数と等しい」とか書いてある.

でもそのことの証明などはたいてい省略されている.

ここでは, 初等的な計算により, 順位相関係数は順位データどうしの相関係数であり, ファイ係数は2値データどうしの相関係数であることを示す.

スピアマンの順位相関係数

$x_i$, $y_i$ はどちらも順位データ(1から$n$までの重複のない自然数)であるから, $\sum_{i=1}^n x_i=\sum_{i=1}^n y_i$, $\sum_{i=1}^n x_i^2=\sum_{i=1}^n y_i^2$ が成り立つ.

\begin{align} r &= \frac{n\sum_{i=1}^n x_i y_i - (\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}y_i)^2}}\\ &=\frac{-(-2\sum_{i=1}^n x_i y_i) - \frac{2}{n}(\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2}\\ &=\frac{-(\sum_{i=1}^nx_i^2 + \sum_{i=1}^ny_i^2 -2\sum_{i=1}^n x_i y_i) +\sum_{i=1}^nx_i^2 + \sum_{i=1}^ny_i^2 - \frac{2}{n}(\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2}\\ &= 1- \frac{\sum_{i=1}^n(x_i-y_i)^2}{2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2} \end{align}

ここで,

\begin{align*} \mbox{(分母)} &= 2\sum_{i=1}^n x_i^2 - \frac{2}{n}(\sum_{i=1}x_i)^2\\ &= 2\frac{1}{6} n (n+1)(2n+1) - \frac{2}{n}(\frac{1}{2}n(n+1))^2\\ &=\frac{1}{6} ( 2n(n+1)(2n+1) - 3n(n+1)^2 )\\ &=\frac{1}{6} n(n^2-1) \end{align*}

結果,
\begin{align} r = r_s = 1-\frac{6\sum_{i=1}^n (x_i - y_i)^2}{n(n^2-1)}. \end{align}

ファイ係数

分割表を再掲する.

\begin{array}{|c|cc|} \hline y\backslash x &0 & 1\\ \hline 0 & a & b\\ 1& c & d\\ \hline \end{array}

2値(0または1の値をとる)変数 $x_i$, $y_i$ の積の合計 $\sum_{i=1}^n x_i y_i$ は分割表の $d$ の値であるから,

\begin{align} r &= \frac{n\sum_{i=1}^n x_i y_i - (\sum_{i=1}^nx_i) (\sum_{i=1}^ny_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2}}\\ \end{align}

\begin{align} \mbox{(分子)} &= nd - (b+d)(c+d)\\ &=(a+b+c+d)d-(bc+bd+cd+d^2)\\ &=ad-bc \end{align}

\begin{align*} n\sum_{i=1}^n x_i^2 - (\sum_{i=1}x_i)^2 &= n(b+d) - (b+d)^2\\ &=(a+b+c+d - (b+d))(b+d)\\ &=(a+c)(b+d) \end{align*}

\begin{align*} n\sum_{i=1}^n y_i^2 - (\sum_{i=1}y_i)^2 &= n(c+d) - (c+d)^2\\ &=(a+b+c+d - (c+d))(c+d)\\ &=(a+b)(c+d) \end{align*}

結果,

\begin{align*} r=\phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \end{align*}

おしまい.

投稿日:20201118

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

cocotan
0
1682

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中