2つの連続量の関連の強さを示す指標。
XとYという2つの変数の相関係数という場合、普通はピアソンの積率相関係数をさしている。
XとYの値をそれぞれの変数における順位に変換して相関係数を求めたものはスピアマンの順位相関係数。
平均から大きくはずれた値がある場合は、スピアマンの順位相関係数の方が安定している。ピアソンの積率相関係数は、平均から大きくはずれた値による影響が大きく、わずかな外れ値で値が大きく変わってしまう。
2次曲線のような関係にある場合は、スピアマンの順位相関係数の方がよい。ピアソンの積率相関係数は、XとYが直線の関係を想定している。
「生下時体重と在胎期間のように、2変数間に曲線的関係のある状況の方が普通である。この場合、ピアソンのrは直線的関連の尺度なので関連を低く見積もることになるだろう。順位相関係数は変数がともに上昇する(あるいは逆方向に動く)傾向にあるかどうかをもっと一般的に評価するので、ここでは順位相関係数の方がよい。」
標本集団の相関係数から、母集団の相関係数が0かどうかを検定する。
わずかな相関であっても、相関がないとはいえない(=相関がある)という結果が出やすい。そもそも、相関があることが分かった上で、調査しているのにわざわざ無相関かどうかの検定はしなくてもよいのでは?
標本数100の場合、相関係数が0.2であっても有意水準5%で相関があるといえる。同様に、標本数400の場合、相関係数が0.1であっても相関があるといえる。 相関係数が0.2や0.1にどの程度の意味があるかは状況によるが、かなり弱い相関係数であっても、相関があるといえるのが無相関検定。
無相関検定を行うよりも、相関係数の信頼区間を示した方がよいと思う。 例)AとBの相関係数は0.2(95%信頼区間 0.004〜0.381)で、有意水準5%で相関がみられた。
標本数 100の場合、 相関係数(95%信頼区間) .1(-.098〜0.291) .2(.004〜.381) .5(.337〜.634)
標本数 400の場合 相関係数(95%信頼区間) .01(-0.88〜0.108) .1(.002〜.196) .5(.423〜.570)
相関係数の信頼区間の求め方: http://aoki2.si.gunma-u.ac.jp/lecture/Corr/corr3.html
書籍の記述は探し中。縣(2009).基本医学統計学 : EBM・医学研究・SASへの応用 第5版 p101 に正規分布への変換方法が記載されており、上記ホームページの式とも一致する。
相関係数の希薄化とは、信頼性の低い項目間で相関をとると、実際(真の値の間の)相関係数よりも低い値が生じてしまうこと。信頼性の低い尺度は誤差が大きくなるので相関係数は低くなります。
入学試験の得点と入学後の成績をとるような場合に生じます。入学者は入学試験の得点が高い集団なので、入学後の成績は入学試験で得点が低い人を除いた集団となり、相関が低くなってしまう。
物理の勉強時間と数学の成績で強い相関がみられるのは個人間の相関です。物理の勉強時間を増やすと数学の成績が上がるという個人内の相関と考えてはいけません。
相関係数が0でも散布図を書くと関係がみられることがある。独立とは片方の変数と別の変数がまったく関係ない場合。