RepoLog│レポログ

研究職サラリーマンが日々感じたことをレポートするブログです。

REPOLOG

日々感じたことをレポートするブログ

サルでも分かる!相関係数とは何か

相関係数の求め方

相関係数を求めるには、次の式を利用します。

相関係数とは

この式を使うことで、2つの(2次元)データ間にある関係性を数値化することができるのです。

本日は、この相関係数を求める式を「サルでも分かる!」くらいの意気込みで、図解やイメージ図を駆使しながら解説していこうと思います。 

 
おいおい、こんなの絶対サルには分かんね~って…

 
まぁまぁ。難しそうだけど、とってもシンプルな構造してるんだよ!

 

 

 

2つのデータ間の関係を読み解くことは、ビジネスや医療、投資など様々な分野において非常に高い価値があります。

そのため、統計学や数学が苦手なんだけど、相関係数くらいは知っておきたいという方も大勢いるのではないでしょうか。この記事では、そんな数字が苦手な方にも「相関係数とは何か」を理解してもらえることを目指していきます。

 

相関係数を求める式の構造

相関係数の式は、確かにサル君のいうように一見とても複雑な形をしていますが、その構造は実にシンプルです。

 
複雑な式だけど、ポイントはたった2つだよ

 

 

 

相関係数の分母は「標準偏差」

f:id:sekkachipapa:20170923163108p:plain

相関係数の式の構造で、まず押さえておくべきことは分母の式の持つ意味です。

この式は一見難しそうに見えますが、やっていることは

f:id:sekkachipapa:20170923142222p:plain

という流れを「x」というデータ群と、「y」というデータ群で各々行っているだけです。この流れで計算すると、それぞれの標準偏差が分かります。

標準偏差がそもそもよく分からないという方は、まずは標準偏差とは何かを理解することから始めることをおすすめします。

 
つまり、相関係数の分母は「標準偏差」だってわけだ。

 
その通り!2つデータがあるから、それぞれ計算しないといけないけどね。

 

 

 

相関係数の分子は「共分散」

f:id:sekkachipapa:20170923164001p:plain

次に、相関係数の式の分子に注目します。

相関係数の式の分子は、「共分散」と呼ばれる指標です。つまり、相関係数を求める式を理解するには、

  1. 標準偏差(分母)
  2. 共分散(分子)

という2つのことを理解しておけばいいことになります。

相関係数の「相関」とは何か

相関係数の式構造を解き明かす前に、相関係数とはどのような道具なのかをもう少し明らかにしておきます。

 
こんな難しい相関係数って、何のためにあんのさ!!

 
相関の強弱を数字で表すために使うんだよ。

 
じゃあ、相関って何なんだよ!!

 

 

相関とは2つのデータを対等に捉え、その2つのデータの間に、

  • 一方が増加すれば、それにしたがって他方も増加する
  • 一方が増加すれば、それにしたがって他方は減少する
という傾向がみられるとき、2つの変量の間に相関がある、または相関関係があるといいます。
例えば、
  • 「気温」と「ビールの売上げ」
  • 「学力」と「運動神経」
というように、2つのデータの間に相関関係があるのかどうかが気になる場面は多々あるわけです。(相関関係と因果関係についてはこちら

相関を視覚的に把握する方法

2つの変量からなるデータを平面上に図示したものを「散布図」といいます。

f:id:sekkachipapa:20170430143121p:plain

散布図を描く目的は、視覚的に相関関係を確認することにあります。散布図を描くことで、パッと見ただけで、2つのデータに相関関係があるかないかを大雑把に判断することができるわけです。

 
おっ!もうこれで関係性が分かる

 
いやいや、データを比較するうえで、数値化はすごく大事なんだよ

 

 

 

散布図を描くことで、パッと見の感覚的な捉えはできますが、似た図になったときに、どちらの相関の方が強いか判断に迷う場面があります。

こうした場面で、相関の強弱をしっかりと判断するためには、やはり相関関係を数値化する必要性があるわけです。

そこで、相関関係を数値化するために、「共分散」という指標にたどり着くわけです。

 

共分散とは何か

「共分散とは何か」の答えを先に言ってしまうと、共分散とは相関の有無を確認する指標です。

共分散を求めることで、2つのデータの間に、

  • 一方が増加すれば、それにしたがって他方も増加する(正の相関)
  • 一方が増加すれば、それにしたがって他方は減少する(負の相関)
  • 関係性はない(相関がない)

のいずれの関係にあるかを数値化し、読み取ることができます。

では、どのようにして相関を数値化するのでしょうか。

共分散の意味

ここでは、「体力テスト」と「学力テスト」という2つのデータを例に挙げ、相関の数値化を目指してみることにします。

あるクラスで、「体力テスト」と「学力テスト」(いずれも100点満点)のテストを受け、その2つのデータを散布図にしたところ次のようになりました。

f:id:sekkachipapa:20170924081716p:plain

ここでこの散布図から「体力テスト」と「学力テスト」に相関がどれほどあるのかを数値化することが目標になります。

そして、相関を数値化するため、まずはそれぞれのデータ(体力テストと学力テスト)の平均点を求めます。

これは相関係数の式では、次の部分を求めていることになります。

f:id:sekkachipapa:20170924082508p:plain

それぞれのテストの平均点を求めたら、散布図内に平均点を線で書き込みます。

f:id:sekkachipapa:20170924082846p:plain

この平均点ラインを散布図に書き込むことで、散布図は4分割されました。

ここで、4分割された各ブロックの特徴をドラえもんのキャラクター達*1でイメージすると、次のようなイメージが持てます。

f:id:sekkachipapa:20170924084449p:plain

 
なるほど、キャラクターでイメージできるな。

 
でしょ!ここでもう一度共分散の式を見つめてみよう。

 

 

 

f:id:sekkachipapa:20170924085546p:plain

共分散の式をよく見ると、学力と体力のテストそれぞれで(自分の点数)ー(平均点)を計算し、掛け算していることが分かります。

そして、共分散では、この掛け算の答えの『符号(+・-)』に注目します。

4つのゾーンにおいて、掛け算の答えの符号をまとめたものが、次の表になります。

f:id:sekkachipapa:20170430154109p:plain

注目すべきは、

  • 出木杉とのび太はプラス
  • ジャイアンとスネ夫はマイナス

になっていることです。

正の相関が強いと共分散はどうなるのか

f:id:sekkachipapa:20170924090853p:plain

もしそれぞれのテストの散布図がこのようになった場合、共分散はどうなるのでしょうか。

この散布図を見ると、学力テストの点数が高いと体力テストの点数も高くなっていく正の相関があることが視覚的に確認できます。

これを先ほどの4分割とキャラクターで捉えるならば、このクラスには出木杉ゾーンの生徒ととのび太ゾーンの生徒が沢山いることになります。

f:id:sekkachipapa:20170924091842p:plain

このような状態で、共分散を計算するとどうなるのでしょうか。

f:id:sekkachipapa:20170924092857p:plain

共分散の式を見てみると、Σ(シグマ)という記号があります。これは、足し算していくことを表した記号です。

先ほどの正の相関では、出木杉ゾーンのび太ゾーンに入る生徒が多くいるのでした。

f:id:sekkachipapa:20170924093959j:plain

 
+ばっかりだから、当然答えも+になるよな。

 
-のジャイアンとスネ夫は、ほとんどいないわけだからね。

 

 

 

共分散では『符号』が大事と言いましたが、その理由は符号で相関の状態を読み取ることができるからです。

  • 共分散「+」→正の相関
  • 共分散「ー」→負の相関
  • 共分散「0」→相関なし

というように、共分散の計算をすることで相関関係があるかないか判断できるというわけです。

 
じゃあ、共分散が分かれば相関係数なんていらなくね?

 
いやいや、実は共分散には問題点があるんだよ

 
は!?もう勘弁してくれよ!!

 

 

共分散の問題点

共分散を計算することで、相関関係のあるなしを把握することができることは分かったわけですが、共分散には次のような厄介な問題点が潜んでいます。

共分散の問題点

データの「単位」によって値が変化する

共分散の結果は、データの単位に依存してしまうことで、相関関係の「あるなし」は分かるのですが、「強弱」の判断ができないのです。

といわれてもピンと来ないので、共分散の復習も兼ね、あるクラス5人の「身長」と「体重」の共分散を計算してみることにします。

f:id:sekkachipapa:20170430162007p:plain

このクラスのデータをもとに、まずは身長と体重の平均値をそれぞれ求めます。

  • 身長:(1.4+1.5+1.6+1.7+1.8)÷5=1.6(m)
  • 体重:(40+50+60+65+70)÷5=57(kg)

この平均値から、4つのゾーンのどこに所属するのかを求めていきます。

f:id:sekkachipapa:20170430162555p:plain

①:(自分の身長)-(身長の平均)
②:(自分の体重)-(体重の平均)

共分散は①×②の平均値ですので『1.5』となります。

次に、同じデータを

  • 身長の単位:m→cm
  • 体重の単位:kg→g

に変えて共分散を求めてみます。

f:id:sekkachipapa:20170430163032p:plain

単位を変えた後の共分散①×②の平均値は『150000』となりました。

 
同じデータ使ってんのに、めちゃくちゃ増えとるがなっ

 
そう。共分散は単位によって値が変わっちゃうんだよ。

 

 

 

このように、単位を変えたことで実質同じデータを取り扱っているにも関わらず、共分散の値が異なってしまうのです。

同じデータを扱っているのであれば、同じ相関なわけですから、これは非常に大きな問題です。

 
この共分散の問題点を解消したものが相関係数なんだよ

 
ようやく相関係数登場かよっ

 

 

相関係数の式と意味

共分散の問題点を解消するために用いられる指標こそ、本日の目標である「相関係数」になります。

相関係数とは、分子に共分散・分母に標準偏差という構造でした。

f:id:sekkachipapa:20170923163108p:plain

共分散は、扱うデータの単位に影響を受けてしまう指標だったため、共分散を単位の関係ない世界に引きずり込む必要があります。

単位に関係ない世界に引きずり込むことを、数学では『無名数化する』といいます。

つまり、共分散を無名数化するために、標準偏差で割っていることになります。

 
標準偏差で割るとなぜ無名数化できるのかはとっても難しい話のようです。

 

 

 

共分散を無名数化し、相関係数を導き出したのはピアソンという数学者のようで、そのため相関係数は、ピアソンの積率相関係数という正式名が付いています。

相関係数の式を用いれば、先ほどの単位の違うデータ間の相関係数はどちらも『0.98』となり、一致することが確認できます。

共分散を無名数化した相関係数は、次のような規準で解釈されることが一般的(分野により異なる場合もある)です。

f:id:sekkachipapa:20170924103730j:plain

相関係数こそデータ分析の第一歩

本日は、相関係数について「サルでも分かる!」を目標に、その求め方と意味についてまとめてきました。

 
まぁ結局あれだろ…サルには必要ないだろ…

 
そうだね。でも、知っていると何かと便利だと思うよ!

 

 

 

かなり話が難しくなってしまったかも知れませんが、相関関係を知り、データ分析を行うことでお金に直結する結果が得られます。

この記事をきっかけに、相関係数を色々なシーンで使ってみようと考えてくれる方がいたら嬉しいです。

ではでは。

 

最新レポート

レポート一覧

レポート一覧
TOP画面へ