RepoLog│レポログ

研究職サラリーマンが日々感じたことをレポートするブログです。

サルでも分かる!共分散と相関係数の意味

サルでも分かる共分散

日本学生支援機構が公表した奨学金の遅延率を偏差値と結び付けた散布図が物議を醸しています。

f:id:sekkachipapa:20170430132102p:plain

上の散布図は、入試偏差値と奨学金延滞率の相関 - A Successful Failure内でLM-7さんが作成されたものです。

この記事によると、「大学の偏差値」と「奨学金の滞納率」における相関係数は『0.3』となり、2つの変量の間には有意な相関が見られると結論付けられています。

ここで、この相関係数『0.3』が持つ数値的な意義を語るためには、相関係数とは何かを理解しておく必要があるわけですが、相関係数とは何かを明確に享受できている方は私含め決して多いわけではないはずです。

そこで、本日は数学が苦手な方でも、楽しみながら相関係数を理解できるよう相関係数の導出を行っていきたいと思います。

 

 本日学ぶ統計学の知識

☑ 相関係数の導出と、その数字の持つ意味

 

様々なビジネスシーンで用いられる相関係数の導出方法と、その数字の持つ意味から扱う上での注意点まで、直観的な理解ができるところまで落とし込みながら、相関係数を丸裸にしていきたいと思います。

相関係数を説明するにあたり必要な統計学の基礎(平均値から標準偏差までの流れ)は、以前まとめていますので、まずはそちらを参照していただけたら、ここでの説明がよりスムーズに理解できるはずです。

それでは早速、相関係数の導出を行っていきたいと思います。

2人は赤い糸で結ばれている?

f:id:sekkachipapa:20170430141826p:plain

「2人の男女の間には、赤い糸が存在するのか」…これこそが相関係数を考えていくスタートラインだと筆者は考えています。

統計学的な表現をすると、

2つの変量からなるデータの間に、

  • 一方が増加すれば、それにしたがって他方も増加する
  • 一方が増加すれば、それにしたがって他方は減少する

という傾向がみられるとき、2つの変量の間に相関がある、または相関関係があるという。

2人の男女の間には、赤い糸が存在するのかどうかを気にするように、世の中には、2つのデータの間に関係があるのかどうかが気になる場面は多々あるわけです。

男女間では「恋愛関係」という形の関係性を気にするのに対し、統計学的場面では、2つのデータに「相関関係」という形の関係性があるのかどうかを気にしていきます。

そう考えると、ちょっと相関関係が身近に思えてきませんか。

相関関係を視覚化する

f:id:sekkachipapa:20170430143121p:plain

2つのデータとは、例えば「身長と体重」や「数学の点数と国語の点数」などで、この2つのデータ間に相関関係があるのかないのかを見破ることが目的になります。

ちなみに、当記事の一番上で紹介した図は、LM-7さんが作成された「偏差値と遅延率」の散布図であることが確認できます。

散布図を描く目的は、視覚的に相関関係を確認することにあります。散布図を描くことで、パッと見ただけで、2つのデータに相関関係があるかないかを大雑把に判断することができるわけです。

また、「アンスコムの例」に見られるような数値だけでは判断を見誤る事例もあるため、散布図と相関関係の数値化はセットで行うことが推奨されています。

共分散と相関係数

散布図を描くことで、パッと見の感覚的な捉えはできますが、似た状況になったときに、どちらの相関の方が強いかは、散布図だけでは判断に迷う場面があります。

こうした場面で、相関の強弱をしっかりと判断するためには、やはり相関関係を数値化する必要性が出てくるのです。

そこで、相関関係を数値化するために「共分散」という指標が考え出されました。

共分散の導出 

相関関係を数値化する方法の第一歩が、共分散になります。

共分散を考えるには、散布図を4分割することから始まります。分割するラインは、それぞれのデータの平均値です。

ここでは、「体力と学力」という2つのデータを例に挙げ、共分散を説明します。

f:id:sekkachipapa:20170430150546p:plain

上の散布図は、あるクラスの体力テストの結果と、学力テストの結果を示しており、この2つのテストの平均点は。体力テストが50点。学力テストが60点だったため、それぞれの平均点のラインを点線で区切り、散布図を4分割しています。

こうして散布図を4分割するしたことで、それぞれのブロックに特徴が現れます。

f:id:sekkachipapa:20170430151435p:plain

画像出典:http://www.tv-asahi.co.jp/doraemon/

  • 出木杉ゾーン
    体力も学力も平均以上
  • スネ夫ゾーン
    学力は平均以上、体力は平均以下
  • ジャイアンゾーン
    体力は平均以上、学力は平均以下
  • のび太ゾーン
    体力も学力も平均以下

それぞれのゾーンの特徴をまとめたものが、次の表になります。

f:id:sekkachipapa:20170430154109p:plain

①、②は平均からどれだけ離れているのかを表しており、統計用語では「偏差」という指標になります。

共分散の意味

ここで、注目すべきことは出木杉ゾーンとのび太ゾーンにおいては、①(学力の偏差)×②(体力の偏差)の値は+になり、ジャイアントゾーンとスネ夫ゾーンにおいては、-の値になっていることです。(※以下、かなりざっくりとした捉え方になっています。)

つまり、①×②の平均値をとったとき、その値が

プラス値 ➡ 出木杉・のび太タイプが多い

ということになり、クラスには出木杉タイプとのび太タイプが多く存在していることになるわけです。

これにより、このデータから学力テストの点数が増加すれば体力テストの点数も増加するという正の相関があると結論付けられることになります。

一方で、①×②の平均値をとったとき、その値が

マイナス値 ➡ ジャイアン・スネ夫タイプが多い

ということになり、 これは学力テストの点数が増加すれば、体力テストの点数は減少している負の相関があることを示していることになるわけです。

ちなみに、①×②の平均値をとったとき、その値が

0に近い値 ➡ すべてのタイプが混在している

ということになり、学力テストと体力テストの結果には相関関係がないこと表しています。

このように、2つのデータ間の相関関係を数値化する①×②の平均値のことを統計学では「共分散」と呼んでいます。

共分散の問題点

共分散を計算することで、相関関係を数値化することができることは分かったわけですが、この共分散にはひとつ厄介な問題点が潜んでいます。

上で学んだ共分散の復習も兼ね、あるクラス5人の身長と体重の共分散を計算してみることにします。

f:id:sekkachipapa:20170430162007p:plain

このクラスの身長の平均値は、(1.4+1.5+1.6+1.7+1.8)÷5=1.6(m)、体重の平均値は、(40+50+60+65+70)÷5=57(kg)より

f:id:sekkachipapa:20170430162555p:plain

共分散である①×②の平均値は、『1.5』となります。

ここで、同じデータを用いて、身長の単位をmからcmへ。体重の単位をkgからgに変えてみます。

f:id:sekkachipapa:20170430163032p:plain

単位を変えた後の共分散①×②の平均値は『150000』となります。

このように、単位を変えただけで実質同じデータを取り扱っているにも関わらず、共分散の値が異なってしまうことが起こってしまうのです。

同じデータを扱っているのであれば、同じ相関関係にあるわけですから、これは非常に大きな問題です。

そこで、この問題を解決するため登場するのが「相関係数」になるわけです。

相関係数の導出

共分散の問題点を解消するために用いられる指標こそ、相関係数になります。

相関係数とは、さきほどまで用いていた共分散をもとに算出される相関関係を数値化した指標になります。相関係数では、共分散で問題となった点を解消するべく、共分散を標準化していくことになります。

f:id:sekkachipapa:20170430164549p:plain

こちらの式が相関係数を求める式になります。

共分散を標準偏差で割ることで、標準化しており、この式を用いれば、先ほどの単位の違うデータ間の相関係数は『0.98』と一致することになります。

共分散を標準化した相関係数では、計算値は-1以上1以下の間に入り、-1に近いほど負の相関が強く、1に近いほど正の相関が強いことを示します。

 相関係数の意味

共分散を経由し、たどり着いた相関関係を表す指標「相関係数」ですが、その数値の読み取り方には注意が必要です。

一番最初に紹介した「偏差値と滞納率」の間にある相関係数は『0.3』であったわけですが、この『0.3』という数値をもってして、偏差値と滞納率には相関関係があると結論付けられるかどうかは記事へのコメントを見ても、賛否が分かれています。

当初記事内では、「偏差値と滞納率には強い相関がある」と一部表現していましたが、相関係数『0.3』は強い相関には当たらないと指摘され、訂正されています。

一般的に、相関係数は0.7以上になると強い相関があると言えるようですが、これもどういったデータを扱うかにより変化することがあるようです。

さらに、相関関係があるから因果関係があるかということにも注意が必要です。

この相関関係と因果関係に関する点については、こちらの記事でまとめていますのでいますので、ぜひ参考にしてみてください。

本日学んだ統計学の知識

本日は、偏差値と奨学金の滞納率の相関を読み解くために必要な相関係数について、その式内に存在する「共分散」を中心に導出を行ってみました。

当初、もう少し式を用いた正確な導出を目指そうと考えていましたが、数式を使った導出等は、書店にいくらでも並んでいますので、そちらを参考にしてもらえればと考え、結果かなりざっくりとしたイメージ作りに焦点を当てた内容になりました。

個人的には、ざっくりと式の意味とイメージを持ち、あくまで出てきた数字の意味を議論することに時間を割いてもらえればと思っています。

特に、統計学の分野では、計算して出てきた数字の意味を読み解くことにこそ学問の本質があるはずです。

とはいえ、Excelなどを用い、計算式を当てはめ、出てきた数字を利用してほしいということではなく、その計算式がどのような意味を持つのかを理解していることで、より深い議論につながることは間違いありません。

この記事も、相関係数の持つ意味を理解するきっかけになってくれることを目指して書き上げてきました。ぜひ、ここで一緒に勉強した相関係数をもとに、因果関係を読み解く達人を目指してみてください。

今後も統計学の知識を分かりやすく説明することを目指していきますので、ぜひ読者登録&Twitterフォローしてみてください。