RepoLog│レポログ

日々感じたことをレポートするブログ

REPOLOG

日々感じたことをレポートするブログ

サルでも分かる!標準偏差の求め方と意味

f:id:sekkachipapa:20170920080717p:plain

「標準偏差とは何か」を知るには、平均から標準偏差を求める流れを理解することが重要です。

本日は、統計学にとって非常な重要な役割を担う標準偏差について、「サルでも分かる!」を目標に解説していきます。

よく知られている「平均値」から「標準偏差」にたどり着くまでのステップはたった3つ。

f:id:sekkachipapa:20170923142603p:plain

 
どのステップも"面白い覚え方"があるから、一緒に頑張ろうね!サル君。

 
本当に、オレでも分かるんだろーな。

 

 

 

この平均値から標準偏差を求める流れが理解できれば、この記事を読み終えたころには「標準偏差とは何か」や「標準偏差はどうやって求めるのか」などがスッキリ頭に入っているはずです。

ぜひ最後まで読んでみてください。

 

標準偏差とは何か

平均値から標準偏差を求める流れから、標準偏差とは何かを知る


データ分析において、非常に重要な指標である「標準偏差」を平均値から算出していく各過程において、分かりやすく、かつ本質的なイメージ作りをしながら理解していきましょう。

「普通」が分かる平均値

f:id:sekkachipapa:20170408114553p:plain

まず、何らかの目的で集めたデータを加工する際、最もよく利用される指標が「平均値」です。

平均値に関しては、以前記事にしているのでこちらを参考にしてもらえればいいかと思います。

ここでは、平均値の中でも、標準偏差につながることのみを紹介します。

平均値の求め方

f:id:sekkachipapa:20170408115433p:plain

平均値に関しては、テストの平均点などをイメージしてもらえば、計算式も問題なく頭に入ってくるかと思います。

平均値の意味

平均値の意味は、実は奥が深いのですが、ここではあくまで標準偏差への流れを理解することに主眼を置きますので、"平均値=普通の人"と理解していきましょう。

基本的に、平均値という指標が有効に機能するには、得られたデータの分布が正規分布であることが望ましいです。

正規分布とは、ざっくりいうと下図の青い線のようにデータが集まっている状態で、平均値を中心に左右対称になっています。

f:id:sekkachipapa:20170408120410p:plain

つまり、平均値の値付近に所属するデータが最も多く、それを我々は日常的に"普通"と捉えています。

以上より、平均値を求める意味としては、普通の人がどのような状態にあるのかを求めているとざっくりと理解しておきましょう。

 
平均値が分かれば「普通」が分かるってことだな。

 
その通り。求め方は、テストの平均点などで馴染みがあるから、大丈夫だね。

 

 

 

「変さ」が分かる偏差

f:id:sekkachipapa:20170408121958j:plain

平均値(点)をとった人を「普通」とするならば、平均値(点)から離れた値を取る人は、良い意味でも悪い意味でも「普通ではない」と表現できます。

次のステップでは、「普通ではない人=変人」と考え、その人がどれほど変人であるのかを数値化することを目指していきます。

このどれほど「変」であるかを数値化したものを「偏差」(覚え方は、変さ)と統計では呼びます。

偏差の求め方

f:id:sekkachipapa:20170923145638p:plain

偏差とはどれほど「普通」から離れているのかを表している、と頭に入れておけば、この式自体がしっかり頭に残ると思います。

 
「偏差」は「変さ」って覚えておこう!

 
ここまではまだ分かるぞ。

 

 

 

偏差は個人の指標

ここで、紹介した「偏差」という指標はあくまでクラスの一人ひとりがどれほど変人なのか、または普通なのかを表した数字となっています。

では、この一人ひとりの偏差の平均値をとれば、一人ひとりではなく、クラス全体の変人(普通)度合いが見えてくるのではないでしょうか。

 
「偏差」の平均を取ることで、クラスの特徴を見ようというわけだね。

 
「点数」を足して人数で割ったのが平均点。
「偏差」でも同じように足して人数で割るわけだ。

 
サル君。めっちゃ分かってるじゃん…

 

 

 

しかし、ここに大きな問題が潜んでいるんです

偏差の問題点

平均値からどれほど離れているのかを数字で表した偏差ですが、偏差には偏差の平均を取ると0になってしまうという大きな問題が潜んでいます。

この問題点は後ほどの具体例で確認しますが、ざっくり言うと、偏差には、プラスとマイナスの値がそれぞれ出現し、平均を取るとこれらがお互いに打ち消しあってしまい、すべて加えると0になってしまうのです。

 
どんなときも「0」になるなら使い物にならんじゃん。

 
そうなんだよ。だから、偏差を使い物になるように加工するんだよ。

 

 

 

偏差の問題を解決する「偏差平方」

偏差を平均するとどんなデータでも「0」になってしまう問題を解決するために、平均が取れるように偏差を加工します。それが、「偏差平方」という考え方です。

偏差平方は、その名のとおり、偏差を平方(2乗)したものです。

f:id:sekkachipapa:20170923152434p:plain

偏差を2乗することで、マイナスの値はプラスの値に変わり、平均を取っても0になることはなくなります。

こうして偏差の問題点を克服したものが偏差平方になるわけです。

「バラツキ」を表す分散

f:id:sekkachipapa:20170408180515p:plain

平均をとっても「0」になることがなくなった偏差平方を平均したものが「分散」です。

つまり、分散は偏差の意味であった「どれだけ変人なのか」を2乗して平均したものですから、集団としてどれだけ変人が集まっているのかを表すことになります。

 
なんだかよく分からなくなってきた…

 
泣かない泣かない。
じゃあ、具体的な例で見てみよっか。

 

 

 

分散の求め方

では、実例を挙げて、実際に分散を求めてみることにしましょう。

10点満点の数学テストをある8人の集団で行ったところ、次のような結果が得られたとします。

f:id:sekkachipapa:20170722124555p:plain

まず、この集団の平均点を求めると、

平均値

(5+7+4+8+3+7+2+4)÷8=5点

となります。つまり、この集団では平均点と同じ点数を取ったAくんがふつう(平均的)な人となるわけです。

続いて、それぞれがどれほど変人なのかを表す偏差を取ります。

f:id:sekkachipapa:20170722124637p:plain

偏差の値がプラスで大きければ、数学ができる変人。偏差の値がマイナスで小さければ、数学ができない変人。となるわけです。ここで、偏差の平均を取ってみると、

偏差の平均

(0+2-1+3-2+2-3-1)÷8=0

となり、先ほど偏差の問題点で指摘したように、偏差の平均をとると「0」となってしまいます。そこで、各データの偏差平方をとっていきます。

f:id:sekkachipapa:20170722124703p:plain

以上で、準備が完了です。

最後に出てきた偏差平方の平均値を取れば、分散になるわけですから、実際にこの集団の分散を求めると

分散

(0+4+1+9+4+4+9+1)÷8=4

と分かります。

 
なるほど。この分散でクラスが変人集団か普通の集団かが分かるんだな。

 
分かったとたん態度でかくなるな。でも、分散にも問題があるんだよ。

 

 

 

分散の問題点

一見これでなんの問題もないように思えるのですが、実はこの分散という指標には大きな欠点が2つあります。

分散を表現するのに、上の絵では『燃え上がっている男の人』を用いましたが、まさに分散は燃え上がった指標なのです。

どういうことかというと、分散を求める際に偏差平方を求めましたが、平方をするということは数値が非常に大きくなる場合があるのです。

 
我らがサル界のアイドル「孫悟空」の界王拳のようだ。

 
うーん…わかりにくい例え。

 

 

 

上で紹介した数学の点数なら大した大きさになりませんが、扱う数値が年収などだったらどうでしょうか。

年収1億円の人の偏差平方が、むちゃくちゃ大きな数字になることは想像していただけると思います。

2つ目の分散の欠点は、偏差を平方したことで単位が変わってしまうという欠点もあります。㎝の2乗は平方㎝ですから、扱っている次元が変化してしまうのです。

そこで、最後のステップとして、標準偏差が登場するというわけです。

「バラツキ」を表す標準偏差 

f:id:sekkachipapa:20170408184606p:plain

分散の2つの欠点を、一瞬で解決してくれる神のような存在がルート(√)です。

ルートを取れば、分散の欠点である

  • 数字が大きくなってしまう
  • 単位が変わってしまう

という問題をどちらも解決してくれます。

標準偏差の求め方

f:id:sekkachipapa:20170923155758p:plain

分散の平方根を取ることで、分散の特性を残しつつも、大きくなりすぎしまう欠点も単位が変化してしまう欠点も解消してくれるのです。

これこそが標準偏差になるわけです。

 
ルートの威力はまさに神だ!

 
でしょ。昔の人はよく考えたもんだね。

 

 

 

平均値から標準偏差までの流れ

f:id:sekkachipapa:20170408104351j:plain

さて、本日学んだ統計学の知識は、理解できたでしょうか。

「サルでも分かる」は言い過ぎですが、統計学をこれから学ぼうと考えている予備知識0の方でも、理解してもらえるよう説明をがんばったつもりです。

  1. 平均値で"普通"を知る
  2. 偏差で個人の"変さ"を知る
  3. 分散で集団の"変さ"を知る
  4. 分散は問題多いのでルートを取って標準偏差へ

 
標準偏差、完璧に理解したぜ!

 
よかったぁ。そういってもらえると、頑張って解説した甲斐があったよ。

 

 

 

標準偏差を理解するで、次のステップとしては、2つのデータの関係を数値化する「相関係数」について考えていきましょう。

ぜひ、ここで一緒に勉強してきた平均値から標準偏差までの流れを理解し、実社会で意味を理解しながら使いこなせる標準偏差の達人を目指してください。

 

最新レポート

レポート一覧

レポート一覧
TOP画面へ