RepoLog│レポログ

日々感じたことをレポートするブログ

REPOLOG

日々感じたことをレポートするブログ

サルでも分かる!標準偏差の求め方と意味

f:id:sekkachipapa:20170920080717p:plain

「標準偏差とは何か」を知るには、平均値から標準偏差を求める流れを理解することが重要です。

本日は、統計学にとって非常な重要な役割を担うその標準偏差について、「サルでも分かる!」を目指して、図解を多用しながら分かりやすい解説を目指していきます。

ここでは日常的にもよく見聞きする指標「平均値」からスタートし、目標の「標準偏差」にたどり着くまでのステップを以下の3つに分けてそれぞれのポイントを押さえていくことにします。

f:id:sekkachipapa:20170923142603p:plain

 
どのステップもとっても面白くて分かりやすい覚え方があるから、一緒に頑張ろうね!サル君。

 
本当に、オレでも分かるんだろーな。

 

この平均値から標準偏差を求める流れが理解できれば、この記事を読み終えたころには「標準偏差とは何か」や「標準偏差はどうやって求めるのか」などがスッキリ頭に入っているはずです。

ぜひ最後まで読んでみてください。

 

標準偏差とは何か

この記事で学ぶことができることをもう一度明記しておきます。

平均値から標準偏差を求める流れから、標準偏差とは何かを知る

 

データ分析において、非常に重要な指標である「標準偏差」を平均値から算出していく3つのステップを本質的なイメージで捉えながら理解していきましょう。

それでは早速、標準偏差を目指すうえで欠かせない平均値についてポイントを図解していくことにします。

「普通」が分かる平均値

f:id:sekkachipapa:20170408114553p:plain

まず、何らかの目的で集めたデータを加工する際、最もよく利用される指標が「平均値」です。

平均値に関して詳しく知りたい方は、上記の記事を参考にしてください。ここでは、平均値の中でも、標準偏差につながることのみを紹介します。

平均値の求め方

f:id:sekkachipapa:20170408115433p:plain

平均値に関しては、テストの平均点などをイメージしてもらえば、計算式も問題なく頭に入ってくるかと思います。

平均値の意味

平均値の意味は、実は奥が深いのですが、ここではあくまで標準偏差への流れを理解することに主眼を置いて説明します。

標準偏差を理解するためには、平均値=普通の人と理解しておくといいでしょう。

基本的に、平均値という指標が有効に機能するには、得られたデータの分布が正規分布であることが望ましいことが知られています。

正規分布とは、ざっくりいうと下図の青い線のよう平均値にデータが最も集まり、左右対称に裾野が広がっている状態を指します。

f:id:sekkachipapa:20170408120410p:plain

つまり、平均値の値付近に所属するデータが最も多く、それを我々は日常的に「普通」と捉えています。

以上より、平均値を求める意味としては、普通の人がどのような状態にあるのかを求めているとざっくりと理解しておきましょう。

 
平均値が分かれば「普通」が分かるってことだな。

 
その通り。求め方は、テストの平均点などで馴染みがあるから、大丈夫だね。
 

「変さ」が分かる偏差

f:id:sekkachipapa:20170408121958j:plain

平均値(点)をとった人を「普通」とするならば、平均値(点)から離れた値を取る人は、良い意味でも悪い意味でも「普通ではない人」と表現できます。

次のステップでは、「普通ではない人=変人」と考え、その人がどれほど変人であるのかを数値化することを目指していきます。

このどれほど「変」であるかを数値化したものを「偏差」(覚え方は、変さ)と統計では呼びます。

偏差の求め方

f:id:sekkachipapa:20170923145638p:plain

偏差とはどれほど「普通」から離れているのかを表している、と頭に入れておけば、この式自体がしっかり頭に残ると思います。

 
「偏差」は「変さ」って覚えておこう!

 
ここまではまだ分かるぞ。

 

偏差は個人の指標

ここで、紹介した「偏差」という指標はあくまでクラスの一人ひとりがどれほど変人なのか、または普通なのかを表した数値となっています。

では、この一人ひとりの偏差の平均値をとれば、一人ひとりではなく、クラス全体の変人(普通)度合いが見えてくるのではないでしょうか。

 
「偏差」の平均を取ることで、クラスの全体の特徴を数値化しようというわけです。

 
「点数」を足して人数で割ったのが平均点。
「偏差」でも同じように足して人数で割るわけだ。

 
サル君。めっちゃ分かってるじゃん…
 

しかし、ここに大きな問題が潜んでいます。

偏差の問題点

平均値からどれほど離れているのかを数字で表した偏差ですが、偏差は偏差の平均を取ると常に0になってしまうのです。

この問題点は後ほど具体例で確認しますが、ざっくり言うと、偏差には、プラスとマイナスの値がそれぞれ出現し、平均を取るとこれらがお互いに打ち消しあい、すべて加えると0になってしまうというわけです。

 
どんなときも「0」になるなら使い物にならんじゃん。

 
そうなんだよ。だから、偏差を使い物になるように加工するんだよ。
 

偏差の問題を解決する「偏差平方」

ということで、偏差を平均するとどんなデータでも0になってしまう問題を解決するために、平均をとったとき0にはならず、かつデータの特徴を把握できるように偏差を加工した指標を作り上げていきます。

それが「偏差平方」という考え方です。

偏差平方は、その名のとおり、偏差を平方(2乗)したものです。

f:id:sekkachipapa:20170923152434p:plain

偏差を2乗することで、マイナスの値はプラスの値に変わり、平均を取っても0になることはなくなります。

こうして偏差の問題点である平均を取ると0になるという特徴を克服した「偏差平方」という指標を使うことになります。

「バラツキ」を表す分散

f:id:sekkachipapa:20170408180515p:plain

平均をとっても意味を持つように偏差を加工した偏差平方という指標を平均したものが「分散」です。

つまり、分散は偏差の意味であった「どれだけ変人なのか」を2乗して平均したものですから、集団としてどれだけ変人が集まっているのかを表すことになります。

 
なんだかよく分からなくなってきた…

 
泣かない泣かない。じゃあ、ここまでの話を具体的な例を用いて整理してみよう。
 

具体例で分散まで求めてみよう

では、実例を挙げて、実際に分散を求めてみることにしましょう。

10点満点の数学テストをある8人の集団で行ったところ、次のような結果が得られたとします。

f:id:sekkachipapa:20170722124555p:plain

まず、この集団の平均点を求めると、

平均値

(5+7+4+8+3+7+2+4)÷8=5点

となります。つまり、この集団では平均点と同じ点数を取ったAくんが普通(平均的)な人となるわけです。

続いて、それぞれがどれほど変人なのかを表す偏差を取ります。

f:id:sekkachipapa:20170722124637p:plain

偏差の値がプラスで大きければ、数学ができる変人。偏差の値がマイナスで小さければ、数学ができない変人。となるわけです。ここで、偏差の平均を取ってみると、

偏差の平均

(0+2-1+3-2+2-3-1)÷8=0

となり、先ほど偏差の問題点で指摘したように、偏差の平均をとると上で説明したように「0」となってしまいます。

そこで、平均が0以外の値を持ち、意味を成すように各データの偏差平方をとっていきます。

f:id:sekkachipapa:20170722124703p:plain

以上で、準備が完了です。

最後に出てきた偏差平方の平均値を取れば分散になるわけですから、実際に分散を求めてみると

分散

(0+4+1+9+4+4+9+1)÷8=4

と分散の値が「4」になることが分かります。

 
なるほど。確かに「0」以外の数値になってる!!

 
でもね、サル君。この分散という指標にも問題があるんだよ。
 

分散の問題点

一見これでなんの問題もないように思えるのですが、実はこの分散という指標には大きな欠点が2つあります。

分散を表現するのに、上の絵では『燃え上がっている男の人』を用いましたが、まさに分散は燃え上がった指標なのです。

どういうことかというと、分散を求める際に偏差平方を求めましたが、平方をするということは数値が非常に大きくなる場合があるのです。

 
我らがサル界のアイドル「孫悟空」の界王拳のようだ。

 
そ、そうかもね。
 

上で紹介した数学の点数なら大した大きさになりませんが、扱う数値が年収などだったらどうでしょうか。

年収1億円の人の偏差平方を計算すると「兆」という単位を超えるほど、むちゃくちゃ大きな数字になってしまうのです。

これほど大きな数字を使うことは決していいことではありません。これが分散の1つ目の欠点です。

2つ目の分散の欠点は、偏差を平方したことで単位が変わってしまうという点です。

例えば「㎝を」2乗した値は「㎠」ですから、扱っている次元が変化してしまうというわけです。

そこで、最後のステップとして、本日の記事の主役である「標準偏差」という指標が必要になってきます。

「バラツキ」を表す標準偏差

f:id:sekkachipapa:20170408184606p:plain

分散の2つの欠点を、一瞬で解決してくれる神のような存在、それがルート(√)です。

分散で求めた値のルートを取ることで、分散の欠点である

  • 数字が大きくなってしまう
  • 単位が変わってしまう

という問題をどちらも解決してくれます。

標準偏差の求め方

f:id:sekkachipapa:20170923155758p:plain

分散の平方根を取ることで、分散の特性を残しつつも、大きくなりすぎしまう欠点も単位が変化してしまう欠点も解消してくれます。

 
ルートの威力はまさに神だ!

 
でしょ。昔の人はよく考えたもんだね。
 

標準偏差をエクセルで求めてみよう

標準偏差の求め方が分かったところで、実用性を考え、Excel(エクセル)で標準偏差を求める方法を紹介します。

 
エクセルとか無理なんですけど…

 
大丈夫!エクセルだと簡単な操作で標準偏差を求めてくれるよ。
 

f:id:sekkachipapa:20180701123748p:plain

まず上のように必要なデータを打ち込み、標準偏差を出力させたいセル(ここではピンクのセル)をクリックします。

f:id:sekkachipapa:20180701124512p:plain

次に上部の「数式」というタブをクリックし、「関数の挿入」というアイコンをクリックしましょう。

f:id:sekkachipapa:20180701124635p:plain

次に「関数の検索(S)」(赤枠で囲まれた箇所)に標準偏差と打ち込み、検索開始(G)ボタンをクリックしてください。

すると、下の関数名(N)にたくさんの英単語がズラーっと並びますので、その中から

STDEVP

という単語を選び、OKボタンを押してください。

似たような単語がたくさんあるので注意してください。この記事で紹介している意味での標準偏差を求める関数が、ここで紹介している「STDEVP」です。

OKボタンを押すと、次のような画面に切り替わります。

f:id:sekkachipapa:20180701125344p:plain

この画面では、赤枠で囲んだボタンをクリックします。

f:id:sekkachipapa:20180701125848p:plain

すると、「関数の引数」という画面が現れますので、標準偏差に用いるデータをすべてドラッグしましょう。(ここでは上の青色の部分)

これで準備完了です。

あとはOKボタンを押すだけで、面倒な標準偏差の計算をエクセルがしてくれ、出力してくれます。

f:id:sekkachipapa:20180701130416p:plain

 
本当だっ!超簡単に標準偏差が求められてる!

 
標準偏差の計算に秘められた意味を知ってから使うと、とてもありがたく感じるよね。
 

平均値から標準偏差までの流れ

f:id:sekkachipapa:20170408104351j:plain

さて、本日学んだ統計学の知識は、理解できたでしょうか。

「サルでも分かる」は言い過ぎですが、統計学をこれから学ぼうと考えている予備知識0の方でも、理解してもらえるよう説明をがんばったつもりです。

  1. 平均値で"普通"を知る
  2. 偏差で個人の"変さ"を知る
  3. 分散で集団の"変さ"を知る
  4. 分散は問題多いのでルートを取って標準偏差へ

 
標準偏差、完璧に理解したぜ!

 
よかったぁ。そういってもらえると、頑張って解説した甲斐があったよ。
 

標準偏差を理解するで、次のステップとしては、2つのデータの関係を数値化する「相関係数」について考えていきましょう。

ぜひ、ここで一緒に勉強してきた平均値から標準偏差までの流れを理解し、実社会で意味を理解しながら使いこなせる標準偏差の達人を目指してください。

 

最新レポート

レポート一覧

レポート一覧
TOP画面へ