読者です 読者をやめる 読者になる 読者になる

RepoLog│レポログ

研究職サラリーマンが日々感じたことをレポートするブログです。

再チャレンジ!年収を"偏差値化"した世界

新・年収を偏差値化した世界

前回のレポート「年収を偏差値化した世界」について、多くの方に間違いを指摘していただきました。

このレポートで、私はいくつも間違った認識の下、年収を偏差値化しており、かつ不正確な分析を繰り広げてしまいました。

今一度、このレポートの問題点を、整理してみました。

  1. 正規分布ではない年収に対し、正規分布を前提とする偏差値を適応している
  2. 母集団の違う2016年と1998年の所得、および受験における偏差値を一様に扱っている
  3. 2500万円以上の代表値を1億円と設定している

主に以上の3点が、ブクマ&コメントによるご指摘から確認できたレポートの間違いです。

他にも大小含め多くの間違いや不適切な表現があったかと思います。申し訳ありません。そして、ご指摘いただいた皆さん、ありがとうございます。

このまま間違ったレポートを放置というのもどうかと思い、改めてご指摘いただいた箇所を修正した「再チャレンジ!年収を"偏差値化"した世界」を作成させていただくことにしました。問題がないようでしたら、いずれ前記事の修正に新レポートを適用していきたいと思っています。

何かと間違いだらけだった前回記事を可能な限り修正しました。それでは、修正レポートです。ご覧ください。

「年収を"偏差値化"した世界」の修正

H22年収

こちらは平成22年国民生活基礎調査の概況|厚生労働省が示した給与分布になりますが、ご指摘にあったように正規分布とは程遠い形をしています。

ちなみに、正規分布とは試験や身長などのデータを集めた際に見られる左右対称凸形の分布を指しています。

 

正規分布

画像引用:正規分布1 統計学入門

年収分布は平成22年度に示されているグラフより大きく変化していることはなく、ほぼ左に凸部分が寄り、右に裾が長い分布になります。

そこで、年収を偏差値化するに当たり、年収分布を確率変数の対数をとることで正規分布になると定義される"対数正規分布"と捉えていくこととしました。

2016年度年収を対数変換してみる

度数分布表

上の表が、民間給与実態統計調査|統計情報|国税庁をもとに、2016年度の国民給与所得の対数(log)をとり、度数分布表に加工したものになります。

補足情報として、この調査は2016年度1年間を通じて勤務した給与所得者の年収を度数分布で表したものになります。そのため、年収0円は含まれないことから確率変数として対数を取っても問題ありません。

また、前回レポートで私は階級区間における中央値を階級値として採用しましたが、その部分を修正してあります。修正した部分は、年収2500万円以上の階級値です。度数分布による平均値が、元データの平均値416万円と一致する金額を探ったところ、年収2500万円以上の階級値は2500万円で平均値が一致したため、こちらを採用しています。(前回は2500万円以上の階級値を1億円としていました)

こうして対数を取った度数分布により平均値・分散・標準偏差を算出していきます。

まず、平均値の求め方ですが、

平均の求め方

となるので、こちらの計算式を上の表にあてはめることで求まります。

  • 平均値…2.500355

となります。これをもとの年収に戻すと、316.2万円になります。

続いて、分散を求めます。計算方法は

分散の求め方

となるので、こちらも上の表と今求めた平均値を使用し、値を求めます。

  • 分散…0.120834

最後に、分散の平方根が標準偏差になりますので、

  • 標準偏差…0.348000

と求まります。ここでは、標準偏差を0.35とし偏差値を求めていくこととします。ここで出てきた統計値を用いて、ようやく偏差値を求めることができます。

改訂!年収を偏差値化

年収と偏差値の関係

左の偏差値が前回算出の偏差値になります。右側が今回改めて対数正規分布を用いて算出した偏差値です。

この偏差値算出方法が正しいかどうかは、正直言って自信ありません…前回のレポートで、大学の基礎数学もまともに理解していないことが露呈したわけですが、私なりにできる修正を加えたのが今回のレポートになります。

前レポートの修正を終えて

前回レポートで、知ったか感満載の記事を世に送り出してしまいましたが、言い訳をさせていただくならば、統計は全くの専門外なんです。そして、思いついたことを行動に移してしまう私の"せっかち"な性格が良くない方向に行ってしまいました。

今回も自信がないため、数値の考察は避けたいと思いますが、本来年収分布が対数正規分布とみなせるかどうかの"適合度検定"を行う必要性があるのでは、と思っています。

ここではひとまず、Googleにて検索をかけ、年収分布は対数正規分布に従うと表記されている記事を何件も見つけることができましたので、一旦そちらを前提にさせていただくこととしました。いずれ、適合度検定にも挑んでみたいと思っていますが、ひとまず前回レポート修正を実行するため、今回のレポートはここまでとさせていただきます。

「年収を偏差値化することの意義」については、私はあると思っていますが、「ただ数字をこねくり回しているだけ」と感じられる方もいらっしゃると思います。ここでは、私の間違いとあたふた感から統計量を扱う難しさと面白さを感じ取っていただき、反面教師として参考にしていただければと思います。

また、当レポートへの忌憚のないご意見・ご指摘等いただければ幸いです。(こう見えて傷付きやすいので、できれば優しく教えてください)

最後に、「怪我の功名」とでも言いましょうか、前回記事内のリンク記事がTwitterで拡散され、注目していただいています。こちらも統計量「平均値」について言及した記事になっていますので、参考にしていただけたら嬉しいです。

統計量は、あくまで参考程度ということが分かっていただけるかと思います。でも、統計量を使うことで選択の幅が広がると私は信じています。