双子ママ、今日も楽しい!

双子の2年生の女の子と4歳の男の子を育てています。

基礎統計まとめ②|代表値だけじゃ足りない?散布度をやさしく解説します

おはようございます!

ゆきちゃんママです!

 

先日から、基礎統計のまとめを少しずつ書いています。

前回は、平均値・中央値・最頻値といった「代表値」についてご紹介しました。

yukichan-mama.com

 

でも実は、代表値だけでは、データの全体像はまだ十分には見えてこないんですよね。

そこで必要になってくるのが、散布度です。

今日は、この「散布度」について、できるだけわかりやすくまとめてみようと思います。

 

 

 

代表値だけでは見えないことがある

前回までに、平均値・中央値・最頻値といった代表値を見てきました。

 

代表値は、データの中心をつかむにはとても便利です。

「だいたいこのあたりかな?」という全体のイメージをつかむにはぴったりなんです。

 

でも、代表値だけではわからないこともあります。

 

たとえば、次のようなA社とB社のデータを考えてみます。

A社 30 40 40 50 50 50 40 40 30 

B社 10 15 20 25 50 50 80 90 110

 

どちらも

  • 平均値は50

  • 中央値も50

  • 最頻値も50

なんです。

 

これだけ見ると、

「どちらもだいたい同じようなデータだな」

と思ってしまいそうですよね。

 

でも、実際にデータを並べてみると、印象はかなり違います。

 

A社は、30から70の間に比較的まとまっていて、50の近くに値が集まっています。

一方、B社は、10から110までかなり広く散らばっていて、50から遠い値も多く含まれています。

 

つまり、中心は同じでも、データのばらつき方が違うんです。

 

この「どのくらい広がっているか」「どのくらいばらついているか」を表す指標が、散布度です。

 

代表値が「データの中心」を表すものだとすると、

散布度は「データの広がり」や「ばらつきの大きさ」を表すもの。

 

だからこそ、データをきちんと理解するためには、代表値だけでなく散布度もあわせて見る必要があるんですね。

 

 

 

まずは一番基本の「範囲(レンジ)」

散布度の中でも、まず押さえておきたい一番基本的な指標が、範囲(レンジ)です

範囲とは、最大値から最小値を引いた値のこと。

 

式で書くと、

範囲 = 最大値 − 最小値

となります。

 

A社では、最小値が30、最大値が70なので、

70 − 30 = 40

つまり、A社の範囲は40です。

 

B社では、最小値が10、最大値が110なので、

110 − 10 = 100

つまり、B社の範囲は100です。

 

このように、B社のほうが範囲が大きいので、A社よりもデータが広くばらついていることがわかります。

 

とても簡単でわかりやすい指標ですよね。

 

ただし、ここで使っているのは最大値と最小値だけ。

そのため、範囲はばらつきを見るには便利だけれど、少し大ざっぱでもあります。

 

そこで次は、データ全体の散らばり方をもう少し丁寧に表す指標を見ていきます。

 

 

 

平均偏差とは?

平均偏差とは、それぞれのデータが平均値からどれくらいずれているかを表し、そのずれの大きさを絶対値にして平均したものです。

 

ちょっと言い回しが長いので、もっと簡単に言うと、

「データが平均からどれくらい離れているかの大きさを、全体としてならしたもの」

と考えるとわかりやすいです。

 

範囲は最大値と最小値だけを見ていましたが、平均偏差はすべてのデータを使ってばらつきを表そうとするところがポイントです。

 

 

 

まずは偏差を出してみる

たとえば、国語の得点が

4点、4点、5点、5点、5点、5点、6点、6点

だったとします。

このデータの平均値は5点です。

 

では、それぞれの値が平均の5点からどれくらいずれているかを見てみます。

  • 4 − 5 = -1

  • 4 − 5 = -1

  • 5 − 5 = 0

  • 5 − 5 = 0

  • 5 − 5 = 0

  • 5 − 5 = 0

  • 6 − 5 = 1

  • 6 − 5 = 1

 

 

つまり、

-1, -1, 0, 0, 0, 0, 1, 1

となります。

 

このように、個々の値から平均を引いた値を、偏差といいます。

 

 

 

でも、偏差をそのまま平均すると困る

ここで気づいてほしいのが、これをそのまま足すと0になってしまうことです。

平均より小さい値はマイナス、平均より大きい値はプラスになるので、互いに打ち消し合ってしまうんですね。

でも、ばらつきを知りたいのに、毎回0になってしまったら困ります。

 

そこで使うのが、絶対値です。

マイナスの符号を取って、

1, 1, 0, 0, 0, 0, 1, 1

としてから平均をとる。

これが平均偏差です。

 

平均偏差は、直感的にとてもわかりやすい指標です。

「平均からどれくらい離れているのか」を、そのまま大きさとして見られるからです。

 

 

 

でも、実際の統計では平均偏差はあまり使わない

ここまで、ばらつきを表す指標として平均偏差を見てきました。

平均偏差はわかりやすくて、かなり良い指標です。

私自身も、まず最初に考え方を説明するなら、とても使いやすいと思います。

ただし、実際の統計分析では、平均偏差が使われることはあまり多くありません。

 

よく使われるのは、分散標準偏差です。

では、なぜそちらが使われるのでしょうか?

平均偏差では、符号を打ち消し合わないようにするために、偏差の絶対値を取りました。

でも、符号を消す方法は絶対値だけではありません。

二乗することでも、マイナスをプラスに変えることができます。

そして、この「偏差を二乗して平均する」という考え方で作られる指標が、分散です。

 

 

 

分散とは?

算数のデータで分散を計算してみます。

 

データは、

1、2、3、5、5、7、8、9

で、平均値は5です。

 

まず、各値から平均値5を引いて偏差を求めます。

  • 1 − 5 = -4

  • 2 − 5 = -3

  • 3 − 5 = -2

  • 5 − 5 = 0

  • 5 − 5 = 0

  • 7 − 5 = 2

  • 8 − 5 = 3

  • 9 − 5 = 4

 

つまり偏差は、

-4, -3, -2, 0, 0, 2, 3, 4

です。

 

ここまでは、平均偏差を算出する時と同じですよね。

でも、ここからが違っていて、次に、この偏差を二乗します。

  • (-4)² = 16

  • (-3)² = 9

  • (-2)² = 4

  • 0² = 0

  • 0² = 0

  • 2² = 4

  • 3² = 9

  • 4² = 16

 

つまり、

16, 9, 4, 0, 0, 4, 9, 16

になります。

 

これを平均すると、

(16+9+4+0+0+4+9+16) ÷ 8 = 58 ÷ 8 = 7.25

となります。

 

これが、このデータの分散です。

 

つまり分散とは、

平均からのずれを二乗し、その平均をとったもの

なんですね。

 

 

 

国語の分散も出してみる

国語のデータも同じように計算してみます。

国語のデータは、

4、4、5、5、5、5、6、6

で、平均値は5です。

 

偏差は、

-1, -1, 0, 0, 0, 0, 1, 1

でした。

 

これを二乗すると、

1, 1, 0, 0, 0, 0, 1, 1

になります。

 

これを平均すると、

(1+1+0+0+0+0+1+1)÷ 8 = 4 ÷ 8 = 0.5

となります。

 

したがって、国語の分散は0.5です。

 

ここで、

  • 算数の分散は 7.25

  • 国語の分散は 0.5

でした。

 

つまり、算数のほうが国語よりかなりばらつきが大きいことが、分散でもはっきり示されています。

 

 

 

でも分散には弱点がある

ここで、分散の弱点にも触れておきます。

分散は統計ではとても重要な指標ですが、1つ問題があります。

 

それは、偏差を二乗しているため、単位が元のデータと変わってしまうことです。

 

たとえば、もとのデータの単位が cm なら、

分散では cm を二乗するので、単位は cm² になります。

 

これはもう、面積の単位ですよね。

 

つまり、分散は計算上はとても便利で重要なのですが、

もとのデータと同じ感覚では解釈しにくい

という問題があるわけです。

 

 

 

そこで標準偏差

そこで登場するのが、標準偏差です。

 

分散は、偏差を二乗して平均したものでした。

もし二乗したことで単位が変わってしまったのなら、

最後に平方根(ルート)を取れば、単位を元に戻せるのでは?

と考えることができます。

 

この考え方で作られる指標が、標準偏差です。

式で書くと、

標準偏差 = √分散

つまり、標準偏差は分散の平方根です。

 

Excelでは、平方根は

SQRT() 関数(スクエアルート関数)

で計算できます。

 

したがって、分散が求まれば、その値に平方根を取ることで標準偏差が求められます。

 

標準偏差は、分散と同じようにばらつきを表しますが、

単位が元のデータと同じになるため、分散よりも解釈しやすいという利点があります。

 

そのため、実際の統計では、ばらつきを示す指標として標準偏差がとてもよく使われるんですね。

 

 

 

Excelで使う関数もまとめておきます

ここまでで使った計算や、これから使う計算を、Excelの関数で整理するとこんな感じです。

  • 合計:=SUM()

  • 平均値:=AVERAGE()

  • 平方根:=SQRT()

  • 二乗:^2

Excelでは、これらを組み合わせることで、平均偏差や分散、標準偏差の計算もできます。

 

つまり、考え方を理解したうえで関数を使えば、手計算でやっていたことを効率よく処理できるということです。

 

 

 

まとめ

最後にまとめます。

散布度とは、データのばらつきに関する指標でした。

 

今日見たのは、

  1. 範囲(レンジ)

    最大値と最小値の差を見る、もっとも基本的な指標

  2. 平均偏差

    平均からのずれの大きさを絶対値にして平均したもの

  3. 分散

    平均からのずれを二乗して平均したもの

  4. 標準偏差

    分散の平方根をとったもの

でした。

 

この中で、実際の統計では特に分散標準偏差が重要になります。

そして、ばらつきを実際に解釈するときには、元の単位に戻る標準偏差がよく使われます。

 

つまり、データを見るときには、中心を表す代表値だけでなく、

どのくらい散らばっているか

もあわせて見ることが大切なんですね。

 

PVアクセスランキング にほんブログ村