双子ママ、今日も楽しい!

双子の2年生の女の子と4歳の男の子を育てています。

統計の基礎からはじめます|まずは「代表値」をやさしく整理してみる

おはようございます!

ゆきちゃんママです!

 

去年、「来年度は統計の先生もやります」と書いていた気がするのですが、気がつけば、あまり準備できないまま春になってしまいました(笑)

 

yukichan-mama.com

 

そこで今年は、授業の準備をしながら、そのときに改めて整理したことや学び直したことを、このブログにも少しずつ書いていこうかなと思っています。

 

とはいえ、これまで時々書いていたような、少し難しめの統計モデルの話ではありません。

今回は、もっと基礎的なところからスタートです。

 

「統計って難しそう……」

「ちょっと気になるけど、何から見たらいいのかわからない……」

 

そんな方にも入りやすいように、なるべくやさしく、順番に書いていけたらと思っています。

 

今日はまず、記述統計の基本である代表値についてです。

 



 

 

代表値ってなに?

代表値というのは、たくさんあるデータを見たときに、

「だいたいこのあたりかな」

と、全体の様子をつかむための値のことです。

 

データがたくさん並んでいると、それだけでは全体の傾向が見えにくいのですが、代表値を見ると、イメージがぐっとつかみやすくなります。

 

代表値には、たとえば

  • 平均値

  • 中央値

  • 最頻値

などがあります。

 

それぞれ少しずつ役割が違うので、データの特徴に合わせて使い分けることが大切です。

 

たとえば、同じデータでも、外れた値があると平均値は影響を受けやすいですし、真ん中の様子を見たいときには中央値の方がわかりやすいこともあります。

 

つまり、「代表値」とひとことで言っても、いつも同じものを使えばいい、というわけではないんですね。

 

 

 

平均値

まずは、いちばんなじみのある平均値です。

 

平均値は、データを全部足して、その個数で割ったものです。

 

学校のテストなどでもよく出てくるので、いちばんイメージしやすい代表値かもしれません。

 

たとえば、点数が

60点、70点、80点

だったとすると、

(60 + 70 + 80) ÷ 3 = 70

なので、平均値は70点です。

 

平均値のよいところは、データ全体をまんべんなく反映してくれることです。

 

その一方で、ものすごく大きい値や小さい値があると、その影響を受けやすいという特徴もあります。

 

たとえば、

10点、70点、80点

なら平均値は53.3点くらいになります。

 

計算としては正しいのですが、「真ん中あたりの感じ」としては、少し低すぎるように感じる人もいるかもしれません。

 

そんなときに役立つのが、次の中央値です。

 

 

 

中央値

中央値は、データを小さい順に並べたときの真ん中の値です。

 

たとえば、

10点、70点、80点

というデータなら、順番に並べたときの真ん中は70点なので、中央値は70点です。

 

さきほどの例では、平均値は53.3点くらいでしたが、中央値は70点になりました。

 

この違いを見ると、中央値は極端に大きい値や小さい値の影響を受けにくいことがわかります。

 

そのため、データの中に飛びぬけて高い値や低い値があるときには、平均値より中央値の方が実感に合うこともあります。

 

なお、データの数が偶数のときは、真ん中の2つの値の平均を中央値にします。

 

 

 

最頻値

最頻値は、いちばん多く出てくる値のことです。

 

たとえば、

2、2、3、4、4、4、5

というデータなら、いちばん多く出てくるのは4なので、最頻値は4です。

 

最頻値のよいところは、

「どの値がいちばん典型的か」

を見やすいことです。

 

特に、アンケートの回答や、カテゴリに近いようなデータでは、最頻値が役立つことがあります。

 

たとえば、「いちばん多かった回答はどれか」を知りたいときには、平均値や中央値より、最頻値の方がしっくりくることもあります。

 

ただし、データによっては最頻値が1つに決まらないこともありますし、そもそも同じ値があまり繰り返されない場合には使いにくいこともあります。

 

 

 

それぞれの違いをざっくり言うと…

ここまでをかなり簡単にまとめると、

  • 平均値 … 全体をならして見た値

  • 中央値 … 真ん中の値

  • 最頻値 … いちばん多い値

ということになります。

 

どれも代表値ですが、見ているポイントが少しずつ違います。

 

だからこそ、データを見たときには

「どの代表値を見ると、そのデータらしさがつかみやすいかな?」

と考えることが大切なんですね。

 

 

 

まとめ

今回は、記述統計の基本である代表値について書いてみました。

代表値は、たくさんあるデータの全体像を、ひと目でつかみやすくしてくれる便利な考え方です。

ただし、平均値・中央値・最頻値にはそれぞれ特徴があるので、データによって向き不向きがあります。

 

「とりあえず平均を出せばOK」ではなく、

どんなデータなのかに合わせて見方を変えることが大事なんですね。

 

私自身も授業準備をしながら、

「基礎ってやっぱり大事だなあ」

と改めて感じています。

 

これからも、統計の基礎を少しずつ、なるべくわかりやすく書いていけたらと思います。

今日も最後まで読んでいただき、ありがとうございました!

 

PVアクセスランキング にほんブログ村