統計の勉強、始めました!
自己紹介の記事で「統計を勉強している」と書いたものの、実際には統計に関する記事を書けておらず、ずっと気になっていました。そこで、ようやく重い腰を上げて、書いてみることにしました!
何から書こうかといろいろ考えていたのですが、最終的には「統計モデリング」について書きたいと思っています。とはいえ、その前に、大学の授業などで習う基本的なところから、まずは頭の中を整理していこうと思います。
私は約10年間、公務員の研究職に就いていたのですが、その間は実務が中心で、研究や分析にじっくり取り組む機会はほとんどありませんでした。学生時代には理解していたはずの統計も、すっかり忘れてしまったり、久しぶりに勉強を再開してみたら統計そのものが進化していて(!?)、昔の知識だけではついていけないと痛感しました。
統計モデリングとの出会い
再び勉強を始めると、「統計モデリング」という言葉を頻繁に目にするようになりました。最初は新しい手法の名前かと思っていたのですが、どうやらそれだけではないようです。
学生時代に学んだ帰無仮説検定(t検定や分散分析など)も、実は統計モデルのひとつ。つまり、統計モデル(例:母集団の平均に差がない)が正しいと仮定したうえで、そのモデルから外れるようなデータが観測されたときに、仮説を棄却するという考え方なんですね。
基本用語の整理から
t検定に入る前に、私自身が混乱しがちな統計用語を簡単におさらいしておきます。
-
母集団:調べたい対象全体(例:S大学の全学生の身長)
-
標本:母集団から無作為に抽出した一部のデータ、実際に得られたデータ(例:S大学の学生4人の身長)
-
正規分布:平均値を中心に左右対称な「山型」の分布。平均に近い値は頻繁に現れ、極端な値は稀になる。
-
平均(μ・ミュー):データの中心
-
分散(σ²・シグマ二乗):データのばらつきの大きさ
-
-
正規分布に従う:データが一定の確率ルール(正規分布)に従って出現すること
-
身長の例で言えば、平均160cmの人が多く、140cmや180cmの人は少ないけれど、ゼロではない。グラフにすると釣鐘型の曲線になります。
- ただし、「身長」がマイナスになる人は存在しないため、これはあくまで「仮定」の話になります。
-
t検定とは?
いよいよ本題のt検定です。説明を求められると「2つのグループの平均値の差を調べる検定!」と答えがちですが、より正確には、
「2つの標本の平均値の差から、母集団の平均値に有意な差があるかどうかを統計的に推測する手法」
です。
私は、t検定というのは、母集団が正規分布していると仮定して行う分析だと考えていたのですが、正確にいうと、ちょっと違っていて、母集団から正規分布に従って無作為抽出されるという仮定の下で標本が抽出されているということです。
今回は、「対応のないt検定」に注目してみます。
例:中学生の身長を比較する
例えば、ある中学校で「1年生男子と2年生男子の平均身長に差があるか?」を調べたいとします。それぞれの学年からランダムに10人ずつ選び、身長を測定しました。
このとき立てる仮説は以下の通りです。
-
帰無仮説 H₀(エイチゼロ):2群の平均に差はない(μ₁ = μ₂)
-
対立仮説 H₁(エイチワン):2群の平均に差がある(μ₁ ≠ μ₂)
この仮説のもとで、各群のデータが「母集団から正規分布に従って無作為抽出された」ものと仮定し、2つの標本の平均値を比較して差の有意性を検定します。
まとめ
t検定は、統計学の中でも基本的かつ重要な手法。だけど、きちんと理解して説明するのは案外難しいものです。まずは用語の確認や、背後にある仮定をしっかり整理することが大切ですね。
今回は、t検定の計算式などには踏み込まず、基本的な考え方や前提について整理してみました。
このような考え方をしっかり押さえておくことで、t検定と回帰分析の関係性や、こうした分析手法によって「何がわかるのか」についても、より深く理解できるようになるはずです。
次回は、いよいよ回帰分析について、そして「回帰分析の特殊なケースとしてのt検定」についても紹介していきたいと思います!