先週までは、大学生の頃に学んだような「帰無仮説検定」について、復習してきました。
(過去の記事はこちら → t検定、回帰分析、回帰分析と分散分析の違い)
これまでの分析
これまでの手法では、「分析に合わせてデータを整える」というアプローチを取ってきました。
たとえば:
-
分散分析を行うために、あらかじめ実験計画を立てる
-
反応時間データを対数変換して、分析しやすくする
といった工夫をしていたと思います。
ただし、これらの方法には限界があります。
それは、「予測」という観点が抜けていたことです。
なにが足りなかったのか?
-
t検定や分散分析では、グループ間の差や効果の有無は検討できます。
-
でも、未来のデータをどれくらい予測できるか?までは見ていません。
例えば、
「どの条件が有意に良かったか」は分かっても、
「新しく来た人がどれくらいの成績になるか?」という予測はできません。
つまり、これまでの分析では、「予測モデル」を作る視点が抜けていたのです。
統計モデリングとは?
では、これから学ぶ「統計モデリング」とは何なのでしょうか?
以下のように紹介されています:
「確率モデルをデータに当てはめて、現象の理解と予測を促す営み(松浦,2016)」
「確率モデルでデータ生成メカニズムを記述し、パラメータを推定して推論・予測を行う( 清水,2018)」
…と聞くと、なんだか難しそうに感じるかもしれませんが、
簡単に言えば以下のようになります。
データが特定の確率モデル(正規分布、ポアソン分布など)に従って生まれたと仮定し、そのモデルのパラメータ(例:平均や分散)を推定することで、現象の理解や予測を行うための枠組み。
用語の整理
確率モデルとは?
数理モデルの一種
- データが従うと仮定される分布(例:正規分布、ポアソン分布、二項分布、ガンマ分布など)
- モデルにはパラメータ(例:平均μ、標準偏差σなど)があり、これらが分布の形を決めます
- 背景知識や仮説を関係式に組み込むことで、より頑健な予測が可能になります
松浦(2016)によると、背景知識をモデルに組み込めることで、頑健な(ブレにくい)予測が可能になるそうです。
データ生成のメカニズムとは?
私たちが観測しているデータは、どんな仕組みで生まれてきたのか?
-
たとえば「身長のデータは、正規分布に従っている」と考える
-
その際に重要なのが、分布の形(パラメータ)
→ 例:平均○cm、分散△cm²
線形モデルだけで大丈夫?
従来の線形モデル(例:Y = β₀ + β₁X)は便利ですが、すべてのデータに適しているとは限りません。
-
データに合った分布を選ぶ必要があります(例:カウントデータ→ポアソン分布)
-
一般化線形モデル(GLM)では、非正規分布のデータにも対応可能
-
個人差や項目差などのランダム要因を考慮するには、混合モデルの視点も重要です
まとめ
従来の分析 |
統計モデリング |
---|---|
グループ間の差、効果の有無の検定が中心 |
データの背後にある確率的メカニズムをモデル化 |
予測までは踏み込まない |
モデルに基づいた推論・予測が可能 |
分析に合わせてデータを整える |
データに合わせてモデルを選ぶ |
次回は、いよいよ統計モデリングの基本的な考え方や流れについて、具体的に見ていきたいと思います。お楽しみに!