双子ママ、今日も楽しい!

双子の2年生の女の子と4歳の男の子を育てています。

統計モデリングの出発点:(一般)線形モデル(Linear Model:LM)って何?

おはようございます!

 

今日は、統計モデリングの中でも基本となる「(一般)線形モデル(LM)」について学んだので、ブログにまとめてみます。

これまでに、統計モデリングを勉強する前に、知っておくと良い内容についてまとめているので、過去の記事もよかったらご覧くださいね。

yukichan-mama.com

yukichan-mama.com

yukichan-mama.com

 

 

 

「Linear Model(LM)」って何?

LMは Linear Model(リニア・モデル) の略で、

  • Linear(直線的)

  • Model(数式で表した仕組み)

という意味を持ちます。

名前の通り、「直線的な関係を仮定してデータを説明するモデル」です。

 

 

 

まずは全体の位置づけから

統計モデリングの世界は、大きく見ると以下のような構造になっています。

統計モデリング全体
├── 線形モデル(LM: Linear Model)
│   ├── 単回帰モデル
│   └── 重回帰モデル
├── 一般化線形モデル(GLM: Generalized Linear Model)
│   ├── ロジスティック回帰(目的変数が0/1など)
│   └── ポアソン回帰(カウントデータなど)
├── 階層モデル(HLMや階層GLM)
├── 線形混合モデル(LMM: Random Effectsを含む)
├── 一般化加法モデル(GAM)
└── その他(ツリーモデル、非パラメトリック手法など)

この中で、線形モデルは最も基本で、中心的なモデルです。

モデリングを学ぶうえでの「出発点」とも言える存在です。

 

 

なぜ「出発点」なのか?

解釈が直感的でわかりやすい

たとえば、「Xが1増えると、Yはβだけ増える」といったふうに、感覚的にも理解しやすい構造になっています。

 

統計の基本概念が詰まっている

線形モデルを通して、以下のような統計的な考え方や技術を自然に学ぶことができます:

  • 推定:データから未知のパラメータ(β)を求める(最小二乗法など)

  • 検定:推定値が統計的に意味を持つかを検証する(t検定・F検定)

  • 分散分析との関係:グループ間の違いを分析する手法も、線形モデルで表現可能です

 

拡張性が高い

LMを理解しておけば、その後に登場する一般化線形モデル(GLM)線形混合モデル(LMM)などにもスムーズに進めます。

GLMは、LMにリンク関数や分布の柔軟性を持たせた“拡張版”とも言えます。

 

 

 

数式で表すとこうなります

y = Xβ + ε

  • y:目的変数(予測したい値)

  • X:説明変数(原因となる要因)

  • β(ベータ):Xがyに与える影響の大きさ

  • ε(イプシロン:誤差(予測と現実のズレ)

 

この形は、回帰分析分散分析など、統計解析の基本手法の土台になっています。

 

 

線形モデルの前提条件(その1):誤差に注目

線形モデルを使うには、いくつかの仮定が成り立っている必要があります。

 

1. 誤差の期待値は0

「モデルで説明しきれなかったズレ(誤差)」は、平均的には0になると仮定されています。

つまり、予測が外れてもそのズレはプラスにもマイナスにも偏らず、全体としてバランスが取れているイメージです。

 

ここで、私たちはこんな疑問が出てきました。

「誤差って、そもそもどういうふうに想定されてるんだろう?」

「“誤差は0であってくれ”っていう願いのようなものなのか?」

「もし母集団が本当に正規分布なら、たしかに誤差の期待値は0に近づきそうだけど…」

「でも誤差が0じゃないなら、そもそも正規分布を前提にしたモデルでいいの?」

 

こんなふうに、誤差の仮定ひとつとっても、考え始めるとけっこう奥深いのです。

 

 

 

2. 誤差は正規分布に従う

誤差(ε)は、平均0・分散σ²の正規分布に従うとされています:

εi ~ Normal(0, σ^2)

 

※Normalの括弧の中は、「平均」「分散」の順番です。

 

 

3.観測されたデータは、予測値を平均とする正規分布から得られる

つまり、直線(回帰直線)は「データの中心の傾向」を示し、

その周りに「ランダムな誤差を含んだデータ」が散らばっているというイメージです。

 

 

 

線形モデルの前提条件(その2):推定と構造の考え方

線形モデルでは、データからパラメータ(β)を最小二乗法(OLS)によって推定します。

 

1. 最小二乗法の考え方

•実測値(y)は、「予測値」と「誤差」に分けられる

•数式で言えば:

y = y^ + ε

  • y実際の値(観測された値、データの「正解」)

  • y^予測値(推定値)=モデルが出した「予測」

  • ε誤差(残差)=実際と予測のズレ

 

•この誤差(ε)を2乗して、合計が最小になるような直線(予測値)を見つける、というのが最小二乗法の仕組みです。

 

2.予測値と誤差は「無相関」

予測値と誤差のベクトルは、直交(直角)になるように分解されています。

これが「直交分解」と呼ばれるもので、統計的な解釈では「予測値と誤差は無相関である」という重要な性質を持っています。

 

※偏回帰係数・偏相関係数などの計算も、この性質(無相関)を活用して求められています。

 

 

説明変数を複数入れるときの注意点

線形モデルは、複数の説明変数(独立変数)を扱うこともできます

 

このときのポイントは:

  • 各説明変数の影響が、他の変数の影響を統制したうえで検討される
  • つまり、「他の要因の影響を取り除いたうえで、XがYにどれくらい効いているか?」を見ている

 

偏回帰係数とは?

これは「ある独立変数から他の独立変数の影響を除いた残差変数」に対する回帰係数です。

一見「単純に他の影響を取り除いただけ」と思いがちですが、

実際には「残差を使って説明している」という点で、ちょっとクセのある解釈が必要になります。

 

 

 

 

 

 

今日の気づき:RT-CITと線形モデルの相性?

今回、RT-CITという心理実験のデータ分析に線形モデルを使えるかを検討してみましたが、少し難しそうだとわかりました。

 

というのも……

  • 反応時間(RT)データは正規分布しないことが多い

  • よって、誤差が正規分布するという前提が成り立たない

 

そのため、このようなケースでは線形モデルではなく、

  • 一般化線形モデル(GLM)

  • 一般線形混合モデル(GLMM)

 

など、正規分布以外の分布に対応できるモデルの方が適しているようです。

 

 

まとめ:仮定を知るとモデルが深く見えてくる

線形モデルは一見シンプルに見えて、

その裏にはたくさんの前提理屈が詰まっています。

 

「この仮定、本当に成り立ってるのかな?」と疑ってみることも、

より適切なモデル選びや、より深い理解への第一歩。

 

自分のデータに合ったモデルを選ぶって、本当に大事なんだなあと実感。

統計モデリングの世界、奥が深くてますます面白くなってきました!