おはようございます!
ゆきちゃんママです。
最近は統計といっても、Rの設定や基礎的な部分をまとめてきましたが、それもひと段落。
今回は、夏休み前に解説していた「(一般)線形モデル」の続きとして、その発展版である Generalized Linear Model(一般化線形モデル/GLM) を取り上げたいと思います。
正直、私は最初「一般線形モデル」と「一般化線形モデル」って、【化】がつくだけで同じじゃん!と思っていました(笑)。
訳し方の違いで中身は一緒、なんてこともよくありますよね。
でも実は、この2つはちゃんと別物なんです。
今日はその違いを、できるだけわかりやすくお話しします😊

(一般)線形モデルってなんだったっけ?
(一般)線形モデルは、
説明変数(X)が変わると、目的変数(Y)が直線的に変わる
と仮定して関係を調べるモデルです。
たとえば「勉強時間(X)」と「テストの点数(Y)」の関係を考えると、
-
勉強時間が1時間増えると、点数が3点上がる
みたいに直線で説明できる関係ですね。
数式にすると、
Y = a + bX + ε
(切片 a + 傾き b × X + 誤差 ε)
要するに、データをできるだけ「まっすぐな線」で説明するのが線形モデルでした。
でも、直線じゃ合わないこともある
ところが実際のデータは、必ずしも直線で説明できるとは限りません。
たとえばテストの点数を直線で説明しようとすると――
-
点数がマイナスになる(本来ありえない!)予測をしてしまう
なんてことが起きます。
こうした「直線では不自然になるケース」に対応するのが、 一般化線形モデル(GLM) です。
一般化線形モデルの考え方
GLMでは、直線の代わりに「データの性質に合った分布」を使って表現します。
たとえばテストの得点は 0点以上の整数。
この場合、「ポアソン分布」で説明するのが自然です。
ここで大事なのは、分布を当てはめるのは目的変数(縦軸) という点です。
横軸がどんなデータかは関係ありません。
ちょっと整理:分布と推定の話
統計では、まず「このデータはある分布から生まれている」と仮定します。
一般化線形モデルは、この「正規分布に限定」という縛りを外し、
-
ポアソン分布
-
二項分布
-
その他の分布
といったように、データの性質に合った分布を自由に選べるようにしたものです。
まとめ
-
線形モデルは便利だけど、マイナスの値まで予測してしまう弱点もある
-
得点のように「0以上の整数データ」にはポアソン分布がぴったり
-
GLMは「正規分布だけ」ではなく、データに合った分布を選べる柔軟なモデル
つまり、GLMは「進化版の線形モデル」。
「データに合わせて分布を選べるモデル」とイメージすると、ぐっと理解しやすいと思います✨
次回予告:GLMの代表的なモデルたち
ここまでで、「一般化線形モデル(GLM)は、データに合わせて分布を選べる柔軟なモデルなんだ!」ということを見てきました。
では実際に、GLMにはどんなモデルがあるのでしょうか?
代表的なのはこの3つです👇
-
ロジスティック回帰:0か1(Yes/No、正解/不正解)のようなデータを扱う
-
ポアソン回帰:数を数えるデータ(正答数、来店人数など)を扱う
-
ガンマ回帰:反応時間や金額のような「0より大きい連続値」を扱う
「名前は聞いたことあるけど、どう違うの?」と思う方も多いかもしれません。
次回からは、それぞれのモデルを取り上げて、
-
どんなデータに向いているのか
-
実際にどう使うのか
を、例を交えながら解説していきたいと思います😊
