双子ママ、今日も楽しい!

双子の2年生の女の子と4歳の男の子を育てています。

一般化線形モデル(GLM)に挑戦!

おはようございます!

ゆきちゃんママです。

 

最近は統計といっても、Rの設定や基礎的な部分をまとめてきましたが、それもひと段落。

今回は、夏休み前に解説していた「(一般)線形モデル」の続きとして、その発展版である Generalized Linear Model(一般化線形モデル/GLM) を取り上げたいと思います。

yukichan-mama.com

 

正直、私は最初「一般線形モデル」と「一般化線形モデル」って、【化】がつくだけで同じじゃん!と思っていました(笑)。

訳し方の違いで中身は一緒、なんてこともよくありますよね。

 

でも実は、この2つはちゃんと別物なんです。

今日はその違いを、できるだけわかりやすくお話しします😊

 

 

 

(一般)線形モデルってなんだったっけ?

(一般)線形モデルは、

 

説明変数(X)が変わると、目的変数(Y)が直線的に変わる

 

と仮定して関係を調べるモデルです。

 

たとえば「勉強時間(X)」と「テストの点数(Y)」の関係を考えると、

 

  • 勉強時間が1時間増えると、点数が3点上がる

 

 

みたいに直線で説明できる関係ですね。

 

数式にすると、

 

Y = a + bX + ε

(切片 a + 傾き b × X + 誤差 ε)

 

要するに、データをできるだけ「まっすぐな線」で説明するのが線形モデルでした。

 

 

 

でも、直線じゃ合わないこともある

ところが実際のデータは、必ずしも直線で説明できるとは限りません。

 

たとえばテストの点数を直線で説明しようとすると――

 

  • 点数がマイナスになる(本来ありえない!)予測をしてしまう

 

なんてことが起きます。

 

こうした「直線では不自然になるケース」に対応するのが、 一般化線形モデル(GLM) です。

 

 

 

一般化線形モデルの考え方

GLMでは、直線の代わりに「データの性質に合った分布」を使って表現します。

yukichan-mama.com

 

たとえばテストの得点は 0点以上の整数

この場合、「ポアソン分布」で説明するのが自然です。

 

ここで大事なのは、分布を当てはめるのは目的変数(縦軸) という点です。

横軸がどんなデータかは関係ありません。

 

 

 

ちょっと整理:分布と推定の話

統計では、まず「このデータはある分布から生まれている」と仮定します。

  • 正規分布なら、平均と分散を決めれば形が決まる

  • データから一番合う平均と分散を推定する

  • その結果として「この正規分布からデータが生まれた」と考える

 

 

一般化線形モデルは、この「正規分布に限定」という縛りを外し、

 

といったように、データの性質に合った分布を自由に選べるようにしたものです。

 

 

 

まとめ

  • 線形モデルは便利だけど、マイナスの値まで予測してしまう弱点もある

  • 得点のように「0以上の整数データ」にはポアソン分布がぴったり

  • GLMは「正規分布だけ」ではなく、データに合った分布を選べる柔軟なモデル

 

 

つまり、GLMは「進化版の線形モデル」

「データに合わせて分布を選べるモデル」とイメージすると、ぐっと理解しやすいと思います✨

 

 

次回予告:GLMの代表的なモデルたち

ここまでで、「一般化線形モデル(GLM)は、データに合わせて分布を選べる柔軟なモデルなんだ!」ということを見てきました。

 

では実際に、GLMにはどんなモデルがあるのでしょうか?

 

代表的なのはこの3つです👇

  • ロジスティック回帰:0か1(Yes/No、正解/不正解)のようなデータを扱う

  • ポアソン回帰:数を数えるデータ(正答数、来店人数など)を扱う

  • ガンマ回帰:反応時間や金額のような「0より大きい連続値」を扱う

 

「名前は聞いたことあるけど、どう違うの?」と思う方も多いかもしれません。

 

次回からは、それぞれのモデルを取り上げて、

  • どんなデータに向いているのか

  • 実際にどう使うのか

    を、例を交えながら解説していきたいと思います😊

 

PVアクセスランキング にほんブログ村

にほんブログ村 子育てブログへ にほんブログ村 その他日記ブログ 研究職日記へ