おはようございます!
ゆきちゃんママです!
前回は、一般化線形モデル(GLM)が「正規分布だけに縛られない、柔軟な回帰モデル」だというお話をしました。
今回はその代表例を、実際のデータの性質と結びつけながら見ていきましょう。

まずは基礎:確率分布って何?
統計モデルを考えるとき、まず「このデータはどんな分布から生まれているのだろう?」と仮定します。
このときに使うのが 確率分布 です。
-
確率分布とは「確率変数の値」と「その値が出る確率」とを対応させたもの。
-
たとえばサイコロなら、確率変数の値は1〜6で、それぞれの確率は1/6。合計すると必ず1になります。
実際のデータでは、正規分布・二項分布・ポアソン分布・ガンマ分布など、さまざまな確率分布が使われます。
GLMでは、データの性質に応じて、この分布を選び分けていきます。
ポアソン回帰:カウントデータにぴったり
「1日の来店人数」や「テストの正答数」など、0以上の整数値(カウントデータ)を扱うときに便利なのがポアソン分布。
-
ポアソン分布は「ある時間や空間内で、事象が何回起こるか」を表す分布です。
-
平均と分散が同じ(λ)になるのが特徴。
-
だから、バラつきが「平均に比例する」ようなデータに合っています。
GLMにするときは、
-
確率分布:ポアソン分布
-
リンク関数:対数リンク関数
を使って、説明変数と目的変数を結びつけます。
ロジスティック回帰:はい/いいえのデータに
「合格/不合格」「購入する/しない」のように、0か1で表される二値データを扱うときはロジスティック回帰が活躍します。
-
確率分布は二項分布。
-
成功確率をロジット変換して線形予測子に結びつける、という仕組みです。
これは統計だけでなく機械学習でもよく登場する、超メジャーなモデルです。
ガンマ回帰:正の連続値データに
「反応時間」や「医療費」「金額」など、0より大きい連続値を扱いたいときはガンマ分布が便利です。
-
分布の形を「shape」と「rate」というパラメータで調整できる。
-
GLMでは対数リンク関数を使って、データに当てはめます。
「分布が右に長い(裾が広い)」データにもしっかりフィットしてくれるのがガンマ分布の強みです。
まとめ:GLMの使い分け
GLMのすごいところは、データに合わせて分布を選べる柔軟さにあります。
-
カウントデータ → ポアソン回帰
-
二値データ → ロジスティック回帰
-
正の連続値データ → ガンマ回帰
こうして見ると、普段の研究や日常のデータにも「これはGLMで扱えそう!」という場面がたくさんあるのではないでしょうか😊
次回は、実際にサンプルデータを使って「どうやってGLMを当てはめるのか?」を見ていきたいと思います!
