双子ママ、今日も楽しい!

双子の2年生の女の子と4歳の男の子を育てています。

一般化線形モデル(GLM)の代表例を見てみよう

おはようございます!

ゆきちゃんママです!

 

前回は、一般化線形モデル(GLM)が「正規分布だけに縛られない、柔軟な回帰モデル」だというお話をしました。

今回はその代表例を、実際のデータの性質と結びつけながら見ていきましょう。

 

 

まずは基礎:確率分布って何?

統計モデルを考えるとき、まず「このデータはどんな分布から生まれているのだろう?」と仮定します。

このときに使うのが 確率分布 です。

  • 確率分布とは「確率変数の値」と「その値が出る確率」とを対応させたもの。

  • たとえばサイコロなら、確率変数の値は1〜6で、それぞれの確率は1/6。合計すると必ず1になります。

 

実際のデータでは、正規分布・二項分布・ポアソン分布・ガンマ分布など、さまざまな確率分布が使われます。

GLMでは、データの性質に応じて、この分布を選び分けていきます。

 

 

 

ポアソン回帰:カウントデータにぴったり

「1日の来店人数」や「テストの正答数」など、0以上の整数値(カウントデータ)を扱うときに便利なのがポアソン分布。

  • ポアソン分布は「ある時間や空間内で、事象が何回起こるか」を表す分布です。

  • 平均と分散が同じ(λ)になるのが特徴。

  • だから、バラつきが「平均に比例する」ようなデータに合っています。

 

GLMにするときは、

  • 確率分布:ポアソン分布

  • リンク関数:対数リンク関数

を使って、説明変数と目的変数を結びつけます。

 

 

 

ロジスティック回帰:はい/いいえのデータに

「合格/不合格」「購入する/しない」のように、0か1で表される二値データを扱うときはロジスティック回帰が活躍します。

  • 確率分布は二項分布。

  • 成功確率をロジット変換して線形予測子に結びつける、という仕組みです。

 

これは統計だけでなく機械学習でもよく登場する、超メジャーなモデルです。

 

 

 

ガンマ回帰:正の連続値データに

「反応時間」や「医療費」「金額」など、0より大きい連続値を扱いたいときはガンマ分布が便利です。

  • 分布の形を「shape」と「rate」というパラメータで調整できる。

  • GLMでは対数リンク関数を使って、データに当てはめます。

 

「分布が右に長い(裾が広い)」データにもしっかりフィットしてくれるのがガンマ分布の強みです。

 

 

 

まとめ:GLMの使い分け

GLMのすごいところは、データに合わせて分布を選べる柔軟さにあります。

  • カウントデータ → ポアソン回帰

  • 二値データ → ロジスティック回帰

  • 正の連続値データ → ガンマ回帰

 

こうして見ると、普段の研究や日常のデータにも「これはGLMで扱えそう!」という場面がたくさんあるのではないでしょうか😊

 

次回は、実際にサンプルデータを使って「どうやってGLMを当てはめるのか?」を見ていきたいと思います!

 

PVアクセスランキング にほんブログ村

にほんブログ村 子育てブログへ にほんブログ村 その他日記ブログ 研究職日記へ