おはようございます!
ゆきちゃんママです!
今日も一般化線形モデルのお話です。
早く実際にGLMの分析をやってみたいという方も多いかもしれませんが、
大切なことなので、GLMと推定法の話を詳しく書きたいと思います!
もう知っているよ!という方も、こういう話って、なぜか何度読んでも勉強になるって思うんです。
そういう私も、何度も読み直して勉強をし直す予定です(笑)

GLMと最尤推定法の関係
一般化線形モデル(GLM)では、データの性質に応じて 正規分布だけでなく、ポアソン分布や二項分布など様々な分布を想定できる のが特徴でした。
ただし――分布を選んだだけではまだ不十分です。
その分布を決めるには「パラメータ」を推定しなければなりません。
これらを データから推定する方法 として使われるのが 最尤推定法(MLE) です。
つまり、GLMでどんな分布を選んだとしても、そのパラメータを「もっともデータに合う形」で推定するのに最尤推定法が使われる、というわけです。
確率分布とは?(復習)
そもそも確率分布とは、確率変数(=結果を数で表したもの)とその出現確率を対応させたものです。
-
サイコロなら、確率変数は「1〜6」で、それぞれの確率は1/6。
-
すべての確率を足すと1になる(必ずどれかの目が出る)。
この考え方を一般化したのが確率分布です。
正規分布、ポアソン分布、二項分布、ガンマ分布など、データの性質に合わせて様々な分布が存在します。
ポアソン分布の例
ある時間や空間内での「事象の発生回数」を表す分布 がポアソン分布です。
-
平均が λ(ラムダ)のとき、観測される回数 y はポアソン分布に従う。
-
y = 0,1,2,3,…と無限に広がるが、確率の和は必ず1になる。
-
ポイントは「平均=分散」という強い制約があること。
例:テストの誤答数、1時間にかかってくる電話の件数、など。
いずれも 0以上の整数で表されるデータ に適している。
最尤推定法とは?
では、そのパラメータ(λ や p)をどうやって推定するのか。
ここで登場するのが 最尤推定法(Maximum Likelihood Estimation, MLE) です。
-
尤度とは:「そのデータが観測されるもっともらしさ」を表す数値。
-
最尤推定法とは:「観測されたデータが一番もっともらしくなるように」パラメータを決める方法。
サイコロの例で考えてみる
例えば「このサイコロは本当に公平(=1/6の確率で1〜6が出る)なのかな?」と調べたいとします。
-
60回ふったら「1」が20回も出た!
-
公平なサイコロなら「1」が出る回数の期待値は 60 × 1/6 = 10 回くらいのはず。
-
でも実際は20回出ている。
このとき「サイコロの1の出やすさ=確率 p 」をパラメータと考え、
実際の観測データ(20/60回)をもっともらしく説明できる p を探すのが最尤推定法です。
結果として、この場合は p ≈ 20/60 = 1/3 が一番もっともらしい、という推定になります。
GLMに当てはめると?
同じ発想を使って、
-
ポアソン分布なら「一番もっともらしい平均 λ」
-
二項分布なら「一番もっともらしい成功確率 p」
-
ガンマ分布なら「一番もっともらしい shape と rate」
を探してあげるのが最尤推定法です。
つまり、GLMで分布を選んだら、その分布のパラメータは最尤推定法で決める というのが基本の流れになります。
こうすると「なるほど、データに合う確率を探すんだな」とイメージしやすくなると思います。
まとめ
-
GLMは「分布をデータに合わせて選べる」柔軟なモデル。
-
でも、分布を決めるにはパラメータが必要。
-
その推定方法として「最尤推定法」が使われる。
👉 こうして 確率分布 × 最尤推定法 × リンク関数 の組み合わせで、GLMは動いているんです。
今日も最後まで読んでいただいてありがとうございます!
