ポアソン分布がわからない 2

2023年5月15日

昨日の続き。

良い感じの記事を見つけて、これのおかげでポアソン分布の理解が少し進んだ。（後で誤りがあることに気がついた。）

Poisson Distribution Explained — Intuition, Examples, and Derivation | Towards Data Science

この記事を見た感じでは、昨日のコールセンターの例で「n はサービスを利用している客の総数、 p はある客がある時間にそのコールセンターに電話をかける確率」と考えるのは間違いではなさそうだった。

その他疑問に思ったことをまとめておく。

$n$ が小さくても $p$ 小さければ近似として使えるのではないか？

二項分布の近似として使う場合、 $n$ を十分に大きく、 $p$ を十分に小さくする必要があるという記述が出てくる。

ここで $np$ を一定の値「 $\lambda$ （ラムダ）」とおき、 $np=\lambda$ のままで $n$ を十分大きく $p$ を十分に小さくした場合の二項分布は、平均 $\lambda$ のポアソン分布に近似することができます。（統計WEBより）

The Poisson distribution is a good approximation of the binomial distribution if n is at least 20 and p is smaller than or equal to 0.05, and an excellent approximation if n ≥ 100 and n p ≤ 10. （英語版 Wikipedia より）

ポアソン分布を導出する過程で極限を取る3つの項の収束速度が $\lambda$ と $k$ の値によって変わるのでなんとも言えないのだが、二項分布をポアソン分布で近似したグラフを見てみると、 $n$ が小さくても $p$ が小さければ近似として十分精度が高いように見える。このあたりの「〜であれば十分精度が高い」というのは有意水準を 0.05 に設定するのと似た感覚なのだろうか。

$\lambda$ をでかくするとなぜ正規分布に近づくのか？

$\lambda$ が大きくなるにつれポアソン分布は正規分布に近づいていくらしい。なぜ？と思ったが、おそらく「標本の平均は正規分布に従うから」だと思われる。コールセンターの例で言うと「1時間あたり平均で180回の電話」という数値は、「1日に4320回ある電話を母集団として、1時間あたりの電話の回数の標本の平均をとると180だった」と捉えることができる。であるならば「1時間あたり平均で180回の電話があるとき、1時間に180回の電話が来る確率はどのような確率質量関数で表せられるか？」と聞かれればまあ正規分布でしょう、ということなのではないだろうか。（ポアソン分布でいうと $\lambda = 180$ ）。ただこれに関しては全然自信はない。

時間はどのように設定すべきなのか？

これは「ニーズに合わせて」が答えになるはず。コールセンターの例であれば、1分の間に3回かかってくる確率が知りたければ $\lambda = 3$ のときの $k = 3$ を計算すれば良く、5分の間に8回かかってくる確率が知りたければ $\lambda = 15$ のときの $k = 8$ を計算すれば良い。ただし $n$ の値は変わらないので $\lambda$ が大きくなるに連れ必然的に $p$ の値も大きくなり、近似の精度が低下していくことには注意が必要。一方で冒頭のリンクの記事の例であれば今度は $p$ が固定なので、 $n$ が大きくなっていくぶんには問題がないはず。（本当に？？）

またよくわからなくなってきた。

余談

ネットで調べてる中で良い教材を見つけたのでメモ。

Beyond Multiple Linear Regression

ポアソン分布については書かれてないけど、以前見つけた良い教材もここに貼っておく。

nnn が小さくても ppp 小さければ近似として使えるのではないか？​

λ\lambdaλ をでかくするとなぜ正規分布に近づくのか？​

時間はどのように設定すべきなのか？​

余談​

$n$ が小さくても $p$ 小さければ近似として使えるのではないか？

$\lambda$ をでかくするとなぜ正規分布に近づくのか？

時間はどのように設定すべきなのか？

余談