前回の続き。
前回、参考として挙げた記事の 3. The limitations of the Binomial Distribution の a) The Binary Nature of the Binomial Distribution の説明が誤った内容だったのでここで整理してみる。記事中では以下のように書かれている。
If we try to model the success probability by hour (0.1 people/hr) using the binomial random variable, we encounter a problem: most of the hours will have zero claps, but some hours will get exactly 1 clap. However, it is very possible that certain hours will receive more than 1 clap (e.g. 2, 3, or 5 claps).
The problem with the binomial distribution is that it CANNOT account for more than one event within a given unit of time (in this case, 1 hour). And the time unit can only have 0 or 1 event.
記事中のここまでの議論を日本語で要約すると、「『いいね』を押す人の1時間あたりの平均を取ると 0.1 人であるため、1時間のうちに『いいね』が 回押される回数の確率を二項分布を使って計算しようとすると、 の場合と の場合しか計算できず、それ以上の回数(2、3、5)『いいね』される確率は計算できない。」としている。しかしこれは誤りである。
記事に書かれている数値を使って実際に二項分布で1時間あたり2回「いいね」される確率を計算してみる。
1週間当たりに記事を読んだ人は 1134 人であることから、1時間あたりに記事が読まれる回数 は
となる。組み合わせの計算は自然数を使うので、ここから先は四捨五入して1時間あたり平均7回記事が読まれているとする。
記事を閲覧した人が「いいね」する割合は単位時間に関係なく 1.5% で一定なので、1時間あたり2回「いいね」される確率()は、
となる。
このように、二項分布を使って1時間のうち2回(あるいは7以下の任意の回数)「いいね」される確率の計算は可能なのだ。
解説文として正しく書くなら「二項分布を使った確率計算において となる単位時間では確率の計算ができない」となる。また作者は二項分布ではなくポアソン分布を使う理由としてこれを挙げているが、 となる単位時間ではそもそも存在しない事象となってしまい、ポアソン分布を用いたところで存在しない確率を近似することになってしまう。「ポアソン分布を使えば確率が算出できる」ではなくむしろやってはいけない行為だろう。
じゃあ作者が算出している確率は間違っているということ?
作者は「1週間のうちに20『いいね』もらう確率」を計算しており、1週間という単位時間では なのでポアソン分布の使い方としては正しいし、算出される確率も精度の高い近似値となる。しかし「1分間のうちに1『いいね』もらう確率」を算出するとして、 の値に単位時間あたりの閲覧数を使った場合は、ポアソン分布を使った確率の算出は間違っていると言える。
ここから話がややこしくなってくる(&僕の自信がなくなってくるので鵜呑みにしないように)。
英語版ウィキペディアの Law of rare events のセクションで以下のように書かれている。
The name "law of rare events" may be misleading because the total count of success events in a Poisson process need not be rare if the parameter n p is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.
コールセンターに頻繁に電話がかかってきたとしても、population 全体(= )からするとある人がそのコールセンターに電話する確率は低いと捉えることができる、ということらしい。つまり先程の記事閲覧の例で考えると、全人類()のうち、人がその記事に「いいね」をつける確率として捉えることができる。1分という単位時間あたりの全人類の数は80億のままなのでポアソン分布を使って「1分間のうちに1『いいね』もらう確率」を算出(近似)できてしまうのだ。
でもそうすると、勝手な理由をつけて と を都合の良い数字にすることができてしまうのではないか?と思うかもしれない。全くもってそのとおりで、僕もこれはインチキなんじゃないかと思っている。この解釈に自信がないのもそれが理由だ。
でも人々は の定義が曖昧な事象においてもポアソン分布が appropriate であると assume している。
つまりどういうこと?
よくわからない。グラフ描いてみたらポアソン分布っぽいのでポアソン分布に従うと仮定していいんじゃね?っていう感じなんじゃないでしょうか。
僕の中の今の結論としては「 の定義が曖昧な事象にポアソン分布を当てはめるのは意味不明」ということになっている。
一方で、 をきちんと定義できる事象についてはかなり面白いと思う。例えばレーズンパンを作るときに入れるべきレーズンの数なんかは実際のパン工場で行われている計算だろう。