【R】負の二項分布(negative binomial distribution)とは何か?

スポンサーリンク

前回二項分布についてまとめたのですが、ややこしいことに負の二項分布というものもあります。
日本語のWikipediaによる説明では、いまいちよくわかりません。

英語のWikipediaではよく説明されており、分布の形状変化のアニメーションなども実装されていて参考になります。

In probability theory and statistics, the negative binomial distribution is a discrete probability distribution of the number of successes in a sequence of independent and identically distributed Bernoulli trials before a specified (non-random) number of failures (denoted r) occurs. For example, if we define a “1” as failure, all non-“1″s as successes, and we throw a dice repeatedly until the third time “1” appears (r = three failures), then the probability distribution of the number of non-“1”s that had appeared will be a negative binomial.

Negative binomial distribution – Wikipedia, the free encyclopedia

要約すると、負の二項分布とは「r回失敗するまでの成功回数kの分布」という説明です。

尚、日本語の文献では成功回数はkとされていることが多いようです。
その場合は、「k回成功するまでの失敗回数rの分布」というように説明されます。

とりあえず負の二項分布は二項分布と関連があるみたいなので、二項分布と負の二項分布の違いをまとめてみましょう。

  1. 二項分布
    • 生起確率pの事象の生起回数は二項分布に従う
      • 表がでる確率0.5のコインを投げた時に表がでる回数は二項分布に従う
  2. 負の二項分布
    • 確率pの事象がk回起きるまでに、その事象が起きなかった回数は負の二項分布に従う。
      • 表がでる確率0.5のコインを投げてk回表がでるまでに、裏がでる回数Xは負の二項分布に従う。

「その事象が起きなかった」というところが「負の」所以なのでしょうかね。
「負」の所以は以下が参考になります。

さっそくRでやってみましょう。

確率を求める

二項分布を出力する関数はdnbinomです。

試しにやってみましょう。

確率0.5で表がでるコイントスを考えます。

5回表をだすまでに、5回裏がでていた確率は、

> #5回表をだすまでに5回裏がでる確率
> dnbinom(5,5,0.5)
[1] 0.1230469

12%という結果です。

では、5回表をだすまでに1回しか裏がでていない確率はどうか計算してみます。

> # 5回表をだすまでに1回裏がでる確率
> dnbinom(1,5,0.5)
[1] 0.078125

7%という結果で、5回裏がでる確率より低いことがわかります。

同様に、5回表を出すのに10回裏がてている確率はどうか計算してみます。

> # 5回表をだすまでに10回裏がでる確率
> dnbinom(10,5,0.5)
[1] 0.0305481

3%とさらに低い確率となりました。直感的にわかりますよね。

分布を視覚化

それでは負の二項分布を書いてみたいと思います。

とりあえず5回表がでるのにどれくらい裏が出るものなのかを考えます。

# 生起回数の範囲を指定
x<-0:30
# 負の二項分布をプロット
plot(x,dnbinom(x,5,prob=0.5),lwd=5,type="h",col="grey")
Dnbinom k=5 q=0 5

裏がでる回数は4,3が最大だということが読み取れます。

次に、表がでる確率を0.2の歪んだコインに変更してみると

# 生起回数の範囲を指定
x<-0:30
# 負の二項分布をプロット(表の確率を0.2に変更)
plot(x,dnbinom(x,5,prob=0.2),lwd=5,type="h",col="grey")
Dnbinom k=5 q=0 2

表がでる確率が下がれば当然裏になる確率があがるため、5回表をだすまでに15回くらい裏がでてしまうようです。

最後に、表が出る確率が0.5のコインに戻し、表を20回だすまでに裏がどれくらいでるのか分布を見てみましょう。

> x<-0:30
> # 負の二項分布をプロット(表の確率を0.2に変更)
> plot(x,dnbinom(x,10,prob=0.5),lwd=5,type="h",col="grey")

分布は右に移動し、失敗回数は8か9の確率が最大のようです。

まとめると

  • 二項分布はパラメータを2つ取る
    • 成功回数kと成功確率q
  • 成功回数kが大きくなれば分布は右へ移動
    • 必要な成功回数が増えればその分失敗回数も増える
  • 成功確率qが大きくなればピークは左へ移動
    • 失敗確率が減るから失敗回数が減る

「成功確率pの事象がr回成功するまでの失敗回数Xは負の二項分布に従う」*とき、以下のように書くことができます。

$X\ \sim\ \text{NB}(r; p)$

と書ける。

その他参考

スポンサーリンク
スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です