【R】二項分布(binominal distribution)とは何か?

スポンサーリンク

確率分布の中でよく聞く二項分布ですが、しっかりと理解するためにまとめてみました。
Wikipediaで調べると以下のようにあります。

二項分布(にこうぶんぷ)は、結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ

二項分布 – Wikipedia

まずは、「ベルヌーイ試行」という言葉の意味を読み解く必要がありそうです。
ベルヌーイ試行とは

  1. 試行が独立で
  2. 結果が2つの値しかとらない

ことを言います。「試行が独立」とは各試行がそれぞれの試行に影響を与えないことを言います。
つまり、

  • コイントスで1回目にコインが表だったからといって2回目は表がでやすいというようなことはない
  • 逆上がりに1人目が成功したら、2人目は失敗しやすいということもない。

要は各試行における確率が常に一定と言うことです。

次に、結果が2つの値しかとらないとは

  • (質問に対し)YesかNoか
  • (結果が)成功か失敗か
  • (コインの)裏か表か

のような事象のことをいいます。
こういったベルヌーイ試行を考えるとき、その結果を得られる確率(確率変数)は二項分布に当てはまりますよという話です。

以下から、Rを使って具体例を見て行きましょう。

確率を求める

例えば、100回コインを投げて(データ数が100)、表が出る確率が50%(生起確率0.5)の時、ちょうど50回表が出る(生起回数50)確率を考えます。

つかう関数はdbinom()です。

#生起確率0.5の試行100回において生起回数50となる確率
> dbinom(50,100,0.5)
[1] 0.07958924

100回コインを投げてちょうど50回表が出る確率は8%くらいということです。

生起回数を40回に減らしてみましょう。

#生起確率0.5の試行100回において生起回数40となる確率
> dbinom(40,100,0.5)
[1] 0.01084387

ちょうど40回表が出る確率は8%より当然低くなります。

分布の視覚化

ある生起回数となる確率を求めるのにいちいち50とか40とか書かないで、グラフにしてくれたら便利です。
plot()関数でグラフ化します。

# 生起回数の範囲を指定
x<-0:100
# 二項分布をプロット (type ="h"でヒストグラムを指定してます)
plot(x,dbinom(x,100,prob=0.5),type="h")
Dbinom n=100 q=0 5

当然のことながら50が最大で、左右対称の分布となっております。
これが二項分布です。

次に、表が出る確率が30%の歪んだコインを投げる場合を考えると、二項分布は以下のように変化します。

# 生起回数の範囲を指定
x<-0:100
# 二項分布をプロット
plot(x,dbinom(x,100,prob=0.3),type="h")
Dbinom n=100 q=0 3

30を最大とした、左右対称の分布ですね。

こんどは試行を30回に減らしてみましょう。

# 生起回数の範囲を指定
x<-0:30
# 二項分布をプロット (lwdでヒストグラムの横幅を増やしました)
plot(x,dbinom(x,30,prob=0.5),lwd=10,type="h")
Dbinom n=30 q=0 5

当然15になる確率が最大ですが、その確率は14%と増加してます。

> dbinom(15,30,0.5)
[1] 0.1444644

以上、二項分布の特徴ををまとめると、

  • 試行回数×生起確率が分布の中心で最大確率となる
    • 試行100回 × 確率0.5 = 生起回数50が分布の中心で最大確率
  • 試行回数が小さくなると、それぞれの生起確率は大きくなる。
    • 回数が増えれば、それだけ取りうる値が増えるから、ある特定の値を取る確率は減るのは当たり前。

ちなみに、確率変数Xが試行回数nで確立pの二項分布に従う時、以下のように記述します。

$X \sim\ \text{B}(n, p)$

最後に

今後、違う確率分布についてもまとめて見たいと思います。

参考

スポンサーリンク
スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です