確率論を本格的に勉強しようとすると、前提知識として「測度論」というものが必要になることが分かり、それが一つのハードルになっていることが多いようです。確かに、測度論を用いて確率論を作ると、離散の場合と連続の場合で分けて議論する必要がなくなったり、色々な定理を証明するときに便利だったりするので、現代の数学的に厳密な確率論は測度論の枠組みを用いて議論されるのが普通です。一方で、測度論は大学の数学科3年生あたりで学習する内容ですので、勉強するハードルが高いのも事実だと思います。しかし、測度論は数学科で学ぶ内容の中では必ずしもとっつきにくい分野ではなく、むしろ直感的な理解はしやすい分野だと思います(個人的には位相空間論などのほうが理解しにくいと思います)。そこでこの記事では、測度論に基づく確率論を、直感的な意味を中心に説明したいと思います。
確率とは何か?
例えば、「明日雨が降る確率が80%である」といったとき、我々は「明日雨が降る」という事象の「起こりやすさ」が80%だろうと考えます。これはどういうことかというと、
「明日雨が降る」という事象 に、「80%」という値が「確率」というラベル(名前)でついていた時、我々はそれを「起こりやすさ」として解釈する
ということです。数学では「20%」や「80%」の代わりに「0.2」や「0.8」のような数値を使うことが一般的ですので、この表記を用いると、
確率とは、「明日雨が降る」のような事象に対し、「0.8」のような数値を対応させる「ラベル」である
ということです。このように、何かに対して数値を対応させる機能を数学では関数と呼びます。つまり確率は、「事象に対して0~1の数値を対応させる関数」であるということができます。
次に、「事象」とは何かを数学的に表現する方法を考えましょう。
事象と確率
そのために、サイコロを1回ふるという行為を考えましょう。この時起こり得る結果は、
① 1の目が出る
② 2の目が出る
③ 3の目が出る
④ 4の目が出る
⑤ 5の目が出る
⑥ 6の目が出る
の6パターンです。これに対し起こり得る事象は、
・1の目が出る→①に対応
・2の目が出る→②に対応
のように結果①~⑥に対応するものだけでなく
・偶数の目が出る→②、④、⑥に対応
・奇数の目が出る→①、③、⑤に対応
・1か2の目が出る→①、②に対応
のように①~⑥のうち複数を組み合わせたものに対応するものもあります。このように、事象とは、「起こり得る結果のうちいくつか(1つでもよい)を集めたもの」と考えることができます。
さて、「ものを集めたもの」というのは数学的に表現すると、「集合」になります。集合で表現すると、
・「偶数の目が出る事象」は{②,④,⑥}
・「1か2の目が出る事象」は{①,②}
・「1の目が出る事象」は{①} (要素が1つの集合)
と表現することができます。つまり、
事象とは、すべての結果を集めた集合{①,②,③,④,⑤,⑥}の部分集合である
このように、「すべての結果を集めた集合 {①,②,③,④,⑤,⑥} 」のことを「標本空間」といい、よく$\Omega$(オメガ)という文字で表します。なお、
- 空集合{}は「 何も起こらない事象」
- 標本空間$\Omega=${①,②,③,④,⑤,⑥} は 「何かが起こる事象(1~6のどれかの目がでる事象=全事象)」
と解釈できます 。
さて、事象をこのように定義すると、例えば 「1の目が出る 」事象は{①}という集合なので、
「1の目が出ることが1/6である」ことはP({①})=1/6
「偶数の目が出る 」事象は{②,④,⑥}という集合なので、
「偶数の目が出ることが1/2である」ことはP( {②,④,⑥} )=1/2
と表現できます(確率はPで表します)。つまり、確率とは「標本空間 {①,②,③,④,⑤,⑥} の部分集合に対し、0~1の数値を対応させる関数」ということになります。そこで、 {①} や {②,④,⑥} のような標本空間の部分集合(=事象)をすべて集めてできる集合を$\mathcal{F}$と置くと、確率は「 $\mathcal{F}$ の要素に対して1~0の数値を対応させる関数」ということができます。
今出てきた標本空間$\Omega$、事象全体を集めてできる集合$\mathcal{F}$、確率$P$をセットにしたもの$(\Omega,\mathcal{F},P)$を確率空間と呼びます。
別な例を考えてみる
さて、今度はサイコロの6つの面をA面、B面、 C面、D面、E面、F面とし、 A、B、C、D面には1が、E、F面には2が書いてあるとします。さらにサイコロの中身にはおもりが入っていて、1と2が50%ずつで出るように調整されています。しかし、A~F面のそれぞれが出る確率はわからないとします。
この時、起こり得るすべての結果は、
[A] A面が出る
[B] B面が出る
[C] C面が出る
[D] D面が出る
[E] E面が出る
[F] F面が出る
の6パターンなので、標本空間$\Omega$を
$$\Omega=\{[A],[B],[C],[D],[E],[F]\}$$
としましょう。
しかし、今回は確率がわかっているのは
- 「何も起こらない事象」={} (確率0)
- 「1の目が出る事象(A~D面が出る事象)」={[A],[B],[C],[D]} (確率1/2)
- 「2の目が出る事象(E,F面が出る事象)」={[E],[F]} (確率1/2)
- 「どれかの面が出る事象」={[A],[B],[C],[D],[E],[F]} (確率1)
の4つの事象だけで、 これらの確率は
- $P(\{\})=0$
- $P( \{[A],[B],[C],[D]\})=1/2$
- $P( \{[E],[F]\})=1/2$
- $P( \{[A],[B],[C],[D],[E],[F]\})=1$
となります。一方で、「A面が出る事象」={[A]}や「A面またはB面が出る事象」={[A],[B]}の確率はわかりません。
そこで今回は、「すべての事象」ではなく、確率がわかっている4つの事象だけを集めた集合を
$$\mathcal{F}=\{\{\}, \{[A],[B],[C],[D]\}, \{[E],[F]\}, \{[A],[B],[C],[D],[E],[F]\} \}$$
と置きます。このように、すべての事象の確率がわかっているわけではない場合、確率空間 $(\Omega,\mathcal{F},P)$において、$ \mathcal{F}$には確率がわかっている事象だけを入れることにします。 そうすると、先ほどと同様に、確率$P$は「 $\mathcal{F}$ の要素に対して1~0の数値を対応させる関数」 と表現できます。
確率の満たすべき性質
ここまで確率空間の例を見てきましたが、一般的な確率空間の定義をするために、「確率」が満たしている性質をピックアップしてみましょう。高校において、次のような性質を習うと思います。
- $P(\{\})=0$ (何も起こらない確率は0)
- $\Omega$を全事象(標本空間)とすると、$P(\Omega)=1$
- $A^c$を$A$の余事象($A$が起こらない事象)とすると、$P(A^c)=1-P(A)$
- 事象$A$と$B$が同時に起こらない時(つまり$A \cap B = \{\}$の時)、$P(A \cup B)=P(A)+P(B)$ (和の法則)
さらに、上の性質から、「確率が定義できる事象を集めた集合」である$\mathcal{F}$の満たさなければいけない性質も見えてきます。つまり、
- 空事象$ \{\} $は$ \mathcal{F}$に入っている(=確率が定義できる)
- 全事象 $\Omega$ も$ \mathcal{F}$に入っている
- 事象$A$が$ \mathcal{F}$に入っていたら、その余事象$A^c$も $ \mathcal{F} $に入っている
- 事象$A$と$B$が$ \mathcal{F} $に入っていたら、 事象$A \cup B$も $ \mathcal{F} $に入っている
ということが必要です。
一方、標本空間$\Omega$については、特に満たすべき性質はなく、どんな集合でも良さそうです。
以上が今までの経験に基づく確率空間$(\Omega, \mathcal{F}, P)$の満たすべき性質です。そこで数学では、 今列挙した性質($P$と$\mathcal{F}$の性質1~4)をすべて満たす
- 集合$\Omega$
- 集合$\Omega$の部分集合(の一部)を集めた集合 $\mathcal{F}$
- $\mathcal{F}$の要素に0~1の数値を対応させる関数$P$
のセットを$(\Omega, \mathcal{F}, P)$を有限加法的確率空間と呼び、これを研究対象とします。現実的な確率空間は、今考えた性質をすべて満たしていますので、 有限加法的確率空間を研究しておけば、現実の問題にも応用できるだろう、ということですね。
確率空間
さて、今「有限加法的確率空間」を定義しましたが、これでは少し不便なことがあります。例えば「サイコロを無限にふり続ける」という試行を考えましょう。この時、「$n$回目に1が出る」という事象を$A_n$とすると、「いつかは1が出る」事象は$A_1\cup A_2 \cup A_3 \cup \cdots$(「1回目で1が出る」or「2回目で1が出る」or…)と表せます。このように、無限個の事象$A_1,A_2,\cdots$に対して、 $A_1\cup A_2 \cup \cdots$のような事象を考えたくなることがよくあります。しかし、上で述べた$P$や$\{\mathcal{F}\}$の性質を仮定するだけでは、このような無限個の$\cup$があったときに対応できません。そこで、無限個の$\cup$があっても対応できるように、 $P$や$\{\mathcal{F}\}$の性質4を次のように置き換えます。
$P$の性質:
- (改) 事象$A_1,A_2,\cdots$があって、どの2つも同時に起こらない時、$P(A_1 \cup A_2 \cup \cdots)=P(A_1)+P(A_2)+\cdots$ (和の法則無限個バージョン)
$\mathcal{F}$の性質:
- (改) 事象$A_1,A_2,\cdots$が$ \mathcal{F} $に入っていたら、$A_1\cup A_2 \cup \cdots$も$ \mathcal{F} $に入っている。
有限加法的確率空間$(\Omega, \mathcal{F}, P)$ で4を4(改)に直したものを確率空間と呼びます。つまり、確率空間とは
- 集合$\Omega$
- 集合$\Omega$の部分集合(の一部)を集めた集合 $\mathcal{F}$
- $\mathcal{F}$の要素に0~1の数値を対応させる関数$P$
のセット $(\Omega, \mathcal{F}, P)$ で、以下の性質を満たすもののことを言います。
$P$の性質:
- $P(\{\})=0$
- $P(\Omega)=1$
- $P(A^c)=1-P(A)$
- (改) 事象$A_1,A_2,\cdots$があって、どの2つも同時に起こらない時、$P(A_1 \cup A_2 \cup \cdots)=P(A_1)+P(A_2)+\cdots$
$\mathcal{F}$の性質:
- $ \{\} \in \mathcal{F} $
- $\Omega \in \mathcal{F} $
- $A \in \mathcal{F} $なら、$A^c\in \mathcal{F}$
- (改) $A_1,A_2,\cdots \in \mathcal{F}$なら、$A_1\cup A_2 \cup \cdots\in \mathcal{F} $
($A \in \mathcal{F}$は$A$が$\mathcal{F}$に入っているということです。)
さらに、上の性質を満たす$P$のことを確率測度といいます。
まとめ
今回の記事では、「確率空間」を直感的な背景とともに定義しました。次回は、確率変数について説明したいと思います。