確率変数は偶然によってゆらぐわけですが、それについて何も決定的なことが言えないわけではなく、「確率変数がある範囲の値を取る確率」については定まっていると考えられます。この「確率変数がある範囲の値を取る確率」の情報を担っているのが、確率分布と呼ばれるものです。この記事では確率分布の概念を説明し、「正規分布」や「ポアソン分布」などの代表的な確率分布や、それがどんな状況で登場するかを解説します。目次1 確率分布とは何か2 中心極限定理と正規分布3 その他の分布:ポアソン分布を中心に1 確率分布とは何か確率論および統計学の根本概念である「確率変数」について、これまでは「偶然によってゆらぐ量」といった直感的な理解に基づいて説明してきましたが、ここからはより踏み込んで考えていく必要があります。確率変数は偶然によってゆらぐわけですが、それについて何も決定的なことが言えないわけではなく、「確率変数がある範囲の値を取る確率」については定まっていると考えられます。この「確率変数がある範囲の値を取る確率」の情報を担っているのが、確率分布と呼ばれるものです。確率分布というのは、要するに「値の範囲」Aを入力すると確率P(A)が出力されるような関数のことです。そして、確率変数Xがある確率分布Pに従うというのは、「確率変数Xの値がある範囲Aの中に入る確率」がちょうどP(A)となることを言います。ちょっと抽象的に聞こえると思いますので、具体例で説明します。例えば、レジの待ち時間Xを調べたいとします。これは偶然によってゆらぐ量であり、確率変数と考えられます。この確率変数Xが従う確率分布Pを推測したいと思えば、何回にもわたってレジの待ち時間を測り、それらを集計した上で、「待ち時間が30秒から45秒である確率はいくらか?」「3分以上となる確率はいくらか?」などをデータから推測するということになります。確率変数Xが従う確率的な法則を理解するとは、Xが「範囲A」の値を取る確率P(A)が理解できることと言い換えることができ、この範囲A→確率P(A)という対応付けの法則、すなわち「関数」Pのことを確率分布と読んでいるわけです(ちなみに、今述べた意味で「法則」性を表すことから、確率分布のことを「確率法則」という場合もあります)。とはいえ、データは偶然によって選ばれた標本(サンプル)に過ぎないという観点から見ると、「真の」確率法則Pをデータから完全に推測することは一般には不可能です。それではどうすればよいのか?ということになりますが、いまの状況をよく表すと考えられる確率分布(しばしば簡潔な数式で与えられる)をパラメータを調整しつついろいろ考えてみて、最適なものを選び取る、というのがよく取られる戦略です。このようにいうと、現象は無限に存在するのだからそれを表す確率分布も無限に存在することになり(それは実際その通りです)、収拾がつかないではないか、と思われるかもしれません。しかし面白いことに、それなりに扱いやすい比較的少数の種類の確率分布を活用するだけでも、さまざまな現象のモデル化が可能であることが知られています。この記事の残りの部分では、そのような確率分布の中でも普遍的に登場するものを中心に解説していきます。2 中心極限定理と正規分布「正規分布」(確率論では「ガウス分布」とも呼ばれます)は確率分布の「王様」と言えるほど、確率論および統計学において普遍的な役割を果たします。とくに推測統計学はこの正規分布に全面的に依存しているといって過言ではありません。正規分布とはどんなものかを説明するため、「中心極限定理」という重要な定理について説明していきます。「母集団と標本という考え方」の記事で、「ランダム・サンプリング」について説明しました。そこでは標本(サンプル)としてのデータから母集団についての情報をどのように推測するか?という問題を取り上げ、「大数の法則」のおかげで、標本サイズが充分に大きくなることによって(とはいえ、しばしば意外に少ない標本サイズでOK)、標本平均と「真の平均」ともいえる「母平均」(母集団における平均)とのズレに関して、「大きなズレが起こる確率は充分に小さくなる」ということを述べました。平たく言えば、標本サイズを増やせば標本平均によって母平均がかなりの信頼性で推測できる、というわけです。この「大数の法則」(大数の弱法則)をある意味で精密化したものが、「中心極限定理」です(実際、「(『期待値』と『分散』が有限である場合)後者から前者が導かれる」ことが知られています)。「大数の法則」が、「標本平均がゆらぎながらも母平均に近づく」という定理であるとすると、この「ゆらぎながらも」という「ゆらぎ」の様子まで明らかにしたものが中心極限定理であると言えます。中心極限定理の内容をざっくり言えば、平均(母平均)がμで、分散(母分散)がσ2であるような母集団から標本サイズnのランダムサンプリングをするとき(たとえば母集団がどんな構造を持っていても!)、nを充分大きくすると、「標本平均とμの差(にnをかけたもの)」という確率変数は、「ある特別な確率分布」に従う(平均が0、分散がσ2の)確率変数に近づくということになります(もちろん本来は「近づく」とはどういう意味なのかを明確にすべきあり、確率論の枠組みにおいてそれは厳密になされるのですが、ここでは直感的に理解してもらえれば充分です)。この「ある特別な確率分布」というのが、正規分布と呼ばれるものです。正規分布は、区間[a,b]に対して、その確率の値が「ガウス関数」と呼ばれる関数のグラフの「aからbまでの範囲の面積」(正確にいえばグラフとx軸とx=aの線とx=bの線に囲まれる図形の面積)として与えられる確率分布です(aやbとしては-∞や∞も含めて考えてOKです)。ガウス関数の式は「平均」μ、「標準偏差」σを含む式であり、指数関数を使って書かれます。式は数学に慣れている人にとっては簡潔なものですが、いったんはそのグラフの形が「左右対称」であり「遠方でどんどんゼロに近づいていく釣り鐘型」であることを覚えておけば充分です。さらには、とくにμが0でσが1の場合(「標準正規分布」とよばれます)については「aからbまでの範囲の面積」がすぐ計算できる数表(「標準正規分布表」)もありますので(μが0でなかったりσが1でない場合でも、「μを引いてσで割る」という「標準化」と呼ばれる操作をすれば標準正規分布表が活用できるので安心してください)、数式のの計算に苦手意識がある方でも、四則演算だけを活用して確率が計算できるようになっています(表計算のソフトウェアにやらせればもっと楽ですが)。重要なことは、母集団の法則性(を表す確率分布)がもともとどんなものであっても、母平均と母分散さえ確定していれば、標本のゆらぎの法則性は正規分布によって近似できる、ということです。これにより、「ゆらぎがこの範囲に入るのは何%の確率か?」といった問題に答えられるようになるのです。この事実のおかげで、部分から全体を推測する「推測統計学」が支えられているのです。なお、ここでは話の流れから「ランダム・サンプリング」についての事実として中心極限定理の内容を述べましたが、より一般には、「『独立』で『同分布』なn個の確率変数(期待値μで分散σ2)の和(からnμを引きnσで割って調整したもの)は、標準正規分布に従う確率変数に近づいていく」という形で定式化されています。ここで「独立」というのはざっくりいえば「一つの確率変数がある値を取るとしても、そのことで他の確率変数の従う確率分布が変化しない」(したがって例えば互いに「相関」は0となる)ということを意味し、「同分布」というのはどの確率変数も同じ確率分布に従っているということを意味します。ランダム・サンプリングでは、これらの条件が満たされているので、中心極限定理が成り立つと考えられるわけです。しかし、中心極限定理ははランダム・サンプリングだけに関係しているわけではなく、たとえば水中の微粒子の運動(「ブラウン運動」)のように、周りからの影響が「独立同分布な確率変数の和」という形で加えられるようなシステムに関しては正規分布が普遍的に現れる理由ともなっています。自然現象(経済現象のような社会現象も含む)における「ゆらぎ」の中のもっとも扱いやすいものが、正規分布に従う「ホワイトノイズ」と呼ばれるものであり、より複雑なゆらぎをこのホワイトノイズをもとに理解していくアプローチも存在しています(例えば、飛田武幸『確率論の基礎と発展』(共立出版2011)等を参照)。3 その他の分布:ポアソン分布を中心にこのように正規分布は統計学においてもっとも重要な役割を果たしますが、他にも重要な確率分布が存在します。正規分布がらみのさまざまな分布については別な記事で必要なときに解説していきますが、まずその他の分布の中で特に重要なものとして「ポアソン分布」について紹介しましょう。ポアソン分布は、「(比較的)稀な出来事が、一定時間に何回起こるか」という問題を考えるときにしばしば登場する確率分布です。歴史的には、「兵士が馬に蹴られて死ぬ回数」といったものの調査の中で発見されたと言われていますが、身近なところではコンビニ等で「たまに売れる商品」が一定期間あたり何個売れるかをモデル化するときに用いられています(いわゆる「POSデータ」のモデル化・解析)。何らかの出来事が、・充分短い時間については「1回起こるか0回起こらないか」であり(つまり短い時間に2回以上起きる確率は無視できる)、・一定時間あたりに起こる確率は一定であり、・ある時刻に起こる確率は「それ以前の時間に何回どのように起こったか」と無関係(「独立」)であるとした場合には、出来事が一定時間に起こる確率は「ポアソン分布」になることが数学的に証明できます(ちなみに、一般には時間だけでなく空間的な拡がりについても考えてよく、パンの中のレーズンの個数などもポアソン分布に従うことが知られています)。また、一定時間間隔で出来事の回数がポアソン分布に従うような「確率過程」(各時刻における量が確率変数になっているような時間変化)は「ポアソン過程」と呼ばれ、先ほどの述べたブラウン運動と双璧をなす典型的な(そして自然現象・社会現象のモデル化の基本となる)確率過程です。なお、このポアソン過程に関して「出来事が起こる時間間隔」に注目すると、「指数分布」という別な確率分布が現われます。ポアソン分布や指数分布は、行列の待ち時間のモデル化・解析などでも重要です。ちなみに、こうしたモデル化からは、「複数のレジがあるとき、レジごとに列を作るよりも、並ぶときに直前まで一列に並び、最後に空いたレジに向かう」ほうが、待ち時間の分散が少なくなる」(したがって、「運悪く長く待つ」確率が減り、お役さんの「不満」が減ると考えらえる)ということが導かれます。他にもさまざまな確率分布があります。「成功か失敗か」とか「右か左か」といった二者択一の現象をモデル化する「ベルヌーイ分布」や、ベルヌーイ分布に従う独立同分布な確率変数の和が従う「二項分布」などもよく登場してきます。二項分布は、二者択一の選択が繰り返し起こるとき「それぞれが何回ずつ起こるか」を考えるときに登場します。二項分布の和の個数を増やしていくと、中心極限定理により正規分布に近づいていきますし、二者択一の一方が「稀」であるときにはそれが起こる回数がポアソン分布に近づくこと(「少数の法則」)なども知られています。また、指数分布の「デジタル版」である「幾何分布」などもしばしば登場します。現象が多様であるからこそ、それをモデル化する確率分布も多様に考えられます。しかし、それらを一度に覚えようとする必要はありません。正規分布という「王様」や、それと双璧をなすポアソン分布を押さえておけば確率論や統計学における要点が概ね理解できます。そしてその他の分布をこれらの基本的な分布と関係づけながら理解を深めていけばよいのです。