統計学についてより深く理解してくためには、つねに「データとは何か?」という問題に立ち返る必要があります。データはあらゆる「推測」の出発点だからです。すでに「統計学の考え方」という記事でも述べた通り、データとは現象の特徴を(しばしば数値として)抽出したもののことでした。この記事では、データを通じてその「向こう側」を考えようとする統計学(「推測統計学」)の考え方について見ていくことにしましょう。目次1 あらためて、データとは何か?2 記述統計学から推測統計学へ3 ランダム・サンプリング1 あらためて、データとは何か?「データ」について深く考えてみると、その「二面性」に気が付きます。つまり、データは一方では「動かしがたい事実」であると同時に、「そうではなかったかもしれないもの」であるということです。たとえば蕎麦屋のお客さんの数を考えてみましょう。「午前11時半から12時半にどれくらいのお客さんが来るのだろうか?」という問いを立て、それについて4回にわたって調べたとします。そして5人、7人、4人、8人というデータが得られたとすると、そこから(5人+7人+4人+8人)÷4=6人という形で「平均」(「標本平均」)が得られることになります。しかし、すでに「統計学の考え方」の記事でも述べた通り、この6人という平均が、「真の平均」と言ってよいかどうかは立ち止まって考えるべき問題です。というのも、たまたま(例えば2021年11月の毎週月曜日)にお客さんを数えたらそうなったとえても、もし別な日を選んだならばきっと他のデータが得られ、多くの場合違う「平均」(標本平均)が得られるだろうと考えられるからです。もし「11時半から12時までのお客さんの数」について「真の平均」(ありとあらゆる可能性に関する平均)すなわち「11時半から12時までのお客さんの数」という確率変数の「期待値」が「本当は定まっている」と仮定しても、毎日・未来永劫にわたって数を数えるわけにもいかないし(そんなことをするには人生は短すぎます)、そもそも「今日何人来るか」すら予め定まっているわけではないのですから、得られたデータというのはあくまでも「あらゆる可能性の中から偶然に選ばれた標本(サンプル)である」という風に考えるのが自然でしょう。要するに、データというのは、「動かしがたい事実」であると同時に、「もしかしたら別な姿で現われたかもしれないもの」すなわち「偶然的な標本(サンプル)」であると考えられる、ということです。この見方に従うと、統計学というのは、偶然的な標本(サンプル)としてのデータを出発点に、「データの向こう側」に想定される「全体」の法則性を探る学であるということができます。この「データの向こう側」に想定される「全体」のことを、「母集団」と呼んでいます。ざっくり言えば、現代の統計学は「標本」としてのデータから「データの向こう側」としての「母集団」の法則性をさぐる学問であるということができるのです。2 記述統計学から推測統計学へしかし、「実際に与えられているものはデータであり、他には何もないのだから、『データの向こう側』について考えてもそれは単なる妄想なのではないか?」と思う人もいたかも知れません。これはこれで筋の通った考え方に思えます。実際、近代の統計学を切り開いたカール・ピアソンは、科学というものを非常に厳しく捉え、実際のデータのパターンの「記述」に専念するべきものと考えました。したがって科学が行うことは、バラつきをもつデータを要約的に記述することに他ならず、「それ以上」を考えることは科学にとって越権であるとすら考えていたように見えます。このような考え方に立って発展した統計学の分野が「記述統計学」と呼ばれるものです。そこで主役となるのは、データそれ自体の平均(標本平均)や分散(標本分散)などであり、「その向こう側」に「真の平均」や「真の分散」を考えるなどは問題になりません。カール・ピアソンの立場は実に切れ味が良く、彼の業績に基づいて現代の統計学の多くの基礎が築かれたことは確かです。この意味で「記述統計学」は統計学の重要な基盤であるといえます。しかし、私たちはほんとうに「データの向こう側」について考えなくてもよいのでしょうか?私たちにとって統計学は「推測の技法」だったのでした(「統計学という考え方」参照)。そもそも統計学を人間が必要としたのは、「予測をするのは難しい」さまざまな現象について、たとえ大まかでも法則性を捉えられないかという問題意識からでした。推測とは、まさしく「部分から全体を推し測る」ことですから、データというのはまさしく「部分」であり、それが全体のサンプルであることを想定してしまっているのです。科学実験で何らかの理論を検証する際にも、「すべての例」を検討することは不可能であり、「偶然選ばれた状況下」において検討するわけです。さらには、お菓子の味の検査をするためにすべてのお菓子を食べてしまっては元も子もない話で、あくまでも一部を検査することで全体について理解する必要があります。どの場合を考えてみても、つねに「部分から全体を推測する」ということが問題になっているわけです。まさにこうした問題意識に正面から向き合う中で発展したのが、「推測統計学」という、現在の統計学の根幹をなす分野なのです。この推測統計学は、データを母集団からランダムに選ばれた標本と見なすことで、直接にはつかむことのできない「データの向こう側」である母集団についての法則性を調べようとする学問ということができます。ざっくりいえば、(ランダムに選ばれた)「部分」から「全体」を推測しようという技法であり、もしそんなことが本当に可能であればよほど世の中の役に立つだろうと納得できるでしょう。ただしここに難問があります。「部分」から「全体」を推測するなんて、そんなこと上手い話が果たして可能なのでしょうか?鍵となるのが、「ランダム・サンプリング」という概念です。3 ランダム・サンプリング自炊したことがある方ならば経験がおありかと思いますが、味付けというのは慣れないとなかなか難しいものです。ほんのちょっと味が薄いかなと思って調味料を加えたらいきなり親の敵みたいに味が濃くなってしまったりします。もちろんレシピ通りに測ればよいのでしょうが、残り物がレシピ通りの分量で残ってくれるはずもなく、どうしても味見しながらこんなものかと味を決めるのが普通でしょう。そんなときに注意しておかなければならないのは、調味料を入れた後、たまたま味見をした部分が周りよりも味が薄かったり濃かったりすることがある、という点です。そのせいで、味見したところまだ薄味だと思いこんで調味料を入れたら、味が濃すぎるということになったりもするのです。これを避けるには、調味料を「しっかり混ぜてから」味見をすることが大切です。いきなりなぜ料理の話が始まったんだと不審に思われるかも知れませんが、実はこの例は「部分から全体を知る」という難問に取り組む手掛かりとなるのです。味見というのはあくまでも料理の「部分」を測定する(そして食べてしまう)ことなのであって、味見と称して「全体」を食べてしまっては困ります(まあ、一人の食卓であればそれもまた善しかもしれませんが)。そして「部分」の情報から「全体」を誤って推測すると例えば塩辛すぎる野菜炒めや酸っぱすぎるマリネなどができるわけです。それを避けるには「しっかり混ぜる」ことが大切であり、もし「しっかり混ぜる」ことができれば、部分から全体を安全に推測することが可能となります。すでにおわかりかも知れませんが、このたとえ話において「料理全体」に対応するのが「母集団」です。そして「味見」のための一口が「標本(サンプル)」に対応します。では「しっかり混ぜる」に対応するのが何かというと、それが「ランダム・サンプリング」なのです。ランダム・サンプリングとは、読んで字のごとく母集団から「ランダムに」標本(サンプル)を抽出することをいいます。たとえば世論調査について考えてみましょう。ある政党の支持率や、その政策の是非について社会の全ての人に丁寧に聞ければよいのかも知れませんが、実際にはそんなことは不可能です。だからといって、身近な人に聞いて澄ましているわけにもいきません。だいたい知り合い同士というのは正当や政策の支持については似ていることが多く、「内輪では人気がある」候補者も社会全体ではさほどではない、ということもよくあります。これはまさに、「不正確な味見」と同じことになってしまっています。ではどうするか。社会全体を料理のようにひっかきまわす代わりに、例えば電話番号を「ランダムに」選び、その選ばれた電話番号にかけて調査をするといった手法がとられます。もちろん「電話のない人はどうするんだ」という問題などもあるわけですが、それでもある程度の有効性があり、ニュース等でもよく取り上げられますよね。選挙での「出口調査」なども、(もう少し複雑な工夫で)聞く相手を「ランダムに」選べるように工夫しています。もちろん「ランダム」といっても完全にランダムというわけにはいきませんが、充分な工夫を通じてランダム性を確保することを通じて、相当に信頼できる結果を出すことが可能なのです。出口調査だけから、ときには投票終了と同時に「当確」が出るという一見不思議な現象も、この「ランダム・サンプリング」の威力を示しているといえるでしょう。しかし、ここで立ち止まって考えてみましょう。ランダム・サンプリングによって偏りを少なくすることはできるかも知れないが、得られたサンプルから母集団の法則を「完全に」再現することは不可能ではないでしょうか?例えば、ここに100個の赤い玉と200個の白い玉が入った大きな箱があるとします。この箱の中を充分によくかき混ぜて、ランダムに3個取り出すとしましょう。このとき、赤い玉と白い玉は何個取れるでしょうか?実はこの問いには唯一の「正解」はありません。「赤い玉が0個、白い玉が3個」の場合もあるでしょうし、「赤い玉が1個、白い玉が2個」の場合もあるでしょう。他にもあります。まさに比率はランダムに決まるわけで、たまたま「全部赤かった」からといって「箱の中は全部赤いはずだ」というわけにはいきません。まさに、ランダム・サンプリングの結果自体、偶然的にゆらぐはずなのです。とくに、ランダム・サンプリングで得られた標本についての平均(「標本平均」)が、母集団である箱の中の玉の全体の平均(「母平均」)に一致するとは言えないのです。しかし、「統計学という考え方」で説明した「大数の法則」のおかげで、充分に多くのサンプルをとると、標本平均は母平均に充分近づいていくことが知られています。母平均からのズレの大きさは、標本サイズnに比べれば無視できるようになるわけですね(この「充分に」がいくつくらいかはケースバイケースですが、現実的な事例においてしばしば「意外なほど」少なくても大丈夫な場合があり、その場合非常にありがたい状況となります)。さらに素晴らしいことに、ある条件の下では「標本平均が母平均からこの程度ズレるのはどれくらいの確率か」ということまで、「正規分布」というものを用いて計算できるのです。これが「中心極限定理」と呼ばれるものですが、これについては「確率分布とその種類」という記事で取り上げることにしましょう。