統計学は、簡単にいえば「推測の技法」です。「データ=真の構造+偶然性(誤差)」という統計学の考え方の根本を、「蕎麦屋のお客さんの数」という具体例で説明していきます。目次1 予測をするのは難しい2 データとは何か3 データ=真の構造+偶然性(誤差)4 さらに掘り下げて考える5 推測の技法としての統計学6 統計学は広がる1 予測をするのは難しいメジャーリーグで活躍した野球選手ヨギ・ベラは、独特な発言でも知られていました。その一つに「予測をするのは難しい。未来についてはなおさらだ」というものがあります。ちょっと奇妙な感じのする言葉遣いですが、「(未来)予測が難しい」というのは誰もが日々痛感することでもあり、不思議な説得力を感じますよね。それにしても、なぜ「予測をするのは難しい」のでしょうか。ひとつのシンプルな答えは、この世界は機械仕掛けのように「すべて予め定まっている」ようなものではなく、様々な偶然を豊富に含んでいるからだ、というものです(かつてはこの世界全体が大きな機械仕掛けのようなものだと考えられていた時代もあったのですが)。さらに言えば、「予測すること」自体が未来に影響を与えることさえあるのです。そもそも私たちがなぜ予測をしようとするかといえば、多くの場合はそれを通じて何かを改善しようとするからですよね。「このままでは〇〇という大変な事態になるだろう」という予測は、それを聞いて有効な対策を立てることで外れてほしいものです。ですから、未来は「すべて予め定まっている」ものではなく、私たちが変えられるものである(変えるつもりがないのに変えてしまう場合もある)、というのが適切な考え方であろうと思われます。というわけで、「予測をするのは難しい」。それでも、未来をより良い方向に変えるために私たちは予測をしたいわけです。この不確実な世界で、どのようにしたら適切な予測ができるのでしょうか?この問題に答えるために生まれたのが「統計学」なのです。2 データとは何か例えば『あなたが蕎麦屋の主人で、どの曜日・時間帯に何人パートさんに入ってもらうか考えている』としましょう。お客さんが来ない時間帯にたくさん入ってもらっても仕方ないので、お客さんがどの時間帯に何人来るかを「予測」する必要があります。ところが、「予測をするのは難しい」。なぜなら、一人ひとりのお客さんがいつ来るかはお客さんの都合や気分次第だからです。しかし、お客さんの「総数」については、概ねこの時間帯が多いとか少ないといった「大まかな法則性」は存在すると考えられます。ここで一歩進めて、その「大まかな法則性」を数値化することを考えてみましょう。偶然性に満ちた現象を、大まかに捉えるために大切なのが「データ」の「平均」という考え方です。まずは「データ」とは何か説明しましょう。例えば毎週月曜日の11時半から12時の間で4週間にわたって数えてみると、ある週は5人、次の週は7人、さらに次の週は4人、そしてそのまた次の週は8人という結果が得られたとします。こんなふうに、現象の特徴を(しばしば数値として)抽出したものを「データ」と呼びます。(なお、データというのは元々ラテン語で「与えられたもの」という意味ですが、本当は単に「与えられた」ものではなく、主体的に「捕まえにいくもの」であるということも重要です。現実を漫然と眺めるのではなく、ある観点から積極的に切り出していく必要があるのです。)3 データ=真の構造+偶然性(誤差)「データ」が得られたならば、その「構造」を考えることができます。お客さんの人数は変動していますが、もちろん突然ある日100人もやってくるとは非常に考えにくく、ある程度の傾向があるはずです。したがって、お客さんの人数について変動はあるにせよその「だいたいのところ」は決まっており、そこに「偶然によるゆらぎ」が加わっていると考えるのは妥当でしょう(「偶然によるゆらぎ」は実験などでは「誤差」として捉えられる場合も多いですが)。つまり、データをデータ=真の構造+偶然性(誤差)という形で理解することができると考えられます。実はこの考えこそが、統計学という考え方の根幹をなすものなのです。あとは、その「真の構造」や「偶然性」をどのように数値化できるかという問題になります。蕎麦屋の例で具体的に考えてみましょう。データは5人、7人、4人、8人というバラついた値を持っていました。その「だいたいのところ」を見積もるときに重要なのが「平均」(標本平均)を考えることです。平均は、データの数値をすべて足し合わせ(「総和」と言います)、それをデータを構成する数値の個数すなわち「標本サイズ」(「サンプルサイズ」とも言う)で割ることによって得られます。このデータでいえば(5人+7人+4人+8人)÷4=6人です。つまり、お客さんはだいたい「一日あたり6人」来る、と見積もることができるわけです。これが「真の構造」の見積りにあたります。すると、各週の来客数は平均に比べて-1人, +1人, -2人, +2人と変動していることがわかります。この変動が「偶然性」に対応していると考えられるでしょう。そして、さらにこの偶然性による変動の大きさを見積もることができれば、基本的には偶然を「飼いならす」ことができるに違いありません(この偶然性による変動の大きさを見積もるためには「分散」という量が重要ですが、これについては別の記事で詳しく説明していきます)。4 さらに掘り下げて考えるただし、実はもう少し掘り下げて考えておく必要があります。というのも、上で計算した平均(標本平均)が「真の平均」と言えるのか、という重要な問題があるからです。これを説明してみましょう。蕎麦屋の例で考えてみます。先ほどは4週に渡ってお客さんの数を数え、平均は6人であるという結論を出したわけですが、5週目にもし7人のお客さんが来たとしたらどうでしょうか。先ほどと同様に5週間にわたる平均を考えると、(5人+7人+4人+8人+7人)÷5=6.2人となり、平均の値は若干変化することがわかるでしょう。このように、データとして実際得られた値のリスト(「標本」と言います)から計算された平均、すなわち「標本平均」は、それ自体経験を通じて変化し、ゆらぐ量であることがわかります。しかし、私たちは現実をデータ=真の構造+偶然性(誤差)と考えようとしていました。その「真の構造」が、そのように簡単にゆらぐようなものであっては困る、と考えるのが人情というものでしょう。そこで、真の構造にあたる「真の平均」は存在しているのだが、私たちはいつも限られた測定しかできないため、それをズバリ知ることができないだけなのだと考えてみましょう。この「真の平均」というのは、起こりうるあらゆる場合をひとまとめに考えた集合(「母集団」と言います)における平均を意味し(これを「母平均」と呼びます)、出来事が実際にこれから起こる場合に平均的に期待できる値=「期待値」に対応するものです。蕎麦屋の例でいうと、午前11時半から12時までに来るお客さんの数の「真の平均」(「母平均」あるいは「期待値」)は、私たちには直接わからないが実は定まっているはずだ、というわけです。この「真の平均」を、どのようにしたら推測できるのでしょうか?5 推測の技法としての統計学この問題に真正面から取り組んだのが17世紀の数学者ヤコブ・ベルヌーイでした。彼は、主著である「推測の技法(アルス・コンジェクタンディ)」において、「大数の法則(大数の弱法則)」と呼ばれる重要な定理を示しました。その内容をざっくり言えば標本平均は、標本サイズが充分大きくなれば、母平均に充分近づくというものです(実際には「独立同分布」という大変重要な条件のもとで成り立つのですが、これについては別の記事でとりあげることにします)。蕎麦屋の例でいえば、6週、7週…とデータを積み上げていくことによって、「真の平均」とのズレの大きさは(ゆらぎながらも)充分小さくなっていくというわけです。つまり、「経験は確かさをもたらす」というわけで、私たちの日々の生活における実感ともよく合いますね。しかし、単なる実感とは異なり、大数の法則は「定理」であり、数学的な議論に裏打ちされています。そのため、例えば「ズレを5%以下にするためには何回データをとればよいのだろうか?」といった疑問にさえ答えることが可能なのです。「推測の技法」の第4章において、ヤコブ・ベルヌーイはまさにそのような問題に(数値的な例を挙げて)解答を与えました。この「推測の技法」は、「確率論」と呼ばれる偶然性を取り扱う数学的な理論と、それに基づいた統計学の重要な起源とされています。それにしても、「推測の技法」というネーミングは実に見事です。というのも、現代の統計学の立場から考えても、「統計学とは推測の技法である」という言い方は的を射ているからです。「技法(アルス)」というのは英語でのアートに対応するラテン語で、「芸術」という含みのある言葉でもあります。統計学を活用するというのは、もちろん単なる「カン」で適当に決めるのとも違いますし、かといって何も考えずに方法を丸暗記すれば済むようなものでもありません。基本の考え方をしっかりと押さえたうえで、個々の問題に対して独自の「センス」を発揮していかなければならないのです。むしろ、そうしたセンスを身につけるためにこそ統計学を学ぶ必要があるといえるでしょう。6 統計学は広がるしかし、ヤコブ・ベルヌーイの「推測の技法」は確率論や統計学の「出発点」にすぎません(もちろん偉大な出発点ではありますが)。たとえば蕎麦屋の例で考えたとしても、これまで述べてきた考え方で満足できるかどうかは検討の余地があります。何といっても私たちは「真の平均」(母平均)が確定した値であると考えてきました(私たちが知らないとしても、決まってはいると想定した)。しかし、それは本当でしょうか。店の人気が実はどんどん上がっているといったように、「真の平均」自体が変動している可能性もあります。このような場合には、これまでの考え方が「そのまま」通用するわけではありません。しかし、こうした一般的な場合にも適用できるように確率論や統計学は発展し続けてきましたし、今も成長し続けています。「人工知能が発達していけば、そんな小難しい理論は不要になるのでは?」という人もいるかも知れませんが、人工知能の基盤自体に確率論や統計学の考え方が用いられていますし、「人工知能がそう言っているから」として何も考えずに判断することには大きな問題があるでしょう。どこかのレベルで人間が判断を下す必要がある限り、人間は「推測の技法」を身につけるべきであり、そのために統計学を学ぶ意義があるのです。統計学はますます多くの局面で重要となるでしょう。もしかしたら、今は全く無関係に見える分野にも統計学は広がっていくのかも知れず、その限界はとても予測できません。そう、予測をするのは難しいのです―未来についてはなおさら。