「統計的検定」とは何かについて解説します。「有意」という言葉は何を意味するのか(何を意味しないか)を根本から理解しましょう。目次1 その肥料に効果はあるか2 ランダム化(無作為化)3 「それって偶然じゃないですか?」4 統計的検定1 その肥料に効果はあるかたとえばあなたが農業試験場に就職して、ある肥料Aがある作物(小麦かジャガイモか、そんなものを想像してください)の収量を上げる効果があるか調べる仕事を与えられたとしましょう。さて、あなたならどうしますか?実をいうとこの状況は、近代統計学の立役者であり「推測統計学」の創始者であるロナルド・フィッシャーが若き日に経験したことそのものです(上司であった偉大な統計学者カール・ピアソンとの折り合いが悪く、大学を飛び出したのです)。あなた自身がフィッシャーになったつもりで、考えてみてください。すでに「因果を考える」という記事をお読みの方であればすでにお気づきかも知れませんが、「肥料Aに効果があるか」を調べるのはなかなか一筋縄ではいかない問題なのです。「肥料Aを施したら作物の量が増えた、よって肥料Aは収量増加に効果あり!」とはいきません。「ビタミン剤を飲んだら翌朝熱が下がった、よってビタミン剤は解熱に効果あり!」とはいかないのと同じです。もしかしたら「施さなくても」「飲まなくても」何らかの別の要因や偶然のために、「収量増加」「解熱」という結果が出たかも知れないからです。つまり、「Aを施す」実験だけではなく「Aを施さない」実験もやって比較する必要があるということです。何だ簡単じゃないかと思われるでしょうか。畑を二つの区画に分けて、一方には肥料Aを施し、他方には施さない。それで収量を比較する。自由研究する小学生でも考えそうなことだと思う人もいるでしょう。それで「施した」区画の収量が「施さない」区画よりも大きければ「肥料Aに効果がある」と言ってよいはずだ…。しかし、本当にそれでよいのでしょうか?2 ランダム化(無作為化)たまたま肥料Aを施したほうの区画が、もう一方よりも日当たりがよかったり、水はけがよかったり、その他諸々の要因で差が出たという可能性はないでしょうか?これは屁理屈をこねているのではなく、実際にそのような状況で判断を誤ることが充分にあり得るのです。もちろん日当たりや水はけなどの違いがすでに分かっているのならば、それらについて均一になるように畑を大きな区画に分割し、その大きな区画を二つに分けて比較するというのはよいアイデアでしょう。何の工夫もないよりもずっと精度が上がりそうです。実際、このような工夫は現在でも標準的に用いられています。しかし、まだ「これだけ」では充分ではありません。「われわれの知らない」無数の偏りが有り得るからです。それらの偏りの効果を一つずつ潰していくのは非現実的でしょう。まさにこの状況を華麗に乗り越えるアイデアが「ランダム化(無作為化)」でした。畑全体を(必要なら私たちが知る範囲で均一性を確保した大きい区画に分けたうえで)細かい多数の小さい区画に分け、その小さい区画たちについて「Aを施す」か「施さない」かをランダムに割りつけるというものです。ここで「ランダム」というのは人間が適当に決めるという意味ではなく、コイン投げやその他の「乱数」を用いて本当にランダムになるようにするのです(人間の「適当」は実はランダムからかなり遠いことが知られています)。こうすれば、人間の知らない無数の偏りがもしあったとしても、ランダム性によって打ち消されることになります(例えば他の小区画よりもカリウムが多いような小区画があったとしても、コインはそれとは全く関係なく割りつけるはずなので、総じて偏りは打ち消されていくはずだからです)。この「ランダム化」を通じて「あらゆる偏りを一斉に打ち消す」ことで、「肥料Aを施すこと」と「収量の増加」との因果関係を(いわゆる「交絡」に見事対処して)適切に考えることができるようになるのです。このような方法を「ランダム化比較試験(RCT)」と言います(記事「因果を考える」でも解説しています)。このような「ランダム化」を軸とした実験の進め方は、フィッシャーにより「実験計画法」としてまとめ上げられ、その後の科学研究の基盤となりました。さあ、こうした工夫をしたうえで、「肥料Aを施した区画」の収量と「施さなかった区画の収量」に差が出たならば、いよいよめでたく「肥料Aには効果がある!」と主張したいですね。しかし、本当にそれでよいのでしょうか?3 「それって偶然じゃないですか?」あともう一歩、考えなければならないことがあるのです。それは「差が出たからといって、『本当の違い』があると言ってよいだろうか?」ということです。「いったいお前は何を言っているんだ?」と思われるかも知れませんが、ここが重要なところです。例えば全く偏りのないコインを10回振る場合でも、「6回表が出て4回裏が出る」なんていうことは充分あり得ることですよね。ですから、表が出た回数と裏が出た回数に「差がある」というだけでは、「これは表が出やすいコインなんだ!」と即断してはいけないでしょう。同じように、ランダム化によってさまざまな偏りを打ち消して、肥料Aの有無で収量を比較したとき「差が出た」としても、それだけで「本当の違い」があるとは言えないはずです。この問題は本当に強力です。というのも、「それって偶然じゃないですか?」というのはあらゆる疑いの中でも最も根本的なものであり、「絶対に偶然ではない」などということは、決して言えないからです。たとえばコインを振って「1000回中1000回表が出た」としても、それが「絶対に偶然ではない」と言い切ることはできないでしょう。本当に偏りのないコインであったとしても、(きわめて小さい確率ではあるが)1000回中1000回表がでる可能性は確かにあるからです。しかし、そうは言っても、さすがに1000回中1000回表が出たら、「このコインは表しか出ない仕組みになっているのでは?」と疑うのが人情というものでしょう。それどころか、「10回中10回表」といった時点で多くの人は疑うに違いありません。実際、めったに起こらないことを古来から「千三つ(1000のうち3つ)」などと言いますが、偏りのないコインが10回中10回表が出る確率は1000分の1以下であることが(確率論の簡単な計算から)わかりますので、これは「もし偏りがないのならまず起こりえないことだ」と言えるからです。つまり、「この結果は絶対に偶然ではない」とは言えないが、「偶然だとしたら、この結果はこんなに小さな確率でしか起こらない」ということを論じることは可能だということです。「偶然だとしても充分に説明できる差」なのか、「偶然だとしたらめったに起こらないと考えられる差」(これを「有意差」と言います)なのかを論じることで、「それって偶然じゃないですか?」という疑問に向き合うことができるようになるのです。もちろんここには、「程度の問題」が絡んでくるわけです。どれくらいの確率以下だと「めったに起こらない」と考えるかという基準(「有意水準」と言います)の設定の仕方に絶対的な決まりはありません。実を言うと、多くの分野においては「5%」とか「1%」がしばしば用いられます。人の命に関わる分野ではもちろん厳しい基準を設けますが、あらゆる分野で基準を厳しくしすぎると、「本当に差があるのに」偶然かもしれないとして探求を捨て去ってしまいかねません。そこでそのバランスを経験的に考慮し、概ね「5%」とか「1%」あたりに設定することが多いのです(これでは甘すぎるという議論もありますが)。4 統計的検定このような考え方に基づいて、「それって偶然じゃないですか?」という疑問に対処する方法論を「統計的検定」と呼んでいます。「いや、偶然のはずがない!」と感情的に反発するのをぐっとこらえて、まず、単なる偶然であると仮定しましょうと冷静に対応します。そして、この「単なる偶然である」という仮説(これを「帰無仮説」と言います)に基づいたモデル(「帰無モデル」)を考え、確率論の手法に基づいて、帰無モデルのもとで、実際に得られた結果以上に極端なことが起こる確率の値(これを「p値」と言います)を計算します(最近では表計算ソフトなどでも一瞬で計算できますが)。「実際に得られた結果以上に極端なこと」というのは「実際に得られた結果を含めて」それ以上極端なこと、という意味です(「以上」というのは当然それ自身を含めるのですが、日本語のニュアンスから誤解を生みかねないので、念のため)。このp値を、予め設定されている有意水準(たとえば5%)と比較し、それよりp値が小さいのであれば「有意」である(つまり、偶然とは考えにくい)と判断し単なる偶然ではないという仮説(「対立仮説」)を採用する、というのが典型的な統計的検定の流れとなります。このような統計的検定は、多くの科学研究の基盤となり、科学技術の進歩に大きく貢献してきました。しかし一方で、「p値」や「有意」などの意味をはき違えた論文も多く存在し、大きな問題となっています。ここまでお読みの皆さんであれば、有意であったとしても「偶然ではない」と言い切れるわけではないし、逆に有意でなかったとしても「偶然である」と言い切れるわけでもないということがお分かりだと思いますが、残念ながら正しく理解していないように見える科学者が数多くいるようです。この問題に対し、「p値を使うことをやめよう」という流れすら起こっているほどです。とはいえ、本当は「p値が悪い」のではなく、それを正しく理解せずに使うことこそが問題であるのはもちろんです。統計的検定は、決して仮説の真偽を「決定する」ものではないことを改めて注意しておきましょう。仮説はつねに仮説であって、いずれ棄て去られる可能性があります。適切に行われた実験と統計的検定を経たものであってすらそうなのです。したがって、最も誠実な研究ですら間違いうるのであり、個々の研究チームだけでなく世界中の研究チームがお互いの研究を追試したり、議論を闘わせることを通じて次第に有力な仮説が絞られてゆくのです。それがおよそ科学研究というものの本質なのだといえるでしょう。最後に、統計学とは異なる分野の研究者ですが、20世紀に偉大な足跡を残した数学者アレクサンドル・グロタンディークによる言葉を引用しておきます。〈誤りを恐れることと、真理を恐れることとは全く同じひとつのことなのです。間違うことを恐れる人は、発見する力を持ちえません。私たちの内部にある誤りが岩のように不動のものになるのは、私たちが間違うのを恐れるときです。恐れの中では,ある日私たちが「真理」だと決めたこと、あるいはずっと前から私たちに真理だと提示されていたものにしがみついてしまうからです。私たちが、幻想の安全性が消えてしまう恐れによってではなく、知るという渇望によって心を動かされているときには、苦悩や悲しみと同じく、誤りは決して凝結することなく私たちの中を通ってゆきます。そしてそれが通過した跡には、革新された知識があるのです。〉(アレクサンドル・グロタンディーク『数学者の孤独な冒険』辻雄一訳、現代数学社)