日常的な意味では「相関がない」のに、統計学的な意味では「相関がある」ことがあります。これを疑似相関と呼びます。疑似相関からありもしない因果関係を想定してしまうことを避けるために、何が大切かを考えてみましょう。目次1 疑似相関とは2 交絡に対処するには3 メタ思考の重要性1 疑似相関とは「疑似相関」の話の前に、「相関」という言葉の意味をはっきりさせておく必要があります。日常的な意味での「相関」は、二つ(以上)の物事が、互いに密接に関連して影響を及ぼしあうことです。物理学においても、粒子たちが互いに引き合ったり反発したりしながら動くような場合に「粒子間に相関がある」などと言います。しかし、統計学において「相関」という言葉は、必ずしも上のような意味での相互関係を意味していません。統計学において二つのデータ・確率変数の間に「相関がある」というのは共分散ないしそこから計算される「相関係数」が0ではないということに過ぎません。共分散や相関係数が正であるとき「正の相関がある」といい、負であるとき「負の相関がある」といいます。それだけです。なお、「独立」な二つの確率変数の共分散や相関係数は0になりますが、逆は成り立ちません(独立でなくても、これらが0になる場合は存在する)。何より重要なことは、二つのデータ・確率変数の間に「統計学の意味で」相関があるとしても、「日常的な意味で」相関があるとは言えない、ということです。例えば、天気が「晴れか雨か」というデータと、「庭の石が濡れているかどうか」というデータには「統計学の意味で」相関があるでしょう。しかし、日常的な意味での相関ではありません。実際、晴れた日に必死で庭の石に水を撒いたからといって、それが天気に影響を与えるということはあり得ないでしょう。この場合、天気から庭の石の濡れへは「因果関係」があると言えますが、逆は成り立っていないのです(天気が晴れか否かによって庭の石が濡れる確率には差が出てきますが、庭の石を濡らすかどうかによって天気が晴れになる確率が変わるはずはないからです。因果関係についてより詳しくは記事「因果を考える」をご覧ください)。それどころではありません。二つのデータ・確率変数の間に「統計学の意味で」相関があるとき、「少なくとも一方から一方への因果関係がある」とすら言えないのです。いずれの方向にも因果関係がないのに、「統計学の意味で」相関があるということがしばしばあるのです。例えば、ある会社の会社員の「収入」と「血圧の高さ」の間には「統計学の意味で」正の相関があったとします。さて、「収入が上がると血圧が高くなる」とか「血圧を上げると収入が上がる」と言えるのでしょうか。前者が正しければ「ザマアミロ」と思う人もいるかも知れませんが、どうも奇妙な気がします。みんなの血圧を心配して昇給はやめましょうなどと言われると反感を買うでしょうしね。また後者が正しければ「よし、毎日ラーメンにして血圧をあげよう!」という戦略をとれば良さそうですが流石にそれはどうかと思うでしょう。おそらく、どんな科学的手法を使っても「収入」と「血圧の高さ」の間には「因果関係」は見つからないでしょう。ではなぜ「統計学の意味で」相関が生じるのでしょうか?一つのもっともらしい仮説は、これらの間に「共通の原因」があるのではないか、ということです。例えば「年齢」です。会社が年功序列で、「年齢が上がると、収入が上がる確率が上がる」という因果関係があり、また一般論として「年齢が上がると、高血圧になりがち」という因果関係があるのは自然です(もちろん厳密にいうと科学的検証が必要ですが、特に後者の検証はすでに繰り返しなされています)。このように、「統計学の意味での」相関は「日常的な意味での」相関を全く意味しないし、二つのデータ・確率変数の間に因果関係があることすら意味しないことがわかりました。この「統計学の意味での」相関があっても「日常的な意味での」相関がない場合を「疑似相関」と読んでいます。また、先ほどの「共通原因の存在」のように、この疑似相関を引き起こす状況を「交絡」と呼んでいます。2 交絡に対処するには疑似相関という言葉に混乱をもたらさないために、ここまでは「日常的な意味での」相関と「統計学の意味での」相関という区別をしてきました。ここからは、「統計学の意味での」相関を単に相関と呼ぶことにします。前の節で述べたことをスローガン的にまとめると、「相関は因果を意味しない」「疑似相関を疑え」となるでしょう。さらに別な言い方をすれば、「交絡に注意せよ」となるでしょうか。しかし、交絡は例外的な状況というよりも、むしろ「普通あるもの」です。こうした交絡に対処しながら、因果関係を適切に検証したり発見したりするにはどのようにすれば良いのでしょうか?すでに「因果を考える」という記事でも解説しましたが、交絡への対処として真っ先にあげられるのが「ランダム化比較試験」というものです。「同様な」ものたちをランダムに二つのグループにわけ、一方にはある処理(「介入」とも言います)を行い他方にはしない、という形で実験を行うことにより、交絡の効果を無化することが可能です。しかし、つねにランダム化比較試験ができるというわけではなく、このような場合も含めて因果関係を検証・発見する技法としての「統計的因果推論」が発展してきています。この統計的因果推論の発達により、例えば因果関係のモデルを確率変数をつなぐ矢印のネットワークとして表すことを通じて、どの変数をどのように制御しなければいけないのか(しなくてもいいのか)をある意味で「計算」できるようになりました。因果を検証するためには、本来的には単にデータを観察するだけではなく、確率変数を実際にある値に「する」(「介入」といいます)といった能動的な操作が必要です。しかし、こういった介入を実施した上でデータをとるということが常にできるわけではありません。しかしそれを、代数的な計算を通して、巧妙にデータから読み取れる情報へと言い換えていくことが可能な場合があります。どんな場合にその言い換えが可能なのかというのはなかなか難しい問題だったのですが、「矢印のネットワークの構造に着目することでその計算が進められる」という事実が統計的因果推論の基礎を成しています。こうした技法がビジネスに大々的に用いられるのも時間の問題かも知れません。3 メタ思考の重要性とはいえ、このような統計的因果推論に習熟しなければ「何もできない」のかというと、決してそうではありません。その一歩手前の、そしてある意味ではより重要なポイントがあるのです。そのポイントが「メタ思考」です。ここで「メタ思考」と呼んでいるのは、今問題になっている事柄を考えるときに、その問題だけではなく、関連したり類似したりする色々な問題でどうなっているか、にまで目配りしつつ、一歩「高い」視座で考察することです。例えば、どのようにすれば商品をより広い顧客に買ってもらえるか?ということを考えるためには、何が「購入行動」の原因であるかを探る必要があります。そのために膨大な顧客データを探り、そこに何か「相関」がないかを調べるのは自然でしょう。ここまでは、かなりの部分「自動化」が可能です。しかし、問題は「相関は因果を意味しない」ということです。このとき、「AとBに相関がある」という事実から、「AがBの原因である」という結論に飛びつかないようにするためには、この固有の問題を離れて、「一般論として」相関は因果を意味しないということをしっかり理解する必要があるのです(この記事を読んだみなさんは、もう大丈夫ですね)。個々具体的な問題だけではなく、「問題一般」についての思考をすること。これがメタ思考なのです。あるいは、「今扱っている問題について、『収入』『血圧』『年齢』のような関係と似ているのではないか?」「この問題で言えば『年齢』に当たるものは何だろう?」というような「類推(アナロジー)」ができるようになることがメタ思考だ、という言い方もできます。異なる文脈との「関係性」を保った対応づけを考えるということです。基本的に「比喩(メタファー)」というのはこうした関係の対応づけを意味しており、この意味での比喩(「メタ」ファー)に基づいた思考ができることが「メタ思考」だと考えることもできるでしょう。アリストテレスは、「もっとも偉大なのはメタファーの達人である」という意味の言葉を残しています。私たちが我々が新しい何かを得るとすれば、メタファーによってであるからだ、というわけです。もちろん新規な何かを得ることにはリスクがつきものであり、メタファー的な理解にも危険はあります。その上で、典型的な交絡の例などに親しむことで、「これにあたる関係性はないか?」というメタ思考ができるようになれば、疑似相関に騙される確率はグッと減るに違いありません。まさしく統計学が提供するのは、こうしたメタ思考のための基盤なのです。