統計学は「推測の技法」であり、その第一歩はデータの大まかな構造をつかまえることにあります。この「大まかな構造」を要約するために使われる量が「統計量」とよばれるものです。この記事では、平均などの「データの中心」を指し示す統計量と、分散などの「データのばらつき」を著す統計量(「基本統計量」)を解説していきます。目次1 平均:データの「重心」2 線型性3 平均の「弱み」と中央値の概念4 分散と標準偏差5 共分散と相関係数 1 平均:データの「重心」バラつきをもつデータの情報を「一言」で述べることはできませんが、その情報の一部なりともうまく捉えることができれば、「大まかな構造」を理解することは可能なはずです。この「大まかな構造」を要約するさまざまな量を「統計量」と呼んでいます。まず、統計量の代表選手としての「平均」について解説していきましょう。データがバラつきを持っているありさまは、ちょうど物体が大きさを持っているのと似ています。物体の「中心」としてどの点を考えるかはいろいろな立場があるでしょうが、物理学では何より「重心」を重んじます。それと同様に、統計学ではまず第一にデータの「平均」を考えるのです(実はこれは単なるたとえ話ではなく、ある意味で本当に「平均」=「重心」であることも証明できるのですが、ここではイメージだけ理解しておけば大丈夫です)。すでに「統計学の考え方」でも述べましたが、平均(標本平均)の定義は簡単で、データの値をすべて足し合わせて標本サイズで割ればOKです。これはクラスの平均点を考えるなど身近なところでも使われる考え方です。例えばある蕎麦屋で、毎週月曜日の11時半から12時の間に来るお客さんの数を4週間にわたって数えてみると、ある週は5人、次の週は7人、さらに次の週は5人、そしてそのまた次の週は8人であったとしましょう。このとき、平均は(5人+7人+5人+8人)÷4=6.25人となります。ここで、この計算を5人×2/4+7人×1/4+8人×1/4=6.25人のように、「データの値」×「その値をとるデータの割合」をすべて足し合わせたものと考えることもできます。この「平均とは、値と割合をかけたものをすべて足し合わせるたものだ」という捉え方は重要です。この見方をすると、「統計学と数学の諸分野」という記事で説明した「確率変数の期待値」もまた「平均」として捉えられることがわかります(「割合」を「確率」と解釈すればよい)。さらに、「統計学の考え方」という記事で説明した「大数の法則」により、データから計算される平均(標本平均)は、ありとあらゆる可能性の平均(母平均)としての期待値の見積もりを与えてくれることもわかります。要するに、「手元のデータの平均」をとることによって、「(手元にないデータを含めた)真の平均」としての「期待値」―例えばお客さんの数の期待値―が推測できる、ということです。2 線型性平均の重要な性質として、「線型性」があります(「線型性」については「統計学と数学の諸分野」で解説しました)。線型性というと難しく聞こえますが、たとえば「『国語の点+算数の点』の平均」は、「国語の点の平均」+「算数の点の平均」に等しいとか、「『国語の点の3倍』の平均」は「『国語の点の平均』の3倍」になるとか、そういった「あたりまえ」のことを指しています。特に、期待値が平均としてとらえられることから、確率変数Xの期待値をE(X)と書くとき、どんな確率変数X,Yについても E(X+Y)=E(X)+E(Y)どんな数値kについても E(kX)=kE(X)ということ(「期待値の線型性」)もわかります。上では2個の確率変数の和で書きましたが、3個でも4個でも構いません。ちなみに「期待値の線型性」を用いると、次のような結構難しい問題も解けてしまいます。5人でプレゼント交換をする。ランダムにプレゼントを交換するとき、自分の持ってきたプレゼントをもらってしまう人数の期待値はいくらか?5人に「①、②、③、④、⑤」と名前をつけ、例えば確率変数X2を「②さんが自分のプレゼントをもらったときには1、もらわなかったときは0となる量」として定義します。X1,X3,X4,X5も同様に定義します。ゆっくり落ち着いて考えてみると、「自分の持ってきたプレゼントをもらってしまう人数」とはX1+X2,+X3,+X4,+X5の値であることが分かりますから、この期待値というのはE(X1+X2,+X3,+X4,+X5)=E(X1)+E(X2),+E(X3),+E(X4),+E(X5)に他なりません(いま期待値の線型性を用いました!)。さてE(X1)はというと、①さんが自分のプレゼントをもらう確率は1/5、もらわない確率は4/5であるはずなので、E(X1)=1×1/5+0×4/5=1/5となります。同様にE(X2),なども1/5になるので、答えは1/5+1/5+1/5+1/5+1/5=1となります。つまり、「平均すると1人が自分のプレゼントをもらってしまう」というわけです(もちろん実際には0人の場合もあれば3人の場合もあるのですが、あくまで平均するとそうなる)。なお、5人でなく100人であろうが10000人であろうが同じ結果になります。3 平均の「弱み」と中央値の概念ここまで、平均の「強み」を述べてきました。しかしもちろん、平均は万能ではありません。先ほどの問題で「100人であろうが10000人であろうが同じになる」ということからも、平均というのはかなり「都合の良い側面」だけを見ているらしいと感じとられた方もいるかも知れません。実際その通りで、平均が同じであってもまったく異なるパターンを持ったデータもありうるのです。たとえば「全員が50点」のクラスと「3/4が40点で1/4が80点」のクラスは全然違う状況のはずなのに、ともに平均は50点となります。さらに困ったことには、平均は「外れ値」に敏感だということがあります。例えばあなたがいるバーにふらりとイーロンマスクが入ってきたとたん、バーにいる人の平均の資産額は信じられないくらいにはね上がるでしょう。棒の先に重たい物体をつけるといきなり重心が変わるようなものです。金融広報中央委員会が実施した調査(2020)によると、金融資産の平均保有額は単身世帯653万円だそうですが、身の回りの単身世帯の人がそんなに金融資産を持っているのか?と不思議になりますよね。実際は、非常に多くの金融資産を持っている一部の人々に「引っ張られる」形で平均が「つりあがっている」のです。このような平均の「弱み」を補ってくれるのが「中央値」の概念です。これは、データを上から順に並べたとき、ちょうど真中の順位のデータの値を指します(標本サイズが偶数のときは、中央の二つの値の平均にします)。平均に比べるとこちらのほうが「外れ値」の影響を受けにくいので、「格差」の大きいデータに関しては中央値のほうがより実情をよく表している場合が多いです。たとえば先ほどの単身世帯の金融資産の保有額の中央値は50万円程度で、この場合中央値のほうが「データの中心」と見なすにふさわしいと思われます。4 分散と標準偏差ここまでは「データの中心」にあたる量を考えてきましたが、こんどは「データのバラつきの度合い」について考えることにしましょう。データx1,x2,x3,x4,x5が与えられているとします。たとえばx1は1日目のお客さんの数、x2は2日目のお客さんの数…とを考えてもよいでしょう。なお、慣れていけば、こういう言い方のかわりに「xiはi日目のお客さんの数とする」というのが簡潔です。最初は難しく感じるかもしれませんが、慣れていけばどうということはありません。さて、このデータがどれくらいバラついているか測る量である「分散」を説明していきます。まずは準備からです。このデータの平均(標本平均)をμとすると、μ=(x1+x2+x3+x4+x5)÷5=1/5*(x1+x2+x3+x4+x5)として計算できます。なお、「xiを、iが1から5まで全部足す」というのをΣ[i=1,5]xiという記号で書きますので、これは簡潔にμ=1/5 * Σ[i=1,5](xi)と言い表すことができます。一般に、標本サイズnのデータのi番目の値をxiとするとき、そのデータ平均(標本平均)はμ = 1/n * Σ[i=1,n](xi)となります。これで準備は完了です。いよいよ主題に戻りましょう。データの平均はよいとして、データのバラつきはどう表せるかというのが問題でした。バラつきを一つの数で表すとしたら、「各xiと平均μのズレ」の平均を考えるのがよいのではないか?というのは自然な発想でしょう。しかし、だからといって、1/n * Σ[i=1,n](xi-μ)²を考えてしまうと、正負が打ち消しあって0になってしまうのです。そこで、ひと工夫して1/5 * Σ[i=1,5](xi−μ)²という量を考えると、バラつきの評価に非常に役立つものとなります。これが分散です。(「2乗でなく絶対値でよいのではないか?」などの疑問も湧くかも知れません。統計学で重要な役割を果たす「正規分布」という概念とのつながりや、「ピタゴラスの定理」に類似の構造など、深い数学的な理由があるにはあるのですが、簡単には説明できないので、ここでは「そんなものか」と割り切っておきましょう)。一般に、標本サイズnのデータのi番目の値をxiとするとき、そのデータ自体の分散(標本分散)は1/n * Σ[i=1,n](xi)となります(後に、別の記事で「不偏分散(不偏標本分散)」という「一味違う」概念について説明します)。そして、標本分散の平方根を「標準偏差」とよび、しばしばσという記号で表します。なお、確率変数の期待値を「平均」と考えることができたのと同様にして、一般に確率変数Xの分散V(X)をV(X)=E((X-E(X))²)のように定義できますが、これも後々重要な役割を果たします。5 共分散と相関係数ここまでは、一種類のデータ・確率変数についての統計量を考えてきましたが、二種類以上のデータ・確率変数の関係を調べるための統計量も存在します。その重要な例として、二種類のデータ・確率変数の「バラつき相互の関係」を調べる基本となる「共分散」および「相関係数」について説明します。いま、n人の生徒がいるとして、出席番号iの生徒の国語の点数をXi, 数学の点数をYiとしましょう。このとき、「国語の点が『国語の平均(μと書きます)』より高い/低い傾向」と「数学の点が『数学の平均(νと書きます)』より高い/低い」傾向との間に何らかの意味での「相関」がないかを考えるためには、国語および算数についての「平均からのズレの量」(「偏差」)同士の積の平均、すなわち1/n * Σ[i=1,n](Xi-μ)(Yi-ν)を考えるのが役立ちます。この統計量を国語の点のデータと数学の点のデータの「共分散」と言います。「国語の点が高い/低い」ほど「数学の点が高い/低い」傾向があるのであれば、積(Xi-μ)(Yi-ν)は正の値をとりがちで(というのもこの式の値は正×正や負×負でどちらにしても誌になるでしょうから)、共分散は正の値になりやすいと考えられます(「正の相関がある」といいます)。逆に、「国語の点が高い/低い」ほど「数学の点が低い/高い」なら、共分散は負になりやすいでしょう(「負の相関がある」)といいます。国語と数学の点数に限らず、対応関係のある二種類のデータについて共分散が定義できます。さらに、一般の確率変数X,Yについてそれらの共分散Cov(X,Y)がCov(X,Y)=E((X-E(X))(Y-E(Y)))として定義されます。さらに、この二種類のデータ・確率変数の共分散を(それぞれの標準偏差の積で割ることで)ちょうど-1から1までの間の値となるように調整した統計量は「相関係数」とよばれ、二つのデータ・確率変数の間の関係を捉えるための目安としてよく用いられます。これら共分散や相関係数の意義や使い方(およびよくある誤用)については、別の記事(「相関と因果」「疑似相関を疑え」)で詳しく扱うことにしましょう。