統計学と数学の関係、とくに「確率論」「微積分」「線型代数」との関係についてざっくり説明します。目次1 統計学と数学2 確率論3 微積分4 線型代数1 統計学と数学統計学を学ぶ人がしばしば抱く疑問に、「統計学は数学の一分野なのだろうか?」というものがあります。そのような疑問が出てくる理由としては、ビジネスやさまざまな必要のために統計学を学ぼうとする人に飛び込んでくるのが(しばしば久しぶりに目にする)たくさんの数式である、ということがあるのでしょう。まずこの疑問に簡単に答えておけば、「統計学は数学の一分野ではない」というのが標準的な答えです。数学において「正しさ」は仮定から結論への論理的な関係を確かめることによって検証されますが、科学における「正しさ」は「理論的なモデルが現象を適切に説明できているか」をデータに照らして確かめることによって検証されます。つまり、科学においては理論の「内側」の整合性だけではなく、理論とその「外側」との接続がうまくいっているかを確かめる必要があるのです。統計学が問題にするのは、まさにこのような接続そのものです。というわけで、「統計学は数学の一分野ではない」いうことができるでしょう。また、「正しさ」をどのように理解し、どのように検証するかという問題意識が統計学の本質であることを考えると、「むしろ哲学の一分野である」と考えることも可能かもしれません。しかしそれは、統計学には数学が不要であるということを意味しません。それどころか、数学なしには統計学は成立しないとさえ言うことができます。それはなぜかと言うと、モデルの「正しさ」の評価について(たとえ異なる立場のひとびとの間であっても)きちんとした議論が成立するためには、「仮定を認めるならば結論も認めざるを得ない」というタイプの論理展開、すなわち数学的な論理展開が不可欠ですし、そもそも議論のたたき台となるモデル自身が数学的なものである必要があるからです(この意味では、統計学ばかりでなく哲学すらも、数学とは無縁ではないと言えるでしょう)。とはいえ、数学は広く豊かな学問であり、その全ての分野を理解することは誰にもできないほどです。一体、統計学を学ぶ上で不可欠な数学はどのようなものでしょうか?この記事では、統計学と深い繋がりを持つ数学の諸分野について述べていきます。2 確率論統計学は、一言で言えば「偶然性を含む現象についての様々なモデル」のうちで「より良いもの」を「データに照らして選び取る」ための学問です。したがって統計学が成り立つためには、まず何よりも「偶然性を含む現象についての様々なモデル」を創り出す必要があります。このようなモデルを創り出すための基盤となる数学の分野が、「確率論」です。偶然性を含む現象を数学的にモデル化する上で最も重要な概念は、「確率変数」です。確率論とは、この「確率変数」の概念を数学的に厳密に取り扱う学問と言えます。ここでひとまず確率変数の概念をざっくりといえば、「偶然の働きにより様々な値を取り得る量」です。例えば、明日店にやってくるお客さんの数というのは一つの確率変数となります。確率変数の値は、まさに偶然に左右されるので、通常一つには定まりません。例えば明日店にやってくるお客さんの数を確率変数Xと書くとすると、Xの値は2人かも知れませんし、15人かも知れません(残念ながら0人ということもあるでしょう)。しかし、確率変数Xについて何も決定的なことがわからないというわけではないと考えられます。おそらく、その「平均値」は(我々が正確に推測できるかはさておき)定まっていると考えられます。ざっくり言えば、これが確率変数Xの「期待値」(expectation)と呼ばれるもので、しばしばE(X)などと表される値です。ここまで、確率変数や期待値の概念についてイメージ的な説明を行ってきましたし、人類は長い間そのようなレベルで偶然現象について語り考えてきたのですが、これらの概念を厳密に定義し、数学的に整合的なモデルを作る方法が整備されたのは20世紀に入ってからのことでした。それが現代の「確率論」なのです。この記事では、確率論の「中身」にまでは立ち入りませんが、その雰囲気だけ説明しておきましょう。確率論においては、確率変数を取り扱う土俵として、「確率空間」という概念が重要となります。これは直感的に言えば、確率変数の値を左右する「偶然性」の側面をある種の「可能な出来事の集まり(集合)」として捉え、「ある種の出来事」が起こる可能性というのを対応する集合の「重みづけ」として捉えたものです(「あらゆる可能な出来事全体」の集合に対応する重みは1とし、「不可能な出来事」に対応する集合の重みは0とする)。この「重みづけ」が「確率」と呼ばれるのです。いったん確率空間を構築しておけば、確率変数Xは「個々の可能な出来事」に対して何かの値を対応させる「関数」として厳密に定義できますし、その期待値E(X)は、「Xが取り得る値」×「Xがその値になる確率」という量をXが取り得る値の全ての値に渡って足し合わせたもの(一般には後で述べる「積分」)として定義できます。例えば、もしも明日来るお客さんの数が0人、1人、2人、…となる確率がそれぞれ0.16,0.23,0.09….だとすると、0×0.16+1×0.23+2×0.09+…のようにして求められるものが期待値であるというわけです。3 微積分しかし、このような形で期待値を「厳密に」定義しようとすれば、「全ての値にわたって足し合わせたもの」という概念を明確にする必要が出てきます。人類が無限にいるわけではないので、上の計算も永遠に続ける必要はないですが、同じような問題で「無限和」を考えなくてはならない場合もありますし、もっと言えば「連続的に値が変化する場合」を扱う必要も出てきます。たとえば明日の降水量をXとしたときには、Xは原理的には無限の(連続的な)値をとりうるはずです。その際に「Xが取り得る値」×「Xがその値になる確率」という量をXが取り得る値の全ての値に渡って足し合わせたものといった概念を、どのようにしたらきちんと定義できるのでしょうか?その答えが、「積分」という概念なのです。積分というのは、ざっくり言えば「細かく分けて、掛けて足し合わせる」という操作です。降水量Xの取りうる値を例えば1mm単位に細かく区切り、0mm×「Xが0mm以上1mm未満となる確率」+1mm×「Xが1mm以上2mm未満となる確率」+2mm×「Xが2mm以上3mm未満となる確率」+…のような量を考えると、近似的には「Xが取り得る値」×「Xがその値になる確率」という量をXが取り得る値の全ての値に渡って足し合わせたものに対応するだろうと考えられます。本当はXが取りうる値は無限にあるのですが、たとえば「ほぼ2mm」になる値は「2mm」とみなし、その付近の値となる確率と掛け合わせるという風にして近似しているわけです。もちろん、もっと細かい区切りかたをしていけばますます「真の期待値」に近づくに違いありません。実は、このような仕方で「細かく分けて、掛けて足し合わせる」操作を極限まで細かくして考えるのが「積分」と呼ばれる概念です。この積分の概念の原型は古来から存在しており、複雑な図形の「面積」を求める問題に起源をもちます。複雑な図形も細かく分けると(ほぼ)長方形の集まりと見なせ、長方形の面積は「たて×よこ」であることからも、「面積を求める問題」が「細かく分けて、掛けて足し合わせる」積分の話であることは理解できるでしょう。しかし、こうした積分の問題が科学の中枢に躍り出たのは、近代になってニュートンやライプニッツなどが積分が「微分」のある種の逆操作であること(「微積分学の基本定理」)を発見し、膨大な種類の積分を系統的に求めることができるようになったことがきっかけでした。「微分」とは、複雑な関数を、小中学校で習う「正比例」関数によって近似する方法です。微分の基本的な考えとは、「複雑な曲線(関数のグラフ)も狭い範囲で見ればほぼ直線に見えてくる」といった素朴なものです(もちろん「なめらかな」曲線でなければ必ずしも正しくありませんが)。しかし、直線というのは一部が分かればそれを自動的に延長することができる図形であるので、微分により一般的な関数についても「一部が分かれば全体的なことも分かる」ことになります。ここからも、微分が「予測」の学である統計学において重要な役割を果たすことが理解できるでしょう。微分によって関数を各点のまわりで直線で近似的できると、その直線の傾きを通して関数が増加傾向にあるのか減少傾向にあるのかが明確に理解できるようになります。とくに「減少と増加が入れ替わる点」というのは、その付近で「最大」と言える点ですから、微分によって「最大値を取るのはどの点か?」といった問題にも答えることができるようになります。これもまた、様々なモデルの中で「最良」なものは何かを考える統計学において微分が重要である理由です。以上のように、様々な側面において微積分が確率論・統計学と深い関係にあることを説明してきました。しかし、これらの諸分野は、次に述べる「線型代数」と結びつくことによってこそさらに強力な応用力をもつことになります。4 線型代数ここまでは、「一つの数量(確率変数)」について考えてきました。しかし、現象には多数の量が絡んでいるのが普通です。線型代数は、こうした「複数の量」の関係性を考える基盤を与える数学の分野です。複数の量をひとまとめにして「多くの成分をもつ一つの量」と見なすとき、これを「ベクトル」と呼び、ベクトルを入力・出力する関数を「多変数関数」と呼びます。多変数関数は一般にはとても複雑なものですが、その中で最も簡単なものが「線型写像」と呼ばれる種類のものです。「線型写像」は、正比例の概念を一般化したもので、f(x+y)=f(x)+f(y): 「入力が和なら出力も和」f(kx)=kf(x):「入力をk倍すると出力もk倍になる」(kは数)という性質(「線型性」)をもつものとして定義されます。複雑な関数を正比例で近似的できるのと同様に、複雑な多変数関数も線型写像で近似できます(もちろん「なめらかさ」にあたる条件は必要ですが)。線型写像の素晴らしい点は、その情報が「行列」と呼ばれる「数の表」で完全に決定できることです。しかも、行列についての簡単な計算規則を運用することで、複雑な関数についても多くの情報を得ることができるのです。統計学や機械学習において、データというのは複数の量のリスト、いいかえれば「ベクトル」として与えられ、それを入力とした多変数関数を考えるわけですから、線型代数が重要であるのはほとんど明らかといってもよいでしょう。さらに、「関数」それ自体が一種のベクトルとみなせることも重要です。ざっくりいえば、関数fを、「第x成分がf(x)であるベクトル」と見なすわけです。さらに、微分や積分の操作および「確率変数にその期待値を対応させる操作」も線型写像なので、線型代数の知見が活かせます。こうした発想に基づいた数学を「関数解析」と呼び、「複雑な関数を単純な関数で近似する」ための様々な手法(たとえば三角関数や指数関数を用いた「フーリエ解析」)を統一的に理解し応用するための基盤となります。こうした様々な数学を理解し、統計学や機械学習などの諸分野に応用するための基盤となるのが線型代数なのです。