統計学はとっつきにくい科目として、学生からあまり好かれない。要因の1つは、確率を扱うため結論をきっぱり言い切れないことにあるだろう。実際はこれこそ統計学の強みなのだが、回りくどく優柔不断な印象さえ与えているかもしれない。

そんな統計学だが、現代においてその重要性は増している。ここでは伝統的な統計手法である「仮説検定」を簡単な例でおさらいし、機械学習やAI(人工知能)を飛躍的に発展させてきたビッグデータ時代における、仮説検定のフロンティアについて説明したい。

サイコロは信用できる?

統計を使う目的の1つは、未知の情報をデータを使って推定し、推定結果を仮説検定によって評価することにある。例えば、あるコンビニで雨の日に売れる傘の平均的な本数がわかれば、天気予報を基に傘の仕入れ量を調整できる。消費者は傘が必要なときにコンビニで入手でき、供給者は適切な量の在庫を確保することが可能だ。

さらにいえば、そのコンビニの過去の傘の売り上げと周辺の降水量のデータがあれば、統計モデルを推定し、降水量が10ミリメートル増えると平均で傘がさらに何本売れるか、なども予測することが可能だ。推定されたモデルは使用されたデータ次第でランダムに変化するので、仮説検定を使ってモデルを統計的に検証することも大切になる。

推定と仮説検定の本質に迫るため、より簡単な統計的推定の例を考察する。一般的な6面のサイコロを転がす実験だ。多くの人は、1の目が出る確率を6分の1であると考えるだろう。これは頭で考えた理論値だ。データを使った推定は次のように行われる。