コーヒータイム

日々読んだ本の感想。時々日常。

『統計学の7原則-人びとが築いた知恵の支柱』(スティーブン・M・スティグラー著)を読んだ

統計解析がむかしから苦手な私は最初の10ページですでにくじけそうになったが、とばしつつ読みすすめた。

だが専門的にすぎて、後半ではなにを言っていたのかほとんどわからなかった。かろうじて以下に書きとめたことが分かった。一番良く分かったのは、私はもっと初心者向けの本から始めなければならないことだ。

 

この本で著者は統計的推論の中心的、論理的な核を7つの柱によって明確に表現することを目指している。統計学とはなにか、統計学を統一した学問分野としてとらえられるのか、そのような疑問が常にあるためだ。

第一の柱は【集計】。いわゆる平均だ。今日では広く使われているが、この考え方が生まれた時には批判の嵐にさらされたという。なぜなら、平均を取ることは、個々のデータの特性を捨て去ることだからだ。テストの平均点をどれくらい眺めてみても、生徒個別の点数、得意不得意はわからない。テストの平均点がクラス全体の傾向を示すという考え方が受け入れられるまで、随分時間がかかった。計算方法も、単純平均、加重平均、最小二乗法などを使い分ける必要がある。

第二の柱は【情報の測定】。ここで問題になるのは測定値の数である。どのくらい必要なのか?  多ければ多いほど精度良い効果が得られるか? 答えは「2倍の精度を得たければ4倍の測定値が、3倍の精度を得たければ9倍の測定値が必要になる」だ。

第三の柱は【尤度】。いわゆるもっともらしさ。あるデータ群がある傾向を示すのは偶然そうなっただけか、それともなにかしらの規則が働いているのかを分析する。例えば中国の男女比は男性113人に対して女性100人だが、偶然男女比がこうなる確率を計算し、それがあまりにも低ければ、他に原因があると考えるべきだ(もちろん、一人っ子政策によって、唯一の子どもが男児であることを望んだ夫婦が大勢居たのが原因である)。

第四の柱は【相互比較】。データ内部にある変動の観点から統計的比較を行うという考え方だ。これは分かりやすい。Studentのt検定がこれに該当する。

第五の柱は【回帰】。多変量解析、ベイズ推定、因果推定(かろうじて聞いたことがある単語である)。これらは変動や測定的誤差をもつ限られた実験結果から、まだ行っていない実験結果を推定するために使われる方法だ。

第六の柱は【計画】。実験計画法だ。

第七の柱は【残差】。すべての既知の原因の効果を正確に見積もり、それを除いたとき、残った事実はまったく新しい現象として現れる。それを分析するのが残差だ。