統計学を拓いた異才たち (原題:The Lady Tasting Tea) その1
すごく面白い。数学史としても歴史としても人物史としても。翻訳も悪くない。しかし中身がしっかりばっちりしてるから、理解するにもノートを取るにもすごく時間がかかる。
統計学を拓いた異才たち(日経ビジネス人文庫) デイヴィッド・サルツブルグ 竹内惠行、熊谷悦生 日本経済新聞出版社 2010-04-02 売り上げランキング : 35115 Amazonで詳しく見る by G-Tools |
1. The Lady Tasting Tea
- H. Fairfield Smith
独りでもできるような科学研究は実に少ない。1人ではミスを犯しやすいからである。
- Ronald Aylner Fisher(ロナルド・フィッシャー, 1890-1962)
- "The Design of Experiments"(実験計画法)で有名
そもそも科学は入念な思考から観察、実験へと発展してきたが、いかに実験をすすめるべきか明確に示されることはこれまでなかったし、また完全な実験結果が読者に提供されることもそうそうなかった。
2. The Skew Distributions
- Karl Pearson (カール・ピアソン, 1857-1936)
- "The Grammar of Science"(科学概論),skew distribution(分布関数)
- Sir Francis Galton(~1911)
- 一般的には指紋についてで有名
- biometrical research. 平均への回帰-相関関数 -> 分布関数
Pearson, Galton, Walter Weldonの3人でジャーナル"Biometrika"を創刊。
とある実験で実際に得られる数値がどうなるかは予測できない。われわれに言えるのは、その値になる確率であって、値の確実性ではない。個々の実験結果は、予測不可能という意味でランダムである。しかし分布の統計モデルではそのランダム制の数学的性質を表すことができるのだ。
3. That Dear Mr. Gosset
- William Sealy Gosset(ウィリアム・ゴセット)
- ビールのギネス社で公募細胞の濃度評価に携わる。ポアソン分布でモデル化。実践に基づいた研究=小標本を扱った(フィッシャーもピアソンも理論に基づいた研究=大標本を扱った)。
- その後、Karl Pearsonのもとで, i.e.Galton生物測定研究所で研究を行う。
- Studentと称して"Biometrika"誌に論文発表 (t検定について)
4. Raking over the Muck Heap
改めてフィッシャー。
- Ronald Aylmer Fisher
- 幼少時から眼が悪く、電灯を使っての読書を禁じられた→幾何学のセンスが磨かれた
- Cambridge University卒業後、数学教師に、その後ロザムステッド農事試験場で統計研究(1920-30s)
- ケンブリッジ在学中、Gossetと手紙をやりとりし、"Biometrika"に論文出版するが、その後Pearsonから数学・統計研究の主流から〆出されてしまった。ロザムステッド農事試験場での研究を経た後は、遺伝学・優生学へ傾倒する。
5. "Studies in Crop Variation"
Works by Fisher@ロザムステッド試験場
- 収量変動の研究 -> 分散分析
- ref. "Contributions to Mathematical Statistics" published by John Wiley
- 「自由度という新しい概念」
科学が歩んできた道のりはある意味では妙なものである。その存在意義は自然認識の増大にある。ときとしてはそれゆえに自然認識の増大が起こる。しかし、この自然認識の増大は、適切でない場合もあれば、気分を害される場合もある。
6. "The Hundred-year Flood"
- Leonard Henry Caleb Tippet (1902-、レオナード・ヘンリー・キャレブ・ティペット)
- 綿布製造の改良研究@Garton研究所 w)Karl Pearson
- 最も弱い繊維の強度をモデル化->極値分析についてのティペットの3つの漸近分布。
- 最も弱い繊維の強度分析の母数に影響を与える撚糸製造の要因をつきとめられるようになった。
- 極値分析
理論を捨てるより、サンプリング手法を改善する(=統計分析を改善する)ほうが良いことがわかった。
7. Fisher Triumphant
- 1934. R.A. Fisher, 英国王立統計学会 年次大会で招待公園。before this, he's selected as a Fellow of the prestigious Royal Society.
- 真の分布は抽象的な数式で表現され、収集データは真の分布の母数を推定するためだけに使うことができる
- 観測値は「ありうる値」の全集合からランダムに選ばれたもの
- Karl Pearson
- 統計的分布は実際の収集データを表現しているもの
- 理想的には、(有限の)観測値すべてを収集し、その分布の母数を決定できるのが望ましい
- 統計的分布は実際の収集データを表現しているもの
- フィッシャーの最尤法(MLE)
- (数個の仮定が満たされるときに)MLEが常に一致性を持ち、すべての統計量のなかで最も効率的であることを証明。もしMLEに偏りがあれば、その偏りを計算してMLEから差し引くことで、修正推定量が得られる。
- 修正推定量は繰り返しアルゴリズムで求める。コンピュータの登場により可能に。それ以前は、銀行において「はさみうち法(Rule of false position」が用いられていた。
- (数個の仮定が満たされるときに)MLEが常に一致性を持ち、すべての統計量のなかで最も効率的であることを証明。もしMLEに偏りがあれば、その偏りを計算してMLEから差し引くことで、修正推定量が得られる。
8. The Dose That Kills
9. The Bell-Shaped Curve
統計モデルが応用に直結して英語圏で拡大して行ったのに大使、ヨーロッパ大陸には長い数学の電灯があり、ヨーロッパの数学者は統計モデルに関連した理論的問題に取り組んでいた。
- 中心極限定理:平均の分布が、元のデータが何かに関わらず、正規確率分布(ベル曲線)で近似出来る
- ベル曲線:平均と標準偏差の2つの母数のみで形が決まる=数学的に扱いやすい。観測値がなくても2つの母数がわかればよい。
- フィッシャーの尤度関数、ピエール・シモン・ラプラスの最小二乗法、心理学などにも使われる
- 1930年代初めまで未証明→1920-30年代 スカンジナビア、ドイツ、フランス、ソ連のグループが問題を追及→ナチス、スターリン、ムッソリーニの台頭により共同研究が阻害される
- フィンランドのイヤール・ワイデマール・リンデベルグとフランスのポール・レヴィが、それぞれ別々に「中心極限定理が成立するための必要条件の集合」を発見:リンデベルグ=レヴィ条件
- しかしリンデベルグ=レヴィ条件を満たしていることの証明は難しい
- Wassily Hoeffding(ワシリー・ヘフディング)がAnnals of Mathematical Statistics掲載論文で「U統計量」に属する統計量がリンデベルグ=レヴィ条件を満たす事を証明。
- 統計量が「U統計量」であることを示せば中心極限定理が成立する
- U統計量はチェックが簡単!
- ベル曲線:平均と標準偏差の2つの母数のみで形が決まる=数学的に扱いやすい。観測値がなくても2つの母数がわかればよい。
単独で研究する数学者はきわめて少なかった。もし、あなたが数学者なら、自分のしていることを議論する必要がある。自分の新しいアイデアを他社の批評の前にさらさらなければならない。間違いを犯したり、自分にはわからないが他者にとっては明白な、隠された仮定を含んでしまうことはよくあることなのだ。
反知性主義の充満したスペイン国内のサラマンカ大学で、総長の哲学者Miguel de Unamuno(ミゲル・デ・ウナムーノ)がスペインのファシスト勢力ファランへ党に取り囲まれながら行った演説の言葉。自分も知性が大切だと言うのなら、ひとを説得できる力を持たねばならない。
ここは知性の聖堂です。そして、私はその高位の司祭です。神聖な講堂を汚しているのはあなたがたです。あなたがたは十二分に野蛮な力を持っていますから、勝利することでしょう。しかし、あなたがたは納得させることはできないでしょう。というのも、納得させるためには説得が必要となるからです。そして説得するためには、理性と正義が必要となるでしょうが、それらがあなたがたに欠けているからです。
10. Testing the Goodness of Fit
- Edward Lorenz(エドワード・ローレンツ)
- ブラジルで1匹の蝶がはばたくと、テキサスで大竜巻がおこる・・・初期条件のわずかな違いが大きく異なる結果をもたらすことがある。
- Henri Poincare(アンリ・ポアンカレ)
- Karl Pearson(カール・ピアソン)
11. Hypothesis Testing
- Jerzy Neyman(イエジー・ネイマン、1894-1981)
- Q1. 有意性検定で有意でない結果を得たときは、何が言えるのか? Q2. ある仮説が間違いといえなかったとき、その仮説が正しいと結論づけることができるのか?
- フィッシャーも取り組んでいた:有意でない結果を得たからといって、仮説が真であるということは言えない。論理的誤謬
- いっぽうネイマン・ピアソンは「どんなときに有意性検定が正しく適用されるのか? どんな基準を使うべきか?」を考えた。
- ネイマン=ピアソンの補題:帰無仮説(null hypothesis)をp値で検定。対立仮説(alternative hypothesis)が正しいと仮定すると、そのときのp値から検出力(likelihood-ratio)を求めることができる。ただし対立仮説はうまく、狭く定義する必要がある。
- 頻度論的理解でポピュラーになるが、W. Edward Deming(デミング)ら複数の研究者から批判を受ける。またネイマン自身もその後この補題を用いた仮説検定に深刻な疑いをもち、自身の研究では仮説検定は使わなくなった。
12. The Confidence Trick
- AIDSの研究→区間推定量→公共政策への反映
- 信頼区間(confidential interval)・信頼限界 by J. Neyman
- 信頼区間:推定量の信頼度を測るために使われる
- 「ある信頼区間における確率が95%」とは何を表しているのか? 母数が「95%の確からしさ」でその区間におさまる、ということではない!