読者です 読者をやめる 読者になる 読者になる

統計学を拓いた異才たち その2

その1から続き。箇条書きと引用句のところは本の内容、平文は自分の感想。
原著を図書館で借りて併せて読んだ。原著はタイトルもカバーも統計・数学の本らしさが全くなく、図書館でも「ノンフィクション」の棚に分類されていて、探し出すのに少し手間取った。

0805071342The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century
David Salsburg
Henry Holt & Co (P) 2002-05-01

by G-Tools

14. The Mozart of Mathematics

  • Andrei Nikolavich Kolmogolovアンドレイ・コルモゴロフ, 1903-1987)
    • 19c末〜20c初頭:確率論に”強固で厳密な基礎”を築くことが求められた
      • アンリ・ルベーグ 積分計算への基礎付け
      • コルモゴロフ 確率論の公理化:事象の確率を決めること=不確定なかたちの領域を決めること
    • 地震や農作物の収穫量のような、時間を経て集められたデータをどのように処理すればよいか?
      • 確率過程(Stochastic process)もコルモゴロフの功績
      • 晩年の取り組み:「確率(抽象的な数学モデル)は実生活においてどのような意味合いを持っているか?」を考えた。

ソビエト時代、特に1930年代はコルモゴロフや他の研究者にとって決して良い環境ではなかった。

「確率変数(random variable)」はロシア語で「偶然の大きさ(accidental magnitude)」と訳される。
国家統計局の役人や共産党の理論派たちにとって、これは侮辱以外の何ものでもなかった。ソ連におけるすべての工業的・社会的な活動は、マルクスとレーニンの理論に基づいて計画されていたからだ。

1950年代にニキータ・フルシチョフ(Nikita Khrushchev)が政権をとって、ようやくこの国家計画理論の魔の手が取り除かれ始め、統計手法が向上や農場に適用されるようになった。

15. The Worm's-eye View

  • Florence Nightingale David (F.N.ディヴィッド, 1909-1993)
    • Florence Nightingaleの友人夫婦の子
    • Univ. College London→Karl Pearsonのもとで研究(同僚にはウィリアム・ゴセット、エゴン・ピアソン、ネイェジー・ネイマンがいた)→相関係数表(Tables of the Correlation Coefficient)を出版(1938)

ネイマンを静かな環境におくために私がここに来たんだと考えたかった。しかし実際には騒々しい時間が過ぎた。というのも、フィッシャーは2階で大騒ぎするし、そのかたわらにネイマン、もう片方にはカール・ピアソンがいて、1週間おきにゴセットもやってきたからである。

なんとも豪華な顔触れに囲まれてF.N.ディヴィッドは業績を積んだ。やがて米UCバークレーに移り、ネイマンの後を継いで統計学科長に就任。1970年にはバークレー校を去ってUCリバーサイド校で統計学部を創設、その学部長になった。1977年に68歳で「引退」すると、バークレー校の生物統計学部の活動的な名誉教授かつ研究員になった。

16. Doing Away with Parameters

  • Frank Wilcoxon(フランク・ウィルコクソン, 1892-1965)
    • アメリカン・シアナシド社で化学者→異なる処置の効果を比較する仮説検定としてt検定や(フィッシャーの)分散分析をしていた。しかしこれらの手法がたびたびうまくいかないことに悩まされていた。→実験結果から「外れ値」を取り除き、残りのデータでt検定を計算。→その数値が本当に外れ値であることは、どうやったらわかるのか?を考える→観測値の組み合わせや順列に基づいてひたすら計算
    • 1945, ノンパラメトリック検定についてBiometrics誌に論文発表→その後、化学の世界を去り、フロリダ州立大の統計学者に。
      • 経済学者ヘンリー・B・マンとD・ランサム・ホイットニーも同様の検定等計量について1947年に発表した。全く違う方面からほぼ同じ考察に進むことは珍しくない。
      • Herman Charnoff(ヘルマン・チャーノフ)とI. Richard Savage(I・リチャード・サヴェッジ)、ウィルコクソンの手法を拡張。→その後1960年代まで、ノンパラメトリック検定の研究が流行する。
      • 1971, Jaroslav Hajek(ヤロスラフ・ハイエク)、統計学全体に統一的な見解をもたらすテキストを出版。ノンパラメトリック検定全般の基礎概念に関するアプローチ(中心極限定理の)リンデベルグ=レヴィ条件と関連づけた。
  • 当時、ノンパラメトリック検定について未解決の問題が2つあった。
    • データが正規分布のような既知のパラメトリック分布にしたがうとき、ノンパラメトリック手法を使うことで解析結果はどれだけ悪くなるか?
    • データがパラメトリックモデルに適合していないとき、ノンパラメトリック手法を用いるほうがより有効になるためには、そのデータはパラメトリックモデルからどれだけ乖離していなければならないか?
  • Edwin James George Pitman(エドウィン・ジェームズ・ジョージ・ピットマン, a professor from Tasmania, Australia)、1948年にこの2つの問題を解決する論文を発表。
    • もともとの仮定が正しいとき=データが既知のパラメトリック分布にしたがうときでも、ノンパラメトリック検定はパラメトリック検定とほぼ同程度に優れている。また仮定が正しくないとき=データがパラメトリックモデルに適合しないときも、そのデータがパラメトリックモデルからわずかでもずれていれば、ノンパラメトリック検定のほうがずっと有効である。
    • 1956, R・R・バハデュールとT・J・サヴェッジ(シカゴ大):データの「外れ値」が(完全に間違った観測値ではなく)データの系統的な悪影響の一部である場合は、ノンパラメトリック手法は分析を誤った方向に導いてしまうかもしれないと指摘(see Chp. 23)。

17. When Part is Better than the Whole

  • 標本=sampleの取り方について。Karl Pearsonはいつもopportunity sample(便宜標本)を用いていた。実用的だが、誤差が大きくなりがち。
    • 1930年代、英国はネイマン、インドはマハラバス、そしてアメリカはニューディール政策の影響で研究が進んだ。
  • Prasanta Chandra Mahalanobis(プラサンタ・チャンドラ・マハラノビス, 1893-1972)
    • judgement sample(裁定標本): 今ではテレビの視聴率調査に使われている。有用だが、母集団についての知識が不可欠。
    • random sample(無作為標本): sample自体が妥当でなくても、収集したデータに数理検定の手法を用いることで真の値に近づけることがわかっている。
  • ニューディール政策
    • 失業率の調査: Morris HansenとWilliam Hurwitzによる "Sample Survey Methods and Theory(標本調査の手法と理論)"
    • ジェローム・コーンフィールドによるマサチューセッツ州・フラミンガムの研究:全住民の健康関連データを測定・追跡調査(今も続いている)
    • ジェローム・コーンフィールドとワシリー・レオンチェフ:経済のセクター別分析=投入産出分析(input-output analysis)に関する研究

18. Does Smoking Cause Cancer?

R.A. Fisher, Joseph Berkson, Jerzy Neyman、それぞれ個別に喫煙が肺がんを引き起こす事を示す研究に批判・疑問を投げかける

  • R.A. Fisher: ランダムな実験計画法なしには何も証明出来ない!という立場
  • 原因と結果
    • 記号論理学では説明できない概念

バートランド・ラッセルが1930年代初めにかなり効果的に示したように、原因と結果の共通概念は矛盾した概念である。原因と結果のさまざまな例を、同じ段階の根拠に基づいて両立させることはできない。実際、原因と結果というものは存在しない。それは通俗的な妄想であり、純粋理性の攻撃に耐えられないあいまいな概念なのである。それは矛盾したアイデアにおいて相互に一致しないものを含んでおり、科学的言説においては、ほとんど、もしくはまったく価値を持っていないのである。

論理をベースにする科学においては「原因と結果」という考えは価値を持たない。論理学的に考えてみれば理解できるが、現実に目を移すと「原因と結果」を知るために使われることも多い科学。いったいどのようにして科学者はこのハードルをクリアしたのか・・・がこの章の後半。

  • Robert Koch (ロベルト・コッホ)
    • 「ある特定の感染力を持つ病原体が、ある固有の病気を引き起こす事」を示すために必要な前提条件を挙げた。
  • Jerome Cornfield (ジェローム・コーンフィールド): 証拠の蓄積によって罹患のケースは証明される!という立場
    • 1959, 著名ながん専門家5人と協同で、それまでに発表された全研究を概説した論文(レビュー論文)を発表。「人の肺における類表皮がんの罹患率が急激に増加している要因の1つに喫煙がある」ことを示す証拠がいかに圧倒的であるかを示した。
  • retrospective と prospective study
    • retrospective study: 病気にかかっている人の、発病以前の条件がどのようにその病気に関連しているかを調べる(その病気にかかっていない患者の対照群が必要)
    • prospective study: 前もって対照群を決め、彼らの行動・病気を追跡調査する
      • タバコと肺がんの関係を示すために行われた追跡調査:1. Richard Doll & A. Bredford Hill@英国、5万人の内科医を対象として5年間追跡調査 2. Hammond & Horn@米国、18万人強の男性を4ヶ月間追跡調査 3. H.F. Dorn@3大都市の死亡証明所+遺族インタビュー
      • すべてdose responsive(容量反応関係)を示した。つまりタバコが吸う量が多いひとほど、肺がん罹患率が高かった。

公表研究の蓄積により、タバコと肺がんには因果関係あると帰着している。しかし公表される研究の偏り=学会等のマジョリティに否定的な判断をくだされる研究が表に出ない問題はどうすればよいのか?・・・はまだ解決されていない問題。いまだに畑村先生で有名な失敗学でも色々考えられているような、失敗研究の情報共有もなかなか進んでいない。リジェクトされた論文を掲載するRejecta mathematicaも決して大きな存在にはなっていないし。「マジョリティに否定的な判断をくだされる研究」の受け皿は、もしかすると最近増えてきているPlos ONEのようなメガオープンアクセスがその役割を果たすようになるのかもしれない。

19. If You Want the Best Person...

  • George W. Snedecor (ジョージ・W・スネデガー)
    • アイオワ州立大で、アメリカで初の統計学科創設に尽力。1930年、テキスト"Statistical Methods"(統計的方法)を出版→1970年代には科学分野の論文で最も引用される本になった。
  • Gertrude Cox (ガートルード・コックス(女性))
    • 宣教師になるためにアイオワ州立大に来たが、スネデガーのもとで統計学のおもしろさに目覚める。
    • Cox & William Cochran (ウィリアム・コクラン)、"Experimental Designs"(実験計画法)を出版、これもよく引用されるテキスト

女性の存在は、アメリカ統計学会、計量生物学会、王立統計学会、そして数理統計学会において顕著である。ところが、女性の学会での発表の機会は、いまだ男性と同等ではない。統計雑誌に掲載される論文のうち、女性執筆者もしくは共著者の1人が女性である論文はおよそ30%だが、アメリカ統計学会でフェローを称されている女性は13%にすぎない。

    • スネデガー、Frank Graham (フランク・グラハム=ノースカロライナ大学学長)が、同州立大に創設する統計学科のリーダーとしてコックスを推薦。"There are the ten best men I can think of. But, if you want the best person, I would recommend Gertrude Cox."
  • Janet Norwood (ジャネット・ノーウッド)
    • 1979-91年、労働統計局局長として活躍。初の女性局長。
  • Nancy Mann @ノースアメリカンロックウェル社、ワイブル分布
  • Grace Wahba @ウィスコンシン大学、Spline fits(スプライン当てはめ)
  • Yvonne Bishop、吸入麻酔薬ハロタンの研究を通して Log-linear models(対数線形モデル)

20. Just a Plain Texas Farm Boy

  • Samuel S. Wilks (サミュエル・S・ウィルクス)
    • テキサス出身、1920年代後半にアイオワ大入学。当時のアメリカ数学界は純粋数学・抽象的な研究が盛んで、実用的な仕事を軽蔑する風潮が強かった。
    • Everett F Linquist(専門:保険数学)のもとで博士論文を書く。J. of Educational Psychologyで発表。その後、コロンビア大を経てプリンストン大高等研究所へ。初期メンバーにはJoseph H.M. Wedderburn, Hermann Weyl, Kurt Godel, Solomon Lefschetzらがいた。(純粋数学の有名人がたくさん!)学科長はLuther Eigenhart.
    • ヘンリー・カーヴァーが始めたジャーナル数理統計学論集の編集者になる。もとは純粋数学に興味が会ったジョン・テューキーを統計研究の世界に誘う。English Testing Service(ETS・TOFLEなどを手がける会社)との仕事。ベル研究所のウォルダ・シューハートとの交流。ワシントンにある海軍研究所でのコンサルタント業務。
    • 1940年代、第2次世界大戦前に国防研究委員会のもとにプリンストン統計研究グループ(SRG-P, Statistics Research Group-Princeton)を立ち上げ、優秀な数学者、統計学者を採用した。ジョン・テューキー、フレデリック・モステラー、リチャード・アンダーソン、セオドア・W・アンダーソン(多変量解析のバイブルといえるテキストを執筆)、チャールズ・ウィンザー(推定手法で有名)、など。
    • さらにその後プリンストン・ジュニア統計研究グループ(SRG-Pjr)の統括を手伝う。このSRG-Pjrにより「逐次解析」=実験の最中に実験計画を修正していく手法が生まれた。
    • 多くの教え子を持ったサミュエル・ウィルクスの名前は、数学的独創性と「現実社会」に貢献のあった人物にアメリカ統計学者が毎年授与している「S.S.ウィルクスメダル」として称えられている。
  • 逐次解析の研究は軍の最高機密に指定され、終戦後数年たつまで発表できなかった。1950年以降に大きく発展し、今は産業の品質管理、医療研究、社会学等で広く使われている。

ときに、どんなに入念な実験計画も、結果が見えてくると、もとの計画を変更してもっと完全な結果が得られるようにするべきだ、と思うものである。逐次解析の数学のおかげで化学者は、結論の妥当性に影響を与える事なく、どんな修正がよくてどんな修正がよくないかを知ることができた。

実践的な研究ほど国の内部で機密事項として進められて、なかなか公表されない。公表されるころには既に少し遅れたものになっているので、最新の研究にキャッチアップするためには他よりも一歩先んじている国に属している必要がある。

アカデミックの世界にいると常にある程度「業績を出す」=情報を公表する必要があるので、実際的な最新技術を追い求めるなら、大学等アカデミアにいるよりも、国の組織に属したほうがいい。アカデミア内で実践的な研究をへたにすると周囲に疎まれかねない・・・

「国」の部分が21世紀には「企業」に変わったが、根本的な構造は今もあまり変わっていないような気がする。