« エンタープライズアジャイルは「アジャイル開発が大人になった姿」らしい | トップページ | WebディレクターによるRedmine運用事例 »

2014/05/21

「統計学が最強の学問である」の感想

統計学が最強の学問である」本を読んだ。
とても面白い!

今まで統計学の本を10冊ほど乱読したものの、統計学の思想は何なのか、さっぱり分からなかった。
でも、「統計学が最強の学問である」本を読んで、今までずっと疑問に思ってきたこと「統計学の背後にある思想は何か?」「統計学が抱える根本問題は何か?」が詳しく書かれていた。

そして、「統計学を疫学・社会学・心理学・データマイニング・経済学などに適用した場合、どんな違いがあるのか?」という問いにも的確に答えてくれている。
しかも、統計学の異端児であるベイズ統計が最近なぜ注目されているのか、という問いも解説してくれている。

以下、理解したことをメモ書き。
間違っていたら後で直す。

【参考】
なぜ、統計学が最強の学問なのか? 『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事|統計学が最強の学問である|ダイヤモンド・オンライン

「統計学が最強の学問である」で学ぶ 統計学で見える新しい世界 - 酒と泪とRubyとRailsと

書評:「統計学が最強の学問である」、データをビジネスに使う人のための知識が凝縮 - Publickey

漢(オトコ)のコンピュータ道: 書評:「統計学が最強の学問である」→ はい。

『統計学が最強の学問である』感想 - 社会学者の研究メモ

【1】統計学の根本思想、統計学の根本問題

統計学の根本思想は「データから帰納法で因果関係を導き出す」。
統計学の根本問題は「サンプルデータは偏りがないということをどうやって保証しているのか」。
この2つさえ知っておけば、真値、p値、カイ二乗検定、t検定などの概念も多分分かるはず。

その思想を支え、その問題を解決するために、たくさんの用語や概念が出てくるわけだ。

【1-1】本来は、全てのサンプルを抽出して分析すべきだが、コストや時間などの制約で、一部のデータしか採取できないとする。
その時、得られたサンプルデータ(標本)は、全てのサンプル(母数)の一部から抜き出したものと見なせる、と判断できるようにしたい、という意図がある。

【1-2】「統計学が最強の学問である」本で得た知識の一つは、サンプルデータのp値に着目すること。
p値が5%(つまり0.05)未満なら、そのサンプルデータは偏りがなく、そこから得られた因果関係は確からしい、ということ。

例えば、下記の記事では、「誕生月によってJリーガーになりにくくなるのか?」という命題を統計データから分析している。

実践! Rで学ぶ統計解析の基礎(1):Rは統計解析のブッシュナイフだ (2/4) - @IT

R言語で計算した結果、p-value(p値)は2.031e-14(10のマイナス14乗)という値なので、「Jリーガーの月別出生数分布は日本人の月別出生数分布と同じである」確率がその値ぐらい小さい。
そこで、「誕生月によってJリーガーになりにくいということがありそうだ」という命題がかなり高い確率で言える、と指摘している。

【1-3】また、「統計学が最強の学問である」本では、データマイニングでよく出てくるバスケット分析は、カイ二乗検定の方がもっと精度が高い、という指摘も載せている。
その指摘は、グーグルのCEOの過去の論文に掲載されているらしい。

そういう内容を読むと、すごくワクワクドキドキする。
統計学という理論は既にあるのだから、その理論を使って、プログラムを書いて実行してしまえばいい。

【2】統計学を他分野へ応用した場合の注意点

統計学は帰納法で因果関係を導く手法として使えるので、特に人文・社会科学に適用すると、新しい知見が得られる。
人文・社会科学は、自然科学のような演繹法が有効でない場面が多いからだ。

(引用開始)
1) 実態把握を行う社会学調査法
=> 可能な限り偏りを減らして、求める誤差に収まる推定値を効率よく算出する

2) 原因究明のための疫学・生物統計学
=> 原因を見つけることに重視。母集団への当てはまりにはこだわらない

3) 抽象的なものを測定する心理統計学
=> いくつかの測定方法から相関性を出して、数値化したのが知能指数(IQ)

4) 機械的分類のためのデータマイニング
=> マーケティングを目的にクラスタ分析や相関を調べる。ニューラル・ネットワークやサポートベクターマシンなどのような機械学習は、予測に役立つデータマイニングのための手法

5) 自然言語処理のためのテキストマイニング
=> 大量のテキストデータから目的にマッチしたデータを抽出・集計する。形態素解析として辞書を使うMeCabや辞書を使わずに重複する単語を探しだすN-Gramなどがある

6) 演繹に感心を寄せる計量経済学
=>経済学分野で統計学を用いる。相互作用を含む説明変数の選択について慎重な検討を行う

番外) 確率に対する考え方の違うベイズ派
=> 事前確率と事後確率を使う。限られた情報と仮定を組み合わせることで、迅速に答えを出す。
(引用終了)

【2-1】一番興味深いのは、計量経済学。
統計学の基本は、エビデンスとなるデータから帰納法で因果関係を見出す手法。
逆に、自然科学は、ニュートン力学のように少ない仮定から演繹法で理論を導き出す。
自然科学の手法を人文・社会科学へ適用して成功した数少ない事例が、経済学。

計量経済学では、経済データから統計学で分析して得られた因果関係を、過去100年の経済学で得られた理論体系に当てはめて、より良いモデルを作ったり、影響度合いを推定したりする。
つまり、計量経済学は、帰納法と演繹法を組み合わせることで、経済理論を強化する。

国勢調査や経済指標が常に採取されて公開されるので、そのデータを扱って、数多くの理論が今も編み出されている。
「理論なき計測」と見下されるように言われるが、計量経済学の比重は最近高まってきているらしい。

【2-2】ベイズ統計学がなぜ役立つのかも面白い。
ベイズ統計学は、事前確率という仮定を置いて、事後確率を導き出す。
計量経済学のように、既に統計データがあり分析するだけでなく、事前確率という仮定を過去の経済学の理論から持ち出せば、演繹的に導き出せる。

疫学や社会学のように、分析した結果が得られるだけでなく、理論に当てはめて、推定まで行える方が経済学では重要らしい。
だから、経済学者はベイズ統計学を駆使しているわけだ。

【2-3】また、「統計学が最強の学問である」本には、社会心理学に適用した事例として、「学習塾に通った・通わない子供の成績の比較」などもあげられている。
p値が5%未満の数値なので、その結果は正しいだろうと見なせる。
すると、「学校の宿題をやるよりも、学習塾に通った方が子供の成績が良い」という傾向が見られるらしい。

あるいは、「統計学が最強の学問である」本によれば、知的専門家のモチベーションと金銭の関係についてもデータから分析した結果、「既に成功した知的専門家には、動機付けよりも、より良い報酬を与える方が効果的」という傾向が見られるらしい。

そういう因果関係が統計データとして得られるのが面白い。
心理学や社会学は、統計学を使えば、人間の本性について、かなりの部分を解明できるのではないだろうか。

データさえあれば、データを分析するプログラムさえ書ければ、新しい理論を見出すことができる。

|

« エンタープライズアジャイルは「アジャイル開発が大人になった姿」らしい | トップページ | WebディレクターによるRedmine運用事例 »

ソフトウェア工学」カテゴリの記事

プログラミング」カテゴリの記事

モデリング」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« エンタープライズアジャイルは「アジャイル開発が大人になった姿」らしい | トップページ | WebディレクターによるRedmine運用事例 »