「統計学が最強の学問である」の感想
「統計学が最強の学問である」本を読んだ。
とても面白い!
今まで統計学の本を10冊ほど乱読したものの、統計学の思想は何なのか、さっぱり分からなかった。
でも、「統計学が最強の学問である」本を読んで、今までずっと疑問に思ってきたこと「統計学の背後にある思想は何か?」「統計学が抱える根本問題は何か?」が詳しく書かれていた。
そして、「統計学を疫学・社会学・心理学・データマイニング・経済学などに適用した場合、どんな違いがあるのか?」という問いにも的確に答えてくれている。
しかも、統計学の異端児であるベイズ統計が最近なぜ注目されているのか、という問いも解説してくれている。
以下、理解したことをメモ書き。
間違っていたら後で直す。
【参考】
なぜ、統計学が最強の学問なのか? 『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事|統計学が最強の学問である|ダイヤモンド・オンライン
「統計学が最強の学問である」で学ぶ 統計学で見える新しい世界 - 酒と泪とRubyとRailsと
書評:「統計学が最強の学問である」、データをビジネスに使う人のための知識が凝縮 - Publickey
漢(オトコ)のコンピュータ道: 書評:「統計学が最強の学問である」→ はい。
【1】統計学の根本思想、統計学の根本問題
統計学の根本思想は「データから帰納法で因果関係を導き出す」。
統計学の根本問題は「サンプルデータは偏りがないということをどうやって保証しているのか」。
この2つさえ知っておけば、真値、p値、カイ二乗検定、t検定などの概念も多分分かるはず。
その思想を支え、その問題を解決するために、たくさんの用語や概念が出てくるわけだ。
【1-1】本来は、全てのサンプルを抽出して分析すべきだが、コストや時間などの制約で、一部のデータしか採取できないとする。
その時、得られたサンプルデータ(標本)は、全てのサンプル(母数)の一部から抜き出したものと見なせる、と判断できるようにしたい、という意図がある。
【1-2】「統計学が最強の学問である」本で得た知識の一つは、サンプルデータのp値に着目すること。
p値が5%(つまり0.05)未満なら、そのサンプルデータは偏りがなく、そこから得られた因果関係は確からしい、ということ。
例えば、下記の記事では、「誕生月によってJリーガーになりにくくなるのか?」という命題を統計データから分析している。
実践! Rで学ぶ統計解析の基礎(1):Rは統計解析のブッシュナイフだ (2/4) - @IT
R言語で計算した結果、p-value(p値)は2.031e-14(10のマイナス14乗)という値なので、「Jリーガーの月別出生数分布は日本人の月別出生数分布と同じである」確率がその値ぐらい小さい。
そこで、「誕生月によってJリーガーになりにくいということがありそうだ」という命題がかなり高い確率で言える、と指摘している。
【1-3】また、「統計学が最強の学問である」本では、データマイニングでよく出てくるバスケット分析は、カイ二乗検定の方がもっと精度が高い、という指摘も載せている。
その指摘は、グーグルのCEOの過去の論文に掲載されているらしい。
そういう内容を読むと、すごくワクワクドキドキする。
統計学という理論は既にあるのだから、その理論を使って、プログラムを書いて実行してしまえばいい。
【2】統計学を他分野へ応用した場合の注意点
統計学は帰納法で因果関係を導く手法として使えるので、特に人文・社会科学に適用すると、新しい知見が得られる。
人文・社会科学は、自然科学のような演繹法が有効でない場面が多いからだ。
(引用開始)
1) 実態把握を行う社会学調査法
=> 可能な限り偏りを減らして、求める誤差に収まる推定値を効率よく算出する
2) 原因究明のための疫学・生物統計学
=> 原因を見つけることに重視。母集団への当てはまりにはこだわらない
3) 抽象的なものを測定する心理統計学
=> いくつかの測定方法から相関性を出して、数値化したのが知能指数(IQ)
4) 機械的分類のためのデータマイニング
=> マーケティングを目的にクラスタ分析や相関を調べる。ニューラル・ネットワークやサポートベクターマシンなどのような機械学習は、予測に役立つデータマイニングのための手法
5) 自然言語処理のためのテキストマイニング
=> 大量のテキストデータから目的にマッチしたデータを抽出・集計する。形態素解析として辞書を使うMeCabや辞書を使わずに重複する単語を探しだすN-Gramなどがある
6) 演繹に感心を寄せる計量経済学
=>経済学分野で統計学を用いる。相互作用を含む説明変数の選択について慎重な検討を行う
番外) 確率に対する考え方の違うベイズ派
=> 事前確率と事後確率を使う。限られた情報と仮定を組み合わせることで、迅速に答えを出す。
(引用終了)
【2-1】一番興味深いのは、計量経済学。
統計学の基本は、エビデンスとなるデータから帰納法で因果関係を見出す手法。
逆に、自然科学は、ニュートン力学のように少ない仮定から演繹法で理論を導き出す。
自然科学の手法を人文・社会科学へ適用して成功した数少ない事例が、経済学。
計量経済学では、経済データから統計学で分析して得られた因果関係を、過去100年の経済学で得られた理論体系に当てはめて、より良いモデルを作ったり、影響度合いを推定したりする。
つまり、計量経済学は、帰納法と演繹法を組み合わせることで、経済理論を強化する。
国勢調査や経済指標が常に採取されて公開されるので、そのデータを扱って、数多くの理論が今も編み出されている。
「理論なき計測」と見下されるように言われるが、計量経済学の比重は最近高まってきているらしい。
【2-2】ベイズ統計学がなぜ役立つのかも面白い。
ベイズ統計学は、事前確率という仮定を置いて、事後確率を導き出す。
計量経済学のように、既に統計データがあり分析するだけでなく、事前確率という仮定を過去の経済学の理論から持ち出せば、演繹的に導き出せる。
疫学や社会学のように、分析した結果が得られるだけでなく、理論に当てはめて、推定まで行える方が経済学では重要らしい。
だから、経済学者はベイズ統計学を駆使しているわけだ。
【2-3】また、「統計学が最強の学問である」本には、社会心理学に適用した事例として、「学習塾に通った・通わない子供の成績の比較」などもあげられている。
p値が5%未満の数値なので、その結果は正しいだろうと見なせる。
すると、「学校の宿題をやるよりも、学習塾に通った方が子供の成績が良い」という傾向が見られるらしい。
あるいは、「統計学が最強の学問である」本によれば、知的専門家のモチベーションと金銭の関係についてもデータから分析した結果、「既に成功した知的専門家には、動機付けよりも、より良い報酬を与える方が効果的」という傾向が見られるらしい。
そういう因果関係が統計データとして得られるのが面白い。
心理学や社会学は、統計学を使えば、人間の本性について、かなりの部分を解明できるのではないだろうか。
データさえあれば、データを分析するプログラムさえ書ければ、新しい理論を見出すことができる。
| 固定リンク
「プログラミング」カテゴリの記事
- Javaのモジュールシステムの考え方をまとめてみた(2022.10.21)
- Javaのモジュールシステムは複雑性をより増している(2022.09.10)
- Javaはなぜ関数型言語になろうとしているのか(2022.09.02)
- Javaのラムダ式の考え方(2022.08.10)
- Javaはオブジェクト指向言語ではなく関数型言語だった~「[増補改訂]関数プログラミング実践入門」はお勧めの本だ(2022.08.06)
「モデリング」カテゴリの記事
- 「システム開発・刷新のためのデータモデル大全」を読み直した感想~親子頻出アンチパターンは初心者モデラーに多い(2024.08.31)
- 「システムアーキテクチャ構築の原理」の感想part2~非機能要件がシステムのアーキテクチャに影響を与える観点をプロセス化する(2024.05.06)
- 「システムアーキテクチャ構築の原理」の感想(2024.05.06)
- ソフトウェア工学の根本問題から最近のソフトウェア設計を考えてみる(2024.03.03)
- アーキテクチャ量子の考え方はソフトウェア工学に物理学アプローチを適用したアイデアではないか(2024.02.12)
「ソフトウェア工学」カテゴリの記事
- 「システムアーキテクチャ構築の原理」の感想part2~非機能要件がシステムのアーキテクチャに影響を与える観点をプロセス化する(2024.05.06)
- 「システムアーキテクチャ構築の原理」の感想(2024.05.06)
- ソフトウェア工学の根本問題から最近のソフトウェア設計を考えてみる(2024.03.03)
- マイクロサービス設計は従来のアーキテクチャ設計と何が違うのか(2024.01.02)
- 「ソフトウェアアーキテクチャ・ハードパーツ」の情報リンク~マイクロサービスの設計技法の課題は何なのか(2023.11.12)
コメント