統計学の考え方をastahでまとめた
統計学の考え方を自分なりにastahでまとめた。
初心者のラフなメモ書き。
【参考】
計量経済学における統計上の根本問題: プログラマの思索
「推計学のすすめ」「経済数学の直観的方法~確率統計編」の感想: プログラマの思索
経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある: プログラマの思索
経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索
ランダム化比較試験はなぜ注目されて利用されるようになったのか: プログラマの思索
【1】統計学はいつも習得したいと思うのに、習得にすごく時間がかかる気がするのはなぜだろうか?
その理由は、統計学の考え方は独特な世界観があるからではないかと思う。
なぜ正規分布がそんなに重要なのか?
なぜならば、世界の物事のばらつきは最終的に正規分布に収まるから。
だから、観測や測定でデータを採取したら、まず正規分布を書いて、測定値がどこにプロットされるかイメージたらいい。
最小二乗法の基本思想は何か?
観測や調査で得られた測定値の誤差は正規分布に従う。
ゆえに、測定値のデータの背後にある正規分布の中心線を予測すること。
ガウスが誤差論から生み出した。
統計的仮説検定とは結局何なのか?
そのロジックは確率的な背理法。
だから、ややこしく感じる。
従来の数学や物理の理論や哲学と、昨今のビッグデータやAIなどの違いは何なのか?
従来の理論は演繹的にトップダウンで、世界を説明しようとする。
一方、昨今では、統計理論と強力なコンピューティングパワーで、ビジネスの副産物で得られた大量データを元に因果関係まで帰納的に推測してしまう。
【2】推測統計学の考え方
母集団のデータを全て調査できればよいが、実際はその中の一部のサンプルしか集められない場合が多い。
調査には時間もコストも掛かるから。
では、集めた測定値から母集団はどのような構造になるのか?
大数の定理より、サンプルから推測される母集団の背後にある正規分布を予測する。
そのためにt検定など色んなツールがある。
サンプルデータの抽出方法が上手くないと母集団のデータ構造を推測しにくい。
複数の標本を独立に選ぶことが大事。
つまり、マーケティングのセグメンテーションと同じ考え方。
母集団の平均・分散を既に知っているか、全く知らないか、で推測方法が変わってくる
母集団の平均・分散を既に知っていれば、推測する正規分布の精度は高くなるだろう。
しかし、一般には母集団の平均・分散は全く知らない場合が多いので、推測してもその分誤差は出る。
母集団が1個なのか、2つなのか、で推測方法が変わってくる。
母集団が1つなら、母集団の構造を知ることが重要。
測定したサンプルは母集団のどこにプロットされるのか、が重要なテーマになるだろう。
つまり、内的妥当性の問題になるだろう。
一方、母集団が2つなら、2つの母集団を比べて、優劣や評価を比較することになるだろう。
たとえば、補助金を与えた集団と、補助金なしの集団ではどんな行動の差があるのか、とか。
すると、その行動の差から得られた知見は、その他の母集団に適用できるか、という問題に発展するだろう。
たとえば、米国で得られた統計結果は、日本でも当てはまるのか?とか。
つまり、外的妥当性の問題になるだろう。
【3】正規分布ファミリーの全体像
正規分布には色んな種類がある。
Z分布、t分布、F分布、χ2乗分布とか。
これらの分布は、母集団の平均値や標準偏差を知っているかどうかで変わってくる。
【4】統計的仮説検定の9パターン
統計的仮説検定が理解しにくいと思う理由は、2つあると思う。
1つは、仮説的統計検定の基本思想が確率的背理法であること。
背理法の考え方でつまずきやすいのではないか。
もう一つは、推測したい母集団の平均値や標準偏差が既知なのか未知なのか、で手法が変わってくること。
たくさんの検定手法があって名前から手法の中身を推測しにくい。
前提条件をIF文で分岐処理して検定手法が確定するので、そのパターンをイメージしておかないといけない。
【5】統計検定2級は6年前に取得した。
その時に上記の考え方を自分のastahの中で色々書き込んでいた。
その時のメモを残しておいた。
これらをベースに機械学習がある。
分類(classification)、回帰(regression)、クラスタリング(clustering)、次元圧縮(dimensionality reduction)とか。
PythonのScikit-Learn のチートシートも公開されているので、またまとめておく。
| 固定リンク
「astahによるUMLモデリング」カテゴリの記事
- アーキテクチャ設計はベストプラクティスを参照するプロセスに過ぎないのか?~Software Processes are Software, Too(ソフトウェアプロセスもまたソフトウェアである)(2024.09.22)
- 「システムアーキテクチャ構築の原理」の感想part2~非機能要件がシステムのアーキテクチャに影響を与える観点をプロセス化する(2024.05.06)
- 「システムアーキテクチャ構築の原理」の感想(2024.05.06)
- astahにタイミング図がサポートされた(2024.03.12)
- 概念モデリングや設計原則は進化しているのか(2023.10.21)
「統計学・機械学習・深層学習」カテゴリの記事
- Redmineは組織のナレッジ基盤として実現可能なのか~島津製作所の事例を読み解く #redmineT(2024.12.29)
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
「自然科学」カテゴリの記事
- 物理学の各分野の基本思想(2024.04.21)
- 物理学の基本思想とは何なのか(2024.04.14)
- アーキテクチャ量子の考え方はソフトウェア工学に物理学アプローチを適用したアイデアではないか(2024.02.12)
- 熱力学や電磁気学の設計思想(2023.08.05)
- エネルギー革命が歴史を変えた(2023.08.05)
コメント