« AstahのRedmine連携プラグインが公開されました | トップページ | 開発プロセスを管理することでしか、ソフトウェアの品質は管理できない »

2018/01/25

統計学の考え方に関する感想

統計学を勉強してみて、気づいたこと、考えたことをメモ。
ラフなメモ書き。
以下は、自分が理解したいために、僕が理解した内容をラフスケッチで書き残す。
但し、自分はまだ統計初心者なので、間違っていたら後で直す。

【1】統計学という学問が最近、すごく重要になっているのはすぐに同意するのに、実際に理解しようとすると訳が分からなくなる。
IOT、AI、ビッグデータみたいなバズワードもあれば、心理学、経済学、疫学、国勢調査のように古くからの数多くの専門分野でも統計学の知識が語られていて、何が本質なのか分かりにくい。

【1-1】それぞれの学問では、統計学をやりたいのではなく、それぞれの学問で解決したい問題があり、その解決に統計学の手法を利用しているだけ。
だから、ベイズ統計の話は経済学で多かったり、因子分析の話は心理学やで多い、など、使われる統計手法も異なるみたい。
よって、初心者が勉強しようとすると、数多くの手法が紹介された情報を読んでしまって、逆に混乱してしまいがち。

【2】では、統計学の基本的な思想とは一体何なのか?

なお、以下の考えは、「経済数学の直観的方法 確率・統計編」に大きく影響を受けている。

【2-1】物理における古典力学の基本的思想に対応するものが、統計学では正規分布に相当する

統計学の計算方法を理解してくると、微積分や古典力学とは発想が大きく異なることに気づく。
考え方が全く違う、と思った方がいいと思う。

古典力学の発想は、自然現象はビリヤードみたいなもの。
粒子が衝突してどう飛ぶのか、微小な現象から全体の運動系を微分方程式を使って探し出す。

一方、「経済数学の直感的方法~確率統計編」を読んで理解した限り、確率・統計学の基本思想は、確率論ではなく誤差論にある。
統計学の発想では、真の誤差(ボラティリティ)は正規分布で表現されるので、正規分布の形さえ確定すれば、現象の確率を見極められる、というストーリー。

【2-2】統計学の発想では、自然現象における物事のバラツキは、トレンドとボラティリティの2種類がある。

トレンドは、ある傾向で偏りが発生するもの。
ボラティリティは、人の意思で制御できず、偶然の産物で発生するもの。

そして、トレンドに相当する部分は、人の知恵や改善によって解決できるが、ボラティリティの部分は人は制御できず、神様のサイコロに任せるしか無い、と考える。

このボラティリティの部分は、大数の法則によって、正規分布に近似される。
そこで、正規分布の形を把握できれば、自然現象の不確定な動きを予知できるようになる。

たとえば、トレンドとボラティリティという考え方は、製造業における大量生産の製品の統計的品質管理、あるいは、ファイナンスにおけるデリバティブ商品のリスクとリターンの考え方へ適用できる。

但し、全ての誤差の分布が正規分布に集約される、というわけではない。
誤差が非線形に発散する場合、色んな分布が提唱されているみたい。

【2-2-1】実際、製造業の品質管理では、量産した製品の品質のばらつきに対し、系統誤差(トレンド)と偶然誤差(ボラティリティ)に明確に分けるために、フィッシャーの3原則を適用する。
つまり、局所管理や無作為化の原則によって系統誤差を調整し、繰り返しの原則によって偶然誤差を調整する。

あるいは、品質管理において、バラツキの種類には、異常原因によるバラツキ(トレンド)と偶然原因によるバラツキ(ボラティリティ)と考える。

異常原因によるバラツキは、製造工程で何らかの不備があり発生した、と考えて、根本原因を追求し、是正処置を取って、バラツキをなくす。
偶然原因によるバラツキは、原因を調べても意味がないもの。
たとえば、正しい作業手順を作って、その作業手順にいくら従っても発生してしまうバラツキ。
つまり、トレンドは統計的品質管理の技法を使って原因を除去するが、ボラティリティは対処しようがない。

【2-2-2】また、ファイナンスでは、ボラティリティが大きいほど、リスクは大きいがリターンも大きくなる。
そこで、たとえば、猛暑でリターンの大きい証券と冷夏でリターンの大きい証券を組合せて、リスクを減らして確実にリターンを得るように考慮する。
つまり、相関関数が-1になるように組合せる。

すると、証券を上手く組合せると、無リスク資産の概念が出てきて、これが最終的にはデリバティブのオプション価格として提供されるようになる。
その煙のようなオプション価格は、ブラック・ショールズ・モデルによって原理的に計算されるわけだ。

経済数学の直感的方法~確率統計編」では、微分方程式を発展させた確率微分方程式の背景には、トレンドとボラティリティを分離する、という思想があるという。
その思想を具体化したものが、伊藤の補題。
この伊藤の補題があったからこそ、ブラック・ショールズの公式が証明できた、というストーリーらしい。

【2-3】正規分布の形は、平均値と標準偏差の2つで決まる。

平均値は、正規分布の頂点。
標準偏差は、正規分布の頂点と変曲点の間の距離。
つまり、標準偏差が大きいほど、正規分布はなだらかな形になり、バラツキが大きい性質が導かれる。

物事の不確定な現象の動きを把握するために、正規分布を使う。
ある母集団の母平均と母分散が判明していれば、あるサンプルが正規分布のどこに位置するのかを、計算することで、そのサンプルが発生する確率を導ける。

この確率の計算が特殊。
確率は、正規分布の面積から求まる。
つまり、Z=(x-μ)/σでZ値を求めて、Z値から正規分布の面積を求めると、その面積が確率に相当する。
だから、昔は、正規分布の面積を簡単に計算できなかったので、正規分布表なる紙がいつも準備されていたわけだ。

【2-4】2つのサンプルの違いなどを把握するために、t検定、F検定、χ二乗検定などの推定を行う。
これらの検定処理で使うt分布、F分布、χ二乗分布は、正規分布の発想と同じ。

サンプルの測定値から、t値、F値、χ二乗値を計算して、各分布の面積を求めることで確率が出る。
その確率が5%未満ならば、帰無仮説が棄却されて、有意となる。
この有意という発想も、最初は理解しにくい。

僕の理解では、主張したい仮説を対立仮説、その逆を帰無仮説として提示する。
すると、帰無仮説が発生する確率が5%未満ならば、その帰無仮説が発生する事象は相当稀である。
ほとんど発生しないと言っていい。
そこで、背理法を拡張した確率的背理法によって、帰無仮説が発生する事象はほとんど起こらない、ゆえに、対立仮説は確率的にほぼ正しい、と導く。
この辺りは、用語も使い方も数学的にも厳密に証明されているみたい。

この検定処理を使って、2つの社会的集団に対して、補助金の政策効果、会社の人事施策の効果、マーケティングにおける販促の効果などを測定する、といった使い方を行うわけだ。
そして、そういう手法を行うための統計学的理論は揃っているので、後は、Webシステムとクラウド環境を使えば、いくらでもデータ収集できるし、いくらでもデータ分析できる、という流れなのだろう。

【2-5】相関関係があっても因果関係があるとは限らない

相関関数はわりと簡単に計算できる。
しかし、その解釈がすごく難しい。

2つの事象に対し、相関関数が大きければ、たしかに関係が深い、と分かるが、だからと言って、因果関係があるとは言い切れない。
ニセの相関関係、隠れた因子など、色んな観点で考慮しなくてはいけない。

「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python

つまり、相関関数の一つの値に、多様な現象の因果関係の意味がたくさん込められているから、解釈が難しいのだ。
一方、相関関数はデータさえ収集できれば、現代ならすぐに計算できる。
だから、解釈が難しくても、使われているのではないか。

【2-6】最近のWebやIOTでは、どんな傾向があるのか?

結論は、最近は、WebやIOTのおかげで、ランダム化比較試験を実施しやすくなった点だろう。
そのおかげで、いくらでも、多様な人間の集団に対して、色んな仮説を検証しやすくなった事があるのだろう。

Webとクラウドの環境さえあれば、ユーザにスマホやセンサー機器にデータを入力してもらい、いくらでも個人情報とその履歴を統計学の知識を用いて、仮説を検証すればいい。
この辺の考えは、下記にラフに書いた。

データ分析の面白さはどこにあるのか: プログラマの思索

データ分析の課題はどこにあるのか: プログラマの思索

すると、ランダム化比較試験がやりやすい環境とは何だろうか、という問題意識につながる。
個人情報保護法が厳しいほど、こういう実験がやりにくい。
そこで、オープンデータのような流れもある。

また、ユーザ数が多いほど、データを集めやすい。
おそらく、中国のように10億人以上のユーザがスマホを使って、決済やビジネスを行ってくれれば、そこに蓄積されるデータ量は、他の国よりも莫大だろう。
データという資源が多い国ほど、データ分析も有利、という考えが正しいならば、今後はそういう流れになるのではないか。

【2-6-1】しかし、現代はランダム化比較試験の環境を整えやすくなったと言っても、その前提条件を満たすように構築するのはそれなりに人もシステムも費用もかかる。

人の集団を介入群と非介入群の2つに分けようとしても、既にバイアスがかかっていると、本当に検証したい仮説をいくら立てても無意味になる。
むしろ、世の中の経済データ、マーケティングデータは、バイアスがかかって手垢の付いたデータばかりなので、そのデータをそのまま統計処理することはできない場合が多い。

統計処理できるパターンは、「自然実験」「回帰不連続設計法」「集計分析」「パネル・データ分析」など、限られた手法になる。
この辺りの問題点は、「データ分析の力 因果関係に迫る思考法」が詳しい。

【2-6-2】しかし、ランダム化比較試験を行うための環境を構築するための前提条件は、統計学の理論で既にある程度知られているようだ。

たとえば、フィッシャーの3原則がそうだろう。
あるいは、ランダム化比較試験の環境を作るために、層別サンプリング、集落サンプリング、系統サンプリングなどのサンプリング手法を使い分ければいい。

たとえば、製造業の品質管理の技法では、層別サンプリングがよく使われるみたい。
技法として、ヒストグラムやパレート図を頻繁に使うからだろう。

一方、心理学、教育学、経済学などでは、集落サンプリングがよく使われるように思える。
なぜなら、全ての人間の集団をテストできないので、母集団からランダムにあるクラスタ(集落)を選んで、その集落全員を試験対象にする方法を使うことで、母集団と同質でありながら狭い範囲の集団をテストすることで代用したいからだ。

今はExcelでも簡単に乱数を生成できるので、集落サンプリングがやりやすくなったこともあるのではないか。

|

« AstahのRedmine連携プラグインが公開されました | トップページ | 開発プロセスを管理することでしか、ソフトウェアの品質は管理できない »

統計学・機械学習・深層学習」カテゴリの記事

自然科学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« AstahのRedmine連携プラグインが公開されました | トップページ | 開発プロセスを管理することでしか、ソフトウェアの品質は管理できない »