機械学習で反実仮想や自然実験が作れる
経済セミナーなる雑誌をたまたま手に取ったら、「機械学習で反実仮想を作れる」「機械学習は自然実験を作り出す」という記事があって、刺激を受けた。
妄想したことをラフなメモ書き。
【1】記事では、何らかの機械学習アルゴリズムに従って、意思決定や選択が行われた場合、そこから生成されたデータには、常に自然実験の状況が含まれているのではないか、という意見があった。
【2】たとえば、アメリカで刑事裁判の被告が犯罪しそうか否かを教師学習で予測し、その結果に基づいて有罪か無罪を意思決定するとする。
すると、ある基準値を超えると有罪に突然ジャンプする。
つまり、閾値の前後の人達のセグメントや属性はそんなに変わるはずがないのに、その閾値の前後で意味が大きく変わる。
すなわち、実質的には、回帰不連続デザイン(RDデザイン)と同じだ。
これが意味することは、WebのABテストのように、膨大なデータを均質なセグメントに分けて、刺激を与えたらどんな反応が返ってくるか、ランダムにテストする手法をわざわざ取らなくても良いことだ。
その分、手間もかからずに実験できる。
つまり、回帰不連続デザインによって自然実験がなされている、と分かる。
他の例として、Uberが需要と供給の均衡から、価格弾力性を需要に応じて変更する時に、閾値で四捨五入すると価格が大幅に変わってしまう時の回帰不連続デザインの話があった。
ここでも、閾値付近では、ドライバーも乗客も、似たような場所で似たような季節などの属性がほぼ均質であれば、閾値付近でABテストが実施された、とみなすことが出きる。
この方法が使えるならば、国勢調査や各種の一次データなど公開されているオープンデータを使って、ABテストの代わりに推定や検定が使えるようになる。
よって、経済学のモデル構築に役立てることが出きる。
【3】機械学習と計量経済学は元々観点が全く違う。
経済学では、因果関係の推測に力点を置く。
そこから、モデルを生み出し、経済学は理論を打ち立てる。
つまり、仮説検証のために統計学を使う。
経済学では、モデルを組み立てる特徴量の選択が重要であり、その特徴量がなぜ必要なのか、という理由も知りたい。
なぜならば、経済学は社会科学である限り、何らかの規範を打ち立てるべきものだから。
つまり、経済学は何らかの価値観を世の中に提供して、世の人に役立てるべきもの。
一方、機械学習や深層学習では、特徴量をデータから自動的に抽出する。
仮設を立てて選んだ特徴量ではない。
だから、機械学習で得られる特徴量は、その選択された意図が分からないので、ブラックボックスになる。
そこが気持ち悪い。
経済学のデータ解釈はモデルベース。
経済学では、政治家や官僚が選んだ経済政策が有効だったのか、仮説を検証したい。
しかし、経済学のモデル表現を固定すると、機械学習の強みである柔軟な特徴量設計と相反する。
機械学習では、特徴量の自由度が重要な特徴だからだ。
特徴量はモデルによる分析と相性は悪い。
しかし、この方面の研究も進んでいる。
機械学習が抽出した特徴量を人間の理解に繋げる方法として、特徴量を可視化する。
あるいは、複雑な特徴量をさらに簡潔なモデルで近似して変換することで、特徴量を理解しやすくする。
【4】機械学習と計量経済学は似て非なるもの。
目的が異なる。
計量経済学の目的はパラメータの推定と仮説検証だ。
一方、機械学習の目的は予測だ。
だから、機械学習では予測誤差を最小化する点に力点を置く。
方法が異なる。
計量経済学はパラメトリック法。主にデータの母集団の確率分布を仮定し、推定や検定を行う。
一方、機械学習はノンパラメトリック法。確率分布を予測せず、データの潜在パターンを発見する。
データの利用方法が異なる。
計量経済学では、全てのデータを用いて、推定や検定を行う。
その統計的性質は、母数が大きいほど確からしいことになる。
これを漸近性と呼ぶ。
一方、機械学習では、交差検証のように、本番データと検証データを分ける。
予測が目的なので、データの特徴を丸暗記してしまうと過学習になりやすい。
モデルの性能と汎用性にはトレードオフがあるので、過学習を防ぐ罰則(ドロップアウト、正則化)などの工夫がいる
【5】反実仮想とは、もし現実にこんなことが起きていたら、という実際には起きなかった並行世界をデータから復元するもの。
たとえば、政府の公共政策、企業のマーケティング戦略や意思決定など、実際に行った施策とは異なる施策を行ったら、世界はどう変わったのか、を想像する試み。
反実仮想は、英語の仮定法の発想にとても良く似ているように思える。
実際は発生していないのに、こうだったらああだったのに、みたいな言い分。
反実仮想のコンセプトは、元々は医療や農業で、新しい医薬品や新しい農法の効果を知るために、それが導入された世界と導入されなかった世界を比べてみよう、という問題意識から生まれた。
この発想が、経済学などの社会科学、ビジネスの意思決定まで普及している。
最近面白いのは、教育政策への適用だろう。
学校入試制度の改革が人々の生活や行動にどれだけ影響を及ぼすのか、政府のデータを元に、自然実験を行ってみるわけだ。
つまり、実際はABテストできないけれど、得られたデータが自然実験になっていれば、そこから有意義な結論が得られて、こうあるべきだ、という価値観を提供できるわけだ。
【6】「機械学習で反実仮想や自然実験が作れる」発想が面白いけれど、それには理由があるのだろう。
本来、経済学は100年以上の歴史を持ち、過去に沢山の理論を蓄積してきている。
しかし、統計学の手法が不足、コンピューティングパワー不足で、経済理論の検証が難しかった。
集計されたデータも国勢調査やGDPぐらいしかなかった。
だから、当時の経済学は限られたデータを元に抽象的思考を行うしかなく、必然的にきわめて低次元で、理論に依存せざるを得なかった。
しかし、コンピューティングパワーの増大やオープンデータのおかげで、モデルのパラメータをあえて増やし、人間には分からないパラメータはデータに語らせてしまってその特徴量の意味や因果関係を言えば良い、という方向に加速した。
機械学習では、高次元データを次元圧縮して意味ある特徴量を抽出できるので、そういう手法をどんどん計量経済学に適用していいけばいいわけだ。
【7】最近、行動経済学と統計学が相性が良いと知ったけれど、その理由は、経済学は理論を出発点にトップダウンで研究するのではなく、実際にある大量のデータから因果関係を抽出して、その意味を抽象化して理論を打ち立てるボトムアップの研究手法が確立されたためだろう。
今は機械学習などの技法を使えば、いくらでも大量データを処理できるので、ボトムアップの研究スタイルの方が力任せにやりやすいのだろう。
そういう意味では、プログラマであることは非常にメリットがある。
たとえ理論を今知らなくても、道具に詳しいのだから、理論を勉強する時に、道具を使って、片っ端から理論を実際にデータで語らせてみればいい。
そうすることで、理論が本当に有効なのか、とか、データと理論の相性を知ることもできるだろう。
面白い時代だ。
| 固定リンク
「経済学・ERP・財務会計」カテゴリの記事
- ビジネス書の名著はどれ?(2023.09.18)
- 第85回IT勉強宴会の感想~概念データモデルからビジネスモデルを構築すべきという考え方(2023.05.13)
- 令和4年度春期試験のITストラテジスト試験第4問をastahでモデル化してみた(2023.04.15)
- 経営戦略とIT戦略をつなぐ鍵は何なのか(2023.01.04)
- 計量政治学と計量経済学の考え方の違い(2022.10.02)
コメント