データ分析の課題はどこにあるのか
「データ分析の力 因果関係に迫る思考法」を読んで、データ分析の課題はどこにあるのか、理解できたことをメモ。
ロジカルでないラフなメモ書き。
初心者の妄想なので、間違っていたら後で直す。
【参考】
データ分析の面白さはどこにあるのか: プログラマの思索
【1】データ分析の課題はどこにあるのか?
僕の感想では、現時点におけるデータ分析の課題は、次の3つがあると思う。
・データ分析から得られる結論の再現性はあるのか?
・データ分析したい研究者は、自由にデータを収集できる環境にあるか?
・得られた因果関係はマクロレベルだけでなく、個人というミクロレベルでも正しいのか?
【1-1】データ分析から得られる結論の再現性はあるのか?
最近のパワフルな環境で、いくらデータ分析できたとしても、その結果に再現性がなければ無意味。
間違った前提条件でデータをこねくり回しても、その検定処理が有意であるか、とはすぐには言えない。
「データ分析の力 因果関係に迫る思考法」を読むと、データ分析の結果の再現性を保証するために、数多くの理論が提唱されている。
また、そういう理論の前提条件を満たしているか、というデータの事前準備の方にかなり神経を使っているのがよく分かる。
【1-1-1】「データ分析の力 因果関係に迫る思考法」では、データ分析の再現性を保証するための手法として、いくつか紹介されている。
まず、「ランダム化比較試験」が最も推奨される方法。
次に、「自然実験」と呼ばれる手法があり、「回帰不連続設計法」「集計分析」「パネル・データ分析」があげられている。
(個人的には、「疑似実験」と呼ぶ方がしっくりくると感じる。
あたかも、反実仮想の条件が揃った、という意味を連想させるから)
確かに、フィッシャーの3原則「局所管理(小分け)の原則」「繰り返し(反復)の原則」「無作為化(ランダム化)の原則」を思い出せば、サンプルをランダムに抽出するようにデータを作ればいい。
その理論は、既に数十年以上前から知られている。
よって、ランダム化比較試験では、データ分析よりも、実験しやすいようにランダムとなるデータを事前準備することに注力する、という点で最も納得できる。
すると、ABテストのように、Webシステムやセンサー機器の方が、ランダム化比較試験を実施しやすいだろう。
広範囲なデータ収集のコストが低いので、システム側でコントロールしやすいだろうから。
換言すれば、ビッグデータとかIOTのようなバズワードが流行するのは、ランダム化比較試験の環境を構築しやすい点にあるからだろう。
そのデータ分析手法が、最先端のIT会社で使われて新たなビジネスモデルを生み出し、さらに政府の政策効果の評価手法にまで影響を及ぼしているわけだ。
昨今のアジャイル開発、リーンスタートアップという手法も、ランダム化比較試験を用いたデータ分析による高速なPDCAサイクルと見なせば、より理解しやすくなるのではないか。
【1-1-2】一方、既に得られたデータや公開されている各種統計データから、データ分析する手法「自然実験」もいくつかある。
たとえば、「回帰不連続設計法」は、非連続となる境界値に着目して、因果関係を見出す手法。
「集計分析」は、境界値が階段状となる制約条件に着して、因果関係を見出す手法。
「パネル・データ分析」は、時系列の統計データで、自然に介入群と対照群が分かれているデータに着目して、因果関係を見出す手法。
たとえば、「回帰不連続設計法」の例では、70歳の分岐点で日本人の医療費が極端に上昇する点に着目して、70歳に医療費負担が3割から1割に減る政策によって、逆に医療費が増えている、という因果関係を示している。
「集計分析」の例では、自動車の燃費規制の政策が、車の重量が増えることで燃費の制約が下がる負のインセンティブを発生させて、車体を重くすることで燃費の悪さを助長し、交通事故の損害を増やしている、という因果関係を示している。
「パネル・データ分析」の例では、デンマークで所得税率を下げることで、優秀な移民が増えている効果がある、という因果関係を示している。
そういう事例と実験手法を読むと、得られた因果関係の結論が面白い一方、その結論の再現性や正しさを保証するのに相当苦労している、と感じる。
【1-1-3】他にも思いつく課題をいくつか、適当に書いておく。
データ分析で得られた因果関係は、実験対象の集団や個人の範囲を超えて、他の集団にも適用できるのか?
データ分析の再現性は、どこまで言えるのか?
外的妥当性と内的妥当性の問題。
「実際には起こらなかった潜在的な効果を測定できない」という「因果的推論の根本問題」はどこまで解決できるか?
因果関係が出た事象に対し、「そうではなかった場合」=反実仮想をどうやって作り出し、データ分析する実験をどうやって準備すべきか?
実験をやることによって、実験対象の集団に副次効果が発生して、実験当初の前提条件を崩してしまう場合がある。
その話は、「風が吹けば桶屋が儲かる」「バタフライ効果」を思い出させる。
ほんの少しの発端から始まった因果関係が、大きな影響を与えているのではないか、という考え。
そんな課題を洗い出してみると、社会科学の実験は、自然科学の実験手法を流用しながらも、いかに結果を再現させるか、という課題を解決するために、ものすごく労力を費やしているように思える。
逆に言えば、再現性に関する面倒な議論は、そういう発端があるのだ、と考えればいいかもしれない。
ABテストのような実験環境を、Webだけでなく人間の集団にも適用して、因果関係の発掘をどんどん推し進めたいわけだ。
【1-2】データ分析したい研究者は、自由にデータを収集できる環境にあるか?
【1-2-1】ランダム化比較試験をやるには、いくらWebシステムなどで自動収集できるといっても、システムを構築するコストが発生する。
ゆえに、研究者個人が手っ取り早く、データを集めて研究したい時、既存の統計データを流用して、自然実験の各種手法を使ってみたい。
しかし、社会や教育など、個人情報に関わるデータはそう簡単にアクセスできない。
個人情報が削除されたデータは、個票の属性情報がかなり抜けているだろうし、そのデータの信憑性が悪い。
たぶん、研究者が使いたいレベルの詳細な情報を取得するには、たぶん公開されている統計データだけでは不足する場合が多いのではないか。
「学力の経済学」のように、本来は税金を投入して集められた学力テストのデータを個人レベルまで収集し、そのデータを使って、いろんな観点で因果関係を分析したいはずだ。
しかし、そういう個人情報が含められたデータは、そのまま公開されると悪用されやすい。
また、政治的影響も大きいだろうから、中途半端なデータとしてしか収集できていないのではないか。
【1-2-2】「自然実験」の各種手法では、いかに良質なデータにアクセスできるか、という課題がある。
本来は、政府が経済・社会・教育などのデータを収集して、一元管理して、研究者に公開したり、もっと一般に広く公開するのがいい。
そうすれば、オープンソースのように、優秀な技術者や学者が、無料でそれらデータを分析してその結果を公開してくれるはず。
実際、「学力の経済学」では、南アフリカでは国の統計データが公開されているらしいが、その理由は、公開しておけば、世界中の学者が統計データを使って、補助金を出すことなく無料で研究してくれて、その成果を出してくれるからだ、という一節があった。
その流れが、オープンデータという考え方なのだろう。
オープンソースの魅力である「世界中の優秀な開発者や熱心なユーザの力を利用して、無料でソフトウェアを構築・改善していく」手法を、データ分析の世界にも適用したいわけだ。
そういう発想が進んでいるのが米国などの欧米諸国なのだろう。
そして、日本はたぶんその流れに遅れているのだろう。
とはいえ、日本でもオープンデータの流れがある。
現在の日本の環境でも、個人レベルでクラウド環境は整備できるし、R言語やPythonなどのプログラミング環境もあり、そのノウハウもネット上にいくらでもあるのだから、個人の研究者レベルでデータ分析して研究する、というやり方も現実的なはず。
【1-3】得られた因果関係はマクロレベルだけでなく、個人というミクロレベルでも正しいのか?
データの再現性の問題は「外部妥当性」がどこまで保証されているか、という内容と関係する。
つまり、実験対象の集団を超えて、他の集団にも因果関係を適用できるのか?
「データ分析の力 因果関係に迫る思考法」では、ランダム化比較試験では外部妥当性まで保証できる、と言われているが、他の実験手法では限界がある時もある、とのこと。
でも、データ分析して得られた因果関係は実験対象の集団に適用できても、その集団の中にいる個人まで適用できるのか?
集団にはそういう傾向がある、と言っても、個人レベルでは、その傾向の濃淡は様々だ。
経済現象では納得できても、教育や政治などのセンシティブな話題で個人レベルまで適用されると、自分は違うよ、と天邪鬼になる人も多いのではないか?
この辺りはまだよく分からない。
【2】現在のデータ分析にそういう課題があるとしても、今後はますます有用性が高まるに違いない。
なぜなら、統計学の理論は既に広く深く成立していて、プログラムとすごく相性がいいからだ。
また、データが膨大であっても、クラウドに配置すればいいし、処理性能もクラウド環境の方が調整しやすいから。
特にWebシステムでは、個人の行動履歴をログとして自然に蓄積しやすいので、データ収集のコストがすごく低い。
後は、コンピュータの性能に任せて、大量データをいくらでもデータマイニングすればいい。
その時に、各種の統計理論を使って、どの理論がとても有効であるのか、という理論の評価もできるはず。
つまり、従来はこの理論の方が良いと考えられていたとしても、実際に使ってみたら、そうではなかった、とか、むしろ、この理論であるべきだ、という知見がもっと出てくるだろう。
たとえば、「How Google Works」の本では、人の能力は、身長のような正規分布ではない、むしろべき分布のように偏っている方が自然だ、と主張していて、なるほどを思った。
こういう知見は専門家からすれば当たり前なのかもしれないが、素人からすれば非常に興味深い。
個人的にはそういう新たな知見をもっと知りたいし、研究してみたいなと思う。
【3】他に、僕が興味を持っているアジャイル開発やRedmineにも、データ分析の知見を活用することはできるか?
アジャイル開発だけでなく、リーンスタートアップ、MVPによるビジネスモデルの仮説検証は、データ分析の手法なくして実現できないのではないか?
換言すれば、AARRRのようなWebデータ解析手法が整ったからこそ、リーンスタートアップのようなWebのビジネスモデルの検証がやりやすくなったのではないか。
また、Redmineはソフトウェア工学に関するデータ収集基盤である、と位置づければ、今までのデータ分析の手法を使って、新たな知見を導き出すことができるのではないか。
たとえば、組織文化が異なる2つのチームに対し、Redmineのチケットをデータ分析したら、いくつかの因果関係を示せた、のようなことはできないか?
考えたことはまたまとめてみる。
【追記】
「小中学生のワクチン集団接種を止めると、高齢者のインフルエンザ死亡率が高まる」という記事が紹介されている。
この内容は、自然実験である「パネル・データ分析」を使った統計分析手法を使っているのではないか、と推測される。
小中学生のワクチン集団接種 をやめたら、インフルエンザ で亡くなるお年寄りが増えた。なぜ? (ハフポスト日本版) - Yahoo!ニュース
なぜなら、予防接種を受けた時代とそうでない時代の時系列の統計データが既にあり、その統計データを元に、介入群と対照群にきちんと区別できるように統計処理して、小中学生のワクチン集団接種率と高齢者のインフルエンザ死亡率の相関関係や因果関係を分析しているのではないか、と推測されるからだ。
予防接種は政府が推進した政策であるので、事前準備のデータもその効果を測定したデータもきちんと記録されていて、データの精度も高いのではないか、と思うからだ。
そういう統計データを元に、今年のインフルエンザ大流行の真因を分析できること、そして、その対策の効果について、数多くの人達に知らしめることができる、ということを考えれば、統計学の有用性は非常に高いのだろう、と思う。
| 固定リンク
「統計学・機械学習・深層学習」カテゴリの記事
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
- 計量政治学と計量経済学の考え方の違い(2022.10.02)
コメント