« 第13回東京Redmine勉強会の見所 #redmineT | トップページ | データ分析の課題はどこにあるのか »

2017/11/11

データ分析の面白さはどこにあるのか

最近、統計学を勉強してみて、データ分析の面白さと課題について、色々感じるものがあった。
長くなったので、「データ分析の面白さ」だけ書いてみる。
以下はラフなメモ書き。
初心者の妄想なので、間違っていたら後で直す。

【参考】
データサイエンスのすゝめ — シリコンバレーに全てを飲み込まれる前に – learn data science

【1】データ分析の面白さはどこにあるのか?

【1-1】時代がようやく統計学の理論に追いついた、という点が面白いのだろう、と思う。
コンピュータが貴重であった頃、データ量が多いほど、データ分析は手計算では正直無理。
だから、いかに計算を省略するか、という所に力を入れて研究されていた。

また、大量のデータを収集する作業そのものも難しかったから、いかに少ない標本数でデータ分析の精度を高めるか、という研究が多くなされていた。
たとえば、コンピュータがない時代で、国勢調査で全国民からアンケート用紙を記入して回収し、集計する作業がどれだけ大変だったか、コストがかかるものだったのか、考えればいい。

しかし、今は、コンピュータの処理能力が劇的に向上し、Excelでも簡単に計算できるようになった。
今は、Excelで箱ひげ図も描ける。
データ量が増えても、クラウド環境、R言語などの優れたプログラミング言語などの開発環境が揃って、問題ない。
また、Webシステムや組込システムのセンサーのように、人手をかけずに機械が自動的にアクセス・ログを集集する仕組みが整ってきている。
むしろ、データがたくさんあるほど、幅広く奥深くデータを検証できる。

さらに、統計学の理論は既に固まっている。
したがって、データ分析の手法の仕様が決まっているので、プログラムに落としやすい。

また、あるいは、データ分析で得られた因果関係を、他の環境でも再現できる確率はどれくらいなのか、とか、データの再現性に関わる議論は、既に数多くの理論で提唱されている。
たとえば、データ分析の手法がどこまで、因果関係や相関関係などの正しさを保証できるか、とか。
そういうデータ再現の保証が理論で提示されているので、データ収集の前提条件さえきちんと詰めておけば、いくらでもプログラムでデータ分析できるし、今まで知られなかった因果関係を導き出すことができるはず。

【1-2】統計学の応用は、昔から幅広く行われていた。

医学の分野では、コレラとか流行の病気の原因追求、新薬の効き目の効果測定など。
経済学なら、国勢調査で、人口統計や住所、財産などの傾向分析など。
教育・心理学なら、学力テストによる知能の測定とか、アンケートによる行動の分析、とか。
生産管理なら、大量製造による量産品の品質管理。管理図とか、散布図とか。

つまり、コンピュータが使われる以前から、数多くの方面で統計学は応用されていたし、データ分析もなされていた。
では、最近はどういう点が違っていて、どういう点が面白いのか?

【1-3】今は、教育・人事やマーケティング、経済学への適用が興味深いのだろう、と思う。

【1-3-1】「郊外の小売店では、ビールと紙おむつが関連購買でよく売れる」という都市伝説は、データマイニングによるマーケティングへの応用。
大量のPOSデータから関連購買を分析すればいい。

特に、Webの販売サイトでは、アクセスログや購買履歴を個人レベルで簡単に蓄積できるので、データクリーニングさえできれば、いくらでもデータマイニングできる。
そういう経緯もあって、販促の経験則も、AIDMAからAARRRへ変わったのだろうと思う。

「AARRR」 今更だけど抑えておくべきグロースハッカーのコンバージョンの見方 - Content Hub(コンテンツハブ) | ナイル株式会社

たとえば、ユーザのアクセスログから、導線を推測して、逆にユーザを誘導して購買させるWebサイト作りへ変化させる。

また、ABテストも、Webシステムだからこそやりやすい手法。

ABテストとは ? 今さら聞けないABテストの基礎中の基礎まとめ | 株式会社アッション

多数の人達から、無作為に選んでもらう環境作りは普通は難しいが、Webサイトでは、フィッシャーの3原則「局所管理(小分け)の原則」「繰り返し(反復)の原則」「無作為化の原則」の条件を整えやすい。
つまり、Webサイトでは、ランダム化比較試験のような環境を作りやすいので、得られたデータ分析の結果も効果が出やすいのだろう。

最近、ソフトウェアが世界を食うという事象が頻繁に見られる理由は、Webサイトから安価に大量の顧客データを収集できて、それらをデータ分析で因果関係や相関関係などの結果を導き出し、より効果的な施策を実施できるビジネスモデルができているからではないか。
そういうビジネスモデルを持たない従来の企業は、そういう新興企業に押されている、という状況なのだろう。

「ソフトウェアが世界を飲み込む理由」「ソフトウエア、それが問題だ」の記事のメモ: プログラマの思索

【1-3-2】心理学への統計学の応用では、人の行動に焦点を当てた分析結果が有用だろうと思う。
たとえば、リーダーシップ条件適応理論では、リーダーシップは部下の成熟度で変化させるべきだ、という結論がとても参考になった。
皆薄々感じているけれど、実際の計測データを元に導き出された結果なので、信頼性が高いのだろう。

日本データ分析をバックにした理論が少ないと聞くが、三隅二不二によって提唱されたリーダーシップ理論であるPM理論が唯一の理論らしい、と聞いた。

この分野で目を引くのは、Googleの施策ではないか。
「ワーク・ルールズ」の本を読むと、Googleでは人事施策や組織文化に関する問題解決手法とデータ分析を頻繁に使っている。
人の能力、モチベーション、業績評価などをより良いものにするデータ分析を使って、どんどん改善していく。
その様は、生産管理における品質管理のカイゼン手法を連想させる。
人も部品と同じように、品質管理されて、良い品質を保つように改善されていくわけだ。

「ワーク・ルールズ」の感想: プログラマの思索

日本の品質管理がISO9001やシックスシグマに変わっていった歴史: プログラマの思索

【1-3-3】計量経済学という分野がまさに統計学と密接に関わる分野になるらしい。

経済学は自然科学とは違い、規範的な学問であるという立場を主張するならば、政治での政策効果や費用対効果を計測することで、政策を評価することが重要になってくる。
たとえば、ある政党がある政策を採用して実行すると決めたならば、その政策の効果が本当に出たのか検証すべきだし、その結果、効果よりもコストが大きくて損したならば、その政策はやめるべきだ。

つまり、各種の条件や前提をおいた後で、補助金や予算による政府の投資でどれだけの効果があるか、事前に推定できるならば推定して、政策実行を判断したいし、実際に実行した結果と事前推定の結果との比較分析からさらに多くの知見が得られるだろう。

そもそも、ミクロ経済学では、消費者行動や企業行動をパレート最適などの前提条件のもとで、消費者や企業は経済合理的に最適な行動を選択する、と仮定しているので、理論を当てはめやすい。
本当にそうなのか、は不明だが。

エビデンス・ベースの政策作りが米国では流行している、と聞くが、その理由は、経済学の理論や統計的手法とコンピュータによるデータ分析がうまく組み合わさって、政策の効果測定が簡単に実現できるようになったから、という背景もあるのだろう。
そういう雰囲気が進めば、Webシステム開発やデータ分析のできるプログラマはより重宝されるようになるのだろう。

【1-3-4】最近では、政治の世界でも経済学の重要性がすごく大きくなっている。
政治の政策作りの殆どが年金、医療、教育、中小企業に関わる補助金のバラマキが主になってくれば、そのばらまきが本当に効果があるのか、経済学の知見を使いたくなってくるのだろう。

教育経済学という分野を初めて知ったけれど、教育という古い分野に経済学における費用対効果の手法を適用することで、教育施策の政策効果を測定し、より効果的な教育政策を採用しよう、という考え方は面白い。

「エビデンスベースト」が日本の教育を変える?中室牧子氏に聞く | eduview

たとえば、少人数学級の方が効果があるのか、紙の書籍よりもiPadを与えた方が効果があるのか、大学生に奨学金を与えると効果が出るのか、とか。
こういう教育政策はとてもセンシティブな内容なので、得られたデータ分析の結果は本当に正しいのか、と疑ってしまいがちだが、経済学と統計学の手法を組合せて簡単に政策効果を評価できるなら、どんどん使っていくべきなのだろう。

従来の政策を運用したコストよりも効果が少なければ、その政策はむしろ破棄すべきだろうから。

【1-3-5】最近、IOTが注目される理由は、スマートフォンのみならず、全てのハードウェアにセンサーを組み込んで、いくらでもログを簡単に収集できる仕組みが整った点だろう。
つまり、Webシステムで緩やかにログを収集する構造と同じ仕組みを、Web業者だけでなく、メーカーも作れることが大きなメリットなのだろう。

たとえば、メーカーも収集したログやデータを分析することで、機械が故障する予兆を事前に把握して予知保全を行う、などといった手法を取れる。
あるいは、機械を扱うユーザの行動をログで記録して、CRMで分析して次世代の新製品開発に活用する、という使い方もできる。
さらには、ABテストみたいに、製品利用の課金サービスの売上を上げるために、製品が運用される環境を故意に作ってランダムにテストし、どのパターンが最も効果的なのか、を検証することもできる。

すなわち、Web業者が販売システムでAARRRやCRM、ABテストなどのデータ分析・活用をやっているのと同じやり方を、メーカーも行える基盤が整った、という点がIOTで最も重要な観点なのだろう。
メーカーも、GoogleやAmazonなどと同じ土俵にようやく立てる基盤が整ったわけだ。
但し、だからといって、メーカーがすぐに、最先端テクノロジーを持つWeb系ライバル業者と競争できる力を持てるわけではないだろう。

あくまでも、シリコンバレーのAmazon、Google、Facebookのような企業と同等の開発基盤を、メーカーにもIOTによって同じように持つことができるようになっただけに過ぎない。
メーカーの組織文化は、シリコンバレーのIT企業のそれとは全く違う。
どこまで彼らが変化できるのか、じっくり見てみたい所。

|

« 第13回東京Redmine勉強会の見所 #redmineT | トップページ | データ分析の課題はどこにあるのか »

統計学・機械学習・深層学習」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« 第13回東京Redmine勉強会の見所 #redmineT | トップページ | データ分析の課題はどこにあるのか »