« Redmine導入でいつも問題なること~ワークフロー管理とDoneの条件 | トップページ | シーケンス図とアクティビティ図と状態遷移図の関係 »

2014/03/31

「データサイエンティスト」の感想~データマイニングが自然科学を再定義し直す

最近、R言語や統計学、データマイニングに興味を持っている。
データサイエンティスト データ分析で会社を動かす知的仕事人 (ソフトバンク新書)」を読んだ感想をメモ。

【元ネタ】
SBクリエイティブ:データサイエンティスト

ASSIOMA(アショーマ) ≫ 書評:データサイエンティスト データ分析で会社を動かす知的仕事人

データサイエンティスト(1)データサイエンティストとは?:『ビジネス2.0』の視点:ITmedia オルタナティブ・ブログ

ビッグデータ活用が進まない3つの理由、データを成果につなげるデータサイエンティストの役割とは/ソフトバンク・テクノロジー | Web担当者Forum

科学研究手法の「第四のパラダイム」としてのData-intensive Computing | JOURNAL | FERMAT

むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

【連載】「変わる」広告会社:第1回 エージェンシーのビッグデータ“ドリブン”マーケティング(前編) - ITmedia マーケティング

【1】データサイエンティストが必要になる背景

IT技術が世の中に普及して、当たり前の時代になった今、大量データが溢れている。
その大量データを分析することで、意味ある法則を導き出せるのではないか、という発想。

今までの統計学は、おそらく、机上の空論に近い理論だったのだろう。
実際、コンピュータがなければ、大量データを処理する計算は、手作業でやるしかなく、それは有限の時間で有限のコストでやるには、限界値が低すぎた。

完全独習 統計学入門」によれば、昔の統計学は、いかに少ない計算量で、統計学の意味ある原理原則を導き出すか、というテクニックに走っていたらしい。
でも、現代の強力なコンピュータ技術を使えば、大量データを並列で処理させれば、かなりのことができる。

【2】データサイエンティストに必要な3つの思考パターン

【2-1】オッカムの剃刀

シンプルに考える。
必要以上に多くの過程をしない。
複雑なモデルにしない。

この言葉の発端は、プラトンに由来する実在論に反対し、モノそれ自体とは別に普遍概念が存在する彼らの主張を批判すること。
「プラトンの髭をオッカムの剃刀で剃り落とす」ことから由来している。

オッカムの剃刀 - Wikipedia

データサイエンスなら、前提となる条件はできるだけシンプルにし、大量のデータからシンプルで有効なモデルを作り出すこと。
そのための前提となる考え方。

【2-2】フェルミ推定

フェルミ推定 - Wikipedia

限られた情報からざっくりと答えを出す。

データサイエンスなら、仮説で置いたモデルないし公式に、大量データからデータマイニングして得られた数値を当てはめて、答えを導き出す。
地頭力を鍛える 問題解決に活かす「フェルミ推定」」が読みやすい。

【2-3】アブダクション

アブダクション とは - コトバンク

アブダクションとは、仮説と発見の論理。
演繹法、帰納法の次に来る3番目の論理。

論理の流れは以下になる。

a)驚くべき事実Cが観察される
b)しかし、もしHが真であれば、Cは当然の帰結であろう
c)よって、Hが真であると考えるべき理由がある

たくさんの仮説からもっともらしいものを選び出す論理。
帰納法+推論。

データサイエンスは、帰納法を発展させた考え方と言える。
つまり、大量データという事例を元に、それら事例に共通する原理原則を導き出す手法。

だが、いくらデータマイニングが強力といっても、帰納法ですべての事例が同じような振る舞いや原理原則に従うとは限らない。

そこで、統計学における仮説検定という手法を使う。
Rによるやさしい統計学」によれば、たとえば、「母集団から一部の抽出した標本に対して○○の相関関係を見つけた」という研究論文の主張に対し、「その主張は、母集団から都合の良い標本を見つけ出したのに過ぎないのではないか。本当はそんな相関関係はあると限定できないはずだ」と反論を受けたとする。

すると、そのライバルの指摘した事象が起こることは現実的にほとんどありえない、という主張で反論し返す。
つまり、母集団に我々が主張する相関関係が全くないとしたら、我々が見つけた標本が得られる可能性は非常に小さい、ということを示す方向で反論する。

この反論の仕方は、母集団から全ての標本を集めた証明に比べると、説得力は弱いが、限られた標本データからある程度の合理性を持って、コストや納期の観点による検証可能性から見れば、かなり強力といえる。

すなわち、データサイエンスは、統計学の仮説検定という手法を使って、データマイニングで見つけた相関関係という原理原則はほぼ確からしい、という統計学の理論的基盤によって、その正当性を示しているわけだ。

【3】データサイエンスは第4のパラダイム

【3-1】第1のパラダイム~経験科学

観察・観測によって自然現象の原因を解明する。

【3-2】第2のパラダイム~理論科学

既知の法則に基づく新たな現象の予測。
実験による仮説検証。

【3-3】第3のパラダイム~計算科学

理論的解が得られない複雑な現象を近似解として、ITのシミュレーションで予測する。

【3-4】第4のパラダイム~データサイエンス

膨大な一次データを収集・分析し、関係性を見出す。
コンピュータによる経験科学の再定義。

科学の「第4のパラダイム」 データ集約型科学が人類の危機を救う | トニー・ヘイ | 2011年11月号|DIAMOND ハーバード・ビジネス・レビュー

【4】データサイエンティストは計算可能な定量モデルを提示する

その数学が戦略を決める」では、ワインの質の方程式を統計学の手法から定量的に求めた式がある。
品質が高いワインは、収穫期に雨が少なく、夏の平均気温が高いという経験則をもとに、ワインの質の定義をソムリエから奪った。
ワインの質は、舌よりもデータで決まる。

ワインの質の方程式のおかげで、生産者やワイン売買業者も、数年から数十年経って質が決まるワインをある程度予測できるようになり、その分、助かったという話がある。

【5】データサイエンティストグロースハッカー

データサイエンティストは、プログラミングとマーケティングの二つの技術を兼ね備える人。
Webサービスの世界で増えてきた。

グロースハッカーとは何か?―シリコンバレーで急増する、WEB業界の新たなキャリアを定義する[1]│CAREER HACK

1990年代は、Apacheアクセスログから、PVやユニークユーザ数などを解析した。
2000年代は、GoogleAnalyticsを使えば、だれでも手軽に解析できる。
しかも、技術的知識がなくても、マーケティング知識があれば、いろんな使い方ができる。

グロースハッカーの出現は、リーンスタートアップの発想に似ている。
ビジネス>プログラミングから、プログラミング>ビジネスの時代への転換。

【6】マーケティングモデルはAIDMA、AISASモデルからAARRRモデルへ

AIDMAは、1920年代のアメリカで生まれたマーケティング手法。

AIDMA - Wikipedia

日本の広告代理店の電通等によるWebマーケティング手法として、AISASモデルが提唱された。
そして、ECやクラウドサービスの見込み客を優良顧客へ変えて収益を上げるマーケティング手法として、AARRRモデルが提唱されている。

「AARRR」 今更だけど絶対抑えておくべきグロースハッカーのコンバージョンの見方 | グロースハックジャパン | growth hack japan

AARRRモデルを使えば、コンバージョンを追跡することで、Webサイトのどこに問題があるのかを分析できる。
Twitter、Instagramを導いたグロースハッカーの仕事とは―グロースハッカー徹底解明[2]│CAREER HACKには、下記の例がある。

(引用開始)
例えば、同じアイテムを取り扱っているECサイトが2つあるとします。
Aのサイトは一日に100人の訪問者があり、50人が会員登録してくれた。
ただ、実際に買物してくれたのは、そのうちの5人。
50%がサインアップしてくれたが、
そのうちの10%しか課金してくれなかったということになります。

Bのサイトも同様に一日に100人の訪問者があるものの、会員登録してくれたのはわずか10人。
しかし、その半数の5人が買物をしてくれた。
サインアップしてくれたのは10%でも、その50%が課金してくれた。

AとBともに100人の訪問があり、
5人のユーザーが課金してくれたという事実は同じですが、
それぞれが抱えている問題は全く異なります。
この違いは、PVとコンバージョンだけ見ていても絶対に分からないでしょう。
アクイジションやアクティベーション、リテンションなど、
どのプロセスに課題があるのかをまず見つけること。
そこからアイデアに優先順位をつけて、実際に改善をしていく必要があります。
(引用終了)

つまり、サイトAは、訪問者を集めるプロセスは良いが、課金プロセスを改善するのが課題になる。
サイトBは、課金プロセスは良いが、訪問者が会員登録するプロセスを改善するのが課題になる。

グロースハッカーは、データマイニングを使って、そのような問題を洗い出し、問題解決の対策を打ち出して、実行して結果を上げる役割を担うわけだ。

【7】データサイエンティストが育つ場所

データサイエンティストが育つ場所は、新領域での実践の現場。
ビジネス側とソフトウェア開発側の協同作業。

統計学の理論だけでは机上の空論。
マーケティングの手法を知っていたとしても、実際にプログラミングして、Webサイトからフィードバックをすぐに得られる仕組みがなければ、机上の空論。
プログラミングだけできても、ビジネス上の問題を解決する手法でなければ、単なる技術の持ち腐れ。

データサイエンティストグロースハッカーであるならば、ビジネスもプログラミングも両方知っている。

【8】プログラマがデータサイエンティストになるための方法

データサイエンティスト」には、どんな言語を選べばよいかは書いていない。
個人的には、R言語が面白いと思う。

オープンソースだし、情報はネット上にいくらでもある。

データマイニングが自然科学を再定義し直す。
すごくワクワクする。


|

« Redmine導入でいつも問題なること~ワークフロー管理とDoneの条件 | トップページ | シーケンス図とアクティビティ図と状態遷移図の関係 »

ソフトウェア」カテゴリの記事

プログラミング」カテゴリの記事

経営・法律・ビジネス」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« Redmine導入でいつも問題なること~ワークフロー管理とDoneの条件 | トップページ | シーケンス図とアクティビティ図と状態遷移図の関係 »