« Redmineコミュニティに関わる動きのメモ | トップページ | Redmineがいくら良くても会社の上司や経営者が見なければExcelがはびこってしまう事例 »

2016/07/17

有効な併買ルールを見つけ出すバスケット分析のアルゴリズムのリンク

有効な併買ルールを見つけ出すバスケット分析についての記事をメモ。
以下、特に主張なし。

【参考】
アップセルとクロスセルで顧客収益性を上げたい!|活用ケース解説|マーケターのためのデータ分析実践入門 Marketing Analyticsゼミナール

バスケット分析とは:何と何が、一緒に買われているのか?を知ろう|データ分析用語を解説 - データビジュアライズで経営を視える化する/graffe グラーフ

リフト値とは:その事象が、どれだけ「持ち上がっているか」を考える指標|データ分析用語を解説 - データビジュアライズで経営を視える化する/graffe グラーフ

Teradata|マーケターのためのデータマイニング・ヒッチハイクガイド:第15回:アソシエーション分析(前編)

第1回 機械学習を実践する前の基礎知識:Mahoutで体感する機械学習の実践|gihyo.jp … 技術評論社

第2回 「ある商品といっしょによく売れる商品は何か?」を見つけるには ~マーケット・バスケット分析の考え方:Mahoutで体感する機械学習の実践|gihyo.jp … 技術評論社

【1】スーパーやコンビニのPOS分析で溜まったデータの分析のうち、バスケット分析が一番有名ではないか。
意外な商品を近くに配置すると、売れ行きが増大する。
有名な例は、アメリカの都市伝説にもなっている、紙おむつとビールの事例だろう。

リテールデータ分析入門」によれば、日本では、ある食品会社が、レトルトカレーと卵がセットで売上が高いので、卵売り場でレトルトカレーを配置してPOP広告で購入を促したら、実際に売れ行きが増大したらしい。
仮説としては、低学年の子供を持つユーザ層が、レトルトカレーと卵を購入しているのではないか、と推測されたらしい。

コンビニを見れば、毎日のように、商品の置き場が変わっているのがよく分かる。
中小企業のスーパーでも、併買分析をすれば、もっと売上が増えるのではないか?
実際、ある診断士の話を聞くと、とある中小企業の小売店では、スパゲッティの麺とパスタソースをセットに配置していなかったので、セットで配置するように指導したら、売上が増えた、という話を聞いたことがある。

プログラムを書くことができるならば、バスケット分析を実際に試してみると、身近の人達にその威力を見せつけられるかもしれない。

【2】バスケット分析のアルゴリズムは、サポート、信頼度、リフトの3つで測定するのが知られている。

支持度(support)=「XかつY」を含むトランザクション数/全トランザクション数

信頼度(confidence)=「XかつY」を含むトランザクション数/Xを含むトランザクション数

リフト=信頼度(X⇒Y)/支持度(Y)

(引用開始)
この式から「リフト値」は、「xが買われたときにyも買われる確率」を「全体でyが買われる確率」で割ったものである、と考えることができます。

つまり、「リフト値が高い」ということは条件Xのときに事象Yが起こりやすいということを示しています。このように一般化すると「リフト値」の考え方は「バスケット分析」以外でも活用できます。
(引用終了)

つまり、リフト値は、ある条件における条件付き確率であることを意味している。

(引用開始)
信頼度は,「条件(パンを買う)が起きた場合に,結論(ミルクを買う)が起きる割合」を表します。これにより,条件(パンを買う)と結論(ミルクを買う)のアソシエーションの強さを表します。

支持度は,条件(パンを買う)と結論(ミルクを買う)が同時に起こる場合が全トランザクションに占める割合を表します。

支持度が低い組み合わせは,あまり買う人がいない組み合わせであることを示します。そのため,たとえ信頼度が高くても,支持度が低い組み合わせは,アソシーエション分析では有用な答えではないと考えます。

次に,結論(ミルクを買う)が条件(パンを買う)と無関係に起こっていないかどうかを計算します。先ほどのコンビニエンスストアにおけるジュースのように,よく売れる商品はどの商品から見てもよくいっしょに売れる商品になってしまう可能性があるためです。

そういった現象が起こる度合いの低さを表すのが「リフト値」です。

有効なアソシエーションルールであるためには,一般的にリフト値が1より大きい必要があります。

このように,アソシエーション分析では,信頼度,支持度,リフト値の3つの値を求めます。そしてこれら3つの値でアソシエーションルールの強さと有効性を判断します。
(引用終了)

【3】実際の計算方法は、いくつかあるらしい。
一つは、「リテールデータ分析入門」に記載されていた、R言語を使う方法。
もう一つは、第2回 「ある商品といっしょによく売れる商品は何か?」を見つけるには ~マーケット・バスケット分析の考え方:Mahoutで体感する機械学習の実践|gihyo.jp … 技術評論社のように、Mahout+Hadoopを使う方法。

この辺りの技術は、今は戦国時代みたいで、色々あって面白い。
他にもまとめてみる。

|

« Redmineコミュニティに関わる動きのメモ | トップページ | Redmineがいくら良くても会社の上司や経営者が見なければExcelがはびこってしまう事例 »

ソフトウェア」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« Redmineコミュニティに関わる動きのメモ | トップページ | Redmineがいくら良くても会社の上司や経営者が見なければExcelがはびこってしまう事例 »