ビッグデータ分析の本当に面白いところ [ビッグデータ]
1年以上ぶりの更新である。おかげさまで仕事が忙しすぎてブログどろこではなかった。
さて、統計数理研究所の公開講座「マイクロマーケティングとベイジアンモデリング」に参加した。キーワードは、「マーケティング」、「ビッグデータ」、「ベイズ」といったところで、最近のホットトピックスに対して数理的なアプローチでどのようなことができるのかという2日間の講義だった。
感想は、とても有意義な2日間でこれで5000円ですか!というぐらいの充実ぶりだった。ぜひ、来年も実施して頂きたい。昨年、「ビッグデータ時代のマーケティング―ベイジアンモデリングの活用」という本を出版された稀代の数理マーケティング学者である佐藤先生とその師匠である統数研所長の樋口先生のタッグによる状態空間モデルの講義は非常に分かりやすく、目から鱗(流石!)。このお二人の出版されている本は非常に有益なのでこの記事の最後にリンクしておく。ビッグデータの本当のところを理解したいならセットで読むべき本だろう。
ビッグデータの課題は、大局的に見るとデータは膨大にあるのだけれど、個人(顧客)に着目するとデータ量が極端に少ないこと。そして、収集されているデータは購買の「結果」であって、そこに至るプロセスや背後にある構造についての情報は通常は観測されない。この状況はセンシング技術が発達しても(おそらく)解決されるものではないだろう。大量のデータが集まっているけど、分析してみると痒いところに手が届かないというのはこのあたりについての洞察が欠けているからだ。
マスコミはこぞってビッグデータを喧伝する。まるで魔法の杖みたいに。でも、そんなことはない。いくらデータが蓄積されても本質的な課題は十分には解決されない。それは、Hadoopで並列計算を行うといったこととは別次元の問題である。この公開講座で紹介されたベイズ的な手法はそこに一つの希望を与えている。
ベイズモデルの魅力は現場の直観を潜在変数として数式に落とし込めるところである。例えば、「参照価格」のようなものは通常は観測できない。しかし、ベイズモデルの枠組みであればこれを潜在変数としてモデルに組み込めてしまう(!) この枠組みでは予測はもちろんだが通常の枠組みでは観測できない隠れた状態のダイナミクスを「推定」して理解することに主眼がある。ここに、データ量の議論を超えた豊かな地平がある。
データが大量にあれば機械学習で勝手に学習するのだ。データサイエンティストは不要になる。という議論があるが、これはあまりに粗雑であるように思う。観測不能なデータは世の中ごまんとある。Webサイトのログは収集できるが、そのときの心情(サイコグラフィックなデータ)は潜在的な構造として存在しており素直には顕在化してくれない。データサイエンティストはその豊かな想像力で仮説を立てて、潜在的な構造を仮定したモデルを作り上げる。これが分析屋の「力量」ということになるであろう。この点については少なくともしばらくは機械にできる知的活動であるとは思えない。
結論。ビッグデータであればあるほど、逆説的にデータの少なさに敏感になろう。そして、人間が持つ豊かな想像力を駆使して大胆にモデルを練り上げよう。ビッグデータ分析の面白さはこのようなところにある。
さて、統計数理研究所の公開講座「マイクロマーケティングとベイジアンモデリング」に参加した。キーワードは、「マーケティング」、「ビッグデータ」、「ベイズ」といったところで、最近のホットトピックスに対して数理的なアプローチでどのようなことができるのかという2日間の講義だった。
感想は、とても有意義な2日間でこれで5000円ですか!というぐらいの充実ぶりだった。ぜひ、来年も実施して頂きたい。昨年、「ビッグデータ時代のマーケティング―ベイジアンモデリングの活用」という本を出版された稀代の数理マーケティング学者である佐藤先生とその師匠である統数研所長の樋口先生のタッグによる状態空間モデルの講義は非常に分かりやすく、目から鱗(流石!)。このお二人の出版されている本は非常に有益なのでこの記事の最後にリンクしておく。ビッグデータの本当のところを理解したいならセットで読むべき本だろう。
ビッグデータの課題は、大局的に見るとデータは膨大にあるのだけれど、個人(顧客)に着目するとデータ量が極端に少ないこと。そして、収集されているデータは購買の「結果」であって、そこに至るプロセスや背後にある構造についての情報は通常は観測されない。この状況はセンシング技術が発達しても(おそらく)解決されるものではないだろう。大量のデータが集まっているけど、分析してみると痒いところに手が届かないというのはこのあたりについての洞察が欠けているからだ。
マスコミはこぞってビッグデータを喧伝する。まるで魔法の杖みたいに。でも、そんなことはない。いくらデータが蓄積されても本質的な課題は十分には解決されない。それは、Hadoopで並列計算を行うといったこととは別次元の問題である。この公開講座で紹介されたベイズ的な手法はそこに一つの希望を与えている。
ベイズモデルの魅力は現場の直観を潜在変数として数式に落とし込めるところである。例えば、「参照価格」のようなものは通常は観測できない。しかし、ベイズモデルの枠組みであればこれを潜在変数としてモデルに組み込めてしまう(!) この枠組みでは予測はもちろんだが通常の枠組みでは観測できない隠れた状態のダイナミクスを「推定」して理解することに主眼がある。ここに、データ量の議論を超えた豊かな地平がある。
データが大量にあれば機械学習で勝手に学習するのだ。データサイエンティストは不要になる。という議論があるが、これはあまりに粗雑であるように思う。観測不能なデータは世の中ごまんとある。Webサイトのログは収集できるが、そのときの心情(サイコグラフィックなデータ)は潜在的な構造として存在しており素直には顕在化してくれない。データサイエンティストはその豊かな想像力で仮説を立てて、潜在的な構造を仮定したモデルを作り上げる。これが分析屋の「力量」ということになるであろう。この点については少なくともしばらくは機械にできる知的活動であるとは思えない。
結論。ビッグデータであればあるほど、逆説的にデータの少なさに敏感になろう。そして、人間が持つ豊かな想像力を駆使して大胆にモデルを練り上げよう。ビッグデータ分析の面白さはこのようなところにある。
ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS社会科学専門書)
- 作者: 佐藤 忠彦
- 出版社/メーカー: 講談社
- 発売日: 2013/01/22
- メディア: 単行本(ソフトカバー)
予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)
- 作者: 樋口 知之
- 出版社/メーカー: 講談社
- 発売日: 2011/04/07
- メディア: 単行本(ソフトカバー)
ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 [ビッグデータ]
ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS社会科学専門書)
- 作者: 佐藤 忠彦
- 出版社/メーカー: 講談社
- 発売日: 2013/01/22
- メディア: 単行本(ソフトカバー)
新たにビッグデータ関係の本が出版されました。
その名も「ビッグデータ時代のマーケティング」
ちょっとあまりにも今の時代を意識し過ぎていないか!?というタイトルですが、内容は極めて硬派です。それもそのはず著者の佐藤博士は筑波大学ビジネス科学研究科(GSSM)の先生で、共著者である統計数理研究所所長の樋口先生と前所長の北川源四郎先生のお弟子さんであられます。つまり、日本の正統なベイジアンでいらっしゃるわけです。
そういうわけで、状態空間モデルをPOSデータに適用して"One to One"マーケティングを高度化するという佐藤先生の研究業績がビジネス向けの文体で分かりやすく書かれています。ビッグデータの時代でも顧客毎にパラメータを推定しようとするとデータ不足となり、これを解決するにはベイズ的なアプローチがどうしても必要になるという今日的なトピックが扱われており非常に参考になります。
階層ベイズなどの手法についても図を多用して解説されており、入門者の理解を助ける工夫が随所に見られ好感を持ちました。パラメータとデータの関係をグラフィカルに記述するDAG(Directed Acyclic Graph)というものがあると知り勉強になりました。企画のためか、数式は最小限となっており、また、Rなどのプログラミングコードなどは出てこないので、これらは他書で補う必要がありますが(本書の最後にある参考文献がとても有用です)、ビッグデータ時代の硬派な数理マーケティングの方向性を理解できる良書だと思いました。
POSデータの分析本は他にもありますが、最新のベイジアン時系列分析にフォーカスしているマーケティングの和書はこれが初めてでしょう。買いの一冊です。
■参考文献
・データ解析のための統計モデリング入門
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保 拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
この本もベイズ的なデータ解析を非常に分かりやすく解説しています。WinBugsとRのコードがあるのが嬉しいです。マーケティングと生態学はちょっと似ていると思いました。
・ベイズ統計データ解析 (Rで学ぶデータサイエンス 3)
・こちらの本はカルマンフィルターなどの時系列解析の理論とRコードが詳述されています。初級~中級者の役に立つ内容となっています。
Hadoopの敷居が下がり始めた [ビッグデータ]
Hadoopは基本的にLinux上で動作することもあって初心者には難しいイメージがあったが、最近は入門的な書籍やWebサイトが増えてきたために敷居が下がってきたようである。よい傾向だ。
覚書程度だが↓などを見ておけば基本が身に付くと思われる。
【書籍】
■パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門
・↓の書籍ではWindows+Cygwin+Eclipse+Pigでの環境構築手順から、実際のコードまで記述されておりなかなかよさそうである。オライリーに進む前の下地ができそう。
【Web】
■Hadoop入門
・IBMの入門資料がわかりやすい
http://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-0041751B
■Hadoopでテキストマイニング
・このサイトはテキストマイニングに興味がある人が多いようなので参考のため↓をリンクした
「テキストマイニングで始めるHadoop活用」
http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html
■NTTデータの実証実験
・膨大な分量の報告書 - Hadoopが一望できる
http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf
覚書程度だが↓などを見ておけば基本が身に付くと思われる。
【書籍】
■パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門
・↓の書籍ではWindows+Cygwin+Eclipse+Pigでの環境構築手順から、実際のコードまで記述されておりなかなかよさそうである。オライリーに進む前の下地ができそう。
パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE)
- 作者: 三木 大知
- 出版社/メーカー: 翔泳社
- 発売日: 2012/08/28
- メディア: 大型本
【Web】
■Hadoop入門
・IBMの入門資料がわかりやすい
http://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-0041751B
■Hadoopでテキストマイニング
・このサイトはテキストマイニングに興味がある人が多いようなので参考のため↓をリンクした
「テキストマイニングで始めるHadoop活用」
http://www.atmarkit.co.jp/fjava/index/index_hadoop_tm.html
■NTTデータの実証実験
・膨大な分量の報告書 - Hadoopが一望できる
http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf