SSブログ

ビッグデータ分析の本当に面白いところ [ビッグデータ]

1年以上ぶりの更新である。おかげさまで仕事が忙しすぎてブログどろこではなかった。

さて、統計数理研究所の公開講座「マイクロマーケティングとベイジアンモデリング」に参加した。キーワードは、「マーケティング」、「ビッグデータ」、「ベイズ」といったところで、最近のホットトピックスに対して数理的なアプローチでどのようなことができるのかという2日間の講義だった。

感想は、とても有意義な2日間でこれで5000円ですか!というぐらいの充実ぶりだった。ぜひ、来年も実施して頂きたい。昨年、「ビッグデータ時代のマーケティング―ベイジアンモデリングの活用」という本を出版された稀代の数理マーケティング学者である佐藤先生とその師匠である統数研所長の樋口先生のタッグによる状態空間モデルの講義は非常に分かりやすく、目から鱗(流石!)。このお二人の出版されている本は非常に有益なのでこの記事の最後にリンクしておく。ビッグデータの本当のところを理解したいならセットで読むべき本だろう。

ビッグデータの課題は、大局的に見るとデータは膨大にあるのだけれど、個人(顧客)に着目するとデータ量が極端に少ないこと。そして、収集されているデータは購買の「結果」であって、そこに至るプロセスや背後にある構造についての情報は通常は観測されない。この状況はセンシング技術が発達しても(おそらく)解決されるものではないだろう。大量のデータが集まっているけど、分析してみると痒いところに手が届かないというのはこのあたりについての洞察が欠けているからだ。

マスコミはこぞってビッグデータを喧伝する。まるで魔法の杖みたいに。でも、そんなことはない。いくらデータが蓄積されても本質的な課題は十分には解決されない。それは、Hadoopで並列計算を行うといったこととは別次元の問題である。この公開講座で紹介されたベイズ的な手法はそこに一つの希望を与えている。

ベイズモデルの魅力は現場の直観を潜在変数として数式に落とし込めるところである。例えば、「参照価格」のようなものは通常は観測できない。しかし、ベイズモデルの枠組みであればこれを潜在変数としてモデルに組み込めてしまう(!) この枠組みでは予測はもちろんだが通常の枠組みでは観測できない隠れた状態のダイナミクスを「推定」して理解することに主眼がある。ここに、データ量の議論を超えた豊かな地平がある。

データが大量にあれば機械学習で勝手に学習するのだ。データサイエンティストは不要になる。という議論があるが、これはあまりに粗雑であるように思う。観測不能なデータは世の中ごまんとある。Webサイトのログは収集できるが、そのときの心情(サイコグラフィックなデータ)は潜在的な構造として存在しており素直には顕在化してくれない。データサイエンティストはその豊かな想像力で仮説を立てて、潜在的な構造を仮定したモデルを作り上げる。これが分析屋の「力量」ということになるであろう。この点については少なくともしばらくは機械にできる知的活動であるとは思えない。

結論。ビッグデータであればあるほど、逆説的にデータの少なさに敏感になろう。そして、人間が持つ豊かな想像力を駆使して大胆にモデルを練り上げよう。ビッグデータ分析の面白さはこのようなところにある。


ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS社会科学専門書)

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS社会科学専門書)

  • 作者: 佐藤 忠彦
  • 出版社/メーカー: 講談社
  • 発売日: 2013/01/22
  • メディア: 単行本(ソフトカバー)



予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

  • 作者: 樋口 知之
  • 出版社/メーカー: 講談社
  • 発売日: 2011/04/07
  • メディア: 単行本(ソフトカバー)



nice!(0)  コメント(0)  トラックバック(0) 

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

トラックバックの受付は締め切りました

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。