人間は合理的ではない(書評「意見分析エンジン」) [テキストマイニング]
ようやく仕事が落ち着いたので私的な研究活動を開始した。テキストマイニングの研究室の出身なので次の研究も言語処理が起点になる。私の興味は人間の感情と行動にある。従って、テキスト情報から行動とその動機を分析可能とすることが興味の中心になると考えてこの本を読んだ。
CGM(Consumer Generated Media)とその周辺について自然言語処理の観点のみならず、「社会学」の観点から記述されている本作はとても面白く読めた。1~3章は社会学における意見分析に関する既存研究のサーベイになっており、その文脈の中で自らの研究を位置付けている。4章は自然言語処理分野における意見・評価分析の見通しのよい総説となっており、5章では筆者の一人である大塚裕子氏の博士論文の要約版になっている。すなわち、社会学と自然言語処理の文脈の上に立脚した研究が志されているわけだ。
この研究の意義はこれまで工学の一分野にすぎなかった自然言語処理が社会学の文脈の中に位置づけたことにつきる。意見分析周辺の社会学研究が整理されており小気味いいのである。しかし、一方で5章の実際に展開されている研究の議論は、(筆者も言及しているが)やや尻つぼみになってしまっている。それまでの社会学の議論の多くが無視されており、あまり個性のない実験(SVMなどの分類器を使った意見分類)が展開されている。意欲は評価できるが両分野の融合という観点では大いに課題を残した結末となっているのが残念だ。
このような学際的な研究は今後も大いに展開されるべきと思う。言語処理技術だけでは技術革新に限界があるだろう。言語処理は人間の行動を分析するためのツールにすぎない。分析結果を適切に解釈するためには社会科学の知識が役に立つ。言うは易しだが、文理融合的な研究が今後はますます重要になる。
テキストマイニングのPDCA [テキストマイニング]
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川 哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11
- メディア: 単行本
テキストマイニング関連の提案を考えていて参考文献を探していたところこの本に出会った。
この本はテキストマイニングの技術的な解説はあまり充実していないが、テキストマイニングをビジネスに活かすための方法論が具体的な事例を基に述べられていて非常に役に立つ。導入から効果測定の考え方についても詳細に語られているのでPDCAサイクルが極めてわかりやすい。
テキストマイニングの導入を検討している企業の担当者にとっては必読の書だと思う。2006年の出版であるが古びていない。読んで良かった。
テキストマイニングのフリーツール [テキストマイニング]
(共起ネットワークの図。関連する単語がグラフネットワークで見える化されている。)
久々の更新になってしまった。今回は小生の専門であるテキストマイニングについて少しだけ。
今関わっているプロジェクトの関係でテキストマイニングをちょっとやることになった。テキストマイニングをやるためのツールは結構充実している。しかも、便利なツールがフリーで使えてしまうのである。かつては、SASのような年間数百万円もする高価なソフトを使わなければならなかったので、今はその意味でとても恵まれている。
高価なSASの代わりに爆発的に流行ってきているのがRである。このソフトはオープンソースであり、しかも最新の統計やマイニングに関する関数が素早く提供される。ある意味では既にSASよりも優れているという専門家もいるくらいだ。これを使って遊んでみない手はない。
Rを使って日本語のテキストマイニングもできるようになってきた。阪大のKH coderや徳島大のRMeCabはその一例である。これらはデフォルトでテキストマイニングをやるための一連の関数を提供してくれる。KH coderなんて流行のベイズ技術を使ったクラシファイアー(ナイーブベイズ法)や東大が開発した専門用語解析システム"TermExtract"まで実装している(!)。
これらのツールは無料で高機能であることがメリットだ。多変量解析なんか前提知識がなくとも一瞬で実行できてしまう。だが、デメリットはちょっととっつきにくいことである。
と、思っていたがそうでもない。"KH Coder"なんて、自動インストールで必要な関連ソフトと環境設定が済んでしまう(!)。かつては、環境設定などがちょっとややこしく、これが初心者の挫折の原因にもなったぐらいなのだが・・・。
オープンソースやフリーウエアはもはや安かろう悪かろうではなくなりつつある。入門から上級まで高度な分析をフリーな環境で実行することができる。そうすると、後はデータと発想だけ。魅力的な素材と何を見つけ出したいのか?という問いに対する仮説が出来ているなら、テキストマイニングの半分は成功したと言えるだろう。
■語注
【テキストマイニング】
定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。
■参考資料
【KH coder】
http://khc.sourceforge.net/
【RMeCab】
http://rmecab.jp/wiki/index.php?RMeCab
■関連書籍
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川 哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11
- メディア: 単行本
・IBMの人が書いているだけあって具体的なビジネスケースが盛り込まれている良書です。ストーリー仕立てで非常に分かりやすいのでお勧めの一冊です。テキストマイニングをどのように自分のビジネスに活用するかといったことを、この本を切っ掛けに考え始めることができるでしょう。
・テキストマイニング界隈では著名な石田先生と金先生の共著本です。巻末の付録に上記でも紹介したKH coderなどのフリーツールについて詳しく紹介されています。SPSSなどの商用ツールを購入する前にフリーでいろいろやってみたいという方におすすめの一冊です。
・論文集の形式で様々なテーマのテキストマニングの分析事例を読むことができ参考になります。ややアカデミック色が強いですが、テキストマイニングによる株価予測など最新のテーマもあり興味深く読めました。他にもアンケートの自由回答欄の分析など実務にも応用できそうなテーマもあります。
・R+RMeCabでテキストマイニングの基本が学べます。フリー環境下でテキストマイニングをちゃんとやろうとするとRなどの専門的な分析ツールを自在に操れるようになる必要があります。この本はそのための入り口として最適です
・本格的にテキストマイニングをやろうという気になったらこの本を手元に置いておくといいです。様々な手法の理論的背景を知るための辞書として活用できるでしょう。ただし、数式が多数登場するので中級から上級者向きとなります。