テキストマイニングのフリーツール [テキストマイニング]
(共起ネットワークの図。関連する単語がグラフネットワークで見える化されている。)
久々の更新になってしまった。今回は小生の専門であるテキストマイニングについて少しだけ。
今関わっているプロジェクトの関係でテキストマイニングをちょっとやることになった。テキストマイニングをやるためのツールは結構充実している。しかも、便利なツールがフリーで使えてしまうのである。かつては、SASのような年間数百万円もする高価なソフトを使わなければならなかったので、今はその意味でとても恵まれている。
高価なSASの代わりに爆発的に流行ってきているのがRである。このソフトはオープンソースであり、しかも最新の統計やマイニングに関する関数が素早く提供される。ある意味では既にSASよりも優れているという専門家もいるくらいだ。これを使って遊んでみない手はない。
Rを使って日本語のテキストマイニングもできるようになってきた。阪大のKH coderや徳島大のRMeCabはその一例である。これらはデフォルトでテキストマイニングをやるための一連の関数を提供してくれる。KH coderなんて流行のベイズ技術を使ったクラシファイアー(ナイーブベイズ法)や東大が開発した専門用語解析システム"TermExtract"まで実装している(!)。
これらのツールは無料で高機能であることがメリットだ。多変量解析なんか前提知識がなくとも一瞬で実行できてしまう。だが、デメリットはちょっととっつきにくいことである。
と、思っていたがそうでもない。"KH Coder"なんて、自動インストールで必要な関連ソフトと環境設定が済んでしまう(!)。かつては、環境設定などがちょっとややこしく、これが初心者の挫折の原因にもなったぐらいなのだが・・・。
オープンソースやフリーウエアはもはや安かろう悪かろうではなくなりつつある。入門から上級まで高度な分析をフリーな環境で実行することができる。そうすると、後はデータと発想だけ。魅力的な素材と何を見つけ出したいのか?という問いに対する仮説が出来ているなら、テキストマイニングの半分は成功したと言えるだろう。
■語注
【テキストマイニング】
定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。
■参考資料
【KH coder】
http://khc.sourceforge.net/
【RMeCab】
http://rmecab.jp/wiki/index.php?RMeCab
■関連書籍
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川 哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11
- メディア: 単行本
・IBMの人が書いているだけあって具体的なビジネスケースが盛り込まれている良書です。ストーリー仕立てで非常に分かりやすいのでお勧めの一冊です。テキストマイニングをどのように自分のビジネスに活用するかといったことを、この本を切っ掛けに考え始めることができるでしょう。
・テキストマイニング界隈では著名な石田先生と金先生の共著本です。巻末の付録に上記でも紹介したKH coderなどのフリーツールについて詳しく紹介されています。SPSSなどの商用ツールを購入する前にフリーでいろいろやってみたいという方におすすめの一冊です。
・論文集の形式で様々なテーマのテキストマニングの分析事例を読むことができ参考になります。ややアカデミック色が強いですが、テキストマイニングによる株価予測など最新のテーマもあり興味深く読めました。他にもアンケートの自由回答欄の分析など実務にも応用できそうなテーマもあります。
・R+RMeCabでテキストマイニングの基本が学べます。フリー環境下でテキストマイニングをちゃんとやろうとするとRなどの専門的な分析ツールを自在に操れるようになる必要があります。この本はそのための入り口として最適です
・本格的にテキストマイニングをやろうという気になったらこの本を手元に置いておくといいです。様々な手法の理論的背景を知るための辞書として活用できるでしょう。ただし、数式が多数登場するので中級から上級者向きとなります。
2010-01-23 11:38
nice!(2)
コメント(3)
トラックバック(0)
おひさしぶりですっ
このネットワーク図は、KH coderというソフトを使ってるんですか?
mixiとかにも足跡の件数とか使って、こういう感じの、自分を中心とした共起ネットワーク図が見られるサービスがあると面白いですよね。
by たかとら (2010-01-23 13:57)
たかとらさん
お久しぶりです!このブログで2回目の貴重なコメントありがとうございます(笑)。
ネットワーク図はKH Coderというものです。KH CoderはRを使っているので実質的にはRです。Rの関数でわりと容易にできちゃいます。お試しください!
by パトリック・シルベストル (2010-01-24 16:17)
<a href="https://www.skorium.com /">카지노사이트</a>
<a href="https://thedropshippingnomad.com /">카지노사이트</a>
<a href="https://www.legumassociates.com /">카지노사이트</a>
by 카지노사이트 (2020-10-31 11:29)