Pythonでデータ解析[Pandas] -その1- [データマイニング]
PythonでRみたいにデータ解析を行える「Pandas」というパッケージがある。
RでできることをなぜPythonでやらないといけないのかと疑問に思っていたけれど、参考文献①(後述)を読んで少し理解できた。データ分析とモデル実装を同じ言語で実現したいということが大きな理由らしい。
rpy2というPythonパッケージでRを呼び出すこともできることからRの膨大な資産も使えてしまうのかもしれない。 これは将来有望!と思い早速試してみることにした。
先ずは環境構築から。
■開発環境
・Eclipse + Pydev
■コンソール実行
・選択部分の実行
■参考文献
・参考文献① - Pandasの解説書
・参考文献② - Pythonで機械学習入門
RでできることをなぜPythonでやらないといけないのかと疑問に思っていたけれど、参考文献①(後述)を読んで少し理解できた。データ分析とモデル実装を同じ言語で実現したいということが大きな理由らしい。
rpy2というPythonパッケージでRを呼び出すこともできることからRの膨大な資産も使えてしまうのかもしれない。 これは将来有望!と思い早速試してみることにした。
先ずは環境構築から。
■開発環境
・Eclipse + Pydev
-Eclipseには様々な機能があるので使いやすいであろうと思ったためこれを選択
-Python用のIDEとしてはPyScripter等もあるので好みのものを使うべし
-参考サイト
http://www.brainchild.co.jp/blog/develop/2010/08/python-eclipse1.html
■コンソール実行
・選択部分の実行
-データ分析を行っているとこの機能がポイント
-Rstudioでは「Ctrl + Enter」で選択範囲を実行できるが、Eclipse + Pydevでもこの機能がある
-いろいろ検索してようやく発見!答えは「Ctrl + Alt + Enter」でした!
■参考文献
・参考文献① - Pandasの解説書
・参考文献② - Pythonで機械学習入門
ビッグデータというバズワード [データマイニング]
ビッグデータビジネスの時代 堅実にイノベーションを生み出すポスト・クラウドの戦略
- 作者: 鈴木 良介
- 出版社/メーカー: 翔泳社
- 発売日: 2011/11/09
- メディア: 単行本(ソフトカバー)
ビッグデータという言葉がバズワードになっている。
ITは数年に一度はバブルみたいな現象が見られる。ビッグデータもバブルの一種というのが私の見方だ。HadoopやNettezaなどの基盤の需要が一時は増えるが、データ活用の困難さから少し先にはやや盛り下がるのではないだろうか。
データを本格的に活用可能な状態に仕上げていくには長期的な展望が必要である。Hadoopというのもバズワードになってきている。Hadoopがあれば何でもできるようになるというような印象を受ける。しかし、Hadoopは単なるインフラだ。活用するビジョンがあって初めて有効に機能するのである。
ビジネスビジョンが最も重要である。そのもとに最新技術は再構成され威力を発揮する。技術から発想するのでもよいが、出口はかならずサービス(=人に価値を与えるもの)である。データ資産があるならば次の視点から思考してみて答えをみるけるのがいいのではないだろうか。
①今できることは何か?
現状のデータ資産で何ができるか?
②今やるべきことは何か?
外部環境を考えると今の使命は何だろうか?
③将来実現したいことは何か?
将来やりたいビジネスを実行するにはどんなデータが(又は処理が)必要か?
いきなりビッグデータでは敷居が高い。今あるデータ資産を最大限活用することから始めるべきだろう。そのような活動から中長期なビジョンを生み出されるのではないだろうか。ベンダーの軽い口車には乗って安易にHadoopを入れるというのでは足元をすくわれる。スモールデータの活用という足場を固めた上で、ビッグデータ技術が必要ならば戦略的に準備を進めることが重要だ。
経営戦略の三位一体を実現するための特許情報分析とパテントマップ作成入門 [知財]
経営戦略の三位一体を実現するための特許情報分析とパテントマップ作成入門
- 作者: 野崎篤志
- 出版社/メーカー: 発明協会
- 発売日: 2011/12/09
- メディア: 単行本
パテントマップの本が出版された。著者は日本技術貿易(NGB)の野崎さんである。野崎さんとは数年前にパテントマップのセミナーで知り合って以来、twitterやfacebook等で情報交換をさせて頂いている。本書の製作過程で何度か感想・コメントを送らせていただいたところ、野崎さんよりご献本頂いた。ありがたいがぎりである。
野崎さんと私は共通点が多い。特許調査・分析をキャリアのスタートにしていたり社会人大学院に通って自己研鑽に励んでいたり、データ分析に高いプライオリティーを感じていたり、おまけに年も近いといったところである。私は特許業界の外に出たが、大量のデータ分析を企業経営に活かしたいという点では同じ志を持っていると言っていいだろう。
さて、本書をざっとレビューしたいと思う。この本の最大の特徴は「企業経営」という視点から特許情報分析(パテントマップ)を捉えているという点につきる。特許情報は多面性を備えている。技術情報だったり法的情報だったりする。しかし、今までは経営情報としての特許情報に光を当てた書籍は少なかったのではないかと思われる(少なくとも日本では)。単なるパテントマップの作成法に留まらずそこから経営的な意思決定に有効なインテリジェンスを抽出することが分析の要だ。そういった観点からのアプローチを試みている本書の態度は実に正しいと思っている。
一方で、「パテントマップ作成入門」の「作成入門」という言葉にあるように、前提となる知識なしでExcelさえあればパテントマップを作成できるようにビジュアルをふんだんに取り入れた記述も評価したい。バブルチャートなど有効なパテントマップの作り方が非常に分かりやすい。初心者はこれ一冊あれば一通りのパテントマップの作成法と解釈のコツがつかめるのではないだろうか。
このようにバランスのよい本書であるが、「入門」ということなのでこれを基礎としてより高度な分析に旅立つべく、ここでは次の3つの方向性を提案したい。
①経営学を身に着ける
「経営」的な側面に興味が湧いたならば「特許」という枠を超えて、本格的な「経営学」の本を読みこなし、又はMBAに入学するなどして論理武装するという方向性がある。数年前から日本でもビジネススクールが乱立しており、敷居の高い海外に行かなくても先端の経営学が学べる環境が整いつつあるのでやる気次第で国内にいても相当の事を身に着けることができる。
②データ分析を深める
「データ分析」を深めたいならば、「パテントマップ」という枠を超えて、Rを使った数理モデリングやデータビジュアライゼーションを学ぶという方向性があり得る。多変量解析や機械学習の知識の習得が分析をさらに深いものにする。専門書には高度な数式が出てくるが、工学部1年生までの線形代数・微分積分・確率統計の知識があれば読みこなせる本が多い。なので、高校数学をざっと復習して+αの数学知識を勉強すれば読みこなせてしまうので臆する必要はない。
③処理を効率化する
パテントマップ作成を効率化したいならば、Excel VBAやその他のプログラミング言語でパテントマップ作成を自動化してしまうという方向性がある。パテントマップの本質は「作ること」ではなく、「結果を解釈して考察」することにある。作る時間が減れば考える時間が増える。パテントマップを作るには、煩雑で地道なデータハンドリングに多くの時間を割かなければならない。なので、単純作業の部分はプログラムを書いてクリック一発で出来るようにしてしまうと、大幅に作業が効率化するだろう。初心者がプログラミングを習得しようとすると最初は時間がかかるが、後になれば大きく作業工程を短縮することができる。巷のパテントマップソフトで代用する方法もあるが、このようなソフトはかゆいところに手が届かない場合が多い。かゆいところをかきむしるには自分でプログラミングするのが近道なのである。涙と血を流しつつプログラミングを習得するとがらりと世界が変わる。
「経営戦略の三位一体を実現するための特許情報分析とパテントマップ作成入門」はこのように多様な展開へと繋がる導入となる。是非とも手元に置いておきたい一冊である。
ソーシャルマイニング [データマイニング]
入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック
- 作者: Matthew A. Russell
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/11/26
- メディア: 大型本
オライリーからソーシャルデータのマイニングに関する本が出た。「集合知プログラミング」の後継という位置づけである。本書は既に英語版が1年前に出版されていた。やっぱり日本語になるのを待つと先端からだいぶ遅れてしまうのだと思う。
「集合知プログラミング」が機械学習や最適化理論の入門書だとすれば、こちらはソーシャル"データ"の入門書になる。TwitterやFacebookなどのAPIを活用してソーシャルデータを如何に扱うかが主題である。英語版のタイトルが「Mining the Social Web」だが日本語タイトルの方が的を得ていると思う。
ちなみに言語は「集合知プログラミング」と同様にPythonだ。Pythonの和書は少ないが他の言語をマスターした人なら、Pythonの習得にはそれほど時間はかからない。好みにもよると思うが、一度、使い始めてみるとわりと気に入ってしまった。少なくとも記述が面倒くさいJavaなんかよりもずっといいと思った。こういうとこが分析屋気質なんだろうと思う。
これからのデータマイナーは「ソーシャル」なものの考え方が必須になると思う。人間のコミュニケーションや行動がソーシャルWebによって大きく変化すると予想されるからだ。本書は人間行動の分析ツールの引出しを増やすにはもってこいの本だと思う。
集合知プログラミング [データマイニング]
この本を読み始めた。Pythonと機械学習アルゴリズムの基礎を学ぶのに適している。この本のよいところはアルゴリズムの実装を学べるだけでなく、Facebook APIの使い方なんかも記載されており、具体的にWeb APIの利用法も体得することができることだろうと思う。まさに「集合知」的なパーツに溢れていて興味がつきない。
残念なのは誤記が多いところであるが、これは心配ない。ネット上に誤記の訂正について書かれたサイト(『集合知プログラミング』解体新書 http://sites.google.com/site/prgclctintelligence/)が存在している。いや、エライ人もいるもんだ。こういう人がいるから勉強意欲が続くというものである。
数式があまり登場しないので、数式がないとピンとこない人は以下の本を同時に読むといいだろう。どちらも優れている本ではあるが、日本語で読める「パターン認識と機械学習」の方がとっつきやすいと思う。"The Elements of Statistical Learning"の方は世界の有名どころが書いた本で、先進的な手法についてももれなく記述されている。持っていて損はないであろう。
人間は合理的ではない(書評「意見分析エンジン」) [テキストマイニング]
ようやく仕事が落ち着いたので私的な研究活動を開始した。テキストマイニングの研究室の出身なので次の研究も言語処理が起点になる。私の興味は人間の感情と行動にある。従って、テキスト情報から行動とその動機を分析可能とすることが興味の中心になると考えてこの本を読んだ。
CGM(Consumer Generated Media)とその周辺について自然言語処理の観点のみならず、「社会学」の観点から記述されている本作はとても面白く読めた。1~3章は社会学における意見分析に関する既存研究のサーベイになっており、その文脈の中で自らの研究を位置付けている。4章は自然言語処理分野における意見・評価分析の見通しのよい総説となっており、5章では筆者の一人である大塚裕子氏の博士論文の要約版になっている。すなわち、社会学と自然言語処理の文脈の上に立脚した研究が志されているわけだ。
この研究の意義はこれまで工学の一分野にすぎなかった自然言語処理が社会学の文脈の中に位置づけたことにつきる。意見分析周辺の社会学研究が整理されており小気味いいのである。しかし、一方で5章の実際に展開されている研究の議論は、(筆者も言及しているが)やや尻つぼみになってしまっている。それまでの社会学の議論の多くが無視されており、あまり個性のない実験(SVMなどの分類器を使った意見分類)が展開されている。意欲は評価できるが両分野の融合という観点では大いに課題を残した結末となっているのが残念だ。
このような学際的な研究は今後も大いに展開されるべきと思う。言語処理技術だけでは技術革新に限界があるだろう。言語処理は人間の行動を分析するためのツールにすぎない。分析結果を適切に解釈するためには社会科学の知識が役に立つ。言うは易しだが、文理融合的な研究が今後はますます重要になる。
ファイナンスことはじめ [ファイナンス]
ざっくり分かるファイナンス 経営センスを磨くための財務 (光文社新書)
- 作者: 石野 雄一
- 出版社/メーカー: 光文社
- 発売日: 2007/04/17
- メディア: 新書
あまりに久しぶりの更新である。so-netブログにはアクセス解析機能がついているのだが、どうも最近はテキストマイングがらみのキーワードで飛んでくる方が多いようである。大学院を修了してからとんとテキストマイニングとは疎遠になっているので、なんだか身に妻さえる気持ちになる・・・。テキストマイニングで研究をつづけるつもりなのでがんばらなきゃ。
今日はテキストマイニングの話題ではなくファイナンスについて。ファイナンスも要するに意思決定のための道具にすぎない。道具として使いこなせないならばいくら理論を知っていてもあまり意味はない。ファイナンスの本は数式がいっぱいあって小難しいものが多くて(確率微分方程式!)全く初学者にはどうにもならないわけである。
そこで、この本がいい。この本は「道具としてのファイナンス」の姉妹本であり、かなり乱暴な記述もあるが本当に「ざっくり」とファイナンスの本質を理解できる。道具としてのファイナンスはオプション理論のあたりがわかりずらいので、こちらから初めに読むといいのではないかと思う。会計とファイナンスの関係なんかも極めて分かりやすく述べられている。それからIRRの「限界」について書かれている点も良かった。IRRなんというのも全く万能の指標ではないから注意が必要なのだ。
テキストマイニングのPDCA [テキストマイニング]
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川 哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11
- メディア: 単行本
テキストマイニング関連の提案を考えていて参考文献を探していたところこの本に出会った。
この本はテキストマイニングの技術的な解説はあまり充実していないが、テキストマイニングをビジネスに活かすための方法論が具体的な事例を基に述べられていて非常に役に立つ。導入から効果測定の考え方についても詳細に語られているのでPDCAサイクルが極めてわかりやすい。
テキストマイニングの導入を検討している企業の担当者にとっては必読の書だと思う。2006年の出版であるが古びていない。読んで良かった。
リテール金融マーケティング [マーケティング]
久々に向学心を掻き立てられた。本書の著者は筑波GSSM出身の戸谷圭子さんという方。お目にかかったことはないが小生の先輩だ。さて、本書はとてもGSSM生らしい作品に仕上がっている(いい意味で)。確かなサーベイに立脚したロジックの構築と共分散構造分析。実にソリッドな研究だと思う。
本書の最大の意義はサービスマーケティングの文脈の中に、金融マーケティングを位置づけた上でその特徴を明らかにしたことだろう。サービスマーケティング自体が十分に研究されていない我が国においては二重の意味で学術的価値があると思う。さらに、金融コンサルタントである著者ゆえにできる実務への言及も読みごたえ十分であってアカデミアに閉じていないこともすばらしい。
ただ、本書ではMCIF等のデータベースのみを用いた顧客分析を批判している。「のみ」というところには納得がいくが、データベースを使った分析が役に立たないような印象を受けてしまうところが残念だった。データベースにもよいところはある。本書にあるような地道な調査と共分散構造分析にも利点と「限界」があることには注意が必要である。
イールドカーブことはじめ [ファイナンス]
仕事であるポートフォリオの計量分析をやることになった。去年からの継続プロジェクトである。昨年は転職後初めての職務であったこともあり、全てを理解するには至らなかった。特に金利の期間構造については特許の世界から転身した初心者にとってはやや荷が重いものであった。しかし、今年は責任も重くなり初心者を卒業しなくてはならなくなった。そんな時にこの本「イールドカーブ分析」に出会った。
この本は、イールドカーブのことはじめから中級程度の知識を与えてくれる。高校3年生程度の数学の知識があればある程度は内容を理解し自分のものにすることができるだろう。翻訳本だが日本語に無理がなく読みやすい。もちろん、複雑な「確率過程」については別の本を読み進めなければならないが。金利のモデル化について深い知識を得るには「確率過程」を避けては通れない。そういうわけで、2010年度の後半はイールドカーブと確率過程を頑張って習得することにする。
かなり金融工学よりの仕事であって、マイニングとは遠いわけだが、こういう知識を積み重ねて知財の分析にも生かそうと思っている次第である。