テキストマイニング本3冊

最近何冊か出たので科研費で買ってみた。

人文・社会科学のためのテキストマイニング

作者: 松村真宏,三浦麻子
出版社/メーカー: 誠信書房
発売日: 2009/04/24
メディア: 単行本
購入: 6人クリック: 79回
この商品を含むブログ (10件) を見る

Rによるテキストマイニング入門

作者: 石田基広
出版社/メーカー: 森北出版
発売日: 2008/12/16
メディア: 単行本（ソフトカバー）
購入: 18人クリック: 250回
この商品を含むブログ (29件) を見る

テキストデータの統計科学入門

作者: 金明哲
出版社/メーカー: 岩波書店
発売日: 2009/04/28
メディア: 単行本
購入: 2人クリック: 70回
この商品を含むブログ (12件) を見る

以前は、概論的過ぎて使えなかったり、いい加減だったりした本が多かったが、この3冊はいずれも内容もしっかりしており、実践的なのでおすすめ。私がNグラムとかをやり始めた頃に、こういう本があったらもっと楽だったのに (^_^;;

また、この3冊はいずれもRやMeCabなどのフリーソフトウェアを使うことが想定されている。というか、これらのツールの（あるいはハードウェアやOSの）発展と安定が、上の本を生んだとも言えるかもしれない。以前は、入門書なのに高額なソフトが前提だった本もあった。またそもそも数年前は、ギガバイト単位のデータをクラスタ分析ができる環境は結構少なかった。

上の3冊の違いはというと、まず『人文・社会科学のためのテキストマイニング』は共著者である松村真宏氏の開発したTTM: TinyTextMiner（Windows版しかないのは非常に残念）の実例が載っているのが一番の特徴なんだろうが、それに加えて統計的な分析だけでなく、ネット上の会話の流れの分析やネットワーク分析的な事例もあがっていたのが他の2書にはなく、評価したい（2ちゃんねるとかが対象になっているので、事例を拾い読みするだけでもけっこう楽しい）。残念なところは、TTMを除く諸ツールの使い方や各事例の理論的な説明が簡潔すぎると思われるところ（逆に教科書向きかもしれないが）と、Windows & Shift-JISベースなところ。

個人的に一番いいと思ったのが『Rによるテキストマイニング入門』。MeCabをRのライブラリ化したRMeCabというのを使って、Rの中で一通りのことができるようになっているのが好感度高し。ほえー、Nグラム分析もRMeCabでできるんだ。（使用してみないとわからないけど）もうmorogramいらないかもなー (^_^;; あと、Mac OS XだとUTF-8ベースというのも好感度高し。ただ、統計的分析の理論的な解説がほとんどないので、ゼロから勉強したい人はこれ一冊ではダメだろう（ある程度理屈がわかってる人―そういう本を買っちゃってる人―にはこれ一冊で十分だと思う）。あと、本の中身とは関係ないけど、表紙のデザインがちょっとなぁ (^_^;;

金先生の『テキストデータの統計科学入門』は、逆にテキストデータの統計的分析について、様々な分析方法をとりあげ、がっつり理論的な解説をしているので、基礎からちゃんと勉強したい人にはおすすめである。研究史なんかもちょろっとあって（村上征勝先生の本とだぶるが）、これも研究者的には知っておかなければならない情報をしっかりと押さえている印象。反面、上の2冊と違ってマニュアル的な部分は最小限、というか、たぶんこれだけではRとかの初心者には厳しいだろう。

と言うわけで、全体的な印象としては、『人文・社会科学のためのテキストマイニング』が学部生向け教科書（要教員）、『Rによるテキストマイニング入門』はある程度統計の知識がある人向けの自習本（要統計分析の知識）、『テキストデータの統計科学入門』が研究者を目指す人向けの入門書（要Rなどのマニュアル本）、という感じ。もっとも、私の個人的な印象なので、人によって評価は違ってくると思うが。ただ、最初に書いた通り、どれも買って損はないと思う。