2009/03/20

MeCabを用いてスパムフィルタを作ってみよう


Photo by vsz, night glow

以前このブログでMeCabによる形態素解析を紹介しました。正直その後すっかり取り上げたことを忘れてのほほんと過ごしていたわけです(*1)が、ふとしたことでベイジアンフィルタに関するアルゴリズムの記事を見つけ、日本語でこのような記事があるなんて珍しいなということで、ちょっくら実装してみようと思い立ったわけです。

形態素解析部分はMeCabくんがやってくれるので、こっちがするのは名詞を抜き出してデータベース辞書を作り、Graham方式を用いて実装したくらいです。正直ただ単純に実装しただけなのでそこまで参考にならないと思いますが、一応coderepos上に公開してみます。

svn checkout http://svn.coderepos.org/share/lang/python/spam Somewhere

でチェックアウトしてください。

テストにつきましては正直自分のメールアドレスにスパムが届かなかったので(*2)、『Google ニュース』を使って『政治』分野をスパム、『スポーツ』分野を非スパム文章として40件サンプルを手作業で作り(*3)、2つのセンテンス

大阪府の橋下徹知事が進める、府庁を大阪市の第三セクター「大阪ワールドトレードセンタービルディング」(WTC)に移転する構想について、公明党府議団は19日、「原案には賛成できない」として府議会で審議中の移転関連予算案と条例案に反対する方針を決めた。 公明党は自民党とともに知事与党の立場だが「議会として十分な議論ができていない。あまりに拙速だ」としている。条例案の可決には出席議員の3分の2以上の賛成が必要で、原案通りの可決は極めて厳しい状況となった。橋下知事は同日、高齢の障害者らの医療費自己負担を引き上げる案などを、議会側の求めに応じて修正する意向を議会側に伝達。府庁移転問題の好転を図る狙いがあるとみられるが、先行きは不透明だ。橋下知事は、府議会総務常任委員会であらためて移転への意欲を示し、記者団に「(反対は)公明の政治的決断。自民、民主、諸派に納得していただくよう精いっぱい頑張る。可能性はゼロではない」と述べた。

フィギュアスケートの金妍児(キムヨナ)(韓国)が過去の国際大会の練習中、日本選手に進路を妨害されたなどとする韓国メディアの報道について、日本スケート連盟は19日、韓国スケート連盟に対し、報道内容についての調査を求める要望書を提出した。また、国際スケート連合(ISU)に対しても同日、報道への見解を問う文書を提出した。日本スケート連盟によると、韓国側からの直接の抗議や、ISUからの警告はこれまでないという。同連盟の常山正雄専務理事は「日本選手が意図的に妨害した事実はなく、今回の報道には大変困惑しているし、遺憾」としている。


がきちんと判定されているか確かめました。これらの記事を選んだ深い理由は得にないです。
結果は、

$ python test.py
センテンス1がスパムである確率 : 1.0
センテンス2がスパムである確率 : 6.07068879794e-100
スパム文章のサンプル数 : 20
非スパム文章のサンプル数 : 20
スパム辞書が学習した単語数 : 1040
非スパム辞書が学習した単語数 : 854

大体大丈夫そうです。よかったよかった。

学んだこと

  • ベイズ理論を用いたフィルタリングは結構面倒かと思ってましたが、意外と楽でした。まぁ面倒な部分はMeCabがやってくれたっていうのもあるんでしょうけど。
  • pythonのreduce()はとてもエレガントに扱えて便利。たった一行ですむっていうのは気分いいですね。
  • どうでもいいですけどフレッシュネスバーガーのスパムバーガーはおいしいのでお勧めです。

うーんおいしそう!明日食べに行ってきます。

*1 どれくらい忘れていたかというと、"MeCab python"で検索したら自分の記事がトップに出て、「そんなん書いたっけ?」と驚いたくらい。自分の欠点は熱しやすく冷めやすいところだと思う
*2 出会い系とかに登録していればたくさん来ていたかもしれない
*3 本来は4000件くらい作るらしいんですが、さすがに勘弁してください

追記

Robinson方式も扱えるようにレポジトリを更新しました。Robinson方式は未知の単語が出てきた際に、Graham方式よりも適切に判定が行えるアルゴリズムです。

$ python test.py
=====Graham方式による判定=====
センテンス1がスパムである確率 : 1.0
センテンス2がスパムである確率 : 6.07068879794e-100
=====Robinson方式による判定=====
センテンス1がスパムである確率 : 0.999957539928
センテンス2がスパムである確率 : 0.0234555720353
=====辞書に関する情報=====
スパム文章のサンプル数 : 20
非スパム文章のサンプル数 : 20
スパム辞書が学習した単語数 : 1040
非スパム辞書が学習した単語数 : 854

Robinson方式に対応させるために逆カイ二乗関数が必要になったので、今回はchi2pモジュール(http://garyrob.blogs.com/chi2p.py)を利用することにしました。chi2pモジュールはMIT Licenseの元で配布されています。

2009/03/05

PyBrain - a modular Machine Learning Library for Python


今、python界でPyBrainが熱い!…わけじゃないですけど、個人的にけっこう注目しているライブラリ。機械学習ライブラリにおける、期待の新人が出てきなような気持ちです。

0.PyBrainとは?

PyBrainっていうのはPythonによって動く、モジュール式の機械学習ライブラリです。python界ではいままでにもニューラルネットワークとかSVMなどを扱うライブラリが存在していましたが、PyBrainではそれらをより包括的に扱う、一種の環境としての機械学習ライブラリを目指しているようです。
PyBrainが優れているのはその思想もさることながら、扱っているアルゴリズムの多さにもあります。例えばFeaturesの欄を見てみると、
  • Backprop
  • Rprop
  • Policy Gradients
  • Support Vector Machines
  • Evolution Strategies
  • CMA-ES
  • Competitive Coevolution
  • Natural ES
  • Natural Actor-Critic
  • Reward-weighted regression
  • Evolino
  • Fitness Expectation Maximization
  • SPLA
  • PCA/pPCA
  • LSH for Hamming and Euclidean Spaces
と、比較的新しいアルゴリズムについても対応する予定のよう。(リファレンスをざっと見ると、まだ対応していないアルゴリズムはけっこう多いようです)とりあえずアルゴリズムについて確認したり、テストとして組んでみる分には申し分ない仕様です。

1.ダウンロード〜インストールまで

まず、PyBrainでは以下のツールが必要となるので、足りない場合は適宜apt-getやらeasy_installやらでインストールを行います。
  • g++
  • scipy
  • matplotlib
ちなみにホームページには書かれていませんが、自分はビルドした際にcblasが足りないと怒られてしまったので、ついでにそれもインストールします。
次に、PyBrainのサイトにアクセスして、Stable versionのソースコードを入手。圧縮ファイルを展開します。

~$ cd PyBrain-0.2
~/PyBrain-0.2$ ls
LICENSE arac docs examples pybrain setup.py

setuptoolsの慣例通りにビルド。

~/PyBrain-0.2$ sudo python setup.py build
arac/src/c/layers/common.c: In function ‘void make_layer(Layer*, int, int)’:
arac/src/c/layers/common.c:12: error: ‘malloc’ was not declared in this scope
arac/src/c/layers/common.c: In function ‘Layer* make_layer(int, int)’:
arac/src/c/layers/common.c:40: error: ‘malloc’ was not declared in this scope
Traceback (most recent call last):
File "setup.py", line 87, in <module>
compileArac()
File "setup.py", line 74, in compileArac
extra_postargs=['-O3', '-g0', '-DNDEBUG'])
File "/usr/lib/python2.6/distutils/ccompiler.py", line 697, in compile
self._compile(obj, src, ext, cc_args, extra_postargs, pp_opts)
File "/usr/lib/python2.6/distutils/unixccompiler.py", line 180, in _compile
raise CompileError, msg
distutils.errors.CompileError: command 'g++' failed with exit status 1

怒られてしまいました。どうやらmallocが定義されていないみたいなので、暫定的な処置として"arac/src/c/common.h"に以下の文を付け加えます。

#include <stdlib.h>

再度ビルドを行うと、ビルドがうまくいったみたいです。

~/PyBrain-0.2$ sudo python setup.py install

でインストール。無事インストールが完了しました。
正常に動くかどうか確かめてみます。

~/PyBrain-0.2$ python
Python 2.6.1+ (r261:67515, Feb 24 2009, 20:00:00)
[GCC 4.3.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import pybrain
>>>

何事もなくインポートすることができました。

2.試しに使ってみる〜ニューラルネットワークの構築から学習

Pybrainのチュートリアル通りに、単純なFeed Forward型のニューラルネットワークを組んでみます。Pybrainではレイヤを個別に定義し、それらを繋げてネットワークを構成することもできるみたいですが、もっと簡単にネットワークを構成できるショートカットがあるみたいですので、それを利用します。

from pybrain.tools.shortcuts import buildNetwork
net = buildNetwork(2, 3, 1)


これで2つのインプット、3つの隠れユニット、1つのアウトプットから成るニューラルネットワークが出来上がりました。とても簡単ですね。
入力したインプットからアウトプットを出すには、activate()メソッドを用います。

net.activate([2,1])

buildNetworkの時点で各ニューロンはランダムな数値で初期化されていますので、既にactivate()ができる環境になっています。

ちなみに通常、各ニューロンに用いられる活性化関数はシグモイド関数が用いられますが、違う関数を用いたい場合は適宜指定することができるみたいです。まぁ好みの問題ですね。

from pybrain.structure import SoftmaxLayer
from pybrain.structure import TanhLayer
net = buildNetwork(2, 3, 1, hiddenclass=TanhLayer, outclass=SoftmaxLayer)


次に、教師あり学習を行うためにデータセットを用意しておきます。

from pybrain.datasets import SupervisedDataSet
ds = SupervisedDataSet(2, 1)
ds.addSample((0, 0), (0,))
ds.addSample((0, 1), (1,))
ds.addSample((1, 0), (1,))
ds.addSample((1, 1), (0,))


こんな感じでインプットとアウトプットのサンプルを増やしていきます。
そして、構成されたネットワークに誤差逆伝播法で学習を行わせるため、trainerを作成します。

from pybrain.supervised.trainers import BackpropTrainer
trainer = BackpropTrainer(net, ds)
trainer.train()


train()メソッドは返り値として誤り率を返しますが、もしある一定の割合に収束するまで学習を行わせたい場合、trainUntilConvergence()メソッドが有効です。そのまんまですね。

trainer.trainUntilConvergence(validationProportion=0.25)

だいたいニューラルネットワークの構築方法としてはそんな感じですが、他にもSVMを選択することもできるようです。詳しいことはPyBrainのドキュメントを参照してください。

3.使ってみて

とりあえずざっと使ってみた感想ですが、非常に組みやすく、かゆいところに手が届くような設計がなされているライブラリだと思います。まだバージョンは0.2ですし未完成な感じは否めないですけれど、将来が非常に楽しみなライブラリです。(しかも名前がカッコいい!!)