2008/05/08

python + BeautifulSoupでHTML解析を行ってみた。

諸事情により株価について整理されたデータを作ることになったんで、pythonとBeautifulSoupを使ってHTMLスクレイピングを行うことにしました。

最初は「えーpythonってインデントで識別するんでしょー慣れなさそー気持ちわるそー」って思ってたんですが、実際やってみると簡単で数時間後にはきちんと動作するスクリプトが組めたのでびっくり。すいません侮ってました。これは便利!

いやぁーそれにしてもすごいっすよBeautifulSoup。なにしろ名前が綺麗っすよね。混沌としたHTMLのSoupからBeautifulな部分を取り出すぜ!っていう思いが伝わってきて凄くいいです。そしてなによりHTML解析が便利すぎる。他の言語はどーやって行っているのかよく分かりませんが、トップレベルで使いやすいことは確かです。

これがHTMLスクレイピングの主要部分↓

soup = BeautifulSoup(rawdata)      
target = soup("tr",{'bgcolor':'#ffffff'},{'align':'right'})[0]('small')

こんな気持ち悪い文法で動くのはBeautifulSoupだけ!:)

こんな文初めて書きました。いやぁーすごいっす。

0 件のコメント: