2012-04-01から1ヶ月間の記事一覧

Mechanizeでエンコーディングの推測に失敗するとき

Shift-JISのページをMechanizeでスクレイピングしようとしたら、日本語が上手く扱えてなくてちょっとはまった。 文字列の中身としてはShift-JISのバイト列っぽいのだけど、エンコーディングはUTF-8なものが取れてきてしまう。 HTMLのmetaタグでcharsetが指定…