自然言語処理勉強会@東京 第1回 の資料

本日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。
以前、Ruby で作った本文抽出モジュール を機械学習の技術を使って作り直してみたら、というお話。
CRF は Conditional Random Fields の略。



実装はこのあたり。


【追記】
学習用データの作成方法についてまとめました。

【/追記】