注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
いまPla*1 その3です。 その1では「Filter::EntryFullText」について、その2では「CustomFeed::Config」... いまPla*1 その3です。 その1では「Filter::EntryFullText」について、その2では「CustomFeed::Config」について扱ってきました。今回はCustomFeed::Configで抽出したいサイトが複雑な場合にどうやって対応するかということに焦点を当てていきます。 その2ではサンプルとしてまなめはうすさんからニュースのタイトル、コメント、リンクを抽出するyamlファイルを作成しましたが、紹介したファイルでは日付が変わる部分での取得がうまくいかない、またニュースしか取得できないため雑記を読むことができないという欠点がありました。1つめに関しては正規表現を工夫すればなんとでもなりますが、2つめに関してはニュース部と日記部分でパターンそのものが違うので取得することが難しそうです。特に2つめの問題を解消する方法に関して取り扱います。 その2で作ったCustomFe
2008/07/13 リンク