2006-09-21
_ 窓の杜 - 今日のお気に入りのEFT
「窓の杜 - 今日のお気に入り」のEFTを書いてみた.
author: smallstyle custom_feed_handle: http://www.forest.impress.co.jp/article custom_feed_follow_link: /\d+/\d+/\d+/.*?.html$ handle: http://www.forest.impress.co.jp/article/\d+/\d+/\d+/.*?.html$ extract: <H1>(.*?)</H1>.*?<H3>(.*?)</H3>.*?<!-- 本文開始 -->(.*?)<!--■■■■記事執筆者署名■■■■-->.*?((.*?)).*?<!-- 本文終了 --> extract_capture: title_1 title_2 body author extract_after_hook: | $data->{title} = $data->{title_1}; $data->{body} = "<p>".$data->{title_2}."</p>".$data->{body};
サイドバーにある「最新のNEWS記事」まで拾うのは意図した仕様なのかどうかが不明でしたが、こんな感じに修正してみました。(spamフィルター回避のためにttpに直しているのでそこは読み直してください)
author: smallstyle
custom_feed_handle: ttp://www\.forest\.impress\.co\.jp/article/okiniiri\.html
custom_feed_follow_link: /\d+/\d+/\d+/okiniiri\.html$
handle: ttp://www\.forest\.impress\.co\.jp/article/\d+/\d+/\d+/.*?\.html$
extract: <H1>(.*?)</H1>.*?<H3>(.*?)</H3>.*?<!-- 本文開始 -->(.*?)<!--■■■■記事筆者署名■■■■-->.*?((.*?)).*?<!-- 本文終了
extract_capture: title title2 body author
extract_after_hook: |
$data->{body} = "<p>".$data->{title2}."</p>".$data->{body};
spam 扱いで非表示なっていたので表示させました.
サイドバーの部分は意図的に含めたものです…ということは,修正前のが窓の杜「最新記事」のEFTで,修正後が本当の「今日のお気に入り」のEFTにといったところなりますね.
サイドバーを含めると1年分全部を見に行くのでどうかなぁとは思っていました.