注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
ブログ記事を収集する必要が生じてクローラ書いた. 最初は wget -a ./wget.log -w 30 -r -np -m -k -er... ブログ記事を収集する必要が生じてクローラ書いた. 最初は wget -a ./wget.log -w 30 -r -np -m -k -erobots=off -np blog_url とかやってたけど月別一覧やカテゴリ一覧,モバイル版URLを開こうとしてかなり重複してしまい一向に終わらないので,主要なブログサービスに合わせて書いた. どこから辿るのが記事を網羅できるか考えたところ Livedoor: base_url/archives/year-month.html?p=pos 続きがあるかどうかの判定,ブログによってまちまちなのでキーワードマッチにした Ameblo: base_url/archive#{pos}-#{year}#{month}.html excite: base_url/page/#{pos} yaplog: base_url/#{pos} base_url/mont
2013/07/10 リンク