注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Webページからちょっとデータ抜き出したいときありますよね。 1回だけしか行わず、わざわざプログラム組... Webページからちょっとデータ抜き出したいときありますよね。 1回だけしか行わず、わざわざプログラム組むほどでもないならVimでやるのがおすすめです。 例:はてぶのページからリンクを取得する vimを開いて4コマンドでリンクを抜き出します。 しかもエディタ上なのでその後の加工や連続スクレイピングなどもスムーズに行えます。 # 最初の行以外はどのサイトでも共通的に使えるはず :e http://b.hatena.ne.jp/ctop/it :%s/></>\r</g | filetype indent on | setf xml | normal gg=G :%v/<a/d :%s/^.*href="\([^"]*\)"[^>]*.*$/\1/ # 完全URLにしたいなら :%s/^\//http:\/\/b.hatena.ne.jp\//
2016/01/10 リンク