注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
以前、BeautifulSoupでのスクレイピングのまとめを書きましたが、ベンチマークを取ってみるとlxmlの方が... 以前、BeautifulSoupでのスクレイピングのまとめを書きましたが、ベンチマークを取ってみるとlxmlの方が圧倒的に速いので、lxmlが使えるならlxmlを使った方が良いです。それで久々にlxmlを使おうとしたら、例によって全く覚えていなくて悲しいのでメモ書きです。 基本的にはXPathを使いまくるだけです。BeautifulSoupとかに比べると、正規表現の指定方法が複雑ですね。ハマりポイントは以前も少し書きましたが、positionを指定する際に、//(descendant-or-self)とdescendantは違うという事です。直感的ではないのですぐ忘れてしまいます。注意しましょう。 #!/usr/bin/env python # -*- coding: utf-8 -*- import lxml.html html = ''' <html> <body> <div id="
2013/10/21 リンク