注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
マッシュアップで欠かせない技術の一つにスクレイピングが挙げられる。 WebAPIが提供されていないサイト... マッシュアップで欠かせない技術の一つにスクレイピングが挙げられる。 WebAPIが提供されていないサイトに対して、HTMLから直接情報を取り出す技術だ。 これには大きく分けて2つの方法がある。 HTMLをテキストとみなし、正規表現で処理する方法と、 HTMLをXHTMLに変換し、そのDOMに対してXPathで処理する方法だ。 こういう分野に強いのはPHPやPerlなどの軽量スクリプト言語だろう。 しかしC#使いだってスクレイピングやってみたい。 というわけで、 http://d.hatena.ne.jp/todesking/20061027/1161879777を参考にやってみた。 ちなみにここでやってるのは上記2つの方法のうちの後者。 ・・・うまくいかない。 つかTidyマンドクセー! HTMLをXHTMLに変換したいだけなのに、オプションがありすぎて意味不明です。 もっと手軽なコンバー
2008/06/04 リンク