共有
  • 記事へのコメント22

    • 注目コメント
    • 新着コメント
    その他
    halohalolin
    HTMLページ解析スクリプト。「tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。」

    その他
    webmarksjp
    crawler

    その他
    srv250s
    PHPによるスクレイピング。

    その他
    nilab
    zuzara.com ブログの記事本文を抽出するスクリプトをつくってみた:gooではRSSのdescriptionの内容がブログのHTMLのどこに入ってるかを探してるだけらしい

    その他
    mattarin
    使ってみた

    その他
    netfan
    スクレイピング

    その他
    rytich
    タグが少なく文章が長いもの狙いアルゴリズム

    その他
    katotaku
    本文抽出

    その他
    kkobayashi
    面白い試み。ブログサービスごとにテンプレート作るか、もう少しまじめに解析エンジンを考えるかだと思うけど。成功率8割では、ちょっと実用ではないよね。

    その他
    wacky
    ブログ記事の本文を抽出する方法。どこを本文と見なすかアルゴリズムが興味深い。

    その他
    nirvash
    それPla(ry ネタ。

    その他
    koyhoge
    むずかしいよね。こういう用途にこそmicroformatsが普及してほしい

    その他
    usj12262
    こういう自動化ができることを具体的なメリットとしてアピールすれば、W3Cを疎ましく思う人も耳を貸すかもしれない

    その他
    SriVidyut
    crawler

    その他
    kno
    「tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。」たしかにはてダの切り取りは悩ましい…

    その他
    rhosoi
    「tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だã

    その他
    denken
    HTMLがちゃんと文章の論理構造をマークアップしていればこんな苦労をせずにすむんだけどね……

    その他
    takado
    それPlaggerで(略

    その他
    lesamoureuses
    長い文を本文と見なして抜き出す。精度はまだ改善必要らしいけどこういうの好き

    その他
    Aoba
    テキスト処理

    その他
    se-mi
    RSSから本文を取得する手法

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし...

    ブックマークしたユーザー

    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - 暮らし

    いま人気の記事 - 暮らしをもっと読む

    新着記事 - 暮らし

    新着記事 - 暮らしをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む