DOM Based Content Extraction via Text Densityのbindingを書いたよ

SIGIR 2011のDOM Based Content Extraction via Text Densityが、シンプルなアルゴリズムながら良さそうな結果を示していたので、著者のコードを改変してSWIGでPerlとPythonのbindingを作った。
下手な英文メールにも関わらず、コードの利用を快く認めて下さったFei Sunさん、ありがとうございます!

cpp-ContentExtractionViaTextDensity - GitHub

これは何をするものかというと、タイトルどおり、DOMツリー上でText Densityという指標を用いてウェブページの本文抽出を行うもの。機械学習とかではなく、単純に決められた方法で計算されたText Densityを用いるだけのシンプルなアルゴリズムである。

Text DensityはDOMノードごとに計算され、シンプルにテキストの文字数をタグの数で割ったものである。またComposite Text Densityはアンカータグの数やアンカーテキストの文字数を用いて計算される値も提案されている。著者の書いたコードを見ると、このComposite Text Densityの計算方法はいろいろ試した中からいい結果を選んだようだ。

機械学習を用いた本文抽出の手法としては、「WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - Mi manca qualche giovedi`?」などが最近では話題に上がったのかなと思う。良さそうな素性を考え、データを用意して機械学習すればいいのだが、対象が多岐に渡る場合は学習データを用意するのが面倒なので、この手法やExtractContentのように、学習データが不要でそこそこの結果が得られる手法もそれなりに需要はあるのではないだろうか。逆に言えば、高い精度が必要ならば、対象をある程度制限するか、学習データを何らかの方法で大量に作成する(クラウドソーシングとかユーザのフィードバックとか?)必要があるのかもしれない。

プログラムのビルドや実行にはHTML Tidyやそのbindingが必要。 使い方は、適当にコードやMakefileを見てもらえば何となく分かっていただけると思う。
以下、fetch_and_extract.plを使って得られた、ニュースページで本文抽出の結果のテキスト(抽出結果のDOMに含まれるテキストを単純に連結したもの)。ニュースページは比較的うまく抽出できるが、それでもやはりゴミが混じってしまっている。

NEC、標的型攻撃を受けているか調べるサービスを開始 - ニュース:ITpro
//ニュースNEC、標的型攻撃を受けているか調べるサービスを開始2012/01/16
日川 佳三=ITpro NECは2012年1月16日、企業が標的型攻撃の被害を受けているかどうかを診断するサービス「標的型攻撃検査サービス」を開始した。ツールを用いてマルウエアの存在を調査し、対処方法などをレポートする。価格は、検査するPCやサーバーが100台(マルウエア検体判定30ファイル分を含む) の場合で330万円(税別)を予定する。 標的型攻撃検査サービスは、業務担当者のクライアントPCやサーバー機など、情報漏えいリスクが高い重要なWindowsコンピュータを対象に、マルウエアに感染していないかどうかを調査するサービスである。特定の企業をピンポイントで狙い撃つ攻撃で、パターンマッチングでは検出できない新規のマルウエアをメールなどで送り込む“標的型攻撃”の痕跡を調べられる。 サービスの具体的な利用方法は、以下の通り。サービスを利用するユーザー企業は、NECが提供するデータ収集サーバーソフトを、企業内の1台のPCに導入する。ここから、調査対象となるPCに、マルウエア検知プログラムを送り込む。マルウエアを含むファイルが存在するかどうかをスキャンし、収集したスキャン結果を、NECに提出する。NECは、3?4日でスキャン結果を分析し、疑わしいファイル(検体)の提出/分析などの工程を経て、最終的に報告書を作成してレポートする。 なお、調査対象PC上にマルウエアを 含むファイルが存在するかどうかを調べる仕組みとして、NECが2010年6月に提供を開始したサービス「インシデント可視化ソリューション」の技術を採用している。特徴は、パターンマッチングでは検出できない、標的型攻撃で用いられる新規のマルウエアを、ヒューリスティック(振る舞い検知)に検出する点である。ベースとなる技術として、フォティーンフォティ技術研究所が開発した標的型攻撃検知ソフト「Yarai」を利用する。記事に対するコメントの読み 書きとITproブックマークの機能は、1月下旬をもって終了させていただくことになりました。長らくご利用いただき、誠にありがとうございました。これらの機能は改めて別のサービスとしてご提供する予定です。最新ニュース記事一覧へ >>「3M戦略はゲームチェンジャー、単なるセット割ではない」とKDDIが 主張する理由 (20:10)この記事に対する読者コメントコメントに関する諸注意投稿一覧 Copyright (C) 1995-2012 Nikkei Business Publications, Inc. All rights reserved.
このページに掲載されている記事・写真・図表などの無断転載を禁じます。著作権は日経BP社、またはその情報提供者に帰属します。
掲載している情報は、記事執筆時点のものです。

http://itpro.nikkeibp.co.jp/article/NEWS/20120116/378602/

“Twitter打刻”が可能な勤怠管理システム「ICタイムリコーダー」新版 - クラウド Watch“Twitter打刻”が可能な勤怠管理システム「ICタイムリコーダー」 新版 株式会社オープントーンは16日、クラウド型勤怠管理システムの新版「ICタイムリコーダー Ver5.0」を発表した。 ICタイムリコーダーは、Webブラウザ・モバイル・IC打刻に対応する勤怠管理システム。入力された勤怠情報はデータセンターで集約管理され、集計・CSV出力などの管理をWebブラウザから一括して行える。 新版では、勤怠管理の基本機能を強化したほか、Twitterの位置情報を利用した打刻機能、簡単有休管理機能、安否確認機能などを追加 した。 Twitter打刻では、モバイルデバイスからのツイート時に付与されるGPS情報を利用。登録された緯度・経度より約50m以内で投稿されたツイートが 出退勤の打刻として登録される。 有給休暇管理機能では、入社年月日基準・年度基準を問わず現在の有給休暇の残日数を登録するだけで簡単に有休管理を実現する。安否確認機能では、有事の際の従業員への一斉メール作成支援機能や状況確認機能が利用可能。社員へのアンケート調査などにも利用できるという。 そのほか、Windows 7 64ビット版に対応した。 価格は月額150円(税別)/人。1カ月間無料のトライアル版も提供する。関連情報■ URLICタイム リコーダー Ver5.0http://www.ic-tr.jp/web/株式会社オープントーンhttp://www.opentone.co.jp/(川島 弘之)2012/1/16 16:04クラウド Watch ホームページCopyright (c) 2012 Impress Watch Corporation, an Impress Group company. All rights reserved.

http://cloud.watch.impress.co.jp/docs/news/20120116_504964.html

KDDI が NFC サービスを今春開始、GALAXY SII WiMAX から -- Engadget Japanese
//
/**/

/**/

/**/

/**/
KDDI が NFC サービスを今春開始、GALAXY SII WiMAX からBy Haruka Ueda posted 12 hours agoau の新モデル GALAXY SII WiMAX ISW11SC が NFC(TypeA/B)に対応することにあわせ、KDDI は携帯キャリアとして国内で初めて、モバイル NFC サービスを開始します。対応予定・検討中のサービスと して挙げられているのは:JAL / ANA:搭乗手続き不要で飛行機に乗れるサービス(今夏)。セブン ・カードサービス:電子マネー決済(つまり nanaco)。ビックカメラ:ポイントサービス。オリエ ント:クレジットカード決済を検討中。クレディセゾン:決済ソリューションを開始予定。大日本印刷:モバイルギフトカードやクーポンサービス、スマートポスターによる情報配信サービス。
など。
Suica、Edyといった大御所が今のところ見当たらないこともあって、高度に進化した日本のおサイフケータイ事情から比較すると NFC のなにが新しいのかという声もあるとは思います。しかし Android Beam のような NFC ならではの機能が搭乗し、FeliCa との両対応チップも実現するなか、NFC サ ービスの浸透はゆるやかながら確実に進んでいきそうな気配です。 Add your commentsFirst time? A confirmation email will be sent to you after submitting.Name:E-mail:Members enter your username and password.E-mail:Password:Enter your AOL or AIM screenname and password.Your comments:Remember meE-Mail me when someone replies to this commentPlease keep your comments relevant to this blog entry. Email addresses are never displayed, but they are required to confirm your comments.When you enter your name and email address, you'll be sent a link to confirm your comment, and a password. To leave another comment, just use that password.To create a live link, simply type the URL (including http://) or email address and we will make it a live link for you. You can put up to 3 URLs in your comments. Line breaks and paragraphs are automatically converted ? no need to use

or
tags.Engadget への情 報提供はこちらのフォームに記入してください。よろしくお願いします。お名前 (必須)メールアドレス (必須)あなたのウェブサイトのURL (あると助かります)件名 関連URL (ソースURLがある場合はここにお願いします)内容 (できるだけ詳しく)SubmitCancel

http://japanese.engadget.com/2012/01/15/kddi-nfc-galaxy-sii-wimax/

ちなみに。JavaScrpitでChrome Extentionもつくろうとしたのだが、知識が足りずに頓挫してしまった。DOM操作でできると思うので誰かお願いします。