古い記事
ランダムジャンプ
新しい記事
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php

サイボウズラボの奥一穂さんによるキーワード抽出を行うPerlモジュール。
形態素辞書にある単語コスト(解析に使用するやつ)を TF-IDF っぽく使っ
てキーワード抽出する手法。手軽にさくっと使えて非常に良い感じです!
これを使っていろいろアサマシいことなどもやってみようかと思います!

以下、コピペしたら動くサンプルです。threshold がデフォルトのまま
の値だとキーワードが抽出されないことがあるので、1 にしています。
#!/usr/bin/perl
use strict;
use warnings;
use Lingua::JA::Summarize;

my $s = Lingua::JA::Summarize->new;
$s->analyze("この文章を解析します。");
my @keywords = $s->keywords({threshold => 1});

print join(" ", @keywords),"\n";

文区切りのところでバグ発見。
「点検ABC」などを含む文字列を渡すと文字化けします。
オールド世界の問題なのですが、以下で詳しく解説しています:
- 簡単な日本語文区切りプログラムの雛型
  http://ta2o.net/tools/jbuncut/

あと、MeCabモジュールを使うと良いんじゃないかな、と。
- [を] MeCabをPerlから使う[2006-02-25-4]


関連リンク:

- 開発メモ(Hyper Estraier の mikio 氏によるメモ)
  http://qdbm.sourceforge.net/mikio/rbbs.cgi?
  id=RA11367412312481111540&focus=1

  (via http://b.hatena.ne.jp/ceekz/)

- [を] 形態素解析と検索APIとTF-IDFでキーワード抽出[2005-10-12-1]


追記060427: 一日もたたないうちに Version 0.02 が出ましたね。
簡易版日本語キーワード抽出ライブラリのスタンダートとなるべく、
応援していきます!
- Kazuho@Cybozu Labs: Lingua::JA::Summarize 0.02
  http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/
    summarize-0_02.php