新聞記事や日記、本の内容など一般的な文章から「単語」を抜き出す方法の定石というのはあるのでしょうか?
例えば上の質問文から「PHP」「テキスト」「質問」「新聞記事」「日記」...というような単語を抜き出したいと考えています。
例えば「です」「ます」「だから」などを全て削除してどうのこうの...などという具体的な方法や掲載されているURLを教えてください。
よろしくお願いします。
形態素解析によって抽出するのが一般的です。
kakasi
Chasen
http://chasen.aist-nara.ac.jp/hiki/ChaSen/
MeCab
PHPでChasenを使用する方法
http://aineko.com/php/program/chasen.php
人工無能を作ろう~形態素解析(php)
本格的にやろうとすると大規模になってしまうとは思いますが…。
今回のお探しの手法は形態素解析と呼ばれるも分野に該当するものと思います。
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A...
フリーウェアとして有名なものとして、kakasi/namazuがありますので、
見てみてはどうでしょうか。
ありがとうございます。
「形態素解析」と言うのですね。
先日質問した別の質問の回答にも同じサイトが紹介されていました。
ありがとうございました。
形態素解析によって抽出するのが一般的です。
kakasi
Chasen
http://chasen.aist-nara.ac.jp/hiki/ChaSen/
MeCab
PHPでChasenを使用する方法
http://aineko.com/php/program/chasen.php
人工無能を作ろう~形態素解析(php)
本格的にやろうとすると大規模になってしまうとは思いますが…。
ありがとうございます。
> 本格的にやろうとすると大規模になってしまうとは思いますが…。
確かにちょっとしたサイトに使うのは難しそうですね。
一応一通り拝見して見ます。
ありがとうございました。
ありがとうございます。
> 本格的にやろうとすると大規模になってしまうとは思いますが…。
確かにちょっとしたサイトに使うのは難しそうですね。
一応一通り拝見して見ます。
ありがとうございました。