注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
背景 ウェブやメールのような大量の生テキストが与えられたとき、 分類 を行ってデータの見通しをよくし... 背景 ウェブやメールのような大量の生テキストが与えられたとき、 分類 を行ってデータの見通しをよくしたい、ということはよくあります。 自動的な文書の分類を行う際、とりえる手段は教師あり学習と教師なし学習に分かれます。 教師なし学習を用いる利点は、人的なコストをあまりかけずに良い分類器を作れる可能性があることです。 教師あり学習では、比較的少ない数(たとえば数百)の文書に対して事前に分類ラベルを振っておき、それに対して機械学習の手法を適用し、 その学習結果を使ってそれ以外の大量(たとえば数万、数百万)の文書を分類しようとします。教師あり学習は多くの言語処理タスクで成功していますが、事前にラベルを振るために必要な人的コストが大きいという問題があります。 一方、教師なし学習では、事前に分類ラベルを振ったデータセットを作ることはしません。 教師なし学習の一種である文書クラスタリングの場合は、データ
2010/02/07 リンク