注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
先日のメンテナンスで、月燈火の文書要約エンジンを新しくしました。アルゴリズムは前と同じTF-IDFで変... 先日のメンテナンスで、月燈火の文書要約エンジンを新しくしました。アルゴリズムは前と同じTF-IDFで変わってないけど文の分割部とか細かな改良を入れてます。併せて単語出現頻度表も新しい物に入れ替えてます。元になるコーパスの文書数は10万を越えました。 ただ、エンジンのアルゴリズムは変化がなくコーパスの増分も2割程度なので、これだけでは劇的な精度向上はしません。月燈火の文書要約には実際の要約処理の前に取得したHTML文書から本文を抽出する処理があり、この部分にも大幅な変更を加えました。 今回の更新でこの機能をサイボウズラボのPathtraqで使われているExtractContent.rbというライブラリに交換しました。これ、かなり精度の高い本文抽出機能を提供してくれる。現在使用している要約エンジンは特徴語を元に要約文を生成する構造上、ノイズ要因*1に弱いのですが、このおかげでソースからのノイズ
2007/11/25 リンク