注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
4/12の記事で、仮名漢字変換の「未知語コストが変換精度に及ぼす重大な影響」について書く、と書いたが... 4/12の記事で、仮名漢字変換の「未知語コストが変換精度に及ぼす重大な影響」について書く、と書いたが、その後の続きを書かなかったので、いつか続きを書かなければならないと、気になっていた。なんとか今年のうちに書ける気力が戻ってきたのでさっさと書いてしまおう。 結論はもう既に書いてしまったが、未知語コストは変換精度にそれほど大きな影響を及ぼさなかった。 より正確に書くと、未知語コストが変換精度に重大な影響を及ぼすのは学習データが非常に少ないときで、データがある程度以上増えると、未知語コストは適当にそこそこ大きな値にしておけば、それだけで割と普通に動く。そもそも未知の単語が変換候補として出てくる機会自体が減るので、単語長にポアソン分布を仮定して…みたいな事をやってもあんまり意味がない。もっとすごい頑張ったモデリングをすると、また話は変わってくるのかもしれないし、そこのところには割と興味があるけど
2009/12/20 リンク