注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
昨日(記事を)書いた N-gram かな漢字(&漢字かな)変換について。 プログラムを書いたのはこの一週間... 昨日(記事を)書いた N-gram かな漢字(&漢字かな)変換について。 プログラムを書いたのはこの一週間ぐらい。 先週は仕事が終わってからマクドナルドで書いて、連休中は家でも書いていた。 N-gram の N は、最初は 3 で十分かと思って、それで試した。 "Trigram に勝つのは難しい" (by Manning 先生 - id:nokuno さんのツイートより)という言葉もあるので。 モデルを作って辞書を構築、変換を動かしてみた。 > ほんをかいたい 本を書いたいなんだか残念な変換結果が。 どうしてこうなった? 原因は、元コーパスの区切りの細かさ。 「書いた」というのは、"書/か い/い た/た" というように分割されている。 このコーパスを元にして作った trigram によって "ほんをかいたい" を変換する時、次のようなことが起こる。 まず、"本/ほん を/を 書/か" の
2011/08/07 リンク