注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Twitter 上で、 id:showyou さんがログデータの日中言語判別をしたいという話をしていたので、それにつ... Twitter 上で、 id:showyou さんがログデータの日中言語判別をしたいという話をしていたので、それについて。 まず前提として、文字だけ見ても日本語と簡体字中国語(繁体字はもっと面倒だけど、ここではいったん棚上げ)を 100%判別することはできない。 というのは、簡体字中国語の文章であっても必ずしも簡体字を含むわけではないので。 “真的?”(本当に?) “恭喜恭喜!”(おめでとう!) これらは典型的な例だが、実際はもっと長い簡体字を含まない文章でも実は中国語ということがあり得る。 また、「カナがあれば日本語」という簡単な方法もあるが、全部漢字だから中国語というわけでもない。 「最低!」 「関西電気保安協会」等。 文字ベースで判別できないとなると、精度良く判別するならライブラリを使うのが一番。 Language Detection Library for Javaとか。 ただ、こ
2011/02/02 リンク