注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 以前、UNIXに標準搭載されているライブラリを使って日英の言語判定をしたくなったので、gzipを... はじめに 以前、UNIXに標準搭載されているライブラリを使って日英の言語判定をしたくなったので、gzipを使った言語判定の実験をしました。 言語判定とは 文が与えられたときにそれがどの言語で書かれているのか判定するタスクです。 他の自然言語処理タスクで使われるコーパスのクリーニングをしたり、言語によって処理を変えたりするのに有用な技術です。 gzip を使った言語判定の仕組み gzip はファイル圧縮に使われるライブラリです。そのため、言語判定タスクに使うと聞いてもピンとこないかもしれません。 gzip はファイルの圧縮に LZ法という手法を用いています。 これは辞書を用いた圧縮法で、ある文字列が繰り返し出現したとき、その文字列の代わりに辞書中の番号を出力することで元の文を短い長さで表すという仕組みです。 その仕組み上、今まで入力された文字列にないようなフレーズを多く含む文に対しては圧縮の
2023/07/16 リンク