注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
形態素解析器で分割してからBigQueryに載せればいいでしょって話ではあるのですが、既に載っているデー... 形態素解析器で分割してからBigQueryに載せればいいでしょって話ではあるのですが、既に載っているデータだったり、ログを載せるプロセスに形態素解析を新たに噛ませるのは大変だったりします とりあえず試してみたいだけの時に気軽にやりたいので、BigQuery上で単語分割できないか調べてみました さすがにSQLで単語分割するのは無理ですが、BigQueryではUDF(ユーザー定義関数)が使えるのでJavaScriptのライブラリを使います JavaScriptで単語分割できるライブラリは例えば以下のようなものがありますが、サイズなどの制限の問題でTinySegmenterを使います TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア stop-the-world: ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.
2021/02/05 リンク