自然言語処理の基本的な入力データは単語です。英語は単語境界がスペースなので処理が簡単です。しかし日本語や中国語などの言語は単語境界が曖昧ですので、まずはテキストを分割するステップが重要になります。日本語の場合は幸いにも優れた辞書が多数ありますが、中国語の場合はそうでもないようです。 ここでは、オープンソースの中国語辞書(CC-CEDICT)をベースに中国語向けMeCab辞書を作りました。ただしこの辞書は文法的知識に基づかない、コストを機械学習(CRF)で学習していない辞書になります。 辞書の変換まずはCEDICTをスクリプトでCSVファイルに変換します。例えば次のようなスクリプトを書きます。 import re pattern = re.compile(r"^(.*?) (.*?) \[(.*?)\] /(.*?)$") # surface -> csv (surface, left id

{{#tags}}- {{label}}
{{/tags}}