|
カテゴリ:Python
ppkfなんてのを作ってみました を見つける。Pure Python で書かれた日本語の文字コード判別か。Python の一つあれなのは標準でそういうものがないところなのだな。手はいろいろあるけれど。
51万語 / 71秒 = 7183語か。ppkf対python_nkfガチンコ対決 を見ると、
ということで、遅いことは遅いが、POST された文字列のコードをチェックして程度なら、それほど問題にならない速度かな。
これがうまく動いているようなら使ってみる価値はありそう。Universal Encoding Detector は、文字コード判定ライブラリ Universal Encoding Detector の投稿にあるようにファイル単位とか長めの文字列で判定するにはよいけど、短い文字列の判定は苦手っぽい。 ppkf の方はコメントを見たら
なようだ。 これを読んで、思いつく。ちょっと意地悪してみる。
中途半端にぶった切られた文字列が渡されたときにはエラーになるかもしれないので、それなりの対処が必要ね。 標準的な日本語の判別モジュールがないところが Python のあれなところ。いろいろ選択肢があるのはよいのだけど。 お気に入りの記事を「いいね!」で応援しよう
[Python] カテゴリの最新記事
|