注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
任意のWebページの内容を取得するには、現状では文字コードの推定が必要になる。「.NET TIPS:HttpClien... 任意のWebページの内容を取得するには、現状では文字コードの推定が必要になる。「.NET TIPS:HttpClientクラスでシフトJISのWebページを取得するには?[C#、VB]」では、W3Cの推奨方式に準じて実装してみた。それでも文字化けしてしまうWebサイトでは、どうしたらよいだろうか? それには、Webページの内容を単にbyteの並びとして取得し、そのbyte列のパターンから文字エンコーディングを推定することになるだろう。本稿では、文字エンコーディングを推定して文字列に変換してくれるオープンソースのライブラリ「ReadJEnc」の使い方を解説する。 文字エンコーディングを推定するライブラリ バイト列のパターンから文字エンコーディングを確実に判定できるアルゴリズムは存在しない。そこで、文字コードの「自動判別」とよくいわれるが、本稿では「推定」という言葉を使うことにする。そのような
2015/01/23 リンク