すべての漢字を取り出す正規表現

http://www.unixuser.org/~euske/doc/python/sample.py.html

# 日本語トークンを切り出すための正規表現。
JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+")

http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html

[亜-煕]はJIS漢字を検出するときに使う正規表現になります。
 本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。

追記

  • ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
  • [一-é¾ ]は漢字抽出の正規表現としては間違いで、正解はUnicodeスクリプト\p{Han}(perl)らしいです。 http://tama-san.com/?p=196
  • Unicodeブロック\p{InCJKUnifiedIdeographs}(java)、\p{IsCJKUnifiedIdeographs}(.net)が利用できるらしいです。http://module.jp/blog/regex_unicode_prop.html

http://java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/util/regex/Pattern.html#cg
http://msdn.microsoft.com/ja-jp/library/20bw873z(VS.80).aspx