「すべての漢字を取り出す正規表現」をPHPで試す
2005年11月07日-
スポンサード リンク
すべての漢字を取り出す正規表現を参考にPHPでトークンを切り出すサンプルを作成しました。
powered by PHPコード変換機
出力結果:
mb_ereg部分をいじることで漢字のみ、カタカナのみという切り出しかたが可能になります。
<?php
// スクリプトはUTF-8で記述されています
$str = <<<EOM
ようこそphpspotへ!当サイトではフリーのwindows用php開発環境であるPHPエディタ forWin や、フリーのPHPスクリプト( PHP掲示板,webshot,webimager,CMS 等 )、PHPツールバー、テレビバー、便利検索バー(Yahoo,Google,辞典検索)などを配布しています。その他、PHP入門 や PHP5ーTIPS、PHPサンプル集、MySQL解説、PHPレンタルサーバー特集などのコーナーもあります。
EOM;
mb_internal_encoding("UTF-8");
mb_regex_encoding("UTF-8");
$token = array();
// すべてのト-クン切り出し
while(1){
$bytes = mb_ereg("[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+", $str, $match);
if ($bytes == FALSE) {
break;
} else {
$match = $match[0];
array_push($token, $match);
}
$pos = strpos($str, $match);
$str = substr($str, $pos+$bytes);
}
print_r($token);
?>
powered by PHPコード変換機
出力結果:
Array ( [0] => ようこそ [1] => phpspot [2] => へ [3] => 当 [4] => サイト [5] => では [6] => フリー [7] => の [8] => windows [9] => 用 [10] => php [11] => 開発環境 [12] => である [13] => PHP [14] => エディタ [15] => forWin [16] => や [17] => フリー [18] => の [19] => PHP [20] => スクリプト [21] => PHP [22] => 掲示板 [23] => webshot [24] => webimager [25] => CMS [26] => 等 [27] => PHP [28] => ツールバー [29] => テレビバー [30] => 便利検索 [31] => バー [32] => Yahoo [33] => Google [34] => 辞典検索 [35] => などを [36] => 配布 [37] => しています [38] => その [39] => 他 [40] => PHP [41] => 入門 [42] => や [43] => PHP5 [44] => TIPS [45] => PHP [46] => サンプル [47] => 集 [48] => MySQL [49] => 解説 [50] => PHP [51] => レンタルサーバー [52] => 特集 [53] => などの [54] => コーナー [55] => もあります )このように簡易形態素解析機が出来ました。
mb_ereg部分をいじることで漢字のみ、カタカナのみという切り出しかたが可能になります。
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- 可愛くアニメーションする「beautifully crafted animated icons」
- アイソメトリックなアイコンがアイコンがPNG,SVGでゲットできる「Isoicons」
- ユニークなカタカナフォントtorisippo
- 美しいメッシュグラデーションをCSSで簡単に取得できる「MSHR」
- TailwindCSSなサイトで使える100以上のアニメーションエフェクト「animata」
- SVG形式のテック系企業のロゴを簡単にゲットできる「Svgl」
- 統一感のある色味を一括生成できるツール「The good colors」
- くちばしフォント【商用可】
- 小説表紙などに使えそうな商用可なフォント「になロマン」
- 筆で書いたようなカナ書体「筆竹仮名B」
- 過去のエントリ