日本語のテキスト処理の動作確認サンプルとして使うための日本語テキストデータは「日本国憲法」が無難
2023-06-07-1
[NLP][Programming]
日本語のテキスト処理の動作確認サンプルとして使うための日本語テキストデータの無難さ No.1 はなんといっても「日本国憲法」。
ということで、一行一文のテキストファイル (UTF-8) を用意したのでご自由にお使いください(新仮名遣い変換済み)。
許可なく再配布も自由。
(4)(5)(6) の変換ツール nkkp-conv.pl。
変換実行:
- 誰でも無料でネットから入手できる
- 大きすぎない、小さすぎない、手頃なサイズ
- 同じ単語や似た表現がそこそこ出てくる
- ずっと変わらない内容(今後憲法が変わるとしても「昭和二十一年憲法」は不変)
- 著作権などもろもろの権利について考えなくて良い
- (デメリット) 「思ふ」「負ふ」「受け取つた」などの旧仮名遣い
- (デメリット) 「天皇」についての記述が含まれるため例示時に注意が必要
ということで、一行一文のテキストファイル (UTF-8) を用意したのでご自由にお使いください(新仮名遣い変換済み)。
許可なく再配布も自由。
- nkkp.txt (github)
- ファイルサイズ: 28508バイト
- 行数: 224行
- 文字数 (改行文字除く): 9428文字
作り方(レシピ)
- ウェブブラウザで e-Gov法令検索 を開く
- キーワード「憲法」で検索
- 「日本国憲法(昭和二十一年憲法)」の XML ダウンロード (拡張子は ".xml.zip")
- XML ファイル内の Sentence タグ内のテキストのみを取り出す
- Sentence 末以外の句点の後に改行文字を足す
- 旧仮名遣いを新仮名遣いに変換する
(4)(5)(6) の変換ツール nkkp-conv.pl。
変換実行:
unzip -p ~/Downloads/321CONSTITUTION_19470503_000000000000000_xml.zip \ | ./nkkp-conv.pl > nkkp.txt
この記事に言及しているこのブログ内の記事