サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16e
kanji-database.sourceforge.net
IVDに2番目に登録された、汎用電子情報交換環境整備プログラム(以下、汎用電子プログラム)コレクションは、日本の戸籍・住基・登記の各システムで登録・利用されている外字(漢字)グリフをUCSで利用可能にすることを目指します。 汎用電子プログラム委員会は2003年度から2008年度にかけて戸籍・住基・登記システムの調査とグリフ開発を行い、計67,951グリフを選定、当面は非漢字と判断された167文字をのぞき、577組1,173字を統合して、67,187漢字グリフを平成明朝体化しました。これらは「汎用電子情報交換環境整備プログラム成果報告書・別冊(2009年3月・全12分冊)」にまとめられています。 2009年度からは、ISO/IEC 10646:2011規格書のJ欄漢字に記載されるグリフも整理しました。2008年度までの成果のバグフィックスも含めて、これらの成果は、「汎用電子情報交換環境整備プ
OpenTypeフォントは、従来のCFF (Compact Font Format) フォント形式と、TrueTypeフォント形式を、TrueTypeの`sfnt'テーブル格納形式に沿った形で融合し、高度な組版に使用するフォントデータの格納方式を両者で共通化させたフォント形式です。 CFFを由来とするフォントは拡張子が ".otf" に、TrueTypeを由来とするフォントは拡張子が ".ttf" となり、これらを複数束ねたフォントは、".ttc" と呼ばれる拡張子になります。 `sfnt' 形式は、ヘッダ (head) テーブル等、4文字のテーブル名を持つ複数のテーブルから構成されます。 OpenTypeのテーブル OpenType仕様には、32種類のテーブルが標準化されています。 ※印があるのは、必須のテーブルです。 種類 OpenType Font AAT Font (参考) 共用
青空文庫では、テキスト中のルビや強調等に関する注記記法が定められています。 青空文庫の注記記法は入れ子になるため、反復補題により正規言語には属しません。 このページでは、青空文庫の注記記法を、解析表現文法 (Parsing Expression Grammar…PEG) で表記することを試みます。解析表現文法は、解析木が一意であり、また字句解析が不要のため分かりやすい等の特徴があります。 青空文庫の注記を分析文法で表現することで、テキスト入力時に注記規則を機械的にチェックでき、注記の間違いを減らすことができます。また青空文庫ビューア等の作成者にとっても、パーザ実装の簡略化の参考になる可能性があります。(実際に本文法を組み込むことで、パーザ部分のコード量を大幅に削減した青空文庫の文法チェック・HTML5変換ツールの実装がありますので興味のある方は参照ください。) 今後は、試作した文法を既存の
漢字データプロジェクトでは、フリーな漢字フォントの整備を GlyphWikiで行っています。成果となるフォントは『花園明朝』として公開されています。 花園明朝・AFDKO版 「花園明朝・AFDKO版」は、GlyphWikiの様々なグリフを使えるように、GlyphWikiの命名規則に対して以下のGSUBフィーチャーを対応させたものです。(Langがdfltとなっているのはデフォルト言語です。) Adobe-Japan1-6および汎用電子のIVS、およびStandard Variationsにも対応しています。 GlyphWiki命名規則GSUB Feature Lookup HanaMinAHanaMinB
漢字画数データベースについて 本データベースは、UCSのBMP/Ext-B/Ext-Cの全統合漢字データに対し、可能な限り正確な画数のデータベースを提供します。 Unihan.txt の"kTotalStrokes" 情報は、康煕字典の数え方を主体としつつ、 一部に簡体字風な画数の数え方が混じるなど一貫性に欠け、多数の誤りがあり、 また拡張漢字B, Cの画数情報は提供されていません。 本データベースは、これらの問題を解決し、IDSと組合せた漢字の検索に対して十分な実用性を提供できることを目指して開発されました。 本データは UCS の BMP/Ext-B/Ext-Cの全統合漢字に対し、可能な限り正確な画数データを提供します。 本データは、3部首(艹・礻・辶)のように、複数の画数の数え方がある漢字部品に対しては、 「必ず」複数の画数を与えるようにしています。 そのため、たとえば「草冠+4画」
大漢和辞典⇔UCS対応表 本データ(dkw2ucs.txt)は、大漢和辞典(諸橋大漢和・大修館)の番号(大漢和番号)とUCS/Unicode漢字・注音文字の対応を示します。
青空文庫注記の解析表現文法 青空文庫では、テキスト中のルビや強調等について、特定の注記記法が定められています。この注記記法は、長年にわたり継続的に改良されてきました。 青空文庫が現在、検討・策定している新しい注記一覧は、これまでの注記の記法を整理、洗練させたものであり、2010年4月以降に適用される予定です。 このページでは、青空文庫の新しい注記一覧の記法を、解析表現文法 (Parsing Expression Grammar) で表記することを試みます。解析表現文法は、解析木が一意であり、また字句解析が不要のため分かりやすい等の特徴があります。 青空文庫の注記を分析文法で表現することで、テキスト入力時に注記規則を機械的にチェックでき、注記の間違いを減らすことができます。また青空文庫ビューア等の作成者にとっても、実装の参考になる可能性があります。 今後は、試作した文法を既存の青空文庫作品に
なお本ファイルへの検索には、saryなどの巨大テキストファイルを高速に検索するツールを推奨します。以下はsary用にid値および親字にマッチするインデックスを作成するスクリプト例です。 #!/usr/bin/env ruby -Ku # Usage: ruby swjz.rb < swjz.xml > swmz.xml.ary file = $stdin $offset=0 file.each_line{|line| if line =~ /^(.+wordhead id=")(.+>).</ print [$offset+$1.length].pack("N") print [$offset+$1.length+$2.length].pack("N") end $offset+=line.length } 部目分韵データ(XMLファイル) 六書音均表データ(XMLファイル) 六書音均表デ
Emacs 23は、テキストエディタ Emacs の2009年7月にリリースされたバージョンです。本テキストエディタは特に漢字の編集に適した多くの優れた特徴を持っています。 文字コードはUCS(Unicode)・GB 18030のスーパーセットである22bitリニアなコード空間を持ちます。 Unicode外の文字空間へは、JISの未定義部分などのマッピングを透過的に行えます。これによって古いrot47等のシーザー暗号や外字も扱えます。 バイト列から文字へデコードする際に、文字プロパティを設定することができます。これを活用することで、統合漢字における日本・韓国・中国などの字形の違いを文字コードとは別で取り扱えます。 UnicodeData 情報がエディタに組み込まれているため、正規化などの種々の処理を行えます。 文字の描画ルーチンは「フォントバックエンド」として切り離され、柔軟な拡張・変更が
漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。 (1) 異体字・誤字・通仮字の「マーク付け」 テキスト入力時に異体字や誤字の情報をXMLなどによってマーク付けします。そして検索用インデックスの作成時にマークで示される代替テキストの方をインデックス用のテキストとして置き換えます。 (2) 検索対象テキスト・検索キーの「フィルタリング」 テキスト中の異体字に対し、検索用インデックス作成時および検索キー入力時に、より一般的な漢字に置換したり、異体字選択子などの除去を行います。 (3) 検索時の「複数候補での検索」 異体字とは言えないものの、よく混同される漢字について、複数の候補で検索をします(「云う」と「言う」など)。 異体字フィルタ(Apache Lucene) 以下は、Apache Lucene にて転置インデックスを作成する際に、異体字をフィル
異体字データベースは、各種文献に記載されている異体字・関連字情報を収集・整理したものです。本データの一部は、情報処理学会 試行標準 IPSJ-TS 0008:2007 「大規模漢字集合の異体字構造」に記載されている異体字情報を整理、バグフィックスしたものです。 全ての異体字関係は、「トリプル」形式で表現されます。これは、「漢字A」、「関係」、「漢字B」の3項目をカンマで区切って表現するものです。関係に対してコメント情報がある場合は、さらに4項目目に記述しています。また、「関係1」,"<rev>",「関係2」のトリプルにより、逆関係も定義します。 ファイル名 注記 UCS 互換漢字 compat-variants.txt
概要 『漢字データベースプロジェクト』は、Unicode / UCS (Universal Multiple-Octet Coded Character Sets) によって符号化された漢字(CJK統合漢字)の情報交換・検索照合・分析に役立つ様々なデータベースを整備することを目的に、2003年度に日本学術振興会科学研究費補助金・研究成果公開促進費(データベース)の援助を受けて開始しました。 各種漢字データファイルは、GitHubにて管理されており、GitHubサーバから取得することができます。 ライセンスについて 本プロジェクトのデータは、GPLライセンスおよびMITライセンスにて配布しています。 GPLライセンスによる配布 IDSデータ(ids.txt) 説文解字注(六書音均表等を含む)データ 宋本廣韻データ 學生字典データ MITライセンスによる配布 上記以外のすべてのデータ(以下を含
このページを最初にブックマークしてみませんか?
『漢字データベースプロジェクト』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く