注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
【入力/校正】電子翻刻の落とし穴 青空文庫で底本からのファイル作成を続けていくうちに、「これは意識... 【入力/校正】電子翻刻の落とし穴 青空文庫で底本からのファイル作成を続けていくうちに、「これは意識しないとみつからない」と思われる、難物の存在に気付きました。 「電子翻刻の落とし穴」とでも呼ぶべきそれらを、以下にリストアップします。 なお、こうしたものについては、点検グループが意識してチェックするようにしています。 「ここまでできないと、入力や校正はできない」といった話では、けっしてありません。 ただ、難物情報も、力を合わせて進めてきた青空文庫の作業の成果。 これも共有できればと言う意図で、ここに示します。 ▼非漢字グループ ●平仮名「へぺべ」と片仮名「ヘペベ」 上の見出しの平仮名と片仮名、あなたには見分けがつきますか? 形の似た別の字が紛れ込みやすい OCR によるファイルで、最後まで生き残る可能性が高いのが、このパターンです。 片仮名の「ヘ」と「ペ」と「ベ」、平仮名の「へ」と「ぺ
2006/06/30 リンク