注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
前回、画像派/文字派って区別ができる、って話をした。 そんで、画像派の特徴は「画像でなきゃ意味がな... 前回、画像派/文字派って区別ができる、って話をした。 そんで、画像派の特徴は「画像でなきゃ意味がない」ってところにあって、かなりすっきりしてんだよね。 ところが問題は、文字派で起こるわけ。 電子化の過程で、文字派が直面する問題ってのは2つあって、 手作業による文字入力ってはかなり大変で、疲れちゃう かといって、OCRってのも、結構あてにならん ということ。 ならば、出版社からデータをもらいたいところだけど、Y氏によると、 書籍の製作過程が、ほとんど電子化されていると言っても実はそのデータが残っていない。また残っていてもそこから電子書籍をつくるのは大変な苦労がかかる。外字の問題もあるしテキストデータの吸い出しにも問題がある。それでは本を電子化するまでで息切れを起してしまいます。*1 ってな感じ。 こんなもろもろの事情から、「本当は文字データとしてやりたいんだけど、しかたないから、画像でがまん
2007/02/23 リンク