と言っても Web の API 使うんだけどね。 Recruit の a3rt の Proofreading API です。
- キャプチャ
- Google Docs OCR ほんの基本的な校正も行える (赤の波線がつく)
- ドキュメントからプレーンテキストを取り出すスクリプト
- 手動校正
- "「"がダメだったような気が
- カタカナの"ニ"と数字の"二"とか
- "パ"と"バ"とか
- Web サービス たぶんこれ使ったはず(覚えていないw)
- "洒落"を見つけてくれた (酒になってた)
- 何回も間を空けて読み返す
- たまに見つかる
- a3rt を試してみたがダメだった...
(3.) と (5.) がやっぱり大変なんだよね。 (3.) は気が狂いそうだし、 (5.) は何回読んでも出てくるし... (2.) は当時 Google のくせに全然ダメだった。今はどうなんだろう? (4.) は機械学習系じゃないのが多いからやっぱり限界があるし。
久しぶりに起動してみたら指摘してくれた。 Twitter で呟いたから学習させた? それとも一年以上の学習の結果なのか?
{
"normalizedSentence" : "薄茶色のシミがあちこちについた掛け布団。座ったら、五分でお尻が序くなってきそうだ。",
"message" : "pointed out",
"checkedSentence" : "薄茶色のシミがあちこちについた掛け布団。座ったら、五分でお尻が <<序>> くなってきそうだ。",
"status" : 1,
"resultID" : "1e908391e3bd",
"alerts" : [
{
"pos" : 31,
"suggestions" : [
"な",
"き",
"し"
],
"word" : "序",
"score" : 0.809495427479827
}
],
"inputSentence" : "薄茶色のシミがあちこちについた掛け布団。座ったら、五分でお尻が序くなってきそうだ。"
}
サジェスチョンは適当だがそこは別に手動でいいのだ。修正箇所は少ないんだからそこは人力で OK。 広大な文字の海から変なのを見つける作業が大変なのであって、そこを AI に任せたいのだ。
さて全行やってみるか。制限かかりませんように...
うーん... 今度は要らん指摘しすぎだ。 1317/5245 行に指摘が入った。1000 件とか確認無理なんですけど。 まぁぱっと見新たに3件見つけたんで一応役には立つな。それも1行目からw もう少し頑張って指摘減らしてくれ。
本作品の全部または一部を無断で複製、転載、 <<改>> <<賞>> 、公衆送信すること
改竄ですね
1000 件確認してみた。 あってても指摘入ってるやんけ!まったく...
薄茶色のシミがあちこちについた掛け布団。座ったら、五分でお尻が <<痒>> くなってきそうだ。
指摘し過ぎを減らしてハイライト
<<[^\W^\p{Hiragana}^\p{Katakana}^〇^一^二^三^四^五^六^七^八^九^十]+>>
昨日の分を含めて、更に 10 件見つけた。固有名詞をもっと頑張って学習して省いてくれればすごい有用なツールになりそう。
Sudachi を調べていたら oov という単語が出てきた。 out of vocabulary の略だそうだ。 これってまさに校正対象のことじゃないの?と思って試してみた。
青空文庫表記のタグやルビが鬱陶しいので先に除いておいて、漢字のみの oov を表示させてやる。
https://github.com/umjammer/vavi-speech/blob/master/src/test/java/SudachiTest.java
めっちゃうまくいく!!!
ていうか、まだあるんかい!ものすごい精度だ。完璧なんじゃなかろうか?ディープラーニングいらんやんw (もちろん「スキャンした小説」が対象に限る話だが)