スキャナやOCR(Optical character recognition:光学文字認識)ソフトの進歩で、紙の文書の電子化も容易になってきた。私も日常の仕事で活用しているが、電子書籍を作る場合にも用いることがある。
最近の活字文書を読み取るのであれば、精度99パーセント以上を達成していると思われるソフトもある。それでも校正は必要で、誤認識を人の目でカバーしてやらなければならないのが現状だ。
同様の作業をしている人の参考にもなるかと、活字本からOCRソフトで電子テキストを作成する時、誤認識されやすい字を集めてみた(暫定版です)。
私は用途に合わせ幾つかのソフトを使い分けているが、主力として使っているのはパナソニックの「読取革命Ver.15」禺画像]。読み取りの対象は、終戦後間もない頃の古本なども含む(戦前の本となると、精度はぐんと落ち、おおかた手入力の方が早いと思う)。
左の列がもとの字で、右の列が誤変換された結果の字。もちろん逆の場合も起り得ます。
(特に見逃しやすいと思われる組合せのあとに※を付けました。)
○漢字 全体的な形が似たものの誤認識
目 日(横棒を一本見落す。以下同様の例が幾つもある)
自 白
東 束
昨 咋
間 問 ※
鳥 烏 ※
鳥 島 ※
人 入 ※
于 子
干 手(若干を若手に誤るなど)
千 干
宇 字
未 末 ※
曰 日
吊 弔
員 具
歌 耿
○漢字 偏・冠・繞などの誤認識
堀 掘(土偏と手偏は誤りやすい)
待 侍(行人偏と人偏。他例多し)
薄 簿(草冠と竹冠も誤りやすい)
鉱 絋
惜 借(立心偏と人偏。次の例も同様)
悼 倬
挽 悗(手偏を立心偏に誤る)
社 杜(示偏を木偏に誤る)
〓 嬋(〓は印刷標準字であり旧字ではないのに、蝉という俗字に換えてしまうことも多い。)
蛾 娥
廠 厰(厰は廠の異体字)
嘩 曄(※喧嘩が喧曄になっていたりすると見落としやすい)
昧 味(※三昧が三味になっていたり、曖昧が曖味になっていたり)
○漢字 旁などの誤認識
伸 仲
蚊 蛟(蛟はミズチ。想像上の生き物)
紋 絞 ※
鳴 嗚(※旁が鳥と烏の違い。嗚は嗚咽おえつ・嗚呼ああくらいでしか遣われない語。)
〓 唖(「ろうあ」は聾〓と書くのが正式。〓をわざわざ異体字の唖に変換してしまう)
縁 緑 ※
候 侯(※気候が気侯に、侯爵が候爵になっていたり。要注意)
帥 師(元帥などは注意が必要)
酒 洒(※逆に瀟洒が瀟酒になっていたり。要注意)
遺 遣
棚 柵
打 扛(ハネを横棒と誤る)
噛 嚼
風 凰
雪 雲 ※
震 雲 ※
靄 露 ※
〓 屏