日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

Tesseract-OCRの日本語調教(1)

HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。

日本語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成法解説から予想される通り、ファイルの最初の方に「認識させたい文字一覧」がユニコードテキストとして読み取れる状態で含まれている。

ざっと眺めてみたところ、JIS X 0208(0213)の第一水準漢字のうち、次のものが含まれていない。

穐 袷 吋 蔚 嬰 盈 穎 謁 掩 鴛 鴬 禾 恢 劾 浬 蛎 鈎 劃 廓 鰍 椛 竃 侃 桓 澗 翰 諌 翫 誼 掬 黍 笈 禦 兇 彊 尭 粁 駈 虞 轡 粂 祁 荊 戟 倹 乎 鈷 梧 佼 肱 砿 壕 甑 忽 坤 艮 孜 鴫 悉 蔀 屡 蕊 勺 綬 蒐 輯 酋 藷 恕 妾 樵 蒋 鉦 擾 趨 椙 頗 碩 栴 箭 賎 糎 岨 疏 鎗 詑 柁 鐸 歎 樗 瀦 苧 凋 寵 牒 朕 悌 碇 迭 屠 菟 鍍 塘 梼 鐙 撞 鴇 涜 橡 椴 噸 遁 乍 迩 禰 廼 蚤 煤 狽 矧 駁 硲 櫨 溌 蛤 釆 蕃 匪 罷 簸 稗 弼 畢 逼 謬 彪 錨 鰭 斌 蕗 弗 瞥 箆 庖 穆 釦 哩 柾 侭 粍 鵡 棉 緬 摸 匁 鑓 愈 猷 熔 慾 沃 裡 葎 掠 賂 榔 亙

逆に、第二水準漢字で「jpn.traineddata」に含まれているのは、次のものだった。

丼 丿 乖 亞 亢 从 佛 佇 侑 來 儘 俯 假 會 偕 傲 傳 儚 兒 冑 冤 决 冲 凛 几 凰 凵 刹 剪 勁 匣 卍 厦 曼 吼 吶 咎 呟 咀 咆 咥 咬 哈 哺 唸 喘 喩 喇 嗚 嗅 嗜 嘔 嘲 嚥 嚼 囁 囃 囗 國 圓 團 址 埃 毀 墟 壺 壽 奢 姜 媚 媽 嬌 嬲 孕 孵 學 實 寶 屁 屓 屏 峙 嶌 崗 崑 崔 嵌 嶽 嶼 巖 巫 帛 幀 廣 弩 彌 弯 彗 彙 彡 彷 彿 徊 徘 徨 惧 悸 惠 愕 愴 慄 憚 憑 應 罹 懺 戌 戮 扁 拗 拌 拉 拮 搜 捏 掟 揆 揉 摯 攪 撓 撥 攣 攫 敲 旛 昴 晰 暉 曖 曰 朧 杆 枡 檜 栞 框 條 梵 棘 棍 椒 棗 楷 楔 椰 榮 榜 榴 樂 樓 橙 橈 檻 櫃 檸 檬 櫻 鬱 欟 殲 毬 毯 氣 沁 泄 泙 泪 洒 浣 浚 浙 涎 濤 淹 渕 涸 渾 渣 游 溪 漑 灌 滸 漿 滲 漱 澁 澳 澤 澪 濱 瀉 瀋 瀑 濾 灣 炙 炒 炸 焉 焙 煌 燻 熨 燗 熾 爛 爬 猥 獏 獨 珈 珀 瑯 琥 琲 琺 瑕 璧 甕 甦 畩 當 疆 疇 疵 疸 疼 疱 痒 痙 痰 痺 痲 瘍 瘡 瘢 瘤 瘻 癈 癆 癬 發 皓 盧 眩 眞 睨 睾 瞑 瞰 瞼 矮 碵 磋 礒 礫 祀 祠 祟 祓 齋 禮 稍 穢 穹 窈 窩 竈 竄 站 竚 竢 筐 筍 箋 箏 篁 篆 籠 籐 粤 粡 糀 絆 絲 絨 經 綺 緻 縣 縲 縺 繧 繝 繙 繚 繪 纃 緕 纈 纉 續 纐 网 罠 羞 羹 翅 翔 翡 耆 聘 聚 聰 肛 肬 胚 胱 脛 脩 腋 脾 腑 腱 膀 膂 膠 膣 膵 臂 臍 與 舐 艱 艸 芍 芒 苳 苺 茉 茹 茗 荼 莉 菫 萃 菲 萬 蒟 蒻 蓿 蔗 蓼 蕁 薀 薔 藪 薇 蕾 藏 藝 蘊 藺 蘆 號 蛉 蠣 蛛 蛯 蜃 蛹 蜴 蜷 蜻 蜥 蜩 蝟 蝸 蠅 螢 蟲 蠍 袢 裔 褌 褥 褪 襄 褻 襦 訃 訶 誅 諫 謗 謳 證 譚 譬 讀 貍 貪 貶 賽 贄 贅 贔 趙 跂 趾 跚 踉 踵 蹊 踪 躁 躇 躊 躾 軋 輌 輻 轢 轣 辟 辣 迪 逅 逑 逞 邂 遽 邁 邊 邉 邱 郢 扈 釉 釶 鈔 鈬 鈑 鉉 鉤 銓 鋏 鍼 鍮 鐵 鑽 閻 閾 闊 闕 闔 關 闥 阡 阨 隕 雜 雹 靄 勒 靱 鞜 頌 頸 頷 顆 颯 餃 餡 饅 騙 驛 髏 髑 體 髟 鬆 魏 魍 魎 鮑 鮠 鮨 鱚 鱧 鴉 鳫 鶯 鸞 麒 麩 靡 黎 齊 齔 齠 齡 槇 遙

一部に疑問が出る漢字もあるのだが、これはどうやら、Googleの「大規模日本語n-gramデータ」に基づく漢字頻度をベースにして、OCR認識用文字集合を選定したもののようだ。新常用漢字表の公開コメント作成時に芝野耕司氏が作成された「新常用漢字表のための漢字出現頻度調査 」の資料と「jpn.traineddata」に含まれている漢字の一覧を見比べると、およそGoogle頻度3000位程度を目安として、採否が判断されたもののように見受けられる。

3500位くらいでも採られたものもあり、逆に2000位台で落ちているものもあるので、いずれ3000位までは補完してみたいのだが、それはさておき。

よく見ると、部首字である「丶(U+4E36)」が登録され、カタカナ繰り返し記号「ヽ(U+30FD)」(KATAKANA ITERATION MARK)が無い。これは本家での改善を望みたい

Googleがウェブ文書から“ニダの絵文字”を拾いまくっているうちに、印刷文書では「丶(U+4E36)」の使用が稀で多くは「ヽ(U+30FD)」だという判断がつかなかったのだろう。

キリル文字ギリシア文字、アクセントつきラテン文字も無いとか、記号類も少なすぎるんじゃないかといった感想もあるのだが、それはまた別の話。