NTTデータNJK/メディアドライブによる(日本語)OCRの解説ページ(https://ocr.jp/)を眺めていて、1980年代から、光学文字認識の基本的な概念は概ね変わっていないのだということを確認し。「どこからどこまでが〈その文字〉なのか」を判断するためにAIを活用するなど、細部に新しい技術が盛り込まれているのだと再認識しつつ。
2016年に「こりゃすげぇ!」と思ってメモツイートしていた日本語OCRへのAI活用技術の話があったことを思い出した。
CJKのOCR精度向上は、文脈に着目したAIに……
— UCHIDA Akira (@uakira2) November 8, 2016
文脈モデル「認識率98.66%?!手書き日本語のOCRを開発」https://t.co/KOKSrABc8R
偏旁冠脚区切りの重みづけ「手書き文字を高精度で認識するAIモデル」https://t.co/jnHZUrgvG5
1つ目のリンクは、「認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた」という記事(https://ledge.ai/reactive_int/)。メディアドライブのOCR解説で言う「知識ベース」の力で、「文字単位の推定」で誤認しがちなものについて語彙・文脈から自動的に補正認識していく手法。
2つ目は、多くの漢字が偏旁冠脚など左右・上下のパーツの組み合わせで1文字が構成されていることから、活字でさえ文字と文字の切れ目をOCR処理時に誤認しやすい問題(例えば https://uakira.hateblo.jp/entry/20140717)について、文字の区切り方を見出させるためのAI用学習手法を改善するもの。
――とまぁそのあたりの流れを軽く復習したところで改めて現在のNDL全文検索時に垣間見える(仮称)図デコファントム現象を振り返ってみて、これは〈CLOVA OCR改〉に備わる「知識ベース」の暴走なのだな、という受け止めになってきた。読めないものを強引に読もうとして(読めたことにして)、調教で身についてしまった癖がダダ漏れになってくるやつ。
- 「宇宙戦艦」(https://uakira.hateblo.jp/entry/2023/01/15/185434)
- 「焼肉定食」(https://uakira.hateblo.jp/entry/2023/01/16/211412)
- 「インターネット」(https://twitter.com/2SC1815J/status/1614636667658469377)
- 「ピカチュウ」(https://twitter.com/2SC1815J/status/1614645208783945728)
- 「ファンタジー」(https://twitter.com/uakira2/status/1614963912503615488)
- 「機動戦士」(https://twitter.com/uakira2/status/1614970775089610755)
この(仮称)図デコファントム現象は、我々が改善に協力できるオープンソースOCRの働きではなく、LINE株式会社が受注していた令和3年度事業の成果品だったと理解したので、これ以上無理に追いかける予定は無いが、最後にキーワード「デジタル」も検索リターンのアウト率が高く、かつ「知識ベース」の漏れ具合が楽しめる内容になっているのでメモを残しておきたい。
くずし字相手に自爆
合を記念の到了のふガンス12/2가로 가능ふくわ定價exter選手としをはじゃないのDVならくんCAFE 3ふえ조직しデジタルだろのアーを本体かように及 1花巻花香松本町全国
이번 일부분Rectroチツリ白やっぱいですようしょうぎふじゃんそうなんからやましょうして味生意興隆CHINATELあるもち予算割のます-あるもち전화기술자료안내성애니さ老北京卤肉デジタルチャーシュー考
楷書手書きの統計表を幻視
中十七さ+1"大 +さ+さ+ンチャントート+月+月+カンプランチーズデン未分キャンセルディモンド十一代表作一七十一日本日本ディナルキャンプディナルト第一表示ン十十まし패ン十チャーナルオールディオレンジデジタルギャル
〈準仮名記号〉(https://uakira.hateblo.jp/entry/20170423)で暴走
いこずと其を防がん爲の守儲なり扨程なく夜も明「ければ老僧は立出て武藏に向ひ昨夜い由なきさか,事をゆ賴み中上ゆ修行の妨げ致し何其恐れ入い扨今朝ヲ下の者共を四方に分ち遣いして悴お前と称系がおいまあに行館和君はよデジタル
解釈を拒む暴走
古大な萬間榮の石生の、以陽に感とおどろます〓〓あはてつひそうはいぐんながをかしろたあえエなみづしろかはんデジタルを置く遠にハ然酸ざはなるのの二二しゆまきのうちばじしよけだつしらもろともからめてぬけいでとちをかたおちゆきいつせん
そういえば
2014年7月頃、Tesseractで日本語文書の文字同定に使われる「jpn.traineddata」に含まれる「認識させたい文字一覧」の中に、部首字である「丶(U+4E36)」が登録されていて、カタカナ繰り返し記号「ヽ(U+30FD)」(KATAKANA ITERATION MARK)が無かったことを見つけ、その理由としてGoogleがウェブ文書から“ニダの絵文字”を拾いまくっているうちに、印刷文書では「丶(U+4E36)」の使用が稀で多くは「ヽ(U+30FD)」だという判断がつかなかったのだろうと推測したことがあったのを思い出した(https://uakira.hateblo.jp/entry/20140710)。
自分はここ10年ほど変わらず、OCRの挙動に見え隠れする人間臭いゴーストの足跡を辿るが好きなのだな。