日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

NDL全文検索対象テキストのうちOCR処理データにハングルが含まれている理由を知りたい #次々デジ備忘録

先ほどの「#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム」https://uakira.hateblo.jp/entry/2023/01/15/185434で触れた一部資料に、「한국전투특」という、意味が通る文字列が見えたことがどうにも気にかかる。

「한국전투특」という文字列の、最初の2文字は言わずと知れた「韓国」のハングル表記。

何かの事情で生じた単なる文字化けなのか、もしそうだとしたら何らかの規則性のようなものを見出すことはできないか。

というわけでキーワード「한국전투특」でNDL全文検索を試してみた結果が次の6件。

国会図書館デジタルコレクションの「한국전투특」全文検索結果

念のため「한국」で検索してみると、「ログインなしで閲覧可能」な資料だけでも4521件の結果が返ってくる。このうち、2016年の『アジア情報室通報 14 (1)』(PDF: https://dl.ndl.go.jp/pid/9920495)のように、元々一部がハングルで綴られているテキストが該当するのは納得できる。

内容的に明らかなOCR誤認識テキストをざっと見た感じでは、活字でない刊本における草書の漢字や仮名をハングルとしてテキスト化しているようだ。

少なくとも、NDLラボの「令和3年度OCR処理プログラム研究開発」解説ページで示されている「OCR処理プログラム開発事業の大まかな流れ」〈PDF: https://lab.ndl.go.jp/dataset/r3ocrproject/ocrprogram/ocrprogram_web.pdf〉という資料の20ページで示されている「OCR学習用データセットの文字種」に、ハングルは含まれていない。

OCR処理プログラム開発事業の大まかな流れ」に示されている「OCR学習用データセットの文字種」

現在のNDL全文検索対象テキストのうち、現代のPDF資料などと違う、明らかにOCR処理されたと思われるテキストデータにハングルが含まれている理由を知りたい。

本来求められていない誤った学習に基づく誤認識テキストなのであれば、「近代」資料のOCRテキストにハングルが含まれるデータを全て棄却し、「NDLOCRでテキストデータ化する対象は日本語のJIS(日本産業規格)の第1・第2水準に、出現率の高い文字種を加えた約7000文字だ(JIS第1・第2水準以外の旧字体などは新字体に置き換える)」(https://www.itmedia.co.jp/news/articles/2210/26/news009.html)と喧伝される、本来求められていたはずの文字種の範囲内で光学文字認識をやり直した方がいいのではないか。

おそらく整版本系テキストで判読不能扱いの「〓」が増えるだろうが、活字テキストのOCR誤認識汚染は減るのではないか。

NDLOCRについて、文字の認識制度が相当に高いもののレイアウト認識の弱点によって検索不能資料が(思いのほか多く)生まれている――そのように受け止めていたが、本当にあらゆる年代の資料で90%以上の文字認識が達成されているのかどうか、今ちょっと疑問を持ち始めている。



人間が「本文を追える」というのはどういうことなのか
検索のヒット率を上げるには高い「文字」認識精度を生かして「語句」の認識率を挙げねばならず、そのためにはレイアウト認識の強化が必要だろう。
OCRのレイアウト認識制度を高めるにはどういう学習データを与えればいいか。

「次々デジ備忘録」には、そういう話題だけ記していきたかったよ……



2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。現在のNDL全文検索の元になっているテキストデータは、LINE株式会社が受託した令和3年度OCR事業の成果だということなので、なるほどそれなら不自然な形であちこちにハングルが混ざっているのも理解できます。