日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

#NDL全文検索 で「よろめくあし」を洗い出してみて漢字表記のバリエーションが想像以上だったことを知り更にまたNDLOCRのレイアウト調教メニューの追加が必要だと再認識した話 #次々デジ備忘録

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。この記事で話題にしている、現在のNDL全文検索を可能にしたのはLINE株式会社が受託した令和3年度OCR事業の成果であるテキストデータであり、今後のテキスト化を担うべく開発されている(された)のがNDLOCRという新しいOCRプログラムである由。以下「NDLOCR」と書かれている対象の多くは「LINE版OCR」の成果に関する話です。



NDLOCRの文字認識能力がホントに超絶すごいので、踊らない日はありません。

NDL全文検索 (ぜんぶんけんさく)サイコー、NDL全文検索 (ぜんぶんけんさく)サイコー、NDL全文検索 (ぜんぶんけんさく)サイコー!

文字認識の性能は、ほんとうにスゴイ(2022年PR/ITmedia「AI-OCR国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る」https://www.itmedia.co.jp/news/articles/2210/26/news009.html)。

これほど高性能な文字認識が可能な現行NDLOCRによるNDL全文検索で資料Aがキーワード○○でヒットしないのは何故かという考察や、理由の詮索は行わないとしても、人力目視では資料B内に確認できる××が現行NDL全文検索ではヒットしないといった事例報告などは近未来のNDLOCR改良に役立つはず――という考えから綴っている「できない」報告シリーズ、表題に「#次々デジ備忘録」というタグを追加していくことにしました。

というわけで。


#NDL全文検索 で「よろめくあし」を洗い出してみたら漢字表記のバリエーションが想像以上だった話

2017年12月に、「乓乒」という漢字表記に「よろめく」というフリガナが振ってある事例が話題になったことがありました。その事例が「乓乒足(よろめくあし)」だったことから、今回明治15年から19年に範囲を区切ったNDL全文検索で「よろめくあし」というルビの拾い出しをやってみたところ、漢字表記に私の想像以上に多くのバリエーションがあったことが判りました。

乓乒

#ndldigital 伊東専三『名立浪竜神於珠 12編』(1885)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/881757/1/3〉赤○印は引用者
  • 伊東専三『名立浪竜神於珠 12編』(1885)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/881757/1/3〉(「兵」の左足を削って「乓」を作字した際に「ノ」冒頭の打ち込みの部分の削り残しが生じている感じがします。原本を確認したいところ。)
  • 福永美智『身体衛生第一の心得』(1885)「乓乒」ひょろめく〈https://dl.ndl.go.jp/pid/836960/1/16〉(全体を通して「ひょろめく」は1例だけでした。)

乒乓

#ndldigital 雑賀豊太郎『復讐晴霧島』(1883)「乒乓」よろめく〈https://dl.ndl.go.jp/pid/880673/1/6

動揺

滝沢馬琴『青砥藤綱摸稜案 巻之下』(1884)「辷迤」よろよろと「動揺」よろめく〈https://dl.ndl.go.jp/pid/877681/1/23

倰僜

#ndldigital 為永春水貞操婦女八賢誌』(1886)「倰僜」よろめく〈https://dl.ndl.go.jp/pid/879088/1/227

逶迤

#ndldigital 『高櫓力士誉』(1884)「逶迤」よろめく〈https://dl.ndl.go.jp/pid/881513/1/48

透迤

#ndldigital 柳亭種彦『綟手摺昔木偶 上之巻』(1885)「透迤」よろめく〈https://dl.ndl.go.jp/pid/890482/1/5

透逸

#ndldigital 蒲生俊『復讐実記』(1886)「透逸」よろめく〈https://dl.ndl.go.jp/pid/880996/1/32

蹌跟

#ndldigital 渡辺文京『朝鮮変報録』(1882)「蹌跟」よろめく〈https://dl.ndl.go.jp/pid/773832/1/3

蹌踉

#ndldigital 滝沢馬琴『青砥藤綱摸稜案 後集 巻之下』(1883)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/877684/1/21

踉蹌

#ndldigital 『鼠小僧実記』(1885)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/881812/1/6

狼蹌

#ndldigital 為永春水明烏後の正夢』(1886)「狼蹌」よろめく〈https://dl.ndl.go.jp/pid/877686/1/82

蹌蹌

#ndldigital 『小僧殺横浜奇談』(1885)「蹌蹌」よろめく〈https://dl.ndl.go.jp/pid/881014/1/41

#NDL全文検索 で「よろめくあし」を洗い出したリストに花笠文京『開明小説/四季の花籠』が見えなかった話

さて、そもそもこの話は、ツイッターで「蔵書印/出版広告 @NIJL_collectors」さんが「花笠文京『開明小説/四季の花籠』明治17.6、国文研, ヒ4-489 http://school.nijl.ac.jp/kindai/NIJL/NIJL-00070.html#30」に「乓乒足(よろめくあし)」という事例があったことをツイートされていた時のことを思い出したことがきっかけで、調べてみたものです。

ルビの読み取りにも強力な能力を発揮する現行NDLOCRの助けを借りて明治10年代後半あたりの資料をNDL全文検索してみたら、幾つか事例を積み上げることができるんじゃないか?

そんな思いつきを試してみるべく「よろめくあし」を検索した結果のリストに、なぜか花笠文京『開明小説/四季の花籠』の名が見えません。国会図書館デジタルコレクションのインターネット公開資料に含まれていて、かつ当該ページが欠落しているわけでもないにも関わらず、です。

#ndldigital 花笠文京『開明小説/四季の花籠』(1884)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/877686/1/82

これはどういうことなのか。

花笠文京『開明小説/四季の花籠』(1884)〈https://dl.ndl.go.jp/pid/877686/1/82〉の当該見開きについて様々なパターンで全文検索をかけてみた結果、「乓乒」を含む行と、その行にかかわるルビが、挿絵の一部であるものとレイアウト認識されていて文字列としてOCR処理の対象になっていないという具合に推定される状況でした。

#ndldigital 花笠文京『開明小説/四季の花籠』(1884)のNDLOCRによるレイアウト認識(推定)

挿画と本文のレイアウト、挿画の構図・絵柄、などの条件が偶然「レイアウトを誤認しやすくなる方向」に揃ってしまった事例なのであろうとは思いますが、こういう資料のレイアウト認識成功率が高まるような条件設定、調教内容を考えておかねばなるまいなと思った夜でした。



〽Happyで埋め尽くしてR.I.P.まで行こうぜ