2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。この記事で話題にしている、現在のNDL全文検索を可能にしたのはLINE株式会社が受託した令和3年度OCR事業の成果であるテキストデータであり、今後のテキスト化を担うべく開発されている(された)のがNDLOCRという新しいOCRプログラムである由。以下「NDLOCR」と書かれている対象の多くは「LINE版OCR」の成果に関する話です。
NDLOCRの文字認識能力がホントに超絶すごいので、踊らない日はありません。
〽NDL全文検索 サイコー、NDL全文検索 サイコー、NDL全文検索 サイコー!
文字認識の性能は、ほんとうにスゴイ(2022年PR/ITmedia「AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る」https://www.itmedia.co.jp/news/articles/2210/26/news009.html)。
これほど高性能な文字認識が可能な現行NDLOCRによるNDL全文検索で資料Aがキーワード○○でヒットしないのは何故かという考察や、理由の詮索は行わないとしても、人力目視では資料B内に確認できる××が現行NDL全文検索ではヒットしないといった事例報告などは近未来のNDLOCR改良に役立つはず――という考えから綴っている「できない」報告シリーズ、表題に「#次々デジ備忘録」というタグを追加していくことにしました。
というわけで。
#NDL全文検索 で「よろめくあし」を洗い出してみたら漢字表記のバリエーションが想像以上だった話
2017年12月に、「乓乒」という漢字表記に「よろめく」というフリガナが振ってある事例が話題になったことがありました。その事例が「乓乒足」だったことから、今回明治15年から19年に範囲を区切ったNDL全文検索で「よろめくあし」というルビの拾い出しをやってみたところ、漢字表記に私の想像以上に多くのバリエーションがあったことが判りました。
乓乒

- 伊東専三『名立浪竜神於珠 12編』(1885)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/881757/1/3〉(「兵」の左足を削って「乓」を作字した際に「ノ」冒頭の打ち込みの部分の削り残しが生じている感じがします。原本を確認したいところ。)
- 福永美智『身体衛生第一の心得』(1885)「乓乒」ひょろめく〈https://dl.ndl.go.jp/pid/836960/1/16〉(全体を通して「ひょろめく」は1例だけでした。)
乒乓

- 雑賀豊太郎『復讐晴霧島』(1883)「乒乓」よろめく〈https://dl.ndl.go.jp/pid/880673/1/6〉
- 雑賀豊太郎『復讐晴霧島 2版』(1884)「乒乓」よろめく〈https://dl.ndl.go.jp/pid/880674/1/7〉
- 雑賀豊太郎『復讐晴霧島』(1885)「乒乓」よろめく〈https://dl.ndl.go.jp/pid/880675/1/7〉
動揺
滝沢馬琴『青砥藤綱摸稜案 巻之下』(1884)「辷迤」よろよろと「動揺」よろめく〈https://dl.ndl.go.jp/pid/877681/1/23〉
倰僜

- 為永春水『貞操婦女八賢誌』(1886)「倰僜」よろめく〈https://dl.ndl.go.jp/pid/879088/1/227〉(元々別々の漢字だった偏と旁を半分削ってガッチャンコした感じがしますね。)
- 滝沢馬琴『夢想兵衛胡蝶物語』(1886)「倰僜」よろめく〈https://dl.ndl.go.jp/pid/879679/1/67〉(今回の検索で唯一の整版本)
逶迤

- 『高櫓力士誉』(1884)「逶迤」よろめく〈https://dl.ndl.go.jp/pid/881513/1/48〉
- 『増補秋田蕗』(1885)「逶迤」よろめく〈https://dl.ndl.go.jp/pid/881462/1/15〉
- 桃川如燕『高櫓力士旧猫伝 上巻』(1885)「逶迤」よろめく〈https://dl.ndl.go.jp/pid/890482/1/5〉
透迤

- 柳亭種彦『綟手摺昔木偶 上之巻』(1885)「透迤」よろめく〈https://dl.ndl.go.jp/pid/890482/1/5〉
- 『絵本増補秋田蕗』(1886)「透迤」よろめく〈https://dl.ndl.go.jp/pid/880123/1/171〉
透逸

- 蒲生俊『復讐実記』(1886)「透逸」よろめく〈https://dl.ndl.go.jp/pid/880996/1/32〉
蹌跟

- 渡辺文京『朝鮮変報録』(1882)「蹌跟」よろめく〈https://dl.ndl.go.jp/pid/773832/1/3〉
- 伊藤倉三『佐野義勇伝』(1885)「蹌跟」よろめく〈https://dl.ndl.go.jp/pid/881107/1/76〉
蹌踉

- 滝沢馬琴『青砥藤綱摸稜案 後集 巻之下』(1883)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/877684/1/21〉
- 山東京伝『本朝酔菩提 : 今古雑録 下』(1885)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/879576/1/27〉
- 山東京伝『本朝酔菩提 : 今古雑録』(1886)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/879577/1/43〉
- 増田蘭谷『佐野鹿十郎英傑伝』(1886)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/881113/1/51〉
- 曲亭馬琴『青砥藤綱摸稜案』(1883)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/992444/1/163〉
踉蹌

- 『鼠小僧実記』(1885)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/881812/1/6〉
狼蹌

- 為永春水『明烏後の正夢』(1886)「狼蹌」よろめく〈https://dl.ndl.go.jp/pid/877686/1/82〉
蹌蹌

- 『小僧殺横浜奇談』(1885)「蹌蹌」よろめく〈https://dl.ndl.go.jp/pid/881014/1/41〉
- 『小僧殺横浜奇談』(1886)「蹌蹌」よろめく〈https://dl.ndl.go.jp/pid/881015/1/52〉
#NDL全文検索 で「よろめくあし」を洗い出したリストに花笠文京『開明小説/四季の花籠』が見えなかった話
さて、そもそもこの話は、ツイッターで「蔵書印/出版広告 @NIJL_collectors」さんが「花笠文京『開明小説/四季の花籠』明治17.6、国文研, ヒ4-489 http://school.nijl.ac.jp/kindai/NIJL/NIJL-00070.html#30」に「乓乒足」という事例があったことをツイートされていた時のことを思い出したことがきっかけで、調べてみたものです。
初めて見た!
— 蔵書印/出版広告 (@NIJL_collectors) December 5, 2017
よろめくあし
「乓乒足」
(花笠文京『開明小説/四季の花籠』明治17.6、国文研, ヒ4-489 https://t.co/RHZqWuH1yW ) pic.twitter.com/pjLbUKQlOp
ルビの読み取りにも強力な能力を発揮する現行NDLOCRの助けを借りて明治10年代後半あたりの資料をNDL全文検索してみたら、幾つか事例を積み上げることができるんじゃないか?
そんな思いつきを試してみるべく「よろめくあし」を検索した結果のリストに、なぜか花笠文京『開明小説/四季の花籠』の名が見えません。国会図書館デジタルコレクションのインターネット公開資料に含まれていて、かつ当該ページが欠落しているわけでもないにも関わらず、です。

これはどういうことなのか。
花笠文京『開明小説/四季の花籠』(1884)〈https://dl.ndl.go.jp/pid/877686/1/82〉の当該見開きについて様々なパターンで全文検索をかけてみた結果、「乓乒」を含む行と、その行にかかわるルビが、挿絵の一部であるものとレイアウト認識されていて文字列としてOCR処理の対象になっていないという具合に推定される状況でした。

挿画と本文のレイアウト、挿画の構図・絵柄、などの条件が偶然「レイアウトを誤認しやすくなる方向」に揃ってしまった事例なのであろうとは思いますが、こういう資料のレイアウト認識成功率が高まるような条件設定、調教内容を考えておかねばなるまいなと思った夜でした。
〽Happyで埋め尽くしてR.I.P.まで行こうぜ