日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

NDL書誌の「苐」

せっかく国会図書館デジタルコレクションから2,352,245件の書誌メタデータを刈り取ってみたので、以前から気になっていた「苐」の字をgrepしてみた。

得られた3329行の中には、第n巻、第n号、第n章、第n表、第n節、第n編、第n例、第n、第n卷、第n集、第n部、第n輯、第n目、第n項、第n問、第n款、第n篇、第n葉、第n図、第n條などなど(順不同)に該当する、書物に出現し得る序数を誤転記したと思われるものが大量に見つかる他、『橘品類考』の並置タイトルのように誤転記ではないものも含まれるようだ。

序数のケースにおいてnは三桁までの自然数のようで、アラビア数字は「半角」「全角」どちらのケースもある。漢数字も、[一二三四五六七八九十]だけでなく[廿百][壱壹弐貮参參]などが見られるようだ。

本家がどのような形で書誌データを持っているのか判らないが、一括で検索・置換が可能なら、序数のケースの訂正は正規表現で対応できるだろう。