日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

ゲタリストとNDL書誌のAJ旧字

内務省衛生局から大正11年に出版された、唐沢光徳『医師の来るまで : 子供の手当』。「毒蟲などに刺された場合」という箇所が、本文ページの見出しは「螫」になっており、なぜ書誌データではゲタなのかと不審に思ってしまうが、目次に使われている漢字が「𧌐」(U+27310)となっている*1。珍しいパターンだ。なお、NDLの目次データは、中途半端な新旧混在で気持ち悪い。



ゲタリストを眺めていると、実に多くの「八屋根」や「ひっかけの有無」、「立」のタテヨコ……などに出くわし、その都度〖また詰まらぬものを斬ってしまった〗という落胆と共に翻デジせずにいたのだが、その落胆がどのくらいの量になるのかを、id:npn2sc1815j さんが数え上げてくださった。
記事中にある通り、このレベルの詰まらないゲタに関しては、N-gramで解消できそうだ。

ところで、上述の唐沢『医師の来るまで』目次が「氣絶」を「氣絕」という具合に拾っているように、「戸籍」を「戶籍」、「説文」を「說文」で拾う目次データがあるなど、一見「JIS X 0213では区別できないがAdobe Japen 1-6では区別できるUCS内字」であるようなものを積極的に「旧字コード」で表現しているように見えるものがある*2
Windowsユーザの場合、「JIS外字なAJ内字」がデフォルトでは「中華フォント」に見えてしまうのが口惜しいところ。MS明朝/ゴシック好きの自分としては、Windows 9では、ぜひAJ1-6対応の晃文堂明朝/ゴシックを搭載して欲しいものだと願わずにはいられない。

*1:明朝体活字字形一覧』に含まれる築地四号の総数見本には見当たらないので、作字なのだろう。

*2:本当のところは、明確な基準がないままCJKV人海戦術作業が行われた結果、変なAlternativeが拾われてしまった「事故」だろうと疑っている。