日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

手書き/活字字形の揺れとNDL書誌の「〓」

NDL書誌データで「第n」が「苐n」と誤認されている資料群の中に、不自然なゲタ字が頻出しているように思われるものがあった。神川彦松述『外交史』だ。国会図書館デジタルコレクションを眺めると、手書き原稿に基づく謄写版印刷の資料だった。
手書きなので判別できなかったという可能性もあろうかとも思ったが、該当する部分を眺めると、それほど読めない字ではない。
例えば「苐一部 〓力均衡ノ時期」「苐一章 国際体係ノ〓源」の箇所を見ると、これは明らかに「第一部 勢力均衡ノ時期」「第一章 国際体系ノ起源」であろう。同様に「苐二章 〓力均衡ノ主義」の箇所も「第二章 勢力均衡ノ主義」でよいのではないか*1
「苐九章 大陸均勢戰ト英仏ノ〓界的争覇戰」の箇所は自分が文選工なら間違いなく「第九章 大陸均勢戰ト英仏ノ世界的争覇戰(大陸均勢戦ト英仏ノ世界的争覇戦)」と拾う。手書き資料に見える草書の「世」を活字の世界で異体字扱いして、何か嬉しいだろうか。同様に「苐十章 大革〓ト Napoleon」も自分が文選工なら「第十章 大革命ト Napoleon」にするが、実務上、文意からは異体字を意図して書いたとは思えない手書きの略字をNDL書誌に転記する際、どのように扱うのが正解なのだろう。
「苐二部 歐洲〓調ノ時期」の箇所も、「第二部 歐洲協調ノ時期(欧州協調ノ時期)」だろう。「力×3」ではなく「刀×3」と見たようだが、点が足りない「洲」などは「洲」に拾っていいのだろうか。「苐二章 歐洲〓調ト神聖同盟の箇所も同じく「第二章 歐洲協調ト神聖同盟(欧州協調ト神聖同盟)」としたい。

 

さて一方、「第」は適切に読めているが、序数に関係する後置の文字で大量の「〓」が出現するというケースがある。下記「ゲタリスト」を眺めていて気づいた事例で、愛知県立農事試験場編『愛知の蔬菜』(1918年)という資料だ。
目次ページ、「白/匕」の形に作られた築地五号系明朝活字の「節」(http://glyphwiki.org/wiki/u7bc0-ue0102)が、ことごとく「〓」扱いになっている。これは「節」として転記すべきところだろう。『明朝体活字字形一覧』を見ると五号は1894-1913と一貫してこの形で、昭和11年(1936)の見本帳でも同じ「白/匕」になっている本文の小見出しは築地の五号ゴチック系活字で「節」に作られていたりするところも興味深い(同じ昭和11年の見本帳後半の五号ゴチックも「節」になっている)。どちらも同じ大きさの活字に「節」の異体字が作られているわけではなく築地系統の五号活字の標準の形なので、「節」に拾って差し支えない――というか「節」に拾うべきである。
大量の資料を相手に、機械的に取り込んだ際の「OCR化け」と呼ぶのが適切なのか、人海戦術の結果生じた「CJKV化け」なのか、そのあたりは判らない。もしOCRなのだとしたら、手書き資料の『外交史』をあれほど読み取れている点で、かなり高性能な機械だと思う。

 

NDL書誌の「〓」を見ていけば、先日安岡先生がリストアップされたコズミックなNDL外字の他にも様々な0213外字に出会えるんじゃないかと期待して刈り取った国デコ書誌から136971行のゲタリストを抽出したのだが、新しいJIS漢字の候補となり得るようなNDL外字を探し出すついでに実行してしまう上記のような校正こそが、実は一般利用者にとって大いに意味のある作業になり得ると気づいた。
妥当と思われる文字――漢字とは限らない――に校正してしまえば、ゲタ字のままでは検索できない情報に、ちゃんとリーチできるじゃないか!
本家のNDL書誌が校正されるとか、校正はされないが「異なりアクセス」が追記されるといったことによって検索可能性が高められてくれれば嬉しいが、本家が動き出せなくとも、NDLラボで展開されている「翻デジ」のシステムを流用して「ゲタリスト・ポータル」を立ち上げればいい。
「ゲタリスト・ポータル」のテーマは二つ。ひとつは「〓書誌」を一般的な文字に開いて元資料へのアクセス可能性を高めること。そしてもうひとつは、NDL外字の典拠画像を見える化し、鑑賞すること。ゲタリストに現れない資料には目もくれず、ひたすらゲタリストと取り組む場だ。

 

昨晩、You「翻デジ」乗っ取っちゃいなよ!という悪魔の囁きが聞こえたような気がするのは、たぶん気のせいだろう。

*1:転記者は「勢」の字が「幸」に書かれていることや「起」が「巳」であるのを見逃さなかったのだろう。