日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

近デジサムネ画像パターン処理→NDL書誌メタ注記

先日、与謝野晶子の結合著作物に言及して、“国会図書館デジタルコレクションの書誌データに関しては、ひとつの資料に関わる著作者を漏れなく盛り込める器であるようにすることを望みたい”というようなことを書いた。
これは、評論家気取りで注文をつけ、誰かがどこかでやってくれるよね?――というような無責任な期待を述べたものではない。自意識過剰と言われそうだが、ゲタリスト同様、自分の課題に取り組むことの副産物として、少なくとも「著作者はアンノウン(unknown)だが図版と思われるモノが第nコマに含まれている」というメモを大量に残すことができるんじゃないかという発想に立っている。うまくいけば、図版の著作者についてのメモも追記できるだろう。
つまり、自分で実作業の多くを引き受けるつもりの課題である。



近代日本語活字史に関する日曜研究者が本業であると自己規定している野良研究者の自分は、10年かけて2万点しか目を通すことが出来ていない状況を何とか打破したい、作業をもっと効率化したいと常々願っている。
既存技術で効率化が図れそうだと思っていることの1つに、奥付データのうち印刷者の情報をダブリン・コアやMARC21のprinter項目としてNDL書誌情報化するというものがある。
以前、旧態依然とした人力総当たり法によって「印刷者=江川次之進」の貴重資料を発見することができたのだが、本来、その程度の「発見」は国会図書館サーチのワンクリックで可能になっているべきだ。
ともあれ、NDL書誌に「印刷者」の項目が現時点で存在しない以上、当面は人力総当たりを継続し「奥付ツイート」のデータを蓄積できればいいかというような願望を吹囀したこともある。
だがしかし。よほど大人数で分業できない限り、人力法のままでは、自分が生きているうちに「少なくとも明治期の全資料をチェックする」という中間地点まで辿りつけないと見て、ほぼ間違いない。国会図書館の所蔵資料だけで残りが8万点もあるからだ。

今回、ちょっとした天啓を得た。
国会図書館デジタルコレクション(以下「国デコ」)の全書誌データをまるごとローカルなデータベースで運用できるようになったのだから、発想を転換し、ラボ案件として挙手してしまうか、野良研究者らしく私的な機械化活動を始めてしまえばいいのだ。
OCR(光学式文字認識)のプログラムは、モノクロ二値画像化などの前処理をほどこした後、「レイアウト認識」を実行し、それから個々の文字の認識をするといった流れになっているようなのだが、レイアウト認識の前にサムネイル画像一覧を対象とした「メタ・レイアウト認識」とでもいうような処理を実行することで、「奥付っぽいパターン」「図版があるっぽいパターン」が出現するコマ(頁)を拾い出すことができるのではないだろうか。
与謝野晶子『常夏』末尾のサムネイル一覧を眺めると、奥付や広告が、本文とは異なるパターンの画像であることが、少なくとも人間には判る。

これをコンピュータが判定可能であるようにプログラミングしてやれば、「奥付っぽいコマ」へのポインタが人力よりもはるかに高速に得られる筈だ。
最も巧みに処理できた場合、奥付が元々存在しない資料や、デジタル化などの段階で奥付が飛んでしまった資料を除く、全ての奥付ポインタが完成する。
あとは奥付フォーマットを上手に解釈するよう調教したOCRで「奥付っぽいコマ」を処理することで、印刷者の情報を蓄積することができるだろう。「奥付っぽいコマ」に「発行者」などの情報が無ければ誤認だろうから、別のコマを当たればよい*1
どうせなら、OCRを「奥付調教」する際に、奥付を読み取らせようとしている個体が「第何版の第何刷なのか」も記録するようにしておきたい。「奥付OCRポータル」のようなサービスが稼働している近未来に各図書館が全館棚卸を行う際、スマホのような携帯端末を使って資料番号と奥付画像をひもづけてOCR処理し、各々のOPACに奥付データを追記してくれれば、国会図書館サーチで「第n版第m刷」を探したいというようなニーズに応えることができるだろう。

奥付と同様、与謝野晶子『常夏』冒頭のサムネイル一覧をチラっと見ると、図版がある箇所は本文とは全く異なる映像パターンになっている。

これも、「図版っぽいのはコマ番号××だ」というポインタを、書誌データベースに蓄積していけばよい。この『常夏』のように「絵画目次」のページが存在する資料なら、図版(挿絵)と挿絵画家のひもづけを自動化するのは困難だろうが、同一資料の書誌に「図版らしいコマのポインタ」と「挿画家名」を注記しておく作業は、効率的に実行できそうだ。
我々の立場では「ひとつの資料に関わる著作者を漏れなく盛り込める器」を作ることは出来ないが、このように作業を助けるアイディアを出すことや、一歩進んで作業自体を実行することは出来ると思っている。

更にまた、国デコ書誌には現在「欠頁」の注記が異様に少ないのだが、この「メタ・レイアウト認識」処理の実行を前提に話を組み立てれば、デジタル資料において「欠」表示があるコマのポインタを集積することもできそうだ。(下図は三橋編『農業政策』冒頭)

サムネイル一覧の状態をOCRにかければ、「始」「欠」などの文字だけが認識されるだろう(表紙がある資料の場合は標題も読み取られるかもしれない)。
欠頁に関しては、国会図書館それ自体として積極的に資料の補完依頼を呼びかけてもよい性質のものだろうから、自分が見かけた落丁を補完したいという親切心が発揮されやすいような仕掛けをつくっておけば、当該資料の潜在利用者全員が幸せになれるだろう。
古書店から敵視されている側面がある国デコだが、「欠頁」情報を積極的に公開しておけば、無欠本を持っている古書店が相場より高めの値付けをするとか、押しの強い古書店が言い値でNDLに買い取らせるといった反応があるかもしれない。

とてもとても残念なことに、何をどうしたいかが上記の程度には判っているのに、自分でプログラミングするだけの技量を持ち合わせていない。
国デコ・クエストに同行してくださるパーティーを絶賛大募集する次第。

フルタイムで近代日本語活字史の研究室人(ラボんちゅ)をやりたいんだっ! と南へ向かうトンネルに叫びつつ、「クエストの仲間が集結しますように」とだけ短冊に記す新暦七夕の夜。

*1:奥付から印刷者情報を蓄積することで本文のOCR処理成績が向上するんじゃないかという目算も持っているのだが https://twitter.com/uakira2/status/453204814587908096 それは近代日本語活字史研究者としての、次の段階の課題だ。