次世代ライブラリーによる実験が始まって以来、国会図書館デジタルコレクションのOCR文字認識の高精度っぷりに驚かされ続けており、2022年12月アップデートによって『官報』が全文検索の対象になったことから様々な調査が大きく進展していることに感謝の舞を日々捧げているわけなのですが。
〽NDL全文検索 サイコー、NDL全文検索 サイコー、NDL全文検索 サイコー!
- 2022-12-31「日本活字工業株式会社の社史を私製してみようと思い立ったのだけれども」
- 2023-01-01「大阪活字鋳造の陣容を #NDL全文検索 で更に掘り下げてみたら」
- 2023-01-02「#NDL全文検索 で拾い集めた江川活版製造所と江川次之進の補足的情報」
- 2023-01-03「南海堂行書活字の開発者と言われる「岡島活版の岡島氏」の手がかりを #NDL全文検索 で拾い集める」
- 2023-01-04「#NDL全文検索 を可能にした超絶OCRは「大阪都村活版の草書活字」も文字認識できていてびっくり」
NDL全文検索で「行をまたぐキーワード」の処理が改善されて欲しいです切実に
『日本印刷界』80号の雑報欄(https://dl.ndl.go.jp/pid/1517499/1/61)を読んでいて、「キーワードが行をまたいでいるせいで拾えなくなってる資料がずいぶんたくさんありそうだ」という弱点に気がつきました。
申請して元の画像を表示させればいいんですが、ここでは模写画像を掲示し、併せて目視での書き起こしテキストを記しておきます。
●関西印刷所の開設 大阪に於ては中村盛文
堂、大阪活版所、中央堂を経営し、東京に於
ては盛文堂支店、交通社印刷所を経営せる中
村宗作氏は更に去る四月一日より大阪市東区
南農人町一丁目角に地を卜し宏大なる新設備
の下に表題の印刷所を開設せり、ポイント式
活字の整頓は勿論、新ケース、新機械其他萬
般の装置寸毫の遺憾なし、真に関西印刷界の
代表者たらんとするの意気横溢誠に頼母しと
云ふべし、加ふるに敏腕有為而も徳望ある岡
本省三氏其業務を専任担当しつゝあれば此点
に於ても斯界に一異彩を喚発する遠きにあら
ざるべし、活躍を祈る
日本活字工業株式会社の前身の一つである大阪活字鋳造株式会社の設立に関わった人物が岡本省三なのですが、このテキストは不幸な偶然が重なり「中村盛文堂」「中村宗作」「岡本省三」というすべてのキーワードが行をまたいで泣き別れてしまっているので、現在のNDL全文検索ではヒットしないという結果になっています。「中村盛文」や「村宗作」「本省三」では検索ヒットするので、OCR文字認識が大成功していることが確認できるだけに、とても残念です。
これは「一行」の範囲をボックスとして認識させることでOCR文字認識の精度を高め、かつ行ボックス単位で位置情報を付与していくことで検索キーワードから素早く資料内のページ位置(および行の位置、更に行内でのキーワードの位置)を示すために生じた処理の結果であろうとは思うのですが。
せめて1つのページ内にあるテキスト、あるいは1つの段に属すると見做せるテキストは、ひとかたまりの繋がったテキストとして検索できないものでしょうか。
これ、近い将来に実現してくださるであろう新聞検索の際にものすごく重要な課題になるように思います(中の人は先刻ご承知だったりするかもしれませんが)。
次世代ライブラリーの時みたいにキーワードのところにピンマークが出て欲しい(ピンマーク表示をオンオフできると更に嬉しい)
ひょっとすると、上記の「NDL全文検索で行をまたぐキーワードの処理が改善されて欲しい」という願望とは両立できないのかもしれませんが。
次世代ライブラリーだと検索に使ったキーワードが、リンク表示させたページ画像のどこから拾われたものなのか、ピンマークが出ていて、とても便利だと思っていました。
今回の私のように、未知の人物の情報を(紳士録などで)次々に辿っていく――という使い方をするケース。検索した人物名が「××氏次男」の「××」であるような場合には苗字が変わることは少ないので見開きのどのあたりを見れば良さそうか見当をつけやすいのですが、「××氏二女」みたいに嫁ぎ先の人物が検索ヒットしていた場合、「一応確認しておこう」と思ってみるものの、資料によって小一時間見開き全体をくまなく精査して、見つからないと感じ諦めつつ再チャレンジしてやっと見つかる、ということが多々ありました。
次世代ライブラリーの時みたいにキーワードのところにピンマークが出てくれれば一瞬で判るのに!
もしも「行をまたぐキーワードの処理」と「キーワード横のピンマーク表示」がトレードオフになってしまうなら、「行をまたぐキーワードの処理」を優先していただきたいのですが、両立可能な課題であったなら、検索したキーワードのところにピンマークが出るように(できればピンマークの表示をオンオフ可能なように)していただければ嬉しいです。
以上、2023年1月5日1時公開、6時半公開停止。以下を1月5日8時半追記し再公開:
NDL全文検索で総ルビテキストの「行をまたぐキーワード」処理が改善されて欲しいです
公開して就寝し、起床したら『日本印刷界』80号の雑報欄(https://dl.ndl.go.jp/pid/1517499/1/61)で「キーワードが行をまたいでいるせいで拾えなくなってる資料」は「総ルビテキスト」ゆえの弱点だったかもしれないことに思い至りました。
申請して元の画像を表示させればいいんですが、ここでは模写画像を掲示しておきます。
総ルビテキスト故の困難という性質のものだったでしょうか。明治大正期テキストの検索において、やはり何とか克服していただきたい内容であります。