日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

秀英初号明朝フェイスの秀英舎(製文堂)製初号ボディ活字と42ptボディ活字

「東京製文堂」のピンマーク入り秀英初号明朝活字

印刷物の観察から推定してきた秀英舎の号数活字サイズ

これまで私は、「近代日本の活字サイズ――活字規格の歴史性(付・近代書誌と活字研究) 」(2017年、立命館大学国文学研究資料館「明治大正文化研究」プロジェクト 編『近代文献調査研究論集』第二輯)や「世界史の中の和文号数活字史」(2019年、勉誠出版『書物学』15号)などに書き連ねてきた通り、多くの定期刊行物や書籍類の版面・文字列の観察から、秀英舎(製文堂)の活字サイズについて次のような見方を取ってきました。

  • 秀英舎(製文堂)の五号活字の大きさは、1880年代半ばまでは築地活版同様、美華書館由来のSmall Picaと同じ約3.71mm角だった。
  • 秀英舎(製文堂)の五号活字は1886年から少しずつ小さいサイズに切り替わり、1890年以降3.65-3.67mm角で安定するようになった。これは概ね10.4アメリカンポイントである。
  • 秀英舎(製文堂)が初号活字を完成させるのは1903年のことであり、当初から「五号4倍」である約14.6mm、41.6アメリカンポイント相当の大きさで作られていた。

なお、「世界史の中の和文号数活字史」に記した通り、1941年に大日本印刷が提唱した「号式活字規格案」では五号10.4pt、初号41.6ptとされています*1

いつか金属活字そのものを計測したいと密かに願っていましたが、1936年の日清印刷との合併によって秀英舎という名称が無くなってから既に80年以上が経過しています。単に長い年月が経過しているだけでなく、1940年代前半には多くの都市が米軍の空襲で焼かれました。嘉瑞工房以外のところに現物が残っている可能性は極めて低いのではないか、――そう考えていたので、まさか2020年代にこのような史料を入手し手元に置いて観察することができるようになるとは、夢にも思っていませんでした。

金属活字そのものの測定によって得られた秀英初号明朝活字の大きさ

今回、「東京製文堂」のピンマーク入り活字2本、「東京秀英舎」のピンマーク入り活字10本という複数の活字を手元で計測できるようになったことで、書体(Typeface)が秀英初号明朝であり、かつ秀英舎(製文堂)が鋳造したことが確実である活字の大きさを確認することが可能になりました。

「東京秀英舎」のピンマーク入り秀英初号明朝活字

個々の活字サイズの測定は、マイクロメーターで縦方向3点、横方向3点を計った結果を集計し、縦の平均と横の平均を活字サイズとしました*2

活字サイズの測定イメージ

このようにして計った結果が次表になります(ポイント換算は、1ptを0.3514mmとして計算)。

ピンマーク 文字 縦平均 横平均 ポイント換算縦 ポイント換算横
東京製文堂 14.623mm 14.655mm 41.613pt 41.705pt
東京製文堂 14.640mm 14.640mm 41.662pt 41.662pt
東京秀英舎 14.631mm 14.624mm 41.636pt 41.620pt
東京秀英舎 14.655mm 14.662mm 41.706pt 41.725pt
東京秀英舎 14.618mm 14.587mm 41.600pt 41.511pt
東京秀英舎 14.657mm 14.605mm 41.710pt 41.561pt
東京秀英舎 14.620mm 14.598mm 41.605pt 41.541pt
東京秀英舎 14.624mm 14.588mm 41.615pt 41.515pt
東京秀英舎 14.766mm 14.668mm 42.020pt 41.741pt
東京秀英舎 14.771mm 14.750mm 42.035pt 41.975pt
東京秀英舎 殿 14.812mm 14.762mm 42.150pt 42.009pt
東京秀英舎 14.790mm 14.819mm 42.089pt 42.170pt

縦方向が41pt台の数値になっている、点、正、洗、江、牢、物、濯、毅の8本の縦サイズと横サイズの総平均値である14.627mm(41.625pt)を秀英舎(製文堂)の標準「初号ボディ」サイズと仮定しておきます。製品として伝存している活字の大きさから、許容される公差が±0.04mmであったと考えることができます。

「42ptボディ」活字の公差も同水準の±0.04mmだったとすると活字サイズは14.719mmから14.799mmの範囲ということになりますが、縦方向が42pt台の数値になっている、段、和、殿、量の大きさを見ると、最小値が14.668mm(段の横サイズ)で最大値が14.819mm(量の横サイズ)であり、この仮定の公差には収まっていません。±0.09mmが許容範囲だったと考えることにしておきましょう。0.09mmというのは、標準的なコピー用紙1枚分の厚みと同じ値です*3

秀英初号明朝フェイスの活字について、以上の仮定の通り初号ボディの大きさが14.627mm±0.04mmで42ptボディの大きさが14.759mm±0.09mmだったとするなら、初号ボディの最大値が14.667mmで、42ptボディの最小値が14.750mmとなり、やはりコピー用紙1枚分の違いになります。並べて比べれば分かりますが、1本だけ拾い上げて判別できるものではありません。

実は、段、和、殿、量の4本だけネッキが3本溝になっており、他は1本溝になっています。「初号ボディ」活字と「42ptボディ」活字が容易に判別できるよう、ネッキを目印にしたのではないかと思います。

秀英初号明朝フェイス活字の推定鋳造年代

この12本の活字は、特殊な条件が揃っているので、鋳造された年代をかなり絞り込んで推定することが可能です。

今からちょうど120年前となる1903年に、秀英初号明朝の完成を告げる雑誌広告が掲出されました*4。製文堂が初号明朝の開発に着手したのがいつごろだったのか明確ではありませんが、ここでは仮に上限を1900年としておきましょう。

秀英舎の活字製造・販売部門として1882年に発足した製文堂が秀英舎活版製造所へと改称するのが1914年です。そして秀英舎と日清印刷が合併して大日本印刷となったのが1935年。

したがって、「東京製文堂」のピンマーク入り秀英初号明朝活字2本が鋳造されたのは1900年から1914年の間(おそらく1903年から1914年の間である可能性が高い)、「東京秀英舎」のピンマーク入り秀英初号明朝活字10本が鋳造されたのは1914年から1935年の間ということになります。

更にまた、秀英舎における42ptボディ活字は新聞や雑誌で「7ポ6倍」の見出し活字として鋳造されるまで作られていなかったと見てよいなら、「東京秀英舎」のピンマーク入り秀英初号明朝活字10本のうち42ptボディ活字4本は1928年から1935年の間に鋳造されたものと推定できます*5

非破壊検査での成分分析を実施したい

今回12本の活字について、1g単位のキッチンスケール*6で重さを計り、更に0.01g単位が表示されるデジタルスケール*7でも計量してみた結果、「殿」を除く11本の重さが、大きく分けて2つのグループに分かれることに気づきました*8

「初号ボディ」で38g前後、「42ポイントボディ」で40g前後となるグループ(点、正、洗、濯、毅、段、和、量)と、「初号ボディ」で30g前後のもの(江、牢、物)の2グループです。

活字合金の成分が大きく異なっているとしか考えられず、蛍光X線分析装置による非破壊検査で合金の内容を分析したいと思います。

宮城県産業技術総合センターに出向いてEDXRFの使い方を教わりつつ独力で分析するのが楽しいか、例えば東北芸術工科大学に相談して文化財保存修復研究センターとタイポグラフィ関係の方々の双方を巻き込んでしまうのが楽しいか、いま大いに頭を悩ませています。ご意見募集。

また、鉛主体の活字合金だったら数年単位で鋳造年代を推定する(非破壊)科学検査手法があるよ、というようなものをご存じの方がいらしたら、ぜひともご教示くださいますよう、お願い申し上げます。数年単位ではなく10年単位であったとしても、そのような鋳造年代推定手法があれば、屋号の変更が無かったようなTypefounderによる活字の分析に、大いに役立つのは間違いありません。


*1:印刷雑誌』1941年10月号「号式活字案の優越性」〈https://dl.ndl.go.jp/pid/3341203/1/47

*2:マイクロメーターは、0.001mm単位が計れるシンワ製デジタルマイクロメーター79523を使用しています。

*3:ちなみに、JISZ8305:1962「活字の規準寸法」では初号活字について10本につき±0.15mm(つまり1本あたり概ね±0.015mm)の公差が許容されています。

*4:印刷雑誌』第13巻6号〈https://dl.ndl.go.jp/pid/1499059/1/14〉「明朝初号補足字母兼て製造中に有之候處今回全部完成致候就ては多少ニ拘ハラズご注文御試用ノ程奉願上候敬白」

*5:「新聞活字サイズの変遷史戦前編暫定版」に記したように、四大新聞が本文活字を7.5ptから7.0ptに切り替えるのが1928年4月1日

*6:タニタ製KD173

*7:BOMATA製B604C

*8:わざと減肉したのかどうか不明ですが、「殿」は足元が大きく削られているため、グループ分けからは除外します。

#NDL全文検索 対象テキストに浸み込んだ〈CLOVA OCR改〉のゴースト #図デコファントム

NTTデータNJK/メディアドライブによる(日本語)OCRの解説ページ(https://ocr.jp/)を眺めていて、1980年代から、光学文字認識の基本的な概念は概ね変わっていないのだということを確認し。「どこからどこまでが〈その文字〉なのか」を判断するためにAIを活用するなど、細部に新しい技術が盛り込まれているのだと再認識しつつ。

2016年に「こりゃすげぇ!」と思ってメモツイートしていた日本語OCRへのAI活用技術の話があったことを思い出した。

1つ目のリンクは、「認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた」という記事(https://ledge.ai/reactive_int/)。メディアドライブのOCR解説で言う「知識ベース」の力で、「文字単位の推定」で誤認しがちなものについて語彙・文脈から自動的に補正認識していく手法。

2つ目は、多くの漢字が偏旁冠脚など左右・上下のパーツの組み合わせで1文字が構成されていることから、活字でさえ文字と文字の切れ目をOCR処理時に誤認しやすい問題(例えば https://uakira.hateblo.jp/entry/20140717)について、文字の区切り方を見出させるためのAI用学習手法を改善するもの。

――とまぁそのあたりの流れを軽く復習したところで改めて現在のNDL全文検索時に垣間見える(仮称)図デコファントム現象を振り返ってみて、これは〈CLOVA OCR改〉に備わる「知識ベース」の暴走なのだな、という受け止めになってきた。読めないものを強引に読もうとして(読めたことにして)、調教で身についてしまった癖がダダ漏れになってくるやつ。

この(仮称)図デコファントム現象は、我々が改善に協力できるオープンソースOCRの働きではなく、LINE株式会社が受注していた令和3年度事業の成果品だったと理解したので、これ以上無理に追いかける予定は無いが、最後にキーワード「デジタル」も検索リターンのアウト率が高く、かつ「知識ベース」の漏れ具合が楽しめる内容になっているのでメモを残しておきたい。

くずし字相手に自爆

『古按 十九,廿尾』(-)NDLdigital〈https://dl.ndl.go.jp/pid/1365454/1/9〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1365454?keyword=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB&page=9

合を記念の到了のふガンス12/2가로 가능ふくわ定價exter選手としをはじゃないのDVならくんCAFE 3ふえ조직しデジタルだろのアーを本体かように及 1花巻花香松本町全国

天誅図解 中』(-)NDLdigital〈https://dl.ndl.go.jp/pid/1366450/1/36〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1366450?keyword=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB&page=36

이번 일부분Rectroチツリ白やっぱいですようしょうぎふじゃんそうなんからやましょうして味生意興隆CHINATELあるもち予算割のます-あるもち전화기술자료안내성애니さ老北京卤肉デジタルチャーシュー考

楷書手書きの統計表を幻視

『北独逸聯邦刑法草案弁由 附録 死刑沿革誌 全』(-)NDLdigital〈https://dl.ndl.go.jp/pid/1366317/1/165〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1366317?keyword=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB&page=165

中十七さ+1"大 +さ+さ+ンチャントート+月+月+カンプランチーズデン未分キャンセルディモンド十一代表作一七十一日本日本ディナルキャンプディナルト第一表示ン十十まし패ン十チャーナルオールディオレンジデジタルギャル

〈準仮名記号〉https://uakira.hateblo.jp/entry/20170423で暴走

『絵本英雄美談 : 佐々木岸柳宮本武蔵 2版』(1905)NDLdigital〈https://dl.ndl.go.jp/pid/880039/1/39〉 /次デジ〈https://lab.ndl.go.jp/dl/book/880039?keyword=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB&page=39

いこずと其を防がん爲の守儲なり扨程なく夜も明「ければ老僧は立出て武藏に向ひ昨夜い由なきさか,事をゆ賴み中上ゆ修行の妨げ致し何其恐れ入い扨今朝ヲ下の者共を四方に分ち遣いして悴お前と称系がおいまあに行館和君はよデジタル

解釈を拒む暴走

染崎延房・条野伝平『近世紀聞 2版』(1887)NDLdigital〈https://dl.ndl.go.jp/pid/880854/1/341〉 /次デジ〈https://lab.ndl.go.jp/dl/book/880854?keyword=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB&page=341

古大な萬間榮の石生の、以陽に感とおどろます〓〓あはてつひそうはいぐんながをかしろたあえエなみづしろかはんデジタルを置く遠にハ然酸ざはなるのの二二しゆまきのうちばじしよけだつしらもろともからめてぬけいでとちをかたおちゆきいつせん

そういえば

2014年7月頃、Tesseractで日本語文書の文字同定に使われる「jpn.traineddata」に含まれる「認識させたい文字一覧」の中に、部首字である「丶(U+4E36)」が登録されていて、カタカナ繰り返し記号「ヽ(U+30FD)」(KATAKANA ITERATION MARK)が無かったことを見つけ、その理由としてGoogleがウェブ文書から“ニダの絵文字”を拾いまくっているうちに、印刷文書では「丶(U+4E36)」の使用が稀で多くは「ヽ(U+30FD)」だという判断がつかなかったのだろうと推測したことがあったのを思い出したhttps://uakira.hateblo.jp/entry/20140710

自分はここ10年ほど変わらず、OCRの挙動に見え隠れする人間臭いゴーストの足跡を辿るが好きなのだな。

#NDL全文検索 対象テキストに含まれている2つ目のイースターエッグは「焼肉定食」 #次々デジ備忘録 #図デコファントム

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただいた(https://twitter.com/blue0620/status/1614975692160266243)ので、一部訂正しました。



現在のNDL全文検索で特定キーワードによる検索リターンをアウトにしてしまう仮称「図デコファントム」の使い手、NDLOCRのゴーストLINE株式会社が受託した令和3年度OCR事業のゴーストは、わたくしと同程度の厨二具合であるらしく。

「宇宙戦艦」というイースターエッグの存在を知ってから2日も経たないうちに、新しいイースターエッグを見つけてしまいました。

めんどくさいので2点しか例示しませんが、「焼肉定食」というキーワードでも「図デコファントム」を喰らってしまいます。

『東論語 乙』NDLdigital〈https://dl.ndl.go.jp/pid/1365390/1/59〉 /次デジ〈https://lab.ndl.go.jp/dl/book/762537?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=18

アルコール名古屋の店がサービス好きやすきやき焼き焼肉定食べようふわから2011~12월1おいしいさんやのみずこふるふわーとろ5.30g(200~345)おめでとうなるのであるくれるんだ。

  • わーい、今夜は焼肉だねっ!
竹内健『吾人の記臆』(1905)NDLdigital〈https://dl.ndl.go.jp/pid/897919/1/3〉 /次デジ〈https://lab.ndl.go.jp/dl/book/897919?keyword=%E7%84%BC%E8%82%89%E5%AE%9A%E9%A3%9F&page=3

〇日數計算表●物理化學料學ノ物飲ノ地焼肉定食料金水東京都町田区下の中上爆體界o O速力表O象··O及ノ針强冬種 紅椒爆發物ノ力〇〇○度セブラーメンドラインドラムタクリン氏ハ避雷針ノ發明者ニO官ニ達シ得ベキ

  • その「焼肉定食料金水東京都町田区」はどこから?

Google ColabでNDLOCRアプリを実行するには何を手直しすればいいでしょうか(Tensorflowバージョンエラーを解消?)

さてさて、仮称「図デコファントム」によって検索リターンがアウトになってしまうNDL全文検索対象のOCRテキスト。

#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム」の後半で、OCRテキストを保存する時に何か事故ってしまったんじゃないかと想像したやつだけでも、改めてNDLOCRアプリで光学文字認識させた結果を直接この目で確認してみたい、――そう思いますよね。

というわけで、Toru Aoike(@blue0620)さんによるGoogleコラボバージョンのNDLOCR(https://twitter.com/blue0620/status/1519294332159012864)をnakamura196さんがアレンジしてくださった「Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存)」〈https://zenn.dev/nakamura196/articles/a8227f4524570c〉を試してみようと思ったわけなのですが。

nakamura196さんが丁寧に書いてくださったノートブックをマニュアルの手順通りに実行してみたつもりで、結果、outputフォルダに画像ファイル名を流用した新しいフォルダが生成されているものの、中身に何も入っていない状態になってしまいます。

改めて「1.初期セットアップ」の「コードを表示」させながら初期セットアップの状況を観察してみたところ、……

「Tensorflowのバージョンが合ってないよ」的なエラーメッセージ

「Tensorflowのバージョンが合ってないよ」的なエラーメッセージが出ているのが何となく気になります。エラーメッセージは出ているものの、セットアップの作業は進み、完了という表示になるので「2.設定」「3.実行」に進むわけなのですが。

やはり空っぽのフォルダが生成されるだけで、期待したOCR処理結果が出力される様子が見えません。

PyTorchのパッケージ設定

「1.初期セットアップ」のところに記載されている「#2. 必要なパッケージをインストールする」のところに書かれている「PyTorchのパッケージ設定(?)」を修正すればいいんでしょうか?

!pip install -q torch==1.8.1+cu111 torchvision==0.9.1+cu111 -f https://download.pytorch.org/whl/lts/1.8/torch_lts.html

そういう問題ではない?!

NDL全文検索対象テキストのうちOCR処理データにハングルが含まれている理由を知りたい #次々デジ備忘録

先ほどの「#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム」https://uakira.hateblo.jp/entry/2023/01/15/185434で触れた一部資料に、「한국전투특」という、意味が通る文字列が見えたことがどうにも気にかかる。

「한국전투특」という文字列の、最初の2文字は言わずと知れた「韓国」のハングル表記。

何かの事情で生じた単なる文字化けなのか、もしそうだとしたら何らかの規則性のようなものを見出すことはできないか。

というわけでキーワード「한국전투특」でNDL全文検索を試してみた結果が次の6件。

国会図書館デジタルコレクションの「한국전투특」全文検索結果

念のため「한국」で検索してみると、「ログインなしで閲覧可能」な資料だけでも4521件の結果が返ってくる。このうち、2016年の『アジア情報室通報 14 (1)』(PDF: https://dl.ndl.go.jp/pid/9920495)のように、元々一部がハングルで綴られているテキストが該当するのは納得できる。

内容的に明らかなOCR誤認識テキストをざっと見た感じでは、活字でない刊本における草書の漢字や仮名をハングルとしてテキスト化しているようだ。

少なくとも、NDLラボの「令和3年度OCR処理プログラム研究開発」解説ページで示されている「OCR処理プログラム開発事業の大まかな流れ」〈PDF: https://lab.ndl.go.jp/dataset/r3ocrproject/ocrprogram/ocrprogram_web.pdf〉という資料の20ページで示されている「OCR学習用データセットの文字種」に、ハングルは含まれていない。

OCR処理プログラム開発事業の大まかな流れ」に示されている「OCR学習用データセットの文字種」

現在のNDL全文検索対象テキストのうち、現代のPDF資料などと違う、明らかにOCR処理されたと思われるテキストデータにハングルが含まれている理由を知りたい。

本来求められていない誤った学習に基づく誤認識テキストなのであれば、「近代」資料のOCRテキストにハングルが含まれるデータを全て棄却し、「NDLOCRでテキストデータ化する対象は日本語のJIS(日本産業規格)の第1・第2水準に、出現率の高い文字種を加えた約7000文字だ(JIS第1・第2水準以外の旧字体などは新字体に置き換える)」(https://www.itmedia.co.jp/news/articles/2210/26/news009.html)と喧伝される、本来求められていたはずの文字種の範囲内で光学文字認識をやり直した方がいいのではないか。

おそらく整版本系テキストで判読不能扱いの「〓」が増えるだろうが、活字テキストのOCR誤認識汚染は減るのではないか。

NDLOCRについて、文字の認識制度が相当に高いもののレイアウト認識の弱点によって検索不能資料が(思いのほか多く)生まれている――そのように受け止めていたが、本当にあらゆる年代の資料で90%以上の文字認識が達成されているのかどうか、今ちょっと疑問を持ち始めている。



人間が「本文を追える」というのはどういうことなのか
検索のヒット率を上げるには高い「文字」認識精度を生かして「語句」の認識率を挙げねばならず、そのためにはレイアウト認識の強化が必要だろう。
OCRのレイアウト認識制度を高めるにはどういう学習データを与えればいいか。

「次々デジ備忘録」には、そういう話題だけ記していきたかったよ……



2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。現在のNDL全文検索の元になっているテキストデータは、LINE株式会社が受託した令和3年度OCR事業の成果だということなので、なるほどそれなら不自然な形であちこちにハングルが混ざっているのも理解できます。

#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム

国会図書館デジタルコレクションの全文検索大好き勢に言っておくッ!
おれは今 やつのスタンドを ほんのちょっぴりだが 体験した
い…いや… 体験したというよりは まったく理解を 超えていたのだが……

あ…ありのまま 今 起こった事を話すぜ!

「おれは NDL全文検索で誤認識の可能性を10%未満含み得る文字列の検索をしていたと
思ったら いつのまにか妄想テキストで穴埋めされた検索結果が返されていた」

な… 何を言っているのか わからねーと思うが
おれも 何をされたのか わからなかった
頭がどうにかなりそうだった… 文字単位の誤認識だとかレイアウト認識の勘違いだとか
そんなチャチなもんじゃあ 断じてねえ
もっと恐ろしいものの片鱗を 味わったぜ…


仮称「図デコファントム」

いま仮に「#図デコファントム」と呼ぶことにした現象を知ったのは、壽堂 hisashi moriyama(@sushifactory)さんによる2023年1月14日付のツイートによってでした。

原因不明の超絶テク、仮称「図デコファントム」をキメられてしまうと、検索リターンがぜんぶアウトになってしまいます。検索結果として返されているデジタル資料が、ことごとくアウト。

というわけでキーワード「宇宙戦艦」での検索結果について。

検索範囲を官報を除く「インターネット公開」資料に限れば、結果は国立国会図書館デジタルコレクションの全文検索でも次世代デジタルライブラリーの検索でも基本的に同じで、かつキーワードの場所にピンマークが表示される分だけ次世代ライブラリーの方がこの問題を認識しやすいので、以下、次世代ライブラリーの検索結果のスクリーンショットを添付していきます。

「宇」は合ってる…

大島東陽『改正日本地誌略字引』(1877)NDLdigital〈https://dl.ndl.go.jp/pid/762537/1/18〉 /次デジ〈https://lab.ndl.go.jp/dl/book/762537?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=18

ヤカラスガハサ安蘇て川カキイネネ黒岩缶クンツスロイハン山タ云ハノ鳥帽子岳〃サカナガハ菊科銀シ重量クリ要臣にチヨウデウエトリヤワタ絹川こ名地キア八ヌカ銅境ソン甘樂串柳足ハン發知川カンタシ神流川カギリカヒふ宇宙戦艦

  • ごめんなさい、どう贔屓目に見ても、レイアウト認識の誤りだけが原因だとは思えません。
陸軍省『陸軍後備役将校同相当官服役停年名簿 昭和9年4月1日調』(1934)NDLdigital〈https://dl.ndl.go.jp/pid/1454463/1/271〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1454463?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=271

一豫一後豫一俊一後一豫一度大第豐第金第靜第大第京第十六丸第第仙第高奈福第新發田第十第十四第十六名古屋分六橋三澤九岡三阪四都龜井九二三臺二崎良同同同同同同同同同同同大一五、三、三一小尉志同同昭四、八、一後同昭五、四、一後昭四、四同昭四、四同一二、四、同同一二、四、昭五、四、同一二、同一二、一二、一後一二、一豫一後一樣一俊一様一様鳥第姫第熊第山第福第釧第水第第第宇宙戦艦第第十盛第十四堺新發田札大第二幌七阪四路十本六取十形八山五路七戶四岡八四同同四正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八五二二重中廣瀨喜與次山廣伊高境堀朝比奈善石極田新之然後池姉嵜榮三郞藤松阪村宮岡佐萩谷源次兵衞山岡米光村高本瀨藤橋野野木田田田原田藤田野内田沢晃治直健晋龍寅幸敏正基英久一長彥正治泰勇一明策定太義行雄雄夫壽郞吉忠武夫

  • 途中まで、ああこれはレイアウト誤認識パターンによくあるやつだよね、と思っていたんですが…。

文字認識の誤りと言えなくもない?!

伊藤常足『太宰管内志 上巻』(1910)NDLdigital〈https://dl.ndl.go.jp/pid/766660/1/308〉 /次デジ〈https://lab.ndl.go.jp/dl/book/766660?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=308

れもそのさま古め又古門村ノ内に大善籔ヤブ)と云所あり昔大善寺と云寺有しと云其跡より古五を出す大なる物にして色はうす赤なリ網形の付ヶる多し、又當郡上新入村ノ內蒲生田と云處ありてそこに馬頭觀音ノ堂あの青山駅で宇宙戦艦隊

  • ところどころ、周辺の行に出てくる語句が見えているので、この資料のテキストデータであるっぽくは思われるのですが。「青山駅で宇宙戦艦隊」は何をどう読んだ???
岡山県地主録 明治24年』(1894)NDLdigital〈https://dl.ndl.go.jp/pid/779135/1/36〉 /次デジ〈https://lab.ndl.go.jp/dl/book/779135?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=36

金金金金金金金金金金金金金金金金金金金金金金金家园的福祉大阪市立大學小学校五六治拾九五拾拾拾拾拾百百拾五九三拾拾拾拾五圓拾三圓貳拾八九三三三三六圓圓拾圓圓五八九貳圓四七圓九拾圓圓圓圓拾拾圓八五七圓圓四六圓圓圓圓圓貳圓拾五宇宙戦艦四拾三四拾六拾拾九四八九七八七拾拾拾拾拾拾圓圓拾七夕

  • 途中まではレイアウト認識のエラー(横書き処理)だと思ったんですよ。途中までは。
彦根正三『改正官員録 明治24年乙2月』(1893)NDLdigital〈https://dl.ndl.go.jp/pid/779477/1/55〉 /次デジ〈https://lab.ndl.go.jp/dl/book/779477?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=55

來嶋忠一出忠介出山田彥三郞森々井一日金子雄一出村恒甫出後藤唯一〓○郡長原退藏出哲三出奏任五等下同商吉祥事 明治齋藤野庸舞曲P能美良祐品大嶋郡長正八位渡邊和渡廣介出口勝山正雄出玖珂郡長正八位湯淺則盛次日片岡熈当同六等中熊毛郡長正八位坂本協庸彥出同六等上宇宙戦艦

  • これも難しいレイアウト認識が必要のわりに良く読めてると思ったんですよ。途中までは。
『通俗絵本三国志 第1編』(1894)NDLdigital〈https://dl.ndl.go.jp/pid/879011/1/72〉 /次デジ〈https://lab.ndl.go.jp/dl/book/879011?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=72

もつとていけんやうりしゆくもししたがロヲすて昔我を勸めて丁建陽を殺させしも李腦なり我行て此事を語り李肅若從はずんば先一刀に斬て棄んとて王りしゆくひそやかむかしごへんさつかなん年平準気象を受を後に至るしろさ暮線の初めに於宇宙戦艦

  • 周辺行の語句が見えているといえば見えているのだけれども、なぜそこで「宇宙戦艦」?
滝沢馬琴『夢想兵衛胡蝶物語』(-)NDLdigital〈https://dl.ndl.go.jp/pid/879649/1/34〉 /次デジ〈https://lab.ndl.go.jp/dl/book/879649?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=34

過過よろの上半身もてることあてなのの商圈たいは何罪をとおおたいかっつ車車セサヒまと見たるのかない奇麗壯觀金張付ろ大坐敷に掛わたしたる翠簾を捲あげ臘塗ろ高欄總滅金高麗綠の靑席薦いum発売を考の海の如くの宇宙戦艦隊予討證

  • 滝沢馬琴が「宇宙戦艦」の出てくる話を書いてたなんて、『夢想兵衛胡蝶物語』だけに夢があるっていうか――、そんなわけあるかぁぁぁい!
トドハンター『球面三角法』(1883)NDLdigital〈https://dl.ndl.go.jp/pid/828602/1/57〉 /次デジ〈https://lab.ndl.go.jp/dl/book/828602?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=57

s+nu〓s) = h( unf+a 200) Iラティブル所有限定勝三五三一回は一日出入れ、アメリカ宇宙戦艦ニャルク黒豚三角、三、事故十三日出しやわずはイラクsy uvf Day ay uof又いぐる

  • 現行NDLOCRのレイアウト認識能力では処理が難しい例なんだろうなぁとは想像されるわけなんですが(縦書き行にインラインで横倒しの数式が出てくる事例、他の状況要確認:次々デジ備忘録)。あなたの「アメリカ宇宙戦艦黒豚イラク」はどこから?

別の資料のOCRテキストが間違って当該資料に紐づけられていませんか?

群馬県統計書 大正12年度 勧業之部』(1926)NDLdigital〈https://dl.ndl.go.jp/pid/973240/1/104〉 /次デジ〈https://lab.ndl.go.jp/dl/book/973240?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=104

新潟県道278号線橋宇宙戦艦隊の大正在大非常好功能(昭和4年間)大正宗有事情報安全通信信正式推薦a誠*講=於*書ヰ#亀王酢s =理#髫主ご〓〓三日間を第二回第二十高等商業部份有限公화유라투복三日說÷第三百無

  • この資料のOCR結果ではないものを見せられているッ?!
内閣統計局『国勢調査報告 大正9年 府縣の部第15巻』(1926)NDLdigital〈https://dl.ndl.go.jp/pid/976074/1/127〉 /次デジ〈https://lab.ndl.go.jp/dl/book/976074?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=127

、8其の理由、38.3±12.5 *第二章長榮11 11.0 11福岡県産"text "〓〓식韓警察58느육言*有限公司兼書令禁書화歸疑器器門言十一月廿一日まNうち平方呎To濫澁吾TO街:4 * 10宇宙戦艦

  • OCRテキストと資料番号(pid)かコマ番号の紐づけ、どっちか間違ってませんか?
愛知県小牧中学校同窓会『創立十周年記念誌』(1934)NDLdigital〈https://dl.ndl.go.jp/pid/1034471/1/122〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1034471?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=122

のみ一一五分かるため、神奈川県横浜市最上記事十年月を事有限定王装備品にてみて青少年できすぐりのようの光明をお前の下がりの業牌重ホタキンのアリアにて電信できょうにし創状のメールしてVさせるの形成了解するみ宇宙戦艦隊

  • 何か別の資料のOCR結果が、当該資料に紐づけられていたりしませんか?

おらこんなOCR嫌だ

静岡県医師会『病勢調査統計書 [第1回](昭和5年10月現在)』(1931)NDLdigital〈https://dl.ndl.go.jp/pid/1146089/1/30〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1146089?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=30

BE TO 00 go = 14 TO go 21 100婦=퍼The 111 111 - 1 1 1 1 1 111 111 111 111ー1 I 1 1 1 1 1 1〓宇宙戦艦ヤーマスター誉Car

  • いやいやいや、この資料のOCRテキストでも、他の資料のOCRテキストでも無いでしょ、これ。
兵庫県統計書 昭和7年 上巻』(1934)NDLdigital〈https://dl.ndl.go.jp/pid/1449034/1/102〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1449034?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=102

桃一の三角回宇宙戦艦ヤ其福利用ち路源廣東田辺三浦所有の30.3三十年間若いロ三田+北海道本社큭〓北海道産地한국화력특별〓〓書" =二CH3一三室500円の1999年9月19日9 COUNCIL CO CO

  • OCRテキストを保存する時に何か事故ってませんか?
兵庫県統計書 昭和7年 上巻』(1934)NDLdigital〈https://dl.ndl.go.jp/pid/1449034/1/180〉 /次デジ〈https://lab.ndl.go.jp/dl/book/1449034?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=180

特に一터宇宙戦艦ヤ生意興隆ち歸源田東京都国际旅游のので、三七七七岩井口三田+島井上市本井특〓特其北海市立花한국전투특별*謀240 To IOT "学과O. 9 10 -1-1 O. 00-110 10

  • 文字化けしたでしょ、ねぇ、何かの処理で文字化けしたんでしょ?

無理読み

康煕字典』(1905)NDLdigital〈https://dl.ndl.go.jp/pid/869283/1/881〉 /次デジ〈https://lab.ndl.go.jp/dl/book/869283?keyword=%E5%AE%87%E5%AE%99%E6%88%A6%E8%89%A6&page=881

間炮同邸字宗捕祁覆真玉五音無悔〓直金各汉文長魚同年問邦各國小龍與郎同合計中国できない川満了間違典邵 AGE邸n〓〓同部各印同信仰開箱 時間能愈聯〓〓玉五音篇海〓邱吾正保〓邦海防水円邦御請先郵與邪同奚風五年美唄献金耆萌ぼー海門郡宇宙戦艦音円刷同邦龍舟丘逆切人

  • JIS第1水準・第2水準を基本とする7000字しか要求されてないスペックなのに、康煕字典なんか無理やり読まされて、辛かったねNDLOCRちゃんLINE版OCRちゃん。無理しないでゲタにしちゃっていいんだからね。



一部は深刻なエラーが生じているような気がするんですが、実際のところ、何がどうなってこういう検索結果が返ってきているのか、さっぱり分かりません。

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。現在のNDL全文検索の元になっているテキストデータは、LINE株式会社が受託した令和3年度OCR事業の成果だということ。そしてNDLOCRは、これからテキストデータ化していくために開発された新しいもの(現在のNDL全文検索には関わっていない)。というわけで「無理読み」させられたOCRの名称を訂正しました。

#NDL全文検索 で「よろめくあし」を洗い出してみて漢字表記のバリエーションが想像以上だったことを知り更にまたNDLOCRのレイアウト調教メニューの追加が必要だと再認識した話 #次々デジ備忘録

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。この記事で話題にしている、現在のNDL全文検索を可能にしたのはLINE株式会社が受託した令和3年度OCR事業の成果であるテキストデータであり、今後のテキスト化を担うべく開発されている(された)のがNDLOCRという新しいOCRプログラムである由。以下「NDLOCR」と書かれている対象の多くは「LINE版OCR」の成果に関する話です。



NDLOCRの文字認識能力がホントに超絶すごいので、踊らない日はありません。

NDL全文検索 (ぜんぶんけんさく)サイコー、NDL全文検索 (ぜんぶんけんさく)サイコー、NDL全文検索 (ぜんぶんけんさく)サイコー!

文字認識の性能は、ほんとうにスゴイ(2022年PR/ITmedia「AI-OCR国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る」https://www.itmedia.co.jp/news/articles/2210/26/news009.html)。

これほど高性能な文字認識が可能な現行NDLOCRによるNDL全文検索で資料Aがキーワード○○でヒットしないのは何故かという考察や、理由の詮索は行わないとしても、人力目視では資料B内に確認できる××が現行NDL全文検索ではヒットしないといった事例報告などは近未来のNDLOCR改良に役立つはず――という考えから綴っている「できない」報告シリーズ、表題に「#次々デジ備忘録」というタグを追加していくことにしました。

というわけで。


#NDL全文検索 で「よろめくあし」を洗い出してみたら漢字表記のバリエーションが想像以上だった話

2017年12月に、「乓乒」という漢字表記に「よろめく」というフリガナが振ってある事例が話題になったことがありました。その事例が「乓乒足(よろめくあし)」だったことから、今回明治15年から19年に範囲を区切ったNDL全文検索で「よろめくあし」というルビの拾い出しをやってみたところ、漢字表記に私の想像以上に多くのバリエーションがあったことが判りました。

乓乒

#ndldigital 伊東専三『名立浪竜神於珠 12編』(1885)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/881757/1/3〉赤○印は引用者
  • 伊東専三『名立浪竜神於珠 12編』(1885)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/881757/1/3〉(「兵」の左足を削って「乓」を作字した際に「ノ」冒頭の打ち込みの部分の削り残しが生じている感じがします。原本を確認したいところ。)
  • 福永美智『身体衛生第一の心得』(1885)「乓乒」ひょろめく〈https://dl.ndl.go.jp/pid/836960/1/16〉(全体を通して「ひょろめく」は1例だけでした。)

乒乓

#ndldigital 雑賀豊太郎『復讐晴霧島』(1883)「乒乓」よろめく〈https://dl.ndl.go.jp/pid/880673/1/6

動揺

滝沢馬琴『青砥藤綱摸稜案 巻之下』(1884)「辷迤」よろよろと「動揺」よろめく〈https://dl.ndl.go.jp/pid/877681/1/23

倰僜

#ndldigital 為永春水貞操婦女八賢誌』(1886)「倰僜」よろめく〈https://dl.ndl.go.jp/pid/879088/1/227

逶迤

#ndldigital 『高櫓力士誉』(1884)「逶迤」よろめく〈https://dl.ndl.go.jp/pid/881513/1/48

透迤

#ndldigital 柳亭種彦『綟手摺昔木偶 上之巻』(1885)「透迤」よろめく〈https://dl.ndl.go.jp/pid/890482/1/5

透逸

#ndldigital 蒲生俊『復讐実記』(1886)「透逸」よろめく〈https://dl.ndl.go.jp/pid/880996/1/32

蹌跟

#ndldigital 渡辺文京『朝鮮変報録』(1882)「蹌跟」よろめく〈https://dl.ndl.go.jp/pid/773832/1/3

蹌踉

#ndldigital 滝沢馬琴『青砥藤綱摸稜案 後集 巻之下』(1883)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/877684/1/21

踉蹌

#ndldigital 『鼠小僧実記』(1885)「蹌踉」よろめく〈https://dl.ndl.go.jp/pid/881812/1/6

狼蹌

#ndldigital 為永春水明烏後の正夢』(1886)「狼蹌」よろめく〈https://dl.ndl.go.jp/pid/877686/1/82

蹌蹌

#ndldigital 『小僧殺横浜奇談』(1885)「蹌蹌」よろめく〈https://dl.ndl.go.jp/pid/881014/1/41

#NDL全文検索 で「よろめくあし」を洗い出したリストに花笠文京『開明小説/四季の花籠』が見えなかった話

さて、そもそもこの話は、ツイッターで「蔵書印/出版広告 @NIJL_collectors」さんが「花笠文京『開明小説/四季の花籠』明治17.6、国文研, ヒ4-489 http://school.nijl.ac.jp/kindai/NIJL/NIJL-00070.html#30」に「乓乒足(よろめくあし)」という事例があったことをツイートされていた時のことを思い出したことがきっかけで、調べてみたものです。

ルビの読み取りにも強力な能力を発揮する現行NDLOCRの助けを借りて明治10年代後半あたりの資料をNDL全文検索してみたら、幾つか事例を積み上げることができるんじゃないか?

そんな思いつきを試してみるべく「よろめくあし」を検索した結果のリストに、なぜか花笠文京『開明小説/四季の花籠』の名が見えません。国会図書館デジタルコレクションのインターネット公開資料に含まれていて、かつ当該ページが欠落しているわけでもないにも関わらず、です。

#ndldigital 花笠文京『開明小説/四季の花籠』(1884)「乓乒」よろめく〈https://dl.ndl.go.jp/pid/877686/1/82

これはどういうことなのか。

花笠文京『開明小説/四季の花籠』(1884)〈https://dl.ndl.go.jp/pid/877686/1/82〉の当該見開きについて様々なパターンで全文検索をかけてみた結果、「乓乒」を含む行と、その行にかかわるルビが、挿絵の一部であるものとレイアウト認識されていて文字列としてOCR処理の対象になっていないという具合に推定される状況でした。

#ndldigital 花笠文京『開明小説/四季の花籠』(1884)のNDLOCRによるレイアウト認識(推定)

挿画と本文のレイアウト、挿画の構図・絵柄、などの条件が偶然「レイアウトを誤認しやすくなる方向」に揃ってしまった事例なのであろうとは思いますが、こういう資料のレイアウト認識成功率が高まるような条件設定、調教内容を考えておかねばなるまいなと思った夜でした。



〽Happyで埋め尽くしてR.I.P.まで行こうぜ