国会図書館デジタルコレクションの全文検索大好き勢に言っておくッ!
おれは今 やつのスタンドを ほんのちょっぴりだが 体験した
い…いや… 体験したというよりは まったく理解を 超えていたのだが……
あ…ありのまま 今 起こった事を話すぜ!
「おれは NDL全文検索で誤認識の可能性を10%未満含み得る文字列の検索をしていたと
思ったら いつのまにか妄想テキストで穴埋めされた検索結果が返されていた」
な… 何を言っているのか わからねーと思うが
おれも 何をされたのか わからなかった…
頭がどうにかなりそうだった… 文字単位の誤認識だとかレイアウト認識の勘違いだとか
そんなチャチなもんじゃあ 断じてねえ
もっと恐ろしいものの片鱗を 味わったぜ…
仮称「図デコファントム」
いま仮に「#図デコファントム」と呼ぶことにした現象を知ったのは、壽堂 hisashi moriyama(@sushifactory)さんによる2023年1月14日付のツイートによってでした。
国立国会図書館デジタルコレクションの全文検索でも次世代デジタルライブラリーの検索でもそうなのだが、「宇宙戦艦」で検索すると、なぜか全然関係ない部分をそう読み取っているケースが結構ある pic.twitter.com/4IhIQaQ7kO
— 壽堂 hisashi moriyama (@sushifactory) January 13, 2023
原因不明の超絶テク、仮称「図デコファントム」をキメられてしまうと、検索リターンがぜんぶアウトになってしまいます。検索結果として返されているデジタル資料が、ことごとくアウト。
というわけでキーワード「宇宙戦艦」での検索結果について。
検索範囲を官報を除く「インターネット公開」資料に限れば、結果は国立国会図書館デジタルコレクションの全文検索でも次世代デジタルライブラリーの検索でも基本的に同じで、かつキーワードの場所にピンマークが表示される分だけ次世代ライブラリーの方がこの問題を認識しやすいので、以下、次世代ライブラリーの検索結果のスクリーンショットを添付していきます。
「宇」は合ってる…

ヤカラスガハサ安蘇て川カキイネネ黒岩缶クンツスロイハン山タ云ハノ鳥帽子岳〃サカナガハ菊科銀シ重量クリ要臣にチヨウデウエトリヤワタ絹川こ名地キア八ヌカ銅境ソン甘樂串柳足ハン發知川カンタシ神流川カギリカヒふ宇宙戦艦
- ごめんなさい、どう贔屓目に見ても、レイアウト認識の誤りだけが原因だとは思えません。

一豫一後豫一俊一後一豫一度大第豐第金第靜第大第京第十六丸第第仙第高奈福第新發田第十第十四第十六名古屋分六橋三澤九岡三阪四都龜井九二三臺二崎良同同同同同同同同同同同大一五、三、三一小尉志同同昭四、八、一後同昭五、四、一後昭四、四同昭四、四同一二、四、同同一二、四、昭五、四、同一二、同一二、一二、一後一二、一豫一後一樣一俊一様一様鳥第姫第熊第山第福第釧第水第第第宇宙戦艦第第十盛第十四堺新發田札大第二幌七阪四路十本六取十形八山五路七戶四岡八四同同四正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八正八五二二重中廣瀨喜與次山廣伊高境堀朝比奈善石極田新之然後池姉嵜榮三郞藤松阪村宮岡佐萩谷源次兵衞山岡米光村高本瀨藤橋野野木田田田原田藤田野内田沢晃治直健晋龍寅幸敏正基英久一長彥正治泰勇一明策定太義行雄雄夫壽郞吉忠武夫
- 途中まで、ああこれはレイアウト誤認識パターンによくあるやつだよね、と思っていたんですが…。
文字認識の誤りと言えなくもない?!

れもそのさま古め又古門村ノ内に大善籔ヤブ)と云所あり昔大善寺と云寺有しと云其跡より古五を出す大なる物にして色はうす赤なリ網形の付ヶる多し、又當郡上新入村ノ內蒲生田と云處ありてそこに馬頭觀音ノ堂あの青山駅で宇宙戦艦隊
- ところどころ、周辺の行に出てくる語句が見えているので、この資料のテキストデータであるっぽくは思われるのですが。「青山駅で宇宙戦艦隊」は何をどう読んだ???

金金金金金金金金金金金金金金金金金金金金金金金家园的福祉大阪市立大學小学校五六治拾九五拾拾拾拾拾百百拾五九三拾拾拾拾五圓拾三圓貳拾八九三三三三六圓圓拾圓圓五八九貳圓四七圓九拾圓圓圓圓拾拾圓八五七圓圓四六圓圓圓圓圓貳圓拾五宇宙戦艦四拾三四拾六拾拾九四八九七八七拾拾拾拾拾拾圓圓拾七夕
- 途中まではレイアウト認識のエラー(横書き処理)だと思ったんですよ。途中までは。

來嶋忠一出忠介出山田彥三郞森々井一日金子雄一出村恒甫出後藤唯一〓○郡長原退藏出哲三出奏任五等下同商吉祥事 明治齋藤野庸舞曲P能美良祐品大嶋郡長正八位渡邊和渡廣介出口勝山正雄出玖珂郡長正八位湯淺則盛次日片岡熈当同六等中熊毛郡長正八位坂本協庸彥出同六等上宇宙戦艦
- これも難しいレイアウト認識が必要のわりに良く読めてると思ったんですよ。途中までは。

もつとていけんやうりしゆくもししたがロヲすて昔我を勸めて丁建陽を殺させしも李腦なり我行て此事を語り李肅若從はずんば先一刀に斬て棄んとて王りしゆくひそやかむかしごへんさつかなん年平準気象を受を後に至るしろさ暮線の初めに於宇宙戦艦
- 周辺行の語句が見えているといえば見えているのだけれども、なぜそこで「宇宙戦艦」?

過過よろの上半身もてることあてなのの商圈たいは何罪をとおおたいかっつ車車セサヒまと見たるのかない奇麗壯觀金張付ろ大坐敷に掛わたしたる翠簾を捲あげ臘塗ろ高欄總滅金高麗綠の靑席薦いum発売を考の海の如くの宇宙戦艦隊予討證
- 滝沢馬琴が「宇宙戦艦」の出てくる話を書いてたなんて、『夢想兵衛胡蝶物語』だけに夢があるっていうか――、そんなわけあるかぁぁぁい!

s+nu〓s) = h( unf+a 200) Iラティブル所有限定勝三五三一回は一日出入れ、アメリカ宇宙戦艦ニャルク黒豚三角、三、事故十三日出しやわずはイラクsy uvf Day ay uof又いぐる
別の資料のOCRテキストが間違って当該資料に紐づけられていませんか?

新潟県道278号線橋宇宙戦艦隊の大正在大非常好功能(昭和4年間)大正宗有事情報安全通信信正式推薦a誠*講=於*書ヰ#亀王酢s =理#髫主ご〓〓三日間を第二回第二十高等商業部份有限公화유라투복三日說÷第三百無
- この資料のOCR結果ではないものを見せられているッ?!

、8其の理由、38.3±12.5 *第二章長榮11 11.0 11福岡県産"text "〓〓식韓警察58느육言*有限公司兼書令禁書화歸疑器器門言十一月廿一日まNうち平方呎To濫澁吾TO街:4 * 10宇宙戦艦
- OCRテキストと資料番号(pid)かコマ番号の紐づけ、どっちか間違ってませんか?

のみ一一五分かるため、神奈川県横浜市最上記事十年月を事有限定王装備品にてみて青少年できすぐりのようの光明をお前の下がりの業牌重ホタキンのアリアにて電信できょうにし創状のメールしてVさせるの形成了解するみ宇宙戦艦隊
- 何か別の資料のOCR結果が、当該資料に紐づけられていたりしませんか?
おらこんなOCR嫌だ

BE TO 00 go = 14 TO go 21 100婦=퍼The 111 111 - 1 1 1 1 1 111 111 111 111ー1 I 1 1 1 1 1 1〓宇宙戦艦ヤーマスター誉Car

桃一の三角回宇宙戦艦ヤ其福利用ち路源廣東田辺三浦所有の30.3三十年間若いロ三田+北海道本社큭〓北海道産地한국화력특별〓〓書" =二CH3一三室500円の1999年9月19日9 COUNCIL CO CO
- OCRテキストを保存する時に何か事故ってませんか?

特に一터宇宙戦艦ヤ生意興隆ち歸源田東京都国际旅游のので、三七七七岩井口三田+島井上市本井특〓特其北海市立花한국전투특별*謀240 To IOT "学과O. 9 10 -1-1 O. 00-110 10
- 文字化けしたでしょ、ねぇ、何かの処理で文字化けしたんでしょ?
無理読み

間炮同邸字宗捕祁覆真玉五音無悔〓直金各汉文長魚同年問邦各國小龍與郎同合計中国できない川満了間違典邵 AGE邸n〓〓同部各印同信仰開箱 時間能愈聯〓〓玉五音篇海〓邱吾正保〓邦海防水円邦御請先郵與邪同奚風五年美唄郡献金耆萌ぼー海門郡宇宙戦艦音円刷同邦龍舟丘逆切人
- JIS第1水準・第2水準を基本とする7000字しか要求されてないスペックなのに、康煕字典なんか無理やり読まされて、辛かったね
NDLOCRちゃんLINE版OCRちゃん。無理しないでゲタにしちゃっていいんだからね。
一部は深刻なエラーが生じているような気がするんですが、実際のところ、何がどうなってこういう検索結果が返ってきているのか、さっぱり分かりません。
2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。現在のNDL全文検索の元になっているテキストデータは、LINE株式会社が受託した令和3年度OCR事業の成果だということ。そしてNDLOCRは、これからテキストデータ化していくために開発された新しいもの(現在のNDL全文検索には関わっていない)。というわけで「無理読み」させられたOCRの名称を訂正しました。