日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

2023-01-01から1ヶ月間の記事一覧

#NDL全文検索 対象テキストに浸み込んだ〈CLOVA OCR改〉のゴースト #図デコファントム

NTTデータNJK/メディアドライブによる(日本語)OCRの解説ページ(https://ocr.jp/)を眺めていて、1980年代から、光学文字認識の基本的な概念は概ね変わっていないのだということを確認し。「どこからどこまでが〈その文字〉なのか」を判断するためにAIを…

#NDL全文検索 対象テキストに含まれている2つ目のイースターエッグは「焼肉定食」 #次々デジ備忘録 #図デコファントム

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただいた(https://twitter.com/blue0620/status/1614975692160266243)ので、一部訂正しました。 現在のNDL全文検索で特定キーワードによる検索リターンをアウトにしてしまう仮称「図デコファン…

Google ColabでNDLOCRアプリを実行するには何を手直しすればいいでしょうか(Tensorflowバージョンエラーを解消?)

さてさて、仮称「図デコファントム」によって検索リターンがアウトになってしまうNDL全文検索対象のOCRテキスト。「#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコ…

NDL全文検索対象テキストのうちOCR処理データにハングルが含まれている理由を知りたい #次々デジ備忘録

先ほどの「#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム」(https://uakira.hateblo.jp/entry/2023/01/15/185434)で触れた一部資料に、「한국전투특…

#NDL全文検索 対象テキストに含まれている「宇宙戦艦」以外のイースターエッグを見つけた方はぜひお教えくださいッ #次々デジ備忘録 #図デコファントム

国会図書館デジタルコレクションの全文検索大好き勢に言っておくッ! おれは今 やつのスタンドを ほんのちょっぴりだが 体験した い…いや… 体験したというよりは まったく理解を 超えていたのだが……あ…ありのまま 今 起こった事を話すぜ!「おれは NDL全文検…

#NDL全文検索 で「よろめくあし」を洗い出してみて漢字表記のバリエーションが想像以上だったことを知り更にまたNDLOCRのレイアウト調教メニューの追加が必要だと再認識した話 #次々デジ備忘録

2023年1月16日22時19分に当方の大きな勘違いについてご教示いただきました(https://twitter.com/blue0620/status/1614975692160266243)。この記事で話題にしている、現在のNDL全文検索を可能にしたのはLINE株式会社が受託した令和3年度OCR事業の成果である…

「Naigai Print Co.」の初号明朝活字を鋳造したのがどの内外印刷株式会社なのか #NDL全文検索 では決めきれなかった話

「Naigai Print Co.」の初号明朝活字 内外印刷の初号明朝活字「春」文字ヅラ正面内外印刷の初号明朝活字「春」左斜め向き内外印刷の初号明朝活字「春」ボディ左側面(ピンマーク「内」図案)内外印刷の初号明朝活字「春」右斜め向き内外印刷の初号明朝活字「…

#NDL全文検索 のレイアウト判定処理に縦横双方向での行ボックス認識の追加を望みます #次々デジ備忘録

2023年1月22日追記:当初の表題は「NDLOCRのレイアウト判定処理に縦横双方向での行ボックス認識の追加を望みます #次々デジ備忘録」でしたが、現行NDL全文検索に用いられたのは令和3年度にLINE株式会社が受託したOCRテキスト化事業の成果であるとお教えいた…

宮武外骨『公私月報』の「明治新聞雑誌標題筆者集」#次々デジ備忘録

宮武外骨『公私月報』に「明治新聞雑誌標題筆者集」という連載があり、外骨蒐集資料のうち、何らかの資料によって標題(題字)の筆者がわかるものについて、標題と筆者の情報が掲げられています。掲載されるのは、1930昭和5年9月の第2号から昭和8年5月の第32…

東京築地活版製造所の「種字彫刻係取締」竹口庄太郎(正太郎)のこと

東京築地活版製造所の「種字彫刻」に携わった職工の一人に、竹口庄太郎(正太郎)という人物がいました。「彫刻家として知られた竹口茂平」の息子とされてきました。私は、「印鑑の彫刻師か木版の彫刻師」と想像されてきた「竹口茂平」とは、江戸で「板木屋…

近未来の #NDL全文検索 で「行をまたぐキーワード」の処理と「ピンマークのオンオフ」が改善されて欲しいです切実に #次々デジ備忘録

次世代ライブラリーによる実験が始まって以来、国会図書館デジタルコレクションのOCR文字認識の高精度っぷりに驚かされ続けており、2022年12月アップデートによって『官報』が全文検索の対象になったことから様々な調査が大きく進展していることに感謝の舞を…

#NDL全文検索 を可能にした超絶OCRは「大阪都村活版の草書活字」も文字認識できていてびっくり

たまに漏れがあるとはいえ、江川行書も南海堂行書も篆書活字すらかなりよく認識できることが判ってきたNDL全文検索を支える超絶OCRへの挑戦。今回は大阪都村活版の五号草書活字も認識出来ていることが判明しました。平野幾次郎『さか野のつみ草』(明治27、…

南海堂行書活字の開発者と言われる「岡島活版の岡島氏」の手がかりを #NDL全文検索 で拾い集める

江川活版製造所の行書活字(江川行書)の他に、明治時代に作られた行書活字として「南海堂行書」というものがありました。青山進行堂の活字見本帳『富多無可思』に掲載されているものを図示しておきましょう。 青山進行堂『富多無可思』より南海堂二号行書活…

#NDL全文検索 で拾い集めた江川活版製造所と江川次之進の補足的情報

以前、江川活版製造所が明治20年代から30年代に開設したという支店の登記情報を『中外商業新報』から探しだそうとして挫折したことがあったわけですが(「中外商業新報等に見られる旧商法期の商業登記DB希求」〈https://uakira.hateblo.jp/entry/20130921〉…

大阪活字鋳造の陣容を #NDL全文検索 で更に掘り下げてみたら

前回「日本活字工業株式会社の社史を私製してみようと思い立ったのだけれども」という記事で追いかけてみた、大阪活字鋳造株式会社と中原繁之助の周辺をNDL全文検索で拾い出してみて解ったことから、今回追加したい情報の起点となる2つを抜き出しておきます…