2014-07-01から1ヶ月間の記事一覧
内務省衛生局から大正11年に出版された、唐沢光徳『医師の来るまで : 子供の手当』。「毒蟲などに刺された場合」という箇所が、本文ページの見出しは「螫」になっており、なぜ書誌データではゲタなのかと不審に思ってしまうが、目次に使われている漢字が「𧌐…
調教モードに役立つ、GUIで編集できるボックスエディタを使うと、Tesseractが「文字グリフ」をどのように認識し「文字」へと変換しようとしているのかが、よく判る。ドキュメントページの「Overview」にある通り、ひと筆書きで辿れる輪郭形状が「ひとつのグ…
Tesseract-OCRの日本語調教(2)に記した、横組みの「〘迭〙〖謬〗⦅柾侭⦆」という画像で調教したTesseract-OCRで、同じ文字列を縦組みにした画像を読ませるとどうなるか。というのをやってみた。 当該文字列しか教えていないTesseractでは、「侭迭柾 侭謬〙 …
調教情報(Training Tesseract3)を見ると、必ず用意すべきファイルとして「unicharset」「inttemp」「normproto」「pfftable」が挙げられている。このうち「unicharset」は先日眺めた、OCRで認識させたい文字の一覧だ。 あとの3つのうち「inttemp」と「pfft…
HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。日本語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成…
先日、与謝野晶子の結合著作物に言及して、“国会図書館デジタルコレクションの書誌データに関しては、ひとつの資料に関わる著作者を漏れなく盛り込める器であるようにすることを望みたい”というようなことを書いた。 これは、評論家気取りで注文をつけ、誰か…
やはり全書誌メタデータにアクセスできるというのは、ありがたい。個人で国会図書館の全書誌メタデータを手元において参照するという試みから、国会図書館デジタルコレクション(以下「国デコ」)近代デジタルライブラリーのうち現時点でパブリックドメイン…
先日 id:inudaisho さんの「国会図書館デジタルコレクションと鏑木清方」というブログ記事を拝読し、(考えるまでもなく当たり前のことだったのだが)書籍において文章の著作権保護期間と挿絵の保護期間が大きく異なるケースがあり得ることを教えられた。そ…
あの二村一夫氏の調査でも判明していなかった鈴木純一郎の生没年だが、生年は明治元年と思って良いようだ(残念ながら没年は未詳)。国会図書館デジタルコレクションにある、次のような資料には見当たらないのだが―― 古林亀治郎 編『現代人名辞典』(中央通…