パソコンと古文書解読

第10話 OCRで本を読み込む

 

古文書を解読しているとき、たびたび読めない文字に出くわします。「林善平」と見当はついても、もう一つ自信がありません。そんなとき、参照できる資料が欲しくなります。

 特に、人名・地名は、文脈の中で推測することが難しく、読みにくいので、手持ちの資料を漁りますが、仮にあったとしても、“大海の一滴”で、簡単には見つけることができません。自分のパソコンの中に大量の資料があればすぐ参照できるのに……、と思います。

データベース」とは、「系統的に整理・管理された情報の集まり。特にコンピューターで、様々な情報検索に高速に対応できるように大量のデータを統一的に管理したファイル」(『広辞苑』)と解説されています。

ならば、電子辞書の『世界大百科事典』『広辞苑』『漢字源』などは立派なデータベースと考えられます。自作のテキストファイルも、「大量」とはいえないが、エディタにより「情報検索に高速に対応」しているので、一応「個人データベース」といえると思います。大量のテキストファイルさえあれば、エディタの検索機能は素晴しく、瞬時に見つけ出すことができます。

私も、古文書に関する「個人データベース」を作ろうと考えました。データベースなら「大量のデータ」を蓄積して「高速」に検索できなければ意味がありません。「高速検索」はエディタに任せるとして、「大量のデータ」を集積するのは大仕事です。大量のデータをパソコンに入力するには、まず大量のデータが存在しなければなりません。「大量」の古文書が存在するのは、『広島県史』や市町村史です。これらは既に活字になっているので、解読の手間が省けます。これを手仕事で入力していたのでは「大量のデータ」の入力は不可能ですから、OCRソフトを使うことを考えました。

OCRソフト(Optical Character Readerの略で光学的に文字を認識する装置やソフト)とは、本をスキャナを使って読み取り、文字(テキストファイル)に変換するソフトです。スキャナ(コピー機のように画像を読み取りパソコンに渡す機器)から得た本の情報は、画像としての情報で(写真と同じ)、エディタではでは利用できません(文字検索はできない)。OCRソフトは画像を文字情報(タイピングしたときと同じ情報)に変換します。“人に代って本を読み込むソフト”……。このソフトがなければ「個人データベース」を思い付くことはなったと思います。

資料は『広島県史』(近世資料編)など。これをスキャナにかけ、OCRで文字に変える作業を始めました。本の画像を文字に変換するとき、正しく変換するのは9割位で、多くの誤変換があります。OCRソフトを4種類も取りかえて、「読んde!!ココ」(開発・販売中止)でやっと一応満足できました。現在はVer.13を使っています。

スキャナーは、「EPSON GT-8300UF」を使っています。旧型ですが、読み取り速度モノクロ2.1msec/line(600dpi)と他機種に比べて高速です。ところが、Windows7を使い出すと、対応するドライバーがなくなりました。あるブログ(http://katakuchiiwasi.blog129.fc2.com/blog-entry-461.html)でパソコンを騙す&法を教わりました。姉妹機の「EPSON GT-9300UF」のドライバーを読込ませると使えます。時々、パソコンも騙されたのに気づいて動かなくなります。

スキャナーは読み取り方式によりCCDとCISに分けられます。CCD方式は、ある程度原稿が浮いていてもピントが合う構造になっているので、厚い本の「のど」の部分もある程度は読み取ることができます。また、最近、「ScanSnap」を入手しました。50枚(100ページ)の原稿をセットすると、自動で読取り、勝手に検索可能のPDFに仕上げます。その読み取りの早いこと! 泣き所は「一枚物の原稿」でないと使えないこと。泣く泣く本をバラして、スキャンしました。(あと、元通りに製本します。ゴメンナサイ。)

500ページを越える厚い本をスキャンするには、多少のコツがいります。「GT-8300UF」と「読んde!!ココ ver.13」をもとに説明します。
@ 原稿押えは邪魔になるので取り外します。
A 左上に原稿台(ガラス)の原点(基準点)がくるように、スキャナーを横長に置きます。
B その手前に厚い本でも置いてページをめくる作業台とします。
C 右手親指・人差指に柔らかいゴムの指サックをはめます。
D 「作業台」にスキャンする本を開いて置きます。
E 本を裏返して原稿台にかぶせますが、重い本は持ち上げないで、本の「天」を支点にして180度回転させます。
F 見開き2ページの内、左側1ページだけを原点・原稿台の縁に正確に合わせ終ると、右のページをそっと下ろします。
G スキャンは「AI SmartScanパネル」を使います。「白黒」モード、解像度「400」pdi、原稿種別「自動判別」、「3〜5」秒間隔の取り込みです。
H まず「プレビュー」をして、スキャンの範囲を決めます。
I 本の表紙を両手で押えてスキャンします。
J 本を裏返します。両手で本の「地」を持ち、180度回転させて元の作業台に戻します。
K 右手親指を紙面の左下隅のあたりに当て、紙の中心に向けて「めくり」ます。紙が厚いときはそれも難しいので、紙の下縁に親指を当て1枚を「はがし」ます。そのとき、指を当てると紙が逃げるので、左手で手前に押しておきます。
L 20回もスキャンすると、スキャンの範囲が狂ってきますので、「プレビュー」で補正します。
M スキャンが終ると、「見開きページ傾き補正」は必ずします。できれば「画像の編集」で、縁の汚れを消す「トリミング」や、左右ページの間の黒い影を消す「Delete」の処理もしたいところですが、面倒なのでたいていは省略です。

次は、問題の「領域抽出」です。「自動領域抽出」にすると、ソフトが勝手に段組を判断して、右図のようなメチャクチャな領域に分けてしまうことがあります。また、2段組見開き2ページを「自動領域抽出」させると、上段の途中から下段に移るという離れ業をすることがあります。「自動……」をやめて手動で4つの「領域」を順に指定すれと、さすが、領域の順は守りますが、「領域」内ではまだ好き勝手に段組を作ります。「パラメータの設定」で「段組み」の「自動判別」を無効にして、ようやくおさまります。もっとも、複雑なレイアウトを読ませるときには、「段組み」の「自動判別」も役に立つことがあります(右図下)

次は「認識実行」です。

最後に、全ての画像を指定して、まとめて「認識結果の保存」をします。「PDF形式[透明テキスト]」と「テキストファイル」の2種類です。「PDF形式[透明テキスト]」は原本と同じ(画像)で検索もできます。「テキストファイル」はグレップ検索ができます。

認識結果をみると、残念ながら多くの誤変換がみられます。しかし、いくらかの誤変換があっても、資料としての価値が大きく損われるわけでもないので、手間のかかる校正は原則としてしません。どうしてもその必要がある場合は、エディターを使い、まとめて校正します。

このソフトで、「領域抽出」と「文字認識」の精度には不満がありますが、自分でタイピングすることを思えば、ありがたいソフトです。

 

inserted by FC2 system