パソコンと古文書解読

第29話  個人データベースをつくる(2)

 

第11話で「個人データベースをつくる」お話をしましたが、今回はその続きです。

私は、今まで、主として市町村史の資料編をテキストファイルにしてパソコンに取込み、「マイデータベース」として何年も積み重ねてきました。分量が多いと、思いがけない“変った”使い方ができます。

海難事故の文書を読んでいるとき、「船□船具等御取揚ケ被遣……」の個所で引っ掛かりました。「船□」が読めません。「船具」だけでGrep検索をすると81個所見つけました。「船.船具」(船ピリオド船具)でGrep検索(正規)で2つ見つけました。答は「船滓船具」。文字・文意とも適するものでした。「マイデータベース」を作るのは大変ですが、今ではかけがえのない“宝物”だと思っています。

鳥の将に来らんとする有り、羅を張りて之を待つ。鳥を得る者は一目なり。今一目の羅を為(つく)れば、時として鳥を得る無し。(申監)

鳥が飛んで来るだろううと、網を張って捕えようと待ちかまえている。実際に鳥を捕えるのは、網の目の一つにすぎない。だからといって目が一つだけの網をつくったなら、いつまでも鳥をとらえることはできない。(奥平卓『漢文の読みかた』)

「マイデータベース」は網です。一目の網では役に立ちません。

1200頁もある「資料編」をスキャンして、OCRソフトでテキストファイルに変換し保存するのは、何日かはかかりますが、それほど大変ではありません。しかし、変換されたテキストファイルには誤変換が多いので、そのままでは使い物になりません。エディタを使って、本1冊分をまとめて「校正」しています。これが大変な作業で、何ヶ月もかかります。「校正」作業だと思うと、つい、“このバカソフトめ!”と悪態をつくことになるので、誤植の多めの「本を読んでいる」(ついでに校正もする)と考えることにしていますが、「読書」と「校正」は違う仕事ですから、「忍」の一字で頑張るしかありません。

OCRソフトの進むべき目標は「100パーセントの認識精度」だと思います。いくら使い勝手が良くなっても、いくら「認識辞書」を充実させても、「第2水準の約240字」(Ver.9マニュアル)だけの認識を前提にして開発をしているのなら、目標からはずれるばかりだと思います。Unicodeの文字を、画像だけで正しく読み取る……そんなソフトの出現はいつのことでしょうか。

仕方がないので、比較的簡単に作れる「マイデータベース」に方針を転換しました。それはテキストファイルの保存と同時に、PDFファイル(透明テキスト付)で保存することです。「透明テキスト」の方は、誤変換があり頼りないですが、ソフトにお任せして手を加えません。その代り、PDF画像は元の資料に忠実ですから、信頼できます。

「透明テキスト」は不完全ですが、「索引」としては使えます。該当個所が見つかれば、PDF画像を読みます。コピーしたければ、「透明テキスト」をコピーして、PDF画像をもとにして校正します。

今までGrepが使えるので、テキストファイルの形式でデータを集めていましたが、それに加えて、「KWIC Finder(パソコン内に散在しているテキスト、PDF、エクセル、ワード、一太郎などを検索することができる全文検索ソフト)により全文検索ができます。(Googleデスクトップ検索でも同様のことができるようです)。 また、「Adobe Reader」の起動も前よりは早くなったので検索が楽になりました。

OCRソフトを起動して、400dpiでスキャンします。「プレビュー」でScanをする範囲を本の縁より少し狭くして、周囲の汚れの「トリミング」の仕事を省きます。「傾き自動補正」も省略するため、左右の頁の天が一直線になるよう丁寧にセットしてスキャンします。「のど」の黒い影はそのまま。「画像編集」を省略すると、作業が楽になりスピードアップします。(400頁の文庫1冊が1時間で仕上るので、気楽にPDFが作れます。)
「認識結果を保存」する前に「認識パラーメータ」の設定をします。「段組み」は「自動判別」にしておきます。
認識実行の後、全画像を指定して、「認識結果を保存」します。「ファイルの種類」は「PDF形式ファイル(透明テキスト付)」。「テキストファイル」も保存します。

テキストファイルをGrepで検索する“スピーディーな快感”はありませんが、これで気楽にスキャンできるようになりました。

“全自動”で手早く資料をパソコンに取込む奥の手があります。
本のスキャンをやめて、シート(一枚物)をスキャンするなら、オートシートフィーダが使えるので早く処理できます。そのためには、フラットベッド型(原稿固定型)スキャナとは別に、ScanSnap ix500(読取り速度の速いこと!)が必要です。値段は高いですが、役に立つ「Adobe Acrobat 11」も付いています。
100頁分の本(シート)をセットして、ボタンを押すと勝手に両面をスキャンします。それが済むと「読んde!ココ」が自動で動き出して認識しますので、最後に「テキストファイル」と「PDF」を保存するだけで、手間が掛りません。300頁の文庫本を30分で処理しました。素晴しい速さです。
「テキストファイル」には、厖大な時間の掛る“校正”はしません。それでも
Grep検索ができますので、「索引」として使えます。また、必要な個所が見つかれば、「PDF」をもとにそこだけを“校正”して使うこともできます。

この奥の手の泣き所は、本をバラバラにすること。文庫本を例にとると、表紙を叮寧にはがし、40頁をまとまりに本の「ノド」にカッターナイフを入れて切離し、裁断機で糊付け部分を切ります。用が済むと、製本して(ホットメルト)元に戻します。

 

inserted by FC2 system