パソコンと古文書解読

第11話  個人データベースをつくる

 

OCRソフトによって変換されたテキストファイルには誤変換が多いので、そのままでは使い物になりません。エディタを使って、本を見ながら「校正」します。OCRソフトでも、ページ毎に校正はできますが、本1冊分の誤変換を含む大きなファイルをエディタでまとめて「置換」(訂正)するほうが能率的です。

OCRの誤変換には癖があります。例えば「動車」を「動車」と誤ります。そこで「白動車」を「自動車」に「置換」します。1文字だけの置換は原則としてしません。「動車」を「動車」にするため「」1字を「」に変えると「状」が「状」になるからです。誤変換の2〜3文字をコピーして「置換」画面を呼出し、誤変換文字を張付け、訂正文字を入れて置換します。この作業が延々と続きます。

この「校正」作業は、普通は、次の手順でおこないます。

  1. 誤変換文字を範囲指定する。

  2. コピーする。

  3. 「置換」ダイアログを呼出す。

  4. それに誤変換文字を貼付ける。

  5. 訂正文字を打込む。

  6. 置換する。

この一連の操作を簡略化するには、「ショートカットキー」と「キーボードマクロ」を使うことです。

マウスは便利な道具ではありますが、それを動かすにはキーボードから手が離れます。マウスを使わないで「コピー」をするなら、「Ctrl」キーを押しながら「C」キーを押す(「Ctrl+C」)ほうが簡単です。「貼付け」は「Ctrl+V」です。これらを「ショートカットキー」といいます。よく使うショートカットキーだけは覚えておく必要があります。

次は「キーボードマクロ」です。キーボードマクロとは、一連のキー操作をまとめてワンタッチのキー操作で実行させるプログラムです。「そんなプログラムを自作するのはとても……」と思われるかもしれませんが、心配無用、エディタがプログラムしてくれます。(面倒でもキーボードマクロだけはマスターして下さい。必ず役に立ちます。)
キーボードマクロはEditorを終了すると消えてしまうので、再利用できるようにします。また、ワンタッチのキー操作で実行させる「キー割当て」をします。詳しくは「WZ Editor ユーザーズマニュアル」をご覧ください。

私の作っているキーボードマクロとキー割当ては、

 「白動車」を「自動車」に置換する操作は、キーボードマクロにより、次のようになります。

  1. 誤変換文字「白動車」の頭にカーソルを置き、3文字コピー(Ctrl+G)をする。

  2. 「置換」ダイアログを呼出す(Ctrl+D)。

  3. 「白動車」を貼付ける(Ctrl+V)。

  4. 訂正文字「自動車」を入力する。または「白動車」を貼付けて「白」を「自」変える。

  5. 「置換」する。

現在、『広島県史』近世1・2、同資料編T〜X、『知新集』、『芸藩輯要』その他、町史資料編を入力しました。今のところ、入力したテキストファイルでサイズは約70MB。この仕事にはきりがありません。

個人データベースを検索するのに、グローバル検索ツールを使うのは第2話でお話ししたとおりですが、説明を追加します。
個人データベースの中から「沖□之進」(□は読めない文字)を検索することもできます。「沖」または「之進」で検索すると一致する個所が多すぎて実用的ではありません。そこで、「WZ Grep」検索画面のモードを「通常」から「正規」(正規表現検索)に変えて、「沖.之進」(「沖」と「之」の間に、読めない文字□の代用として半角のピリオドを入れて)をキーワードにして検索します。(□□ならピリオドも2個入れます)。読めない文字の見当をつけるのに有力な武器となります。正規表現については、「Riue ちゃんの正規表現講座」(http://www.sixnine.net/regexp/)に分り易い解説があります。

前回と今回の2回で、OCRによる「個人データベース」の作り方を説明しました。勿論、OCRによらなくてもデータベースの追加はできます。自分の読んだ古文書の解読文(テキストファイル)は立派な資料ですし、インターネットから読出した資料も役に立ちます。Atokの郵便番号辞書をもとにして、現在の全国の「小型地名辞典」を作ることができます。勿論、郵便番号簿としても使えます。それは辞書形式の郵便番号辞書をテキストファイルに変換だけです。旧村名の多くは町名の下に残っています。

この「個人データベース」をどのように活用するかが問題です。作るのが目的ではなく、使うために苦労したわけですから、資料の参照・文字の確認など……活用法を考えたいと思います。

Windows7のもとで一太郎2010でもキーボードマクロを使っていましたが、Windows8に乗り換えたら使えなくなりました。困ったことです。

 

inserted by FC2 system