OCR  FineReader
 

                  OCR FineReaderを使ってロシア語画像データを、ロシア語文字列の検索が可能な

                      テキスト・データに変換する方法



 

 研究者にとって著作の巻末に付されている人名・地名・紙誌・事項などの索引がいかに重要かはいうまでもな

いことです.しかし、その場合でも、用意されている索引事項は、当該著作の著者・編者の主観的判断によって選

定されたものであり、読者が検索したいと思う事項がかかげられているわけではありません.しかも、索引に出て

いる問題の事項を探り当てるまでの手間暇もたいへんです.

 その点、著作がパソコンで作成されたテキスト・データである場合、固有名詞や特殊事項などの索引を用意す

る必要はまったくありません.ワープロ・ソフトの検索機能を活用すれば、どんな文字列でも自由に検索できるか

らです.

 たとえば、プレハーノフ著作集の任意の巻をテキスト・データに変換すれば、レーニン、トロツキー、ソヴェ

ト、日露戦争、日本、片山潜などの事項を簡単にとりだせます.それによって任意のテーマでプレハーノフ研究が

可能になります.

 私が稀覯本CD-ROM化で提供するのは主に画像データであり、そのままでは検索ができません.しかし、それを

テキスト・データに変換すれば、上記のような検索作業が可能になります.つぎにその方法を説明します.
 
 
 

  Windowsの場合(Windows98、Meで確認ずみ)
 

 1 Windows用の FineReader (私が実験したのは、Pro 6.0体験版)は何種類かの画像形式のデータをテキスト・

データに変換できますが、ありがたいのは、PDFファイルそのものを読み込んでくれることです. 

 2 あとはそのテキストをロシア語文字列の検索が可能な任意のワープロ・ソフトに<送る>だけです.しか

し、ロシア語文の編集が可能なワープロ・ソフトでも、ロシア語の文字列の検索機能までもっているとは限りま

せん.それぞれのWindowsのヴァージョンに標準で搭載されているワード・パッドやメモ帳などは機能がまちまち

です.

 私の経験ではWord 97ではうまくいきましたが、Word 2000はまるで無力でした.

 3 簡単なのは、 FineReaderで読み込んだテキストをHTML文書として保存( FineReaderにはHTML文書として

保存する機能があります;ただしデスクトップには保存できないようです)したあと、Internet Explorerを起動し

て、<開く>から当該HTML文書を読み込むことです.

 ついで、Internet Explorerの<検索>ボックスを開き、任意のロシア語文字列を入力して必要なキーをたたけ

ば、当該文字列があらわれます. 
 

Macintoshの場合

 1 Macintosh用のOCR FineReaderは、Windows用と違って、PDFファイルを読み込んでくれません.そのため、いっ

たんPDFファイルを別の画像形式(たとえばPNGファイル)に変換する必要があります.しかし、Windowsの場合とち

がって二重手間になります. そのため Macintosh利用者で、テキスト・データの作成を必要とする方のために、PDFフ

ァイルの原型になったPICTファイルを別にCD-ROMに収録して提供することにしました.

 2 FineReaderでPNGファイルなりPICTファイルなりを読み込んだあと、それをテキスト・データに変換したら、

それを所定のワープロ・ソフトに<送る>(そのような機能がついています)ーーただしAppleWorksのようなロシア語

文字列が検索可能なーーとか、webブラウザーにコピーするとかすればいいのです(Netscape Composerをおすすめしま

す).
 
 

  
変換の精度
 

 Macintoshと Windows98の両者で実験してみましたが、変換の精度は画像の質によります.ページの劣化が激し

ければ、精度は落ちます. FineReaderにはCheck Spellingの機能がついていて、それでテキストを修正できますが、

全面的な誤植訂正は膨大な作業になります.
  
 実験では、『ロシア革命史』のファイルは100%近い精度でテキスト・データに変換されましたが、プレハー

ノフ『著作集』の変換精度はかなり落ちます. しかし、それでも固有名詞や特殊事項はの検索にはかなり有効tと

判断しました.

 試しにプレハーノフ『著作集』のあるページ(画像データ)をテキストに変換してみました(Macintoshで PICTフ

ァイル). かなり劣化しているページでしたが、充分に判読が可能な、またそれなりにロシア語文字列の検索が可能

なテキストが得られました. 見本で実際に判読・検索など試みてみてください.

 見本
 
 

  FineReaderの入手先
 

 FineReaderは下記のサイトで簡単かつ低廉で購入できます.15回、15時間限定の無償体験版もあります. クレディ

ット・カード購入なら瞬時にダウンロードできます. 価格は2002年4月現在で129USD.

        http://www.abbyy.com