弁護士小松亀一法律事務所_桐・IT等_ＰＤＦファイルとテキスト化

仙台,弁護士,小松亀一,法律事務所,宮城県,交通事故,債務整理,離婚,相続

ＰＤＦファイルとテキスト化－いきなりＰＤＦに注意

平成23年10月 9日(日):初稿

○「ＰＤＦファイルとテキスト化－イメージＰＤＦに注意」の続きです。
「複合機のスキャン処理してＰＤＦ化したファイル(以下、イメージＰＤＦと言います)は、単なる画像ファイルであり、ＯＣＲ処理が必要であり、現在、ＩＴに強い事務員に安いＯＣＲ処理ソフトを探させて購入し、その到着を待っているところです。」と記載しておりましたが、平成２３年１０月８日、その購入ソフト即ちがアマゾンから届きました。それは代金３９９０円のソースネクスト社の「いきなりＰＤＦ/STANDARD Edition」です。

○早速、付属ＣＤ－ＲＯＭからインストールして、多数保存してあるイメージＰＤＦファイルのうち、１０数ページの小さなお試し用ファイルで、ワード文書化してみました。さほど時間がかからずワード文書化でき、これは楽に出来るなと思って出来たワード文書を開いて、文字コピーを試みました。ところがそのワード文書、一見して、なんだこれはと思いましたが、単にワードに画像が貼り付けられていただけで、テキスト文字は出来ていませんでした。

○ソースネクスト社の「いきなりＰＤＦ」シリーズは、２９９０円のBASIC Editionから、１９８０円のfromスキャナ2まで６種類あり、その機能比較表は以下の通りです。

○この比較表には、ＯＣＲ(手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する装置)との用語がなく、一見どれがＯＣＲ機能を持っているのか判りません。しかし、「ひとことで言うと」欄に記載された、
「ＰＤＦからのデータ変換」との「to Data Office2010対応版」、
「紙からPDF化」との「from スキャナ 2」
の２つが私の求めているＯＣＲ機能を持ったソフトでした。
残念ながら、購入した「STANDARD Edition」にはＯＣＲ機能はなく、目的は達せませんでした。

○ヨドバシ仙台に行って馴染みの店員さんにソフト売り場に同行して頂き、私の目的を話し、その目的を達せられるソフトを一緒に探してもらいましたが、ピタッとするものはなく、売り場に置いてあった「from スキャナ 2」１９９０円を購入してきました。目的を達せられずとも価格が安いので、何かに役立てば良いと思ったからです。

○早速、「from スキャナ 2」をインストールして使って見るも、イメージＰＤＦファイルからテキスト化するとの目的は達せませんでした。その機能は、「すでに画像ファイル（BMP、JPEGに対応）になっているものは、スキャナを通さなくても読み取ることもできます。」とあるとおりで、イメージＰＤＦから直接のテキスト化は出来ず、イメージＰＤＦをＪＧＰファイルに変換することでその目的は達せました。

○しかし、大量のイメージＰＤＦを更にＪＰＧに変換するなんてバカなことはやってられず、イメージＰＤＦを直接にテキスト化するものは「to Data Office2010対応版」ではないかと思ってヨドバシ仙台に確認するも在庫がありません。そこで、ダウンロード版を購入して、早速、インストールして使ってみました。

○結局、「to Data Office2010対応版」が正解でした。その説明には、
「テキストデータを含むPDFは、PDF解析エンジンでPDFに埋め込まれた文字情報を解析して正確にデータ変換。テキストデータの含まれないPDFには、OCRエンジンで文字を認識し、高精度な読み取りを実現。元データの種類により、2つのエンジンを使い分けられます。」
とあります。
早速、１８９頁で約１０Ｍの医療審査「覚書」.pdfをテキスト化してみると、５分程度でテキストＰＤＦに変換してくれました。飾り文字等は読み取れませんが,本文は,ほぼ正確に読み取ってテキスト化してくれ、満足しています。これで２９９０円は安いものです(^^)。

以上：1,603文字

旧TOP ：ホーム > 桐・IT等 > パソコン全般 > ＰＤＦファイルとテキスト化－いきなりＰＤＦに注意

タイトル
お名前
email
ご感想
ご確認	上記内容で送信する(要チェック）