仙台,弁護士,小松亀一,法律事務所,宮城県,交通事故,債務整理,離婚,相続

旧TOPホーム > 桐・IT等 > パソコン全般 >    

PDFファイルとテキスト化-イメージPDFに注意

平成23年10月 6日:初稿
○「無償版TeamViewer威力再確認ー事務所ファイル自在使用」で、「平成23年8月、新発売のリコーデジタル複合コピー機を導入しておりましたが、旧機種よりずっと作業速度が速くなり、書籍のスキャンPDF化も迅速に出来ます。今後、重要書籍のiBooksとUPAD化を大いに進めていこうと思っております。紙書籍では膨大な量のデータも1冊のiPad2に収めることが出来るのもホントに便利です。」と記載しておりました。

○現在、交通事故関係文献を中心にPDFファイル化を進めており、先日紹介した井上久医師著”医療審査「覚書」”もPDFファイル化しました。このPDFファイルをアクロバットリーダーで開けば当然に文字部分をテキストコピー出来るとばかり思って、範囲指定してコピーしようとしましたが、あくまで画像としかコピー出来ません。

○「PDFファイルのテキスト化」とのキーワードGoogle検索で最初に出てくるまほろばPDFファイルのテキスト化では、
Acrobat Reader(アクロバット リーダー)で
  [ファイルメニュー]-[テキストとして保存]
を実行して、ファイル名を指定して、[保存]をする。

で簡単にテキスト化できるとのことで、やってみました。確かに、この方法で同名のテキストファイルが出来ますが、中身がゼロで文字テキストは全く出て来ません。

○何度繰り返しても同じ結果で、PDFファイルでも、その中で文字範囲を選んでテキストコピー出来たものがありましたので、そのファイルを同じ方法で、テキストファイル化したら、文字テキストがシッカリ並んでいます。ここにいたり,ようやく、同じPDFファイルでも、一太郎、ワード等のテキスト文書をPDFファイル化してものと、紙の書籍からイメージスキャニングでPDFファイル化したものでは、異なることに気づきました。

教えて!gooに「イメージから作ったpdfファイルのテキスト化」とのページで、
Acrobat5.0について伺います。
イメージファイル(gif,jpg等)から作ったpdfファイルは、テキスト化できませんか?
WORD等、テキストファイルから作ったpdfファイルは、テキスト選択ツールで容易にテキスト化できますが・・・。

との質問があり、
結論から言えば、不可能ではありません。
クセロ社から「PDF OCR」という製品が発売されています。PDF中の画像をスキャンして文字データを認識し、テキストデータを出力したりするものです。
…ただ、ハッキリ言って高いです(^^;)。ちなみにアスキーの通販だと\240,230でした。
素直に手作業で
PDF→画像取り出し→OCR処理→テキスト取り出し
…とした方が安上がりです

との回答でした。

○複合機のスキャン処理してPDF化したファイルは、単なる画像ファイルであり、OCR処理が必要であり、現在、ITに強い事務員に安いOCR処理ソフトを探させて購入し、その到着を待っているところです。
PDFファイルのテキスト化について記述したサイトは結構あるのですが、肝腎のイメージスキャニングでのPDFファイルとワープロ文書からのPDFファイルでは違うことをキチンと解説したものは少ないと感じましたが、こんなことは説明するまでもない常識で、私が非常識なのかも知れません(^^;)。
以上:1,361文字

タイトル
お名前
email
ご感想
ご確認 上記内容で送信する(要チェック
※大変恐縮ながら具体的事件のメール相談は実施しておりません。

 


旧TOPホーム > 桐・IT等 > パソコン全般 > PDFファイルとテキスト化-イメージPDFに注意