弁護士小松亀一法律事務所_桐・IT等_ＰＤＦファイルとテキスト化

仙台,弁護士,小松亀一,法律事務所,宮城県,交通事故,債務整理,離婚,相続

ＰＤＦファイルとテキスト化－イメージＰＤＦに注意

平成23年10月 6日(木):初稿

○「無償版 TeamViewer威力再確認ー事務所ファイル自在使用」で、「平成２３年８月、新発売のリコーデジタル複合コピー機を導入しておりましたが、旧機種よりずっと作業速度が速くなり、書籍のスキャンＰＤＦ化も迅速に出来ます。今後、重要書籍のｉＢｏｏｋｓとＵＰＡＤ化を大いに進めていこうと思っております。紙書籍では膨大な量のデータも１冊のｉＰａｄ２に収めることが出来るのもホントに便利です。」と記載しておりました。

○現在、交通事故関係文献を中心にＰＤＦファイル化を進めており、先日紹介した井上久医師著”医療審査「覚書」”もＰＤＦファイル化しました。このＰＤＦファイルをアクロバットリーダーで開けば当然に文字部分をテキストコピー出来るとばかり思って、範囲指定してコピーしようとしましたが、あくまで画像としかコピー出来ません。

○「PDFファイルのテキスト化」とのキーワードGoogle検索で最初に出てくるまほろばPDFファイルのテキスト化では、
Acrobat Reader（アクロバットリーダー）で
　　[ファイルメニュー]－[テキストとして保存]
を実行して、ファイル名を指定して、［保存］をする。
で簡単にテキスト化できるとのことで、やってみました。確かに、この方法で同名のテキストファイルが出来ますが、中身がゼロで文字テキストは全く出て来ません。

○何度繰り返しても同じ結果で、ＰＤＦファイルでも、その中で文字範囲を選んでテキストコピー出来たものがありましたので、そのファイルを同じ方法で、テキストファイル化したら、文字テキストがシッカリ並んでいます。ここにいたり，ようやく、同じＰＤＦファイルでも、一太郎、ワード等のテキスト文書をＰＤＦファイル化してものと、紙の書籍からイメージスキャニングでＰＤＦファイル化したものでは、異なることに気づきました。

○教えて！gooに「イメージから作ったpdfファイルのテキスト化」とのページで、
Acrobat5.0について伺います。
イメージファイル（gif，jpg等）から作ったpdfファイルは、テキスト化できませんか？
WORD等、テキストファイルから作ったpdfファイルは、テキスト選択ツールで容易にテキスト化できますが・・・。
との質問があり、
結論から言えば、不可能ではありません。
クセロ社から「PDF OCR」という製品が発売されています。PDF中の画像をスキャンして文字データを認識し、テキストデータを出力したりするものです。
…ただ、ハッキリ言って高いです（^^;）。ちなみにアスキーの通販だと\240,230でした。
素直に手作業で
PDF→画像取り出し→OCR処理→テキスト取り出し
…とした方が安上がりです。
との回答でした。

○複合機のスキャン処理してＰＤＦ化したファイルは、単なる画像ファイルであり、ＯＣＲ処理が必要であり、現在、ＩＴに強い事務員に安いＯＣＲ処理ソフトを探させて購入し、その到着を待っているところです。
ＰＤＦファイルのテキスト化について記述したサイトは結構あるのですが、肝腎のイメージスキャニングでのＰＤＦファイルとワープロ文書からのＰＤＦファイルでは違うことをキチンと解説したものは少ないと感じましたが、こんなことは説明するまでもない常識で、私が非常識なのかも知れません(^^;)。

以上：1,361文字

旧TOP ：ホーム > 桐・IT等 > パソコン全般 > ＰＤＦファイルとテキスト化－イメージＰＤＦに注意

タイトル
お名前
email
ご感想
ご確認	上記内容で送信する(要チェック）