PDFをOCRでテキスト化する方法
はじめに
今回はテキストが埋め込まれていないPDFをOCRしてテキストに変換する方法を紹介します。
PDFの種類
PDFのドキュメントには大きく以下の2種類あります。
- テキストが埋め込まれているドキュメント
- 画像で作成されているドキュメント
1のテキストが埋め込まれているドキュメントは文字をコピペでき、検索もできます。拡大しても表示が滑らかです。
2の画像で作成されているドキュメントは文字をコピペできず、検索もできません。拡大すると表示がカクカクしています。
1は簡単にテキストをコピペできますが、2は画像からOCR(Optical character recognition)して抽出する必要があります。
OCRする方法
OCRする方法はいくつかあります。
有料アプリはオフラインで実施できたり、セキュリティ上の心配がほぼない印象です。社内や取引先との文書など機密性の高いファイルに適しています。
無料アプリはオンラインでPDFをアップロードして相手サイトにPDFを渡す必要があるので、一般に公開されているPDFでのみ使用するのがいいでしょう。社内の文書など機密性の高いもので使用するべきではありません。
なお、OCRの精度は元ファイルの解像度などにも依存しますが、いくつか使った印象としては有料アプリの方が高い印象です。
有料アプリでOCRする方法
以下のアプリを購入しパソコンにインストールして、変換機能を使用します。
アプリの使い方はマニュアルをご参照ください。
無料のアプリでOCRする方法
以下のサイトにアクセスしてPDFをアップロードしてください。
再度書きますが、一般に公開されているPDFでのみ使用してください。社内文書などでは
使用するべきではありません。相手のサーバにPDFファイルが保存されてしまいますよ。
さいごに
今回はPDFをOCRでテキスト化する方法を紹介しました。
有料アプリとフリーアプリを賢く使い分けて、仕事を効率化しましょう。
参考になれば幸いです。