東陽帳

日々の生活を色々なツールや製品で改善していく様子を記録

PDFをOCRでテキスト化する方法

 

はじめに

今回はテキストが埋め込まれていないPDFをOCRしてテキストに変換する方法を紹介します。

 

 

 

PDFの種類

PDFのドキュメントには大きく以下の2種類あります。

  1. テキストが埋め込まれているドキュメント
  2. 画像で作成されているドキュメント

1のテキストが埋め込まれているドキュメントは文字をコピペでき、検索もできます。拡大しても表示が滑らかです。

2の画像で作成されているドキュメントは文字をコピペできず、検索もできません。拡大すると表示がカクカクしています。

1は簡単にテキストをコピペできますが、2は画像からOCR(Optical character recognition)して抽出する必要があります。

 

OCRする方法

OCRする方法はいくつかあります。

有料アプリはオフラインで実施できたり、セキュリティ上の心配がほぼない印象です。社内や取引先との文書など機密性の高いファイルに適しています。

無料アプリはオンラインでPDFをアップロードして相手サイトにPDFを渡す必要があるので、一般に公開されているPDFでのみ使用するのがいいでしょう。社内の文書など機密性の高いもので使用するべきではありません。

なお、OCRの精度は元ファイルの解像度などにも依存しますが、いくつか使った印象としては有料アプリの方が高い印象です。

 

有料アプリでOCRする方法

以下のアプリを購入しパソコンにインストールして、変換機能を使用します。

アプリの使い方はマニュアルをご参照ください。

 

 

  

無料のアプリでOCRする方法

以下のサイトにアクセスしてPDFをアップロードしてください。

再度書きますが、一般に公開されているPDFでのみ使用してください。社内文書などでは

使用するべきではありません。相手のサーバにPDFファイルが保存されてしまいますよ。

 

 

さいごに

今回はPDFをOCRでテキスト化する方法を紹介しました。

有料アプリとフリーアプリを賢く使い分けて、仕事を効率化しましょう。

 

参考になれば幸いです。