PDFの文章をエディタなどにコピー&ペーストする際、文言の間に変な空白ができたり文字が重複されてコピーされて、テキストを綺麗に取得できないことがあります。
このようなエラーが出た時の原因と対処法について解説します。
関連記事:【Adobe Acrobat】複数ページあるPDFファイルを1ページずつに分割する方法
PDFのテキストが重複する原因
WordなどからPDFを書き出す時のオプション設定にある「アクセシビリティ用のドキュメント構造タグ」にチェックが入っていることが原因です。 そのためチェックを外せばエラーは出なくなります。
PDF変換前のファイル(元ファイル)がある場合
PDF変換前のファイル(Word・Excel等)がある場合は、設定を変更してPDFを再作成すればOKです。
例えば、Wordの文章をPDF化する場合は[ファイル]→[名前をつけて保存]からファイルの種類「PDF(*.pdf)」を選択後、[オプション]をクリックします。
オプション設定にある「アクセシビリティ用のドキュメント構造タグ」のチェックをはずします。
これで再作成したPDFのテキストはコピペしても重複しないようになります。
PDF変換前のファイルがない場合
職場で多いのがこのパターン。
クライアントからもらったPDFをコピーしようとしたら上手くいかない…なんてことはちょくちょくあると思います。クライアントから元データをもらう、あるいは上記の方法で再作成してもらうことも可能ですが…少し面倒くさいですよね。
そんな時はGoogleの提供しているWEBブラウザ「Chromeブラウザ」を使いましょう。
Chromeを開き、PDFをブラウザのウィンドウにドラッグ&ドロップして表示させればOK。ブラウザから問題なくテキストをコピペできるようになります。
お困りの方はお試しください。
Related Posts