PDF 変換 - OCR のヒント
優れた OCR 変換を実現するためのヒント
光学式文字認識(OCR)は優れた技術ですが、完璧ではありません。期待通りの結果を得るには、ある程度の注意が必要です。PDFをExcelに変換する際には、事前の準備作業が必要ですが、スキャンしたファイルの変換にも暗黙のルールがいくつかあります。以下に、PDFからDOCX、PDFからXLSXへの変換に共通して適用される便利なチェックリストをご紹介します。
OCR 用にドキュメントを最適化するには:
必要に応じてページの回転を手動で調整します 。これにより、最終的なドキュメントが読みやすくなるだけでなく、抽出されたテキストの精度も向上します。
高解像度の画像を使用します 。画像は理想的には PNG 形式で、目が疲れることなく読み取ることができる必要がありますが、JPEG でも同様に機能します。画像が鮮明であるほど、変換結果は良くなります。
出力形式に近い書式設定を含めます (例: Excel の書式設定に似た表)。これは、元の PDF を DOCX または XLSX に忠実に再現するための最も重要な要素です。