優れたOCR変換を得るためのヒント
光学式文字認識(Optical Character Recognition)は素晴らしいものですが、完璧ではありません。PDFをExcelに変換する際に必要な事前準備と同様に、スキャンしたファイルを変換する際にもいくつかの不文律があります。以下に、PDFからDOCX、PDFからXLSXにも同様に適用できる便利なチェックリストをご紹介します。
OCRのために文書を最適化する:
- 必要に応じてページの回転を手動で調整します。最終文書を読みやすくするだけでなく、抽出されたテキストの精度も向上します。
- 高解像度の画像を使用する。画像はPNG形式で、あまり目を疲れさせずに読めるものが理想的ですが、JPEGでもかまいません。画像が鮮明であればあるほど、変換結果は良くなります。
- 出力フォーマットに近い書式を含める(例:エクセルの書式に似た表)。これはおそらく、元のPDFをDOCXまたはXLSXに忠実に再現するための最大の要因です。