获得出色 OCR 转换的技巧
尽管光学字符识别技术令人印象深刻,但它并不完美,必须小心谨慎才能获得预期的效果。与将PDF 转换为 Excel 所需的前期准备工作类似,转换扫描文件也有一些不成文的规定。下面是一份方便的清单,同样适用于将 PDF 转换为 DOCX 和 PDF 转换为 XLSX。
为 OCR 优化文档:
- 必要时手动调整页面旋转。除了使最终文档更易于阅读外,这还将提高提取文本的准确性。
- 使用高分辨率图像。图像最好是 PNG 格式,阅读时眼睛不会太疲劳,但 JPEG 格式也同样适用。图像越清晰,转换效果越好。
- 包含与输出格式非常匹配的格式(例如与 Excel 格式相似的表格)。这可能是确保将原始 PDF 忠实还原为 DOCX 或 XLSX 的最大因素。