Советы по получению отличных конверсий OCR
Каким бы впечатляющим ни было оптическое распознавание символов, оно не идеально, и для получения ожидаемых результатов необходимо соблюдать определенную осторожность. Подобно предварительной подготовке, необходимой для преобразования PDF в Excel, существует несколько неписаных правил для конвертирования отсканированных файлов. Ниже вы найдете удобный контрольный список, который одинаково хорошо применим как к PDF в DOCX, так и к PDF в XLSX.
Оптимизируйте документ для целей OCR:
- Вручную отрегулируйте поворот страниц, если это необходимо. Помимо того что конечный документ будет легче читать, это также повысит точность извлеченного текста.
- Используйте изображения высокого разрешения. В идеале изображения должны быть в формате PNG и читаться без особого напряжения глаз, но и JPEG тоже подойдут. Чем четче изображение, тем лучше результат преобразования.
- Включите форматирование, соответствующее выходному формату (например, таблицы, напоминающие форматирование в Excel). Это, пожалуй, самый важный фактор в обеспечении точного воспроизведения исходного PDF в DOCX или XLSX.