Советы по получению отличных конверсий OCR


Каким бы впечатляющим ни было оптическое распознавание символов, оно не идеально, и для получения ожидаемых результатов необходимо соблюдать определенную осторожность. Подобно предварительной подготовке, необходимой для преобразования PDF в Excel, существует несколько неписаных правил для конвертирования отсканированных файлов. Ниже вы найдете удобный контрольный список, который одинаково хорошо применим как к PDF в DOCX, так и к PDF в XLSX.


Оптимизируйте документ для целей OCR:

  • Вручную отрегулируйте поворот страниц, если это необходимо. Помимо того что конечный документ будет легче читать, это также повысит точность извлеченного текста.

  • Используйте изображения высокого разрешения. В идеале изображения должны быть в формате PNG и читаться без особого напряжения глаз, но и JPEG тоже подойдут. Чем четче изображение, тем лучше результат преобразования.

  • Включите форматирование, соответствующее выходному формату (например, таблицы, напоминающие форматирование в Excel). Это, пожалуй, самый важный фактор в обеспечении точного воспроизведения исходного PDF в DOCX или XLSX.