Tips för att få bra OCR-konverteringar
Hur imponerande optisk teckenigenkänning än är, är det inte perfekt och viss försiktighet måste iakttas för att få de resultat du förväntar dig. På samma sätt som det förarbete som krävs för att konvertera en PDF-fil till Excel, finns det också några oskrivna regler för konvertering av skannade filer. Nedan hittar du en praktisk checklista som gäller lika bra för PDF till DOCX och PDF till XLSX.
För att optimera ditt dokument för OCR-ändamål:
- Justera sidrotationen manuellt där det behövs. Förutom att göra det slutliga dokumentet lättare att läsa, kommer detta också att förbättra noggrannheten i den extraherade texten.
- Använd högupplösta bilder. Bilderna bör helst vara i PNG-format och kunna läsas utan att ögonen ansträngs alltför mycket, men JPEG fungerar lika bra. Ju tydligare bilden är, desto bättre blir konverteringsresultatet.
- Inkludera formatering som stämmer väl överens med utdataformatet (t.ex. tabeller som liknar formateringen i Excel). Detta är förmodligen den största faktorn för att säkerställa en trogen återskapning av din ursprungliga PDF till antingen DOCX eller XLSX.