OCR: optical character recognition

Optical character recognition voor vertaling.

OCR staat voor optical character recognition. OCR-software wordt gebruikt om bestanden zoals PDF’s of faxen om te zetten naar bewerkbare documenten zoals Microsoft Word. Dit gebeurt voorafgaand aan het vertaalwerk.

OCR kan ook worden gebruikt om documenten opnieuw te creëren wanneer u uw originelen bent kwijtgeraakt.

Conversie

Waarom moeten we de bestanden converteren?

PDF-bestanden zijn geen bewerkbare bestanden. Het zijn niet de originele bronbestanden. Als we het bestand niet kunnen bewerken, kunnen we het niet vertalen. Daarom moeten we ze omzetten naar een formaat dat we kunnen bewerken en aanpassen. Dit conversieproces kan worden uitgevoerd met OCR. OCR-software maakt het mogelijk om PDF-bestanden om te zetten naar Microsoft Word-bestanden voor vertaling. Het kan ook faxen converteren naar bewerkbare formaten.

Wat is OCR?

Het vertaalproces

Voordat de vertaling begint, moeten we het bestand converteren, inclusief de lay-out met behulp van Desktop Publishing (DTP) software en OCR-software. In feite recreëren we uw bestand in Microsoft Word, lay-out, tekst, afbeeldingen, alles. Vervolgens controleren we het document op eventuele zinsfouten of segmentfouten om ervoor te zorgen dat het vertaalde document perfect voor u zal zijn. Het is een zeer arbeidsintensief proces. Eenmaal voltooid maakt het het vertaalproces veel eenvoudiger voor de vertaler.

Wat zijn de verschillende manieren om een bestand te converteren?

Afhankelijk van hoe de PDF is geproduceerd, als het document alleen tekst bevat die kan worden geselecteerd, kan de tekst worden gekopieerd en geplakt in een Word-document. Sommige PDF’s hebben beveiligingsfuncties die kopiëren en plakken verhinderen.

Als de PDF een gescand document is of de tekst niet kan worden geselecteerd, dan is het gebruik van OCR-software nodig. De OCR-tool scant elk teken als een afbeelding en probeert het om te zetten in een bewerkbaar teken in Word. Het is ongeveer 95% nauwkeurig en doet uitstekend werk. Het behouden van de lay-out is het moeilijke deel.

Waarom is het beter om OCR te vermijden?

Kosten en tijd zijn de belangrijkste redenen om OCR te vermijden. Het converteren van een PDF-bestand kost tijd; het zal invloed hebben op uw leveringsschema. De extra werkbelasting voor het converteren en controleren van documenten betekent dat we conversiekosten in rekening moeten brengen voor dit werk.

Kwaliteit is een andere reden; het gebruik van het conversieproces kan vaak de kwaliteit van uw uiteindelijke documenten verminderen. Afbeeldingen kunnen enigszins degraderen, afhankelijk van de gebruikte resoluties. Wij leveren uitstekende kwaliteit maar kunnen met OCR zelden de kwaliteit van een origineel bronbestand evenaren. Het is altijd beter om met originele bronbestanden te werken voor de hoogste kwaliteitsoutput.