Segmentatie in vertaalgeheugen

Hoe wij uw tekst analyseren voor vertaling.

Een segment is de kleinste teksteenheid die op zichzelf begrepen kan worden. Het is de eenheid die wordt gebruikt bij het werken met vertaalgeheugen.

Documentonderdelen

Net zoals een muur uit stenen bestaat, bestaat een document uit verschillende onderdelen, zoals alinea’s, zinnen, zinsdelen, termen en woorden.

Onze vertalers gebruiken bewerkingssoftware om het aantal woorden in uw documenten te tellen. Deze technologie wordt Vertaalgeheugen genoemd. Vertaalgeheugensoftware werkt op zins- en segmentniveau. Het verdeelt een brondocument in een reeks segmenten, waarbij een segment meestal een zin is die eindigt met een eindpunctatie zoals een punt of een vraagteken. Vertalers werken dus door segmenten één voor één te bewerken en te vertalen.

De term segment wordt gebruikt omdat in sommige gevallen een stuk tekst geen volledige zin hoeft te zijn.

In het geval van koppen bijvoorbeeld, worden kleinere teksteenheden zoals individuele woorden of zinsdelen beheerd door terminologiewoordenboeken.

Alinea-markeringen, pagina-einden, cel-einden, tabulatoren enzovoort zullen altijd een segment beëindigen.

Wat is segmentatie?

Voorbeeld

Slechte segmentatie.

Dit is een zin

die niet op één regel staat

maar op meerdere regels.

Dit had moeten worden weergegeven als…

Dit is een zin die niet op één regel staat maar op meerdere regels.

Machine-etiketten worden doorgaans op deze manier ontworpen:

  • MOGELIJK
  • GEVAARLIJK
  • VENTILATIE

Dit etiket zegt “Mogelijk Gevaarlijke Ventilatie“. Dit is geschreven als drie aparte tekstregels. Dus wanneer het aan een vertaler wordt gepresenteerd, zou het eruitzien als drie verschillende woorden, niet als één zin. Het is beter als deze tekst als één zin wordt geschreven en in een cel of tabel wordt geplaatst, zodat deze automatisch correct wordt aangepast naar een vierkante vorm. Op deze manier ziet de vertaler dit als één zin.

Herhalingen – 100% matches – fuzzy matches

Terwijl de vertalers werken, wordt elk te vertalen segment vergeleken met eerdere vertalingen die zijn opgeslagen in het vertaalgeheugen, en matches worden automatisch aan de vertalers gepresenteerd terwijl ze vertalen, vergelijkbaar met voorspellende tekst op uw telefoon. Een segment in het vertaalgeheugen dat identiek is aan het te vertalen segment wordt beschouwd als een 100% match.

Als er geen exacte match is, maar er segmenten in het vertaalgeheugen zijn die lijken op het segment dat wordt vertaald, dan worden deze gepresenteerd als fuzzy matches. Elk wordt gerangschikt met een percentage van 0% tot 99%, waarbij het hogere percentage qua inhoud dichter bij de te vertalen zin ligt. Een 99% match verschilt mogelijk slechts in één letter of leesteken, terwijl een 75% match verschillende woorden kan hebben. Over het algemeen zijn matches onder de 70% niet bruikbaar.

Wanneer een document meerdere identieke segmenten bevat die momenteel niet in het vertaalgeheugen staan, worden deze segmenten herhalingen genoemd. De meeste vertaalgeheugentools kunnen potentiële herhalingen identificeren voordat de vertaling begint. Het voordeel van herhalingen is dat nadat het eerste voorkomen is vertaald, de rest 100% matches worden.

Terwijl de vertaler werkt, wordt elke nieuw vertaalde zin toegevoegd aan het vertaalgeheugen. Zo kan die nieuwe zin een 100% match of zelfs een fuzzy match worden voor andere zinnen in het document. Herhalingen zijn die segmenten die het potentieel hebben om 100% matches te worden.