Google brei voortdurend hulle sagteware vir outomatiese masjienvertaling uit. 'n Nuwe stel tale wat onlangs bygevoeg is, sluit Afrikaans en Swahili in. Dit is die eerste twee tale uit Afrika wat by hulle lysie gevoeg word. Dit is interessant om allerhande redes, en ek wonder nou hoe dit die landskap vir hierdie twee tale kan verander.

As Afrikaanse spreker, is die eerste rede waarom dit interessant is, om te sien hoe dit vaar en om te sien watter foute dit maak (heeltemal te verwagte, natuurlik). Ons almal weet dat Google van statistiese masjienvertaling gebruik maak. Dit beteken dit behoort teoreties net aan te hou verbeter na mate hulle meer data kry om mee te werk.
Interessante foute wat ek opgemerk het tydens vertaling van Engels na Afrikaans:
- Woordbou. Samestellings word hoofsaaklik nie reg hanteer nie. Dit weet van iets soos "Wêreldbeker", maar sekerlik net omdat dit dit al vantevore teëgekom het. Hoe goed hanteer statistiese masjienvertaling samestellings met doeltale soos Duits en Nederlands? Sal meer data die probleem laat verdwyn?
- Woorde van klaarblyklik Nederlands of Duitse inspirasie, soos bv. "epigrammatisch", "gewijd", "gefascineerd" wat sekerlik nie uit enige Afrikaanse bron kon kom nie.
- Die lidwoord 'n is gereeld verkeerd. Dit kom male sonder tal voor as vir' n been (met die apostroof vas aan die vorige woord. Dit lyk asof die apostroof as 'n aanhaling hanteer word, en dan so nou en dan maak dit die "aanhaling" daarmee toe.
- Waar sinne met die lidwoord 'n begin, is die hooflettergebruik verkeerd.
Dwayne is van mening dat sommige van die foute dalk kan wees weens opleiding vanaf tekste wat ingewin is deur optiese karakterherkenning. Dit sal bv. die probleem met die apostroof kan verduidelik. Alhoewel statistiese masjienvertaling dalk taalagnosties kan wees, is die selfde definitief nié waar vir optiese karakterherkenning nie.
'n Interessante ene om te sien was die vertaling vir "long and short-term relationships" — nie 'n slegte poging nie. Die fout met die afstandsamestelling kan maklik ook weens optiese karakterherkenning wees.
Nog 'n paar opmerkings hieroor:
- Afrikatale is belangrik genoeg vir Google om moeite hiermee te doen. Wel heelwat later as wat ons sou wou, maar darem. Ek hoop meer maatskappye let dit op en volg die voorbeeld. Dit is interessant om te sien dat Afrikaans voor sommige groot tale van Indië ondersteun word. (Met groot bedoel ek nou 'n taal soos Bengali met meer as 200 miljoen sprekers.)
- Google is nié eerste nie. Die Apertium-projek het al vir 'n hele rukkie 'n aanvanklike vertaler, wat op heeltemal ander beginsels werk (dit is reëlgebaseerd). Ek sou enigiemand aanraai om saam met die Apertium-projek te werk om hulle sagteware te verbeter, veral vir tale met minder hulpbronne. Hulle help graag mense wat wil bydra. Mens hoef nie programmeerkennis te hê nie.
- Dit werk, soortvan. Iemand wat nie Afrikaans verstaan nie, behoort 'n idee te kan kry van wat in 'n Afrikaanse stuk geskryf staan. Ek het wel nie die idee gekry dat mens 'n goeie idee gaan kry met die huidige kwaliteit nie. Probeer dit gerus uit en lewer kommentaar. Lagwekkende voorbeelde is veral welkom.
- As gevolg van die vorige punt, kan Afrikaanse mense dalk nou meer in Afrikaans skryf, veral as hulle gehoor gedeeltelik Afrikaans is. 'n Argument om 'n webjoernaal meer toeganklik te maak vir 'n theoretiese internasionale gehoor weeg eenvoudig nie meer so sterk as vroeër nie. Ek het hierdie joernaalinskrywing self vertaal. Kan ek 'n outomatiese vertaling van nou af gebruik vir die Engelse weergawe van my joernaal? Hoe toeganklik sal dit wees?
- Ek het geen idee hoe goed dit vertaal na ander tale as Engels nie. Ek het ook nog nie vanuit ander tale as Engels probeer nie. Ek hoor graag as iemand dit kan evalueer.
- Ons gaan nou nog meer as ooit tevore mense moet inlig oor die beperkings van masjienvertaling. Dit sal 'n reuse klap in die gesig wees as mense begin om hierdie te gebruik sonder 'n besef dat dit hóégenaamd géénsins en in géén omstandighede as 'n plaasvervanger vir 'n professionele vertaler kan dien nie. Daar sal definitief mense wees wat dit verkeerd gaan wil gebruik, al bedoel hulle dalk goed daarmee. As dit nie die 'n kan regkry wat ons in gr. 1 geleer het nie, hoekom sal ons dit vertrou met ons bemarkingsmateriaal?
- Dit maak nie soveel saak hoe goed of sleg hierdie is nie. Omdat dit die Google-naam dra en gaan integreer met ander Google-dienste, sal dit waarskynlik dié masjienvertaler wees wat mense gaan gebruik.