Google vertalen

Google vertalen

Vanaf eind 2016 heeft machinevertaling die door Google Translate is gebruikt, grote recente vooruitgang geboekt door Deep Learning. In september 2016 kondigde Google Google Neural Machine Translation System aan, een nieuw machinevertaalsysteem gebaseerd op kunstmatige neurale netwerken en diep leren.

In het nieuwe systeem gebruikte Google Recurrent Neural Networks , die bekend zijn om goed te presteren op sequenties (van woorden en zinnen). Door deze benadering te gebruiken heeft Google de kwaliteit van de vertalingen doorlopend kunnen verbeteren door hun systemen in staat te stellen niet alleen bronwoorden en zinnen in aanmerking te nemen, maar ook bredere contexten van waar ze in zinnen voorkomen en wat zijn de andere woorden en zinnen rond hen.

Deze problemen zijn al lang bekend om een ​​belangrijk verschil te zijn tussen menselijke en eenvoudige machinevertalingstechnieken.

Kort daarna, in november 2016 kondigde Google Zero-Shot Translation aan met het Multilingual Translation System van Google, die de omslachtige vertaling van afzonderlijke taalparen vermijdt door invoerzinnen te verdelen naar gedistribueerde vectorrepresentaties van hun vermeende betekenissen, onafhankelijk van de betreffende taal (en).

Ze beschrijven bijvoorbeeld in het rapport de Japanse-Engelse en Koreaanse-Engelse paren om hun meertalige systeem te trainen. Dan kunnen ze het systeem vragen voor vertalingen van paren die het nog niet eerder gezien heeft, namelijk Koreaans-Japans in het bovenstaande voorbeeld. Verbazingwekkend, het systeem produceerde ook redelijke vertalingen voor dergelijke paren.

Deze vooruitgang is echt geweldig, omdat het duidelijk blijkt dat er een verbetering is in het proberen om het uiteindelijke doel te bereiken om computers te krijgen om semantiek en betekenissen te begrijpen, in tegenstelling tot gewoon eenvoudige syntactische mappings van woorden en zinnen tussen individuele taalparen, google vertalen.

Naast RNN’s is deze inspanning duidelijk geïnspireerd door recente doorbraak vooruitgang in gedistribueerde vector representaties van woorden (en zinnen), genaamd woord embeddings.

Mikolov et al beschrijven in hun verbazingwekkende document Word2Vec, een systeem om woorden naar vectoren te plakken in een multidimensionale echte ruimte van relatief lage dimensionaliteit (enkele honderden).

Zij tonen aan dat embeddingen van woorden met vergelijkbare betekenissen dicht bij elkaar liggen in de doelruimte, die een enorm voorschot is, omdat (eenvoudige) syntactische benaderingen veel verschillende mappings op zelfs kleine, syntactische verschillen opleveren, maar geen vergelijkbare betekenissen, zoals synoniemen.

Er is ook extra groot voordeel van compacte representaties, omdat vectoren van een paar honderd echte getallen veel gemakkelijker te maken hebben met dan simpelgezind one-hot encodings waar afmetingen in miljoenen oplopen.

Word-inbuigende vectoren van lage dimensionaliteit worden dus beschouwd als representaties van betekenissen van zinnen, dat is gebaseerd op het Zero-Shot Multi-Lingual Vertaling van Google. Hun systeem creëert embeddings die langage-onafhankelijk zijn, wat echt geweldig is, als je erover nadenkt.

Word2vec is niet echt een diep leren systeem, omdat het niet gebaseerd is op kunstmatige neurale netwerken met meerdere lagen. De grote kracht komt uit de feiten dat het een onbewaakte methode is die geen trainingsgegevens vereist, schaal zeer goed naar (veel) miljarden woorden en is in staat om semantische overeenkomsten op afstanden in doelcompacte vectorruimten te behouden.

Google’s Machine Translation-inspanningen zijn een geweldig voorbeeld van geweldige vooruitgang in Deep Learning, die niet alleen over de kwaliteit van vertalingen gaan, maar ook om dichter bij de heilige graal van computers te komen die semantiek en betekenissen begrijpen.