Počítač dohání lidské překladatele. Češi pomohli vyvinout úspěšný překladač
ČEŠI A PŘEKLADAČ
Prestižní vědecký časopis Nature Communications publikoval studii realizovanou na Matematicko-fyzikální fakultě Univerzity Karlovy, která představila anglicko-český překladač CUBBITT. Ten je založený na využití umělých neuronových sítí a dohání tak v překladu novinových článků práci lidských překladatelů. V testu byly výsledky překladače hodnoceny jako méně plynulé, avšak obsahově přesnější než lidské. Článek o překladači publikoval odborný časopis Nature Communications.
Jednou z nejpopulárnějších aplikací metod umělé inteligence (AI) v oblasti zpracování přirozeného jazyka je automatický překlad z jednoho jazyka do jiného. Donedávna se předpokládalo, že pro kvalitní překlad je nutné velmi důkladné porozumění obsahu překládaného textu. A proto automatizovaný překlad kvalitou srovnatelný s výsledkem lidského překladatele ještě dlouho nebude na dohled. Ale v automatizovaném překladu, stejně jako v jiných oblastech AI, nastala díky pokroku v tzv. hlubokém učení v posledních letech doslova změna paradigmatu, která tuto dosavadní představu mění.
Vědci využili neuronovou síť, kterou připravili na anglické texty a jejich protějšky přeložené do češtiny. Šlo o 58 milionů párů vět. Překladač pak použili k přeložení vzorku anglických novinových textů. Na stejném vzorku pracovali také profesionální překladatelé z překladové agentury. Kvalitu automatických i ručních překladů pak hodnotilo 15 rodilých mluvčích češtiny, kteří posuzovali přesnost a plynulost překladu. Hodnotitelé přitom nevěděli, kdo na daných větách pracoval.
„Výsledek srovnání můžeme považovat za průlomový. Automatický překladač sice nepatrně pokulhával za lidskými překladateli v hodnocení plynulosti, byl ale v průměru o něco přesnější, pokud jde o obsahovou správnost překladu,“ uvedl hlavní autor studie Martin Popel z MFF UK. Podobné pozorování autoři učinili již v roce 2018, ovšem tehdy byly hodnoceny jen věty bez kontextu celého článku.
Podle vědců spočívala jedna z inovací ve způsobu, jak byla překladači střídavě předkládána autentická, tj. lidmi vytvořená, a syntetická paralelní data – tedy páry českých vět a jejich automatických překladů do angličtiny. Při experimentu vědci pozorovali, že je výhodnější neuronové síti předložit autentická a syntetická data nikoliv rovnoměrně promísená, ale ve specificky vyváženém rytmu střídajících se autentických a syntetických bloků. Prvotní impuls pro zkoumání tohoto směru vznikl vlastně náhodou, když mísení zůstalo omylem vypnuté a tato „chyba“ způsobila okamžitý růst úspěšnosti překladače.
Autoři studie upozornili, že i přes představený pokrok se situace zatím výrazně liší od jiných oblastí, kde se AI v posledních letech úspěšně utkává s člověkem. Taktéž měření se uskutečnilo pouze na specifickém žánru novinových článků, výsledky tedy nelze zobecňovat na překladatelskou práci jako celek.
Vědci z UK spolupracovali s kolegy z Oxfordské univerzity a z týmu Google Brain.