Marek Kuřina
PC / Notebooky
08. září 2020
20:17

Překladač českých vědců dohání v kvalitě i běžné překladatele

Takto překládat texty po slovíčkách již díky AI dávno nemusíme / Pixabay

Studii realizovanou na Matematicko-fyzikální fakultě Univerzity Karlovy, která představila anglicko-český překladač CUBBITT založený na neuronových sítích, jenž při překladu novinových zpráv dosahuje kvality srovnatelné s výstupem profesionálních překladatelů, publikoval vědecký časopis Nature Communications.

V zaslepeném testu byly automatické překlady hodnotiteli označeny jako v průměru o něco méně plynulé, ale obsahově mírně přesnější než překlady lidské.

Jednou z nejpopulárnějších aplikací metod umělé inteligence (AI) v oblasti zpracování přirozeného jazyka je automatický překlad z jednoho jazyka do jiného. Donedávna se předpokládalo, že pro kvalitní překlad je nutné velmi důkladné porozumění obsahu překládaného textu a že automatizovaný překlad kvalitou srovnatelný s výsledkem lidského překladatele tedy ještě dlouho nebude na dohled.

V automatizovaném překladu, stejně jako v jiných oblastech AI, nastala ale díky pokroku v tzv. hlubokém učení v posledních letech doslova změna paradigmatu, která tuto dosavadní představu mění.

Související

Marek Kuřina

Jak se připojovat k veřejným WiFi sítím, aby to…

Lukáš Bauer

Aplikace pro videokonference: Na jaké je spolehnutí a…

Jako významný úspěch se jeví výsledek experimentu, který byl pro překladový směr angličtina-čeština realizovaný na Matematicko-fyzikální fakultě Univerzity Karlovy ve spolupráci s vědci z Univerzity v Oxfordu (oba též absolventi MFF UK) a z týmu Google Brain.

Autoři natrénovali neuronovou síť na česko-anglickém paralelním korpusu, což je kolekce autentických anglických textů a jejich protějšků přeložených do češtiny o celkové velikosti 58 milionů párů vět.

Výsledný překladač nazvaný CUBBITT autoři použili k přeložení vzorku anglických novinových textů. Tentýž vzorek byl nezávisle přeložen profesionálními překladateli z překladové agentury. Kvalita výsledných automatických i ručních překladů byla následně hodnocena 15 rodilými mluvčími češtiny, kteří měli posoudit přesnost a plynulost překladu. Hodnocení bylo slepé, tj. hodnotitelé neměli informaci o tom, kdo věty překládal.

„Výsledek srovnání můžeme považovat za průlomový. Automatický překladač sice nepatrně pokulhával za lidskými překladateli v hodnocení plynulosti, byl ale v průměru o něco přesnější, pokud jde o obsahovou správnost překladu. Naměřený výsledek byl statisticky signifikantní,“ uvedl hlavní autor studie Mgr. Martin Popel, Ph.D. z MFF UK.

Jedna z nových myšlenek, díky které překladač dosáhl výrazného zlepšení oproti předchozím verzím, spočívala ve způsobu, jakým byla překladači při trénování střídavě předkládána autentická a syntetická paralelní data (páry českých vět a jejich automatických překladů do angličtiny). Velikost existujících autentických dat, tj. lidmi vytvořených anglicko-českých překladů, je z principu omezená a roste relativně pomalu.

Proto se k nim přimíchávají ještě syntetická paralelní data, kde pro existující autentické texty v češtině byly jejich anglické protějšky vygenerovány automatickým překladem v opačném směru (tzv. backtranslation; nižší kvalita na straně vstupního jazyka, zde angličtiny, totiž při trénování překladače vadí méně).

#překladač #AI #CUBBITT #hlubokém učení #paradigma

Meteorický roj Geminid vrcholí: O víkendu v noci zazáří až 1000…

Kyberútočníci sbírají i šifrovaná data. Za pár let jim je…

Nový hasičský speciál automobilky Tatra pro boj s lesními požáry…

Alfa Romeo Giulia - poslední sportovní sedan ze staré školy

Překladač českých vědců dohání v kvalitě i běžné překladatele

Jak se připojovat k veřejným WiFi sítím, aby to…

Aplikace pro videokonference: Na jaké je spolehnutí a…

Kyberútočníci sbírají i šifrovaná data. Za pár let jim je pomůžou rozluštit kvantové počítače

Mobilní hotspot 5G M7 umožňuje snadné připojení k vysokorychlostnímu internetu

Cenově dostupný nový gamepad lze připojit k jakémukoliv zařízení

Nový 8 TB SSD disk dosahuje rychlosti čtení dat až 14 800 MB/s

Podle průzkumu by 9 z 10 pacientů preferovalo vyšetření u lékaře s pomocí AI

Stříbro, klíčová surovina pro moderní technologie, je na historickém rekordu 50 dolarů za unci

Nový výkonnější 14palcový MacBook Pro s čipem M5 má až 24hodinovou výdrž baterie

Česko získalo svou továrnu na umělou inteligenci a nový AI superpočítač

Výkonný OmniBook 5 s procesory Snapdragon s výdrží baterie až 34 hodin na jedno nabití