27.11.2019

Vilniaus universiteto (VU) mokslininkai kartu su partneriais iš UAB „Tilde IT“ kuria automatinį vertėją, gebantį versti tekstus iš lietuvių į 5 kalbas ir atvirkščiai. Projektą, finansuojamą ES struktūrinių fondų ir Lietuvos biudžeto lėšomis, planuojama baigti iki 2021 metų. Į jį bus investuota 3,8 mln. Eur.

Vykdydami šį projektą, mokslininkai pasitelkė dirbtinį intelektą, ir mano, kad specializuota, būtent lietuvių kalbai pritaikyta sistema, versdama iš ir į mūsų kalbą, pranoks bene populiariausią pasaulyje įrankį – „Google“ vertėją.


Keičia modelį

Šio projekto esmė – patobulinti prieš ketverius metus VU mokslininkų sukurtą automatinį vertėją. Tai daroma keičiant vertimo variklį iš paremto statistiniais modeliais, į paremtą neuroniniais tinklais, kas beveik prilygsta naujos vertimo sistemos sukūrimui. Dabartinė, statistiniais modeliais paremta, VU vertimo sistema pasiekiama adresu versti.eu. Šioje svetainėje taip pat galima rasti vertimo įskiepius, skirtus interneto naršyklėms, kad galima būtų kelių mygtukų paspaudimu versti interneto puslapius.

Nauja vertimo sistema po poros metų bus pasiekiama tuo pačiu adresu, tik ji, pasak mokslininkų, bus protingesnė.

Neuroninių tinklų technologija paremta VU vertimo sistema bus apmokoma „sumaitinant“ jai daugybę tektų (dešimtis milijonų sakinių) iš grožinės ir mokslinės literatūros, specializuotų tekstų ir žiniasklaidos šaltinių. Dirbtinis intelektas (DI) tokiu būdu išmoks ne tik išversti pažodžiui, bet ir, įvertinus kontekstą, suteikti verčiamam žodžiui ar frazei tikslesnę prasmę.


Ne korporacijų technologija

VU mašininio vertimo grupėje dirba aštuonių žmonių komanda, kuriai vadovauja Vilniaus universiteto Taikomųjų mokslų instituto mokslininkas dr. Arūnas Samuilis.

„Gyvename dirbtinio intelekto revoliucijos amžiuje, todėl ši technologija yra tinkamiausia automatiniam vertimui. Pasitelkę geriausias vertimo praktikas, apmokysime šį intelektą. Be to, suteiksime jam lokalią terpę – tai yra išmokysime geriau atpažinti Lietuvai būdingą terminiją, informaciją ir jos kontekstą: terminus, sąvokas, vietovardžius, pavardes ir pan. Mūsų tikslas, kad lietuvių kalbos terpėje ši vertyklė verstų net geriau nei „Google“ vertėjas“, – sako A. Samuilis.

Jis priduria, kad ši dirbtiniu intelektu grindžiama vertyklė svarbi ir dėl jos nepriklausomumo aspekto.

„Jau seniai kalbame, kiek daug svarbių duomenų yra koncentruojama vienos korporacijos rankose. Šis projektas šaliai suteikia galimybę turėti nuo korporacijų nepriklausomą vertimo sistemą, nešališką ir užtikrinančią, kad duomenys nenutekės į privačių korporacijų rankas“, – teigia mokslininkas.

Jis užsimena ir apie dar vieną aspektą: niekas negali garantuoti, kad „Google“ paslaugos išliks nemokamos.

„Dabar duoda, rytoj gali ir nebeduoti“, – tarsteli A. Samuilis.

VU kuriamas vertėjas išliks nemokamas, nes sistema gaminama ES ir šalies biudžeto, t.y., mūsų visų lėšomis.


Talkina ir verslas

Projekto įgyvendinimo technologinius darbus atlieka konkursą laimėjusi specializuota kalbos technologijų UAB „Tilde IT“. Ji jau anksčiau yra sukūrusi dirbtinio intelekto technologijomis paremtą šnekos atpažintuvą ir kitas vertimo bei kalbos technologijas.

Šnekos atpažintuvą planuojama integruoti ir į naująją vertimo sistemą.

„Naudojant šią technologiją, bus galima lietuviškai įkalbėti (diktuoti) tekstą ir gauti jį, išverstą (raštu) į prancūzų ar anglų kalbą. Tai gali būti pritaikyta kad ir universitetų auditorijose – dėstytojas gali įrašyti savo paskaitą lietuviškai ir pateikti jau išverstą tekstą užsienio studentams. Taip pat pravers konferencijų dalyviams, kai pranešimai skaitomi lietuvių kalba, o kitakalbiams nėra galimybės pasinaudoti profesionalių vertėjų pagalba“, – pritaikymo būdus vardija sistemos kūrėjų komandos vadovas.

Automatinis vertėjas, anot jo kūrėjų, taip pat pravers tautinėms mažumoms, profesionaliems vertėjams, žurnalistams ir gyventojams, tiesiog norintiems pasiskaityti naujienas anglų, prancūzų, rusų, lenkų ir vokiečių kalbomis ar panaršyti šių šalių interneto parduotuvėse.


Įskiepiai įstaigų svetainėse

Įdomu ir tai, kad šią automatinio vertimo sistemą planuojama integruoti ir į e. paslaugas teikiančias valstybės ir viešojo sektoriaus įstaigų svetaines, tokias kaip VMI. Tai leis jų lankytojams informaciją gauti viena iš 5 užsienio kalbų.

Pasak projekto kūrėjų, pagrindinis pritaikymas – tai gyventojai, kuriems reikia išversti tekstus ar internetinių svetainių turinį į kitas kalbas.

„Manome, kad tai labai pravers Lietuvoje gyvenančių tautinių mažumų atstovams, kuriems kartais gali būti keblu suvokti oficialiose svetainėse skelbiamą, tarkime, mokesčių ar teisinę, informaciją. Naudodami šią vertyklę, jie galės lengvai suprasti skaitomą turinį. Taip pat bus patogu versti užklausas, kai ieškoma informacijos, ir gauti paieškos rezultatus norima kalba. Planuojama, kad vertimo įskiepis bus įdiegtas ir į e. paslaugas teikiančias svetaines, tarkime, VMI ar kitas, taip suteikiant galimybę“, – aiškina projekto vadovas.

Verta pridurti, kad nauja sistema, kaip ir dabartinė, leis versti ne tik sakinius ar frazes, bet ir visą interneto svetainę ar dokumentą. Pastarąjį tereikia įkelti į svetainę versti.eu. Sistema paliks išverstame tekste visus formatavimus – šriftą, paryškinimą, pabrauktus žodžius.

Anot kūrėjų, tai didelė pagalba ir tiems, kurie iki šiol tekstus turėdavo išsiversti patys, nes sistema automatiškai atliks pradinį darbą, o verčiančiajam beliks tik pagražinti ar patikslinti.


Garsą vers tekstu

Skaičiuojama, kad DI, atlikęs pradinį vertimą, padidina automatinių vertimo sistemų produktyvumą maždaug 15–30%, o palyginti su savarankišku žmogaus vertimu – net 2–3 kartus.

„Tai yra pagalba žmonėms, kurie verčia ilgus tekstus, įstatymus, sutartis – pasitelkus šią technologiją, darbas atliekamas kur kas greičiau, visą „juodąjį“ darbą atlieka technologija, žmogus gali koncentruotis į detales, teksto grožį ir niuansus“, – tikina A. Samuilis.

Naujas automatinis vertėjas turės ir 3 specializuotas sistemas – savotiškus veikimo režimus, kurie esą padės gauti dar tikslesnį vertimą: bendrinės, teisinės ir informacinių technologijų srities tekstų.

Projekto kūrėjai sako, kad tai turėtų būti naudinga visiems, kurie dirba su skaitmeniniu turiniu keliomis kalbomis: seminarų, mokymų kūrėjams, renginių ar diskusijų vedėjams bei dalyviams, valstybinėms institucijoms, teisininkams ir kitiems.

Tikimasi, kad vertėjas padės ir klausos negalią turintiems žmonėms, nes sistema garso įrašus galės išversti į lietuvių ir pateikti tekstiniu formatu.

Plačiau: https://www.vz.lt/technologijos-mokslas/2019/10/28/vilniaus-universiteta...