Teším sa na vystúpenie na konferencii HCI International 2022 v Göteborgu, Švédsko, dnes a na predstavenie môjho nového príspevku Say It Right: Neuronový strojový preklad AI umožňuje novým hovorcom oživiť Lemko počas sekcie S143: Aplikácie umelej a rozšírenej inteligencie v úlohách súvisiacich s jazykovým textom a rečou.
Please cite as: Orynycz, P. (2022). Say It Right: Neuronový strojový preklad AI umožňuje novým hovorcom oživiť Lemko. In: Degen, H., Ntoa, S. (eds) Umelá inteligencia v HCI. HCII 2022. Lecture Notes in Computer Science(), zv. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
Neurónový strojový preklad poháňaný umelou inteligenciou by mohol čoskoro oživiť ohrozené jazyky tým, že umožní novým hovorcom komunikovať v reálnom čase pomocou viet, ktoré sú kvantitatívne bližšie k literárnej norme ako vety rodených hovorcov, a to už od prvého dňa ich cesty k obnove jazyka. Zatiaľ čo Silicon Valley investuje obrovské zdroje do technológie neurónového prekladu schopnej nadľudskej rýchlosti a presnosti pre najpoužívanejšie jazyky sveta, 98 % z nich zostalo pozadu, kvôli nedostatku korpusov: modely neurónového strojového prekladu sa trénujú na miliónoch slov dvojjazyčného textu, ktoré pre väčšinu jazykov jednoducho neexistujú a ich zostavenie stojí státisíce amerických dolárov za jeden jazyk.
Pre jazyky s nízkymi zdrojmi existuje vynaliezavejší prístup, ak nie efektívnejší: prenosové učenie, ktoré umožňuje jazykom s nižšími zdrojmi profitovať z úspechov jazykov s vyššími zdrojmi. V tomto experimente bola služba neurónového prekladu Google z angličtiny do poľštiny spojená s mojím klasickým, pravidlami riadeným motorom na preklad z angličtiny do ohrozeného, nízkoresursového, východoslovanského jazyka Lemko. Systém dosiahol skóre kvality dvojjazyčného hodnotenia (BLEU) 6,28, čo je niekoľkonásobne lepšie ako služby Google Translate z angličtiny do štandardnej ukrajinčiny (BLEU 2,17), ruštiny (BLEU 1,10) a poľštiny (BLEU 1,70). Nakoniec bol výsledok tohto experimentu, prvá prekladateľská služba z angličtiny do Lemko na svete, sprístupnený na webovej adrese www.LemkoTran.com, aby umožnil novým hovorcom oživiť ich jazyk.
Noví hovorcovia sú kľúčom k oživeniu jazyka a možnosť „povedať to správne“ v Lemko je teraz na dosah ruky.
Kľúčové slová: Umelá inteligencia zameraná na človeka, revitalizácia jazyka, Lemko.
Prosím, citujte ako: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
Tento experiment si kladie za cieľ prispieť na miestnej úrovni k globálnemu problému straty jazykov, ku ktorej môže dochádzať rýchlosťou jedného jazyka denne, pričom prežiť má len jeden z desiatich jazykov [1, s. 1329]. V čase tlače používa SIL International’s Ethnologue rozšírenú stupňovanú škálu medzigeneračného narušenia Lewis a Simons z roku 2010 na odhad, že 3 018 jazykov je ohrozených [2], čo je 43 % zo 7 001 jednotlivých živých jazykov zaznamenaných v čase tlače v norme Medzinárodnej organizácie pre normalizáciu ISO 639-3 [3]. Medzitým Google Translate obsluhuje len 108 [4] a Facebook 112 [5], čo je začiatok. Napriek tomu je teraz jeden jazyk menej nedostatočne obsluhovaný, keďže výsledok tohto experimentu bol nasadený na webový server ako verejná prekladateľská služba.
Nové technológie umelej inteligencie lákajú prísľubom pomoci, ktorá okamžite kompenzuje stratu jazyka prostredníctvom interakcie človek-počítač. V mojom predchádzajúcom experimente dosiahli neurónové motory novej generácie vyššie skóre kvality pri preklade z ruštiny a poľštiny do angličtiny ako ľudská kontrola [6, s. 9]. Medzitým Facebook a Google1 investovali obrovské zdroje do poskytovania lepších ako ľudských automatických prekladateľských systémov s nulovými nákladmi pre spotrebiteľa.
1 Zverejnenie: Pracujem ako platený lingvista a špecialista na kontrolu kvality prekladu pre projekt Google Translate v ruštine, poľštine a ukrajinčine; sídlo je v San Franciscu.
Nadľudská umelá inteligencia nie je lacná: tréning neurónových jazykových modelov si vyžaduje dvojjazyčné korpusy s počtom slov v stovkách tisíc, a ideálne miliónoch, čo by stálo státisíce dolárov na preklad, sumy presahujúce možnosti väčšiny jazykových komunít s nízkymi zdrojmi. Našťastie, tento experiment ukazuje, že existujú vynaliezavejšie a efektívnejšie spôsoby, ako reagovať na výzvu vytvárania prekladateľských pomôcok na revitalizáciu ohrozených jazykov v prostredí s nízkymi zdrojmi.
1.2 Doterajšia práca
Vytvoril som prvý systém strojového prekladu z Lemko do angličtiny na svete a sprístupnil som ho verejnosti. Jeho objektívne skóre kvality prekladu sa zlepšuje: motor dosiahol skóre dvojjazyčného hodnotenia (BLEU) 14,57 v lete 2021, ako bolo prezentované odborníkom na konferencii Interservice/Industry Training, Simulation and Education Conference Národnej asociácie obranného priemyslu a publikované v jej zborníku [6]. Pre porovnanie, ako ľudský prekladateľ pracujúci v terénnych podmienkach, odrezaný od vonkajšieho sveta, som dosiahol BLEU 28,66. Do jesene 2021 motor dosiahol BLEU 15,74, ako bolo oznámené lingvistom, akademikom a širšej komunite na podujatí, ktoré usporiadala University of Pittsburgh.2
2 Zverejnenie: podujatie sponzorovala Karpatsko-rusínska spoločnosť (Pensylvánia) a University of Pittsburgh mi zaplatila za moju prezentáciu.
1.3 Študovaný systém
Lemko je definitívne až vážne ohrozený [6, s. 3, 7, s. 177-178], nízkoresursový [8], oficiálne uznaný menšinový jazyk [9], pravdepodobne pôvodný pre cezhraničné vysočiny južne od metropolitných oblastí Krakova, Tarnova a Rzeszowa; historické vymedzujúce izoglosy budú, dúfajme, témou budúcej práce. Poľský štatistický úrad v roku 2011 zaznamenal 6 279 obyvateľov, pre ktorých bolo Lemko jazykom „zvyčajne používaným doma“ (aj keď okrem poľštiny) [10, s. 3], čo predstavuje 12 % nárast oproti 5 605, pre ktorých bolo Lemko „najčastejšie hovoreným jazykom doma“ v roku 2002 [11, s. 6, 12, s. 7]. V čase tlače sa výsledky nového sčítania sčítavajú.
Lemko je klasifikovateľné ako východoslovanský jazyk, pretože spĺňa obvyklé kritériá genetických štrukturálnych znakov, z ktorých najvýznamnejším je pleofónia [13, s. 20], pri ktorej sa predpokladá, že samohláska vznikla v praslovanských sekvenciách spoluhlásky C nasledovanej strednou alebo nízkou samohláskou V (*e, alebo *o, s ktorou sa *a zlúčilo [14, s. 366]), nasledovanej likvidou R (t.j. *l alebo *r), nasledovanou ďalšou spoluhláskou C, t.j. CVRC > CVRVC. Na ilustráciu porovnajte staroanglické slovo pre „topiť“, meltan (CVRC) [15, s. 718] s jeho predpokladaným lemkovským príbuzným mołódyj [16, s. 92, 17, s. 150] (CVRC), čo znamená „mladý“. Medzi ďalšie východoslovanské príbuzné patria ukrajinské mołodýj a ruské mołodój[17], obe vykazujúce samohlásku po likvide (CVRVC). Medzitým západoslovanské jazyky nemajú samohlásku pred likvidou; porovnajte poľské młody a slovenské mladý (obe CRVC) [17]. Ďalej sa predpokladá príbuznosť pre iné slová preložiteľné ako „mierny“, vrátane sanskritského mṛdú (CRC) [18, s. 830] a latinského mollis (CVRC ak z *moldvis) [15, 17, 19, s. 323].
V tomto experimente sa nehodnotilo, ako dobre Lemko spĺňa obvyklé, moderné ukrajinské kritériá genetických štrukturálnych znakov. Avšak, podobnosť medzi Lemko a štandardnou ukrajinčinou bola kvantifikovaná, po prvýkrát v tlači, o ktorej viem. Nižšie, môj Lemko motor dosiahol skóre BLEU 6,28, takmer trikrát vyššie ako skóre ukrajinčiny Google Translate s BLEU 2,17. Ďalšie experimenty by sa mohli vykonať za účelom kvantifikácie podobnosti medzi Lemko, štandardnou ukrajinčinou, poľštinou a rusínčinou, ako je kodifikovaná na Slovensku, ako aj nový pohľad na typologickú klasifikáciu Lemko.
Množstvo a kvalita zdrojov sa zlepšuje, rovnako ako vynaliezavosť posilnená technológiou. Všetky známe dvojjazyčné korpusy, obsahujúce menej ako sedemdesiattisíc lemkovských slov, boli zhromaždené pre tento experiment. Čistím dvojjazyčný korpus prepisov rozhovorov vedených s rodenými hovorcami v Poľsku a mojich prekladov do angličtiny, ktoré mi zaplatil americký klient a povolil mi ich použiť. Taktiež zostavujem monolingválne korpusy, ktoré v čase tlače celkovo obsahujú 534 512 slov.
1.4 Hypotéza
Na základe môjho subjektívneho dojmu ako profesionálneho prekladateľa, že rodení hovorcovia Lemko, s ktorými som robil rozhovory v Poľsku, s väčšou pravdepodobnosťou používali slová s očividnými poľskými príbuznými ako štandardné ukrajinské, som predpokladal, že za inak rovnakých podmienok by sa stroj mohol nakonfigurovať na preklad do Lemko z angličtiny a dosiahnuť objektívne skóre kvality BLEU vyššie ako služby Google Translate pre ukrajinčinu a ruštinu.
1.5 Predpovede
Prekladateľský systém Lemko. Predpokladal som, že vyššie uvedený prekladateľský systém dosiahne skóre BLEU 15 pri preklade do Lemko z angličtiny oproti dvojjazyčnému korpusu.
Google Translate.
Služba z angličtiny do ukrajinčiny. Predpokladal som, že služba Google Translate z angličtiny do ukrajinčiny dosiahne skóre BLEU 10 oproti dvojjazyčnému korpusu.
Služba z angličtiny do ruštiny. Predpokladal som, že služba Google Translate z angličtiny do ruštiny dosiahne skóre BLEU 1 oproti dvojjazyčnému korpusu.
1.6 Metódy a zdôvodnenie
V záujme rýchlosti, úspory zdrojov a robustnosti bol notebook, ktorý môj zamestnávateľ vyradil ako zastaraný, nakonfigurovaný na preklad do Lemko a na volanie služby Google Cloud Platform Google Translate, ako aj na vyhodnocovanie uvedených prekladov pomocou priemyselného štandardu BLEU.
1.7 Hlavné výsledky
Prekladateľský systém z angličtiny do Lemko dosiahol kumulatívne skóre BLEU 6.28431824990417. Medzitým služba Google Translate pre ukrajinčinu dosiahla BLEU 2.16830846776652, jej služba pre ruštinu BLEU 1.10424105952048 a kontrola poľštiny prepísanej do cyriliky BLEU 1.70036447680114.
2 Materiály a metódy
Vyššie uvedená hypotéza bola testovaná výpočtom skóre kvality BLEU pre každý prekladateľský systém nastavený spôsobom podrobne opísaným nižšie.
2.1 Nastavenie
Hardvér. Experiment sa uskutočnil na notebooku HP Elitebook 850 G2 s procesorom Core i7-5600U 2,6 GHz a 16 gigabajtami pamäte RAM. Môj zamestnávateľ ho vyradil ako zastaraný a v čase tlače bol ponúkaný na predaj za 450 USD.
Konfigurácia. V menu základného vstupno-výstupného systému (BIOS) bolo zariadenie nakonfigurované tak, aby umožňovalo technológiu virtualizácie (VTx).
Operačný systém. Windows 10 Professional 64 bit bol nainštalovaný na holý hardvér. Bolo zabezpečené, aby boli povolené funkcie Windows Virtual Machine Platform a Windows Subsystem for Linux. Následne boli nainštalované WSL2 Linux kernel update for x64 stroje (wsl_update_x64.msi) dostupné od spoločnosti Microsoft na https://aka.ms/wsl2kernel.
Softvér. Inštalátor Docker Desktop pre Windows verzie 4.4.3 (73365) bol stiahnutý z https://www.docker.com/get-started a spustený s možnosťou Install required Windows components for WSL 2 selected.
Balíčky. Experiment závisel od nižšie uvedených balíkov z Python Package Index.
SacreBLEU. Verzia 2.0.0 bola nainštalovaná pomocou balíka Python zdokumentovaného na nasledujúcom univerzálnom lokátore zdrojov (URL): https://pypi.org/project/sacrebleu/2.0.0/
Vyššie uvedené závislosti boli špecifikované v súbore požiadaviek nasledovne: google-cloud-translate==2.0.1 sacrebleu==2.0.0
Kontajner.
Zostavenie. Experiment bol spustený v kontajneri Docker s najnovšou verziou programovacieho jazyka Python, ktorá bola v tom čase verzia 3.10.2, bežiaca na operačnom systéme Debian Bullseye 11 Linux architektúry AMD64, so skráteným digestom Secure Hash Algorithm 2 bcb158d5ddb6, získateľným pomocou nasledujúceho príkazu: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Runtime. Kontajner bol nakonfigurovaný tak, aby ukladal surové experimentálne dátové súbory do lokálne pripojeného zväzku.
Hodnotenie kvality prekladu. Skóre kvality prekladu bolo vypočítané podľa metriky BLEU pomocou verzie 2.0.0 nástroja SacreBLEU, ktorý vynašiel Post [20].
Citlivosť na veľké a malé písmená. Hodnotenie sa vykonalo s ohľadom na veľké a malé písmená.
Tokenizácia. Segmenty boli tokenizované pomocou verzie 13a štandardného skriptu na hodnotenie Workshop on Statistical Machine Translation, interného postupu tokenizácie metriky.
Metóda vyhladzovania. Použila sa metóda vyhladzovania vyvinutá Národným inštitútom pre štandardy a technológie zamestnancami federálnej vlády Spojených štátov pre ich súpravu nástrojov Multimodal Information Group BLEU, ktorá je treťou technikou opísanou Chenom a Cherrym [21, s. 363], štandardne.
Podpis. Vyššie uvedené nastavenia vytvorili nasledujúci podpis: n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibrácia. Nakonfigurovaný ako vyššie, stroj produkuje nasledujúci výstup:
Vysvetlenie. Hypotéza sa líšila od referencie o dva znaky. Stroj nesprávne preložil časticu negujúcu sloveso, použil slovo pre „nie“ (ni) namiesto očakávaného slova pre „nie“ (ne). To sa odvtedy do značnej miery opravilo. Stroj tiež pridal čiarku za pamjatam, čo znamená „pamätám si“. To znížilo skóre z perfektného skóre 100 na 43,47.
Kontrola. Keďže korpus je založený na rozhovoroch uskutočnených v Poľsku, preklady do poľštiny boli použité ako kontrola. Boli transliterované do cyriliky obrátením pravidiel pre transliteráciu mien Lemko, ktoré stanovilo poľské Ministerstvo vnútra a administratívy [22, str. 6564]. Poľské nosové samohlásky boli rozložené na samohlásku plus nosovú záverovú spoluhlásku, okrem prípadov pred aproximantmi, kde boli priamo denazalizované. Na konci slova bola predná nosová samohláska /ę/ jednoducho denazalizovaná a zadná /ą/ bola transliterovaná, akoby po nej nasledovala zubná záverová spoluhláska.
3 Výsledky
Motor dostupný verejnosti na www.LemkoTran.com obsadil prvé miesto s kumulatívnym skóre kvality prekladu BLEU 6,28, čo je takmer trojnásobok skóre druhého v poradí, služby Google Translate z angličtiny do ukrajinčiny (BLEU 2,17). Ďalej nasledovala jej služba z angličtiny do poľštiny (BLEU 1,70) a jej služba z angličtiny do ruštiny bola na poslednom mieste (BLEU 1,10).
Tabuľka 1. Kvalita prekladu z angličtiny do Lemko: LemkoTran.com verzus Google Translate
3.1 Výsledky podľa služby strojového prekladu
Kontrola. Pri transliterácii do cyriliky dosiahli preklady Google Translate do štandardnej poľštiny skóre BLEU na úrovni korpusu 1,70. Ukážky jeho výkonov sú nasledovné:
Segment 2174.
Anglický zdroj
We had still been in Izby, right.
Lemko referenčný text a transliterácia
То мы іщы были в Ізбах, так.
To mŷ iščŷ bŷly v Izbach, tak.
Poľská hypotéza a transliterácia
Билісьми єще в Ізбах, так.
Byliśmy jeszcze w Izbach, tak.
Skóre
BLEU = 46.20
Segment 854.
Anglický zdroj
And that's what it's all about.
Lemko referenčný text a transliterácia
І о то ходит.
I o to chodyt.
Poľská hypotéza a transliterácia
І о то власьнє ходзі.
I o to właśnie chodzi.
Skóre
BLEU = 32.47
Segment 217.
Anglický zdroj
And that's what it's all about.
Lemko referenčný text a transliterácia
Так мі повіл.
Tak mi povil.
Poľská hypotéza a transliterácia
Так мі повєдзял.
Tak mi powiedział.
Skóre
BLEU = 35.36
Hybridný anglicko-Lemko motor. Motor voľne dostupný verejnosti na URL adrese www.LemkoTran.com dosiahol skóre BLEU na úrovni korpusu 6,28.
Segment 1031.
Anglický zdroj
Everything was there.
Lemko referenčný text a transliterácia
Вшытко там было.
Všŷtko tam bŷlo.
Lemkotran.com hypotéza a transliterácia
Вшытко там было.
Všŷtko tam bŷlo.
Skóre
BLEU = 100.00
Segment 1445.
Anglický zdroj
But that officer took that medal and said,
Lemko referenčný text a transliterácia
Але тот офіцер взял тот медаль і повідат:
Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com hypotéza a transliterácia
Але тот офіцер взял тот медаль і повіл:
Ale tot oficer vzial tot medal' i povil:
Skóre
BLEU = 75.06
Segment 217.
Anglický zdroj
That's what he said to me.
Lemko referenčný text a transliterácia
Так мі повіл.
Tak mi povil.
Lemkotran.com hypotéza a transliterácia
Так мі повіл.
Tak mi povil.
Skóre
BLEU = 100.00
Ukrajinčina. Preklady Google Translate do štandardnej ukrajinčiny dosiahli skóre BLEU na úrovni korpusu 2,35.
Segment 2419.
Anglický zdroj
Where and when?
Lemko referenčný text a transliterácia
Де і коли?
De i koly?
Ukrajinská hypotéza a transliterácia
Де і коли?
De i koly?
Skóre
BLEU = 100.00
Segment 1096.
Anglický zdroj
We were there for three months.
Lemko referenčný text a transliterácia
Там зме были три місяці.
Tam zme bŷly try misiaci.
Ukrajinská hypotéza a transliterácia
Ми були там три місяці.
My buly tam try misjaci.
Skóre
BLEU = 30.21
Segment 2513.
Anglický zdroj
Well, here to the west.
Lemko referenčný text a transliterácia
Но то ту на захід.
No to tu na zachid.
Ukrajinská hypotéza a transliterácia
Ну, тут на захід.
Nu, tut na zachid.
Skóre
BLEU = 30.21
Ruština. Služba Google Translate z angličtiny do ruštiny dosiahla skóre BLEU na úrovni korpusu 1,10.
Segment 432.
Anglický zdroj
Nobody knew.
Lemko referenčný text a transliterácia
Нихто не знал.
Nychto ne znal.
Ruská hypotéza a transliterácia
Никто не знал.
Nikto ne znal.
Skóre
BLEU = 59.46
Segment 2751.
Anglický zdroj
What did they expel us for?
Lemko referenčný text a transliterácia
За што нас выгнали?
Za što nas vŷhnaly?
Ruská hypotéza a transliterácia
За что нас выгнали?
Za čto nas vygnali?
Skóre
BLEU = 42.73
Segment 2164.
Anglický zdroj
Brother went off to war.
Lemko referenčný text a transliterácia
Брат пішол на войну.
Brat pišol na vojnu.
Ruská hypotéza a transliterácia
Брат ушел на войну.
Brat ušel na vojnu.
Skóre
BLEU = 42.73
4 Diskusia
Skóre BLEU na úrovni korpusu pre prekladový systém Lemko 6,28 naznačuje, že hoci je ešte veľa práce, veci sú na správnej ceste. Štandardné ruské skóre BLEU 1,10 naznačuje, že Lemko je menej podobné ruštine ako poľštine (BLEU 1,70). Možno by použitie predrevolučnej ortografie mohlo zvýšiť skóre ruštiny, ale to by bol drahý experiment s malým zjavným prínosom.
Transliterované štandardné poľské kontrolné skóre podobnosti BLEU 1,70 naznačuje menšie rušenie zo strany dominantného jazyka v Poľsku, než by sa dalo očakávať. Bolo by zaujímavé prepracovať experiment, kde by sa na poľštinu aplikovalo niekoľko výpočtovo nenáročných a zjavných zvukových korešpondencií (napríklad denazalizácia *ę na /ja/ a *ǫ na /u/, retrakcia *i na /y/ a zmena *g na /h/ [23]), aby sa zistilo, či by potom dosiahla vyššie skóre ako štandardná ukrajinčina.
Zhrnutie: Lemko bolo syntetizované v laboratóriu a možnosť jeho produkcie bola daná do rúk novým aj rodeným hovorcom. Po dôkladnej generálnej oprave motora a rozšírení glosára je ďalším krokom objektívne zmerať a, ak je to možné, nechať hovorcami subjektívne ohodnotiť kvalitu syntetického Lemko v porovnaní s tým, ktoré produkujú rodení hovorcovia. Deň, keď noví hovorcovia jazykov s nízkymi zdrojmi môžu použiť strojový preklad na to, aby začali komunikovať vo svojom jazyku cez noc, je bližšie, rovnako ako deň, keď sa jazyk Lemko pripojí k radom tých, ktoré boli predtým ohrozené, ale teraz sú revitalizované.
Poďakovanie. Rád by som poďakoval svojmu kolegovi Mingovi Qianovi z Peraton Labs za inšpiráciu k uskutočneniu tohto experimentu a Brianovi Stensrudovi zo Soar Technology, Inc. za to, že nás predstavil, ako aj za jeho povzbudenie.
Taktiež by som rád poďakoval svojej priateľke Corinne Caudill za jej povzbudenie a osobný záujem o projekt, ako aj za to, že ma predstavila prezidentke Karpatsko-rusínskej spoločnosti Maryann Sivak z University of Pittsburgh, ktorej by som rád poďakoval za príležitosť prezentovať moju prácu.
Taktiež by som rád poďakoval Marii Silvestri z nadácie John and Helen Timo Foundation za uskutočnenie rozhovorov s rodenými hovorcami Lemko a darovanie prepisov a mojich prekladov na výskum a vývoj.
Rád by som poďakoval Achimovi Rabusovi z Univerzity vo Freiburgu a Yvesovi Scherrerovi z Helsinskej univerzity za ich záujem o projekt a nápady.
Taktiež by som rád poďakoval Myhal’ovi Lŷžečkovi z blogu o technológiách menšinových jazykov InterFyisa za jeho skorý záujem o projekt a komunitnú osvetu.
Taktiež by som rád poďakoval kolegovi, rodákovi zo Zahoczewie, Markovi Łyszykovi za jeho záujem o projekt a komunitnú osvetu.
Na záver by som rád poďakoval svojmu spoluautorovi a kolegovi z Antech Systems Inc. Tomovi Dobrymu za jeho povzbudenie a vedenie.
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Jazyky sveta, SIL International. Dvadsiate štvrté vydanie. SIL International, Dallas (2021). Online verzia: Koľko jazykov je ohrozených?, https://www.ethnologue.com/guides/how-many-languages-endangered, naposledy prístupné 11. 2. 2022.
6. ^^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Áno, hovorím… Neurónový strojový preklad AI vo viacjazyčnom tréningu. In: Zborník príspevkov z konferencie Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, príspevok č. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integrované stratégie pre revitalizáciu jazyka, str. 175–200. Prvé vydanie. Fakulta „Artes Liberales“, Varšavská univerzita, Varšava (2016).
8. ^ Scherrer, Y., Rabus, A.: Neurónové morfosyntaktické značkovanie pre rusínčinu. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
20. ^ Post, M.: Výzva na jasnosť pri uvádzaní skóre BLEU. In: Zborník príspevkov z Tretej konferencie o strojovom preklade (WMT), vol. 1, str. 186–191. Association for Computational Linguistics, Brusel (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: Systematické porovnanie vyhladzovacích techník pre BLEU na úrovni viet. In: Zborník príspevkov z Deviateho workshopu o štatistickom strojovom preklade, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstvo vnútra a administratívy: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw č. 102, str. 6560–6573. Rządowe Centrum Legislacji, Varšava (2005).
23. ^ Shevelov, G.: O chronológii H a nového G v ukrajinčine. In: Harvard Ukrainian Studies, vol. 1, č. 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942
Lemkovské podstatné meno земля ⟨zemlja⟩ je preložiteľné do angličtiny ako „zem“, „pôda“ alebo „podlaha“, v závislosti od kontextu. Do poľštiny sa prekladá ako ziemia.
Ako vysloviť a zapamätať si
Prvá slabika sa vyslovuje ako anglické zen, ale s hláskou ⟨m⟩ na konci. Druhá slabika sa vyslovuje ako v „la la la“. Na zapamätanie si predstavte zenového mnícha meditujúceho v blate vonku a hovoriaceho „La la la, nepočujem vás!“
Etymológia
Lemkovské podstatné meno земля ⟨zemlja⟩ ‚zem‘ pochádza z praslovanského *zemļà (Derksen, 2008, s. 542). Kognáty zahŕňajú staroslovienske землꙗ (ⰸⰵⰿⰾⱑ) ⟨zemlja⟩ avestské 𐬰𐬃 ⟨zā̊⟩ ‚zem‘ (akuzatívna forma 𐬰𐬆𐬨 ⟨zəm⟩), sanskritské क्ष ⟨kṣá⟩ ‚zem‘, perzské زمین ⟨zamin⟩ ‚zem‘, starogrécke χθών ⟨khthṓn⟩ „zem“, chetitské 𒋼𒂊𒃷 ⟨tēkan⟩, (genitív 𒁖𒈾𒀸 ⟨taknas⟩), latinské humus ‚pôda‘ a starogrécke χαμαί ⟨khamaí⟩ ‚na zemi‘ (Vasmer 1953, s. 452–453, pozri tiež Derksen, 2008, s. 542 a Pokorny, 1959, s. 415).
Skloňovanie
Lemko земля ⟨zemlja⟩ je mäkké podstatné meno prvej deklinácie, ktoré sa skloňuje takto:
Jednotné číslo
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nom
зе́мля ⟨zémlja⟩
ziemia
земля́
земля́
Gen
зе́mľi ⟨zémli⟩
ziemi
землі́
земли́
Dat
зе́mly ⟨zémly⟩a
ziemi
землі́
земле́
Akuz
зе́mľu ⟨zémlju⟩
ziemię
зе́mľu
зе́mľu
Inštr
зе́mľom ⟨zémlʹom⟩
ziemią
земле́ю
землёй
Lok
зе́mly ⟨zémly⟩a
ziemi
землі́
земле́
Vok
зе́mľo ⟨zémlʹo⟩b
ziemio
зе́mle
—
Skloňovanie lemkovského mäkkého podstatného mena prvej deklinácie земля ⟨zemlja⟩ ‚zem‘ v jednotnom čísle v porovnaní s jeho poľskými, ukrajinskými a ruskými kognátmi.
a Pyrtej (2013, s. 38) uvádza зе́млі ⟨zémli⟩ ako datívne a lokálne tvary jednotného čísla, avšak Fontański a Chomiak (2000, s. 64) uvádzajú зе́mly ⟨zémly⟩.
bFontański a Chomiak (2000, s. 64) uvádzajú земле ⟨zemle⟩ ako alternatívny vokatívny tvar jednotného čísla.
Množné číslo
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nom
зе́mľi ⟨zémli⟩
ziemie
зе́mľi
зе́mly
Gen
зе́mľ ⟨zémlʹ⟩
ziem
земе́ľ
земе́ľ
Dat
зе́mľam ⟨zémljam⟩
ziemiom
зе́mľam
зе́mľam
Akuz
зе́mľi ⟨zémli⟩
ziemie
зе́mľi
зе́mly
Inštr
zemľámy ⟨zemljámy⟩
ziemiami
зе́mľami
зе́mľami
Lok
зе́mľach ⟨zémljax⟩
ziemiach
зе́mľach
зе́mľach
Vok
зе́mľi ⟨zémli⟩
ziemie
зе́mľi
—
Skloňovanie lemkovského mäkkého podstatného mena prvej deklinácie земля ⟨zemlja⟩ ‚zem‘ v množnom čísle v porovnaní s jeho poľskými, ukrajinskými a ruskými kognátmi.
Referencie
^ Derksen, Rick. (2008). V Lubotsky, A. (Ed.), Leiden Indo-European Etymological Dictionary Series: Vol. 4. Etymological Dictionary of the Slavic Inherited Lexicon. Koninklijke Brill NV. https://brill.com/view/title/12607
Formy Lemko slova рік ⟨rik⟩ uvedené nižšie sú preložiteľné do angličtiny ako „year“ alebo „years“.
Mnemotechnická pomôcka
Na zapamätanie si Lemko slova рік ⟨rik⟩ si anglicky hovoriaci môžu predstaviť niečo zapáchajúce na silvestrovskej párty (Lemko rik a anglické reek sa vyslovujú prakticky rovnako).
Etymológia
Z praslovanského *rokŭ ‚čas‘, samotné deverbálne podstatné meno z *rekti ‚povedať‘, ktorého príbuzné slová zahŕňajú staroslovienčinu рокъ (ⱃⱁⰽⱏ) ⟨rokŭ⟩ ‚čas, termín‘, ako aj možno anglické reckon, sanskritské रचयति ⟨racáyati⟩ „konštruovať, pracovať“, gótske 𐍂𐌰𐌷𐌽𐌾𐌰𐌽 ⟨rahnjan⟩ ‚reckon‘ (Pokorny 1959, s. 863, pozri tiež Vasmer, 1955, s. 532) a waleské rhegi ‚preklínať‘ (Derksen, 2008, s. 433, 438).
a Nominatív a akuzatív Lemko рік ⟨rik⟩ ‚rok‘ je rovnaký ako genitív množného čísla ріка ⟨rika⟩ ‚rieka‘. Horoszczak (2004, s. 330) uvádza nominatív a akuzatív jednotného čísla ako „рик ⟨ryk⟩, рік ⟨rik⟩“.
b Pozri Pyrtej (2013, s. 46) pre genitívne a datívne formy jednotného čísla Lemko рік ⟨rik⟩ ‚rok‘. Fotografia nižšie.
Nižšie nájdete preklad, etymológiu, úplné skloňovacie tabuľky a referencie pre Lemko ukazovacie zámená тот ⟨tot⟩ s významom „tento“ alebo „tieto“, a тамтот ⟨tamtot⟩ s významom „tamten“ alebo „tamtie“.
Lemko ukazovacie zámeno v slovníkovej (mužský rod jednotného čísla) forme тот ⟨tot⟩ je preložiteľné do angličtiny ako „this“ v jednotnom čísle a „these“ v množnom čísle. Ak je predponou там ⟨tam⟩ (napríklad тамтот ⟨tamtot⟩), je preložiteľné ako „that“ v jednotnom čísle a „those“ v množnom čísle.
Etymológia
Lemko ukazovacie zámeno v slovníkovej (mužský rod jednotného čísla) forme тот ⟨tot⟩ pochádza z rekonštruovaného praslovanského *tŭ. V širšom kontexte súvisí s anglickým slovom that a sanskritským तत् ⟨tat⟩ (Vasmer, 1958, s. 128), preložiteľným ako „tento“ a objavujúcim sa v slávnom verši तत्त्वमси ⟨tat tvam asi⟩ s významom „Ty si to“.
Záznam pre moskovské ruské ukazovacie zámeno тот ⟨tot⟩ vo Vasmerovom diele Russisches Etymologisches Wörterbuch, Dritter Band: Sta–Ÿ (1958, s. 128).
Blízke („tento“ a „tieto“)
Jednotné číslo („Tento“)
Všetky nasledujúce tvary sú preložiteľné do angličtiny ako „this“.
Mužský rod
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nominatív
тот ⟨tot⟩a
ten
цей
э́тот
Genitív
то́го ⟨tóho⟩
tego
цього́
э́того
Datív
то́му ⟨tómu⟩
temu
цьому́
э́тому
Akuzatív (neživotné)
тот ⟨tot⟩a
ten
цей
э́тот
Akuzatív (životné)
то́го ⟨tóho⟩
tego
цього́
э́того
Inštrumentál
тым ⟨tŷm⟩b
tym
цим
э́тим
Lokál
тым ⟨tŷm⟩c
tym
цьо́му, цім
э́том
a Pyrtej (2013) uvádza той⟨toj⟩ ako alternatívnu formu Lemko mužského nominatívu (ako aj akuzatívu neživotného) jednotného čísla ukazovacieho zámena (s. 107). Táto forma chýba u Fontańského & Chomiaka (2000, s. 97).
b Pyrtej (2013) uvádza тим⟨tym⟩ ako Lemko formu mužského inštrumentálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
c Pyrtej (2013) uvádza тім⟨tim⟩ ako Lemko formu mužského lokálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
Ženský rod
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nominatív
то́та ⟨tóta⟩a
ta
ця
э́та
Genitív
той ⟨toj⟩
tej
ціє́ї
э́той
Datív
тій ⟨tij⟩
tej
цій
э́той
Akuzatív
то́ту ⟨tótu⟩b
tę
цю
э́ту
Inštrumentál
том ⟨tom⟩
tą
ціє́ю
э́той, э́тою
Lokál
тій ⟨tij⟩
tej
цій
э́той
a Pyrtej (2013) uvádza та⟨ta⟩ a та́я⟨tája⟩ ako alternatívne formy Lemko ženského nominatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
b Pyrtej (2013) uvádza ту⟨tu⟩ a ту́ю⟨túju⟩ ako alternatívne formy Lemko ženského akuzatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
Stredný rod
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nominatív
то́то ⟨tóto⟩a
to
це
э́то
Genitív
то́го ⟨tóho⟩
tego
цього́
э́того
Datív
то́му ⟨tómu⟩
temu
цьому́
э́тому
Akuzatív
то́то ⟨tóto⟩
to
цей
э́то
Inštrumentál
тым ⟨tŷm⟩b
tym
цим
э́тим
Lokál
тым ⟨tŷm⟩c
tym
цьо́му, цім
э́том
a Pyrtej (2013) uvádza то⟨to⟩ a то́є⟨tóje⟩ ako alternatívne formy Lemko stredného nominatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
b Pyrtej (2013) uvádza тим⟨tym⟩ ako Lemko formu stredného inštrumentálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
c Pyrtej (2013) uvádza тім⟨tim⟩ ako Lemko formu stredného lokálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
Nasledujúce formy sa používajú bez ohľadu na gramatický rod a sú preložiteľné do angličtiny ako „these“.
Pád
Lemko
Poľština
Ukrajinčina
Ruština
Nominatív
то́ты ⟨tótŷ⟩
te/ci
ці
э́ти
Genitív
тых ⟨tŷch⟩
tych
цих
э́тих
Datív
тым ⟨tŷm⟩
tym
цим
э́тим
Akuzatív (neživotné)
то́ты ⟨tótŷ⟩
te
ці
э́ти
Akuzatív (životné)
тых ⟨tŷch⟩
tych
цих
э́тих
Inštrumentál
ты́ма ⟨tŷma⟩
tymi
ци́ми
э́тими
Lokál
тых ⟨tŷch⟩
tych
цих
э́тих
Vzdialené („tamten“, „tamtie“)
Na vyjadrenie vzdialenosti od hovoriaceho jednoducho predponujte všetky vyššie uvedené zámená Lemko slovom там ⟨tam⟩. To je ekvivalentné tomu, ako keby ste v angličtine povedali „that“ namiesto „this“ alebo „those“ namiesto „these“.
Jednotné číslo („Tamten“)
Pád
Mužský rod
Ženský rod
Stredný rod
Nominatív
тамтот ⟨tamtot⟩a
тамто́та ⟨tamtóta⟩d
тамто́то ⟨tamtóto⟩x
Genitív
тамто́го ⟨tamtóho⟩
тамтой ⟨tamtoj⟩
тамто́го ⟨tamtóho⟩
Datív
тамто́му ⟨tamtómu⟩
тамтій ⟨tamtij⟩
тамто́му ⟨tamtómu⟩
Akuzatív (neživotné)
тамтот ⟨tamtot⟩a
тамто́ту ⟨tamtótu⟩e
тамто́то ⟨tamtóto⟩
Akuzatív (životné)
тамто́го ⟨tamtóho⟩
тамто́ту ⟨tamtótu⟩e
тамто́то ⟨tamtóto⟩
Inštrumentál
тамтым ⟨tamtŷm⟩b
тамтом ⟨tamtom⟩
тамтым ⟨tamtŷm⟩b
Lokál
тамтым ⟨tŷm⟩c
тамтій ⟨tamtij⟩
тамтым ⟨tamtŷm⟩c
a Pyrtej (2013) uvádza той⟨toj⟩ ako alternatívnu formu Lemko mužského nominatívu (ako aj akuzatívu neživotného) jednotného čísla ukazovacieho zámena (s. 107). Táto forma chýba u Fontańského & Chomiaka (2000, s. 97).
b Pyrtej (2013) uvádza тим⟨tym⟩ ako Lemko formu mužského a stredného inštrumentálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
c Pyrtej (2013) uvádza тім⟨tim⟩ ako Lemko formu mužského a stredného lokálu jednotného čísla ukazovacieho zámena (s. 107), na rozdiel od formy тым ⟨tŷm⟩, ktorá sa objavuje u Fontańského & Chomiaka (2000, s. 97).
d Pyrtej (2013) uvádza та⟨ta⟩ a та́я⟨tája⟩ ako alternatívne formy Lemko ženského nominatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
e Pyrtej (2013) uvádza ту⟨tu⟩ a ту́ю⟨túju⟩ ako alternatívne formy Lemko ženského akuzatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
f Pyrtej (2013) uvádza то⟨to⟩ a то́є⟨tóje⟩ ako alternatívne formy Lemko stredného nominatívu jednotného čísla ukazovacieho zámena (s. 107). Tieto formy chýbajú u Fontańského & Chomiaka (2000, s. 97).
Byť či nebyť? Быти або не быти? To je otázka, a teraz môžete časovať infinitívy preslávené úvodnou vetou Hamletovho monológu v Lemko jazyku pomocou automatickej prekladateľskej služby LemkoTran, alebo si vytvoriť vlastné spony pomocou tohto praktického DIY sprievodcu.
Lemko sloveso быти (vedecká transliterácia: ⟨bŷty⟩) znamená „byť“ v angličtine, być v poľštine, бути ⟨buty⟩ v štandardnej ukrajinčine a быть ⟨byt’⟩ v moskovskej ruštine.
Angličtina
Lemko
Poľština
Ukrajinčina
Ruština
byť
быти ⟨bŷty⟩
być
бути
быть
Preklady Lemko slovesa быти do angličtiny, poľštiny, ukrajinčiny a ruštiny.
Etymológia
Lemko infinitív быти ⟨bŷty⟩, čo znamená „byť“, pochádza z protoslovanského atematického slovesa *byti a súvisí so sanskritským भूति ⟨bhūtíṣ⟩ „blahobyt“ (Vasmer 1953, s. 159; Pokorny 1959 147), perzským بودن ⟨būdan⟩ „byť“ (Pokorny, s. 147), latinským futūrus „budúcnosť“ (Vasmer, s. 159, Pokorny, s. 149) a prostredníctvom staroanglického bēon, anglického be (Pokorny, s. 149).
Doloženie
Hamletova slávna úvodná veta „Byť či nebyť, to je otázka“ je spomenutá v nasledujúcich publikovaných dielach, ktoré sa objavili:
Для дакотрых орґанізаций є то быти або не быти, значыт, без тых грошів не сут в силі нич зреализувати.“ (LEM.fm 2021)
Transcription
dl'a dakotrŷch organizacyj je to bŷty abo ne bŷty, značŷt, bez tŷch hrošiv ne sut v syl'i nyč zrealyzuvaty.
Translation
For some organizations, it's to be or not to be, meaning they will not be able to achieve anything without those funds.
От нашых діл и нашой віры буде рішатися вопрос: ци нам лемкам быти, ци не быти?….“ (Цисляк 1964, s. 162)
Transliterácia
Ot našŷch dil y našoj virŷ bude rišatysia vopros: cy nam lemkam bŷty, cy ne bŷty?…
Preklad
Our affairs and our faith will be decide the question of whether we Lemkos are to be or not to be…
Časovanie
Budúci čas
Koreň: буд– ⟨bud-⟩
Budúci čas Lemko slovesa byť, быти ⟨bŷty⟩, sa tvorí pridaním osobných koncoviek ku koreňu bud-, čo je ekvivalentné anglickému will.
Etymológia
Lemko bud- pochádza z protoslovanského koreňa *bǫd-. Porovnajte príponu -bund v anglickom moribund z latinského moribundus (Pokorny, s. 150, Vasmer, s. 136).
Tabuľka časovania
Angličtina
Lemko
Poľština
Ukrajinčina
Ruština
Ja budem
буду ⟨búdu⟩
będę
буду
буду
Ty budeš
будеш⟨búdeš⟩
będziesz
будеш
будешь
On/ona bude
буде ⟨búdet⟩
będzie
буде
будет
My budeme
будеме ⟨budéme⟩
będziemy
будемо
будем
Vy budete
будете ⟨budéte⟩
będziecie
будете
будете
Oni budú
будут ⟨búdut⟩
będą
будуть
будут
Tvary časovania budúceho času Lemko slovesa быти ⟨bŷty⟩ preložené do angličtiny, poľštiny, štandardnej ukrajinčiny a ruštiny.
V Lemko jazyku sa prítomný čas slovesa byť tvorí v jednotnom čísle z koreňa є- ⟨je-⟩ a v množnom čísle z koreňa с- ⟨s-⟩.
Etymológia
Všetky nižšie uvedené tvary siahajú k predkovi protoslovanského koreňa *es-, ku ktorému boli pripojené osobné koncovky. Porovnajte s anglickým is, nemeckým ist, latinským est, starogréckym ἐστί ⟨estí⟩, perzským است ⟨ast⟩ a sanskritským अस्ति ⟨ásti⟩ (Pokorny, s. 340-341; Vasmer, s. 405).
Tabuľka časovania
Angličtina
Lemko
Poľština
Ukrajinčina
Ruština
Ja som
єм ⟨jem⟩
jestem
є
есть
Ty si
єс ⟨jes⟩
jesteś
є
есть
On/ona je
єст ⟨jest⟩a
jest
є
есть
My sme
сме ⟨sme⟩b
jesteśmy
є
есть
Vy ste
сте ⟨ste⟩c
jesteście
є
есть
Oni sú
сут ⟨sut⟩
są
є
есть
Tvary časovania prítomného času Lemko slovesa быти ⟨bŷty⟩ preložené do angličtiny, poľštiny, štandardnej ukrajinčiny a ruštiny.
a Lemko tvar tretej osoby jednotného čísla єст ⟨jest⟩ je teraz nahrádzaný tvarom є ⟨je⟩, hoci je to stále zriedkavé (Fontański & Chomiak 2000, s. 109).
bFontański & Chomiak (2000, s. 109) uvádzajú Lemko tvar prvej osoby množného čísla ako (єсме)сме/зме ⟨(jesme)sme/zme⟩.
cFontański & Chomiak (2000, s. 109) uvádzajú Lemko tvar druhej osoby množného čísla ako (єсте)сте ⟨(jeste)ste⟩.
Minulý čas slovesa „byť“ sa v Lemko jazyku tvorí pridaním príslušných rodových a množných prípon ku kmeňu был- ⟨bŷl-⟩, preložiteľnému do angličtiny ako was alebo were.
Etymológia
Lemko был⟨bŷl⟩ je nepochybne pokračovaním protoslovanského výsledného príčastia *bylŭ. Porovnajte so starogréckym φῦλον ⟨phylon⟩ (Vasmer, s. 159), z ktorého pochádza anglické phylum.
Tabuľky časovania
Mužský rod
Použite nasledujúce pre označenie mužov alebo zmiešaných skupín mužov a žien, ako aj predmetov gramaticky mužského rodu. Mužská virilita nie je v Lemko jazyku gramatickou kategóriou, na rozdiel od poľštiny.
Angličtina
Lemko
Poľština
Ukrajinčina
Ruština
Ja som bola
я былa ⟨ja bŷl⟩
byłem
я був
я был
Ty si bola
ты былb ⟨tý bŷl⟩
byłeś
ти був
ты был
On bol
він был ⟨vin bŷl⟩
był
він був
он был
My sme boli
мы былиc ⟨mŷ bŷly⟩
byliśmy
ми були
мы были
Vy ste boli
вы былиd ⟨vŷ bŷly⟩
byliście
ви були
вы были
Oni boli
они были ⟨ony bŷly⟩
byli
вони були
они были
Tvary časovania minulého času mužského rodu Lemko slovesa быти ⟨bŷty⟩ preložené do angličtiny, poľštiny, štandardnej ukrajinčiny a ruštiny.
aFontański & Chomiak (2000, s. 109) uvádzajú был єм ⟨bŷl em⟩ ako alternatívny tvar mužského rodu prvej osoby jednotného čísla minulého času slovesa „byť“.
bFontański & Chomiak (2000, s. 109) uvádzajú был єс ⟨bŷl es⟩ ako alternatívny tvar mužského rodu druhej osoby jednotného čísla minulého času slovesa „byť“.
cFontański & Chomiak (2000, s. 109) uvádzajú были сме ⟨bŷly sme⟩ ako alternatívny tvar prvej osoby množného čísla minulého času slovesa „byť“.
dFontański & Chomiak (2000, s. 109) uvádzajú были сте ⟨bŷly ste⟩ ako alternatívny tvar druhej osoby množného čísla minulého času slovesa „byť“.
Použite nasledujúce pre označenie žien a predmetov gramaticky ženského rodu.
Angličtina
Lemko
Poľština
Ukrajinčina
Ruština
Ja som bola
я былаa ⟨ja bŷla⟩
byłam
я була
я была
Ty si bola
ты былаb ⟨tý bŷla⟩
byłaś
ти була
ты была
Ona bola
она была ⟨ona bŷla⟩
była
вона була
он была
My sme boli
мы былиc ⟨mŷ bŷly⟩
byłyśmy
ми були
мы были
Vy ste boli
вы былиd ⟨wŷ bŷly⟩
byłyście
ви були
вы были
Ony boli
они были ⟨ony bŷly⟩
były
вони були
они были
Tvary časovania minulého času ženského rodu Lemko slovesa быти ⟨bŷty⟩ preložené do angličtiny, poľštiny, štandardnej ukrajinčiny a ruštiny.
aFontański & Chomiak (2000, s. 109) uvádzajú была єм ⟨bŷla em⟩ a былам ⟨bŷlam⟩ ako alternatívne tvary ženského rodu prvej osoby jednotného čísla minulého času slovesa „byť“.
bFontański & Chomiak (2000, s. 109) uvádzajú была єс ⟨bŷla es⟩ a былас ⟨bŷlas⟩ ako alternatívne tvary ženského rodu druhej osoby jednotného čísla minulého času slovesa „byť“.
cFontański & Chomiak (2000, s. 109) uvádzajú были сме ⟨bŷly sme⟩ ako alternatívny tvar prvej osoby množného čísla minulého času slovesa „byť“.
dFontański & Chomiak (2000, s. 109) uvádzajú были сте ⟨bŷly ste⟩ ako alternatívny tvar druhej osoby množného čísla minulého času slovesa „byť“.
Tento mesiac budem vykonávať experiment, aby som zistil, či je možné stroje naučiť prekladať do Lemko lepšie ako Google Translate alebo ľudia.
Hypotéza
Stroj je možné nakonfigurovať na preklad z angličtiny do ohrozeného slovanského jazyka Lemko a dosiahnuť vyššie skóre kvality ako ukrajinská služba Google Translate, ale zatiaľ nie vyššie ako skóre ľudí.
Predpovede
Môj systém strojového prekladu založený na pravidlách (RBMT) z angličtiny do Lemko dosiahne bilingválne hodnotenie pod štúdiom (BLEU) skóre 15 proti čistému bilingválnemu korpusu.
Vyššie uvedený systém dosiahne skóre BLEU, ktoré je o tretinu vyššie (napr. 20), v spojení s improvizovaným systémom strojového prekladu založeným na slovníku (DBMT) vytvoreným z párov tvrdení jednotkových testov Lemko-poľština.
Prekladateľská služba Google Translate z angličtiny do ukrajinčiny dosiahne skóre BLEU 10 proti vyššie uvedenému korpusu.
Ja, človek, dosiahnem vyššie skóre BLEU ako všetky vyššie uvedené stroje proti vyššie uvedenému korpusu.
Experimenty sa uskutočnia v priebehu približne jedného týždňa, pre následné zverejnenie.
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Orynycz, P.; Dobry, T.; Jackson, A.; Litzenberg, K.Yes I Speak… AI neural machine translation in multi-lingual training
@inproceedings{orynycz2021yes,
author = {Petro Orynycz and T. Dobry and A. Jackson and K. Litzenberg},
title = {Yes I Speak… AI neural machine translation in multi-lingual training},
booktitle = {Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC)},
year = {2021},
url = {https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862}
}
✅ Táto verzia príspevku bola prijatá na publikovanie po recenznom konaní, ale nie je to finálna publikovaná verzia (Version of Record) a neodráža vylepšenia po prijatí ani žiadne opravy. Finálna publikovaná verzia je dostupná online na tomto odkaze. Použitie tejto prijatej verzie podlieha podmienkam používania akceptovaného rukopisu vydavateľa.
Rýchlo zdieľateľné a spoločne použiteľné školenia medzi koaličnými partnermi sa musia jazykovo a kultúrne prispôsobiť (t. j. lokalizovať) jazykom neanglofónnych spojencov, ktorí predstavujú aktérov v prvej línii s obmedzenou alebo potenciálne žiadnou znalosťou angličtiny. Tradične bola lokalizácia časovo a pracovne náročný proces, pričom expert potreboval viac ako dva mesiace na preklad stredne veľkej knihy. Medzitým musia cvičenia reagovať na celkové časové rámce vývoja v dňoch a týždňoch, nie v mesiacoch a rokoch, aby reagovali na meniace sa reality operačného sveta. V tomto kontexte sa tradičná lokalizácia stáva hlavnou prekážkou pre úsilie koalície. V rýchlo sa vyvíjajúcich situáciách spojenci jednoducho nemôžu čakať mesiace a roky na školenia potrebné dnes večer alebo na riešenie misie budúceho týždňa v jazykoch ľahko zrozumiteľných v prvej línii – to znamená, aby sa splnil dlho očakávaný sen o lokálne prispôsobenom školení na riešenie potrieb priamo v teréne.
Vstupuje do hry vznikajúca technológia umelej inteligencie, neuronový strojový preklad, ktorá dokáže za pár minút to, čo skúseným ľudským lingvistom trvá hodinu, čím sa stáva uskutočniteľné celokoaličné, viacjazyčné nasadenie v priebehu dní a týždňov, pričom sa zohľadňuje neustále sa zlepšujúca komplexnosť. To je možné vďaka strojovému učeniu, teda trénovaniu umelých rekurentných neurónových sietí na preklad z jedného prirodzeného jazyka do druhého.
Vyvinuli sme motory založené na umelej inteligencii, merali sme čas ich prekladu školiacich materiálov Organizácie Severoatlantickej zmluvy (NATO) a ich presnosť sme merali pomocou metriky BLEU (bilingual understudy evaluation). Náš motor prekladal z ruštiny o 1 169,51 % rýchlejšie a o 58,37 % presnejšie ako náš profesionálny ľudský lingvista použitý ako kontrola. Náš poľský neurónový motor bol o 17,29 % presnejší a o 488,45 % rýchlejší ako ľudský. Naše prekladové motory Lemko sú prvé na svete a dosiahli slušné skóre BLEU 14,57. Medzitým sme vyššie uvedené vykonali na lacnom prenosnom počítači v prostredí s oddelenou sieťou a riadeným prístupom, odrezanom od vonkajšieho sveta.
Online prekladateľské služby fungujú, kým človek nepotrebuje prekladať tajne alebo z jazyka, ktorý nepatrí medzi top 2 % z hľadiska zdrojov. Používanie aj tých najbezpečnejších online alebo cloudových prekladateľských služieb znamená zdieľanie informácií s treťou stranou, čo porušuje väčšinu komerčných dohôd o mlčanlivosti, nehovoriac o požiadavkách obranného priemyslu. Ďalej, popredná online prekladateľská platforma funguje len pre 109 jazykov (Google, 2021), čo je menej ako 2 % zo 7 139 jazykov, ktorými sa dnes hovorí vo svete (Eberhard, Simons, & Fennig, 2021). Tvárou v tvár inherentnému riziku tretích strán u poskytovateľov cloudových služieb sa mnohí obracajú na preverených ľudských lingvistov, ktorí dokážu v najlepšom prípade preložiť jednu knihu mesačne a v najhoršom prípade predstavujú celoživotné hrozby neoprávneného zverejnenia. Aby sme poskytli viac možností viacjazyčným podnikom a organizáciám, rozhodli sme sa vyriešiť problém využitia umelej inteligencie na rýchly, presný a tajný preklad materiálov z jazykov s vysokými, strednými a nízkymi zdrojmi na lacných, stredne výkonných prenosných počítačoch s oddelenou sieťou, odpojených od internetu a vonkajšieho sveta.
Doterajšie riešenia
Zatiaľ čo základy strojového prekladu boli položené v Bagdade al-Kindīho pred viac ako tisícročím (DuPont, 2018; pozri tiež al-Kindī, 2002), takmer všetok veľkolepý, viditeľný pokrok sa udial v Silicon Valley za posledných päť rokov. Hlavný prelom nastal v spoločnosti Google (Lewis-Kraus, 2016) a Facebook sa teraz pripojil ku klubu neurónového strojového prekladu (Ott a kol., 2019). Vychádzali sme z práce ich motora FAIRseq, pre ktorý Sławomir Dadas sprístupnil vynikajúci poľsko-anglický model (Dadas, 2019). Nadviazali sme na prácu pána Dadasa, aby sme vytvorili hybridné neurónové/pravidlové/slovníkové motory, ktoré prekladajú z Lemko do angličtiny a naopak. Myšlienka aplikácie prenosového učenia pre spracovanie rusínskeho prirodzeného jazyka (NLP) bola prediskutovaná s našimi váženými kolegami Yvesom Scherrerom a Achimom Rabusom, ktorí ako prví publikovali výsledky v recenzovanom časopise a láskavo využili príležitosť spomenúť hybridný neurónový/pravidlový Lemko strojový prekladový motor Petra Orynycziho (Scherrer & Rabus, Neuronové morfosyntaktické značkovanie pre rusínčinu, 2019, s. 634), ktorý je v prevádzke a voľne dostupný na verejné použitie na webovej adrese www.lemkotran.com od marca 2019, pričom jeho modul na spracovanie prirodzeného jazyka s transliteráciou bol tam sprístupnený na verejné použitie v septembri 2017.
Širší systém
Jazyky s vysokými, strednými a nízkymi zdrojmi
Jazykové páry sú v odbornej literatúre klasifikované ako s vysokými zdrojmi, so strednými zdrojmi a s nízkymi zdrojmi, v závislosti od množstva dostupných technológií a dátových súborov vzhľadom na ich medzinárodný význam (Cieri, Maxwell, Strassel, & Tracey, 2016, s. 4545). Páry s vysokými zdrojmi zahŕňajú češtinu-angličtinu (Kocmi, 2020, s. 171), ruštinu-angličtinu, nemčinu-angličtinu (Ng a kol., 2019, s. 314) a čínštinu-angličtinu (Kocmi & Bojar, 2019, s. 234–235). Poľština-angličtina je pár so strednými zdrojmi (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, s. 2). Páry s nízkymi zdrojmi zahŕňajú gudžarátčinu-angličtinu, kazaštinu-angličtinu (Kocmi & Bojar, s. 234), inuktitut-angličtinu (Kocmi, s. 171) a Lemko-angličtinu (Scherrer & Rabus, 2019, s. 85). Keďže trénovanie jazykových modelov umelej inteligencie vyžaduje obrovské množstvo bilingválnych dát, jazyky s vyššími zdrojmi sa vo všeobecnosti tešia dostupnosti neurónových strojových prekladových motorov. Medzitým, kvôli nedostatku tréningových dát pre strojové učenie, sú neurónové motory zriedkavejšie pre jazyky s nižšími zdrojmi, ktoré sú často lepšie obsluhované predchádzajúcou generáciou motorov štatistického strojového prekladu (SMT).
Jazyk s vysokými zdrojmi v experimente: ruština
Ruštinou hovorí ako prvým jazykom viac ako 168 miliónov ľudí a ako ďalším jazykom ďalších 114 miliónov (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, s. 2). Automatizácia jej prekladu do angličtiny bola svätým grálom povojnového úsilia v oblasti strojového prekladu. Ako jeden z úradných jazykov Organizácie Spojených národov je k dispozícii obrovské množstvo bilingválneho rusko-anglického textu pod liberálnou licenciou (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, s. 3530).
Jazyk so strednými zdrojmi v experimente: poľština
Poľština je západoslovanský jazyk, ktorým hovorí približne 38 miliónov ľudí v dnešnom Poľsku, pričom sa očakáva pokles tohto počtu čiastočne v dôsledku pandémie prebiehajúcej v čase publikácie (Associated Press, 2021). Ďalších 10 miliónov hovorí poľsky do určitej miery aj za hranicami krajiny (Jassem, 2003, s. 103). Ako jeden z úradných jazykov Európskej únie je k dispozícii veľké množstvo bilingválneho textu na trénovanie prekladových modelov umelej inteligencie, vrátane 22 630 dokumentov Európskeho parlamentu (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, s. 3165).
Jazyk s nízkymi zdrojmi v experimente: Lemko
Lemko je jazyk s nízkymi zdrojmi (Scherrer & Rabus, 2019, s. 85), ktorý spĺňa tradičné kritériá pre klasifikáciu ako východoslovanský. Napríklad Lemko vykazuje východoslovanskú pleofóniu, to znamená, že výsledkom praslovanských sekvencií „ToRT“ je ToRoT (Fortson IV, 2004, s. 371-372), ako v Lemko horodyty ‘oplotiť, ohradiť’ (Horoszczak, 2004, s. 45), ako aj v štandardnej ukrajinčine horodyty, rusínčine horodyty a ruštine gorodit’ (Kerča, 2007, s. 176). Medzitým porovnajte poľštinu (západoslovanský jazyk) s -ro- v grodzić, ale chorvátčinu (juhoslovanský jazyk) s -ra- v graditi, ‘stavať’. Ďalej, angličtina má -ar- v yard a garden, avestčina (staroiránsky jazyk) s -ǝrǝ- v gǝrǝδō ‘jaskyňa’, a sanskrit (staroindický jazyk) s -ṛ- v gṛhás ‘domov’ (Vasmer, s. 1443).
Zatiaľ čo presná klasifikácia Lemko a jeho status vo vzťahu k štandardnej ukrajinčine a kodifikovanej rusínčine je predmetom kontroverzie (Rabus & Scherrer, 2017), náš Lemko-anglický motor, ktorý dosiahol tak vysoké skóre bez použitia zdrojov štandardnej ukrajinčiny alebo rusínčiny kodifikovanej na Slovensku, by mohol podporiť záver Watrala (2015), že Lemko je plnohodnotný jazyk sám o sebe, a nie dialekt iného jazyka. Povzbudení rastúcimi objektívnymi hodnotami kvality sme sa rozhodli uprednostniť poľské prenosové učenie kvôli jeho okamžitej návratnosti investícií z hľadiska presnosti prekladu Lemko, čo je naša najvyššia hodnota. Je možné, že hodnoty kvality boli zvýšené interferenciou z pozorovanej hybridnej reči, kde sú gramatické koncovky Lemko spätne prispôsobené štandardným poľským slovám (Watral, 2016, s. 242).
Poľský štatistický úrad zaznamenal v roku 2011 6 279 osôb hovoriacich Lemko doma, čo je nárast z 5 605 v roku 2002 (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, s. 7), pričom v čase publikácie prebiehalo nové sčítanie. Koľko z 24 539 obyvateľov Poľska, ktorí boli v roku 2011 zaznamenaní ako hovoriaci ukrajinsky doma alebo 626 hovoriacich „rusínsky“ (język ruski) s inými členmi domácnosti (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, s. 7), by mohlo byť hovoriacich Lemko, presahuje rozsah tohto článku. Štátna štatistická služba Ukrajiny zaznamenala 672 Lemkov v rámci svojich hraníc (Deržavna služba statystyky Ukraïny, 2001). Na stupnici ohrozenia jazykov OSN od 0 do 5, kde 0 znamená vyhynutý a 5 „bezpečný“ (Ad Hoc expertná skupina UNESCO pre ohrozené jazyky, 2003, s. 7-8), by sa Lemko blížilo k 2, to znamená, vážne ohrozený: prirodzený medzigeneračný prenos jazyka čoraz viac chýba a mladší hovoriaci sú čoraz neexistujúci (Duć-Fajfer, 2016, s. 178). Existujú však aj pozitívne signály, keďže zákony, ktoré chránia a podporujú používanie menšinových jazykov vo vzdelávaní, vysielaní, vydavateľstve, cestnom značení a vede, sa čoraz viac využívajú (Duć-Fajfer, 2016, s. 178-179).
Situácia so zdrojmi sa tiež zlepšuje. Petro Orynycz zostavil a zarovnal bilingválny Lemko-anglický korpus, ktorý obsahuje 68 599 zdrojových slov spolu s jeho prekladmi do angličtiny (jediný existujúci paralelný text, o ktorom vieme). Korpus bol zostavený pomocou rozhovorov vedených v Lemko nadáciou Johna a Helen Timo zo Spojených štátov, ktorá poverila pána Orynycziho, aby ich prepísal a preložil, a tiež mu povolila použiť túto prácu vo svojom vedeckom výskume a vývoji. Zhromažďuje tiež monolingválny Lemko korpus s viac ako miliónom slov. Zatiaľ čo komplexné sociolingvistické vzťahy medzi Lemko, rusínskymi, štandardnými ukrajinskými a slovenskými jazykovými komunitami presahujú rozsah tohto článku, práve poľské zdroje (konkrétne poľské neurónové modely) boli kľúčové pre hybridné Lemko motory pána Orynycziho.
Hypotézy a predpovede
Rýchlosť prekladu
Hypotéza: strojový preklad s umelou inteligenciou s oddelenou sieťou je teraz rovnako rýchly ako ľudia
Predpokladali sme, že motory neurónového strojového prekladu bežiace offline na stredne výkonných prenosných počítačoch sú teraz porovnateľné rýchlosťou s ľudskými prekladateľmi. To bolo založené na pozorovaniach počas vývoja motora, že neurónový strojový preklad trval od niekoľkých sekúnd do menej ako minúty na preklad vety na stredne výkonnom prenosnom počítači, čo je porovnateľné s ľudskými rýchlosťami, ktoré pozoroval Petro Orynycz vo svojej skúsenosti v lokalizačnom priemysle.
Predpoveď: motory strojového prekladu spracujú viac slov za hodinu ako ľudskí prekladatelia
Na základe našej hypotézy, že motory neurónového strojového prekladu s oddelenou sieťou bežiace offline na stredne výkonných prenosných počítačoch budú rovnako rýchle ako ľudia, sme predpovedali, že ich rýchlosť prekoná rýchlosť ľudských lingvistov a že preložia viac slov za sekundu ako náš ľudský kontrolný subjekt.
Presnosť prekladu
Hypotéza: motory strojového prekladu s umelou inteligenciou sú teraz takmer rovnako presné ako ľudskí prekladatelia
To bolo založené na profesionálnom pozorovaní Petra Orynycziho ako špecialistu na kontrolu kvality prekladu, že komerčné cloudové služby neurónového strojového prekladu sa nielen dramaticky zlepšili, ale produkovali výsledky často nerozoznateľné od výsledkov ľudských lingvistov.
Predpoveď: motory strojového prekladu s umelou inteligenciou dosiahnu aspoň 75 % skóre kvality BLEU profesionálnych ľudských prekladateľov
Zatiaľ čo sme vedeli, že motory neurónového strojového prekladu môžu byť lepšie ako bilingválni amatéri, ktorí sa prvýkrát pokúšajú prekladať, neverili sme, že naše motory prekonajú skúsených, profesionálnych lingvistov v priamej súťaži. Našťastie, naše pochybnosti mohli byť podrobené skúške. Algoritmus BLEU (bilingual evaluation understudy) je najdominantnejšou metrikou pre výskum strojového prekladu, pričom je jazykovo nezávislý, lacný a ľahko vypočítateľný, ako aj primerane korelovaný s ľudskými úsudkami (Post, 2018). Predpovedali sme, že naše neurónové motory dosiahnu 75 % kvalitatívnych bodov, ktoré získal ľudský lingvista. Napríklad, ak ľudský lingvista získal 40 bodov, neurónový strojový preklad by získal 30 bodov. Medzitým sme predpovedali, že náš hybridný Lemko-anglický motor dosiahne kumulatívne skóre BLEU 15.
Bezpečnosť prekladu
Hypotéza: strojový preklad s umelou inteligenciou možno vykonávať offline na prenosných počítačoch vo vysoko bezpečných terénnych podmienkach
Predpokladali sme, že neurónový strojový preklad možno vykonávať offline na prenosnom zariadení s oddelenou sieťou, úplne odrezanom od vonkajšieho sveta. To bolo založené na pozorovaní, že všetky komponenty nášho riešenia nevykonávali žiadne volania na internet po nainštalovaní závislostí. Implicitným predpokladom je, že prekladové systémy s oddelenou sieťou s povoleným režimom Lietadlo nemožno vzdialene monitorovať ani hacknúť. Ďalším predpokladom je, že operátori boli nielen riadne preverení, ale aj prijali vhodné opatrenia proti externým a interným hrozbám. Ďalším implicitným predpokladom je, že je jednoduchšie chrániť len jednu mobilnú pracovnú stanicu po dobu niekoľkých hodín, než zabrániť ľudským lingvistom, ktorí zarábajú v priemere 25,01 USD za hodinu (Bureau of Labor Statistics, United States Department of Labor, 2021), v neoprávnenom zverejňovaní informácií počas celého života, najmä vzhľadom na správy o zatknutí lingvistov pre podozrenie z úniku tajomstiev (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Predpoveď: strojový preklad s umelou inteligenciou bude úspešný na prenosnom počítači Lenovo Legion Y730-17ICH s oddelenou sieťou, bežiacom offline v režime Lietadlo
Predpovedali sme, že náš prekladový systém nebude zlyhávať a dokončí svoje úlohy, keď bude fyzicky oddelený a odpojený od všetkých sietí alebo zariadení aktiváciou funkcie Režim Lietadlo systému Windows 10 Pro na prenosnom počítači Lenovo Legion Y730-17ICH (Typ 81HG).
Hybridný motor Lemko-anglický založený na pravidlách/slovníku a neurónovej sieti
Hypotéza: hybridné motory založené na slovníku/pravidlách zlepšujú presnosť strojového prekladu
Predpokladali sme, že náš poľsko-Lemko motor strojového prekladu založený na pravidlách (RBMT), poľsko-Lemko motor strojového prekladu založený na slovníku (DBMT), Lemko-poľský motor DBMT spustený reverzne a neurónový poľsko-anglický motor by mohli byť synergicky spojené do hybridného motora, ktorý dosahuje vyššie hodnoty kvality s každou ďalšou časťou. Táto hypotéza bola založená na pozorovaniach autora, ktorý pracoval ako profesionálny Lemko-anglický prekladateľ, že zhody medzi Lemko a poľštinou boli dostatočne časté na to, aby hybridný motor bol životaschopným návrhom.
Predikcia: každý podmotor pridaný do nášho hybridného Lemko-anglického motora zvýši BLEU o 5 bodov
Predpokladali sme, že pre každý Lemko-poľský podmotor založený na pravidlách alebo slovníku, ktorý sme pridali do nášho hybridného Lemko-anglického motora, sa celkové skóre presnosti BLEU zvýši o 5 bodov.
Úvod do metód a zdôvodnenie
Postavili sme človeka proti stroju tým, že sme obom dali stredne výkonný, vzduchom oddelený laptop s naším vlastným programom počítačom podporovaného prekladu (podrobne opísaným nižšie), zatiaľ čo boli offline v režime Lietadlo systému Windows. Zaznamenali sme rýchlosť a presnosť prekladu z ruštiny do angličtiny (jazykový pár s vysokými zdrojmi), z poľštiny do angličtiny (pár so strednými zdrojmi) a z Lemko do angličtiny (pár s nízkymi zdrojmi). Na vyjadrenie rýchlosti sme použili metriku slov za hodinu, pretože je to hlavná metrika pre manažérov lokalizačných projektov, ako aj používaná vo vedeckej literatúre (Macken, Prou, & Tezcan, 2020, s. 4). Na meranie presnosti sme použili metriku BLEU, pretože je najrozšírenejšia v oblasti výskumu a vývoja (Post, 2018).
Hlavné výsledky v skratke
Nielenže sme dokázali aplikovať prelomovú technológiu neurónového strojového prekladu na použitie umelej inteligencie na vzduchom oddelenom, offline laptope v režime Lietadlo na preklad jazyka s vysokými zdrojmi (ruština) viac ako 10-krát rýchlejšie ako náš ľudský lingvista, ale kvalita nášho stroja bola o viac ako 58 percent „lepšia ako ľudská“. Okrem toho sme prvý tím na svete, ktorý publikoval výsledky pre Lemko prekladové motory v vedeckom časopise.
Materiály a metódy
Úvod
Na otestovanie našich predpovedí sme zostrojili niekoľko motorov umelej inteligencie a hybridných prekladových motorov, vypočítali ich rýchlosť a presnosť na vzduchom oddelenom laptope v režime Lietadlo systému Windows a to isté sme urobili s profesionálnym lingvistom, aby sme náš experiment kontrolovali.
Nastavenie laboratória
Hardvér
Použili sme laptop Lenovo Legion Y730-17ICH (typ 81HG) s operačným systémom Windows 10 Pro (64-bit). Model bol ukončený a v čase publikácie sa predáva za približne 850 USD, z druhej ruky.
Operačný systém
Virtualizovaný operačný systém použitý pre experiment bol Linux Subsystem pre Windows, a presnejšie, Ubuntu 18.04 LTS nainštalovaný prostredníctvom platformy digitálnej distribúcie Microsoft Store.
Závislosti
Python 3.8 bol nainštalovaný pomocou príkazu sudo apt install python3.8.
Príkaz sudo python3.8 -m pip install –upgrade bol použitý na inštaláciu hlavných závislostí, vrátane bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision.
Sady nástrojov
Nainštalovali sme Facebook AI Research Sequence-to-Sequence Toolkit spustením nasledujúcich príkazov:
Pre naše neurónové poľsko-anglické a hybridné Lemko-anglické motory sme použili konvolučný model Sławomira Dadasa pre poľsko-anglický jazyk, dostupný a zdokumentovaný v jeho úložisku Polish Natural Language Processing (NLP) Resources (Dadas, 2019).
Pre náš rusko-anglický motor sme využili predtrénovaný model transformátora Facebook AI Research Sequence-to-Sequence (FAIRseq) z ruštiny do angličtiny bez jemného doladenia, ktorý bol predložený na Štvrtú konferenciu o strojovom preklade (WMT19) v roku 2019.
Náš profesionálny lingvista mal povolený offline prístup k elektronickým verziám Nového poľsko-anglického slovníka Kościuszko Foundation (12,99 USD), ako aj k Oxfordskému rusko-anglickému slovníku (19,99 USD). Oba boli zakúpené prostredníctvom Microsoft Store. Jaroslava Horoszczaka Lemko-poľský a poľsko-Lemko slovník (2004) bol tiež k dispozícii nášmu lingvistovi na offline použitie.
Kontrola experimentu
Experiment bol kontrolovaný tak, že profesionálny ľudský lingvista sedel pri vzduchom oddelenom laptope v režime Lietadlo, pričom na stroji boli k dispozícii spomínané elektronické slovníky. Lingvista stlačil kláves Enter, vtedy sa spustil časovač a zobrazila sa zdrojová veta na preklad. Lingvista mal povolené písať svoj preklad v programe Microsoft Word (aby využil jeho funkciu kontroly pravopisu a iné pomôcky na spracovanie textu) a potom ho vložiť do nášho vlastného programu počítačom podporovaného prekladu. Po opätovnom stlačení klávesu Enter bol ľudský preklad odoslaný a časovač sa zastavil. Rýchlosť ľudského lingvistu v slovách za hodinu a presnosť v skóre BLEU boli vypočítané pre každú preloženú vetu.
Petro Orynycz, ktorý má dve desaťročia skúseností ako rusko-poľský lingvista, poľský univerzitný titul z ruštiny a viac ako 5 rokov skúseností ako profesionálny Lemko-anglický prekladateľ, slúžil ako kontrolný subjekt. Vykonával spätné preklady ruských a poľských materiálov uvedených nižšie, ako aj anglické preklady z Lemko.
Experimentálny materiál: referenčné preklady
Rusko-anglický a poľsko-anglický text pre experiment bol získaný z vzdelávacích materiálov zdieľaných s verejnosťou a preložených z angličtiny do ruštiny a poľštiny publikáciou NATO Review Organizácie Severoatlantickej zmluvy (NATO). Citujem: „Reprodukcia častí, úryvkov alebo článkov NATO Review je povolená na nekomerčné účely, za nasledujúcej podmienky: musí byť uvedený zdroj, NATO Review.“ Ako je štandardná prax (Post, 2018), korpusové údaje boli vyčistené a normalizované zmenou textu na malé písmená a tokenizáciou. Dbalo sa na to, aby bol zdrojový text a cieľové preklady zarovnané na úrovni viet.
Pre tento experiment sme použili prednášku Dr. Jamieho Shea, vtedajšieho zástupcu generálneho tajomníka NATO pre vznikajúce bezpečnostné výzvy. Jej názov je Čo sa dnes môžeme naučiť od „Troch múdrych mužov“? Anglický originálny text prednášky Dr. Shea a jej preklady do ruštiny a poľštiny, ktoré si objednalo NATO, boli získané z nasledujúcich jednotných lokátorov zdrojov:
Materiál Lemko-angličtina pre experiment zahŕňal osobné rozhovory zaznamenané nadáciou John & Helen Timo zo Spojených štátov, ktorá si najala Petra Orynycziho na prepis rozhovorov a ich preklad do angličtiny. Nadácia neskôr láskavo darovala výsledné dvojjazyčné korpusy na vedecký výskum a vývoj. Na ochranu súkromia osôb, o ktorých sa hovorilo v rozhovoroch, a z úcty k Všeobecnému nariadeniu o ochrane údajov Európskej únie (GDPR), materiály neboli sprístupnené verejnosti. Pred zdieľaním vzoriek sa dbá na redigovanie akýchkoľvek osobne identifikovateľných informácií (PII) a osobných zdravotných informácií (PHI).
Metóda hodnotenia presnosti prekladu: BLEU
Metrika BLEU (bilingual understudy evaluation) bola použitá na meranie podobnosti s referenčným prekladom, a teda, akokoľvek nedokonale, presnosti. Hoci skóre BLEU nie je dokonalou mierou presnosti alebo kvality, je to najpoužívanejšia metrika v priemysle (Post, 2018). Modul Python bol získaný z balíka Python bleu, zdokumentovaného na nasledujúcom jednotnom lokátore zdrojov: https://pypi.org/project/bleu/
Uistili sme sa, že keď boli dané referenčné reťazce viet “it is a white cat .” a “wow , this dog is huge .” spolu s kandidátskymi hypotézami “it is a white kitten .” a “wowww , the dog is huge !”, náš systém vypočítal kumulatívne skóre BLEU 34,99, v súlade s dokumentáciou pre balík Python bleu.
Metóda normalizácie a čistenia textu
Všetok text bol prevedený na malé písmená a pred a za všetky interpunkčné znamienka bola pridaná medzera, aby systém nepredpokladal, napríklad, že „Mačka“ a „mačka.“ sú rôzne slová. Takže „Je to biela mačka.“ by sa normalizovalo na „je to biela mačka .“ Viacnásobné medzery a iné sekvencie bielych znakov boli nahradené jednou medzerou pomocou metód Python split() a join().
Metóda počítania slov
Počet slov na vetu bol určený rozdelením normalizovaného textového reťazca na pole pomocou medzery ako oddeľovača a následným spočítaním položiek v tomto poli.
Metóda merania rýchlosti prekladu
V momente, keď ľudský prekladateľ stlačil kláves Enter na začatie prekladu vety, zavolali sme metódu Python time.time() na získanie počtu sekúnd od polnoci koordinovaného univerzálneho času (UTC) 1. januára 1970 ako čísla s pohyblivou desatinnou čiarkou, bežne označovaného ako Unixový čas, a toto číslo sme použili ako čas začiatku pre človeka. Získali sme aj Unixový čas, keď naše motory strojového prekladu prevzali vetu na preklad.
Moment, keď ľudský lingvista stlačil kláves Enter na odoslanie svojho prekladu vety alebo keď stroj vrátil svoj preklad vety, bol použitý ako čas ukončenia. Odčítaním času začiatku od času ukončenia sme získali celkový počet sekúnd, ktoré trval preklad vety.
Slová za hodinu sme vypočítali vydelením rozdielu medzi Unixovým časom ukončenia a začiatku počtom slov, ako je vypočítané vyššie, a vynásobením tohto podielu číslom 3600 (čo je 60 60, teda počet sekúnd v hodine):
Rýchlosť = (Čas_ukončenia_prekladu − Čas_začiatku_prekladu) / Celkový_počet_preložených_slov × 3600
Metóda fyzickej izolácie a vzduchového oddelenia zariadenia
Zariadenie použité v experimente bolo odrezané od vonkajšieho sveta nielen prostredníctvom jeho fyzickej izolácie, ale aj použitím funkcie Režim Lietadlo v systéme Microsoft Windows 10 Pro, ktorá podľa jeho dokumentácie vypína všetky bezdrôtové komunikácie na stroji, vrátane bezdrôtovej siete IEEE 802.11b Direct Sequence, mobilnej siete, Bluetooth, Global Positioning System a Near Field Communication.
Výsledky
Rýchlosť prekladu: čím viac zdrojov má jazykový pár, tým rýchlejší je motor
Stroj prekonal človeka v rýchlosti prekladu pre jazykový pár s vysokými zdrojmi (rusko-anglický) a pár so strednými zdrojmi (poľsko-anglický), v súlade s našou hypotézou, že neurónový strojový preklad je rýchlejší ako ľudia, a predpoveďou, že naše neurónové motory preložia viac slov za hodinu. Pri preklade z ruštiny náš motor dosiahol priemerne viac ako 6 456 slov za hodinu, čo bolo o 1 170 % rýchlejšie ako náš ľudský lingvista. Pri preklade z poľštiny bol náš neurónový motor o 488 % rýchlejší ako náš ľudský prekladateľ, s priemerom 3 768 slov za hodinu. Pre jazykový pár s nízkymi zdrojmi (Lemko-anglický) náš hybridný neurónový a slovníkový/pravidlový motor dosiahol 707 slov za hodinu, čo sa takmer vyrovnalo nášmu ľudskému lingvistovi, ktorý bol o 13 % rýchlejší s 798 slovami za hodinu. Odstránenie váhy slovníkovej zložky hybridného motora takmer štvornásobne zvýšilo rýchlosť na 3 137 slov za hodinu, čo je o 293 % rýchlejšie ako človek, za cenu 13 % poklesu presnosti.
Obrázok 1. Rýchlosť prekladu profesionálneho človeka verzus stroja (slová/hodina) na vzduchom oddelenom stredne výkonnom laptope (režim lietadlo): rusko-anglický (vysoké zdroje) vs poľsko-anglický (stredné zdroje) vs Lemko-anglický (nízke zdroje).
Údaje k obrázku 1: rýchlosť prekladu (slová za hodinu)
Presnosť prekladu: čím viac zdrojov má jazykový pár, tým presnejší je motor
Presnosť prekladu našich motorov umelej inteligencie prekonala presnosť profesionálnych lingvistov. To presiahlo našu hypotézu, že neurónový strojový preklad v režime offline bol teraz len o niečo menej presný ako ľudskí prekladatelia. Náš rusko-anglický motor umelej inteligencie dosiahol 158 % presnosti nášho ľudského prekladateľa, čím prekročil nami predpokladaných 75 %. Náš poľsko-anglický neurónový motor dosiahol 117 % presnosti nášho ľudského lingvistu, čím prekročil naše očakávania 75 %. Náš hybridný Lemko-anglický motor dosiahol skóre BLEU 14,57 (51 % oproti nášmu profesionálnemu prekladateľovi), v súlade s našou predpoveďou 15, po zaokrúhlení nahor. Vynechanie nášho podmotora založeného na pravidlách viedlo k 2 % nárastu presnosti a 6 % nárastu rýchlosti. Vynechanie podmotora založeného na slovníku viedlo k 13 % poklesu presnosti, ale k 344 % nárastu rýchlosti. Zhrnutie: naše motory umelej inteligencie pre jazyky so strednými až vysokými zdrojmi boli výrazne presnejšie ako náš ľudský lingvista, zatiaľ čo naše hybridné motory pre jazyky s nízkymi zdrojmi boli približne o polovicu presnejšie ako náš ľudský lingvista.
Obrázok 2. Profesionálny ľudský verzus strojový BLEU skóre kvality prekladu na vzduchom oddelenom stredne výkonnom laptope v režime Lietadlo, rusko-anglický (pár s vysokými zdrojmi) verzus poľsko-anglický (pár so strednými zdrojmi) verzus Lemko-anglický (pár s nízkymi zdrojmi).
Údaje k obrázku 2: skóre BLEU
Jazykový pár
Metóda
BLEU
Rusko–angličtina
Len neurónový strojový preklad umelej inteligencie
39.37
Rusko–angličtina
Profesionálny ľudský preklad
24.86
Poľsko–angličtina
Len neurónový strojový preklad umelej inteligencie
V súlade s našou hypotézou, že riešenie neurónového strojového prekladu by mohlo byť navrhnuté tak, aby fungovalo na vzduchom oddelenom laptope, náš experiment v tomto smere uspel. V súlade s našou predpoveďou náš experiment fungoval s povoleným režimom Lietadlo systému Windows a žiadne chyby neboli spôsobené prevádzkou v odpojení od vonkajšieho sveta.
Strojový preklad založený na pravidlách medzi Lemko a poľštinou
Naša hypotéza, že príbuznosť medzi Lemko a poľštinou je dostatočne silná na to, aby bolo Lemko preložiteľné do poľštiny pomocou substitúcie založenej na pravidlách a slovníku, sa potvrdila pôsobivým výkonom nášho hybridného Lemko-anglického neurónového/pravidlového motora. Naša hypotéza, že kombinácia podmotora založeného na pravidlách s podmotorom založeným na slovníku povedie k presnejšiemu hybridnému motoru, nie je v súčasnosti našimi údajmi podporená. Pridanie modulu založeného na slovníku k modulu založenému na pravidlách zvýšilo BLEU motora o 2,16 bodu, čo je menej ako naša predpoveď 5.
Diskusia
Nová éra
Dokázali sme, že nielenže je možné poveriť umelú inteligenciu prekladom z jazykov s vysokými, strednými a nízkymi zdrojmi v prostredí s kontrolovaným prístupom, ale neurónový strojový preklad dokáže túto prácu vykonávať rýchlejšie, bezpečnejšie a v mnohých prípadoch aj lepšie. Naše výsledky nielenže podporili naše hypotézy, ale výkon našich neurónových motorov prekonal naše predpovede. Nová éra takmer reálneho času strojového prekladu, ktorý funguje nezávisle alebo v spolupráci s ľuďmi, je tu.
Rýchlosť
Náš systém prekladal z ruštiny rýchlosťou 6 456 slov za hodinu. Aby sme to uviedli do kontextu, konzultovali sme s expertom Marcom Hackelom, lingvistom z obranného priemyslu vo Washingtone, D.C. a rusko-anglickým prekladateľom s desaťročiami skúseností, ktorý nám povedal, že „orientačné pravidlo je, že veľmi zdatný prekladateľ by mal byť schopný preložiť aspoň 8 strán (t. j. 8 strán po 500 slov, spolu 4 000 slov) počas 8-hodinového pracovného dňa, za predpokladu, že neexistujú žiadne prekážky ako akronymy a podobné veci. Priemer pre mnohých je v skutočnosti 250 slov za hodinu, nie 500.“ Takže neurónové systémy dokážu za menej ako hodinu to, čo ľuďom trvá dni.
Presnosť
Naše systémy umelej inteligencie dosiahli vyššie skóre BLEU ako náš profesionálny ľudský lingvista. Podľa tejto metriky sú naše stroje „lepšie“ v preklade z ruštiny a poľštiny ako ľudia.1 Keďže implikácia, že strojový preklad s umelou inteligenciou môže byť o viac ako 50 % presnejší ako skúsení lingvisti, je revolučná, tento experiment je potrebné zopakovať na ešte väčšom počte ľudských lingvistov a korpusov, aby sa vylúčili náhody. Použili sme výnimočne čisté, náročné texty s kvetnatým jazykom, na ktorých sa prekladové systémy tradične „zadrhávajú“ a v ktorých ľudia vynikajú. Hoci sme sa snažili o rovnaké podmienky, očakávali sme, že akákoľvek výhoda bude na strane človeka. Pre prístup k našim surovým dátam a výsledkom kontaktujte Petra Orynycziho na vyššie uvedenej adrese.
Ďalšie kroky
Použili sme staršie, zastarané vybavenie. Novšie vybavenie s rýchlejšími grafickými procesormi novej generácie by mohlo viesť k dramatickému zlepšeniu rýchlosti prekladu. Naša kódová základňa by mala byť optimalizovaná tak, aby maximalizovala využitie existujúcich zdrojov, ako sú grafické procesory (GPU). Plánujeme premeniť náš modul strojového prekladu založený na slovníkoch na testovaciu sadu pre použitie v testom riadenom vývoji (TDD) nášho modulu strojového prekladu založeného na pravidlách (RBMT), ktorý by sa mohol použiť na vývoj paralelných textov pre tréning čisto neurónových Lemko-anglických a anglicko-Lemko neurónových systémov strojového prekladu s umelou inteligenciou. Je potrebný ďalší výskum na identifikáciu bodov klesajúcich výnosov. Petro Orynycz plánuje aplikovať svoje hybridné neurónové a pravidlami riadené systémy na vývoj prekladových systémov pre rusínske a ukrajinské dialekty pôvodné pre dnešné Slovensko a Ukrajinu.
Na záver
Sme na úsvite novej transformačnej éry: dokázali sme, že umelá inteligencia dokáže vykonávať duševnú prácu rovnako dobre ako ľudia, alebo v čoraz širšom okruhu prípadov o viac ako 50 % lepšie, a to za zlomok času a s takmer žiadnym bezpečnostným rizikom. Niekoľko stoviek dolárov v hodnote vybavenia, ktoré sa zmestí do batohu, je všetko, čo človek potrebuje, aby mal vždy lepšieho ako ľudského, kremíkového terénneho lingvistu, ktorý nikdy neprezradí tajomstvá ani sa neunaví. Džin je von z fľaše a môže splniť naše želanie revitalizácie ohrozených jazykov, ak nie sen o vzkriesení vyhynutých. Udalosť masového vymierania jazykov, v ktorej sa nachádzame, sa môže zastaviť a dokonca zvrátiť. Mali by sme si dávať pozor na to, čo si želáme – svety izolované po eóny ich šifrovaním v drahých na preklad jazykoch sa chystajú zraziť. Zmena k lepšiemu, dúfame. Proščaj, jazyková bariéra. Vitaj, nový svet.
Poznámky pod čiarou
^ 1 Historicky niektoré komunity odmietajú používanie BLEU na porovnávanie ľudského a strojového prekladu, no žiadny iný systém nie je tak široko akceptovaný alebo dostupný so širokou, recenzovanou validáciou v praxi. V skutočnosti vynálezcovia skóre BLEU Papineni, Roukos, Ward a Zhu predznamenali tento bod napätia v práci sponzorovanej Ministerstvom obrany Spojených štátov (financovanej Agentúrou pre pokročilé obranné výskumné projekty [DARPA] a monitorovanej Veliteľstvom vesmírnych a námorných bojových systémov [SPAWAR]) ako súčasť ich prelomovej publikácie, píšuc: „Ďalej, [metrika] musí rozlišovať medzi dvoma ľudskými prekladmi rôznej kvality. Táto posledná požiadavka zabezpečuje nepretržitú platnosť metriky, keď sa MT [strojový preklad] približuje kvalite ľudského prekladu.“ Porušiac tabu hneď na začiatku, potom pokračovali vo výpočte skóre BLEU pre „Human-1“, ktorý nebol rodeným hovorcom čínštiny ani angličtiny, a „Human-2“, rodeného hovorcu angličtiny, a zaznamenali, ako sa ich skóre BLEU úzko zhodovalo s tými, ktoré udelili ľudskí posudzovatelia (Papineni, Roukos, Ward, & Zhu, 2002).
Poďakovanie
Radi by sme poďakovali nášmu poradcovi, Timovi Quiramovi, zástupcovi náčelníka divízie výcviku veliteľstva pripravenosti pobrežnej stráže Spojených štátov, za jeho povzbudenie pokračovať, predstavenstvu Antech Systems, Inc. a tímu ePerformance Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) za vytvorenie prostredia, kde môžeme sledovať naše vášne, nášmu výkonnému viceprezidentovi divízie Tomovi Dobrymu za jeho neoceniteľné vedenie, zdravý úsudok a vizionárske líderstvo, ako aj nášmu vedúcemu tímu Willovi Duffovi za to, že nás prinútil tvrdo pracovať, podporoval ducha kamarátstva a morálnu podporu. Petro Orynycz by rád poďakoval svojim projektovým manažérom v oblasti umelej inteligencie Raffaelemu Pascalemu a Michalovi Brnušákovi z poskytovateľa jazykových služieb Venga Global Inc. zo Silicon Valley za ich profesionalitu, skutočnú starostlivosť o tím a neochvejnú oddanosť správnemu vykonaniu práce. Pán Orynycz by tiež rád poďakoval svojim kolegom inžinierom, kolegom a starým priateľom Michaelovi Lawrenceovi Cramerovi z BCT LLC a Michaelovi Decerbovi z Raytheon BBN Technologies za to, že verili od začiatku. Tiež by rád poďakoval svojmu priateľovi a kolegovi počítačovému lingvistovi Jounovi Pyysalovi, Ph.D. z Helsinskej univerzity za splnenie snov. Nakoniec by rád poďakoval Marii Silvestri z Nadácie Johna a Helen Timo za jej dar na vedecký výskum a vývoj Lemko rozhovorov, ktoré viedla, a prekladov, na ktoré si ho najala, ako aj svojej drahej priateľke Ołene Duć z Ruska Bursa za jej neoceniteľné preklady a prepisy rozhovorov.
Referencie
al-Kindī, Y. i. (2002). al-Kindi’s Edited Treatise. In M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (eds.), al-Kindi’s Treatise on Cryptanalysis (vol. 1) (S. M. al-Asaad, Trans., vol. 1, pp. 117-204). Damask, Sýria: KFCRIS & KACST. (Pôvodné dielo publikované približne 850).
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Selection Criteria for Low Resource Language Programs. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) (pp. 4543–4549). Portorož, Slovinsko: European Language Resources Association (ELRA). Získané 27. júna 2021 z https://www.aclweb.org/anthology/L16-1720
Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013. Varšava, Poľsko: Ministerstwo Spraw Wewnętrznych i Administracji. Získané 13. júna 2021 z http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Koľko jazykov je na svete? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, eds.) Získané 13. júna 2021 z Ethnologue: Languages of the World: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Indo-európsky jazyk a kultúra. Malden, MA, USA: Blackwell Publishing.
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP -Digital Corpus of the European Parliament. Language Resources and Evaluation Conference (LREC 2014), (pp. 3164-3171). Reykjavík, Island. Získané 19. júna 2021 z http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Jassem, W. (2003, jún). Polish. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Experimenting with Different Machine Translation Models in Medium-Resource Settings. In P. Sojka, I. Kopeček, K. Pala, & A. Horák (Ed.), Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science.12284, p. 2. Springer, Cham. doi:10.1007/978-3-030-58323-1_10
Kerča, I. (2007). Slovnyk Rusyn’sko-Ruskŷj (vol. 1). Užhorod, Ukrajina: PolyPrynt.
Kocmi, T. (2020). CUNI Submission for the Inuktitut Language in WMT News 2020. Proceedings of the 5. Conference on Machine Translation (WMT), (pp. 171–174). Association for Computational Linguistics. Získané 19. júna 2021 z https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). CUNI Submission for Low-Resource Languages in WMT News 2019. Proceedings of the Fourth Conference on Machine Translation (WMT).Volume 2: Shared Task Papers (Day 1), pp. 234–240. Florencia, Taliansko: Association for Computational Linguistics. Získané 13. júna 2021 z https://www.aclweb.org/anthology/W19-5322.pdf
Macken, L., Prou, D., & Tezcan, A. (2020, 23. apríla). Kvantifikácia účinku strojového prekladu v procese produkcie vysokokvalitného ľudského prekladu. Informatics, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). The Russian-speakers in the CIS countries: migration activity and preservation of the Russian language. In P. Vladimirovich (Ed.), 2018 International Scientific Conference “Investment, Construction, Real Estate: New Technologies and Special-Purpose Development Priorities” (ICRE 2018) , 212. Irkutsk, Rusko. doi:10.1051/matecconf/201821210005
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019, august). Facebook FAIR’s WMT19 News Translation Task Submission. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), 314-319. Florencia, Taliansko: Association for Computational Linguistics. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: A Fast, Extensible Toolkit for Sequence Modeling. Proceedings of NAACL-HLT 2019: Demonstrations.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), pp. 48-53. Minneapolis, MN: Association for Computational Linguistics. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40. Annual Meeting on Association for Computational Linguistics (pp. 311-318). Philadelphia, pa: Annual Meeting of the Association for Computational Linguistics.
Post, M. (2018, 12. septembra). A Call for Clarity in Reporting BLEU Scores. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Lexicon Induction for Spoken Rusyn – Challenges and Results. Proceedings of the 6. Workshop on Balto-Slavic Natural Language Processing, (pp. 27-32). Valencia, Španielsko.
Scherrer, Y., & Rabus, A. (2017). Multi-source morphosyntactic tagging for Spoken Rusyn. Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (pp. 84-92). Valencia, Španielsko: Association for Computational Linguistics. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019, september). Neural morphosyntactic tagging for Rusyn. (R. Mitkov, Ed.) Natural Language Engineering, 25(5), pp. 633-650. doi:10.1017/S1351324919000287
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Paralelný korpus Organizácie Spojených národov v1.0. Zborník z Desiatej medzinárodnej konferencie o jazykových zdrojoch a hodnotení (LREC’16), (str. 3530–3534). Portorož, Slovinsko. Získané z https://www.aclweb.org/anthology/L16-1561
ORLANDO, 2. decembra (Orynycz.com) – Bola nám česť predstaviť prelomové objavy v našej štúdii Áno, hovorím… AI Neuronový strojový preklad vo viacjazyčnom výcviku na konferencii I/ITSEC 2021 Národnej asociácie obranného priemyslu (NDIA), najväčšom svetovom podujatí v oblasti modelovania, simulácie a výcviku, s 13 000 osobnými účastníkmi zo 47 krajín, zastupujúcich vlády, univerzity, korporácie a armády, vrátane veliteľa Námornej pechoty Spojených štátov generála Davida H. Bergera a náčelníka námorných operácií admirála Michaela Gildaya.
Osobitné poďakovanie patrí predsedovi 7. sekcie pre vznikajúce koncepty a inovatívne technológie (ECIT) Brianovi Stensrudovi, Ph.D. a zástupcovi sekcie Neilovi Stagnerovi z Veliteľstva systémov Námornej pechoty Spojených štátov za všetku podporu, ktorá to umožnila.
Prelomové objavy
Na lacných, vzduchom oddelených notebookoch v bezpečných poľných podmienkach naše prekladové systémy dosiahli:
Kvalita prekladu – skóre BLEU o 59 % lepšie ako skóre profesionálnych lingvistov pre jazykový pár ruština – angličtina
Prvé použiteľné strojové preklady z lemkovčiny do angličtiny na svete
Rýchlosti prekladu z ruštiny do angličtiny o 1 170 % rýchlejšie ako ľudský preklad (v reálnom čase)
Webové stránky ukladajú súbory cookie na zlepšenie funkčnosti a prispôsobenie tvojho používateľského zážitku. Svoje preferencie môžeš spravovať, no zablokovanie niektorých súborov cookie môže ovplyvniť výkon webu a poskytované služby.
Essential cookies enable basic functions and are necessary for the proper function of the website.
Name
Description
Duration
Geolocation Config
This cookie is used to store the consent settings based on the visitor's location.
30 days
Cookie Preferences
This cookie is used to store the user's cookie consent preferences.
30 days
CloudFlare provides web performance and security solutions, enhancing site speed and protecting against threats.
The _cfuvid cookie is only set when a site uses this option in a Rate Limiting Rule, and is only used to allow the Cloudflare WAF to distinguish individual users who share the same IP address.
session
cf_clearance
Whether a CAPTCHA or Javascript challenge has been solved.
session
__cfseq
Sequence rules uses cookies to track the order of requests a user has made and the time between requests and makes them available via Cloudflare Rules. This allows you to write rules that match valid or invalid sequences. The specific cookies used to validate sequences are called sequence cookies.
session
cf_ob_info
The cf_ob_info cookie provides information on: The HTTP Status Code returned by the origin web server. The Ray ID of the original failed request. The data center serving the traffic
session
cf_use_ob
The cf_use_ob cookie informs Cloudflare to fetch the requested resource from the Always Online cache on the designated port. Applicable values are: 0, 80, and 443. The cf_ob_info and cf_use_ob cookies are persistent cookies that expire after 30 seconds.
session
__cfwaitingroom
The __cfwaitingroom cookie is only used to track visitors that access a waiting room enabled host and path combination for a zone. Visitors using a browser that does not accept cookies cannot visit the host and path combination while the waiting room is active.
session
cf_chl_rc_i
These cookies are for internal use which allows Cloudflare to identify production issues on clients.
session
cf_chl_rc_ni
These cookies are for internal use which allows Cloudflare to identify production issues on clients.
session
cf_chl_rc_m
These cookies are for internal use which allows Cloudflare to identify production issues on clients.
session
__cfruid
Used by the content network, Cloudflare, to identify trusted web traffic.
session
__cf_bm
Cloudflare's bot products identify and mitigate automated traffic to protect your site from bad bots. Cloudflare places the __cf_bm cookie on End User devices that access Customer sites that are protected by Bot Management or Bot Fight Mode. The __cf_bm cookie is necessary for the proper functioning of these bot solutions.
session
__cflb
When enabling session affinity with Cloudflare Load Balancer, Cloudflare sets a __cflb cookie with a unique value on the first response to the requesting client. Cloudflare routes future requests to the same origin, optimizing network resource usage. In the event of a failover, Cloudflare sets a new __cflb cookie to direct future requests to the failover pool.
session
These cookies are needed for adding comments on this website.
Name
Description
Duration
comment_author
Used to track the user across multiple sessions.
Session
comment_author_email
Used to track the user across multiple sessions.
Session
comment_author_url
Used to track the user across multiple sessions.
Session
Google reCAPTCHA helps protect websites from spam and abuse by verifying user interactions through challenges.
Name
Description
Duration
_GRECAPTCHA
Google reCAPTCHA sets a necessary cookie (_GRECAPTCHA) when executed for the purpose of providing its risk analysis.
179 days
These cookies are used for managing login functionality on this website.
Name
Description
Duration
wordpress_logged_in
Used to store logged-in users.
Persistent
wordpress_sec
Used to track the user across multiple sessions.
15 days
wordpress_test_cookie
Used to determine if cookies are enabled.
Session
WP Consent API is a plugin that standardizes the communication of accepted consent categories between plugins.
Name
Description
Duration
wp_consent_{category}
Stores your consent preference for a specific cookie category (e.g., functional, marketing). It ensures consistent consent management across WordPress plugins supporting the WP Consent API.
30 days
Statistics cookies collect information anonymously. This information helps us understand how visitors use our website.
Google Analytics is a powerful tool that tracks and analyzes website traffic for informed marketing decisions.
Contains information related to marketing campaigns of the user. These are shared with Google AdWords / Google Ads when the Google Ads and Google Analytics accounts are linked together.
90 days
__utma
ID used to identify users and sessions
2 years after last activity
__utmt
Used to monitor number of Google Analytics server requests
10 minutes
__utmb
Used to distinguish new sessions and visits. This cookie is set when the GA.js javascript library is loaded and there is no existing __utmb cookie. The cookie is updated every time data is sent to the Google Analytics server.
30 minutes after last activity
__utmc
Used only with old Urchin versions of Google Analytics and not with GA.js. Was used to distinguish between new sessions and visits at the end of a session.
End of session (browser)
__utmz
Contains information about the traffic source or campaign that directed user to the website. The cookie is set when the GA.js javascript is loaded and updated when data is sent to the Google Anaytics server
6 months after last activity
__utmv
Contains custom information set by the web developer via the _setCustomVar method in Google Analytics. This cookie is updated every time new data is sent to the Google Analytics server.
2 years after last activity
__utmx
Used to determine whether a user is included in an A / B or Multivariate test.
18 months
_ga
ID used to identify users
2 years
_gali
Used by Google Analytics to determine which links on a page are being clicked
30 seconds
_ga_
ID used to identify users
2 years
_gid
ID used to identify users for 24 hours after last activity
24 hours
_gat
Used to monitor number of Google Analytics server requests when using Google Tag Manager
1 minute
Marketing cookies are used to follow visitors to websites. The intention is to show ads that are relevant and engaging to the individual user.
X Pixel enables businesses to track user interactions and optimize ad performance on the X platform effectively.
This cookie is set by X to identify and track the website visitor. Registers if a users is signed in the X platform and collects information about ad preferences.
2 years
personalization_id
Unique value with which users can be identified by X. Collected information is used to be personalize X services, including X trends, stories, ads and suggestions.
2 years
external_referer
Our Website uses X buttons to allow our visitors to follow our promotional X feeds, and sometimes embed feeds on our Website.
2 years
A video-sharing platform for users to upload, view, and share videos across various genres and topics.
Registers a unique ID on mobile devices to enable tracking based on geographical GPS location.
1 day
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos. Also used for marketing
179 days
PREF
This cookie stores your preferences and other information, in particular preferred language, how many search results you wish to be shown on your page, and whether or not you wish to have Google’s SafeSearch filter turned on.
10 years from set/ update
YSC
Registers a unique ID to keep statistics of what videos from YouTube the user has seen.
Session
DEVICE_INFO
Used to detect if the visitor has accepted the marketing category in the cookie banner. This cookie is necessary for GDPR-compliance of the website.
179 days
LOGIN_INFO
This cookie is used to play YouTube videos embedded on the website.