Abstrakt
Neurónový strojový preklad poháňaný umelou inteligenciou by mohol čoskoro oživiť ohrozené jazyky tým, že umožní novým hovorcom komunikovať v reálnom čase pomocou viet, ktoré sú kvantitatívne bližšie k literárnej norme ako vety rodených hovorcov, a to už od prvého dňa ich cesty k obnove jazyka. Zatiaľ čo Silicon Valley investuje obrovské zdroje do technológie neurónového prekladu schopnej nadľudskej rýchlosti a presnosti pre najpoužívanejšie jazyky sveta, 98 % z nich zostalo pozadu, kvôli nedostatku korpusov: modely neurónového strojového prekladu sa trénujú na miliónoch slov dvojjazyčného textu, ktoré pre väčšinu jazykov jednoducho neexistujú a ich zostavenie stojí státisíce amerických dolárov za jeden jazyk.
Pre jazyky s nízkymi zdrojmi existuje vynaliezavejší prístup, ak nie efektívnejší: prenosové učenie, ktoré umožňuje jazykom s nižšími zdrojmi profitovať z úspechov jazykov s vyššími zdrojmi. V tomto experimente bola služba neurónového prekladu Google z angličtiny do poľštiny spojená s mojím klasickým, pravidlami riadeným motorom na preklad z angličtiny do ohrozeného, nízkoresursového, východoslovanského jazyka Lemko. Systém dosiahol skóre kvality dvojjazyčného hodnotenia (BLEU) 6,28, čo je niekoľkonásobne lepšie ako služby Google Translate z angličtiny do štandardnej ukrajinčiny (BLEU 2,17), ruštiny (BLEU 1,10) a poľštiny (BLEU 1,70). Nakoniec bol výsledok tohto experimentu, prvá prekladateľská služba z angličtiny do Lemko na svete, sprístupnený na webovej adrese www.LemkoTran.com, aby umožnil novým hovorcom oživiť ich jazyk.
Noví hovorcovia sú kľúčom k oživeniu jazyka a možnosť „povedať to správne“ v Lemko je teraz na dosah ruky.
Kľúčové slová: Umelá inteligencia zameraná na človeka, revitalizácia jazyka, Lemko.
Prosím, citujte ako: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
✅ Táto verzia príspevku bola prijatá na publikovanie po recenzii, ale nie je verziou záznamu a neodráža vylepšenia po prijatí ani žiadne opravy. Verzia záznamu je dostupná online na https://doi.org/10.1007/978-3-031-05643-7_37. Používanie tejto prijatej verzie podlieha podmienkam používania prijatej rukopisnej verzie vydavateľa: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Obsah
1 Úvod
1.1. Problémy
Tento experiment si kladie za cieľ prispieť na miestnej úrovni k globálnemu problému straty jazykov, ku ktorej môže dochádzať rýchlosťou jedného jazyka denne, pričom prežiť má len jeden z desiatich jazykov [1, s. 1329]. V čase tlače používa SIL International’s Ethnologue rozšírenú stupňovanú škálu medzigeneračného narušenia Lewis a Simons z roku 2010 na odhad, že 3 018 jazykov je ohrozených [2], čo je 43 % zo 7 001 jednotlivých živých jazykov zaznamenaných v čase tlače v norme Medzinárodnej organizácie pre normalizáciu ISO 639-3 [3]. Medzitým Google Translate obsluhuje len 108 [4] a Facebook 112 [5], čo je začiatok. Napriek tomu je teraz jeden jazyk menej nedostatočne obsluhovaný, keďže výsledok tohto experimentu bol nasadený na webový server ako verejná prekladateľská služba.
Nové technológie umelej inteligencie lákajú prísľubom pomoci, ktorá okamžite kompenzuje stratu jazyka prostredníctvom interakcie človek-počítač. V mojom predchádzajúcom experimente dosiahli neurónové motory novej generácie vyššie skóre kvality pri preklade z ruštiny a poľštiny do angličtiny ako ľudská kontrola [6, s. 9]. Medzitým Facebook a Google1 investovali obrovské zdroje do poskytovania lepších ako ľudských automatických prekladateľských systémov s nulovými nákladmi pre spotrebiteľa.
1 Zverejnenie: Pracujem ako platený lingvista a špecialista na kontrolu kvality prekladu pre projekt Google Translate v ruštine, poľštine a ukrajinčine; sídlo je v San Franciscu.
Nadľudská umelá inteligencia nie je lacná: tréning neurónových jazykových modelov si vyžaduje dvojjazyčné korpusy s počtom slov v stovkách tisíc, a ideálne miliónoch, čo by stálo státisíce dolárov na preklad, sumy presahujúce možnosti väčšiny jazykových komunít s nízkymi zdrojmi. Našťastie, tento experiment ukazuje, že existujú vynaliezavejšie a efektívnejšie spôsoby, ako reagovať na výzvu vytvárania prekladateľských pomôcok na revitalizáciu ohrozených jazykov v prostredí s nízkymi zdrojmi.
1.2 Doterajšia práca
Vytvoril som prvý systém strojového prekladu z Lemko do angličtiny na svete a sprístupnil som ho verejnosti. Jeho objektívne skóre kvality prekladu sa zlepšuje: motor dosiahol skóre dvojjazyčného hodnotenia (BLEU) 14,57 v lete 2021, ako bolo prezentované odborníkom na konferencii Interservice/Industry Training, Simulation and Education Conference Národnej asociácie obranného priemyslu a publikované v jej zborníku [6]. Pre porovnanie, ako ľudský prekladateľ pracujúci v terénnych podmienkach, odrezaný od vonkajšieho sveta, som dosiahol BLEU 28,66. Do jesene 2021 motor dosiahol BLEU 15,74, ako bolo oznámené lingvistom, akademikom a širšej komunite na podujatí, ktoré usporiadala University of Pittsburgh.2
2 Zverejnenie: podujatie sponzorovala Karpatsko-rusínska spoločnosť (Pensylvánia) a University of Pittsburgh mi zaplatila za moju prezentáciu.
1.3 Študovaný systém
Lemko je definitívne až vážne ohrozený [6, s. 3, 7, s. 177-178], nízkoresursový [8], oficiálne uznaný menšinový jazyk [9], pravdepodobne pôvodný pre cezhraničné vysočiny južne od metropolitných oblastí Krakova, Tarnova a Rzeszowa; historické vymedzujúce izoglosy budú, dúfajme, témou budúcej práce. Poľský štatistický úrad v roku 2011 zaznamenal 6 279 obyvateľov, pre ktorých bolo Lemko jazykom „zvyčajne používaným doma“ (aj keď okrem poľštiny) [10, s. 3], čo predstavuje 12 % nárast oproti 5 605, pre ktorých bolo Lemko „najčastejšie hovoreným jazykom doma“ v roku 2002 [11, s. 6, 12, s. 7]. V čase tlače sa výsledky nového sčítania sčítavajú.
Lemko je klasifikovateľné ako východoslovanský jazyk, pretože spĺňa obvyklé kritériá genetických štrukturálnych znakov, z ktorých najvýznamnejším je pleofónia [13, s. 20], pri ktorej sa predpokladá, že samohláska vznikla v praslovanských sekvenciách spoluhlásky C nasledovanej strednou alebo nízkou samohláskou V (*e, alebo *o, s ktorou sa *a zlúčilo [14, s. 366]), nasledovanej likvidou R (t.j. *l alebo *r), nasledovanou ďalšou spoluhláskou C, t.j. CVRC > CVRVC. Na ilustráciu porovnajte staroanglické slovo pre „topiť“, meltan (CVRC) [15, s. 718] s jeho predpokladaným lemkovským príbuzným mołódyj [16, s. 92, 17, s. 150] (CVRC), čo znamená „mladý“. Medzi ďalšie východoslovanské príbuzné patria ukrajinské mołodýj a ruské mołodój [17], obe vykazujúce samohlásku po likvide (CVRVC). Medzitým západoslovanské jazyky nemajú samohlásku pred likvidou; porovnajte poľské młody a slovenské mladý (obe CRVC) [17]. Ďalej sa predpokladá príbuznosť pre iné slová preložiteľné ako „mierny“, vrátane sanskritského mṛdú (CRC) [18, s. 830] a latinského mollis (CVRC ak z *moldvis) [15, 17, 19, s. 323].
V tomto experimente sa nehodnotilo, ako dobre Lemko spĺňa obvyklé, moderné ukrajinské kritériá genetických štrukturálnych znakov. Avšak, podobnosť medzi Lemko a štandardnou ukrajinčinou bola kvantifikovaná, po prvýkrát v tlači, o ktorej viem. Nižšie, môj Lemko motor dosiahol skóre BLEU 6,28, takmer trikrát vyššie ako skóre ukrajinčiny Google Translate s BLEU 2,17. Ďalšie experimenty by sa mohli vykonať za účelom kvantifikácie podobnosti medzi Lemko, štandardnou ukrajinčinou, poľštinou a rusínčinou, ako je kodifikovaná na Slovensku, ako aj nový pohľad na typologickú klasifikáciu Lemko.
Množstvo a kvalita zdrojov sa zlepšuje, rovnako ako vynaliezavosť posilnená technológiou. Všetky známe dvojjazyčné korpusy, obsahujúce menej ako sedemdesiattisíc lemkovských slov, boli zhromaždené pre tento experiment. Čistím dvojjazyčný korpus prepisov rozhovorov vedených s rodenými hovorcami v Poľsku a mojich prekladov do angličtiny, ktoré mi zaplatil americký klient a povolil mi ich použiť. Taktiež zostavujem monolingválne korpusy, ktoré v čase tlače celkovo obsahujú 534 512 slov.
1.4 Hypotéza
Na základe môjho subjektívneho dojmu ako profesionálneho prekladateľa, že rodení hovorcovia Lemko, s ktorými som robil rozhovory v Poľsku, s väčšou pravdepodobnosťou používali slová s očividnými poľskými príbuznými ako štandardné ukrajinské, som predpokladal, že za inak rovnakých podmienok by sa stroj mohol nakonfigurovať na preklad do Lemko z angličtiny a dosiahnuť objektívne skóre kvality BLEU vyššie ako služby Google Translate pre ukrajinčinu a ruštinu.
1.5 Predpovede
Prekladateľský systém Lemko. Predpokladal som, že vyššie uvedený prekladateľský systém dosiahne skóre BLEU 15 pri preklade do Lemko z angličtiny oproti dvojjazyčnému korpusu.
Google Translate.
Služba z angličtiny do ukrajinčiny. Predpokladal som, že služba Google Translate z angličtiny do ukrajinčiny dosiahne skóre BLEU 10 oproti dvojjazyčnému korpusu.
Služba z angličtiny do ruštiny. Predpokladal som, že služba Google Translate z angličtiny do ruštiny dosiahne skóre BLEU 1 oproti dvojjazyčnému korpusu.
1.6 Metódy a zdôvodnenie
V záujme rýchlosti, úspory zdrojov a robustnosti bol notebook, ktorý môj zamestnávateľ vyradil ako zastaraný, nakonfigurovaný na preklad do Lemko a na volanie služby Google Cloud Platform Google Translate, ako aj na vyhodnocovanie uvedených prekladov pomocou priemyselného štandardu BLEU.
1.7 Hlavné výsledky
Prekladateľský systém z angličtiny do Lemko dosiahol kumulatívne skóre BLEU 6.28431824990417. Medzitým služba Google Translate pre ukrajinčinu dosiahla BLEU 2.16830846776652, jej služba pre ruštinu BLEU 1.10424105952048 a kontrola poľštiny prepísanej do cyriliky BLEU 1.70036447680114.
2 Materiály a metódy
Vyššie uvedená hypotéza bola testovaná výpočtom skóre kvality BLEU pre každý prekladateľský systém nastavený spôsobom podrobne opísaným nižšie.
2.1 Nastavenie
Hardvér. Experiment sa uskutočnil na notebooku HP Elitebook 850 G2 s procesorom Core i7-5600U 2,6 GHz a 16 gigabajtami pamäte RAM. Môj zamestnávateľ ho vyradil ako zastaraný a v čase tlače bol ponúkaný na predaj za 450 USD.
Konfigurácia. V menu základného vstupno-výstupného systému (BIOS) bolo zariadenie nakonfigurované tak, aby umožňovalo technológiu virtualizácie (VTx).
Operačný systém. Windows 10 Professional 64 bit bol nainštalovaný na holý hardvér. Bolo zabezpečené, aby boli povolené funkcie Windows Virtual Machine Platform a Windows Subsystem for Linux. Následne boli nainštalované WSL2 Linux kernel update for x64 stroje (wsl_update_x64.msi) dostupné od spoločnosti Microsoft na https://aka.ms/wsl2kernel.
Softvér. Inštalátor Docker Desktop pre Windows verzie 4.4.3 (73365) bol stiahnutý z https://www.docker.com/get-started a spustený s možnosťou Install required Windows components for WSL 2 selected.
Balíčky. Experiment závisel od nižšie uvedených balíkov z Python Package Index.
SacreBLEU. Verzia 2.0.0 bola nainštalovaná pomocou balíka Python zdokumentovaného na nasledujúcom univerzálnom lokátore zdrojov (URL):https://pypi.org/project/sacrebleu/2.0.0/
Klientska knižnica Google Cloud Translation API. Verzia 2.0.1 bola nainštalovaná pomocou balíka Python zdokumentovaného na univerzálnom lokátore zdrojov (URL) https://pypi.org/project/google-cloud-translate/2.0.1/
Vyššie uvedené závislosti boli špecifikované v súbore požiadaviek nasledovne:google-cloud-translate==2.0.1sacrebleu==2.0.0
Kontajner.
Zostavenie. Experiment bol spustený v kontajneri Docker s najnovšou verziou programovacieho jazyka Python, ktorá bola v tom čase verzia 3.10.2, bežiaca na operačnom systéme Debian Bullseye 11 Linux architektúry AMD64, so skráteným digestom Secure Hash Algorithm 2 bcb158d5ddb6, získateľným pomocou nasledujúceho príkazu: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Runtime. Kontajner bol nakonfigurovaný tak, aby ukladal surové experimentálne dátové súbory do lokálne pripojeného zväzku.
Hodnotenie kvality prekladu.
Skóre kvality prekladu bolo vypočítané podľa metriky BLEU pomocou verzie 2.0.0 nástroja SacreBLEU, ktorý vynašiel Post [20].
Citlivosť na veľké a malé písmená. Hodnotenie sa vykonalo s ohľadom na veľké a malé písmená.
Tokenizácia. Segmenty boli tokenizované pomocou verzie 13a štandardného skriptu na hodnotenie Workshop on Statistical Machine Translation, interného postupu tokenizácie metriky.
Metóda vyhladzovania. Použila sa metóda vyhladzovania vyvinutá Národným inštitútom pre štandardy a technológie zamestnancami federálnej vlády Spojených štátov pre ich súpravu nástrojov Multimodal Information Group BLEU, ktorá je treťou technikou opísanou Chenom a Cherrym [21, s. 363], štandardne.
Podpis. Vyššie uvedené nastavenia vytvorili nasledujúci podpis:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibrácia. Nakonfigurovaný ako vyššie, stroj produkuje nasledujúci výstup:
| Anglický zdroj | Everything was there. | |
| Lemko referencia a transliterácia | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hypotéza a transliterácia | Вшытко там было. | Všŷtko tam bŷlo. |
| Skóre | BLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4) | |
Vysvetlenie. Hypotetický segment bol identický s referenčným a stroj dosiahol perfektné skóre BLEU 100.
| Anglický zdroj | I don't remember what year. | |
| Lemko referencia a transliterácia | Не памятам в котрым році. | Ne pamjatam v kotrŷm roci. |
Lemkotran.com hypotéza a transliterácia | Ні памятам, в котрым році. | Ni pamjatam, v kotrŷm roci. |
| Skóre | BLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6) | |
Vysvetlenie. Hypotéza sa líšila od referencie o dva znaky. Stroj nesprávne preložil časticu negujúcu sloveso, použil slovo pre „nie“ (ni) namiesto očakávaného slova pre „nie“ (ne). To sa odvtedy do značnej miery opravilo. Stroj tiež pridal čiarku za pamjatam, čo znamená „pamätám si“. To znížilo skóre z perfektného skóre 100 na 43,47.
Kontrola. Keďže korpus je založený na rozhovoroch uskutočnených v Poľsku, preklady do poľštiny boli použité ako kontrola. Boli transliterované do cyriliky obrátením pravidiel pre transliteráciu mien Lemko, ktoré stanovilo poľské Ministerstvo vnútra a administratívy [22, str. 6564]. Poľské nosové samohlásky boli rozložené na samohlásku plus nosovú záverovú spoluhlásku, okrem prípadov pred aproximantmi, kde boli priamo denazalizované. Na konci slova bola predná nosová samohláska /ę/ jednoducho denazalizovaná a zadná /ą/ bola transliterovaná, akoby po nej nasledovala zubná záverová spoluhláska.
3 Výsledky
Motor dostupný verejnosti na www.LemkoTran.com obsadil prvé miesto s kumulatívnym skóre kvality prekladu BLEU 6,28, čo je takmer trojnásobok skóre druhého v poradí, služby Google Translate z angličtiny do ukrajinčiny (BLEU 2,17). Ďalej nasledovala jej služba z angličtiny do poľštiny (BLEU 1,70) a jej služba z angličtiny do ruštiny bola na poslednom mieste (BLEU 1,10).

3.1 Výsledky podľa služby strojového prekladu
Kontrola. Pri transliterácii do cyriliky dosiahli preklady Google Translate do štandardnej poľštiny skóre BLEU na úrovni korpusu 1,70. Ukážky jeho výkonov sú nasledovné:
| Anglický zdroj | We had still been in Izby, right. | |
| Lemko referenčný text a transliterácia | То мы іщы были в Ізбах, так. | To mŷ iščŷ bŷly v Izbach, tak. |
| Poľská hypotéza a transliterácia | Билісьми єще в Ізбах, так. | Byliśmy jeszcze w Izbach, tak. |
| Skóre | BLEU = 46.20 | |
| Anglický zdroj | And that's what it's all about. | |
| Lemko referenčný text a transliterácia | І о то ходит. | I o to chodyt. |
| Poľská hypotéza a transliterácia | І о то власьнє ходзі. | I o to właśnie chodzi. |
| Skóre | BLEU = 32.47 | |
| Anglický zdroj | And that's what it's all about. | |
| Lemko referenčný text a transliterácia | Так мі повіл. | Tak mi povil. |
| Poľská hypotéza a transliterácia | Так мі повєдзял. | Tak mi powiedział. |
| Skóre | BLEU = 35.36 | |
Hybridný anglicko-Lemko motor. Motor voľne dostupný verejnosti na URL adrese www.LemkoTran.com dosiahol skóre BLEU na úrovni korpusu 6,28.
| Anglický zdroj | Everything was there. | |
| Lemko referenčný text a transliterácia | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hypotéza a transliterácia | Вшытко там было. | Všŷtko tam bŷlo. |
| Skóre | BLEU = 100.00 | |
| Anglický zdroj | But that officer took that medal and said, | |
| Lemko referenčný text a transliterácia | Але тот офіцер взял тот медаль і повідат: | Ale tot oficer vzial tot medal' i povidat: |
Lemkotran.com hypotéza a transliterácia | Але тот офіцер взял тот медаль і повіл: | Ale tot oficer vzial tot medal' i povil: |
| Skóre | BLEU = 75.06 | |
| Anglický zdroj | That's what he said to me. | |
| Lemko referenčný text a transliterácia | Так мі повіл. | Tak mi povil. |
Lemkotran.com hypotéza a transliterácia | Так мі повіл. | Tak mi povil. |
| Skóre | BLEU = 100.00 | |
Ukrajinčina. Preklady Google Translate do štandardnej ukrajinčiny dosiahli skóre BLEU na úrovni korpusu 2,35.
| Anglický zdroj | Where and when? | |
| Lemko referenčný text a transliterácia | Де і коли? | De i koly? |
| Ukrajinská hypotéza a transliterácia | Де і коли? | De i koly? |
| Skóre | BLEU = 100.00 | |
| Anglický zdroj | We were there for three months. | |
| Lemko referenčný text a transliterácia | Там зме были три місяці. | Tam zme bŷly try misiaci. |
| Ukrajinská hypotéza a transliterácia | Ми були там три місяці. | My buly tam try misjaci. |
| Skóre | BLEU = 30.21 | |
| Anglický zdroj | Well, here to the west. | |
| Lemko referenčný text a transliterácia | Но то ту на захід. | No to tu na zachid. |
| Ukrajinská hypotéza a transliterácia | Ну, тут на захід. | Nu, tut na zachid. |
| Skóre | BLEU = 30.21 | |
Ruština. Služba Google Translate z angličtiny do ruštiny dosiahla skóre BLEU na úrovni korpusu 1,10.
| Anglický zdroj | Nobody knew. | |
| Lemko referenčný text a transliterácia | Нихто не знал. | Nychto ne znal. |
| Ruská hypotéza a transliterácia | Никто не знал. | Nikto ne znal. |
| Skóre | BLEU = 59.46 | |
| Anglický zdroj | What did they expel us for? | |
| Lemko referenčný text a transliterácia | За што нас выгнали? | Za što nas vŷhnaly? |
| Ruská hypotéza a transliterácia | За что нас выгнали? | Za čto nas vygnali? |
| Skóre | BLEU = 42.73 | |
| Anglický zdroj | Brother went off to war. | |
| Lemko referenčný text a transliterácia | Брат пішол на войну. | Brat pišol na vojnu. |
| Ruská hypotéza a transliterácia | Брат ушел на войну. | Brat ušel na vojnu. |
| Skóre | BLEU = 42.73 | |
4 Diskusia
Skóre BLEU na úrovni korpusu pre prekladový systém Lemko 6,28 naznačuje, že hoci je ešte veľa práce, veci sú na správnej ceste. Štandardné ruské skóre BLEU 1,10 naznačuje, že Lemko je menej podobné ruštine ako poľštine (BLEU 1,70). Možno by použitie predrevolučnej ortografie mohlo zvýšiť skóre ruštiny, ale to by bol drahý experiment s malým zjavným prínosom.
Transliterované štandardné poľské kontrolné skóre podobnosti BLEU 1,70 naznačuje menšie rušenie zo strany dominantného jazyka v Poľsku, než by sa dalo očakávať. Bolo by zaujímavé prepracovať experiment, kde by sa na poľštinu aplikovalo niekoľko výpočtovo nenáročných a zjavných zvukových korešpondencií (napríklad denazalizácia *ę na /ja/ a *ǫ na /u/, retrakcia *i na /y/ a zmena *g na /h/ [23]), aby sa zistilo, či by potom dosiahla vyššie skóre ako štandardná ukrajinčina.
Zhrnutie: Lemko bolo syntetizované v laboratóriu a možnosť jeho produkcie bola daná do rúk novým aj rodeným hovorcom. Po dôkladnej generálnej oprave motora a rozšírení glosára je ďalším krokom objektívne zmerať a, ak je to možné, nechať hovorcami subjektívne ohodnotiť kvalitu syntetického Lemko v porovnaní s tým, ktoré produkujú rodení hovorcovia. Deň, keď noví hovorcovia jazykov s nízkymi zdrojmi môžu použiť strojový preklad na to, aby začali komunikovať vo svojom jazyku cez noc, je bližšie, rovnako ako deň, keď sa jazyk Lemko pripojí k radom tých, ktoré boli predtým ohrozené, ale teraz sú revitalizované.
Poďakovanie. Rád by som poďakoval svojmu kolegovi Mingovi Qianovi z Peraton Labs za inšpiráciu k uskutočneniu tohto experimentu a Brianovi Stensrudovi zo Soar Technology, Inc. za to, že nás predstavil, ako aj za jeho povzbudenie.
Taktiež by som rád poďakoval svojej priateľke Corinne Caudill za jej povzbudenie a osobný záujem o projekt, ako aj za to, že ma predstavila prezidentke Karpatsko-rusínskej spoločnosti Maryann Sivak z University of Pittsburgh, ktorej by som rád poďakoval za príležitosť prezentovať moju prácu.
Taktiež by som rád poďakoval Marii Silvestri z nadácie John and Helen Timo Foundation za uskutočnenie rozhovorov s rodenými hovorcami Lemko a darovanie prepisov a mojich prekladov na výskum a vývoj.
Rád by som poďakoval Achimovi Rabusovi z Univerzity vo Freiburgu a Yvesovi Scherrerovi z Helsinskej univerzity za ich záujem o projekt a nápady.
Taktiež by som rád poďakoval Myhal’ovi Lŷžečkovi z blogu o technológiách menšinových jazykov InterFyisa za jeho skorý záujem o projekt a komunitnú osvetu.
Taktiež by som rád poďakoval kolegovi, rodákovi zo Zahoczewie, Markovi Łyszykovi za jeho záujem o projekt a komunitnú osvetu.
Na záver by som rád poďakoval svojmu spoluautorovi a kolegovi z Antech Systems Inc. Tomovi Dobrymu za jeho povzbudenie a vedenie.
Referencie
1. ^ Graddol, D.: Budúcnosť jazyka. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Jazyky sveta, SIL International. Dvadsiate štvrté vydanie. SIL International, Dallas (2021). Online verzia: Koľko jazykov je ohrozených?, https://www.ethnologue.com/guides/how-many-languages-endangered, naposledy prístupné 11. 2. 2022.
3. ^ Kódové tabuľky ISO 639, https://iso639-3.sil.org/code_tables/639/data, naposledy prístupné 11. 2. 2022.
4. ^ Jazyková podpora, https://cloud.google.com/translate/docs/languages, naposledy prístupné 11. 2. 2022.
5. ^ Vybrať jazyk, https://m.facebook.com/language.php, naposledy prístupné 11. 2. 2022.
6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Áno, hovorím… Neurónový strojový preklad AI vo viacjazyčnom tréningu. In: Zborník príspevkov z konferencie Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, príspevok č. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integrované stratégie pre revitalizáciu jazyka, str. 175–200. Prvé vydanie. Fakulta „Artes Liberales“, Varšavská univerzita, Varšava (2016).
8. ^ Scherrer, Y., Rabus, A.: Neurónové morfosyntaktické značkovanie pre rusínčinu. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
9. ^ Výhrady a vyhlásenia k Zmluve č. 148 – Európska charta regionálnych alebo menšinových jazykov (ETS č. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, naposledy prístupné 11. 2. 2022.
10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, naposledy prístupné 11. 2. 2022.
11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, naposledy prístupné 11. 2. 2022.
12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, naposledy prístupné 11. 2. 2022.
13. ^ Vaňko, J.: Jazyk slovenských Rusínov. East European Monographs, New York (2000).
14. ^ Forston, B., IV: Indoeurópsky jazyk a kultúra. Blackwell Publishing, Oxford (2004).
15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.
16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Varšava (2004).
17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: Sanskrt-anglický slovník etymologicky a filologicky usporiadaný so zvláštnym zreteľom na príbuzné indoeurópske jazyky, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: Etymologický slovník slovanskej zdedenej lexiky. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: Výzva na jasnosť pri uvádzaní skóre BLEU. In: Zborník príspevkov z Tretej konferencie o strojovom preklade (WMT), vol. 1, str. 186–191. Association for Computational Linguistics, Brusel (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: Systematické porovnanie vyhladzovacích techník pre BLEU na úrovni viet. In: Zborník príspevkov z Deviateho workshopu o štatistickom strojovom preklade, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstvo vnútra a administratívy: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw č. 102, str. 6560–6573. Rządowe Centrum Legislacji, Varšava (2005).
23. ^ Shevelov, G.: O chronológii H a nového G v ukrajinčine. In: Harvard Ukrainian Studies, vol. 1, č. 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

Pridaj komentár