Je mi cťou, že moja recenzovaná práca Say It Right: Neurónový strojový preklad AI posilňuje nových hovorcov, aby revitalizovali Lemko bola citovaná v decembri 2023 Alexom Jonesom a Rolandom Coto-Solanom z Dartmouth College, ako aj Guillermom Gonzálezom Camposom z Kostarickej univerzity v ich práci TalaMT: Viacjazyčný strojový preklad pre Cabécar-Bribri-španielčinu na strane 107 Zborníka 3. workshopu o viacjazyčnom učení reprezentácií v Singapure.
Značka: umelá inteligencia (AI)
-

Winning Hearts & Tongues: Prípadová štúdia prekladu z poľštiny do lemkovčiny (2023)
Abstrakt
Keď sa strácajú menšinové a lokálne jazyky, trpí národná bezpečnosť: nielenže sa často dokumentuje výrazný nárast samovražednosti, depresie, cukrovky, útokov a zneužívania návykových látok, ale vzniká aj prázdnota, ktorú historicky zneužívali protivníci. Napríklad milióny ľudí z menšinových jazykových komunít si ahistoricky osvojujú ruský jazyk a/alebo identitu ako svoju vlastnú na Ukrajine, v Bielorusku, u spojencov NATO a dokonca aj v Spojených štátoch. Ak komunikačné medzery v rodnom jazyku zostanú len v rukách protivníkov, ktorí využívajú svoje dlhoročné skúsenosti s týmito jazykmi, NATO zostáva vo veľkej nevýhode pri pokusoch o zapojenie týchto komunít. V Európe sa psychické rany spôsobené čiastočne stratou jazyka nezahojili asimiláciou. Namiesto toho mestá zažívajú návaly izolačného napätia na Západe a východné obyvateľstvo je presviedčané nepriateľskými mocnosťami, že tieto mocnosti sú ich skutočnými spojencami, ktorí ich chápu a rešpektujú. Ani vzdelávanie v úradnom jazyku nie je všeliekom: v prípade Ukrajiny (a dokonca aj Španielska) netriviálne rozdiely medzi miestnymi lektmi a úradným jazykom vytvárajú priestor pre protivníkov na rozduchávanie plameňov separatizmu.
Používanie systémov strojového prekladu na posilnenie NATO a jeho partnerov pri výcviku regrútov alebo pri pôsobení v teréne v jazyku, ktorý je im najbližší, môže okamžite vytvoriť pocit „my“ a predstaviť polykultúrnu víziu NATO. Umelá inteligencia a systémy založené na pravidlách boli zostavené na preklad medzi úradným jazykom Poľska a jazykom jeho pôvodnej lemkovskej menšiny, ktorá bola dlho terčom zahraničných mocností. Systémy boli hodnotené pri preklade z lemkovčiny do poľštiny pomocou metrík vyvinutých s podporou DARPA, pričom dosiahli skóre BLEU (bilingual evaluation understudy) 31,13 a mieru úprav prekladu (TER) 54,10. Medzitým v opačnom smere systémy dosiahli TER 53,73 a BLEU 29,49, čo je skóre 6,5-krát lepšie ako služba Poľsko-ukrajinského prekladača Google Translate.
Please cite as: Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: Prípadová štúdia prekladu z poľštiny do lemkovčiny. V Zborníku z konferencie o výcviku, simulácii a vzdelávaní medzi službami/priemyslom (I/ITSEC).
Please cite as:
Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001
✅ Táto verzia príspevku bola prijatá na publikovanie po recenznom konaní, ale nie je finálnou verziou (Version of Record) a neodráža vylepšenia po prijatí ani žiadne opravy. Finálna verzia (Version of Record) je dostupná online na tomto odkaze. Používanie tejto prijatej verzie podlieha podmienkam používania prijatej rukopisnej verzie vydavateľa.
Úvod
Výsledky školení môžu profitovať z používania strojového prekladu pre pôvodné a menšinové jazyky a dialekty, ktorých používanie je v vedeckej literatúre čoraz viac a významne (p ≤ 0,05) spájané s bystrejšou mysľou, odolnejšou psychikou a pevnejším zdravím, nehovoriac o šesťnásobne nižšej miere samovrážd (Hallett et al., 2007, s. 398). Používanie dedičného jazyka môže posilniť odolnosť voči vplyvu zahraničných protivníkov a v severoatlantickom priestore môže zabrániť cieľovým populáciám, aby upadli do ruskej alebo inej ahistorickej etnolingvistickej identity pri vyrovnávaní sa s ničivými následkami straty jazyka. Zatiaľ čo lokalizácia materiálov do miestnych dialektov a jazykov mohla byť pre vojnou zničené komunity a vlády predtým nedosiahnuteľná, vďaka nedávnym prelomom v oblasti umelej inteligencie a výpočtovej lingvistiky je teraz možné uvažovať o cenovo dostupných zariadeniach, ktoré sú lacnejšie, rýchlejšie a lepšie ako ľudia pri preklade do pôvodných a menšinových jazykov s nízkymi zdrojmi.
Problém straty jazyka sa neobmedzuje len na Európu. Hoci globálna situácia ohrozenia jazykov nemusí byť taká vážna, ako naznačovali dostupné údaje na začiatku deväťdesiatych rokov, dostupné štatistiky stále vykresľujú pochmúrny obraz. V často citovanom diele, ktoré Simmons a Lewis (2013) nazvali „veľkým lingvistickým volaním do zbrane“, Krauss v roku 1992 varoval, že polovica až 90 % svetových jazykov má v tomto storočí zaniknúť. Okrem toho predpokladal „zdokumentovanú mieru zničenia“ 90 % pôvodných jazykov v anglosfére, kde prevláda angličtina, a odhadovanú 50 % mieru vymierania pre celý Sovietsky zväť, kde dominovala ruština (Krauss, 1992, s. 5). O dvadsať rokov neskôr Simmons a Lewis (2013) použili aktualizované údaje na odhad, že 1 360 zo 7 103 živých jazykov (19 %) sa neprenáša na ďalšiu generáciu (s. 12), pričom toto číslo stúpa na 30 % vo východnej Európe (s. 13).
Neuroveda a výsledky učenia
Najnovší výskum naznačuje, že používanie rodného jazyka môže znamenať väčšiu mentálnu kapacitu dostupnú pre učenie a že výsledky testov sa výrazne zlepšujú. Výskum na McGovernovom inštitúte pre výskum mozgu, vedený výskumníkmi z Massachusettského technologického inštitútu (MIT) začiatkom tohto roka, pozoroval relatívne nízku mozgovú odozvu na podnety v rodnom jazyku pri meraní pomocou techniky funkčnej magnetickej rezonancie (fMRI) (Malik-Moraleda et al., 2023). Ako vysvetlenie výskumníci naznačili, že odbornosť znižuje množstvo mozgovej kapacity potrebnej na splnenie úlohy (Mesa, 2023). V nedávnej štúdii pre Svetovú banku Soh, Del Carpio a Wang (2021) zistili, že používanie nerodného vyučovacieho jazyka môže byť škodlivé, a to najmä pre mužov. V štúdii sa výsledky testov z matematiky a prírodných vied u študentov v Malajzii výrazne znížili po tom, čo bol vyučovací jazyk zmenený z malajčiny na angličtinu (Soh et al., 2021, s. 4, 17, 18–19).
Národná bezpečnosť
Podľa členov fakulty Školy špeciálnych operácií Organizácie Severoatlantickej zmluvy (NATO) Whitea a Overdeera môže Rusko zneužívať etnické rozpory v cieľových spoločnostiach ako páku hybridnej vojny v snahe dosiahnuť ciele zahraničnej politiky (2020, s. 31–33), pričom etnolingvistické rozdiely sú „ľahko dostupné a ľahko zhoršiteľné“ (s. 40). Nižšie sa skúma podnecovanie a zneužívanie etnolingvistických konfliktov v západnej aj východnej Európe.
Španielsko: Katalánsko
Verejné používanie katalánčiny, menšinového jazyka hovoreného v severovýchodnom Španielsku, bolo Francovou vládou zakázané až do roku 1975 (Miller & Miller, 1996, s. 113). Namiesto vyriešenia konfliktu táto politika mohla spôsobiť jeho pretrvávanie. V článku pre The New York Times Schwirtz a Bautista (2021) citovali európsku spravodajskú správu z júna 2020, ktorá tvrdila, že elitná Jednotka 29155 vojenského spravodajského systému Ruskej federácie bola v Katalánsku v čase referenda o nezávislosti v roku 2017, keď „tajná protestná skupina“ Tsunami Democràtic obsadila barcelonské letisko a prerušila hlavnú diaľnicu spájajúcu Španielsko s jeho severnými susedmi. O tri dni neskôr plukovník ruskej Federálnej ochrannej služby a blízky príbuzný vysokého prezidentského poradcu, hlboko zapojeného do ruských snáh o podporu separatistov na Ukrajine, prileteli z Moskvy na strategické stretnutie, aby prediskutovali katalánske hnutie za nezávislosť (Schwirtz & Bautista, 2021).
Podpora Ruskej federácie pre katalánske hnutie za nezávislosť údajne zahŕňala dokonca ponuku 10 000 vojakov a 500 miliárd amerických dolárov v prípade nezávislosti (Baquero et al., 2022; pozri tiež Brunet, 2022, s. 74). Louise I. Shelley z Centra pre terorizmus, nadnárodnú kriminalitu a korupciu na George Mason University vo Virgínii označila ruské oslovovanie separatistických lídrov v Španielsku za konzistentné s minulým správaním a vysvetlila: „Väzby medzi Kataláncami a Rusmi siahajú do sovietskej éry. Pred rozpadom ZSSR sa v Barcelone konali stretnutia na vysokej úrovni s významnými Rusmi“ (Baquero et al., 2022).
Západná Ukrajina
Na Ukrajine netriviálne rozdiely medzi miestnymi lektmi a literárnym štandardom vyučovaným v školách vytvárajú priestor pre protivníkov na rozduchávanie plameňov separatizmu. Podľa správy Rating z roku 2012 len 54 % etnických Ukrajincov používalo svoj dedičný jazyk, pričom 29 % používalo ruštinu a 17 % kombináciu oboch (s. 9). V tom roku bolo vytlačených deväť kníh v ruštine na každú jednu v ukrajinčine a len 13 % výtlačkov tlačených médií bolo napísaných v ukrajinčine (Moser, 2016a, s. 604).
Pred dvoma desaťročiami ročné správy Ministerstva zahraničných vecí Spojených štátov amerických o praktikách v oblasti ľudských práv za rok 2002 uviedli nasledovné:
Niektoré proruské organizácie vo východnej časti krajiny sa sťažovali na zvýšené používanie ukrajinčiny v školách a v médiách. Tvrdili, že ich deti boli znevýhodnené pri prijímacích skúškach na vysoké školy, keďže všetci uchádzači museli absolvovať test z ukrajinského jazyka.
Ministerstvo zahraničných vecí, 2003, s. 1758Rusíni (Ruténi) naďalej žiadali o štatút oficiálnej etnickej skupiny v krajine. Zástupcovia rusínskej komunity žiadali rusínske školy, rusínske oddelenie na Užhorodskej univerzite a zaradenie rusínčiny ako jednej z etnických skupín krajiny do sčítania ľudu v roku 2001. Podľa rusínskych lídrov žije v krajine viac ako 700 000 Rusínov.
Ministerstvo zahraničných vecí, 2003, s. 1759Ako východiskový bod pre širšie otázky spomenuté Ministerstvom zahraničných vecí, ktoré sú mimo rozsahu tohto článku, bývalý člen Harvardovho ukrajinského výskumného inštitútu Michael Moser vysvetlil:
Rusínov možno pravdepodobne najlepšie opísať ako zvyšky Ruténov/Rusínov, ktorí neboli ochotní pripojiť sa k modernému ukrajinskému národnému a jazykovému hnutiu… pôvodne táto neochota nebola založená na žiadnej rusínskej identite v modernom zmysle, ale vyplývala z rusofilných názorov, že Ruténi/Rusíni/Malorusi patria k jednému nedeliteľnému ruskému národu a nebolo tam miesto pre ukrajinský národ a ukrajinský jazyk.
Moser, 2016b, s. 127V júni 2007 bola v Moskve prezidentským dekrétom založená „Ruská svetová nadácia“ a začala financovať „krajanov“ na Ukrajine, pričom do marca 2011 poskytla viac ako 1 200 000 amerických dolárov (Moser, 2016a, s. 607).
Stretnutie sa konalo v Ruskom dramatickom divadle v ďalekom západnom meste Mukačevo na Ukrajine 25. októbra 2008 (Wiktorek, 2010, s. 100). Dokonca sa objavili správy o stovke ozbrojených jednotlivcov z iných miest vonku (Ukrajinsʹke nacionalʹne objednannja, 2009; pozri tiež Wiktorek, 2010, s. 100). Nech sa tam stalo čokoľvek, o 20:30 tej noci sa na online platforme rusin.forum24.ru objavilo v ruštine vyhlásenie o „obnovení rusínskej štátnosti“. Medzi svojimi sťažnosťami spomína „nahradenie rusínskeho štátneho jazyka haličskou ukrajinčinou, jazykom poľskej Haliče, severného suseda Rusínov.“ (2-nd Europаn [sic] Сongress Subсarpathion [sic] Rusyns, 2008).
V období pred tým, ako nariadil svojej armáde otvorene napadnúť Ukrajinu s cieľom uskutočniť rozsiahlu „špeciálnu vojenskú operáciu“, venoval prezident Ruskej federácie celý odsek „osudu Podkarpatskej Rusi“ vo svojej eseji O historickej jednote Rusov a Ukrajincov:
Samostatne sa budem venovať osudu Podkarpatskej Rusi, ktorá sa po rozpade Rakúsko-Uhorska ocitla v Československu. Značnú časť miestnych obyvateľov tvorili Rusíni. Hoci sa na to dnes už zriedka spomína, po oslobodení Zakarpatska sovietskymi vojskami kongres pravoslávneho obyvateľstva územia vyhlásil podporu pre začlenenie Podkarpatskej Rusi do Ruskej sovietskej federatívnej socialistickej republiky alebo priamo do Sovietskeho zväzu ako samostatnej, Karpatsko-ruskej republiky.
Putin, 2021Pri ďalšom incidente v regióne dvaja členovia poľskej krajne pravicovej organizácie Falanga, ktorej členovia pôsobili medzi ruskými separatistami na východnej Ukrajine, v roku 2018 podpálili kultúrne centrum maďarskej pôvodnej etnolingvistickej menšiny v regionálnom hlavnom meste Užhorod tak, že ho poliali benzínom a hodili doň Molotovov koktail (Górzyński, 2018).
Zdravie a bezpečnosť
Samovražednosť
Šesťnásobne vyššia miera samovrážd bola pozorovaná v komunitách, kde menej ako polovica uvádza konverzačné znalosti svojho dedičného jazyka (Hallett et al., 2007, s. 398). Pozitívne je, že miera samovrážd u mladých ľudí klesla na nulu vo všetkých prípadoch okrem jedného, kde väčšina uviedla schopnosť viesť konverzáciu vo svojom dedičnom jazyku (s. 397). V štúdii Pezzie a Hernandeza z roku 2022 mali tí, ktorí nehovorili plynule dedičným jazykom, ale ich rodičia áno (s. 95), najväčšiu pravdepodobnosť samovražedných myšlienok (s. 98). Ako vysvetlenie súvislosti medzi stratou jazyka a samovražednými myšlienkami Pezzia a Hernandez naznačujú „akulturačný stres alebo sociálne vylúčenie“ vyplývajúce z toho, že nedostatok plynulosti v jazyku bráni prijatiu za plnohodnotného člena etnickej skupiny (s. 100).
Depresia
Po kontrole veku, pohlavia, vzdelania, finančnej situácie a príslušnosti k etnickej skupine výskumníci zistili, že skrývanie identity vyhýbaním sa používaniu dedičného jazyka na verejnosti (označované ako vyhýbanie sa jazyku) je štatisticky významným (p = 0,006) prediktorom kategorizácie ako „depresívny“ vďaka dosiahnutiu skóre 5 alebo vyššieho v dotazníku Patient Health Questionnaire 9 od Kroenkeho a Spitzera (Olko et al., 2023, s. 5–6). Ako teoretický mechanizmus výskumníci uviedli etnickú diskrimináciu vyvolávajúcu chronický stres, vedúcu k pretrvávajúcej hyperaktivite osi hypotalamus-hypofýza-nadobličky a výsledným zvýšeným hladinám kortikotropín-uvoľňujúceho faktora a kortizolu, pričom poukázali na prácu Willnera (2017), ako aj Slavicha a Irwina (2014).
Cukrovka
Po úprave o socioekonomické faktory bol diabetes mellitus významne (p = 0,005) menej rozšírený v komunitách so znalosťou pôvodného jazyka (Oster et al., 2014, s. 9).
Užívanie tabaku
Väčšia akulturácia na anglický jazyk bola významne spojená s fajčením u starších ázijsko-amerických adolescentov v New Yorku (Rosario-Sim & O’Connell, 2009). V inej štúdii bolo používanie angličtiny doma spojené s vyššou mierou prevalencie fajčenia u ázijsko-americkej mládeže (p = 0,021), rovnako ako vysoká znalosť angličtiny (p = 0,040) (Chen et al., 1999, s. 325). Medzi hispánskymi dievčatami fajčili tie, ktoré hovorili anglicky so svojimi rodičmi, viac ako tie, ktoré hovorili anglicky aj španielsky so svojimi rodičmi (p < 0,0001), ako aj dievčatá, ktoré hovorili španielsky so svojimi rodičmi (p < 0,01) (Epstein et al., 1998, s. 586).
Užívanie návykových látok a útoky
Podľa Austrálskeho štatistického úradu (2011/2012) bola u aborigénskej mládeže vo veku pätnásť až dvadsaťštyri rokov, ktorá hovorila pôvodným jazykom, menšia pravdepodobnosť užívania nelegálnych látok (16 % oproti 26 %), menšia pravdepodobnosť hlásenia nadmerného pitia alkoholu v predchádzajúcich dvoch týždňoch (18 % oproti 34 %) a menšia pravdepodobnosť, že sa v predchádzajúcom roku stali obeťou fyzického alebo hroziaceho násilia (25 oproti 37 %).
Doterajšie riešenia
Neuronová umelá inteligencia
Prelom v neurónovom strojovom preklade medzinárodného tímu s financovaním od Agentúry pre pokročilé obranné výskumné projekty (DARPA) v rámci projektu Broad Operational Language Translation (BOLT) (Cho et al., 2014), ako aj spoločnosti Google (Sutskever et al., 2014), viedol k vzniku systémov schopných dosahovať kvalitatívne skóre porovnateľné s ľudskými. Trénovanie neurónových systémov si však vyžaduje viac dát, než je bežne dostupných pre jazyky s nízkymi zdrojmi.
Strojový preklad založený na pravidlách
Systémy strojového prekladu založené na pravidlách v minulosti boli všeobecne považované za plytvanie peniazmi (Hajič et al., 2000, s. 7) s pozoruhodnou výnimkou pražského systému RUSLAN financovaného Sovietskym zväzom založenou Radou vzájomnej hospodárskej pomoci (RVHP), ktorý produkoval preklady dokumentácie operačných systémov sálových počítačov z češtiny do ruštiny (s. 7), pričom preklady dvoch z piatich viet boli správne, ďalšie dve z piatich obsahovali len drobné chyby a len jedna z piatich si vyžadovala podstatnú úpravu alebo opätovný preklad (s. 8).
Hlavnými dôvodmi zjavného sklamania v Prahe z výsledkov česko-ruských systémov založených na pravidlách bolo, že samotná úloha bola príliš zložitá a že čeština a ruština nie sú dostatočne blízko príbuzné na to, aby bol takýto prístup životaschopný. K zoznamu by sa mohli pridať nerealistické očakávania a nedostatok objektívnych metrík hodnotenia. Medzitým boli výsledky prekladu z češtiny do slovenčiny a poľštiny, všetkých bližšie príbuzných západoslovanských jazykov, celkom povzbudivé (Hajič et al., 2000, s. 12).
Hybridný neurálny/pravidlový strojový preklad
Vo výsledkoch prezentovaných na konferencii Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) bol pravidlový Lemko-poľský prekladový systém skombinovaný s poľsko-anglickým pravidlovým systémom, aby sa vytvorili prvé publikované výsledky strojového prekladu z Lemko do angličtiny (Orynycz et al., 2021). Nasledujúci rok boli preklady v opačnom smere vytvorené úpravou systému a jeho spustením v opačnom smere (Orynycz, 2022). Vylepšenia tohto systému, ktoré spočívali v jeho prepracovaní a rozšírení slovnej zásoby, neskôr viedli k 35 % zlepšeniu kvality prekladu (Orynycz, 2023).
Nové riešenia
Expertný systém strojového prekladu založený na pravidlách
Inferenčný engine bol ručne kódovaný prostredníctvom vývoja riadeného testami, aby odrážal pravdy obsiahnuté v znalostnej báze zostavenej v spolupráci s prácou odborníkov na danú oblasť. Tento prístup tiež umožňuje manuálne odstránenie cudzieho zasahovania a prečistenie ruských a iných výpožičiek. Konzultované slovníky zahŕňali obojsmerný poľsko-lemkovský slovník Horoszczaka (2004), lemkovsko-ukrajinský slovník Pyrteja (2004), ukrajinsko-lemkovský slovník Dudu (2011) a lemkovsko-poľský glosár Riegera (1995), ako aj jeho lemkovsko-poľský glosár založený na nahrávkach z obce Bartne (2016). Pri kódovaní pravidiel na ohýbanie slov podľa gramatických kategórií, ako sú číslo, pád a rod, boli konzultované gramatiky Fontańského a Chomiaka (2000), ako aj Pyrteja (2013).
Umelá inteligencia Transformer
Prelom v neurálnom strojovom preklade bol úzko nasledovaný zavedením architektúry Transformer vedcami z Google Brain a Google Research, ktorá je založená výlučne na mechanizmoch pozornosti a úplne sa zaobíde bez rekurencie a konvolúcií (Vaswani et al., 2017). Pre tento experiment sme trénovali modely umelej inteligencie založené na transformeroch na preklad z poľštiny do Lemko a pokiaľ vieme, sme prví, ktorí publikovali výsledky.
Materiál a metódy
Materiál
Dáta
Modely umelej inteligencie boli vytvorené pomocou korpusu, ktorý obsahoval 1 611 352 zdrojových slov (podľa počtu v Microsoft Word 365) v 112 507 riadkoch napísaných poľskými rodákmi Lemko, spolu s ich prekladmi do poľštiny pomocou rozhrania Google Cloud Platform Translation Application Programming Interface (API) nakonfigurovaného na preklad, akoby zo štandardnej ukrajinčiny, pomocou neurálneho strojového prekladu.
Lemko (tiež známy ako Lemko Rusyn) geneticky patrí do juhozápadného ukrajinského dialektového systému, v rámci ktorého sa odlišuje pevným prízvukom na predposlednej (predposlednej) slabike (Danylenko, 2020). Takéto dialekty sú pôvodné na územiach, ktoré sú v súčasnosti pod správou Poľska a od roku 1993 aj Slovenskej republiky.
V medzivojnovom Poľsku vláda podporovala samostatné lemkovské, huculské a bojkovské identity v snahe čeliť ukrajinskému hnutiu, ktorého učitelia boli prepustení (Moser, 2016b, s. 128). V roku 1935 boli rusofilní učitelia nahradení Poliakmi a lemkovčina bola v roku 1937 definitívne odstránená zo škôl (s. 128). Asi dve tretiny lemkovských hovoriacich v Poľsku boli deportované na Ukrajinu v rokoch 1945 až 1947, pričom zvyšných 40 000 až 50 000 bolo presídlených predovšetkým na novo pripojené, predtým nemecké územia komunistického Poľska (s. 131). Podľa predbežných výsledkov sčítania ľudu v Poľsku v roku 2021 uviedlo 12 700 „Lemko“ ako etnickú príslušnosť (Główny Urząd Statystyczny, 2023, s. 3).
Metódy
Predspracovanie
Najprv bol všetok text prevedený na malé písmená. Potom bola pridaná medzera pred a za všetky nealfanumerické znaky. Počiatočné a koncové biele znaky boli tiež odstránené z každého riadku. Následne bol vyššie uvedený korpus spracovaný pomocou Moslemovho skriptu (2023a) na čistenie a filtrovanie paralelných dátových súborov (commit db6f441), pričom zostalo 33 612 riadkov obsahujúcich 610 990 zdrojových slov podľa počtu v Microsoft Word 365.
Tokenizácia pod slovami
Modely unigramového podslovného spracovania boli trénované pomocou Moslemovho skriptu (2021a) (commit fbf2488). Následne boli tieto modely použité na tokenizáciu zdrojového aj cieľového textu pomocou skriptu podslovného spracovania číslo dva z rovnakého commitu (Moslem, 2021b).
Rozdelenie dát
2 000 riadkov z vyššie uvedeného korpusu bolo oddelených na vyhodnotenie pomocou Moslemovho skriptu (2023b) na tento účel (commit e6decb7).
Tréning modelov umelej inteligencie
Modely umelej inteligencie boli trénované pomocou verzie TensorFlow nástroja OpenNMT pre neurálny strojový preklad, ktorý je nástupcom Harvardovho modelu seq2seq-attn sekvencia-na-sekvenciu s pozornosťou (Klein et al., 2017, s. 68). Príkaz na spustenie tréningovej a evaluačnej slučky bol spustený s automatickou konfiguráciou pre model Transformer. Automatické vyhodnocovanie bolo tiež povolené a nastavené na spustenie každých 5 000 krokov pomocou metriky BLEU (bilingual evaluation understudy) a export modelu, keď bolo dosiahnuté nové vysoké skóre. Tréning bol vykonaný na platforme Google Colabatory s využitím grafických procesorových jednotiek NVIDIA A100 a stavu runtime s vysokou pamäťou RAM. Tréningu bolo umožnené bežať cez noc.
Inferenčný engine
Inferenčný engine pre preklad bol vytvorený na základe Kleinovho klientskeho skriptu Python (commit 2b196ff) (2021), ktorý bol upravený tak, aby vyhovoval modelom tokenizácie podslov zdrojového a cieľového jazyka, ako aj optimalizoval medzery a kapitalizáciu, aby lepšie zodpovedal očakávaniam modelov umelej inteligencie a koncových používateľov. Predpovede prekladu boli uložené do súboru pre následné hodnotenie kvality.
Hodnotenie kvality
Kvalita prekladov bola hodnotená pomocou metrík, ktorých vývoj bol financovaný DARPA: BLEU (Papineni et al., 2002) aj TER (Translation Edit Rate) (Snover et al., 2006). Samotné skóre bolo vypočítané pomocou priemyselne štandardných metód vyvinutých v Amazon Research spoločnosťou Post (2018).
Výsledky
Skóre kvality prekladu
Experimentálny expertný systém založený na pravidlách prekonal všetky ostatné vo všetkých metrikách pri preklade z poľštiny do Lemko a naopak.
Kvalita prekladu z poľštiny do Lemko
Pri preklade z poľštiny do Lemko dosiahol experimentálny expertný systém založený na pravidlách skóre kvality BLEU 29,49, čo je 6,50-krát lepšie ako ukrajinská služba Google Translate. Medzitým experimentálny systém neurálneho strojového prekladu Transformer s umelou inteligenciou dosiahol skóre BLEU 15,90 po 30 000 tréningových krokoch, čo bolo 3,50-krát lepšie ako ukrajinská služba Google Translate. Pri meraní pomocou alternatívnej metriky TER dosiahol experimentálny expertný systém založený na pravidlách skóre TER 53,73, čo je o 61 % lepšie ako ukrajinská služba Google Translate.

Obrázok 1. Kvalita prekladu z poľštiny do Lemko: Skóre BLEU 
Obrázok 2. Kvalita prekladu z poľštiny do Lemko: Skóre TER Kvalita prekladu z Lemko do poľštiny
Experimentálny expertný systém založený na pravidlách prekonal všetky ostatné vo všetkých metrikách pri preklade z Lemko do poľštiny, pričom dosiahol skóre kvality BLEU 31,13, čo bolo 1,4-krát lepšie ako výkon ukrajinskej služby Google Translate s BLEU 22,16.
Vzorky
Anglický význam (ľudský prekladateľ) Napríklad v textoch, a ja hlavne študujem texty, mám tento zdroj, napísali: Rakúšania nás vraždili, tak čo nám urobia tí strašní Moskovčania, ktorými sa nás snažia vystrašiť? Poľština
(ľudský prekladateľ)Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą? Pravda: Odkaz na Lemko (rodený hovorca) І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат? I ony napryklad v tekstach, a ja holovni dosljidžam tekstŷ, to značŷt mam takie džerelo, pysaly: no Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ Moskalji, kotrŷma nas strašat? Systém Prekladové hypotézy Skóre kvality Cyrilika Transliterácia BLEU TER Experimentálne Expertný systém (založený na pravidlách) Наприклад они в текстах, а я головні бадам текстий, мам такы джерело, писали: Австриякы нас мордували, то што зроблят тоты страшны москале, котрыма нас страшом? Napryklad ony v tekstach, a ja holovni badam tekstyj, mam takŷ džerelo, pysaly: Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ moskale, kotrŷma nas strašom? 46.32 34.48 Umelá inteligencia (Transformer) Примірово, в текстах, а я головні в заміріню тексту, маме джерело, писали: австриякы австриякы мордували, же то што зроблят стабілізацию тому, котрыма нас престрашыли? Prymirovo, v textax, a ja holovni v zamirinju tekstu, mame džerelo, pysaly: avstryjakŷ avstryjakŷ morduvaly, že to što zrobljat stabilyzacyju tomu, kotrŷma nas prestrašŷly? 27.65 55.17 Google Translate Poľština На прзиклад оні в текстах, а я ґлувнє бадам тексти, мам такє зьрудло, пісалі: Аустряци нас мордовалі, то цо зробьон ці страшні Москалє, ктуримі нас страшон? Na przyklad oni v tekstach, a ja gluvnje badam teksty, mam takje źrudlo, pisalji: Austriacy nas mordovalji, to co zrobjon ci strašni Moskalje, kturymi nas strašon? 14.21 68.97 Ukrajinčina Наприклад, у своїх текстах, а я в основному досліджую тексти, у мене є таке джерело, вони писали: Австрійці нас повбивали, що будуть робити ті страшні москалі, якими вони нам погрожують? Napryklad, u svojix tekstax, a ja v osnovnomu doslidžuju teksty, u mene je take džerelo, vony pysaly: Avstrijci nas povbyvaly, ščo budutʹ robyty ti strašni moskali, jakymy vony nam pohrožujutʹ? 9.43 82.76 Ruština Например, в их текстах, а я в основном исследую тексты, у меня есть такой источник, они писали: Нас убили австрийцы, что будут делать те страшные москвичи, которыми они нам угрожают? Naprimer, v ix tekstax, a ja v osnovnom issleduju teksty, u menja estʹ takoj istočnik, oni pisali: Nas ubili avstrijcy, čto budut delatʹ te strašnye moskviči, kotorymi oni nam ugrožajut? 9.43 86.21 Bieloruština Напрыклад, у сваіх тэкстах, а я ў асноўным тэксты дасьледую, у мяне ёсьць такая крыніца, яны пісалі: Аўстрыйцы нас забілі, што будуць рабіць тыя страшныя маскалі, якімі яны нам пагражаюць? Napryklad, u svaix tèkstax, a ja ŭ asnoŭnym tèksty das′leduju, u mjane ës′c′ takaja krynica, jany pisali: Aŭstryjcy nas zabili, što buduc′ rabic′ tyja strašnyja maskali, jakimi jany nam pahražajuc′? 4.99 96.55 Tabuľka 1. Príklad prekladov z poľštiny do Lemko Diskusia
Dôsledky pre politiku
Výsledky vzdelávania, verejného zdravia a bezpečnosti sa môžu zlepšiť, ak sa vzdelávacie, školiace, komunitné a iné materiály lokalizujú do regionálnych dialektov a jazykov okrem národných štandardných. Aby sa predišlo preťaženiu kapacít ľudských zdrojov, lingvisti by mohli byť poverení post-editovaním výstupu expertných a umelých inteligentných systémov strojového prekladu, namiesto ručného prekladu. Cenovo dostupnejší prístup k preloženým materiálom by mohol priniesť zlepšenie sociálnych služieb v nedostatočne obsluhovaných oblastiach. Stonewall et al. uvádzajú viacjazyčnosť, a tým aj inkluzívnosť, vysoko na svojom zozname osvedčených postupov pre zapojenie nedostatočne obsluhovaných populácií (2017). Európska únia financuje výskum, ktorý naznačuje, že strojový preklad možno použiť na uľahčenie občianskej participácie, ako aj na posilnenie verejného zdravia a bezpečnosti medzi nedostatočne obsluhovanými komunitami (Nurminen & Koponen, 2020).
Technologické dôsledky
Veci sú na dobrej ceste k tomu, aby sa komerčne životaschopný strojový preklad do Lemko stlačením tlačidla stal realitou. Pokračujúci vývoj expertných systémov založených na pravidlách, riadený testami, sa zdá byť najrýchlejšou cestou k nadľudským skóre kvality prekladu. Systémy umelej inteligencie založené na transformeroch môžu zvíťaziť z dlhodobého hľadiska.
Niektoré úpravy postupu tréningu umelej inteligencie si zaslúžia experimentovanie. Skript na filtrovanie korpusu mohol byť pre túto úlohu príliš horlivý a nadmerne zmenšil veľkosť korpusu, čo bránilo výkonu. Skript by mohol byť v budúcom experimente vynechaný. Preučenie môže brániť skóre a možno by sa mal skrátiť interval hodnotenia 5 000 krokov. Použitie expertného systému založeného na pravidlách na preklad korpusov do poľštiny z Lemko namiesto služby Google Cloud Platform by mohlo viesť k lepším výsledkom. Začlenenie modulov automatickej korekcie pravopisu by tiež mohlo globálne zlepšiť skóre.
Ruské a iné cudzie lingvistické zásahy by sa mohli programovo potlačiť prečistením výpožičiek pomocou algoritmov nájdi-nahraď. Národné jazykové akadémie a iné autority by mohli takéto schopnosti považovať za užitočné. Je možné, že kvalita prekladu už dosiahla nadľudské úrovne, čo je hypotéza, ktorú by bolo možné otestovať v budúcich experimentoch.
Vyhlásenie o konfliktných záujmoch
Hlavný autor pôsobí ako špecialista na kontrolu kvality pre projekt Google Translate v San Franciscu.
Referencie
2. Európsky [sic] kongres podkarpatských [sic] Rusínov [rusín]. (2008, 25. október). MEMORANDUM 2-go Evropejskogo Kongressa Podkarpatskix Rusinov o prinjatii AKTA PROVOZGLAŠENIJA vosstanovlenija rusinskoj gosudarstvennosti [Memorandum Druhého európskeho kongresu podkarpatských Rusínov o prijatí vyhlásenia o obnove rusínskej štátnosti] [Online príspevok na fóre]. Informacionnoe Agenstvo Podkarpatskoj Rusi. IAPR. Forum podkarpatskix rusinov.
http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832Austrálsky štatistický úrad, (2012). Kultúra, dedičstvo a voľný čas: Hovorenie aborigénskymi a ostrovnými jazykmi Torres Strait. Blahobyt aborigénskych a ostrovných obyvateľov Torres Strait: Zameranie na deti a mládež. (Pôvodné dielo publikované v roku 2011) Získané 1. mája 2023 z https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
Baquero, A., Hall, K.G., Tsogoeva, A., Albalat, J.G., Grozev, C., Bagnoli, L., IStories, & Vergine, S. (2022, 8. máj). Podnecovanie odtrhnutia, sľubovanie bitcoinov: Ako ruský operátor nabádal katalánskych lídrov k rozchodu s Madridom. Projekt pre organizovaný zločin a korupciu (OCCRP). https://www.occrp.org/en/investigations/fueling-secession-promising-bitcoins-how-a-russian-operator-urged-catalonian-leaders-to-break-with-madrid
Brunet, F. (2022). Ekonomika katalánskeho separatizmu. Cham: Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-14451-6
Chen, X., Unger, J.B., Cruz, T.B., & Johnson, C.A. (1999). Fajčiarske návyky ázijsko-americkej mládeže v Kalifornii a ich vzťah k akulturácii. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9
Cho, K., van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Učenie reprezentácií fráz pomocou RNN Encoder–Decoder pre štatistický strojový preklad. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179
Danylenko, A. (2020). „Carpatho-Rusyn“, in: Encyclopedia of Slavic Languages and Linguistics Online, hlavný redaktor Marc L. Greenberg. Konzultované online 13. júna 2023
http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960Ministerstvo zahraničných vecí (2003). S.Prt. 108-30, Zväzok I – SPRÁVY O PRAXI V OBLASTI ĽUDSKÝCH PRÁV ZA ROK 2002 ZVÄZOK I. Washington, D.C: U.S. Government Publishing Office. https://www.govinfo.gov/app/details/CPRT-108JPRT86917/CPRT-108JPRT86917
Duda, I. (2011). Lemkivsʹkyj slovnyk [Lemkovský slovník]. Ternopil: Aston.
Epstein, J. A., Botvin, G.J., & Diaz, T. (1998). Lingvistická akulturácia a rodové vplyvy na fajčenie u hispánskej mládeže. Preventívna medicína, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329
Fontański, H., & Chomiak, M. (2000). Gramatyka języka łemkowskiego [Gramatika lemkovského jazyka]. Katowice: „Śląsk” Sp. z o.o. Wydawnictwo Naukowe.
Główny Urząd Statystyczny (2023). Wstępne wyniki NSP 2021 w zakresie struktury narodowo-etnicznej oraz języka kontaktów domowych [Predbežné výsledky sčítania ľudu 2021 v oblasti národnostnej a etnickej štruktúry a jazyka používaného v domácnosti]. Získané 11. júna 2023 z https://stat.gov.pl/spisy-powszechne/nsp-2021/nsp-2021-wyniki-wstepne/wstepne-wyniki-narodowego-spisu-powszechnego-ludnosci-i-mieszkan-2021-w-zakresie-struktury-narodowo-etnicznej-oraz-jezyka-kontaktow-domowych,10,1.html
Górzyński, O. (2018, 3. marec). Tajná kampaň Ruska na podnecovanie východnej Európy. The Daily Beast. https://www.thedailybeast.com/russias-covert-campaign-inflaming-east-europe
Hajič, J., Hric, J., & Kuboň, V. (2000, apríl). Strojový preklad veľmi blízkych jazykov. In Sixth Applied Natural Language Processing Conference (s. 7–12). http://dx.doi.org/10.3115/974147.974149
Hallett, D., Chandler, M.J., & Lalonde C.E. (2007): Znalosť pôvodných jazykov a samovraždy mládeže. Kognitívny vývoj. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001
Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemkovsko-poľský a poľsko-lemkovský slovník], Varšava: Rutenika.
Klein, G. (2021). Odvodzovanie s TensorFlow Serving. Získané 5. júna 2023, z https://github.com/OpenNMT/OpenNMT-tf/blob/master/examples/serving/tensorflow_serving/ende_client.py
Klein, G., Kim, Y., Deng, Y., Senellart, J., & Rush, A.M. (2017). OpenNMT: Otvorený nástroj pre neurónový strojový preklad. In Zborník príspevkov z 55. výročného stretnutia Asociácie pre počítačovú lingvistiku – Systémové demonštrácie, str. 67–72. https://doi.org/10.18653/v1/P17-4012
Krauss, M. (1992). Svetové jazyky v kríze. Jazyk, 68(1), 4–11. https://doi.org/10.1353/lan.1992.0075
Malik-Moraleda, S., Jouravlev, O., Mineroff, Z., Cucu, T., Taliaferro, M., Mahowald, K., Blank, I., & Fedorenko, E. Funkčná charakterizácia jazykovej siete polyglotov a hyperpolyglotov pomocou presného fMRI. Laboratórium Cold Spring Harbor. Predbežná online publikácia. https://doi.org/10.1101/2023.01.19.524657
Mesa, N. (2023, 3. februára). Váš rodný jazyk má vo vašom mozgu špeciálne miesto, aj keď hovoríte 10 jazykmi. Science, https://doi.org/10.1126/science.adh0055
Miller, H., & Miller, K. (1996). Jazyková politika a identita: prípad Katalánska. Medzinárodné štúdie v sociológii vzdelávania, 6(1). https://doi.org/10.1080/0962021960060106
Moser, M. (2016a). Jazyková politika v súčasnej Ukrajine (25. februára 2010 – 25. februára 2011). In Nové príspevky k histórii ukrajinského jazyka (str. 601–619). Canadian Institute of Ukrainian Studies Press. https://www.ciuspress.com/product/new-contributions-to-the-history-of-the-ukrainian-language/
Moser, M. (2016b). Rusínčina: Nový–starý jazyk medzi národmi a štátmi. In: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (Eds.), Palgrave Handbook slovanských jazykov, identít a hraníc, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7
Moslem, Y. (2021a). Trénovanie modelov SentencePiece pre zdroj a cieľ. Získané 4. júna 2023, z https://github.com/ymoslem/MT-Preparation/blob/main/subwording/1-train_unigram.py
Moslem, Y. (2021b). Rozdelenie zdrojových a cieľových súborov na podslová. Získané 4. júna 2023, z https://github.com/ymoslem/MT-Preparation/blob/main/subwording/2-subword.py
Moslem, Y. (2023a). Filtrovanie/čistenie paralelných dátových súborov pre strojový preklad. Získané 4. júna 2023, z https://github.com/ymoslem/MT-Preparation/blob/main/filtering/filter.py
Moslem, Y. (2023b). Rozdelenie paralelného dátového súboru na trénovacie, vývojové a testovacie dátové súbory pre strojový preklad. Získané 4. júna 2023, z
https://github.com/ymoslem/MT-Preparation/blob/main/train_dev_split/train_dev_test_split.pyNurminen, M., & Koponen, M. (2020). Strojový preklad a spravodlivý prístup k informáciám. Prekladateľské priestory, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur
Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): Špirála znevýhodnenia: Etnolingvistická diskriminácia, akulturačný stres a zdravie v domorodých komunitách Nahua v Mexiku. Americký časopis biologickej antropológie, 1–15. https://doi.org/10.1002/ajpa.24745
Orynycz, P. (2022, máj). Say It Right: Neurónový strojový preklad s umelou inteligenciou posilňuje nových hovoriacich pri revitalizácii Lemko. In Umelá inteligencia v HCI: 3. medzinárodná konferencia, AI-HCI 2022, konaná ako súčasť 24. medzinárodnej konferencie HCI, HCII 2022, virtuálne podujatie, 26. júna – 1. júla 2022, Zborník (str. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37
Orynycz, P. (2023, júl). BLEU Skies pre revitalizáciu ohrozených jazykov: Presnosť neurónového AI prekladu Lemko Rusyn and Ukrainian stúpa. In Medzinárodná konferencia o interakcii človeka s počítačom (str. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Áno, hovorím… Neurónový strojový preklad s umelou inteligenciou vo viacjazyčnom tréningu. In Zborník príspevkov z konferencie Interservice/Industry Training, Simulation, and Education (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Kultúrna kontinuita, tradičný domorodý jazyk a diabetes u Prvých národov v Alberte: štúdia zmiešaných metód. Medzinárodný časopis pre rovnosť v zdraví, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4
Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, júl). BLEU: metóda pre automatické hodnotenie strojového prekladu. In Zborník príspevkov zo 40. výročného stretnutia Asociácie pre počítačovú lingvistiku (str. 311–318). https://doi.org/10.3115/1073083.1073135
Pezzia, C., & Hernandez, L.M. (2022). Samovražedné myšlienky v etnicky zmiešanej, vysokohorskej guatemalskej komunite. Transkultúrna psychiatria. 59(1), 93–105. https://doi.org/10.1177/1363461520976930
Post, M. (2018). Výzva na jasnosť pri vykazovaní skóre BLEU. In Zborník príspevkov z Tretej konferencie o strojovom preklade: Výskumné práce, str. 186–191. Brusel: Asociácia pre počítačovú lingvistiku http://dx.doi.org/10.18653/v1/W18-6319
Putin, V. Ob istoričeskom edinstve russkix i ukraincev [O historickej jednote Rusov a Ukrajincov]. Získané 15. mája 2023 z http://kremlin.ru/events/president/news/66181
Pyrtej, P. (2004). Korotkyj slovnyk lemkivsʹkyx hovirok [Stručný slovník lemkovských nárečí]. Ivano-Frankivsk: Siversija MB.
Pyrtej, P. (2013). Lemkivsʹki hovirky. Fonetyka i morfolohija [Lemkovské nárečia. Fonetika a morfológia]. Gorlice: Zjednoczenie Łemków.
Rating, (2012). Pytannja movy: rezulʹtaty ostannix doslidženʹ 2012 roku [Jazyková otázka: Výsledky najnovšieho výskumu v roku 2012]. Získané 26. augusta 2023 z https://ratinggroup.ua/files/ratinggroup/reg_files/rg_mova_dynamika_052012.pdf
Rieger, J. (1995). Słownictwo i nazewnictwo łemkowskie [Lemkovská slovná zásoba a nomenklatúra]. Varšava: Wydawnictwo Naukowe Semper.
Rieger, J. (2016). Mały słownik łemkowkiej wsi Bartne [Malý slovník lemkovskej dediny Bartne]. Varšava: Wydawnictwo Uniwersytetu Warszawskiego.
Rosario-Sim, M.G., & O’Connell K.A. (2009). Depresia a jazyková akulturácia korelujú s fajčením medzi staršími ázijsko-americkými adolescentmi v New Yorku. Ošetrovateľstvo vo verejnom zdravotníctve 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x
Schwirtz, M., & Bautista, J. (2023, 23. septembra) Zosobášení špióni Kremľa, tieňová misia do Moskvy a nepokoje v Katalánsku. The New York Times. Získané 16. mája 2023 z https://www.nytimes.com/2021/09/03/world/europe/spain-catalonia-russia.html
Simmons, G.F., & Lewis, M.P. (2013). Svetové jazyky v kríze: 20-ročná aktualizácia. In E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (Eds.), Odpovede na ohrozenie jazykov: Na počesť Mickeyho Noonana. Nové smery v dokumentácii a revitalizácii jazykov (str. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim
Slavich, G.M., & Irwin, M.R. (2014). Od stresu k zápalu a závažnej depresívnej poruche: teória sociálnej signalizačnej transdukcie depresie. Psychologický bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Štúdia miery úprav prekladu s cielenou ľudskou anotáciou. In Zborník príspevkov zo 7. konferencie Asociácie pre strojový preklad v Amerike: Technické práce, (str. 223–231). https://aclanthology.org/2006.amta-papers.25
Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). Vplyv vyučovacieho jazyka v školách na študijné výsledky: Dôkazy z Malajzie s použitím metódy syntetickej kontroly. Pracovný dokument o politickom výskume skupiny Svetovej banky 9517. http://hdl.handle.net/10986/35031
Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, september). Osvedčené postupy pre zapojenie nedostatočne obsluhovaných populácií. In Zborník príspevkov z výročného stretnutia Spoločnosti pre ľudské faktory a ergonómiu (vol. 61, No. 1, str. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516
Sutskever, I., Vinyals, O., & Le, Q.V. (2014). Učenie sekvencie na sekvenciu s neurónovými sieťami. Pokroky v systémoch spracovania neurónových informácií 27 (NIPS 2014). https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html
Ukrajinsʹke nacionalʹne objednannja (2009). Zakarpatsʹke UNO obicjaje vlasnymy sylamy protydijaty separatystam [Zakarpatská ukrajinská národná organizácia sľubuje, že 1. mája vlastnými silami zasiahne proti separatistom] Získané 10. júna 2023, z https://zaxid.net/zakarpatske_uno_obitsyaye_vlasnimi_silami_protidiyati_separatistam_1_travnya_n1076607
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). Pozornosť je všetko, čo potrebujete. NIPS’17: Zborník príspevkov z 31. medzinárodnej konferencie o systémoch spracovania neurónových informácií, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349
White, D.J., & Overdeer, D. (2020). Využívanie etnickej príslušnosti v ruských hybridných hrozbách. Strategos: Vedecký časopis Chorvátskej obrannej akadémie 4(1), 31–49. https://hrcak.srce.hr/242087
Wiktorek, A.C. (2010). Rusíni Karpát: Konkurenčné agendy identity. Washington, D.C.: Georgetown University. https://repository.library.georgetown.edu/handle/10822/552816
Willner, P. (2017). Model chronického mierneho stresu (CMS) depresie: História, hodnotenie a použitie. Neurobiológia stresu, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002
-

Nový experiment: Umelo vytvorené Lemko?
Tento mesiac budem vykonávať experiment, aby som zistil, či je možné stroje naučiť prekladať do Lemko lepšie ako Google Translate alebo ľudia.
Hypotéza
Stroj je možné nakonfigurovať na preklad z angličtiny do ohrozeného slovanského jazyka Lemko a dosiahnuť vyššie skóre kvality ako ukrajinská služba Google Translate, ale zatiaľ nie vyššie ako skóre ľudí.
Predpovede
- Môj systém strojového prekladu založený na pravidlách (RBMT) z angličtiny do Lemko dosiahne bilingválne hodnotenie pod štúdiom (BLEU) skóre 15 proti čistému bilingválnemu korpusu.
- Vyššie uvedený systém dosiahne skóre BLEU, ktoré je o tretinu vyššie (napr. 20), v spojení s improvizovaným systémom strojového prekladu založeným na slovníku (DBMT) vytvoreným z párov tvrdení jednotkových testov Lemko-poľština.
- Prekladateľská služba Google Translate z angličtiny do ukrajinčiny dosiahne skóre BLEU 10 proti vyššie uvedenému korpusu.
- Ja, človek, dosiahnem vyššie skóre BLEU ako všetky vyššie uvedené stroje proti vyššie uvedenému korpusu.
Experimenty sa uskutočnia v priebehu približne jedného týždňa, pre následné zverejnenie.
-
Áno, hovorím… Neuronový strojový preklad AI vo viacjazyčnom školení (2021)
Please cite as:
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
✅ Táto verzia príspevku bola prijatá na publikovanie po recenznom konaní, ale nie je to finálna publikovaná verzia (Version of Record) a neodráža vylepšenia po prijatí ani žiadne opravy. Finálna publikovaná verzia je dostupná online na tomto odkaze. Použitie tejto prijatej verzie podlieha podmienkam používania akceptovaného rukopisu vydavateľa.
Abstrakt
Rýchlo zdieľateľné a spoločne použiteľné školenia medzi koaličnými partnermi sa musia jazykovo a kultúrne prispôsobiť (t. j. lokalizovať) jazykom neanglofónnych spojencov, ktorí predstavujú aktérov v prvej línii s obmedzenou alebo potenciálne žiadnou znalosťou angličtiny. Tradične bola lokalizácia časovo a pracovne náročný proces, pričom expert potreboval viac ako dva mesiace na preklad stredne veľkej knihy. Medzitým musia cvičenia reagovať na celkové časové rámce vývoja v dňoch a týždňoch, nie v mesiacoch a rokoch, aby reagovali na meniace sa reality operačného sveta. V tomto kontexte sa tradičná lokalizácia stáva hlavnou prekážkou pre úsilie koalície. V rýchlo sa vyvíjajúcich situáciách spojenci jednoducho nemôžu čakať mesiace a roky na školenia potrebné dnes večer alebo na riešenie misie budúceho týždňa v jazykoch ľahko zrozumiteľných v prvej línii – to znamená, aby sa splnil dlho očakávaný sen o lokálne prispôsobenom školení na riešenie potrieb priamo v teréne.
Vstupuje do hry vznikajúca technológia umelej inteligencie, neuronový strojový preklad, ktorá dokáže za pár minút to, čo skúseným ľudským lingvistom trvá hodinu, čím sa stáva uskutočniteľné celokoaličné, viacjazyčné nasadenie v priebehu dní a týždňov, pričom sa zohľadňuje neustále sa zlepšujúca komplexnosť. To je možné vďaka strojovému učeniu, teda trénovaniu umelých rekurentných neurónových sietí na preklad z jedného prirodzeného jazyka do druhého.
Vyvinuli sme motory založené na umelej inteligencii, merali sme čas ich prekladu školiacich materiálov Organizácie Severoatlantickej zmluvy (NATO) a ich presnosť sme merali pomocou metriky BLEU (bilingual understudy evaluation). Náš motor prekladal z ruštiny o 1 169,51 % rýchlejšie a o 58,37 % presnejšie ako náš profesionálny ľudský lingvista použitý ako kontrola. Náš poľský neurónový motor bol o 17,29 % presnejší a o 488,45 % rýchlejší ako ľudský. Naše prekladové motory Lemko sú prvé na svete a dosiahli slušné skóre BLEU 14,57. Medzitým sme vyššie uvedené vykonali na lacnom prenosnom počítači v prostredí s oddelenou sieťou a riadeným prístupom, odrezanom od vonkajšieho sveta.
Obsah
Úvod
Problém
Online prekladateľské služby fungujú, kým človek nepotrebuje prekladať tajne alebo z jazyka, ktorý nepatrí medzi top 2 % z hľadiska zdrojov. Používanie aj tých najbezpečnejších online alebo cloudových prekladateľských služieb znamená zdieľanie informácií s treťou stranou, čo porušuje väčšinu komerčných dohôd o mlčanlivosti, nehovoriac o požiadavkách obranného priemyslu. Ďalej, popredná online prekladateľská platforma funguje len pre 109 jazykov (Google, 2021), čo je menej ako 2 % zo 7 139 jazykov, ktorými sa dnes hovorí vo svete (Eberhard, Simons, & Fennig, 2021). Tvárou v tvár inherentnému riziku tretích strán u poskytovateľov cloudových služieb sa mnohí obracajú na preverených ľudských lingvistov, ktorí dokážu v najlepšom prípade preložiť jednu knihu mesačne a v najhoršom prípade predstavujú celoživotné hrozby neoprávneného zverejnenia. Aby sme poskytli viac možností viacjazyčným podnikom a organizáciám, rozhodli sme sa vyriešiť problém využitia umelej inteligencie na rýchly, presný a tajný preklad materiálov z jazykov s vysokými, strednými a nízkymi zdrojmi na lacných, stredne výkonných prenosných počítačoch s oddelenou sieťou, odpojených od internetu a vonkajšieho sveta.
Doterajšie riešenia
Zatiaľ čo základy strojového prekladu boli položené v Bagdade al-Kindīho pred viac ako tisícročím (DuPont, 2018; pozri tiež al-Kindī, 2002), takmer všetok veľkolepý, viditeľný pokrok sa udial v Silicon Valley za posledných päť rokov. Hlavný prelom nastal v spoločnosti Google (Lewis-Kraus, 2016) a Facebook sa teraz pripojil ku klubu neurónového strojového prekladu (Ott a kol., 2019). Vychádzali sme z práce ich motora FAIRseq, pre ktorý Sławomir Dadas sprístupnil vynikajúci poľsko-anglický model (Dadas, 2019). Nadviazali sme na prácu pána Dadasa, aby sme vytvorili hybridné neurónové/pravidlové/slovníkové motory, ktoré prekladajú z Lemko do angličtiny a naopak. Myšlienka aplikácie prenosového učenia pre spracovanie rusínskeho prirodzeného jazyka (NLP) bola prediskutovaná s našimi váženými kolegami Yvesom Scherrerom a Achimom Rabusom, ktorí ako prví publikovali výsledky v recenzovanom časopise a láskavo využili príležitosť spomenúť hybridný neurónový/pravidlový Lemko strojový prekladový motor Petra Orynycziho (Scherrer & Rabus, Neuronové morfosyntaktické značkovanie pre rusínčinu, 2019, s. 634), ktorý je v prevádzke a voľne dostupný na verejné použitie na webovej adrese www.lemkotran.com od marca 2019, pričom jeho modul na spracovanie prirodzeného jazyka s transliteráciou bol tam sprístupnený na verejné použitie v septembri 2017.
Širší systém
Jazyky s vysokými, strednými a nízkymi zdrojmi
Jazykové páry sú v odbornej literatúre klasifikované ako s vysokými zdrojmi, so strednými zdrojmi a s nízkymi zdrojmi, v závislosti od množstva dostupných technológií a dátových súborov vzhľadom na ich medzinárodný význam (Cieri, Maxwell, Strassel, & Tracey, 2016, s. 4545). Páry s vysokými zdrojmi zahŕňajú češtinu-angličtinu (Kocmi, 2020, s. 171), ruštinu-angličtinu, nemčinu-angličtinu (Ng a kol., 2019, s. 314) a čínštinu-angličtinu (Kocmi & Bojar, 2019, s. 234–235). Poľština-angličtina je pár so strednými zdrojmi (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, s. 2). Páry s nízkymi zdrojmi zahŕňajú gudžarátčinu-angličtinu, kazaštinu-angličtinu (Kocmi & Bojar, s. 234), inuktitut-angličtinu (Kocmi, s. 171) a Lemko-angličtinu (Scherrer & Rabus, 2019, s. 85). Keďže trénovanie jazykových modelov umelej inteligencie vyžaduje obrovské množstvo bilingválnych dát, jazyky s vyššími zdrojmi sa vo všeobecnosti tešia dostupnosti neurónových strojových prekladových motorov. Medzitým, kvôli nedostatku tréningových dát pre strojové učenie, sú neurónové motory zriedkavejšie pre jazyky s nižšími zdrojmi, ktoré sú často lepšie obsluhované predchádzajúcou generáciou motorov štatistického strojového prekladu (SMT).
Jazyk s vysokými zdrojmi v experimente: ruština
Ruštinou hovorí ako prvým jazykom viac ako 168 miliónov ľudí a ako ďalším jazykom ďalších 114 miliónov (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, s. 2). Automatizácia jej prekladu do angličtiny bola svätým grálom povojnového úsilia v oblasti strojového prekladu. Ako jeden z úradných jazykov Organizácie Spojených národov je k dispozícii obrovské množstvo bilingválneho rusko-anglického textu pod liberálnou licenciou (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, s. 3530).
Jazyk so strednými zdrojmi v experimente: poľština
Poľština je západoslovanský jazyk, ktorým hovorí približne 38 miliónov ľudí v dnešnom Poľsku, pričom sa očakáva pokles tohto počtu čiastočne v dôsledku pandémie prebiehajúcej v čase publikácie (Associated Press, 2021). Ďalších 10 miliónov hovorí poľsky do určitej miery aj za hranicami krajiny (Jassem, 2003, s. 103). Ako jeden z úradných jazykov Európskej únie je k dispozícii veľké množstvo bilingválneho textu na trénovanie prekladových modelov umelej inteligencie, vrátane 22 630 dokumentov Európskeho parlamentu (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, s. 3165).
Jazyk s nízkymi zdrojmi v experimente: Lemko
Lemko je jazyk s nízkymi zdrojmi (Scherrer & Rabus, 2019, s. 85), ktorý spĺňa tradičné kritériá pre klasifikáciu ako východoslovanský. Napríklad Lemko vykazuje východoslovanskú pleofóniu, to znamená, že výsledkom praslovanských sekvencií „ToRT“ je ToRoT (Fortson IV, 2004, s. 371-372), ako v Lemko horodyty ‘oplotiť, ohradiť’ (Horoszczak, 2004, s. 45), ako aj v štandardnej ukrajinčine horodyty, rusínčine horodyty a ruštine gorodit’ (Kerča, 2007, s. 176). Medzitým porovnajte poľštinu (západoslovanský jazyk) s -ro- v grodzić, ale chorvátčinu (juhoslovanský jazyk) s -ra- v graditi, ‘stavať’. Ďalej, angličtina má -ar- v yard a garden, avestčina (staroiránsky jazyk) s -ǝrǝ- v gǝrǝδō ‘jaskyňa’, a sanskrit (staroindický jazyk) s -ṛ- v gṛhás ‘domov’ (Vasmer, s. 1443).
Zatiaľ čo presná klasifikácia Lemko a jeho status vo vzťahu k štandardnej ukrajinčine a kodifikovanej rusínčine je predmetom kontroverzie (Rabus & Scherrer, 2017), náš Lemko-anglický motor, ktorý dosiahol tak vysoké skóre bez použitia zdrojov štandardnej ukrajinčiny alebo rusínčiny kodifikovanej na Slovensku, by mohol podporiť záver Watrala (2015), že Lemko je plnohodnotný jazyk sám o sebe, a nie dialekt iného jazyka. Povzbudení rastúcimi objektívnymi hodnotami kvality sme sa rozhodli uprednostniť poľské prenosové učenie kvôli jeho okamžitej návratnosti investícií z hľadiska presnosti prekladu Lemko, čo je naša najvyššia hodnota. Je možné, že hodnoty kvality boli zvýšené interferenciou z pozorovanej hybridnej reči, kde sú gramatické koncovky Lemko spätne prispôsobené štandardným poľským slovám (Watral, 2016, s. 242).
Poľský štatistický úrad zaznamenal v roku 2011 6 279 osôb hovoriacich Lemko doma, čo je nárast z 5 605 v roku 2002 (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, s. 7), pričom v čase publikácie prebiehalo nové sčítanie. Koľko z 24 539 obyvateľov Poľska, ktorí boli v roku 2011 zaznamenaní ako hovoriaci ukrajinsky doma alebo 626 hovoriacich „rusínsky“ (język ruski) s inými členmi domácnosti (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, s. 7), by mohlo byť hovoriacich Lemko, presahuje rozsah tohto článku. Štátna štatistická služba Ukrajiny zaznamenala 672 Lemkov v rámci svojich hraníc (Deržavna služba statystyky Ukraïny, 2001). Na stupnici ohrozenia jazykov OSN od 0 do 5, kde 0 znamená vyhynutý a 5 „bezpečný“ (Ad Hoc expertná skupina UNESCO pre ohrozené jazyky, 2003, s. 7-8), by sa Lemko blížilo k 2, to znamená, vážne ohrozený: prirodzený medzigeneračný prenos jazyka čoraz viac chýba a mladší hovoriaci sú čoraz neexistujúci (Duć-Fajfer, 2016, s. 178). Existujú však aj pozitívne signály, keďže zákony, ktoré chránia a podporujú používanie menšinových jazykov vo vzdelávaní, vysielaní, vydavateľstve, cestnom značení a vede, sa čoraz viac využívajú (Duć-Fajfer, 2016, s. 178-179).
Situácia so zdrojmi sa tiež zlepšuje. Petro Orynycz zostavil a zarovnal bilingválny Lemko-anglický korpus, ktorý obsahuje 68 599 zdrojových slov spolu s jeho prekladmi do angličtiny (jediný existujúci paralelný text, o ktorom vieme). Korpus bol zostavený pomocou rozhovorov vedených v Lemko nadáciou Johna a Helen Timo zo Spojených štátov, ktorá poverila pána Orynycziho, aby ich prepísal a preložil, a tiež mu povolila použiť túto prácu vo svojom vedeckom výskume a vývoji. Zhromažďuje tiež monolingválny Lemko korpus s viac ako miliónom slov. Zatiaľ čo komplexné sociolingvistické vzťahy medzi Lemko, rusínskymi, štandardnými ukrajinskými a slovenskými jazykovými komunitami presahujú rozsah tohto článku, práve poľské zdroje (konkrétne poľské neurónové modely) boli kľúčové pre hybridné Lemko motory pána Orynycziho.
Hypotézy a predpovede
Rýchlosť prekladu
Hypotéza: strojový preklad s umelou inteligenciou s oddelenou sieťou je teraz rovnako rýchly ako ľudia
Predpokladali sme, že motory neurónového strojového prekladu bežiace offline na stredne výkonných prenosných počítačoch sú teraz porovnateľné rýchlosťou s ľudskými prekladateľmi. To bolo založené na pozorovaniach počas vývoja motora, že neurónový strojový preklad trval od niekoľkých sekúnd do menej ako minúty na preklad vety na stredne výkonnom prenosnom počítači, čo je porovnateľné s ľudskými rýchlosťami, ktoré pozoroval Petro Orynycz vo svojej skúsenosti v lokalizačnom priemysle.
Predpoveď: motory strojového prekladu spracujú viac slov za hodinu ako ľudskí prekladatelia
Na základe našej hypotézy, že motory neurónového strojového prekladu s oddelenou sieťou bežiace offline na stredne výkonných prenosných počítačoch budú rovnako rýchle ako ľudia, sme predpovedali, že ich rýchlosť prekoná rýchlosť ľudských lingvistov a že preložia viac slov za sekundu ako náš ľudský kontrolný subjekt.
Presnosť prekladu
Hypotéza: motory strojového prekladu s umelou inteligenciou sú teraz takmer rovnako presné ako ľudskí prekladatelia
To bolo založené na profesionálnom pozorovaní Petra Orynycziho ako špecialistu na kontrolu kvality prekladu, že komerčné cloudové služby neurónového strojového prekladu sa nielen dramaticky zlepšili, ale produkovali výsledky často nerozoznateľné od výsledkov ľudských lingvistov.
Predpoveď: motory strojového prekladu s umelou inteligenciou dosiahnu aspoň 75 % skóre kvality BLEU profesionálnych ľudských prekladateľov
Zatiaľ čo sme vedeli, že motory neurónového strojového prekladu môžu byť lepšie ako bilingválni amatéri, ktorí sa prvýkrát pokúšajú prekladať, neverili sme, že naše motory prekonajú skúsených, profesionálnych lingvistov v priamej súťaži. Našťastie, naše pochybnosti mohli byť podrobené skúške. Algoritmus BLEU (bilingual evaluation understudy) je najdominantnejšou metrikou pre výskum strojového prekladu, pričom je jazykovo nezávislý, lacný a ľahko vypočítateľný, ako aj primerane korelovaný s ľudskými úsudkami (Post, 2018). Predpovedali sme, že naše neurónové motory dosiahnu 75 % kvalitatívnych bodov, ktoré získal ľudský lingvista. Napríklad, ak ľudský lingvista získal 40 bodov, neurónový strojový preklad by získal 30 bodov. Medzitým sme predpovedali, že náš hybridný Lemko-anglický motor dosiahne kumulatívne skóre BLEU 15.
Bezpečnosť prekladu
Hypotéza: strojový preklad s umelou inteligenciou možno vykonávať offline na prenosných počítačoch vo vysoko bezpečných terénnych podmienkach
Predpokladali sme, že neurónový strojový preklad možno vykonávať offline na prenosnom zariadení s oddelenou sieťou, úplne odrezanom od vonkajšieho sveta. To bolo založené na pozorovaní, že všetky komponenty nášho riešenia nevykonávali žiadne volania na internet po nainštalovaní závislostí. Implicitným predpokladom je, že prekladové systémy s oddelenou sieťou s povoleným režimom Lietadlo nemožno vzdialene monitorovať ani hacknúť. Ďalším predpokladom je, že operátori boli nielen riadne preverení, ale aj prijali vhodné opatrenia proti externým a interným hrozbám. Ďalším implicitným predpokladom je, že je jednoduchšie chrániť len jednu mobilnú pracovnú stanicu po dobu niekoľkých hodín, než zabrániť ľudským lingvistom, ktorí zarábajú v priemere 25,01 USD za hodinu (Bureau of Labor Statistics, United States Department of Labor, 2021), v neoprávnenom zverejňovaní informácií počas celého života, najmä vzhľadom na správy o zatknutí lingvistov pre podozrenie z úniku tajomstiev (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Predpoveď: strojový preklad s umelou inteligenciou bude úspešný na prenosnom počítači Lenovo Legion Y730-17ICH s oddelenou sieťou, bežiacom offline v režime Lietadlo
Predpovedali sme, že náš prekladový systém nebude zlyhávať a dokončí svoje úlohy, keď bude fyzicky oddelený a odpojený od všetkých sietí alebo zariadení aktiváciou funkcie Režim Lietadlo systému Windows 10 Pro na prenosnom počítači Lenovo Legion Y730-17ICH (Typ 81HG).
Hybridný motor Lemko-anglický založený na pravidlách/slovníku a neurónovej sieti
Hypotéza: hybridné motory založené na slovníku/pravidlách zlepšujú presnosť strojového prekladu
Predpokladali sme, že náš poľsko-Lemko motor strojového prekladu založený na pravidlách (RBMT), poľsko-Lemko motor strojového prekladu založený na slovníku (DBMT), Lemko-poľský motor DBMT spustený reverzne a neurónový poľsko-anglický motor by mohli byť synergicky spojené do hybridného motora, ktorý dosahuje vyššie hodnoty kvality s každou ďalšou časťou. Táto hypotéza bola založená na pozorovaniach autora, ktorý pracoval ako profesionálny Lemko-anglický prekladateľ, že zhody medzi Lemko a poľštinou boli dostatočne časté na to, aby hybridný motor bol životaschopným návrhom.
Predikcia: každý podmotor pridaný do nášho hybridného Lemko-anglického motora zvýši BLEU o 5 bodov
Predpokladali sme, že pre každý Lemko-poľský podmotor založený na pravidlách alebo slovníku, ktorý sme pridali do nášho hybridného Lemko-anglického motora, sa celkové skóre presnosti BLEU zvýši o 5 bodov.
Úvod do metód a zdôvodnenie
Postavili sme človeka proti stroju tým, že sme obom dali stredne výkonný, vzduchom oddelený laptop s naším vlastným programom počítačom podporovaného prekladu (podrobne opísaným nižšie), zatiaľ čo boli offline v režime Lietadlo systému Windows. Zaznamenali sme rýchlosť a presnosť prekladu z ruštiny do angličtiny (jazykový pár s vysokými zdrojmi), z poľštiny do angličtiny (pár so strednými zdrojmi) a z Lemko do angličtiny (pár s nízkymi zdrojmi). Na vyjadrenie rýchlosti sme použili metriku slov za hodinu, pretože je to hlavná metrika pre manažérov lokalizačných projektov, ako aj používaná vo vedeckej literatúre (Macken, Prou, & Tezcan, 2020, s. 4). Na meranie presnosti sme použili metriku BLEU, pretože je najrozšírenejšia v oblasti výskumu a vývoja (Post, 2018).
Hlavné výsledky v skratke
Nielenže sme dokázali aplikovať prelomovú technológiu neurónového strojového prekladu na použitie umelej inteligencie na vzduchom oddelenom, offline laptope v režime Lietadlo na preklad jazyka s vysokými zdrojmi (ruština) viac ako 10-krát rýchlejšie ako náš ľudský lingvista, ale kvalita nášho stroja bola o viac ako 58 percent „lepšia ako ľudská“. Okrem toho sme prvý tím na svete, ktorý publikoval výsledky pre Lemko prekladové motory v vedeckom časopise.
Materiály a metódy
Úvod
Na otestovanie našich predpovedí sme zostrojili niekoľko motorov umelej inteligencie a hybridných prekladových motorov, vypočítali ich rýchlosť a presnosť na vzduchom oddelenom laptope v režime Lietadlo systému Windows a to isté sme urobili s profesionálnym lingvistom, aby sme náš experiment kontrolovali.
Nastavenie laboratória
Hardvér
Použili sme laptop Lenovo Legion Y730-17ICH (typ 81HG) s operačným systémom Windows 10 Pro (64-bit). Model bol ukončený a v čase publikácie sa predáva za približne 850 USD, z druhej ruky.
Operačný systém
Virtualizovaný operačný systém použitý pre experiment bol Linux Subsystem pre Windows, a presnejšie, Ubuntu 18.04 LTS nainštalovaný prostredníctvom platformy digitálnej distribúcie Microsoft Store.
Závislosti
Python 3.8 bol nainštalovaný pomocou príkazu
sudo apt install python3.8.Príkaz sudo
python3.8 -m pip install –upgradebol použitý na inštaláciu hlavných závislostí, vrátanebleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision.Sady nástrojov
Nainštalovali sme Facebook AI Research Sequence-to-Sequence Toolkit spustením nasledujúcich príkazov:
sudo git clone https://github.com/pytorch/fairseq
cd fairseq
sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./Dokumentácia a technická podpora sú k dispozícii na
https://github.com/pytorch/fairseqModely neurónového strojového prekladu
Pre naše neurónové poľsko-anglické a hybridné Lemko-anglické motory sme použili konvolučný model Sławomira Dadasa pre poľsko-anglický jazyk, dostupný a zdokumentovaný v jeho úložisku Polish Natural Language Processing (NLP) Resources (Dadas, 2019).
Dokumentácia:
https://github.com/sdadas/polish-nlp-resources#machine-translation-modelsPre náš rusko-anglický motor sme využili predtrénovaný model transformátora Facebook AI Research Sequence-to-Sequence (FAIRseq) z ruštiny do angličtiny bez jemného doladenia, ktorý bol predložený na Štvrtú konferenciu o strojovom preklade (WMT19) v roku 2019.
Model:
https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
Dokumentácia:https://github.com/pytorch/fairseq/tree/master/examples/wmt19Elektronické slovníky
Náš profesionálny lingvista mal povolený offline prístup k elektronickým verziám Nového poľsko-anglického slovníka Kościuszko Foundation (12,99 USD), ako aj k Oxfordskému rusko-anglickému slovníku (19,99 USD). Oba boli zakúpené prostredníctvom Microsoft Store. Jaroslava Horoszczaka Lemko-poľský a poľsko-Lemko slovník (2004) bol tiež k dispozícii nášmu lingvistovi na offline použitie.
Kontrola experimentu
Experiment bol kontrolovaný tak, že profesionálny ľudský lingvista sedel pri vzduchom oddelenom laptope v režime Lietadlo, pričom na stroji boli k dispozícii spomínané elektronické slovníky. Lingvista stlačil kláves Enter, vtedy sa spustil časovač a zobrazila sa zdrojová veta na preklad. Lingvista mal povolené písať svoj preklad v programe Microsoft Word (aby využil jeho funkciu kontroly pravopisu a iné pomôcky na spracovanie textu) a potom ho vložiť do nášho vlastného programu počítačom podporovaného prekladu. Po opätovnom stlačení klávesu Enter bol ľudský preklad odoslaný a časovač sa zastavil. Rýchlosť ľudského lingvistu v slovách za hodinu a presnosť v skóre BLEU boli vypočítané pre každú preloženú vetu.
Petro Orynycz, ktorý má dve desaťročia skúseností ako rusko-poľský lingvista, poľský univerzitný titul z ruštiny a viac ako 5 rokov skúseností ako profesionálny Lemko-anglický prekladateľ, slúžil ako kontrolný subjekt. Vykonával spätné preklady ruských a poľských materiálov uvedených nižšie, ako aj anglické preklady z Lemko.
Experimentálny materiál: referenčné preklady
Rusko-anglický a poľsko-anglický text pre experiment bol získaný z vzdelávacích materiálov zdieľaných s verejnosťou a preložených z angličtiny do ruštiny a poľštiny publikáciou NATO Review Organizácie Severoatlantickej zmluvy (NATO). Citujem: „Reprodukcia častí, úryvkov alebo článkov NATO Review je povolená na nekomerčné účely, za nasledujúcej podmienky: musí byť uvedený zdroj, NATO Review.“ Ako je štandardná prax (Post, 2018), korpusové údaje boli vyčistené a normalizované zmenou textu na malé písmená a tokenizáciou. Dbalo sa na to, aby bol zdrojový text a cieľové preklady zarovnané na úrovni viet.
Pre tento experiment sme použili prednášku Dr. Jamieho Shea, vtedajšieho zástupcu generálneho tajomníka NATO pre vznikajúce bezpečnostné výzvy. Jej názov je Čo sa dnes môžeme naučiť od „Troch múdrych mužov“? Anglický originálny text prednášky Dr. Shea a jej preklady do ruštiny a poľštiny, ktoré si objednalo NATO, boli získané z nasledujúcich jednotných lokátorov zdrojov:
Anglický originál:
https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.htmlRuský preklad:
https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.htmlPoľský preklad:
https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.htmlMateriál Lemko-angličtina pre experiment zahŕňal osobné rozhovory zaznamenané nadáciou John & Helen Timo zo Spojených štátov, ktorá si najala Petra Orynycziho na prepis rozhovorov a ich preklad do angličtiny. Nadácia neskôr láskavo darovala výsledné dvojjazyčné korpusy na vedecký výskum a vývoj. Na ochranu súkromia osôb, o ktorých sa hovorilo v rozhovoroch, a z úcty k Všeobecnému nariadeniu o ochrane údajov Európskej únie (GDPR), materiály neboli sprístupnené verejnosti. Pred zdieľaním vzoriek sa dbá na redigovanie akýchkoľvek osobne identifikovateľných informácií (PII) a osobných zdravotných informácií (PHI).
Metóda hodnotenia presnosti prekladu: BLEU
Metrika BLEU (bilingual understudy evaluation) bola použitá na meranie podobnosti s referenčným prekladom, a teda, akokoľvek nedokonale, presnosti. Hoci skóre BLEU nie je dokonalou mierou presnosti alebo kvality, je to najpoužívanejšia metrika v priemysle (Post, 2018). Modul Python bol získaný z balíka Python bleu, zdokumentovaného na nasledujúcom jednotnom lokátore zdrojov:
https://pypi.org/project/bleu/Uistili sme sa, že keď boli dané referenčné reťazce viet
“it is a white cat .”a“wow , this dog is huge .”spolu s kandidátskymi hypotézami“it is a white kitten .”a“wowww , the dog is huge !”, náš systém vypočítal kumulatívne skóre BLEU 34,99, v súlade s dokumentáciou pre balík Pythonbleu.Metóda normalizácie a čistenia textu
Všetok text bol prevedený na malé písmená a pred a za všetky interpunkčné znamienka bola pridaná medzera, aby systém nepredpokladal, napríklad, že „Mačka“ a „mačka.“ sú rôzne slová. Takže „Je to biela mačka.“ by sa normalizovalo na „je to biela mačka .“ Viacnásobné medzery a iné sekvencie bielych znakov boli nahradené jednou medzerou pomocou metód Python split() a join().
Metóda počítania slov
Počet slov na vetu bol určený rozdelením normalizovaného textového reťazca na pole pomocou medzery ako oddeľovača a následným spočítaním položiek v tomto poli.
Metóda merania rýchlosti prekladu
V momente, keď ľudský prekladateľ stlačil kláves Enter na začatie prekladu vety, zavolali sme metódu Python time.time() na získanie počtu sekúnd od polnoci koordinovaného univerzálneho času (UTC) 1. januára 1970 ako čísla s pohyblivou desatinnou čiarkou, bežne označovaného ako Unixový čas, a toto číslo sme použili ako čas začiatku pre človeka. Získali sme aj Unixový čas, keď naše motory strojového prekladu prevzali vetu na preklad.
Moment, keď ľudský lingvista stlačil kláves Enter na odoslanie svojho prekladu vety alebo keď stroj vrátil svoj preklad vety, bol použitý ako čas ukončenia. Odčítaním času začiatku od času ukončenia sme získali celkový počet sekúnd, ktoré trval preklad vety.
Slová za hodinu sme vypočítali vydelením rozdielu medzi Unixovým časom ukončenia a začiatku počtom slov, ako je vypočítané vyššie, a vynásobením tohto podielu číslom 3600 (čo je 60 60, teda počet sekúnd v hodine):
Rýchlosť = (Čas_ukončenia_prekladu − Čas_začiatku_prekladu) / Celkový_počet_preložených_slov × 3600
Metóda fyzickej izolácie a vzduchového oddelenia zariadenia
Zariadenie použité v experimente bolo odrezané od vonkajšieho sveta nielen prostredníctvom jeho fyzickej izolácie, ale aj použitím funkcie Režim Lietadlo v systéme Microsoft Windows 10 Pro, ktorá podľa jeho dokumentácie vypína všetky bezdrôtové komunikácie na stroji, vrátane bezdrôtovej siete IEEE 802.11b Direct Sequence, mobilnej siete, Bluetooth, Global Positioning System a Near Field Communication.
Výsledky
Rýchlosť prekladu: čím viac zdrojov má jazykový pár, tým rýchlejší je motor
Stroj prekonal človeka v rýchlosti prekladu pre jazykový pár s vysokými zdrojmi (rusko-anglický) a pár so strednými zdrojmi (poľsko-anglický), v súlade s našou hypotézou, že neurónový strojový preklad je rýchlejší ako ľudia, a predpoveďou, že naše neurónové motory preložia viac slov za hodinu. Pri preklade z ruštiny náš motor dosiahol priemerne viac ako 6 456 slov za hodinu, čo bolo o 1 170 % rýchlejšie ako náš ľudský lingvista. Pri preklade z poľštiny bol náš neurónový motor o 488 % rýchlejší ako náš ľudský prekladateľ, s priemerom 3 768 slov za hodinu. Pre jazykový pár s nízkymi zdrojmi (Lemko-anglický) náš hybridný neurónový a slovníkový/pravidlový motor dosiahol 707 slov za hodinu, čo sa takmer vyrovnalo nášmu ľudskému lingvistovi, ktorý bol o 13 % rýchlejší s 798 slovami za hodinu. Odstránenie váhy slovníkovej zložky hybridného motora takmer štvornásobne zvýšilo rýchlosť na 3 137 slov za hodinu, čo je o 293 % rýchlejšie ako človek, za cenu 13 % poklesu presnosti.
Obrázok 1. Rýchlosť prekladu profesionálneho človeka verzus stroja (slová/hodina) na vzduchom oddelenom stredne výkonnom laptope (režim lietadlo): rusko-anglický (vysoké zdroje) vs poľsko-anglický (stredné zdroje) vs Lemko-anglický (nízke zdroje). Údaje k obrázku 1: rýchlosť prekladu (slová za hodinu) Jazykový pár Metóda Slová/hodina Rusko–angličtina Profesionálny človek 509 Rusko–angličtina Len NMT 6456 Poľsko–angličtina Profesionálny človek 640 Poľsko–angličtina Len NMT 3768 Lemko–angličtina Profesionálny človek 798 Lemko–angličtina Romanizácia + hybridný slovníkový/pravidlový Lemko→poľský MT + poľsko→anglický NMT 707 Lemko–angličtina Romanizácia + slovníkový Lemko→poľský MT + poľsko→anglický NMT 752 Lemko–angličtina Romanizácia + pravidlový Lemko→poľský MT + poľsko→anglický NMT 3137 Presnosť prekladu: čím viac zdrojov má jazykový pár, tým presnejší je motor
Presnosť prekladu našich motorov umelej inteligencie prekonala presnosť profesionálnych lingvistov. To presiahlo našu hypotézu, že neurónový strojový preklad v režime offline bol teraz len o niečo menej presný ako ľudskí prekladatelia. Náš rusko-anglický motor umelej inteligencie dosiahol 158 % presnosti nášho ľudského prekladateľa, čím prekročil nami predpokladaných 75 %. Náš poľsko-anglický neurónový motor dosiahol 117 % presnosti nášho ľudského lingvistu, čím prekročil naše očakávania 75 %. Náš hybridný Lemko-anglický motor dosiahol skóre BLEU 14,57 (51 % oproti nášmu profesionálnemu prekladateľovi), v súlade s našou predpoveďou 15, po zaokrúhlení nahor. Vynechanie nášho podmotora založeného na pravidlách viedlo k 2 % nárastu presnosti a 6 % nárastu rýchlosti. Vynechanie podmotora založeného na slovníku viedlo k 13 % poklesu presnosti, ale k 344 % nárastu rýchlosti. Zhrnutie: naše motory umelej inteligencie pre jazyky so strednými až vysokými zdrojmi boli výrazne presnejšie ako náš ľudský lingvista, zatiaľ čo naše hybridné motory pre jazyky s nízkymi zdrojmi boli približne o polovicu presnejšie ako náš ľudský lingvista.
Obrázok 2. Profesionálny ľudský verzus strojový BLEU skóre kvality prekladu na vzduchom oddelenom stredne výkonnom laptope v režime Lietadlo, rusko-anglický (pár s vysokými zdrojmi) verzus poľsko-anglický (pár so strednými zdrojmi) verzus Lemko-anglický (pár s nízkymi zdrojmi). Údaje k obrázku 2: skóre BLEU Jazykový pár Metóda BLEU Rusko–angličtina Len neurónový strojový preklad umelej inteligencie 39.37 Rusko–angličtina Profesionálny ľudský preklad 24.86 Poľsko–angličtina Len neurónový strojový preklad umelej inteligencie 35.81 Poľsko–angličtina Profesionálny ľudský preklad 30.53 Lemko–angličtina Romanizácia + hybridný slovníkový/pravidlový Lemko→poľský MT + poľsko→anglický neurónový preklad 14.57 Lemko–angličtina Romanizácia + slovníkový Lemko→poľský MT + poľsko→anglický neurónový preklad 14.8 Lemko–angličtina Romanizácia + pravidlový Lemko→poľský MT + poľsko→anglický neurónový preklad 12.64 Lemko–angličtina Profesionálny ľudský preklad 28.66 Bezpečnosť prekladu
V súlade s našou hypotézou, že riešenie neurónového strojového prekladu by mohlo byť navrhnuté tak, aby fungovalo na vzduchom oddelenom laptope, náš experiment v tomto smere uspel. V súlade s našou predpoveďou náš experiment fungoval s povoleným režimom Lietadlo systému Windows a žiadne chyby neboli spôsobené prevádzkou v odpojení od vonkajšieho sveta.
Strojový preklad založený na pravidlách medzi Lemko a poľštinou
Naša hypotéza, že príbuznosť medzi Lemko a poľštinou je dostatočne silná na to, aby bolo Lemko preložiteľné do poľštiny pomocou substitúcie založenej na pravidlách a slovníku, sa potvrdila pôsobivým výkonom nášho hybridného Lemko-anglického neurónového/pravidlového motora. Naša hypotéza, že kombinácia podmotora založeného na pravidlách s podmotorom založeným na slovníku povedie k presnejšiemu hybridnému motoru, nie je v súčasnosti našimi údajmi podporená. Pridanie modulu založeného na slovníku k modulu založenému na pravidlách zvýšilo BLEU motora o 2,16 bodu, čo je menej ako naša predpoveď 5.
Diskusia
Nová éra
Dokázali sme, že nielenže je možné poveriť umelú inteligenciu prekladom z jazykov s vysokými, strednými a nízkymi zdrojmi v prostredí s kontrolovaným prístupom, ale neurónový strojový preklad dokáže túto prácu vykonávať rýchlejšie, bezpečnejšie a v mnohých prípadoch aj lepšie. Naše výsledky nielenže podporili naše hypotézy, ale výkon našich neurónových motorov prekonal naše predpovede. Nová éra takmer reálneho času strojového prekladu, ktorý funguje nezávisle alebo v spolupráci s ľuďmi, je tu.
Rýchlosť
Náš systém prekladal z ruštiny rýchlosťou 6 456 slov za hodinu. Aby sme to uviedli do kontextu, konzultovali sme s expertom Marcom Hackelom, lingvistom z obranného priemyslu vo Washingtone, D.C. a rusko-anglickým prekladateľom s desaťročiami skúseností, ktorý nám povedal, že „orientačné pravidlo je, že veľmi zdatný prekladateľ by mal byť schopný preložiť aspoň 8 strán (t. j. 8 strán po 500 slov, spolu 4 000 slov) počas 8-hodinového pracovného dňa, za predpokladu, že neexistujú žiadne prekážky ako akronymy a podobné veci. Priemer pre mnohých je v skutočnosti 250 slov za hodinu, nie 500.“ Takže neurónové systémy dokážu za menej ako hodinu to, čo ľuďom trvá dni.
Presnosť
Naše systémy umelej inteligencie dosiahli vyššie skóre BLEU ako náš profesionálny ľudský lingvista. Podľa tejto metriky sú naše stroje „lepšie“ v preklade z ruštiny a poľštiny ako ľudia.1 Keďže implikácia, že strojový preklad s umelou inteligenciou môže byť o viac ako 50 % presnejší ako skúsení lingvisti, je revolučná, tento experiment je potrebné zopakovať na ešte väčšom počte ľudských lingvistov a korpusov, aby sa vylúčili náhody. Použili sme výnimočne čisté, náročné texty s kvetnatým jazykom, na ktorých sa prekladové systémy tradične „zadrhávajú“ a v ktorých ľudia vynikajú. Hoci sme sa snažili o rovnaké podmienky, očakávali sme, že akákoľvek výhoda bude na strane človeka. Pre prístup k našim surovým dátam a výsledkom kontaktujte Petra Orynycziho na vyššie uvedenej adrese.
Ďalšie kroky
Použili sme staršie, zastarané vybavenie. Novšie vybavenie s rýchlejšími grafickými procesormi novej generácie by mohlo viesť k dramatickému zlepšeniu rýchlosti prekladu. Naša kódová základňa by mala byť optimalizovaná tak, aby maximalizovala využitie existujúcich zdrojov, ako sú grafické procesory (GPU). Plánujeme premeniť náš modul strojového prekladu založený na slovníkoch na testovaciu sadu pre použitie v testom riadenom vývoji (TDD) nášho modulu strojového prekladu založeného na pravidlách (RBMT), ktorý by sa mohol použiť na vývoj paralelných textov pre tréning čisto neurónových Lemko-anglických a anglicko-Lemko neurónových systémov strojového prekladu s umelou inteligenciou. Je potrebný ďalší výskum na identifikáciu bodov klesajúcich výnosov. Petro Orynycz plánuje aplikovať svoje hybridné neurónové a pravidlami riadené systémy na vývoj prekladových systémov pre rusínske a ukrajinské dialekty pôvodné pre dnešné Slovensko a Ukrajinu.
Na záver
Sme na úsvite novej transformačnej éry: dokázali sme, že umelá inteligencia dokáže vykonávať duševnú prácu rovnako dobre ako ľudia, alebo v čoraz širšom okruhu prípadov o viac ako 50 % lepšie, a to za zlomok času a s takmer žiadnym bezpečnostným rizikom. Niekoľko stoviek dolárov v hodnote vybavenia, ktoré sa zmestí do batohu, je všetko, čo človek potrebuje, aby mal vždy lepšieho ako ľudského, kremíkového terénneho lingvistu, ktorý nikdy neprezradí tajomstvá ani sa neunaví. Džin je von z fľaše a môže splniť naše želanie revitalizácie ohrozených jazykov, ak nie sen o vzkriesení vyhynutých. Udalosť masového vymierania jazykov, v ktorej sa nachádzame, sa môže zastaviť a dokonca zvrátiť. Mali by sme si dávať pozor na to, čo si želáme – svety izolované po eóny ich šifrovaním v drahých na preklad jazykoch sa chystajú zraziť. Zmena k lepšiemu, dúfame. Proščaj, jazyková bariéra. Vitaj, nový svet.
Poznámky pod čiarou
^ 1 Historicky niektoré komunity odmietajú používanie BLEU na porovnávanie ľudského a strojového prekladu, no žiadny iný systém nie je tak široko akceptovaný alebo dostupný so širokou, recenzovanou validáciou v praxi. V skutočnosti vynálezcovia skóre BLEU Papineni, Roukos, Ward a Zhu predznamenali tento bod napätia v práci sponzorovanej Ministerstvom obrany Spojených štátov (financovanej Agentúrou pre pokročilé obranné výskumné projekty [DARPA] a monitorovanej Veliteľstvom vesmírnych a námorných bojových systémov [SPAWAR]) ako súčasť ich prelomovej publikácie, píšuc: „Ďalej, [metrika] musí rozlišovať medzi dvoma ľudskými prekladmi rôznej kvality. Táto posledná požiadavka zabezpečuje nepretržitú platnosť metriky, keď sa MT [strojový preklad] približuje kvalite ľudského prekladu.“ Porušiac tabu hneď na začiatku, potom pokračovali vo výpočte skóre BLEU pre „Human-1“, ktorý nebol rodeným hovorcom čínštiny ani angličtiny, a „Human-2“, rodeného hovorcu angličtiny, a zaznamenali, ako sa ich skóre BLEU úzko zhodovalo s tými, ktoré udelili ľudskí posudzovatelia (Papineni, Roukos, Ward, & Zhu, 2002).
Poďakovanie
Radi by sme poďakovali nášmu poradcovi, Timovi Quiramovi, zástupcovi náčelníka divízie výcviku veliteľstva pripravenosti pobrežnej stráže Spojených štátov, za jeho povzbudenie pokračovať, predstavenstvu Antech Systems, Inc. a tímu ePerformance Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) za vytvorenie prostredia, kde môžeme sledovať naše vášne, nášmu výkonnému viceprezidentovi divízie Tomovi Dobrymu za jeho neoceniteľné vedenie, zdravý úsudok a vizionárske líderstvo, ako aj nášmu vedúcemu tímu Willovi Duffovi za to, že nás prinútil tvrdo pracovať, podporoval ducha kamarátstva a morálnu podporu. Petro Orynycz by rád poďakoval svojim projektovým manažérom v oblasti umelej inteligencie Raffaelemu Pascalemu a Michalovi Brnušákovi z poskytovateľa jazykových služieb Venga Global Inc. zo Silicon Valley za ich profesionalitu, skutočnú starostlivosť o tím a neochvejnú oddanosť správnemu vykonaniu práce. Pán Orynycz by tiež rád poďakoval svojim kolegom inžinierom, kolegom a starým priateľom Michaelovi Lawrenceovi Cramerovi z BCT LLC a Michaelovi Decerbovi z Raytheon BBN Technologies za to, že verili od začiatku. Tiež by rád poďakoval svojmu priateľovi a kolegovi počítačovému lingvistovi Jounovi Pyysalovi, Ph.D. z Helsinskej univerzity za splnenie snov. Nakoniec by rád poďakoval Marii Silvestri z Nadácie Johna a Helen Timo za jej dar na vedecký výskum a vývoj Lemko rozhovorov, ktoré viedla, a prekladov, na ktoré si ho najala, ako aj svojej drahej priateľke Ołene Duć z Ruska Bursa za jej neoceniteľné preklady a prepisy rozhovorov.
Referencie
al-Kindī, Y. i. (2002). al-Kindi’s Edited Treatise. In M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (eds.), al-Kindi’s Treatise on Cryptanalysis (vol. 1) (S. M. al-Asaad, Trans., vol. 1, pp. 117-204). Damask, Sýria: KFCRIS & KACST. (Pôvodné dielo publikované približne 850).
Associated Press. (2021, 26. januára). Poland’s population rapidly shrinking under pandemic. Získané 19. júna 2021 z AP NEWS: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e
Bureau of Labor Statistics, Ministerstvo práce Spojených štátov. (2021). Príručka pracovných vyhliadok, tlmočníci a prekladatelia. Washington, DC. Získané 1. júna 2021 z https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Selection Criteria for Low Resource Language Programs. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) (pp. 4543–4549). Portorož, Slovinsko: European Language Resources Association (ELRA). Získané 27. júna 2021 z https://www.aclweb.org/anthology/L16-1720
Dadas, S. (2019). A repository of Polish NLP resources. Získané 26. mája 2021 z https://github.com/sdadas/polish-nlp-resources/
Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013. Varšava, Poľsko: Ministerstwo Spraw Wewnętrznych i Administracji. Získané 13. júna 2021 z http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Department of Justice Office of Public Affairs. (2009, 17. decembra). Former FBI Contract Linguist Pleads Guilty to Leaking Classified Information to Blogger. Získané 9. júna 2021 z United States Department of Justice: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger
Department of Justice Office of Public Affairs. (2018, 23. augusta). Federal Government Contractor Sentenced for Removing and Transmitting Classified Materials to a News Outlet. Získané 9. júna 2021 z United States Department of Justice: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news
Department of Justice Office of Public Affairs. (2020, 17. augusta). Former CIA Officer Arrested and Charged with Espionage. Získané 9. júna 2021 z United States Department of Justice: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage
Deržavna služba statystyky Ukraïny. (2001). Čysel’nist‘ osib okremyx etnohrafičnyx hrup ukrainskoho etnosu ta ïx ridna mova. Získané 26. augusta 2021 z Vseukraïns’kyj perepys naselennja 2001: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1
Duć-Fajfer, O. (2016). Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In J. Olko, T. Wicherkiewicz, & R. Borges (eds.), Integral Strategies for Language Revitalization (pp. 177-178). Varšava, Poľsko: Faculty of „Artes Liberales“, University of Warsaw. Získané z http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177
DuPont, Q. (2018, máj). The Cryptological Origins of Machine Translation, from al-Kindi to Weaver. (C. Mitchell, & R. Raley, eds.) amodern(8), 1-20. Získané 22. mája 2021 z http://amodern.net/article/cryptological-origins-machine-translation/
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Koľko jazykov je na svete? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, eds.) Získané 13. júna 2021 z Ethnologue: Languages of the World: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Indo-európsky jazyk a kultúra. Malden, MA, USA: Blackwell Publishing.
Google. (2021, 8. júna). Language Support | Cloud Translation. Získané 13. júna 2021 z Google Cloud: https://cloud.google.com/translate/docs/languages
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP -Digital Corpus of the European Parliament. Language Resources and Evaluation Conference (LREC 2014), (pp. 3164-3171). Reykjavík, Island. Získané 19. júna 2021 z http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski. Varšava, Poľsko: Fundacja Wspierania Mniejszości Łemkowskiej Rutenika.
Jassem, W. (2003, jún). Polish. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Experimenting with Different Machine Translation Models in Medium-Resource Settings. In P. Sojka, I. Kopeček, K. Pala, & A. Horák (Ed.), Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science. 12284, p. 2. Springer, Cham. doi:10.1007/978-3-030-58323-1_10
Kerča, I. (2007). Slovnyk Rusyn’sko-Ruskŷj (vol. 1). Užhorod, Ukrajina: PolyPrynt.
Kocmi, T. (2020). CUNI Submission for the Inuktitut Language in WMT News 2020. Proceedings of the 5. Conference on Machine Translation (WMT), (pp. 171–174). Association for Computational Linguistics. Získané 19. júna 2021 z https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). CUNI Submission for Low-Resource Languages in WMT News 2019. Proceedings of the Fourth Conference on Machine Translation (WMT). Volume 2: Shared Task Papers (Day 1), pp. 234–240. Florencia, Taliansko: Association for Computational Linguistics. Získané 13. júna 2021 z https://www.aclweb.org/anthology/W19-5322.pdf
Lewis-Kraus, G. (2016, 14. decembra). The Great A.I. Awakening (Going Neural). The New York Times, s. 40. Získané z https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html
Macken, L., Prou, D., & Tezcan, A. (2020, 23. apríla). Kvantifikácia účinku strojového prekladu v procese produkcie vysokokvalitného ľudského prekladu. Informatics, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). The Russian-speakers in the CIS countries: migration activity and preservation of the Russian language. In P. Vladimirovich (Ed.), 2018 International Scientific Conference “Investment, Construction, Real Estate: New Technologies and Special-Purpose Development Priorities” (ICRE 2018) , 212. Irkutsk, Rusko. doi:10.1051/matecconf/201821210005
Microsoft. (n.d.). Turn airplane mode on or off. Získané 9. júna 2021 z Microsoft: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1
NATO Review. (n.d.). About us. Získané 9. júna 2021 z North Atlantic Treaty Organization: https://www.nato.int/docu/review/about.html
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019, august). Facebook FAIR’s WMT19 News Translation Task Submission. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), 314-319. Florencia, Taliansko: Association for Computational Linguistics. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: A Fast, Extensible Toolkit for Sequence Modeling. Proceedings of NAACL-HLT 2019: Demonstrations. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), pp. 48-53. Minneapolis, MN: Association for Computational Linguistics. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40. Annual Meeting on Association for Computational Linguistics (pp. 311-318). Philadelphia, pa: Annual Meeting of the Association for Computational Linguistics.
Post, M. (2018, 12. septembra). A Call for Clarity in Reporting BLEU Scores. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Lexicon Induction for Spoken Rusyn – Challenges and Results. Proceedings of the 6. Workshop on Balto-Slavic Natural Language Processing, (pp. 27-32). Valencia, Španielsko.
Scherrer, Y., & Rabus, A. (2017). Multi-source morphosyntactic tagging for Spoken Rusyn. Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (pp. 84-92). Valencia, Španielsko: Association for Computational Linguistics. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019, september). Neural morphosyntactic tagging for Rusyn. (R. Mitkov, Ed.) Natural Language Engineering, 25(5), pp. 633-650. doi:10.1017/S1351324919000287
Shea, J. (2016, 5. decembra). What can we learn today from the „traja mudrci“? NATO Review. Získané 26. mája 2021 z https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html
Ad hoc expertná skupina UNESCO pre ohrozené jazyky. (2003). Vitalita a ohrozenie jazykov. Medzinárodné stretnutie expertov o programe UNESCO na ochranu ohrozených jazykov. Paríž: UNESCO. Získané 19. júna 2021 z http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf
Vasmer, M. J. (n.d.). Etimologičeskyj Slovar‘ Russkogo Jazyka. (O. N. Trubačëv, Trans.) Moskva: AST (Pôvodné dielo publikované 1950).
Watral, M. (2015, február). Rewitalizacja Łemków. Znak(717), 38-44. Získané 24. augusta 2021 z https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/
Watral, M. (2016). Postawy względem języka łemkowskiego – wzór i jego realizacja. In J. Olko, T. Wicherkiewicz, & R. Borges (eds.), Integral Strategies for Language Revitalization (pp. 221-260). Varšava, Poľsko: Faculty of „Artes Liberales“, University of Warsaw. Získané 24. augusta 2021 z http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Paralelný korpus Organizácie Spojených národov v1.0. Zborník z Desiatej medzinárodnej konferencie o jazykových zdrojoch a hodnotení (LREC’16), (str. 3530–3534). Portorož, Slovinsko. Získané z https://www.aclweb.org/anthology/L16-1561
-

Neuronový strojový preklad s umelou inteligenciou vo viacjazyčnom výcviku predstavený na I/ITSEC 2021
ORLANDO, 2. decembra (Orynycz.com) – Bola nám česť predstaviť prelomové objavy v našej štúdii Áno, hovorím… AI Neuronový strojový preklad vo viacjazyčnom výcviku na konferencii I/ITSEC 2021 Národnej asociácie obranného priemyslu (NDIA), najväčšom svetovom podujatí v oblasti modelovania, simulácie a výcviku, s 13 000 osobnými účastníkmi zo 47 krajín, zastupujúcich vlády, univerzity, korporácie a armády, vrátane veliteľa Námornej pechoty Spojených štátov generála Davida H. Bergera a náčelníka námorných operácií admirála Michaela Gildaya.
Osobitné poďakovanie patrí predsedovi 7. sekcie pre vznikajúce koncepty a inovatívne technológie (ECIT) Brianovi Stensrudovi, Ph.D. a zástupcovi sekcie Neilovi Stagnerovi z Veliteľstva systémov Námornej pechoty Spojených štátov za všetku podporu, ktorá to umožnila.
Prelomové objavy
Na lacných, vzduchom oddelených notebookoch v bezpečných poľných podmienkach naše prekladové systémy dosiahli:
- Kvalita prekladu – skóre BLEU o 59 % lepšie ako skóre profesionálnych lingvistov pre jazykový pár ruština – angličtina
- Prvé použiteľné strojové preklady z lemkovčiny do angličtiny na svete
- Rýchlosti prekladu z ruštiny do angličtiny o 1 170 % rýchlejšie ako ľudský preklad (v reálnom čase)
Pre viac informácií si pozrite celú štúdiu.
-

Pozrite si, ako AI posilňuje nových hovorcov ohrozených jazykov, ako je Lemko
Inžinier Petro Orynycz predstavuje technológiu AI, ktorá umožňuje novým hovorcom ohrozeného jazyka (Lemko) okamžite čítať ich jazyk. Pozrite si a sledujte tento interaktívny seminár.
Pozrieť
Zdieľať odkaz
https://www.orynycz.com/show/watch-ai-empower-new-speakersNa YouTube
[icon name=“youtube“ prefix=“fab“] Pozrieť na YouTube
Na Facebooku
[icon name=“facebook-square“ prefix=“fab“] Pozrieť na Facebooku
Vyskúšajte si to sami
1. Skopírujte text v lemkovčine nižšie
130 років тому вродил ся Теофіль Курилло, передовый представник лемківской інтеліґенциіЗаписал обставины поневоліня в початковым періоді од 14. вересня/септембра 1914 р. до 22. серпня/авґуста 1915 р.130 років тому в Розділю під Ґорлицями вродил ся єден з передовых представників лемківской інтеліґенциі поч. ХХ ст. – Теофіль Курилло (1891-1945).Zdroj: LEM.FM – 130 років тому вродил ся Теофіль Курилло, передовый представник лемківской інтеліґенциі
2. Vložte text do prekladača:
[xyz-ips snippet=“Lemkotran“]3. Stlačte tlačidlo „Ísť!“ vyššie.
Popis
Na praktickej ukážke, ktorej sa zúčastnilo viac ako 50 ľudí z celého sveta, inžinier spracovania prirodzeného jazyka Petro Orynycz a prezidentka Karpatsko-rusínskej spoločnosti Maryann Sivak predstavujú hybridnú technológiu umelej inteligencie, ktorá umožňuje novým hovorcom Lemko okamžite čítať v tomto jazyku. Diskutuje sa o dôsledkoch pre revitalizáciu ohrozených, jazykov s nízkymi zdrojmi.

Propagačný leták od University of Pittsburgh Pozrite si tu oficiálne oznámenie na webovej stránke Nationality Rooms University of Pittsburgh.
Ďakujeme sponzorom

University of Pittsburgh 
University of Pittsburgh Center for Russian, East European & Eurasian Studies 
Carpatho-Rusyn Society Zdieľať odkaz
https://www.orynycz.com/show/watch-ai-empower-new-speakers -

AI posilňuje hovoriacich ohrozenými jazykmi ako Lemko – udalosť sledovateľná na požiadanie
Zdieľateľný odkaz:
https://www.orynycz.com/lemko/watch-ai-empower-new-speakersUvedenie produktu a interaktívna demonštrácia z 26. októbra 2021 boli zaznamenané a teraz si ich môžete pozrieť v plnom rozsahu tu.
Ak chcete sledovať a zapojiť sa, navštívte stránku udalosti.
Interaktívna ukážka: AI posilňuje hovoriacich ohrozenými jazykmi ako Lemko Zdieľateľný odkaz:
https://www.orynycz.com/lemko/watch-ai-empower-new-speakersYouTube a Facebook
Prezentáciu môžete tiež pozrieť, označiť páči sa mi, komentovať a zdieľať na Facebooku alebo na YouTube.
