Absztrakt
A felgyorsuló globális nyelvvesztés, amely a tiltott szerek használatának, a 2-es típusú cukorbetegségnek, a mértéktelen ivásnak és a testi sértéseknek az emelkedett gyakoriságával, valamint a fiatalok hatszoros öngyilkossági arányával jár együtt, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Olyan környezetben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek az örökölt nyelvek újjáélesztésére és az új beszélők képessé tételére, mivel lehetővé teszik számukra, hogy azonnali fordítással megértsék és megértsék őket. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, például a megfizethetetlen költségeket és a kimenet minőségével kapcsolatos problémákat. Megoldást jelenthet a neurális motorok párosítása a klasszikus, szabályalapú motorokkal, amelyek lehetővé teszik a mérnökök számára a kölcsönszavak megtisztítását és a domináns nyelvek interferenciájának semlegesítését. Ez a munka a LemkoTran.com oldalon alkalmazott motor átalakítását írja le, hogy lehetővé tegye a lemkó nyelvre való fordítást és a lemkó nyelvből való fordítást, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású előadás, amely a Lengyelország és Szlovákia közötti határvidéken honos (ahol ruszin nyelvként is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag megalapozott főnév-, ige- és melléknév-generátorokkal látták el, amelyeket 877 lemmával és 708 szószedettel együtt tápláltak, és az egész rendszert 9518 automatikus, kodifikációs hivatkozásokkal ellátott, átmenő minőségellenőrzési tesztekkel szegecselték le. Ennek a munkának a gyümölcse a legutóbbi publikáció óta 23%-os javulás az angol nyelvű fordítás minőségében, és 35%-os minőségi növekedés az angolról lemkói nyelvre történő fordításban, olyan fordításokat biztosítva, amelyek minden mérőszámban felülmúlják a Google Translate szolgáltatásait, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán nyelvű szolgáltatása, amikor lemkói nyelvre fordítanak.
Kérjük, idézze a következőket: (2023). BLEU égisze alatt a veszélyeztetett nyelvek revitalizációja: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
Bővebben: BLEU Skies for Endangered Language Revitalization: Lemko Rusyn és az ukrán neurális AI fordítási pontossága az egekbe szökikA hozzájárulásnak ezt a változatát a szakértői értékelés után elfogadták publikálásra, de ez nem a hivatalos változat, és nem tükrözi az elfogadást követő javításokat vagy javításokat. A változat online elérhető a https://doi.org/10.1007/978-3-031-35894-4_10 címen. Ennek az elfogadott változatnak a felhasználására a kiadó elfogadott kézirat felhasználási feltételei vonatkoznak: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Tartalomjegyzék
1 Bevezetés
1.1 A probléma
A nyelvek negyedévenként legalább egyet veszítenek, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, ami több mint 1500 beszélő közösséget érint [1, 163. és 169. oldal]. Ezek az eredmények összefüggésbe hozhatók az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a testi sértés [4] megnövekedett gyakoriságával, valamint a fiatalok öngyilkossági arányának hatszorosával, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].
Egy nemrégiben az Egyesült Államokban végzett tanulmány szerint az őslakosok nyelvhasználata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi beszélőkön végzett kísérlet azt találta, hogy a lemkó használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].
A mesterséges intelligencia gépi fordítás a haldokló és alvó nyelvek újjáélesztésével a fent említett védőhatások terjesztésében az örökséget beszélőkre is szolgálatot tehet [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnának elő, és élvezhetnék az olvasásértést, ha az automatikus gépi fordítóberendezéseket segítségül használnák, amíg a teljes, önálló folyékony beszédkészség el nem érhető.
1.2 A vizsgált rendszer
Nyelv
A lemko egy véglegesen vagy súlyosan veszélyeztetett [9, 177-178. o.], délnyugat-ukrajnai genetikai besorolású [10, 52. o.; 11, 39. o.] kelet-szláv előadás, amely a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszinnak nevezik [11, 39. o.; 12].
Keleti határok
A lemkótól keletre megkülönböztető egyedi izoglossza a rögzített paroxitóniás (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös [10, 161-162. és 972-973. o.; 11, 50. o.; 13, 70-73. o.], és Kelet-Szlovákiában legalább a Laborec folyóig terjed, és utána egy átmeneti zóna húzódik [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a Lemko történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig terjed, és egy átmeneti zóna ezeken túlra terjed [11, 50. o.].
Nyugati határok
Lemko történelmi nyugati határai a Poprad és a Dunajec folyók [14, 459. o.].
Helyszín
Az anyanyelvi beszélők ősi falvai, amelyek interjúi a korpuszt alkotják, a mai Lessor Poland tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.
Lemko név | Átírás | Lengyel név | Megyeszékhely | Községi székhely |
Ізбы | Izbŷ | Izby | Gorlice | Uście Gorlickie |
Ґлaдышiв | Gladŷšiv | Gładyszów | Gorlice | Uście Gorlickie |
Чорне | Čorne | Czarne | Gorlice | Sękowa |
Долге | Dolhe | Długie | Gorlice | Sękowa |
Білцарьова | Bilcarʹova | Binczarowa | Nowy Sącz | Grybów |
Фльоринка | Flʹorynka | Florynka | Nowy Sącz | Grybów |
Чырна | Čŷrna | Czyrna | Nowy Sącz | Krynica-Zdrój |
2 A technika jelenlegi állása
Tavaly publikálták a világ első minőségi értékelési eredményeit a Lemkóba történő gépi fordításokról: BLEU 6,28, ami majdnem háromszorosa a Google Translate ukrán szolgáltatásának[1] (BLEU 2,17) [15, 570. o.]. Egy évvel korábban kollégáimmal közöltük és bemutattuk a világ első Lemko-angol gépi fordítási eredményeit: BLEU 14.57 [16].
[1] Közzététel: fizetett ukrán, lengyel és orosz fordítási minőségellenőrző szakemberként dolgozom a Google Translate projektben. Ügyfelem székhelye a kaliforniai San Franciscóban található.
A motort a https://www.LemkoTran.com egyetemes erőforráskeresőben telepítették és tették szabadon elérhetővé, ahol 2017 ősze óta működik egy átíró motor. A fordítómotorra először nyomtatásban Dr. Scherrer és Rabus utaltak a Cambridge University Press folyóirat Natural Language Engineering című folyóiratában 2019-ben [17].
3 Anyagok és módszerek
3.1 Anyagok
A kísérletet egy kétnyelvű korpuszon végeztük, amely a lengyelországi ősök földjéről való kényszerű kitelepítések túlélőivel és gyermekeivel készített interjúk Lemko cirill betűs átirataiból és angol fordításaiból állt. Az átiratokat és fordításaikat[1] 3267 szegmensben igazítottuk egymáshoz, a Microsoft Word 68 944 lemkó forrásszót és 81 188 angol célszót adott meg.
[1] Az átiratok elkészítésére és lefordítására a Delaware állambeli Wilmingtonban működő John és Helen Timo Alapítvány bérelt fel, akik aztán a munkadarabokat tudományos kutatási és fejlesztési törekvéseimhez adományozták.
Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22] és Petro Pyrtej [23] nyelvtárai.
3.2 Módszerek
Motorfejlesztések
Ehhez a kísérlethez a LemkoTran.com-nál alkalmazott motort újonnan épített generátorokkal látták el, amelyek a beszédrész, a nyelvtani eset és a szám alapján tájékozódtak, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül a fele nem flektál a lengyel vagy a lemkói nyelvben, ami lehetővé teszi az egyszerű helyettesítést.
Minőségbiztosítási vizsgálatok
A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint kereszthivatkozásokkal vetettek össze a fent az anyagok között felsorolt Lemko-kodifikációkkal, nyelvtanokkal és szótárakkal. Maguk a tesztek igazolják, hogy a rendszer a kívánt módon fordítja le az adott kifejezéseket.
Leírás | Mennyiség |
Főnév törzse | 414 |
Igetörzs | 296 |
Melléknév törzse | 167 |
Főnév, személyes | 87 |
Főnév, egyéb | 178 |
Számok | 86 |
Egyéb szótári bejegyzések | 357 |
Összesen | 1,585 |
Szabályalapú gépi fordítás (RMBT)
A szöveget lemkói vagy lengyel megjelenésűvé tették a karaktersorozatok és különösen a szóvégek cseréjével.
Lengyel szekvencia | Lemko szekvencia | Pozíció |
ować | uwaty | Végleges |
iami | iamy | Végleges |
ają | ajut | Végleges |
ze | zo | Kezdeti |
pod | pid | Kezdeti |
Fordításminőségi pontozás
A fordítás minőségét az iparági szabványos mérőszámok alapján mértük a SacreBLEU eszköz alapértelmezett beállításainak használatával, amelyet Matt Post [24] talált ki az Amazon Researchnél. Az összehasonlíthatóság kedvéért a lengyel nyelvet Lemko cirill betűkkel adtuk vissza, ugyanúgy, mint a legutóbbi kísérletben [15, 573. o.].
Kétnyelvű értékelési alvállalkozó (BLEU)
Ez az n-gram-alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban az IBM T. J. Watson Kutatóközpontjában fejlesztették ki a Defense Advanced Research Projects Agency (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].
Fordítási szerkesztési arány (TER)
Ez a mérőszám azt tükrözi, hogy hány szerkesztés szükséges ahhoz, hogy a kimenet szemantikailag megközelítse a helyes fordítást, és a BLEU-nál és más n-gramm-alapú mérőszámoknál toleránsabb legyen a kifejezésbeli eltolódásokkal szemben. Ezt úgy határozzuk meg, hogy a hipotézis és a referencia közötti szerkesztési távolságot elosztjuk a referencia átlagos szószámával. Fejlesztését az Egyesült Államokban a DARPA is támogatta [26].
Karakter n-gram F-pontszám (chrF)
Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi értékelésekkel, sőt, még a BLEU és a TER értékeket is felülmúlja [27].
4 Eredmények és vita
A kísérleti rendszer, a LemkoTran.com, minden mérőszámban felülmúlta a Google Translate szolgáltatásait. Az angol-Lemko fordítás BLEU minőségi pontszámai 35%-kal javultak a legutóbb közzétett eredményekhez képest [15], és négyszer jobb eredményeket produkáltak, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatás. Eközben a Lemko-angol fordítás minősége 23%-kal javult a legutóbb közzétett eredményekhez képest [16], és 16%-kal magasabb BLEU-pontszámokat ért el, mint a Google Translate által elért legjobb eredmény, amely az esetek 76%-ában automatikusan ukránnak, 16%-ában orosznak, 6%-ában pedig fehérorosznak ismerte fel a Lemkót.
4.1 Angol-Lemko fordítási minőség
Pontszámok
A LemkoTran.com oldalon használt motor minden tekintetben felülmúlta a Google Translate fordítóprogramot az angolról lemkóra történő fordítás során. A kísérletben a következő legmagasabb pontszámot elért rendszer vagy a Google Translate ukrán szolgáltatásának eredménye (a BLEU vagy a chrF mérőszámok alapján) vagy a lengyel szolgáltatásé (a TER mérőszám alapján) volt.
BLEU
A LemkoTran.com-nál alkalmazott rendszer fordítási minősége a legelterjedtebb BLEU-mérőszámmal mérve 8,48-ra emelkedett, ami 35%-os javulást jelent a legutóbb 2022-ben [15] közzétett eredményekhez képest, és immár négyszerese a Google Translate legmagasabb pontszámának.

chrF
A LemkoTran.com motor érte el a legjobb angol-lemkó karakter n-gram f-értéket (chrF 37,30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása a Lemko-korpuszhoz mérve e mérőszámmal magasabb pontszámot ért el, mint lengyel és fehérorosz társai.

TER
A LemkoTran.com motor érte el a legjobb angol-lemkó fordításszerkesztési arányt (TER), 81,33 ponttal. A Google Translate lengyel szolgáltatása a második legjobb eredményt érte el, amelyet szorosan követett az ukrán szolgáltatása.

Minták
A fordítórendszerek kimenete az alábbiakban látható, ha angolul táplálják.
Bemenet | A mi gyerekeink is okosak voltak. De hol kellett volna tanulniuk? | |||
Leírás | Kimenet | Átírás | Minőségi pontszámok | |
Lemko referencia (anyanyelvi beszélő) | В нас діти тіж были мудры, але де мали ся inчыти? | V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty? | BLEU 100 chrF2 100 TER 0 | |
Lemkó fordítás a LemkoTran.com által Lemko nyelvre fordítva. | Нашы діти тіж были мудры. але де мали ся inчыти? | Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? | BLEU 58,34 chrF2 79,03 TER 27,27 | |
Google Translate (vezérlés) | Fordítás ukrán nyelvre | Наші діти теж були розумними. Але де вони мали inчитися? | Naši dity tež buly rozumnymy. Ale de vony maly včytysja? | BLEU 4,41 chrF2 25,80 TER 72,73 |
Fordítás oroszra | Наши дети тоже были умными. Но где им было учиться? | Naši deti tože byli umnymi. No gde im bylo učitʹsja? | BLEU 3,71 chrF2 16,95 TER 90,91 | |
Fordítás lengyel nyelvre | Наше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? | Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? | BLEU 3,12 chrF2 13,84 TER 100 | |
Fehérorosz fordítás | Разумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? | Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? | BLEU 3,09 chrF2 12,83 TER 100 |
Bemenet | És általában véve a lengyelországi lemkóknak nincs olyan vezetőjük, hogy úgy mondjam, aki mondana valamit. | |||
Leírás | Termék | Átírás | Minőségi pontszámok | |
Lemko referencia (anyanyelvi beszélő) | А воґулі Лемкы in Польщы nem мают такого, же so повім, такого лідера, котрий бы штоси повіл. | A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil. | BLEU 100 chrF2 100 TER 0 | |
LemkoTran.com fordítása Lemko nyelvre | І генеральні Лемкы in Польщы nem мают лидера, же so повім, котрий бы штоси повіл. | I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil. | BLEU 55,58 chrF2 65,32 TER 29,41 | |
Google Translate (vezérlés) | Fordítás lengyel nyelvre | І ґенеральнє Лемковє in Польсце нє майон лідера, же so повєм, ктури би цось повєдзял. | I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal. | BLEU 9,26 chrF2 29,29 TER 82,35 |
Fordítás ukrán nyelvre | І взагалі, лемки in Польщі nem мають лідера, so би мовити, який би щось сказав. | I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav. | BLEU 5,15 chrF2 26,56 TER 82,35 | |
Fordítás oroszra | И вообще, у лемков in Польше нет, so сказать, лидера, который бы valami mondta. | I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal. | BLEU 2,96 chrF2 25,87 TER 88,24 | |
Fehérorosz fordítás | І ўвогуле лэмкі ў Польшчы ня маюць лідэра, így бы мовіць, які б б nemшта сказаў. | I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ. | BLEU 2,72 chrF2 18,05 TER 94,12 |
Lemko to English fordítás
Pontszámok
A LemkoTran.com-nál alkalmazott motor minden mérőszámban felülmúlta a Google Fordítót, amely a szabványos ukrán nyelvből történő fordításban mindig a második legjobb volt, majd a forrásnyelv automatikus felismerése, majd a fehérorosz nyelvből történő fordítás, majd a lengyel nyelv, és az orosz nyelv mindig az utolsó helyen végzett. A Google Fordító az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a többi esetben pedig különféle cirill betűs nyelvként (pl. mongol) ismerte fel a Lemkót.
BLEU
A LemkoTran.com angolra fordításkor 17,95 BLEU pontszámot ért el, ami 23%-os javulást jelent a legutóbb közzétett 14,57-es BLEU eredményhez képest, és 16%-kal magasabb, mint a Google Translate ukrán szolgáltatásának 15,43-as BLEU pontszáma.

chrF
A LemoTran.com-nál alkalmazott motor az angol nyelvre történő fordítás során 45,89-es karakter n-gram f-pontszámot (chrF) ért el, ami 5%-kal jobb, mint a Google Translate ukrán szolgáltatásának pontszáma.

TER
A LemkoTran.com 70,38-as fordítási arányt (TER) ért el angolra fordításkor, ami 7%-kal jobb, mint a Google Translate ukrán szolgáltatásának pontszáma.

Minták
A fordítórendszerek kimenete az alábbiakban látható, ha angolul táplálják.
Leírás | Termék | Minőség pontszámok | |
Lemko bemeneti átirata anyanyelvi beszélő által beszélt nyelven Lemko | Як розділяме языкы, то мала-м контакт з польскым, то nem было így, же пішла-м до iskola без польского, бо зме мали сусідів Поляків. | n/a | |
Átírás | Jak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv. | n/a | |
Referenciafordítás kétnyelvű szakember által | Ami a nyelvek szétválasztását illeti, a lengyel nyelvvel volt kapcsolatom. Nem úgy kezdtem az iskolát, hogy nem tudtam lengyelül, mert lengyel szomszédaink voltak. | BLEU 100 chrF2 100 TER 0 | |
Lemkóból a LemkoTran.com rendszerével készült fordítás. | Amikor szétválasztottuk a nyelveket, én kapcsolatba kerültem a lengyel nyelvvel, nem volt olyan, hogy lengyel nélkül jártam iskolába, mert voltak lengyel szomszédaink. | BLEU 45,84 chrF2 69,60 TER 32,00 | |
Google Translate (vezérlés) | ukrán nyelvből (92%-os biztonsággal automatikusan felismerhető) | Ahogy osztjuk a nyelveket, akkor érintkeztem lengyelül, aztán nem így volt, és lengyel nélkül jártam iskolába, mert a lengyelek voltak a szomszédaim. | BLEU 15,87 chrF2 54,38 TER 72,00 |
fehéroroszul | Ahogy szétválasztjuk a nyelveket, akkor kevéssé érintkeztem lengyelül, aztán nem így volt, hanem lengyel nélkül jártam iskolába, mert kevés lengyel szomszédunk volt. | BLEU 11,76 chrF2 58,92 TER 68,00 | |
oroszul | Ahogy terjesztettük a nyelveket, akkor kevés volt a kapcsolat a lengyellel, aztán nem így volt, de én lengyel nélkül jártam iskolába, mert a kígyók szukidok voltak Poljakivban. | BLEU 6,87 chrF2 42,66 TER 92,00 | |
lengyelül | Ahogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem volt olyan, hogy lengyel nélkül jártam iskolába, mert a kis lengyel nyelvemet meg fogom változtatni. | BLEU 5,02 chrF2 45,35 TER 84,00 |
5 Következtetés
A morfológiailag és szintaktikailag tájékozott generátorok neurális motorokhoz való kapcsolása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben a mérnökök számára lehetővé teszi a kölcsönszavak eltávolítását és más domináns nyelvi interferenciák ellensúlyozását, valamint a szabványoknak való megfelelés biztosítását, például a kisebbségi nyelvek kodifikációját. A mesterséges intelligenciamodellek tökéletlenségei miatt a minőségi pontszámok üvegplafonját is le lehet dönteni a jó mérnöki munka segítségével. A lemkó, valamint az alacsony erőforrású, őshonos kisebbségi nyelvek esetében a fordítási minőség, valamint az élesztési forradalmak tekintetében a horizonton túl már csak a határ a csillagos ég.
Köszönetnyilvánítás
Szeretnék köszönetet mondani Dr. Ming Qian-nak a Charles River Analytics-től a kísérlet elvégzéséhez adott inspirációért, Michael Decerbo-nak a Raytheon BBN Technologies-tól és Dr. James Joshua Pennington-nak az értő megjegyzéseikért, valamint Dr. Yves Scherrer-nek a Helsinki Egyetemről a projekt iránti érdeklődéséért és ötleteiért.
Hivatkozások
- Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: A nyelvek veszélyeztetettségének globális előrejelzői és a nyelvi sokszínűség jövője. Nature Ecology & Evolution 6, 163-173 (2022) . https://doi.org/10.1038/s41559-021-01604-y.
- Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi. org/10.5325/aboriginal.1.2.0176.
- Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Kulturális folytonosság, hagyományos őslakos nyelv és cukorbetegség az albertai első nemzeteknél: vegyes módszertani vizsgálat. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4. https://doi.org/10.1186/s12939-014-0092-4
- Kultúra, örökség és szabadidő: Az őslakos és Torres-szoros-szigeteki nyelvek beszélése. In: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A hangsúly a gyermekekre és fiatalokra helyezve. Ausztrál Statisztikai Hivatal (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
- Hallett, D., Chandler, M., Lalonde, C..: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001. https://doi.org/10.1016/j.cogdev.2007.02.001
- Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Az őslakosok nyelvhasználatának és újraélesztésének egészségügyi hatásai: egy reális áttekintés. International Journal for Equity in Health 21, 169. (2022) . https://doi.org/10.1186/s12939-022-01782-6.
- Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629. https://doi.org/10.1177/0261927X20932629
- Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 577-595. Association for Computational Linguistics, Online (2020) . http://dx.doi.org/10.18653/v1/2020.emnlp-main.43.
- Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, pp. 175-200. Faculty of „Artes Liberales”, University of Warsaw, Varsó (2016) . https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/.
- Shevelov, G.: Az ukrán nyelv történeti fonológiája (ukrán fordítás). Vakulenko, S., Danylenko, A. (ford.), Ushkalov, L. (szerk.). Naukove vydavnyctvo „AKTA”, Harkiv (2002, eredeti mű 1979-ben jelent meg) . http://irbis-nbuv.gov.ua/ulib/item/UKR0001641.
- Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (in Rusyn). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 39-66. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (in Rusyn). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 67-84. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Vaňko, J.: A ruszin nyelv Szlovákiában: a szikla és a kemény hely között. In: Duchêne, A. (szerk.): International Journal of the Sociology of Language, 2007. évf. 183. szám, 75-96. o. Walter de Gruyter GmbH, Berlin (2007) . https://doi.org/10.1515/IJSL.2007.005.
- Szopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, pp. 454-487. Ukrán Nemzeti Tudományos Akadémia, Ukrán Tanulmányok Országos Szövetsége, Rylsky Művészettudományi, Folklór- és Etnológiai Intézet, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
- Orynycz, P.: Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia a HCI-ben. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567-580. Springer, Cham (2022) . https://doi.org/10.1007/978-3-031-05643-7_37.
- Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021) . https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862.
- Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Cambridge (2019) . https://doi.org/10.1017/S1351324919000287.
- Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (lengyelül). Rutenika, Varsó (2004).
- Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (ukránul). Sziverszijja MV, Ivano-Frankivszk (2004).
- Duda, I.: Lemkivsʹkyj slovnyk (ukránul). Aston, Ternopil (2011).
- Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Varsó (1995).
- Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
- Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (szerk.). Zjednoczenie Łemków, Gorlice (2013).
- Post, M.: Felhívás a BLEU-pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186-191. Association for Computational Linguistics, Brüsszel (2018) . https://doi.org/10.48550/arXiv.1804.08771.
- Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), pp. 311-318. Association for Computational Linguistics, Philadelphia (2002) . https://doi.org/10.3115/1073083.1073135.
- Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, pp. 223-231. Association for Machine Translation in the Americas, Cambridge (2006) . https://aclanthology.org/2006.amta-papers.25.
- Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392-395. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049