This site is undergoing a full revamp. Layout may be temporarily broken.

BLEU kilátások a veszélyeztetett nyelvek revitalizációjához: lemkó-ruszin és ukrán neurális AI fordítási pontosság szárnyal (2023)

Petro Orynycz portréja a „BLEU kilátások” és a „lemkó neurális AI” szavakkal fehér háttéren

Absztrakt

A globális nyelvvesztés felgyorsulása, amely az illegális szerhasználat, a 2-es típusú cukorbetegség, a mértéktelen alkoholfogyasztás és a támadások fokozott előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági rátával jár, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Azokban a környezetekben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek revitalizálni az örökségi nyelveket és felhatalmazni az új beszélőket azáltal, hogy lehetővé teszik számukra az azonnali fordítás révén történő megértést és megértetést. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, mint például a tiltó költségek és a kimeneti minőségi problémák. A megoldás az, hogy a neurális motorokat klasszikus, szabályalapú motorokkal párosítjuk, amelyek lehetővé teszik a mérnökök számára, hogy megtisztítsák a jövevényszavakat és semlegesítsék a domináns nyelvek interferenciáját. Ez a munka leírja a LemkoTran.com-on telepített motor átalakítását, hogy lehetővé tegye a fordítást a lemkó nyelvre és nyelvről, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású nyelv, amely Lengyelország és Szlovákia határvidékén őshonos (ahol ruszin néven is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag informált főnév-, ige- és melléknévgenerátorokkal szerelték fel, amelyeket 877 lemma és 708 szószedeti bejegyzés táplált, és az egész rendszert 9518 automatikus, kodifikációra hivatkozó, kötelezően átmenő minőségellenőrzési teszttel szegecselték. Ennek a munkának az eredménye 23%-os javulás az angolra fordítás minőségében az utolsó publikáció óta, és 35%-os minőségi növekedés az angolról lemkóra fordításban, olyan fordításokat biztosítva, amelyek minden Google Translate szolgáltatást felülmúlnak minden mérőszám szerint, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán szolgáltatása, amikor lemkóra fordítanak.

Kérem, hivatkozzon így:

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, 14051. kötet. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

1 Bevezetés

1.1 A probléma

A nyelvek legalább negyedévente egy nyelvet elveszítve tűnnek el, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, több mint 1500 beszélő közösséget érintve [1, 163. és 169. o.]. Ezek az eredmények összefüggésben állnak az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a támadások [4] megnövekedett előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági arányokkal, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].

Egy friss amerikai tanulmány kimutatta, hogy az őslakos nyelvek használata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi kísérlet kimutatta, hogy a lemkó nyelv használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].

A mesterséges intelligencia gépi fordítás segíthet az említett védőhatások terjesztésében az örökölt nyelvek beszélői körében, a haldokló és alvó nyelvek újjáélesztésével [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnak elő, és élvezhetik az olvasás megértését automatikus gépi fordítóeszközök segítségével, amíg el nem érik a teljes, független folyékonyságot.

1.2 Vizsgált rendszer

Nyelv

A lemkó egy határozottan súlyosan veszélyeztetett [9, 177–178. o.] kelet-szláv nyelvjárás, amely délnyugat-ukrán genetikai besorolású [10, 52. o.; 11, 39. o.], és a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszin néven is emlegetik [11, 39. o.; 12].

Keleti határok

A lemkót keletre megkülönböztető egyedi izoglossza a rögzített paroxiton (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös jellemző [10, 161–162. és 972–973. o.; 11, 50. o.; 13, 70–73. o.], így kiterjedése Kelet-Szlovákiában legalább a Laborc folyóig terjed, utána átmeneti zónával [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a lemkó történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig ér, azon túl átmeneti zónával [11, 50. o.].

Nyugati határok

A lemkó történelmi nyugati határai a Poprád és a Dunajec folyók [14, 459. o.].

Elhelyezkedés

Az anyanyelvi beszélők ősi falvai, akiknek interjúi alkotják a korpuszt, a mai Kis-Lengyelország tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.

lemkó névÁtírásLengyel névMegyeszékhelyKözségi székhely
ІзбыIzbŷIzbyGorliceUście Gorlickie
ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
ЧорнеČorneCzarneGorliceSękowa
ДолгеDolheDługieGorliceSękowa
БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
ФльоринкаFlʹorynkaFlorynkaNowy SączGrybów
ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
1. táblázat. A korpusz anyagában megkérdezett anyanyelvi beszélők ősi falvai.

2 A technológia állása

Tavaly publikálták a világ első minőségi értékelési eredményeit a lemkó gépi fordításokra vonatkozóan: BLEU 6.28, ami közel háromszorosa volt a Google Translate ukrán szolgáltatásának[1] (BLEU 2.17) [15, 570. o.]. Az előző évben kollégáimmal publikáltuk és bemutattuk a világ első eredményeit a lemkó-angol gépi fordításra vonatkozóan: BLEU 14.57 [16].


[1] Nyilatkozat: Fizetett ukrán, lengyel és orosz fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben. Ügyfelem székhelye San Franciscóban, Kaliforniában található.

A motor telepítésre került, és ingyenesen elérhetővé vált az univerzális erőforrás-azonosítón https://www.LemkoTran.com, ahol egy átírási motor működik 2017 őszétől. A fordítómotorra először Dr. Scherrer és Dr. Rabus hivatkozott nyomtatásban a Cambridge University Press Natural Language Engineering című folyóiratában 2019-ben [17].

3 Anyagok és módszerek

3.1 Anyagok

A kísérletet egy kétnyelvű korpuszon végezték, amely lemkó cirill átiratokat és angol fordításokat tartalmazott a Lengyelországban őshonos földekről erőszakkal áttelepített túlélőkkel és gyermekeikkel készített interjúkból. Az átiratokat és fordításaikat[1] 3267 szegmensben igazították egymáshoz, a Microsoft Word szerint a lemkó forrásszavak száma 68 944, az angol célszavak száma pedig 81 188 volt.


[1] A John és Helen Timo Alapítvány, Wilmington, Delaware, bízott meg az átiratok elkészítésével és lefordításával, akik ezután a munkatermékeket tudományos kutatási és fejlesztési törekvéseimhez adományozták.

Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22], valamint Petro Pyrtej [23] nyelvtanai.

3.2 Módszerek

Motorfrissítések

Ehhez a kísérlethez a LemkoTran.com-on telepített motort újonnan épített generátorokkal szerelték fel, amelyek a szófaj, a nyelvtani eset és a szám alapján készültek, azzal a céllal, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül fele nem ragozódik lengyelül vagy lemkóul, lehetővé téve az egyszerű helyettesítést.

Minőségbiztosítási tesztek

A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint összevetettek a fentebb, az Anyagok alatt felsorolt lemkó kodifikációkkal, nyelvtani szabályokkal és szótárakkal. Maguk a tesztek azt állítják, hogy a rendszer a megadott mondatokat a kívánt módon fordítja.

LeírásMennyiség
Főnév tő414
Ige tő296
Melléknév tő167
Névmás, személyes87
Névmás, egyéb178
Számnév86
Egyéb szótárbejegyzések357
Összesen1,585
2. táblázat. Rendszerszókincs.

Szabályalapú gépi fordítás (RMBT)

A szöveg lemkó vagy lengyel hangulatot kapott a karaktersorozatok, és különösen a ragozási végződések cseréjével.

Lengyel szekvenciaLemkó sorozatPozíció
owaćuwatyVégződés
iamiiamyVégződés
ająajutVégződés
zezoKezdő
podpidKezdő
3. táblázat. Példa karakterlánc-cserékre.

Fordítási minőség pontozása

A fordítási minőséget ipari szabványok szerinti mérőszámokkal mérték a SacreBLEU eszköz alapértelmezett beállításait használva, amelyet Matt Post talált fel az Amazon Researchnél [24]. Az összehasonlíthatóság kedvéért a lengyel nyelvet lemkó cirill betűkkel adták vissza, ugyanúgy, mint az utolsó kísérletben [15, 573. o.].

Kétnyelvű értékelési tanulmány (BLEU)

Ez az n-gram alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban fejlesztették ki az IBM T. J. Watson Kutatóközpontban, a Védelmi Fejlett Kutatási Projektek Ügynökségének (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].

Fordítási szerkesztési arány (TER)

Ez a metrika a kimenet szemantikailag helyes fordításhoz való közelítéséhez szükséges szerkesztések számát tükrözi, célja, hogy toleránsabb legyen a kifejezésbeli eltolódásokkal szemben, mint a BLEU és más n-gram alapú metrikák. Meghatározása egy hipotézis és egy referencia közötti szerkesztési távolság számításának elosztásával történik az átlagos referencia szószámával. Fejlesztését az Egyesült Államokban szintén a DARPA támogatta [26].

Karakter n-gram F-pontszám (chrF)

Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi ítéletekkel, és még a BLEU-t és a TER-t is felülmúlja [27].

4 Eredmények és megbeszélés

A kísérleti rendszer, a LemkoTran.com, minden mérőszám szerint felülmúlta a Google Translate összes szolgáltatását. Az angol-lemkó fordítás BLEU minőségi pontszámai 35%-kal javultak az utoljára publikált eredményekhez képest [15], négyszer jobb eredményt produkálva, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatása. Eközben a lemkó-angol fordítás minősége 23%-kal javult az utoljára publikált eredmények óta [16], 16%-kal magasabb BLEU pontszámot érve el, mint a Google Translate által elért legjobb, amely az esetek 76%-ában automatikusan ukránként, 16%-ában oroszként, és 6%-ában fehéroroszként ismerte fel a lemkót.

4.1 Angol-lemkó fordítási minőség

Pontszámok

A LemkoTran.com-on telepített motor minden mérőszám szerint felülmúlta a Google Translate-et, amikor angolról lemkóra fordított. A kísérletben a következő legmagasabb pontszámot elérő rendszer vagy a Google Translate ukrán szolgáltatásának kimenete volt (a BLEU vagy chrF metrikák használatával), vagy a lengyel szolgáltatásáé (a TER metrika használatával).

BLEU

A LemkoTran.com-on telepített rendszer fordítási minősége, a legelterjedtebb BLEU metrika szerint mérve, 8,48-ra emelkedett, ami 35%-os javulást jelent a 2022-ben utoljára publikált eredményekhez képest [15], és most négyszerese a Google Fordító legmagasabb pontszámának.

1. ábra. Angol-lemkó fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus LemkoTran.com. Minél magasabb, annál jobb.
chrF

A LemkoTran.com motorja érte el a legjobb angol-lemkó karakter n-gram F-pontszámot (chrF 37.30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása magasabb pontszámot ért el, mint a lengyel és fehérorosz megfelelői, amikor a lemkó korpuszhoz viszonyítva mérték ezt a metrikát.

2. ábra. Angol-lemkó fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (NMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER

A LemkoTran.com motorja érte el a legjobb angol-lemkó fordítási szerkesztési arányt (TER), 81.33 pontszámmal. A Google Translate lengyel szolgáltatása érte el a második legjobb eredményt, szorosan követve az ukrán szolgáltatását.

3. ábra. Angol-lemkó fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Minél alacsonyabb, annál jobb.

Példák

Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.

BemenetA gyermekeink is okosak voltak. De hol kellett volna tanulniuk?
LeírásKimenetÁtírásMinőségi pontszámok
Lemkó referencia
(anyanyelvi beszélő)
В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
chrF2 100
TER 0
Fordítás lemkó nyelvre
LemkoTran.com által
Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
chrF2 79,03
TER 27,27
Google Fordító (kontroll)Fordítás ukrán nyelvreНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4,41
chrF2 25,80
TER 72,73
Fordítás orosz nyelvreНаши дети тоже были умными. Но где им было учиться? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3,71
chrF2 16,95
TER 90,91
Fordítás lengyel nyelvreНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3,12
chrF2 13,84
TER 100
 Fordítás fehérorosz nyelvreРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3,09
chrF2 12,83
TER 100
4. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
BemenetÉs általánosságban elmondható, hogy a lengyelországi lemkóknak nincs, úgymond, olyan vezetőjük, aki mondana valamit.
LeírásTermékÁtírásMinőségi pontszámok
Lemkó referencia (anyanyelvi beszélő)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
chrF2 100
TER 0
Fordítás lemkó nyelvre a LemkoTran.com általІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral’ni Lemkŷ v Pol’ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
chrF2 65,32
TER 29,41
Google Fordító (kontroll)Fordítás lengyel nyelvreІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
chrF2 29,29
TER 82,35

Fordítás ukrán nyelvreІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Fordítás orosz nyelvreИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
chrF2 25,87
TER 88,24
 Fordítás fehérorosz nyelvreІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
chrF2 18,05
TER 100
5. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.

Lemkó-angol fordítás

Pontszámok

Minden mérőszám szerint a LemkoTran.com-on telepített motor felülmúlta a Google Translate-et, amelynél a standard ukrán nyelvről történő fordítás mindig a második legjobb volt, ezt követte a forrásnyelv automatikus felismerése, majd a fehéroroszról, aztán a lengyelről történő fordítás, az orosz pedig mindig az utolsó helyen végzett. A Google Translate az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a fennmaradó időben pedig egyéb cirill betűs nyelvekként (pl. mongol) ismerte fel a lemkót.

BLEU

A LemkoTran.com 17,95 BLEU pontszámot ért el angolra fordítva, ami 23%-os javulás az utoljára publikált 14,57 BLEU pontszámhoz képest, és 16%-kal magasabb, mint a Google Fordító ukrán szolgáltatásának 15,43 BLEU pontszáma.

4. ábra. Lemkó-angol fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
chrF

A LemoTran.com-on telepített motor 45,89 karakteres n-gram f-pontszámot (chrF) ért el angolra fordítva, ami 5%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.

5. ábra. Lemkó-angol fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER

A LemkoTran.com 70,38 Translation Edit Rate (TER) pontszámot ért el angolra fordítva, ami 7%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.

6. ábra. Lemkó-angol fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél alacsonyabb, annál jobb.

Példák

Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.

 LeírásTermékMinőségi
pontszámok
Anyanyelvi beszélő által elmondott lemkó szöveg átirataЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.n/a
ÁtírásJak rozdiljame jazŷkŷ, to mala-m kontakt z pol’skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol’skoho, bo zme maly susidiv Poljakiv.n/a
Kétnyelvű szakember által készített referenciafordításAmi a nyelvek szétválasztását illeti, volt kapcsolatom a lengyellel. Nem úgy volt, hogy lengyel tudás nélkül kezdtem az iskolát, mert lengyel szomszédaink voltak. BLEU 100
chrF2 100
TER 0
Fordítás lemkó nyelvről a LemkoTran.com rendszerévelAmikor szétválasztjuk a nyelveket, volt kapcsolatom a lengyellel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert lengyel szomszédaink voltak.BLEU 45.84
chrF2 69.60
TER 32.00
Google Fordító (kontroll)ukránból (92%-os megbízhatósággal automatikusan felismerve)Ahogy felosztjuk a nyelveket, akkor volt kapcsolatom a lengyellel, akkor nem úgy volt, és lengyel tudás nélkül jártam iskolába, mert lengyelek voltak a szomszédaim.BLEU 15.87
chrF2 54.38
TER 72.00
belaruszbólAhogy szétválasztjuk a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert kevés lengyel szomszédunk volt.BLEU 11.76
chrF2 58.92
TER 68.00
oroszbólAhogy terjesztjük a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert a kígyók öngyilkosok voltak Polyakivban.BLEU 6.87
chrF2 42.66
TER 92.00
lengyelbőlAhogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert megváltoztatom a kis lengyel nyelvemet.BLEU 5.02
chrF2 45.35
TER 84.00
6. táblázat. A lemkó bemenet fordítási hipotéziseinek összehasonlítása.

5. Összefoglalás

A morfológiailag és szintaktikailag informált generátorok neurális motorokkal való párosítása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben azzal az előnnyel is jár, hogy a mérnökök megtisztíthatják a jövevényszavakat és ellensúlyozhatják a domináns nyelvi interferenciát, valamint biztosíthatják a szabványoknak való megfelelést, például a kisebbségi nyelvek kodifikációit. A mesterséges intelligencia modellekben rejlő tökéletlenségek által okozott minőségi pontszám-üvegplafonok is áttörhetők a megfelelő mérnöki munkával. A lemkó, valamint a hasonlóan alacsony erőforrású, őslakos kisebbségi nyelvek esetében a fordítási minőség, valamint a revitalizációs forradalmak tekintetében most már a határ a csillagos ég.

Köszönetnyilvánítás

Szeretném megköszönni Dr. Ming Qiannek (Charles River Analytics) a kísérlet elvégzéséhez nyújtott inspirációt, Michael Decerbónak (Raytheon BBN Technologies) és Dr. James Joshua Penningtonnak az éleslátó megjegyzéseiket, valamint Dr. Yves Scherrernek (Helsinki Egyetem) a projekt iránti érdeklődését és ötleteit.

Hivatkozások

  1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Kultúra, örökség és szabadidő: Aboriginal és Torres Strait Islander nyelvek beszélése. In: 4725.0 – Aboriginal és Torres Strait Islander jólét: Fókuszban a gyermekek és fiatalok. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-angol gépi fordítás a veszélyeztetett nyelvek revitalizációjához. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 577–595. o. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, 175–200. o. Faculty of “Artes Liberales”, University of Warsaw, Varsó (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Shevelov, G.: A Historical Phonology of the Ukrainian Language (ukrán fordítás). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo “AKTA”, Kharkiv (2002, original work published 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (ruszinul). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, 39–66. o. 2. kiadás. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (ruszinul). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, 67–84. o. 2. kiadás. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: A ruszin nyelv Szlovákiában: két tűz között. In: Duchêne, A. (szerk.) International Journal of the Sociology of Language, 2007. kötet, 183. szám, 75–96. o. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, 454–487. o. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Orynycz, P.: Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó revitalizálására. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, 13336. kötet, 567–580. o. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, 21176. számú cikk. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, 25. kötet, 5. szám, 633–650. o. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (lengyelül). Rutenika, Warsaw (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (ukránul). Siversiya MV, Ivano-Frankivsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (ukránul). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Warsaw (1995).
  22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: Felhívás a BLEU pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), 1. kötet, 186–191. o. Association for Computational Linguistics, Brüsszel (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), 311–318. o. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, 223–231. o. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
  27. Popović, M.: chrF: karakter n-gram F-pontszám az automatikus MT értékeléshez. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, 392–395. o. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049

Megjegyzések

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Ez az oldal az Akismetet használja a levélszemét csökkentésére. Tudja meg, hogyan dolgozzuk fel hozzászólásai adatait.