BLEU Skies for Endangered Language Revitalization: Lemko Rusyn és az ukrán neurális AI fordítási pontossága az egekbe szökik

Absztrakt

A felgyorsuló globális nyelvvesztés, amely a tiltott szerek használatának, a 2-es típusú cukorbetegségnek, a mértéktelen ivásnak és a testi sértéseknek az emelkedett gyakoriságával, valamint a fiatalok hatszoros öngyilkossági arányával jár együtt, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Olyan környezetben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek az örökölt nyelvek újjáélesztésére és az új beszélők képessé tételére, mivel lehetővé teszik számukra, hogy azonnali fordítással megértsék és megértsék őket. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, például a megfizethetetlen költségeket és a kimenet minőségével kapcsolatos problémákat. Megoldást jelenthet a neurális motorok párosítása a klasszikus, szabályalapú motorokkal, amelyek lehetővé teszik a mérnökök számára a kölcsönszavak megtisztítását és a domináns nyelvek interferenciájának semlegesítését. Ez a munka a LemkoTran.com oldalon alkalmazott motor átalakítását írja le, hogy lehetővé tegye a lemkó nyelvre való fordítást és a lemkó nyelvből való fordítást, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású előadás, amely a Lengyelország és Szlovákia közötti határvidéken honos (ahol ruszin nyelvként is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag megalapozott főnév-, ige- és melléknév-generátorokkal látták el, amelyeket 877 lemmával és 708 szószedettel együtt tápláltak, és az egész rendszert 9518 automatikus, kodifikációs hivatkozásokkal ellátott, átmenő minőségellenőrzési tesztekkel szegecselték le. Ennek a munkának a gyümölcse a legutóbbi publikáció óta 23%-os javulás az angol nyelvű fordítás minőségében, és 35%-os minőségi növekedés az angolról lemkói nyelvre történő fordításban, olyan fordításokat biztosítva, amelyek minden mérőszámban felülmúlják a Google Translate szolgáltatásait, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán nyelvű szolgáltatása, amikor lemkói nyelvre fordítanak.

Kérjük, idézze a következőket: (2023). BLEU égisze alatt a veszélyeztetett nyelvek revitalizációja: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

Bővebben: BLEU Skies for Endangered Language Revitalization: Lemko Rusyn és az ukrán neurális AI fordítási pontossága az egekbe szökik

A hozzájárulásnak ezt a változatát a szakértői értékelés után elfogadták publikálásra, de ez nem a hivatalos változat, és nem tükrözi az elfogadást követő javításokat vagy javításokat. A változat online elérhető a https://doi.org/10.1007/978-3-031-35894-4_10 címen. Ennek az elfogadott változatnak a felhasználására a kiadó elfogadott kézirat felhasználási feltételei vonatkoznak: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

1 Bevezetés

1.1 A probléma

A nyelvek negyedévenként legalább egyet veszítenek, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, ami több mint 1500 beszélő közösséget érint [1, 163. és 169. oldal]. Ezek az eredmények összefüggésbe hozhatók az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a testi sértés [4] megnövekedett gyakoriságával, valamint a fiatalok öngyilkossági arányának hatszorosával, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].

Egy nemrégiben az Egyesült Államokban végzett tanulmány szerint az őslakosok nyelvhasználata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi beszélőkön végzett kísérlet azt találta, hogy a lemkó használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].

A mesterséges intelligencia gépi fordítás a haldokló és alvó nyelvek újjáélesztésével a fent említett védőhatások terjesztésében az örökséget beszélőkre is szolgálatot tehet [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnának elő, és élvezhetnék az olvasásértést, ha az automatikus gépi fordítóberendezéseket segítségül használnák, amíg a teljes, önálló folyékony beszédkészség el nem érhető.

1.2 A vizsgált rendszer

Nyelv

A lemko egy véglegesen vagy súlyosan veszélyeztetett [9, 177-178. o.], délnyugat-ukrajnai genetikai besorolású [10, 52. o.; 11, 39. o.] kelet-szláv előadás, amely a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszinnak nevezik [11, 39. o.; 12].

Keleti határok

A lemkótól keletre megkülönböztető egyedi izoglossza a rögzített paroxitóniás (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös [10, 161-162. és 972-973. o.; 11, 50. o.; 13, 70-73. o.], és Kelet-Szlovákiában legalább a Laborec folyóig terjed, és utána egy átmeneti zóna húzódik [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a Lemko történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig terjed, és egy átmeneti zóna ezeken túlra terjed [11, 50. o.].

Nyugati határok

Lemko történelmi nyugati határai a Poprad és a Dunajec folyók [14, 459. o.].

Helyszín

Az anyanyelvi beszélők ősi falvai, amelyek interjúi a korpuszt alkotják, a mai Lessor Poland tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.

Lemko névÁtírásLengyel névMegyeszékhelyKözségi székhely
ІзбыIzbŷIzbyGorliceUście Gorlickie
ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
ЧорнеČorneCzarneGorliceSękowa
ДолгеDolheDługieGorliceSękowa
БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
ФльоринкаFlʹorynkaFlorynkaNowy SączGrybów
ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
1. táblázat. A korpuszanyagban megkérdezett anyanyelvi beszélők ősi falvai.

2 A technika jelenlegi állása

Tavaly publikálták a világ első minőségi értékelési eredményeit a Lemkóba történő gépi fordításokról: BLEU 6,28, ami majdnem háromszorosa a Google Translate ukrán szolgáltatásának[1] (BLEU 2,17) [15, 570. o.]. Egy évvel korábban kollégáimmal közöltük és bemutattuk a világ első Lemko-angol gépi fordítási eredményeit: BLEU 14.57 [16].


[1] Közzététel: fizetett ukrán, lengyel és orosz fordítási minőségellenőrző szakemberként dolgozom a Google Translate projektben. Ügyfelem székhelye a kaliforniai San Franciscóban található.

A motort a https://www.LemkoTran.com egyetemes erőforráskeresőben telepítették és tették szabadon elérhetővé, ahol 2017 ősze óta működik egy átíró motor. A fordítómotorra először nyomtatásban Dr. Scherrer és Rabus utaltak a Cambridge University Press folyóirat Natural Language Engineering című folyóiratában 2019-ben [17].

3 Anyagok és módszerek

3.1 Anyagok

A kísérletet egy kétnyelvű korpuszon végeztük, amely a lengyelországi ősök földjéről való kényszerű kitelepítések túlélőivel és gyermekeivel készített interjúk Lemko cirill betűs átirataiból és angol fordításaiból állt. Az átiratokat és fordításaikat[1] 3267 szegmensben igazítottuk egymáshoz, a Microsoft Word 68 944 lemkó forrásszót és 81 188 angol célszót adott meg.


[1] Az átiratok elkészítésére és lefordítására a Delaware állambeli Wilmingtonban működő John és Helen Timo Alapítvány bérelt fel, akik aztán a munkadarabokat tudományos kutatási és fejlesztési törekvéseimhez adományozták.

Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22] és Petro Pyrtej [23] nyelvtárai.

3.2 Módszerek

Motorfejlesztések

Ehhez a kísérlethez a LemkoTran.com-nál alkalmazott motort újonnan épített generátorokkal látták el, amelyek a beszédrész, a nyelvtani eset és a szám alapján tájékozódtak, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül a fele nem flektál a lengyel vagy a lemkói nyelvben, ami lehetővé teszi az egyszerű helyettesítést.

Minőségbiztosítási vizsgálatok

A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint kereszthivatkozásokkal vetettek össze a fent az anyagok között felsorolt Lemko-kodifikációkkal, nyelvtanokkal és szótárakkal. Maguk a tesztek igazolják, hogy a rendszer a kívánt módon fordítja le az adott kifejezéseket.

LeírásMennyiség
Főnév törzse414
Igetörzs296
Melléknév törzse167
Főnév, személyes87
Főnév, egyéb178
Számok86
Egyéb szótári bejegyzések357
Összesen1,585
2. táblázat. Rendszer szókincs.

Szabályalapú gépi fordítás (RMBT)

A szöveget lemkói vagy lengyel megjelenésűvé tették a karaktersorozatok és különösen a szóvégek cseréjével.

Lengyel szekvenciaLemko szekvenciaPozíció
owaćuwatyVégleges
iamiiamyVégleges
ająajutVégleges
zezoKezdeti
podpidKezdeti
3. táblázat. Példa a karaktersorozat helyettesítésére.

Fordításminőségi pontozás

A fordítás minőségét az iparági szabványos mérőszámok alapján mértük a SacreBLEU eszköz alapértelmezett beállításainak használatával, amelyet Matt Post [24] talált ki az Amazon Researchnél. Az összehasonlíthatóság kedvéért a lengyel nyelvet Lemko cirill betűkkel adtuk vissza, ugyanúgy, mint a legutóbbi kísérletben [15, 573. o.].

Kétnyelvű értékelési alvállalkozó (BLEU)

Ez az n-gram-alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban az IBM T. J. Watson Kutatóközpontjában fejlesztették ki a Defense Advanced Research Projects Agency (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].

Fordítási szerkesztési arány (TER)

Ez a mérőszám azt tükrözi, hogy hány szerkesztés szükséges ahhoz, hogy a kimenet szemantikailag megközelítse a helyes fordítást, és a BLEU-nál és más n-gramm-alapú mérőszámoknál toleránsabb legyen a kifejezésbeli eltolódásokkal szemben. Ezt úgy határozzuk meg, hogy a hipotézis és a referencia közötti szerkesztési távolságot elosztjuk a referencia átlagos szószámával. Fejlesztését az Egyesült Államokban a DARPA is támogatta [26].

Karakter n-gram F-pontszám (chrF)

Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi értékelésekkel, sőt, még a BLEU és a TER értékeket is felülmúlja [27].

4 Eredmények és vita

A kísérleti rendszer, a LemkoTran.com, minden mérőszámban felülmúlta a Google Translate szolgáltatásait. Az angol-Lemko fordítás BLEU minőségi pontszámai 35%-kal javultak a legutóbb közzétett eredményekhez képest [15], és négyszer jobb eredményeket produkáltak, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatás. Eközben a Lemko-angol fordítás minősége 23%-kal javult a legutóbb közzétett eredményekhez képest [16], és 16%-kal magasabb BLEU-pontszámokat ért el, mint a Google Translate által elért legjobb eredmény, amely az esetek 76%-ában automatikusan ukránnak, 16%-ában orosznak, 6%-ában pedig fehérorosznak ismerte fel a Lemkót.

4.1 Angol-Lemko fordítási minőség

Pontszámok

A LemkoTran.com oldalon használt motor minden tekintetben felülmúlta a Google Translate fordítóprogramot az angolról lemkóra történő fordítás során. A kísérletben a következő legmagasabb pontszámot elért rendszer vagy a Google Translate ukrán szolgáltatásának eredménye (a BLEU vagy a chrF mérőszámok alapján) vagy a lengyel szolgáltatásé (a TER mérőszám alapján) volt.

BLEU

A LemkoTran.com-nál alkalmazott rendszer fordítási minősége a legelterjedtebb BLEU-mérőszámmal mérve 8,48-ra emelkedett, ami 35%-os javulást jelent a legutóbb 2022-ben [15] közzétett eredményekhez képest, és immár négyszerese a Google Translate legmagasabb pontszámának.

Ábra. 1. Angol-Lemko fordítás minősége a Bilingual Evaluation Understudy (BLEU) pontszám, Google Cloud Neural Machine Translation (NMT) szolgáltatások és a LemkoTran.com összehasonlítása alapján. Minél magasabb, annál jobb.
chrF

A LemkoTran.com motor érte el a legjobb angol-lemkó karakter n-gram f-értéket (chrF 37,30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása a Lemko-korpuszhoz mérve e mérőszámmal magasabb pontszámot ért el, mint lengyel és fehérorosz társai.

Ábra. 2. Angol-Lemko fordítás minősége a karakter n-gram F-score (chrF) pontszámmal mérve, Google Cloud Neural Machine Translation (NMT) és a LemkoTran.com kísérleti rendszerrel szemben. Minél magasabb, annál jobb.
TER

A LemkoTran.com motor érte el a legjobb angol-lemkó fordításszerkesztési arányt (TER), 81,33 ponttal. A Google Translate lengyel szolgáltatása a második legjobb eredményt érte el, amelyet szorosan követett az ukrán szolgáltatása.

Ábra. 3. Angolról Lemkóra fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Minél alacsonyabb, annál jobb.

Minták

A fordítórendszerek kimenete az alábbiakban látható, ha angolul táplálják.

BemenetA mi gyerekeink is okosak voltak. De hol kellett volna tanulniuk?
LeírásKimenetÁtírásMinőségi pontszámok
Lemko referencia
(anyanyelvi beszélő)
В нас діти тіж были мудры, але де мали ся inчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
chrF2 100
TER 0
Lemkó fordítás a
LemkoTran.com által Lemko nyelvre fordítva.
Нашы діти тіж были мудры. але де мали ся inчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
chrF2 79,03
TER 27,27
Google Translate (vezérlés)Fordítás ukrán nyelvreНаші діти теж були розумними. Але де вони мали inчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4,41
chrF2 25,80
TER 72,73
Fordítás oroszraНаши дети тоже были умными. Но где им было учиться? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3,71
chrF2 16,95
TER 90,91
Fordítás lengyel nyelvreНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3,12
chrF2 13,84
TER 100
 Fehérorosz fordításРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3,09
chrF2 12,83
TER 100
4. táblázat. Fordítási hipotézisek összehasonlítása az angol bemenethez.
BemenetÉs általában véve a lengyelországi lemkóknak nincs olyan vezetőjük, hogy úgy mondjam, aki mondana valamit.
LeírásTermékÁtírásMinőségi pontszámok
Lemko referencia (anyanyelvi beszélő)А воґулі Лемкы in Польщы nem мают такого, же so повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
chrF2 100
TER 0
LemkoTran.com fordítása Lemko nyelvreІ генеральні Лемкы in Польщы nem мают лидера, же so повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
chrF2 65,32
TER 29,41
Google Translate (vezérlés)Fordítás lengyel nyelvreІ ґенеральнє Лемковє in Польсце нє майон лідера, же so повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
chrF2 29,29
TER 82,35

Fordítás ukrán nyelvreІ взагалі, лемки in Польщі nem мають лідера, so би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Fordítás oroszraИ вообще, у лемков in Польше нет, so сказать, лидера, который бы valami mondta.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
chrF2 25,87
TER 88,24
 Fehérorosz fordításІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, így бы мовіць, які б б nemшта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
chrF2 18,05
TER 94,12
5. táblázat. Fordítási hipotézisek összehasonlítása az angol bemenethez.

Lemko to English fordítás

Pontszámok

A LemkoTran.com-nál alkalmazott motor minden mérőszámban felülmúlta a Google Fordítót, amely a szabványos ukrán nyelvből történő fordításban mindig a második legjobb volt, majd a forrásnyelv automatikus felismerése, majd a fehérorosz nyelvből történő fordítás, majd a lengyel nyelv, és az orosz nyelv mindig az utolsó helyen végzett. A Google Fordító az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a többi esetben pedig különféle cirill betűs nyelvként (pl. mongol) ismerte fel a Lemkót.

BLEU

A LemkoTran.com angolra fordításkor 17,95 BLEU pontszámot ért el, ami 23%-os javulást jelent a legutóbb közzétett 14,57-es BLEU eredményhez képest, és 16%-kal magasabb, mint a Google Translate ukrán szolgáltatásának 15,43-as BLEU pontszáma.

Ábra. 4. Lemko-angol fordítás minősége a Bilingual Evaluation Understudy (BLEU) pontszám, Google Cloud Neural Machine Translation (NMT) szolgáltatások és a kísérleti rendszer LemkoTran.com összehasonlítása. Minél magasabb, annál jobb.
chrF

A LemoTran.com-nál alkalmazott motor az angol nyelvre történő fordítás során 45,89-es karakter n-gram f-pontszámot (chrF) ért el, ami 5%-kal jobb, mint a Google Translate ukrán szolgáltatásának pontszáma.

Ábra. 5. Lemko-angol fordítás minősége a karakter n-gram F-score (chrF) pontszámmal mérve, Google Cloud Neural Machine Translation (GNMT) és a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER

A LemkoTran.com 70,38-as fordítási arányt (TER) ért el angolra fordításkor, ami 7%-kal jobb, mint a Google Translate ukrán szolgáltatásának pontszáma.

Ábra. 6. Lemko-angol fordítás szerkesztési aránya (TER), Google Cloud Neural Machine Translation (GNMT) és a LemkoTran.com kísérleti rendszer összehasonlítása. Minél alacsonyabb, annál jobb.

Minták

A fordítórendszerek kimenete az alábbiakban látható, ha angolul táplálják.

 LeírásTermékMinőség
pontszámok
Lemko bemeneti átirata anyanyelvi beszélő által beszélt nyelven LemkoЯк розділяме языкы, то мала-м контакт з польскым, то nem было így, же пішла-м до iskola без польского, бо зме мали сусідів Поляків.n/a
ÁtírásJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.n/a
Referenciafordítás kétnyelvű szakember általAmi a nyelvek szétválasztását illeti, a lengyel nyelvvel volt kapcsolatom. Nem úgy kezdtem az iskolát, hogy nem tudtam lengyelül, mert lengyel szomszédaink voltak. BLEU 100
chrF2 100
TER 0
Lemkóból a LemkoTran.com rendszerével készült fordítás.Amikor szétválasztottuk a nyelveket, én kapcsolatba kerültem a lengyel nyelvvel, nem volt olyan, hogy lengyel nélkül jártam iskolába, mert voltak lengyel szomszédaink.BLEU 45,84
chrF2 69,60
TER 32,00
Google Translate (vezérlés)ukrán nyelvből (92%-os biztonsággal automatikusan felismerhető)Ahogy osztjuk a nyelveket, akkor érintkeztem lengyelül, aztán nem így volt, és lengyel nélkül jártam iskolába, mert a lengyelek voltak a szomszédaim.BLEU 15,87
chrF2 54,38
TER 72,00
fehéroroszulAhogy szétválasztjuk a nyelveket, akkor kevéssé érintkeztem lengyelül, aztán nem így volt, hanem lengyel nélkül jártam iskolába, mert kevés lengyel szomszédunk volt.BLEU 11,76
chrF2 58,92
TER 68,00
oroszulAhogy terjesztettük a nyelveket, akkor kevés volt a kapcsolat a lengyellel, aztán nem így volt, de én lengyel nélkül jártam iskolába, mert a kígyók szukidok voltak Poljakivban.BLEU 6,87
chrF2 42,66
TER 92,00
lengyelülAhogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem volt olyan, hogy lengyel nélkül jártam iskolába, mert a kis lengyel nyelvemet meg fogom változtatni.BLEU 5,02
chrF2 45,35
TER 84,00
6. táblázat. Lemko bemenetre vonatkozó fordítási hipotézisek összehasonlítása.

5 Következtetés

A morfológiailag és szintaktikailag tájékozott generátorok neurális motorokhoz való kapcsolása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben a mérnökök számára lehetővé teszi a kölcsönszavak eltávolítását és más domináns nyelvi interferenciák ellensúlyozását, valamint a szabványoknak való megfelelés biztosítását, például a kisebbségi nyelvek kodifikációját. A mesterséges intelligenciamodellek tökéletlenségei miatt a minőségi pontszámok üvegplafonját is le lehet dönteni a jó mérnöki munka segítségével. A lemkó, valamint az alacsony erőforrású, őshonos kisebbségi nyelvek esetében a fordítási minőség, valamint az élesztési forradalmak tekintetében a horizonton túl már csak a határ a csillagos ég.

Köszönetnyilvánítás

Szeretnék köszönetet mondani Dr. Ming Qian-nak a Charles River Analytics-től a kísérlet elvégzéséhez adott inspirációért, Michael Decerbo-nak a Raytheon BBN Technologies-tól és Dr. James Joshua Pennington-nak az értő megjegyzéseikért, valamint Dr. Yves Scherrer-nek a Helsinki Egyetemről a projekt iránti érdeklődéséért és ötleteiért.

Hivatkozások

  1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: A nyelvek veszélyeztetettségének globális előrejelzői és a nyelvi sokszínűség jövője. Nature Ecology & Evolution 6, 163-173 (2022) . https://doi.org/10.1038/s41559-021-01604-y.
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi. org/10.5325/aboriginal.1.2.0176.
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Kulturális folytonosság, hagyományos őslakos nyelv és cukorbetegség az albertai első nemzeteknél: vegyes módszertani vizsgálat. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4. https://doi.org/10.1186/s12939-014-0092-4
  4. Kultúra, örökség és szabadidő: Az őslakos és Torres-szoros-szigeteki nyelvek beszélése. In: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A hangsúly a gyermekekre és fiatalokra helyezve. Ausztrál Statisztikai Hivatal (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C..: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001. https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Az őslakosok nyelvhasználatának és újraélesztésének egészségügyi hatásai: egy reális áttekintés. International Journal for Equity in Health 21, 169. (2022) . https://doi.org/10.1186/s12939-022-01782-6.
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629. https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 577-595. Association for Computational Linguistics, Online (2020) . http://dx.doi.org/10.18653/v1/2020.emnlp-main.43.
  9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, pp. 175-200. Faculty of „Artes Liberales”, University of Warsaw, Varsó (2016) . https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/.
  10. Shevelov, G.: Az ukrán nyelv történeti fonológiája (ukrán fordítás). Vakulenko, S., Danylenko, A. (ford.), Ushkalov, L. (szerk.). Naukove vydavnyctvo „AKTA”, Harkiv (2002, eredeti mű 1979-ben jelent meg) . http://irbis-nbuv.gov.ua/ulib/item/UKR0001641.
  11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (in Rusyn). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 39-66. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (in Rusyn). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 67-84. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: A ruszin nyelv Szlovákiában: a szikla és a kemény hely között. In: Duchêne, A. (szerk.): International Journal of the Sociology of Language, 2007. évf. 183. szám, 75-96. o. Walter de Gruyter GmbH, Berlin (2007) . https://doi.org/10.1515/IJSL.2007.005.
  14. Szopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, pp. 454-487. Ukrán Nemzeti Tudományos Akadémia, Ukrán Tanulmányok Országos Szövetsége, Rylsky Művészettudományi, Folklór- és Etnológiai Intézet, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Orynycz, P.: Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia a HCI-ben. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567-580. Springer, Cham (2022) . https://doi.org/10.1007/978-3-031-05643-7_37.
  16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021) . https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862.
  17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Cambridge (2019) . https://doi.org/10.1017/S1351324919000287.
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (lengyelül). Rutenika, Varsó (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (ukránul). Sziverszijja MV, Ivano-Frankivszk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (ukránul). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Varsó (1995).
  22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (szerk.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: Felhívás a BLEU-pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186-191. Association for Computational Linguistics, Brüsszel (2018) . https://doi.org/10.48550/arXiv.1804.08771.
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), pp. 311-318. Association for Computational Linguistics, Philadelphia (2002) . https://doi.org/10.3115/1073083.1073135.
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, pp. 223-231. Association for Machine Translation in the Americas, Cambridge (2006) . https://aclanthology.org/2006.amta-papers.25.
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392-395. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049

Megjegyzések

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Ez az oldal az Akismetet használja a spamek csökkentése érdekében. Ismerje meg, hogyan dolgozzák fel a hozzászólási adatait.