A globális nyelvvesztés felgyorsulása, amely az illegális szerhasználat, a 2-es típusú cukorbetegség, a mértéktelen alkoholfogyasztás és a támadások fokozott előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági rátával jár, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Azokban a környezetekben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek revitalizálni az örökségi nyelveket és felhatalmazni az új beszélőket azáltal, hogy lehetővé teszik számukra az azonnali fordítás révén történő megértést és megértetést. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, mint például a tiltó költségek és a kimeneti minőségi problémák. A megoldás az, hogy a neurális motorokat klasszikus, szabályalapú motorokkal párosítjuk, amelyek lehetővé teszik a mérnökök számára, hogy megtisztítsák a jövevényszavakat és semlegesítsék a domináns nyelvek interferenciáját. Ez a munka leírja a LemkoTran.com-on telepített motor átalakítását, hogy lehetővé tegye a fordítást a lemkó nyelvre és nyelvről, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású nyelv, amely Lengyelország és Szlovákia határvidékén őshonos (ahol ruszin néven is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag informált főnév-, ige- és melléknévgenerátorokkal szerelték fel, amelyeket 877 lemma és 708 szószedeti bejegyzés táplált, és az egész rendszert 9518 automatikus, kodifikációra hivatkozó, kötelezően átmenő minőségellenőrzési teszttel szegecselték. Ennek a munkának az eredménye 23%-os javulás az angolra fordítás minőségében az utolsó publikáció óta, és 35%-os minőségi növekedés az angolról lemkóra fordításban, olyan fordításokat biztosítva, amelyek minden Google Translate szolgáltatást felülmúlnak minden mérőszám szerint, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán szolgáltatása, amikor lemkóra fordítanak.
Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, 14051. kötet. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10
Orynycz, P.BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars
@incollection{orynycz2023bleu,
author = {Petro Orynycz},
title = {BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars},
booktitle = {Artificial Intelligence in HCI},
series = {Lecture Notes in Computer Science},
volume = {14051},
publisher = {Springer},
address = {Cham},
year = {2023},
doi = {10.1007/978-3-031-35894-4_10}
}
✅ A hozzájárulás ezen verzióját szakértői értékelés után elfogadták publikálásra, de nem ez a végleges kiadott verzió (Version of Record), és nem tükrözi az elfogadás utáni fejlesztéseket vagy javításokat. A végleges kiadott verzió (Version of Record) online elérhető a https://doi.org/10.1007/978-3-031-35894-4_10 címen. Az elfogadott verzió (Accepted Version) használatára a kiadó elfogadott kézirat felhasználási feltételei vonatkoznak: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
A nyelvek legalább negyedévente egy nyelvet elveszítve tűnnek el, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, több mint 1500 beszélő közösséget érintve [1, 163. és 169. o.]. Ezek az eredmények összefüggésben állnak az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a támadások [4] megnövekedett előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági arányokkal, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].
Egy friss amerikai tanulmány kimutatta, hogy az őslakos nyelvek használata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi kísérlet kimutatta, hogy a lemkó nyelv használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].
A mesterséges intelligencia gépi fordítás segíthet az említett védőhatások terjesztésében az örökölt nyelvek beszélői körében, a haldokló és alvó nyelvek újjáélesztésével [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnak elő, és élvezhetik az olvasás megértését automatikus gépi fordítóeszközök segítségével, amíg el nem érik a teljes, független folyékonyságot.
1.2 Vizsgált rendszer
Nyelv
A lemkó egy határozottan súlyosan veszélyeztetett [9, 177–178. o.] kelet-szláv nyelvjárás, amely délnyugat-ukrán genetikai besorolású [10, 52. o.; 11, 39. o.], és a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszin néven is emlegetik [11, 39. o.; 12].
Keleti határok
A lemkót keletre megkülönböztető egyedi izoglossza a rögzített paroxiton (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös jellemző [10, 161–162. és 972–973. o.; 11, 50. o.; 13, 70–73. o.], így kiterjedése Kelet-Szlovákiában legalább a Laborc folyóig terjed, utána átmeneti zónával [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a lemkó történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig ér, azon túl átmeneti zónával [11, 50. o.].
Nyugati határok
A lemkó történelmi nyugati határai a Poprád és a Dunajec folyók [14, 459. o.].
Elhelyezkedés
Az anyanyelvi beszélők ősi falvai, akiknek interjúi alkotják a korpuszt, a mai Kis-Lengyelország tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.
lemkó név
Átírás
Lengyel név
Megyeszékhely
Községi székhely
Ізбы
Izbŷ
Izby
Gorlice
Uście Gorlickie
Ґлaдышiв
Gladŷšiv
Gładyszów
Gorlice
Uście Gorlickie
Чорне
Čorne
Czarne
Gorlice
Sękowa
Долге
Dolhe
Długie
Gorlice
Sękowa
Білцарьова
Bilcarʹova
Binczarowa
Nowy Sącz
Grybów
Фльоринка
Flʹorynka
Florynka
Nowy Sącz
Grybów
Чырна
Čŷrna
Czyrna
Nowy Sącz
Krynica-Zdrój
1. táblázat. A korpusz anyagában megkérdezett anyanyelvi beszélők ősi falvai.
2 A technológia állása
Tavaly publikálták a világ első minőségi értékelési eredményeit a lemkó gépi fordításokra vonatkozóan: BLEU 6.28, ami közel háromszorosa volt a Google Translate ukrán szolgáltatásának[1] (BLEU 2.17) [15, 570. o.]. Az előző évben kollégáimmal publikáltuk és bemutattuk a világ első eredményeit a lemkó-angol gépi fordításra vonatkozóan: BLEU 14.57 [16].
[1] Nyilatkozat: Fizetett ukrán, lengyel és orosz fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben. Ügyfelem székhelye San Franciscóban, Kaliforniában található.
A motor telepítésre került, és ingyenesen elérhetővé vált az univerzális erőforrás-azonosítón https://www.LemkoTran.com, ahol egy átírási motor működik 2017 őszétől. A fordítómotorra először Dr. Scherrer és Dr. Rabus hivatkozott nyomtatásban a Cambridge University Press Natural Language Engineering című folyóiratában 2019-ben [17].
3 Anyagok és módszerek
3.1 Anyagok
A kísérletet egy kétnyelvű korpuszon végezték, amely lemkó cirill átiratokat és angol fordításokat tartalmazott a Lengyelországban őshonos földekről erőszakkal áttelepített túlélőkkel és gyermekeikkel készített interjúkból. Az átiratokat és fordításaikat[1] 3267 szegmensben igazították egymáshoz, a Microsoft Word szerint a lemkó forrásszavak száma 68 944, az angol célszavak száma pedig 81 188 volt.
[1] A John és Helen Timo Alapítvány, Wilmington, Delaware, bízott meg az átiratok elkészítésével és lefordításával, akik ezután a munkatermékeket tudományos kutatási és fejlesztési törekvéseimhez adományozták.
Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22], valamint Petro Pyrtej [23] nyelvtanai.
3.2 Módszerek
Motorfrissítések
Ehhez a kísérlethez a LemkoTran.com-on telepített motort újonnan épített generátorokkal szerelték fel, amelyek a szófaj, a nyelvtani eset és a szám alapján készültek, azzal a céllal, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül fele nem ragozódik lengyelül vagy lemkóul, lehetővé téve az egyszerű helyettesítést.
Minőségbiztosítási tesztek
A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint összevetettek a fentebb, az Anyagok alatt felsorolt lemkó kodifikációkkal, nyelvtani szabályokkal és szótárakkal. Maguk a tesztek azt állítják, hogy a rendszer a megadott mondatokat a kívánt módon fordítja.
Leírás
Mennyiség
Főnév tő
414
Ige tő
296
Melléknév tő
167
Névmás, személyes
87
Névmás, egyéb
178
Számnév
86
Egyéb szótárbejegyzések
357
Összesen
1,585
2. táblázat. Rendszerszókincs.
Szabályalapú gépi fordítás (RMBT)
A szöveg lemkó vagy lengyel hangulatot kapott a karaktersorozatok, és különösen a ragozási végződések cseréjével.
Lengyel szekvencia
Lemkó sorozat
Pozíció
ować
uwaty
Végződés
iami
iamy
Végződés
ają
ajut
Végződés
ze
zo
Kezdő
pod
pid
Kezdő
3. táblázat. Példa karakterlánc-cserékre.
Fordítási minőség pontozása
A fordítási minőséget ipari szabványok szerinti mérőszámokkal mérték a SacreBLEU eszköz alapértelmezett beállításait használva, amelyet Matt Post talált fel az Amazon Researchnél [24]. Az összehasonlíthatóság kedvéért a lengyel nyelvet lemkó cirill betűkkel adták vissza, ugyanúgy, mint az utolsó kísérletben [15, 573. o.].
Kétnyelvű értékelési tanulmány (BLEU)
Ez az n-gram alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban fejlesztették ki az IBM T. J. Watson Kutatóközpontban, a Védelmi Fejlett Kutatási Projektek Ügynökségének (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].
Fordítási szerkesztési arány (TER)
Ez a metrika a kimenet szemantikailag helyes fordításhoz való közelítéséhez szükséges szerkesztések számát tükrözi, célja, hogy toleránsabb legyen a kifejezésbeli eltolódásokkal szemben, mint a BLEU és más n-gram alapú metrikák. Meghatározása egy hipotézis és egy referencia közötti szerkesztési távolság számításának elosztásával történik az átlagos referencia szószámával. Fejlesztését az Egyesült Államokban szintén a DARPA támogatta [26].
Karakter n-gram F-pontszám (chrF)
Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi ítéletekkel, és még a BLEU-t és a TER-t is felülmúlja [27].
4 Eredmények és megbeszélés
A kísérleti rendszer, a LemkoTran.com, minden mérőszám szerint felülmúlta a Google Translate összes szolgáltatását. Az angol-lemkó fordítás BLEU minőségi pontszámai 35%-kal javultak az utoljára publikált eredményekhez képest [15], négyszer jobb eredményt produkálva, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatása. Eközben a lemkó-angol fordítás minősége 23%-kal javult az utoljára publikált eredmények óta [16], 16%-kal magasabb BLEU pontszámot érve el, mint a Google Translate által elért legjobb, amely az esetek 76%-ában automatikusan ukránként, 16%-ában oroszként, és 6%-ában fehéroroszként ismerte fel a lemkót.
4.1 Angol-lemkó fordítási minőség
Pontszámok
A LemkoTran.com-on telepített motor minden mérőszám szerint felülmúlta a Google Translate-et, amikor angolról lemkóra fordított. A kísérletben a következő legmagasabb pontszámot elérő rendszer vagy a Google Translate ukrán szolgáltatásának kimenete volt (a BLEU vagy chrF metrikák használatával), vagy a lengyel szolgáltatásáé (a TER metrika használatával).
BLEU
A LemkoTran.com-on telepített rendszer fordítási minősége, a legelterjedtebb BLEU metrika szerint mérve, 8,48-ra emelkedett, ami 35%-os javulást jelent a 2022-ben utoljára publikált eredményekhez képest [15], és most négyszerese a Google Fordító legmagasabb pontszámának.
1. ábra. Angol-lemkó fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus LemkoTran.com. Minél magasabb, annál jobb.
chrF
A LemkoTran.com motorja érte el a legjobb angol-lemkó karakter n-gram F-pontszámot (chrF 37.30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása magasabb pontszámot ért el, mint a lengyel és fehérorosz megfelelői, amikor a lemkó korpuszhoz viszonyítva mérték ezt a metrikát.
2. ábra. Angol-lemkó fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (NMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER
A LemkoTran.com motorja érte el a legjobb angol-lemkó fordítási szerkesztési arányt (TER), 81.33 pontszámmal. A Google Translate lengyel szolgáltatása érte el a második legjobb eredményt, szorosan követve az ukrán szolgáltatását.
3. ábra. Angol-lemkó fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Minél alacsonyabb, annál jobb.
Példák
Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.
Bemenet
A gyermekeink is okosak voltak. De hol kellett volna tanulniuk?
Leírás
Kimenet
Átírás
Minőségi pontszámok
Lemkó referencia (anyanyelvi beszélő)
В нас діти тіж были мудры, але де мали ся вчыти?
V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvre LemkoTran.com által
Нашы діти тіж были мудры. але де мали ся вчыти?
Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty?
BLEU 58,34 chrF2 79,03 TER 27,27
Google Fordító (kontroll)
Fordítás ukrán nyelvre
Наші діти теж були розумними. Але де вони мали вчитися?
Naši dity tež buly rozumnymy. Ale de vony maly včytysja?
BLEU 4,41 chrF2 25,80 TER 72,73
Fordítás orosz nyelvre
Наши дети тоже были умными. Но где им было учиться?
Naši deti tože byli umnymi. No gde im bylo učitʹsja?
BLEU 3,71 chrF2 16,95 TER 90,91
Fordítás lengyel nyelvre
Наше дзєці теж били мондре. Алє ґдзє мєлі сє учиць?
Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ?
BLEU 3,12 chrF2 13,84 TER 100
Fordítás fehérorosz nyelvre
Разумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца?
Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca?
BLEU 3,09 chrF2 12,83 TER 100
4. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
Bemenet
És általánosságban elmondható, hogy a lengyelországi lemkóknak nincs, úgymond, olyan vezetőjük, aki mondana valamit.
Leírás
Termék
Átírás
Minőségi pontszámok
Lemkó referencia (anyanyelvi beszélő)
А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.
A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvre a LemkoTran.com által
І генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.
I heneral’ni Lemkŷ v Pol’ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.
BLEU 55,58 chrF2 65,32 TER 29,41
Google Fordító (kontroll)
Fordítás lengyel nyelvre
І ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.
I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.
BLEU 9,26 chrF2 29,29 TER 82,35
Fordítás ukrán nyelvre
І взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.
I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.
BLEU 5,15 chrF2 26,56 TER 82,35
Fordítás orosz nyelvre
И вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.
I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.
BLEU 2,96 chrF2 25,87 TER 88,24
Fordítás fehérorosz nyelvre
І ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.
I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.
BLEU 2,72 chrF2 18,05 TER 100
5. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
Lemkó-angol fordítás
Pontszámok
Minden mérőszám szerint a LemkoTran.com-on telepített motor felülmúlta a Google Translate-et, amelynél a standard ukrán nyelvről történő fordítás mindig a második legjobb volt, ezt követte a forrásnyelv automatikus felismerése, majd a fehéroroszról, aztán a lengyelről történő fordítás, az orosz pedig mindig az utolsó helyen végzett. A Google Translate az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a fennmaradó időben pedig egyéb cirill betűs nyelvekként (pl. mongol) ismerte fel a lemkót.
BLEU
A LemkoTran.com 17,95 BLEU pontszámot ért el angolra fordítva, ami 23%-os javulás az utoljára publikált 14,57 BLEU pontszámhoz képest, és 16%-kal magasabb, mint a Google Fordító ukrán szolgáltatásának 15,43 BLEU pontszáma.
4. ábra. Lemkó-angol fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
chrF
A LemoTran.com-on telepített motor 45,89 karakteres n-gram f-pontszámot (chrF) ért el angolra fordítva, ami 5%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.
5. ábra. Lemkó-angol fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER
A LemkoTran.com 70,38 Translation Edit Rate (TER) pontszámot ért el angolra fordítva, ami 7%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.
6. ábra. Lemkó-angol fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél alacsonyabb, annál jobb.
Példák
Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.
Leírás
Termék
Minőségi pontszámok
Anyanyelvi beszélő által elmondott lemkó szöveg átirata
Як розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
n/a
Átírás
Jak rozdiljame jazŷkŷ, to mala-m kontakt z pol’skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol’skoho, bo zme maly susidiv Poljakiv.
n/a
Kétnyelvű szakember által készített referenciafordítás
Ami a nyelvek szétválasztását illeti, volt kapcsolatom a lengyellel. Nem úgy volt, hogy lengyel tudás nélkül kezdtem az iskolát, mert lengyel szomszédaink voltak.
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvről a LemkoTran.com rendszerével
Amikor szétválasztjuk a nyelveket, volt kapcsolatom a lengyellel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert lengyel szomszédaink voltak.
Ahogy felosztjuk a nyelveket, akkor volt kapcsolatom a lengyellel, akkor nem úgy volt, és lengyel tudás nélkül jártam iskolába, mert lengyelek voltak a szomszédaim.
BLEU 15.87 chrF2 54.38 TER 72.00
belaruszból
Ahogy szétválasztjuk a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert kevés lengyel szomszédunk volt.
BLEU 11.76 chrF2 58.92 TER 68.00
oroszból
Ahogy terjesztjük a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert a kígyók öngyilkosok voltak Polyakivban.
BLEU 6.87 chrF2 42.66 TER 92.00
lengyelből
Ahogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert megváltoztatom a kis lengyel nyelvemet.
BLEU 5.02 chrF2 45.35 TER 84.00
6. táblázat. A lemkó bemenet fordítási hipotéziseinek összehasonlítása.
5. Összefoglalás
A morfológiailag és szintaktikailag informált generátorok neurális motorokkal való párosítása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben azzal az előnnyel is jár, hogy a mérnökök megtisztíthatják a jövevényszavakat és ellensúlyozhatják a domináns nyelvi interferenciát, valamint biztosíthatják a szabványoknak való megfelelést, például a kisebbségi nyelvek kodifikációit. A mesterséges intelligencia modellekben rejlő tökéletlenségek által okozott minőségi pontszám-üvegplafonok is áttörhetők a megfelelő mérnöki munkával. A lemkó, valamint a hasonlóan alacsony erőforrású, őslakos kisebbségi nyelvek esetében a fordítási minőség, valamint a revitalizációs forradalmak tekintetében most már a határ a csillagos ég.
Köszönetnyilvánítás
Szeretném megköszönni Dr. Ming Qiannek (Charles River Analytics) a kísérlet elvégzéséhez nyújtott inspirációt, Michael Decerbónak (Raytheon BBN Technologies) és Dr. James Joshua Penningtonnak az éleslátó megjegyzéseiket, valamint Dr. Yves Scherrernek (Helsinki Egyetem) a projekt iránti érdeklődését és ötleteit.
Hivatkozások
Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-angol gépi fordítás a veszélyeztetett nyelvek revitalizációjához. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 577–595. o. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, 175–200. o. Faculty of “Artes Liberales”, University of Warsaw, Varsó (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
Shevelov, G.: A Historical Phonology of the Ukrainian Language (ukrán fordítás). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo “AKTA”, Kharkiv (2002, original work published 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
Vaňko, J.: A ruszin nyelv Szlovákiában: két tűz között. In: Duchêne, A. (szerk.) International Journal of the Sociology of Language, 2007. kötet, 183. szám, 75–96. o. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, 454–487. o. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
Orynycz, P.: Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó revitalizálására. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, 13336. kötet, 567–580. o. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, 21176. számú cikk. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, 25. kötet, 5. szám, 633–650. o. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Warsaw (1995).
Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
Post, M.: Felhívás a BLEU pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), 1. kötet, 186–191. o. Association for Computational Linguistics, Brüsszel (2018). https://doi.org/10.48550/arXiv.1804.08771
Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), 311–318. o. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, 223–231. o. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
Popović, M.: chrF: karakter n-gram F-pontszám az automatikus MT értékeléshez. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, 392–395. o. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049
Tudományos folyóiratokban publikáló szerző és előadó vagyok a világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature által kiadott ember-számítógép interakció (HCI) nemzetközi konferenciáin, amely az egyik legrangosabb, legnagyobb hatású és legrégebben folyamatosan működő tudományos kiadó.
A nyelvi veszteség nem csupán kulturális – működési. Ez a tanulmány lengyel ↔ lemkó gépi fordítást épít és értékel (szakértői szabályalapú + Transformer NMT), és mindkét irányt DARPA által támogatott mérőszámokkal (BLEU, TER) hasonlítja össze, beleértve egy Google Fordító proxy alapvonalat is.
Főbb hozzájárulások
Épít egy lengyel ↔ lemkó fordítási rendszert, amely egy szakértői szabályalapú motort és Transformer NMT-t kombinál alacsony erőforrás-igényű környezethez.
Összekapcsolja a kisebbségi nyelvi gépi fordítást valós eredményekkel: képzési hatékonyság, hozzáférés és ellenálló képesség vitatott információs környezetekben.
Főbb eredmények
PL → lemkó: szakértői rendszer BLEU 29,49 / TER 53,73; jelentése szerint ~6,5-szerese egy Google Fordító lengyel→ukrán proxynak BLEU-ban.
lemkó → PL: szakértői rendszer BLEU 31,13 / TER 54,10.
Transformer (PL → lemkó):BLEU 15,90 (30 ezer lépés) – a proxy alapvonal felett, a szakértői rendszer alatt ebben a beállításban.
A kisebbségi nyelvek elvesztése nem csupán kulturális – mérhető kár. Ez a tanulmány a LemkoTran.com jelentős fejlesztéséről számol be, amely szabályalapú generálást kombinál neurális gépi fordítással, így a lemkó anyanyelvűek és az új tanulók azonnal olvashatnak és írhatnak. Morfológiailag tudatos főnév/ige/melléknév generátorokat adok hozzá, bővítem a lexikont, 9518 kötelezően átmenő minőségellenőrzési tesztet vezetek be, és összehasonlítom a fordítási minőséget BLEU, TER és chrF mérőszámokkal több Google Fordító szolgáltatással szemben.
Főbb hozzájárulások
Fejleszti a LemkoTran hibrid rendszerét (szabályalapú + neurális) a lemkó nyelvre és lemkó nyelvről történő fordításhoz morfológiailag tudatos generálással.
Megerősíti a pontosságot 9518 kodifikációra hivatkozó teszttel, a fordítási minőséget kikényszeríthető minőségellenőrzéssé alakítva.
Bővíti a nyelvi lefedettséget ~1585 szabályalapú szókincs elemmel, valamint 877 lemmával + 708 szószedet bejegyzéssel táplált generátorokkal.
Szigorúan összehasonlít a SacreBLEU alapértelmezett beállításait és három kiegészítő mérőszámot (BLEU / TER / chrF) használva reprodukálható összehasonlításokhoz.
Mérnöki utat mutat a zavarmentesítéshez: a szabályalapú modulok lehetővé teszik a jövevényszavak / domináns nyelv átszivárgásának tisztítását (ahol kívánatos).
Főbb eredmények
EN → lemkó: A BLEU 8,48-ra nő (+35% az előző publikációhoz képest), jelentése szerint ~4-szerese a Google Fordító legjobb szolgáltatásának BLEU-ban.
lemkó → EN: A BLEU eléri a 17,95-öt (+23% az előző munkához képest), jelentése szerint ~16%-kal magasabb, mint a Google Fordító ukrán szolgáltatása (legjobban teljesítő alapvonal).
Mérőszámok tekintetében: A LemkoTran felülmúlja a Google-t a BLEU + TER + chrF mérőszámokban, mivel a Google gyakran tévesen azonosítja a lemkó nyelvet (gyakori ukrán/orosz/fehérorosz felismerés).
A mesterséges intelligencia előnyhöz juttathatja a veszélyeztetett nyelveket: az új beszélők már az első naptól kezdve az irodalmi normához közelebb álló mondatokat alkothatnak. Mondd jól (2022) egy alacsony erőforrásigényű folyamatot (transzfertanulás + szabályalapú gépi fordítás) mutat be, kiad egy nyilvános angol→lemkó rendszert, és BLEU-val értékeli a minőséget.
Főbb hozzájárulások
Transzfertanulás + szabályalapú motor alacsony erőforrásigényű nyelvhez.
Mennyiségi értékelés (BLEU), nem érzések alapján.
Nyilvános eszközként telepítve (LemkoTran).
Főbb eredmények
Angol→lemkó rendszer: BLEU 6,28 (jelentett).
Összehasonlítva a Google ukrán/orosz/lengyel kimeneteivel (jelentett).
Erőforrás-korlátozott végrehajtásra tervezve (laptopon/offline is használható munkafolyamat).
Ez a tanulmány bemutatja, hogyan szüntetheti meg a neurális gépi fordítás (NMT) a lokalizációs szűk keresztmetszeteket a koalíciós képzésekhez: ahelyett, hogy hónapokat várnánk az emberi fordításra, napok/hetek alatt telepíthet többnyelvű tartalmat az NMT gyors lokalizációra való felhasználásával.
Főbb eredmények
Orosz: +1169,51%-kal gyorsabb és +58,37%-kal pontosabb egy professzionális emberi nyelvész alapértékéhez képest.
Lengyel: +17,29%-kal pontosabb és +488,45%-kal gyorsabb emberi fordításhoz képest.
lemkó: „a világ első” motorja, BLEU 14,57-es értéket jelentettek.
Főbb hozzájárulások
A lokalizációt működési szűk keresztmetszetként kezeli, és a „képzés ma este / jövő héten” időkereteket célozza meg.
NMT motorokat épít és értékel NATO képzési anyagokon, a BLEU-t használva értékelési metrikaként.
Gyakorlati munkafolyamatot mutat be egy olcsó, hálózattól elszigetelt laptopon (realisztikus telepítési korlátok mellett).
A probléma: akár Tesztvezérelt fejlesztés (TDD) (Beck, 2003) vagy test && commit || revert (TCR) (Beck, 2018) a munkamódszered, komoly előrehaladás után több ezer egységtesztet kell futtatni minden alkalommal, amikor elmented a munkát. Egy régi laptopon akár negyedórákat is várhatsz, egy jobb laptopon pedig perceket, ami lelassítja a szoftverfejlesztés előrehaladását.
Régi megoldások és megküzdési stratégiák
Pénzzel orvosolni a problémát
Eddig valószínűleg a pénzzel való orvoslás volt a legegyszerűbb megoldás. Ha finanszírozni tudtál egy gyorsabb, több processzorral rendelkező laptopot, a teszteket kötegelni lehetett, és a futtatásukhoz szükséges idő gyorsan csökkent. Egy gyorsabb asztali számítógép beszerzése még jobb ár-érték arányt eredményezett volna, mint egy laptop, a hordozhatóság rovására.
Tesztelés elhalasztása
Egy nyilvánvaló megoldás, hogy leállítod a tesztelést a kódbázis minden változtatása után, és vársz, amíg néhány óra, egy műszak vagy egy hét fejlesztés befejeződik. Ez aligha ideális, mivel exponenciálisan megnő az esélye annak, hogy zsákutcába jutsz, vagy eltévedsz az erdőben. A teszteknek mindig zöldnek kell lenniük (azaz sikeresnek), különben előbb-utóbb valaki jó szándékkal rossz irányba fordul, és napokat, heteket vagy hónapokat veszítesz a termelékenységből.
Új megoldás: a felhő
Pár fillérért futtathatod az összes regressziós tesztedet a felhőben egy szerény laptopról. Ebben a példában a GitHub CodeSpaces felhőalapú fejlesztői környezetét használjuk körülbelül tízezer regressziós teszt futtatására, amelyek a lengyel és a lemkó (más néven „ruszin”), egy veszélyeztetett, délnyugat-ukrán genetikai eredetű, Lengyelországban és Szlovákiában (Magyarországon) őshonos nyelv közötti helyes fordításokat biztosítják. Nézd meg, ahogy a regressziós csomag futtatása 8 másodpercre csökken.
Útmutató
1. Regisztrálj egy Codespaces fiókot a GitHubon
Itt van egy link: https://github.com/features/codespaces
2. Növeld a költségkeretedet legalább egy dollárra
Biztonsági mechanizmusként a kezdeti költségkeret nullára van állítva, és komoly teljesítmény eléréséhez nem nulla költségkeretre lesz szükséged. A sajtó idején a legerősebb rendszer óránként 2,88 USD-be került, így már egy dollár is elegendő az induláshoz.
3. Nyisd meg a tárolódat a CodeSpacesben
A kód tárolódon kattints a nagy zöld Kód gombra, győződj meg róla, hogy a CodeSpaces fül nyitva van, kattints a három pontra (…), és válaszd a „New with Options” (Új opciókkal) lehetőséget egy kódterület létrehozásához. Válassz erős processzorokat, és a maximálisan elérhetőt (valószínűleg 16-ot).
4. Nyisd meg a CodeSpace-edet a Visual Studio Code-ban (!)
A CodeSpaces menüben kattints az „Open in Visual Studio Code” (Megnyitás Visual Studio Code-ban) gombra.
5. Akár 36 mag eléréséhez küldj be egy támogatási kérést
Amikor a kisebbségi és helyi nyelvek elvesznek, a nemzetbiztonság szenved: nemcsak az öngyilkossági arány, a depresszió, a cukorbetegség, a támadások és a kábítószer-fogyasztás jelentős növekedését dokumentálják gyakran, hanem egy űrt is teremt, amelyet történelmileg kihasználtak az ellenfelek. Például kisebbségi nyelvi közösségekből származó milliók történelmietlenül sajátjuknak tekintik az orosz nyelvet és/vagy identitást Ukrajnában, Fehéroroszországban, NATO-szövetséges országokban, sőt még az Egyesült Államokban is. Ha az anyanyelvi kommunikációs hiányosságok kizárólag az ellenfelek kezében maradnak, akik kihasználják az ezen nyelvekkel kapcsolatos hosszú tapasztalatukat, a NATO jelentős hátrányban marad, amikor megpróbálja bevonni ezeket a közösségeket. Európában a nyelvi veszteség által részben okozott lelki sebek nem gyógyultak be az asszimilációval. Ehelyett a városok elszigetelő feszültségek fellángolását élik át Nyugaton, és a keleti lakosságot az ellenfél hatalmak meggyőzik arról, hogy ezek a hatalmak az igazi szövetségeseik, akik megértik és tisztelik őket. Az oktatás sem csodaszer a hivatalos nyelven: Ukrajna (sőt Spanyolország) esetében a helyi nyelvjárások és a hivatalos nyelv közötti nem elhanyagolható különbségek lehetőséget teremtenek az ellenfelek számára a szeparatizmus lángjainak szítására.
A gépi fordítóprogramok használata a NATO és partnerei felhatalmazására az újoncok képzésében vagy a helyszíni fellépésben, a szívükhöz és elméjükhöz legközelebb álló nyelven, azonnali összetartozás-érzést teremthet, és bemutathatja a NATO elfogadott polikulturális vízióját. Mesterséges intelligencia és szabályalapú motorokat állítottak össze, hogy fordítsanak Lengyelország hivatalos nyelve és az őshonos lemkó kisebbség nyelve között, amelyet régóta külföldi hatalmak céloztak meg. A motorokat lemkó nyelvről lengyelre történő fordításkor értékelték a DARPA támogatásával kifejlesztett metrikák segítségével, 31,13-as kétnyelvű értékelési alvizsgálati (BLEU) pontszámot és 54,10-es fordítási szerkesztési arányt (TER) eredményezve. Eközben, a másik irányban a motorok 53,73-as TER és 29,49-es BLEU pontszámot értek el, ami 6,5-szer jobb pontszám, mint a Google Fordító lengyel-ukrán szolgáltatásáé.
Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001
Orynycz, P.; Dobry, T.Winning Hearts & Tongues: A Polish to Lemko Case Study
@inproceedings{orynycz2023winning,
author = {Petro Orynycz and T. Dobry},
title = {Winning Hearts \& Tongues: A Polish to Lemko Case Study},
booktitle = {Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC)},
year = {2023},
url = {https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001}
}
✅ A hozzájárulás ezen változata szakértői értékelést követően elfogadásra került publikálásra, azonban nem a végleges, publikált változat (Version of Record), és nem tükrözi az elfogadás utáni javításokat vagy korrekciókat. A végleges, publikált változat online elérhető ezen a linken. Az elfogadott változat használatára a kiadó elfogadott kéziratának felhasználási feltételei vonatkoznak.
Bevezetés
A képzési eredmények profitálhatnak a gépi fordítás alkalmazásából az őshonos és kisebbségi nyelvek és dialektusok esetében, amelyek használatát a tudományos irodalom egyre inkább és jelentősen (p ≤ 0.05) élesebb elmével, ellenállóbb pszichével és robusztusabb egészséggel hozza összefüggésbe, nem is beszélve a hatszor alacsonyabb öngyilkossági arányról (Hallett et al., 2007, 398. o.). Az örökölt nyelv használata megerősíthet a külföldi ellenséges befolyással szemben, és az észak-atlanti térségben megakadályozhatja, hogy a célzott népességek orosz vagy más ahistorikus etnolingvisztikai identitásokba essenek a nyelvvesztés pusztító következményeivel való megküzdés során. Míg az anyagok helyi dialektusokra és nyelvekre történő lokalizálása korábban meghaladhatta a háború sújtotta közösségek és kormányok lehetőségeit, a mesterséges intelligencia és a számítógépes nyelvészet legújabb áttöréseinek köszönhetően ma már megfizethető eszközök is elképzelhetők, amelyek olcsóbbak, gyorsabbak és jobbak az embereknél az alacsony erőforrású őshonos és kisebbségi nyelvekre történő fordításban.
A nyelvvesztés problémája nem korlátozódik Európára. Bár a globális nyelvi veszélyeztetettség helyzete talán nem olyan súlyos, mint ahogy az 1990-es évek elején rendelkezésre álló adatok sugallták, a rendelkezésre álló statisztikák mégis borús képet festenek. Egy gyakran idézett, Simmons és Lewis (2013) által „a nagy nyelvi fegyverbe hívásnak” nevezett munkájában Krauss 1992-ben arra figyelmeztetett, hogy a világ nyelveinek felétől 90%-áig terjedő része kihalásra ítéltetett ebben a században. Ezenkívül feltételezte az angolszász világban, ahol az angol dominál, az őshonos nyelvek 90%-ának „dokumentált pusztulási arányát”, és az egész Szovjetunióra, ahol az orosz volt a domináns, becsült 50%-os haldoklási arányt (Krauss, 1992, 5. o.). Húsz évvel később Simmons és Lewis (2013) frissített adatok felhasználásával becsülte, hogy a 7103 élő nyelv közül 1360 (19%) nem öröklődik át a következő generációra (12. o.), ez a szám Kelet-Európában 30%-ra emelkedik (13. o.).
Neurotudomány és tanulási eredmények
A legújabb kutatások azt mutatják, hogy az anyanyelv használata több mentális kapacitást biztosíthat a tanuláshoz, és a teszteredmények jelentősen javulnak. A Massachusetts Institute of Technology (MIT) kutatói által vezetett McGovern Agykutató Intézetben az év elején végzett vizsgálat viszonylag alacsony agyi választ figyelt meg az anyanyelvi ingerekre, amikor funkcionális mágneses rezonancia képalkotó (fMRI) technikával mérték (Malik-Moraleda et al., 2023). Magyarázatként a kutatók azt javasolták, hogy a szakértelem csökkenti a feladathoz szükséges agyi kapacitás mennyiségét (Mesa, 2023). A Világbank számára készült friss tanulmányban Soh, Del Carpio és Wang (2021) megállapította, hogy az anyanyelvtől eltérő oktatási nyelv használata káros lehet, különösen a férfiak számára. A tanulmányban a malajziai diákok matematika és természettudományi teszteredményei jelentősen csökkentek, miután az oktatás nyelvét malájról angolra váltották (Soh et al., 2021, 4., 17., 18–19. o.).
Nemzetbiztonság
A NATO Különleges Műveleti Iskola oktatói, White és Overdeer szerint Oroszország kihasználhatja a célzott társadalmak etnikai megosztottságát a hibrid hadviselés eszközeként, külpolitikai céljainak elérése érdekében (2020, 31–33. o.), mivel az etnolingvisztikai különbségek „könnyen elérhetők és könnyen súlyosbíthatók” (40. o.). Az alábbiakban az etnolingvisztikai viszály szítása és kihasználása Nyugat- és Kelet-Európában egyaránt feltárásra kerül.
Spanyolország: Katalónia
A katalán, egy északkelet-spanyolországi kisebbségi nyelv nyilvános használatát a Franco-kormány 1975-ig betiltotta (Miller & Miller, 1996, 113. o.). Ahelyett, hogy feloldotta volna a viszályt, ez a politika inkább elmélyíthette azt. A The New York Times számára írt cikkben Schwirtz és Bautista (2021) egy 2020. júniusi európai hírszerzési jelentésre hivatkozott, amely szerint az Orosz Föderáció katonai hírszerző rendszerének elit 29155-ös egysége Katalóniában tartózkodott egy 2017-es függetlenségi népszavazás idején, amikor a „titokzatos tüntető csoport”, a Tsunami Democràtic elfoglalta a barcelonai repülőteret és elzárta a Spanyolországot északi szomszédaival összekötő fő autópályát. Három nappal később az orosz Szövetségi Védelmi Szolgálat egyik ezredese és egy magas rangú elnöki tanácsadó közeli rokona, aki mélyen érintett volt Oroszország ukrajnai szeparatistákat támogató erőfeszítéseiben, Moszkvából érkezett egy stratégiai megbeszélésre, hogy megvitassák a katalán függetlenségi mozgalmat (Schwirtz & Bautista, 2021).
Az Orosz Föderáció katalán függetlenségi mozgalom iránti támogatása állítólag még 10 000 katona és $500 milliárd amerikai dollár felajánlását is magában foglalta a függetlenség esetére (Baquero et al., 2022; lásd még Brunet, 2022, 74. o.). Louise I. Shelley, a Virginia állambeli George Mason Egyetem Terrorizmus, Transznacionális Bűnözés és Korrupció Központjának munkatársa szerint Oroszország spanyolországi szeparatista vezetőkkel való kapcsolatfelvétele összhangban van a korábbi viselkedéssel, és kifejtette: „A katalánok és az oroszok közötti kapcsolatok a szovjet korszakra nyúlnak vissza. A Szovjetunió összeomlása előtt magas szintű találkozókat tartottak Barcelonában prominens oroszokkal” (Baquero et al., 2022).
Nyugat-Ukrajna
Ukrajnában a helyi nyelvjárások és az iskolákban tanított irodalmi standard közötti nem elhanyagolható különbségek lehetőséget teremtenek az ellenfelek számára a szeparatizmus lángjainak szítására. A Rating 2012-es jelentése szerint az etnikai ukránoknak mindössze 54%-a használta örökölt nyelvét, 29%-uk oroszt, 17%-uk pedig a kettő keverékét (9. o.). Abban az évben kilenc orosz nyelvű könyv jelent meg minden egyes ukrán nyelvűre, és a nyomtatott média példányainak mindössze 13%-a volt ukrán nyelven írva (Moser, 2016a, 604. o.).
Két évtizeddel ezelőtt az Egyesült Államok Külügyminisztériumának 2002. évi éves emberi jogi jelentése a következőket közölte:
Néhány oroszbarát szervezet az ország keleti részén panaszkodott az ukrán nyelv iskolai és médiabeli fokozott használatára. Azt állították, hogy gyermekeik hátrányos helyzetbe kerültek az egyetemi felvételi vizsgákon, mivel minden jelentkezőnek ukrán nyelvi tesztet kellett tennie.
Külügyminisztérium, 2003, 1758. o.
A ruszinok (rutének) továbbra is hivatalos etnikai csoportként való elismerésüket követelték az országban. A ruszin közösség képviselői ruszin nyelvű iskolákat, ruszin nyelvű tanszéket az Ungvári Egyetemen, valamint azt követelték, hogy a ruszinokat vegyék fel az ország etnikai csoportjai közé a 2001-es népszámlálás során. Ruszin vezetők szerint több mint 700 000 ruszin él az országban.
Külügyminisztérium, 2003, 1759. o.
A Külügyminisztérium által említett szélesebb körű kérdések kiindulópontjaként, amelyek kívül esnek ezen tanulmány hatókörén, Michael Moser, a Harvard Ukrán Kutatóintézet korábbi munkatársa a következőket magyarázta:
A ruszinokat valószínűleg a rutének/ruszinok azon maradványaként lehet a legjobban leírni, akik nem voltak hajlandóak csatlakozni a modern ukrán nemzeti és nyelvi mozgalomhoz… kezdetben ez a vonakodás nem modern értelemben vett ruszin identitáson alapult, hanem oroszbarát nézetekből fakadt, miszerint a rutének/ruszinok/kisoroszok egy oszthatatlan orosz néphez tartoznak, és nincs helye ukrán nemzetnek és ukrán nyelvnek.
Moser, 2016b, 127. o.
2007 júniusában elnöki rendelettel alapították meg Moszkvában az „Orosz Világ Alapítványt”, amely 2011 márciusáig több mint $1 200 000 amerikai dollárral kezdte támogatni az „honfitársakat” Ukrajnában (Moser, 2016a, 607. o.).
Gyűlésre került sor az orosz drámai színházban, Ukrajna legnyugatibb városában, Munkácson, 2008. október 25-én (Wiktorek, 2010, 100. o.). Még arról is érkeztek jelentések, hogy mintegy száz fegyveres, vidéki személy tartózkodott kint (Ukrajinsʹke nacionalʹne objednannja, 2009; lásd még Wiktorek, 2010, 100. o.). Bármi is történt ott, aznap este 20:30-kor megjelent egy „ruszin államiság helyreállításáról” szóló kiáltvány orosz nyelven a rusin.forum24.ru online platformon. Panaszai között szerepel „a ruszin államnyelv felváltása galíciai ukránnal, a lengyel Galícia, a ruszinok északi szomszédjának nyelvével.” (2. Európai [sic] Kárpátaljai [sic] Ruszin Kongresszus, 2008).
Mielőtt elrendelte volna hadseregének nyílt invázióját Ukrajnába egy nagyszabású „különleges katonai művelet” végrehajtására, az Orosz Föderáció elnöke egy teljes bekezdést szentelt Kárpátalja sorsának Az oroszok és ukránok történelmi egységéről című esszéjében:
Külön tárgyalom Kárpátalja sorsát, amely Ausztria-Magyarország összeomlása után Csehszlovákiához került. A helyi lakosság jelentős részét ruszinok alkották. Bár ma már ritkán emlékeznek rá, Kárpátalja szovjet csapatok általi felszabadítása után a terület ortodox lakosságának kongresszusa támogatta Kárpátalja beolvasztását az Orosz Szovjet Szövetségi Szocialista Köztársaságba, vagy közvetlenül a Szovjetunióba, mint különálló, kárpát-orosz köztársaságot.
Putyin, 2021
A régióban egy másik incidens során a lengyel szélsőjobboldali Falanga szervezet két tagja, akik orosz szeparatisták között tartózkodtak Kelet-Ukrajnában, 2018-ban felgyújtották az őshonos magyar etnolingvisztikai kisebbség kulturális központját Ungvár regionális fővárosában, benzinnel leöntve és Molotov-koktélt dobva rá (Górzyński, 2018).
Egészség és biztonság
Öngyilkossági hajlam
Hatszor magasabb öngyilkossági arányt figyeltek meg azokban a közösségekben, ahol kevesebb mint a fele számolt be örökölt nyelvének társalgási szintű ismeretéről (Hallett et al., 2007, 398. o.). Pozitívumként megemlítendő, hogy a fiatalok öngyilkossági aránya nullára csökkent minden esetben, kivéve egyet, ahol a többség arról számolt be, hogy képes társalogni örökölt nyelvén (397. o.). Pezzia és Hernandez 2022-es tanulmányában azok, akik nem beszéltek folyékonyan örökölt nyelvet, de szüleik igen (95. o.), a legnagyobb valószínűséggel öngyilkossági gondolatokkal küzdöttek (98. o.). A nyelvvesztés és az öngyilkossági gondolatok közötti összefüggés magyarázataként Pezzia és Hernandez az „akkulturációs stresszt vagy társadalmi kirekesztést” javasolja, amely abból ered, hogy az etnikai csoport teljes jogú tagjaként való elfogadást megakadályozza a nyelv folyékony ismeretének hiánya (100. o.).
Depresszió
Az életkor, nem, iskolai végzettség, anyagi helyzet és etnikai csoporttagság kontrollálása után a kutatók megállapították, hogy az identitás elrejtése az örökölt nyelv nyilvános használatának elkerülésével (ezt nyelvi elkerülésnek nevezik) statisztikailag szignifikáns (p = 0.006) előrejelzője annak, hogy valaki „depressziósnak” minősíthető, ha Kroenke és Spitzer 9-es számú beteg-egészségügyi kérdőívén 5 vagy annál magasabb pontszámot ér el (Olko et al., 2023, 5–6. o.). Elméleti mechanizmusként a kutatók az etnikai diszkrimináció által kiváltott krónikus stresszt említették, amely a hipotalamusz-hipofízis-mellékvese tengely tartós hiperaktivitásához, és ebből eredő megnövekedett kortikotropin-felszabadító faktor és kortizol szinthez vezet, utalva Willner (2017), valamint Slavich és Irwin (2014) munkájára.
Cukorbetegség
A szocioökonómiai tényezők korrigálása után a diabetes mellitus szignifikánsan (p = 0.005) kevésbé volt elterjedt az őshonos nyelvtudással rendelkező közösségekben (Oster et al., 2014, 9. o.).
Dohányfogyasztás
Az angol nyelvhez jobban akkulturálódott állapot szignifikánsan összefüggésbe hozható a dohányzással az idősebb ázsiai-amerikai serdülők körében New York Cityben (Rosario-Sim & O’Connell, 2009). Egy másik tanulmányban az angol nyelv otthoni használata magasabb dohányzási prevalencia rátával járt együtt az ázsiai-amerikai fiatalok körében (p = 0.021), akárcsak a magas angol nyelvtudás (p = 0.040) (Chen et al., 1999, 325. o.). A spanyolajkú lányok körében azok, akik angolul beszéltek szüleikkel, többet dohányoztak, mint azok, akik angolul és spanyolul is beszéltek szüleikkel (p < 0.0001), valamint azok a lányok, akik spanyolul beszéltek szüleikkel (p < 0.01) (Epstein et al., 1998, 586. o.).
Szerhasználat és támadás
Az Ausztrál Statisztikai Hivatal (2011/2012) szerint a tizenöt és huszonnégy év közötti őslakos fiatalok, akik őshonos nyelvet beszéltek, kisebb valószínűséggel használtak illegális szereket (16% vs. 26%), kisebb valószínűséggel számoltak be mértéktelen alkoholfogyasztásról az előző két hétben (18% vs. 34%), és kisebb valószínűséggel váltak fizikai vagy fenyegető erőszak áldozatává az előző évben (25% vs. 37%).
Eddigi megoldások
Neurális mesterséges intelligencia
A neurális gépi fordítás áttörése, amelyet egy nemzetközi csapat a Defense Advanced Research Projects Agency (DARPA) finanszírozásával a Broad Operational Language Translation (BOLT) projekt keretében (Cho et al., 2014), valamint a Google (Sutskever et al., 2014) ért el, olyan motorokat hozott létre, amelyek képesek az emberi teljesítménnyel egyenértékű minőségi pontszámokat elérni. A neurális motorok képzéséhez azonban több adatra van szükség, mint amennyi általában rendelkezésre áll az alacsony erőforrású nyelvek esetében.
Szabályalapú gépi fordítás
A múlt szabályalapú fordítómotorjait általában pénzpazarlásnak tekintették (Hajič et al., 2000, 7. o.), kivéve a prágai RUSLAN rendszert, amelyet a szovjet alapítású Kölcsönös Gazdasági Segítség Tanácsa (KGST) finanszírozott, és amely cseh-orosz fordításokat készített nagyszámítógépes operációs rendszerek dokumentációjához (7. o.), ahol öt mondatból kettő helyes volt, további kettő csak kisebb hibákat tartalmazott, és mindössze egy igényelt jelentős szerkesztést vagy újrafordítást (8. o.).
A prágai, cseh-orosz szabályalapú rendszerek eredményeivel kapcsolatos nyilvánvaló csalódás fő okai az voltak, hogy maga a feladat túl bonyolult volt, és hogy a cseh és az orosz nyelv nem áll eléggé közel egymáshoz ahhoz, hogy egy ilyen megközelítés életképes legyen. A listához hozzáadhatók a valótlan elvárások és az objektív értékelési metrikák hiánya. Eközben a cseh nyelvről szlovákra és lengyelre történő fordítások eredményei, amelyek mind közelebbi nyugati szláv nyelvek, meglehetősen biztatóak voltak (Hajič et al., 2000, 12. o.).
Hibrid neurális/szabályalapú gépi fordítás
Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) konferencián bemutatott eredmények szerint egy szabályalapú lemkó-lengyel motort egy lengyel-angol szabályalapú motorral kombináltak, hogy elkészítsék a világ első publikált eredményeit a lemkó nyelvről angolra történő gépi fordításokhoz (Orynycz et al., 2021). A következő évben a fordított irányú fordításokat a rendszer módosításával és visszafelé futtatásával állították elő (Orynycz, 2022). Az adott motoron végrehajtott fejlesztések, annak felülvizsgálata és szókincsének bővítése később 35%-os fordítási minőségjavulást eredményeztek (Orynycz, 2023).
Új megoldások
Szabályalapú gépi fordítási szakértői rendszer
Egy következtető motort kézzel kódoltak tesztvezérelt fejlesztés (TDD) segítségével, hogy tükrözze a szakterületi szakértők munkájával összeállított tudásbázisban található igazságokat. Ez a megközelítés lehetővé teszi a külföldi beavatkozások manuális kiküszöbölését és az orosz, valamint más jövevényszavak tisztítását is. A felhasznált szótárak között szerepelt Horoszczak kétirányú lengyel-lemkó szótára (2004), Pyrtej lemkó-ukrán szótára (2004), Duda ukrán-lemkó szótára (2011), és Rieger lemkó-lengyel szójegyzéke (1995), valamint a Bartne faluból származó felvételeken alapuló lemkó-lengyel szójegyzéke (2016). Fontański és Chomiak (2000), valamint Pyrtej (2013) nyelvtanait vették figyelembe a szavak nyelvtani kategóriák, például szám, eset és nem szerinti ragozására vonatkozó szabályok kódolásakor.
Transzformer mesterséges intelligencia
Az idegi gépi fordítás áttörését szorosan követte a Google Brain és a Google Research tudósai által bevezetett Transformer architektúra, amely kizárólag figyelmi mechanizmusokon alapul, és teljesen elhagyja a rekurrenciát és a konvolúciókat (Vaswani et al., 2017). Ehhez a kísérlethez transzformer alapú mesterséges intelligencia modelleket képeztünk ki lengyelről lemkó nyelvre történő fordításra, és tudomásunk szerint mi publikáljuk először az eredményeket.
Anyagok és módszerek
Anyag
Adatok
Mesterséges intelligencia modelleket hoztak létre egy 1 611 352 forrásszót (a Microsoft Word 365 szerint számolva) tartalmazó korpusz felhasználásával, 112 507 sorban, lengyel születésű lemkó anyanyelvűek által írva, valamint azok lengyel fordításaival együtt, amelyeket a Google Cloud Platform Translation Application Programming Interface (API) készített, úgy konfigurálva, hogy standard ukrán nyelvről fordítson idegi gépi fordítás segítségével.
A lemkó nyelv (más néven lemkó-ruszin nyelv) genetikailag a délnyugati ukrán dialektusrendszerhez tartozik, amelyen belül a hangsúly rögzített az utolsó előtti (második utolsó) szótagra (Danylenko, 2020). Ezek a dialektusok őshonosak a jelenleg Lengyelország és 1993 óta a Szlovák Köztársaság igazgatása alatt álló területeken.
A két világháború közötti Lengyelországban a kormány külön lemkó, hucul és bojkó identitásokat támogatott azzal a céllal, hogy ellensúlyozza az ukrán mozgalmat, amelynek tanárait elbocsátották (Moser, 2016b, 128. o.). 1935-ben az oroszbarát tanárokat lengyelek váltották fel, és a lemkó nyelvet végül 1937-ben eltávolították az iskolákból (128. o.). A lengyelországi lemkó nyelvűek mintegy kétharmadát 1945 és 1947 között Ukrajnába deportálták, a fennmaradó 40 000–50 000 főt pedig elsősorban a kommunista Lengyelország újonnan annektált, korábban német területeire telepítették át (131. o.). Lengyelország 2021-es népszámlálásának előzetes eredményei szerint 12 700-an jelölték meg a „lemkó” etnikumot (Główny Urząd Statystyczny, 2023, 3. o.).
Módszerek
Előfeldolgozás
Először minden szöveget kisbetűssé alakítottunk. Ezután szóközt illesztettünk minden nem alfanumerikus karakter elé és mögé. Minden sor elejéről és végéről eltávolítottuk a felesleges szóközöket. Ezt követően a fenti korpuszt Moslem (2023a) szkriptjével dolgoztuk fel a párhuzamos adatkészletek tisztítására és szűrésére (commit db6f441), így 33 612 sor maradt, amely 610 990 forrásszót tartalmazott a Microsoft Word 365 számlálása szerint.
Alszó-tokenizálás
Unigram alszó-modelleket képeztünk ki Moslem (2021a) szkriptjével (commit fbf2488). Ezután ezeket a modelleket használtuk a forrás- és célnyelvi szöveg tokenizálására ugyanazon commit második alszó-szkriptjével (Moslem, 2021b).
Adatfelosztás
A fenti korpuszból 2 000 sort különítettünk el értékelésre Moslem (2023b) erre a célra készült szkriptjével (commit e6decb7).
Mesterséges intelligencia modellek képzése
Mesterséges intelligencia modelleket képeztünk ki az OpenNMT neurális gépi fordítási eszköztár TensorFlow verziójával, amely a Harvard seq2seq-attn szekvencia-szekvencia modelljének utódja figyelmi mechanizmussal (Klein et al., 2017, 68. o.). A képzési és értékelési ciklus indítására szolgáló parancsot a Transformer modell automatikus konfigurációjával indítottuk el. Az automatikus értékelést is engedélyeztük, és úgy állítottuk be, hogy 5 000 lépésenként fusson a kétnyelvű értékelési alvizsgálat (BLEU) metrika használatával, és exportáljon egy modellt, amikor új csúcspontot ért el. A képzést a Google Colabatory platformon végeztük, NVIDIA A100 grafikus feldolgozó egységeket és nagy véletlen hozzáférésű memória futásidejű állapotot használva. A képzésnek engedélyeztük, hogy éjszaka is fusson.
Következtető motor
Egy fordítási következtető motort készítettünk Klein Python kiszolgáló kliens szkriptje (commit 2b196ff) (2021) alapján, amelyet módosítottunk, hogy befogadja a forrás- és célnyelvi alszó-tokenizálási modelleket, valamint optimalizálja a szóközöket és a nagybetűs írást, hogy jobban megfeleljen a mesterséges intelligencia modellek és a végfelhasználók elvárásainak. A fordítási előrejelzéseket fájlba mentettük a későbbi minőségértékelés céljából.
Minőségértékelés
A fordítások minőségét olyan metrikák felhasználásával értékeltük, amelyek fejlesztését a DARPA finanszírozta: mind a BLEU (Papineni et al., 2002), mind a Translation Edit Rate (TER) (Snover et al., 2006). Magukat a pontszámokat az Amazon Research által Post (2018) által kifejlesztett iparági szabványos módszerekkel számítottuk ki.
Eredmények
Fordítási minőségi pontszámok
A kísérleti szabályalapú szakértői rendszer minden más rendszert felülmúlt minden metrika szerint, amikor lengyelről lemkó nyelvre és fordítva fordított.
Lengyel-lemkó fordítási minőség
Lengyelről lemkó nyelvre történő fordításkor a kísérleti szakértői szabályalapú rendszer 29,49-es BLEU kétnyelvű értékelési alvizsgálati minőségi pontszámot ért el, ami 6,50-szer jobb, mint a Google Fordító ukrán szolgáltatása. Eközben a kísérleti mesterséges intelligencia Transformer idegi gépi fordítási rendszer 15,90-es BLEU pontszámot ért el 30 000 képzési lépés után, ami 3,50-szer jobb volt, mint a Google Fordító ukrán szolgáltatása. Az alternatív TER metrika használatával mérve a kísérleti szakértői, szabályalapú rendszer 53,73-as TER pontszámot ért el, ami 61%-kal jobb, mint a Google Fordító ukrán szolgáltatása.
A kísérleti, szabályalapú szakértői rendszer minden más rendszert felülmúlt minden metrika szerint, amikor lemkó nyelvről lengyelre fordított, 31,13-as BLEU kétnyelvű értékelési alvizsgálati minőségi pontszámot érve el, ami 1,4-szer jobb volt, mint a Google Fordító ukrán szolgáltatásának teljesítménye 22,16-os BLEU pontszámmal.
Példák
Angol jelentés (emberi fordító)
Például a szövegekben, és én főleg szövegeket tanulmányozok, van egy forrásom, azt írták: az osztrákok gyilkoltak minket, akkor mit fognak tenni velünk azok a szörnyű moszkvaiak, akikkel megpróbálnak minket megijeszteni?
Lengyel (emberi fordító)
Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
Igazság:lemkó referencia (anyanyelvi beszélő)
І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат?
I ony napryklad v tekstach, a ja holovni dosljidžam tekstŷ, to značŷt mam takie džerelo, pysaly: no Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ Moskalji, kotrŷma nas strašat?
Rendszer
Fordítási hipotézisek
Minőségi pontszámok
Cirill
Átírás
BLEU
TER
Kísérleti
Szakértői rendszer (szabályalapú)
Наприклад они в текстах, а я головні бадам текстий, мам такы джерело, писали: Австриякы нас мордували, то што зроблят тоты страшны москале, котрыма нас страшом?
Napryklad ony v tekstach, a ja holovni badam tekstyj, mam takŷ džerelo, pysaly: Avstryjakŷ nas morduvaly, to што zrobljat totŷ strašnŷ moskale, kotrŷma nas strašom?
46.32
34.48
Mesterséges intelligencia (Transformer)
Примірово, в текстах, а я головні в заміріню тексту, маме джерело, писали: австриякы австриякы мордували, же то што зроблят стабілизацию тому, котрыма нас престрашыли?
Prymirovo, v tekstax, a ja holovni v zamirinju tekstu, mame džerelo, pysaly: avstryjakŷ avstryjakŷ morduvaly, že to što zrobljat stabilyzacyju tomu, kotrŷma nas prestrašŷly?
27.65
55.17
Google Fordító
Lengyel
На прзиклад оні в текстах, а я ґлувнє бадам тексти, мам такє зьрудло, пісалі: Аустряци нас мордовалі, то цо зробьон ці страшні Москалє, ктуримі нас страшон?
Na przyklad oni v tekstach, a ja gluvnje badam teksty, mam takje źrudlo, pisalji: Austriacy nas mordovalji, to co zrobjon ci strašni Moskalje, kturymi nas strašon?
14.21
68.97
Ukrán
Наприклад, у своїх текстах, а я в основному досліджую тексти, у мене є таке джерело, вони писали: Австрійці нас повбивали, що будуть робити ті страшні москалі, якими вони нам погрожують?
Napryklad, u svojix tekstax, a ja v osnovnomu doslidžuju teksty, u mene je take džerelo, vony pysaly: Avstrijci nas povbyvaly, ščo budutʹ robyty ti strašni moskali, jakymy vony nam pohrožujutʹ?
9.43
82.76
Orosz
Например, в их текстах, а я в основном исследую тексты, у меня есть такой источник, они писали: Нас убили австрийцы, что будут делать те страшные москвичи, которыми они нам угрожают?
Naprimer, v ix tekstax, a ja v osnovnom issleduju teksty, u menja estʹ takoj istočnik, oni pisali: Nas ubili avstrijcy, čto budut delatʹ te strašnye moskviči, kotorymi oni nam ugrožajut?
9.43
86.21
Belarusz
Напрыклад, у сваіх тэкстах, а я ў асноўным тэксты дасьледую, у мяне ёсьць такая крыніца, яны пісалі: Аўстрыйцы нас забілі, што будуць рабіць тыя страшныя маскалі, якімі яны нам пагражаюць?
Napryklad, u svaix tèkstax, a ja ŭ asnoŭnym tèksty das′leduju, u mjane ës′c′ takaja krynica, jany pisali: Aŭstryjcy nas zabili, što buduc′ rabic′ tyja strašnyja maskali, jakimi jany nam pahražajuc′?
4.99
96.55
1. táblázat. Példa lengyel-lemkó fordításokra
Megbeszélés
Politikai vonatkozások
A tanulási, közegészségügyi és biztonsági eredmények javulhatnak, ha az oktatási, képzési, közösségi tájékoztató és egyéb anyagokat a nemzeti szabványos nyelvek mellett regionális dialektusokra és nyelvekre is lokalizálják. Az emberi erőforrás-kapacitások túlterhelésének elkerülése érdekében a nyelvészek feladata lehetne a szakértői és mesterséges intelligencia gépi fordítási rendszerek kimenetének utószerkesztése, szemben a kézi fordítással. A fordított anyagokhoz való megfizethetőbb hozzáférés javulást hozhat a szociális szolgáltatásokban az alulfejlett területeken. Stonewall et al. a többnyelvűséget, és ezáltal az inkluzivitást, előkelő helyen említik az alulfejlett népességek bevonására vonatkozó legjobb gyakorlatok listáján (2017). Az Európai Unió olyan kutatásokat finanszíroz, amelyek szerint a gépi fordítás felhasználható a polgári részvétel elősegítésére, valamint az alulfejlett közösségek közegészségügyének és biztonságának erősítésére (Nurminen & Koponen, 2020).
Technológiai vonatkozások
A kereskedelmileg életképes, gombnyomásra elérhető lemkó gépi fordítás megvalósulása jó úton halad. A szakértői, szabályalapú rendszerek folyamatos, tesztvezérelt fejlesztése úgy tűnik, a leggyorsabb utat kínálja az emberfeletti fordítási minőségi pontszámok eléréséhez. A transzformer alapú mesterséges intelligencia rendszerek hosszú távon győzhetnek.
A mesterséges intelligencia képzési eljárásának bizonyos finomhangolásai kísérletezést érdemelnek. A korpuszszűrő szkript túlzottan buzgó lehetett ehhez a feladathoz, és túlságosan lecsökkentette a korpusz méretét, akadályozva a teljesítményt. A szkript kihagyható egy jövőbeli kísérletben. A túltanulás ronthatja a pontszámokat, és talán az 5000 lépéses értékelési intervallumot is rövidíteni kellene. A szakértői szabályalapú rendszer használata a korpuszok lemkó nyelvről lengyelre történő fordítására a Google Cloud Platform szolgáltatás helyett jobb eredményeket hozhat. Az automatikus helyesírás-ellenőrző modulok beépítése globálisan is javíthatja a pontszámokat.
Az orosz és más idegen nyelvi interferencia programozottan ellensúlyozható lenne a jövevényszavak keresés-csere algoritmusokkal történő tisztításával. A nemzeti nyelvi akadémiák és más hatóságok hasznosnak találhatják az ilyen képességeket. Lehetséges, hogy a fordítási minőség már elérte a szuperhumán szintet, ami egy olyan hipotézis, amelyet jövőbeli kísérletekben tesztelni lehetne.
Érdekellentétek nyilatkozata
A fő szerző minőségellenőrzési specialistaként dolgozik a Google Fordító San Franciscó-i projektjében.
Hivatkozások
2. Európai [sic] Kárpátaljai [sic] Ruszin Kongresszus [rusin]. (2008. október 25.).MEMORANDUM 2-go Evropejskogo Kongressa Podkarpatskix Rusinov o prinjatii AKTA PROVOZGLAŠENIJA vosstanovlenija rusinskoj gosudarstvennosti [A Kárpátaljai Ruszinok Második Európai Kongresszusának memorandumja a Ruszin Államiság Helyreállításáról szóló Kiáltvány elfogadásáról] [Online fórumbejegyzés]. Kárpátaljai Ruszinok Információs Ügynöksége. IAPR. Kárpátaljai Ruszinok Fóruma. http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832
Chen, X., Unger, J.B., Cruz, T.B., & Johnson, C.A. (1999). Ázsiai-amerikai fiatalok dohányzási szokásai Kaliforniában és kapcsolatuk az akkulturációval. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9
Cho, K., van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Kifejezésreprezentációk tanulása RNN kódoló-dekódolóval statisztikai gépi fordításhoz. A 2014-es Természetes Nyelvfeldolgozás Empirikus Módszereinek Konferenciájának (EMNLP) Előadásai, 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179
Danylenko, A. (2020). „Kárpát-ruszin”, ben: A szláv nyelvek és nyelvészet online enciklopédiája, főszerkesztő: Marc L. Greenberg. Online megtekintve: 2023. június 13. http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960
Duda, I. (2011). Lemkivsʹkyj slovnyk [Lemkó szótár]. Ternopil: Aston.
Epstein, J. A., Botvin, G.J., & Diaz, T. (1998). Nyelvi akkulturáció és nemi hatások a dohányzásra a spanyolajkú fiatalok körében. Preventive medicine, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329
Fontański, H., & Chomiak, M. (2000). Gramatyka języka łemkowskiego [A lemkó nyelv nyelvtana]. Katowice: „Śląsk” Sp. z o.o. Wydawnictwo Naukowe.
Hajič, J., Hric, J., & Kuboň, V. (2000. április). Nagyon közeli nyelvek gépi fordítása. In Hatodik Alkalmazott Természetes Nyelvfeldolgozási Konferencia (7–12. o.). http://dx.doi.org/10.3115/974147.974149
Hallett, D., Chandler, M.J., & Lalonde C.E. (2007): Aborigin nyelvtudás és ifjúsági öngyilkosság. Kognitív Fejlődés. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001
Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemkó-lengyel és lengyel-lemkó szótár], Warszawa: Rutenika.
Klein, G., Kim, Y., Deng, Y., Senellart, J., & Rush, A.M. (2017). OpenNMT: Nyílt forráskódú eszköztár neurális gépi fordításhoz. In A Számítógépes Nyelvészet Szövetségének 55. Éves Találkozójának Előadásai – Rendszerbemutatók, 67–72. o. https://doi.org/10.18653/v1/P17-4012
Malik-Moraleda, S., Jouravlev, O., Mineroff, Z., Cucu, T., Taliaferro, M., Mahowald, K., Blank, I., & Fedorenko, E. Poligloták és hiperpoligloták nyelvi hálózatának funkcionális jellemzése precíziós fMRI-vel. Cold Spring Harbor Laboratory. Előzetes online publikáció. https://doi.org/10.1101/2023.01.19.524657
Mesa, N. (2023. február 3.). Anyanyelved különleges helyet foglal el az agyadban, még akkor is, ha 10 nyelven beszélsz. Science, https://doi.org/10.1126/science.adh0055
Miller, H., & Miller, K. (1996). Nyelvpolitika és identitás: a katalán eset. International Studies in Sociology of Education, 6(1). https://doi.org/10.1080/0962021960060106
Moser, M. (2016b). Ruszin: Egy új-régi nyelv nemzetek és államok között. In: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (szerk.), The Palgrave Handbook of Slavic Languages, Identities and Borders, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7
Nurminen, M., & Koponen, M. (2020). Gépi fordítás és méltányos hozzáférés az információhoz. Translation Spaces, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur
Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): A hátrányos helyzet spirálja: Etnolingvisztikai diszkrimináció, akkulturációs stressz és egészség a mexikói Nahua őslakos közösségekben. American Journal of Biological Anthropology, 1–15. https://doi.org/10.1002/ajpa.24745
Orynycz, P. (2022, május). Mondd jól: AI idegi gépi fordítás segíti az új beszélőket a lemkó nyelv újjáélesztésében. In Mesterséges intelligencia az HCI-ban: 3. Nemzetközi Konferencia, AI-HCI 2022, a 24. HCI Nemzetközi Konferencia, HCII 2022 részeként megrendezve, Virtuális esemény, 2022. június 26. – július 1., Előadások (pp. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37
Orynycz, P. (2023, július). BLEU kilátások a veszélyeztetett nyelvek újjáélesztéséért: a lemkó-ruszin és ukrán neurális MI fordítási pontosság szárnyal. In Nemzetközi Ember-Számítógép Interakció Konferencia (pp. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10
Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Kulturális folytonosság, hagyományos őslakos nyelv és cukorbetegség az Albertai Első Nemzetek körében: vegyes módszertanú tanulmány. International Journal for Equity in Health, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4
Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, július). BLEU: módszer a gépi fordítás automatikus értékelésére. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311–318). https://doi.org/10.3115/1073083.1073135
Post, M. (2018). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. In Proceedings of the Third Conference on Machine Translation: Research Papers, pp. 186–191. Brussels: Association for Computational Linguistics http://dx.doi.org/10.18653/v1/W18-6319
Putin, V. Ob istoričeskom edinstve russkix i ukraincev [Az oroszok és ukránok történelmi egységéről]. Letöltve: 2023. május 15., innen: http://kremlin.ru/events/president/news/66181
Pyrtej, P. (2004). Korotkyj slovnyk lemkivsʹkyx hovirok [A lemkó dialektusok rövid szótára]. Ivano-Frankivsʹk: Siversija MB.
Pyrtej, P. (2013). Lemkivsʹki hovirky. Fonetyka i morfolohija [A lemkó dialektusok. Fonetika és morfológia]. Gorlice: Zjednoczenie Łemków.
Rieger, J. (1995). Słownictwo i nazewnictwo łemkowskie [Lemkó szókincs és nómenklatúra]. Warszawa: Wydawnictwo Naukowe Semper.
Rieger, J. (2016). Mały słownik łemkowkiej wsi Bartne [Bartne lemkó falu kis szótára]. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego.
Rosario-Sim, M.G., & O’Connell K.A. (2009). A depresszió és a nyelvi akkulturáció összefüggése a dohányzással az idősebb ázsiai-amerikai serdülők körében New York Cityben. Public Health Nursing 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x
Simmons, G.F., & Lewis, M.P. (2013). A világ nyelvei válságban: 20 éves frissítés. In E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (Eds.), Válaszok a nyelvi veszélyeztetettségre: Mickey Noonan tiszteletére. Új irányok a nyelvi dokumentációban és nyelvi revitalizációban (pp. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim
Slavich, G.M., & Irwin, M.R. (2014). A stressztől a gyulladásig és a súlyos depressziós rendellenességig: a depresszió szociális jelátviteli elmélete. Psychological Bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, (pp. 223–231). https://aclanthology.org/2006.amta-papers.25
Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). Az oktatás nyelvének hatása az iskolákban a diákok teljesítményére: Bizonyítékok Malajziából a szintetikus kontroll módszer alkalmazásával. World Bank Group Policy Research Working Paper 9517. http://hdl.handle.net/10986/35031
Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, szeptember). Bevált gyakorlatok az alulreprezentált népességek bevonására. In Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Vol. 61, No. 1, pp. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). A figyelem minden, amire szükséged van. NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349
White, D.J., & Overdeer, D. (2020). Az etnikai hovatartozás kihasználása az orosz hibrid fenyegetésekben. Strategos: Scientific journal of the Croatian Defence Academy 4(1), 31–49. https://hrcak.srce.hr/242087
Willner, P. (2017). A krónikus enyhe stressz (CMS) depresszió modellje: Története, értékelése és használata. Neurobiology of Stress, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002
A mesterséges intelligencia által működtetett neurális gépi fordítás hamarosan újjáélesztheti a veszélyeztetett nyelveket azáltal, hogy felhatalmazza az új beszélőket a valós idejű kommunikációra, olyan mondatok használatával, amelyek számszerűsíthetően közelebb állnak az irodalmi normához, mint az anyanyelvi beszélőké, és a nyelvi visszaszerzésük első napjától kezdve. Míg a Szilícium-völgy hatalmas erőforrásokat fektetett a neurális fordítási technológiába, amely emberfeletti sebességre és pontosságra képes a világ legszélesebb körben használt nyelvei esetében, addig 98%-uk lemaradt, korpuszok hiánya miatt: a neurális gépi fordítási modellek több millió szavas kétnyelvű szövegen alapulnak, amelyek egyszerűen nem léteznek a legtöbb nyelv esetében, és nyelvénként több mint százezer amerikai dollárba kerül az összeállításuk.
Az alacsony erőforrású nyelvek esetében létezik egy leleményesebb, ha nem hatékonyabb megközelítés: az átviteli tanulás, amely lehetővé teszi az alacsonyabb erőforrású nyelvek számára, hogy profitáljanak a magasabb erőforrású nyelvek eredményeiből. Ebben a kísérletben a Google angol-lengyel neurális fordítási szolgáltatását párosították a klasszikus, szabályalapú motorommal, hogy angolról a veszélyeztetett, alacsony erőforrású, kelet-szláv lemkó nyelvre fordítsanak. A rendszer 6,28-as kétnyelvű értékelési alvizsgálati (BLEU) minőségi pontszámot ért el, ami többszörösen jobb, mint a Google Fordító angol-standard ukrán (BLEU 2,17), orosz (BLEU 1,10) és lengyel (BLEU 1,70) szolgáltatásai. Végül ennek a kísérletnek az eredménye, a világ első angol-lemkó fordítási szolgáltatása elérhetővé vált a www.LemkoTran.com webcímen, hogy felhatalmazza az új beszélőket nyelvük újjáélesztésére.
Az új beszélők kulcsfontosságúak a nyelv újjáélesztésében, és a lemkó nyelven való „Mondd jól” képessége most már a kezükben van.
Kérem, így hivatkozzon: Orynycz, P. (2022). Mondd jól: AI idegi gépi fordítás segíti az új beszélőket a lemkó nyelv újjáélesztésében. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia az HCI-ben. HCII 2022. Lecture Notes in Computer Science, 13336. kötet. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
Ez a kísérlet célja, hogy helyi szinten hozzájáruljon a nyelvi veszteség globális kihívásához, amely naponta egy nyelv eltűnésével járhat, és tízből mindössze egy nyelv marad fenn [1, p. 1329]. A sajtó idején az SIL International Ethnologue című kiadványa Lewis és Simons 2010-es kiterjesztett, fokozatos intergenerációs zavar skáláját használja annak becslésére, hogy 3018 nyelv veszélyeztetett [2], ami a sajtó idején a Nemzetközi Szabványügyi Szervezet ISO 639-3 szabványában [3] számon tartott 7001 egyedi élő nyelv 43%-a. Eközben a Google Fordító csak 108 [4], a Facebook pedig 112 [5] nyelvet támogat, ami már egy kezdet. Mindazonáltal egy nyelvvel kevesebb van most alulreprezentálva, mivel e kísérlet eredményét egy webszerverre telepítették nyilvános fordítási szolgáltatásként.
Új mesterséges intelligencia technológiák kecsegtetnek azzal az ígérettel, hogy ember-számítógép interakcióval azonnal kompenzálják a nyelvi veszteséget. Előző kísérletemben a következő generációs neurális motorok magasabb minőségi pontszámokat értek el orosz és lengyel nyelvről angolra fordítva, mint az emberi kontroll [6, p. 9]. Eközben a Facebook és a Google1 hatalmas erőforrásokat fektetett abba, hogy emberi teljesítményt felülmúló automatikus fordítási rendszereket biztosítson a fogyasztók számára nulla költséggel.
1 Nyilatkozat: Fizetett orosz, lengyel és ukrán nyelvészként, valamint fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben; a központ San Franciscóban található.
Az emberfeletti mesterséges intelligencia nem olcsó: a neurális nyelvi modellek képzéséhez kétnyelvű korpuszokra van szükség, amelyek szószámuk százezrekben, ideális esetben milliókban mérhető, ami több százezer dollárba kerülne lefordítani, olyan összegekbe, amelyek meghaladják a legtöbb alacsony erőforrású nyelvi közösség lehetőségeit. Szerencsére ez a kísérlet azt mutatja, hogy vannak találékonyabb és hatékonyabb módok a veszélyeztetett nyelvek újjáélesztését célzó fordítási segédeszközök létrehozásának kihívására.
1.2 Eddigi munka
Én építettem a világ első lemkó-angol gépi fordítási rendszerét, és nyilvánosan elérhetővé tettem. Objektív fordítási minőségi pontszámai javultak: a motor 2021 nyarán 14,57-es BLEU (bilingual evaluation understudy) pontszámot ért el, amelyet a Nemzeti Védelmi Ipari Szövetség Szolgálatközi/Ipari Képzési, Szimulációs és Oktatási Konferenciáján mutattak be szakembereknek, és közzétettek annak kiadványaiban [6]. Referenciaként én 28,66-os BLEU pontszámot értem el emberi fordítóként, terepi körülmények között dolgozva, elzárva a külvilágtól. 2021 őszére a motor elérte a 15,74-es BLEU pontszámot, amiről a Pittsburghi Egyetem által szervezett bemutató eseményen számoltak be nyelvészeknek, akadémikusoknak és a szélesebb közösségnek.2
2 Nyilatkozat: az eseményt a Kárpát-Ruszin Társaság (Pennsylvania) támogatta, és a Pittsburghi Egyetem fizetett a prezentációmért.
1.3 Vizsgált rendszer
A lemkó nyelv határozottan súlyosan veszélyeztetett [6, p. 3, 7, pp. 177-178], alacsony erőforrású [8], hivatalosan elismert kisebbségi nyelv [9], amely feltehetően a Krakkó, Tarnów és Rzeszów nagyvárosi területektől délre fekvő, határokon átnyúló hegyvidékek őshonos nyelve; a történelmi elhatároló izoglosszák remélhetőleg egy jövőbeli tanulmány témái lesznek. Lengyelország népszámlálási hivatala 2011-ben 6279 lakost számlált, akik számára a lemkó volt az „általában otthon használt” nyelv (még ha a lengyel mellett is) [10, p. 3], ami 12%-os növekedést jelent a 2002-es 5605 főhöz képest, akik számára a lemkó volt a „leggyakrabban otthon beszélt” nyelv [11, p. 6, 12, p. 7]. A sajtó idején egy új számlálás eredményeit dolgozzák fel.
A lemkó keleti szláv nyelvként osztályozható, mivel megfelel a szokásos genetikai szerkezeti jellemzők kritériumainak, amelyek közül a legjelentősebb a pleofónia [13, 20. o.], amely szerint egy magánhangzó keletkezett az ős-szláv mássalhangzó-sorozatokban C amelyet közép- vagy mély magánhangzó követ V (*e, vagy *o, amellyel *a összeolvadt [14, p. 366]), amelyet folyékony R követ (azaz, *l vagy *r), amelyet egy másik mássalhangzó követ C, azaz CVRC > CVRVC. Illusztrációként hasonlítsa össze az óangol „olvad” szót, a meltan (CVRC) [15, 718. o.] feltételezett lemkó rokonával, a mołódyj [16, 92. o., 17, 150. o.] (CVRC) szóval, ami „fiatal”-t jelent. Más keleti szláv rokon szavak közé tartozik az ukrán mołodýj és az orosz mołodój[17], mindkettő magánhangzót mutat a likvida után (CVRVC). Eközben a nyugati szláv nyelvekben hiányzik a magánhangzó a likvida előtt; hasonlítsa össze a lengyel młody és a szlovák mladý szavakat (mindkettő CRVC) [17]. Továbbá, rokonságot feltételeztek más, „enyhe” jelentésű szavak esetében is, beleértve a szanszkrit mṛdú (CRC) [18, p. 830] és a latin mollis (CVRC ha a *moldvis szóból ered) [15, 17, 19, p. 323].
Azt, hogy a lemkó mennyire felel meg a szokásos, modern ukrán genetikai szerkezeti jellemzők kritériumainak, ebben a kísérletben nem értékelték. Azonban a lemkó és a standard ukrán közötti hasonlóságot számszerűsítették, tudomásom szerint először nyomtatásban. Alább a lemkó motorom 6,28-as BLEU pontszámot ért el, ami közel háromszorosa a Google Translate ukrán szolgáltatásának 2,17-es BLEU pontszámának. További kísérleteket lehetne végezni a lemkó, a standard ukrán, a lengyel és a Szlovákiában kodifikált ruszin közötti hasonlóság számszerűsítésére, valamint a lemkó tipológiai osztályozásának új megközelítésére.
Az erőforrások mennyisége és minősége javult, ahogy a technológia által megerősített találékonyság is. Az összes ismert kétnyelvű korpuszt, amely kevesebb mint hetvenezer lemkó szót tartalmazott, összegyűjtötték ehhez a kísérlethez. Tisztítottam egy kétnyelvű korpuszt, amely Lengyelországban anyanyelvi beszélőkkel készített interjúk átiratait és az azokról készült angol fordításaimat tartalmazta, amelyeket egy amerikai ügyfél fizetett ki nekem, és engedélyezte a felhasználásukat. Monolingvális korpuszokat is összeállítok, amelyek a sajtó megjelenésekor összesen 534 512 szót tesznek ki.
1.4 Hipotézis
Az én szubjektív benyomásom alapján, mint professzionális fordító, hogy a Lengyelországban megkérdezett lemkó anyanyelvűek nagyobb valószínűséggel használtak nyilvánvaló lengyel rokon szavakat, mint standard ukránokat, azt feltételeztem, hogy minden más tényező egyenlő feltételezése mellett egy gép konfigurálható lenne angolról lemkóra történő fordításra, és magasabb BLEU objektív minőségi pontszámokat érhetne el, mint a Google Translate ukrán és orosz szolgáltatásai.
1.5 Előrejelzések
Lemkó Fordítási Rendszer. Azt jósoltam, hogy az említett fordítási rendszer 15-ös BLEU pontszámot ér el angolról lemkóra fordítva a kétnyelvű korpusz alapján.
Google Fordító.
Angol-ukrán szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-ukrán szolgáltatása 10-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
Angol-orosz szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-orosz szolgáltatása 1-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
1.6 Módszerek és indoklás
A sebesség, az erőforrás-megőrzés és a robusztusság érdekében egy, a munkáltatóm által elavultnak ítélt laptop számítógépet konfiguráltak lemkóra történő fordításra és hívások kezdeményezésére a Google Cloud Platform Google Translate szolgáltatásához, valamint konfigurálták az említett fordítások értékelésére az iparági szabvány BLEU metrika segítségével.
1.7 Fő eredmények
Az angol-lemkó fordítási rendszer kumulatív BLEU pontszáma 6.28431824990417 volt. Eközben a Google Translate ukrán szolgáltatása 2.16830846776652 BLEU pontszámot ért el, orosz szolgáltatása 1.10424105952048 BLEU pontszámot, és a cirill ábécére átírt lengyel kontroll 1.70036447680114 BLEU pontszámot.
2 Anyagok és módszerek
A fenti hipotézist úgy tesztelték, hogy kiszámították a BLEU minőségi pontszámokat az alább részletezett módon beállított fordítórendszerek mindegyikére.
2.1 Beállítás
Hardver. A kísérletet egy HP Elitebook 850 G2 laptopon végezték, amely Core i7-5600U 2.6GHz processzorral és 16 gigabájt véletlen hozzáférésű memóriával rendelkezett. A munkáltatóm elavultnak ítélte és a sajtó idején 450 USD-ért hirdették eladásra.
Konfiguráció. Az alapvető bemeneti/kimeneti rendszer (BIOS) menüjében az eszközt úgy konfigurálták, hogy engedélyezze a virtualizációs technológiát (VTx).
Operációs rendszer. Windows 10 Professional 64 bit volt telepítve csupasz fémre. Biztosították, hogy a Virtual Machine Platform és Windows Subsystem for Linux Windows funkciók engedélyezve legyenek. Ezután telepítették a WSL2 Linux kernel update for x64 gépeket (wsl_update_x64.msi), amelyek a Microsofttól https://aka.ms/wsl2kernel címen érhetők el.
Szoftver. A Docker Desktop for Windows 4.4.3 (73365) verziójú telepítőjét letöltötték a https://www.docker.com/get-started címről, és futtatták a Install required Windows components for WSL 2 selected opcióval.
Csomagok. A kísérlet az alábbi Python Package Index csomagokra támaszkodott.
SacreBLEU. A 2.0.0-s verziót a következő univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették: https://pypi.org/project/sacrebleu/2.0.0/
A fenti függőségeket a követelmények fájlban a következőképpen adták meg: google-cloud-translate==2.0.1 sacrebleu==2.0.0
Konténer.
Építés. A kísérletet egy Docker konténerben futtatták, amely a Python programozási nyelv legújabb verzióját (akkoriban 3.10.2-es verzió) tartalmazta, Debian Bullseye 11 Linux operációs rendszeren, AMD64 architektúrán, a Secure Hash Algorithm 2 rövidített kivonatával bcb158d5ddb6, amely a következő paranccsal szerezhető be: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Futtatás. A konténert úgy konfigurálták, hogy a nyers kísérleti adatfájlokat egy helyi, csatlakoztatott kötetre mentse.
Fordítási minőség pontozása. A fordítási minőségi pontszámokat a BLEU metrika szerint számították ki a SacreBLEU eszköz 2.0.0-s verziójával, amelyet Post [20] talált fel.
Kis- és nagybetű érzékenység. Az értékelést kis- és nagybetű érzékeny módon végezték.
Tokenizálás. A szegmenseket a Statisztikai Gépi Fordítás Műhely szabványos pontozási szkript metrika belső tokenizálási eljárásának 13a verziójával tokenizálták.
Simítási módszer. Az Egyesült Államok szövetségi kormányzati alkalmazottai által a National Institute of Standards and Technology-nál a Multimodális Információs Csoport BLEU eszközkészletéhez kifejlesztett simítási technikát, amely Chen és Cherry [21, p. 363] által leírt harmadik technika, alapértelmezés szerint alkalmazták.
Aláírás. A fenti beállítások a következő aláírást eredményezték: n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibrálás. A fentiek szerint konfigurálva a gép a következő kimenetet produkálja:
Magyarázat. A hipotézis két karakterrel különbözött a referenciától. A gép rosszul fordította a tagadó igekötőt, a „nem” (ni) szót használta a várt „nem” (ne) szó helyett. Ezt azóta nagyrészt kijavították. A gép vesszőt is tett a pamjatam után, ami azt jelenti, hogy „emlékszem”. Ez 100-ról 43,47-re csökkentette a pontszámot, ami egyébként tökéletes lett volna.
Kontroll. Mivel a korpusz Lengyelországban készített interjúkon alapul, a lengyel fordításokat használták kontrollként. Ezeket cirill ábécére írták át, megfordítva a lengyel Belügyminisztérium által a lemkó nevek átírására vonatkozó szabályokat [22, 6564. o.]. A lengyel nazális magánhangzókat magánhangzóra és nazális zárhangra bontották, kivéve az approximánsok előtt, ahol közvetlenül denazalizálták őket. Szó végén az elülső nazális magánhangzó /ę/ egyszerűen denazalizálódott, a hátsó /ą/ pedig úgy íródott át, mintha egy dentális zárhang követné.
3 Eredmények
A nyilvánosan elérhető motor a www.LemkoTran.com címen az első helyet szerezte meg 6,28-as kumulatív fordítási minőségi pontszámmal, ami közel háromszorosa a második helyezett, a Google Fordító angol-ukrán szolgáltatásának (BLEU 2,17) pontszámának. Ezután következett az angol-lengyel szolgáltatása (BLEU 1,70), az angol-orosz szolgáltatása pedig az utolsó helyen végzett (BLEU 1,10).
1. táblázat. Angol-lemkó fordítási minőség: LemkoTran.com kontra Google Translate
3.1 Eredmények gépi fordítási szolgáltatás szerint
Kontroll. Cirill betűkre átírva a Google Fordító standard lengyel fordításai 1,70-es korpuszszintű BLEU pontszámot értek el. Teljesítményének mintái a következők:
2174. szegmens.
Angol forrás
We had still been in Izby, right.
Lemkó hivatkozás és átírás
То мы іщы были в Ізбах, так.
To mŷ iščŷ bŷly v Izbach, tak.
Lengyel hipotézis és átírás
Билісьми єще в Ізбах, так.
Byliśmy jeszcze w Izbach, tak.
Pontszám
BLEU = 46.20
854. szegmens.
Angol forrás
And that's what it's all about.
Lemkó hivatkozás és átírás
І о то ходит.
I o to chodyt.
Lengyel hipotézis és átírás
І о то власьнє ходзі.
I o to właśnie chodzi.
Pontszám
BLEU = 32.47
217. szegmens.
Angol forrás
And that's what it's all about.
Lemkó hivatkozás és átírás
Так мі повіл.
Tak mi povil.
Lengyel hipotézis és átírás
Так мі повєдзял.
Tak mi powiedział.
Pontszám
BLEU = 35.36
Hibrid angol-lemkó motor. A nyilvánosan elérhető motor a www.LemkoTran.com URL-en 6,28-as korpuszszintű BLEU pontszámot ért el.
1031. szegmens.
Angol forrás
Everything was there.
Lemkó hivatkozás és átírás
Вшытко там было.
Všŷtko tam bŷlo.
Lemkotran.com hipotézis és átírás
Вшытко там было.
Všŷtko tam bŷlo.
Pontszám
BLEU = 100.00
1445. szegmens.
Angol forrás
But that officer took that medal and said,
Lemkó hivatkozás és átírás
Але тот офіцер взял тот медаль і повідат:
Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com hipotézis és átírás
Але тот офіцер взял тот медаль і повіл:
Ale tot oficer vzial tot medal' i povil:
Pontszám
BLEU = 75.06
217. szegmens.
Angol forrás
That's what he said to me.
Lemkó hivatkozás és átírás
Так мі повіл.
Tak mi povil.
Lemkotran.com hipotézis és átírás
Так мі повіл.
Tak mi povil.
Pontszám
BLEU = 100.00
Ukrán. A Google Fordító standard ukrán nyelvre fordított szövegei korpuszszintű BLEU-pontszáma 2,35 volt.
2419. szegmens.
Angol forrás
Where and when?
Lemkó hivatkozás és átírás
Де і коли?
De i koly?
Ukrán hipotézis és átírás
Де і коли?
De i koly?
Pontszám
BLEU = 100.00
1096. szegmens.
Angol forrás
We were there for three months.
Lemkó hivatkozás és átírás
Там зме были три місяці.
Tam zme bŷly try misiaci.
Ukrán hipotézis és átírás
Ми були там три місяці.
My buly tam try misjaci.
Pontszám
BLEU = 30.21
2513. szegmens.
Angol forrás
Well, here to the west.
Lemkó hivatkozás és átírás
Но то ту на захід.
No to tu na zachid.
Ukrán hipotézis és átírás
Ну, тут на захід.
Nu, tut na zachid.
Pontszám
BLEU = 30.21
Orosz. A Google Fordító angolról oroszra fordító szolgáltatása korpuszszintű BLEU-pontszáma 1,10 volt.
432. szegmens.
Angol forrás
Nobody knew.
Lemkó hivatkozás és átírás
Нихто не знал.
Nychto ne znal.
Orosz hipotézis és átírás
Никто не знал.
Nikto ne znal.
Pontszám
BLEU = 59.46
2751. szegmens.
Angol forrás
What did they expel us for?
Lemkó hivatkozás és átírás
За што нас выгнали?
Za što nas vŷhnaly?
Orosz hipotézis és átírás
За что нас выгнали?
Za čto nas vygnali?
Pontszám
BLEU = 42.73
2164. szegmens.
Angol forrás
Brother went off to war.
Lemkó hivatkozás és átírás
Брат пішол на войну.
Brat pišol na vojnu.
Orosz hipotézis és átírás
Брат ушел на войну.
Brat ušel na vojnu.
Pontszám
BLEU = 42.73
4. Megbeszélés
A lemkó fordítási rendszer korpuszszintű 6,28-as BLEU pontszáma azt jelzi, hogy bár még sok a tennivaló, a dolgok jó úton haladnak. A standard orosz 1,10-es BLEU pontszáma azt jelzi, hogy a lemkó kevésbé hasonlít az oroszra, mint a lengyelre (BLEU 1,70). Talán a forradalom előtti helyesírás használata növelhetné az orosz pontszámát, de ez egy drága kísérlet lenne, kevés nyilvánvaló előnnyel.
A transzliterált standard lengyel kontroll hasonlósági BLEU-pontszám, 1,70, azt jelzi, hogy a domináns lengyel nyelv kevésbé zavaró, mint várható lenne. Érdekes lenne újratervezni a kísérletet, ahol néhány számítástechnikailag olcsó és nyilvánvaló hangmegfelelést (például az *ę denazalizációját /ja/-ra és az *ǫ denazalizációját /u/-ra, az *i visszahúzását /y/-ra, és a *g változását /h/-ra [23]) alkalmaznának a lengyel nyelvre, hogy lássák, akkor magasabb pontszámot érne-e el, mint a standard ukrán.
Összefoglalva, a lemkó nyelvet szintetizálták a laborban, és az előállításának képességét új és anyanyelvi beszélők kezébe adták. Egy alapos motorfelújítás és szószedet-bővítés után a következő lépés az, hogy objektíven mérjék, és ha lehetséges, a beszélők szubjektíven értékeljék a szintetikus lemkó minőségét az anyanyelvi beszélők által előállítottal szemben. Közelebb van az a nap, amikor az alacsony erőforrású nyelvek új beszélői gépi fordítást használhatnak nyelvükön való kommunikáció megkezdéséhez egyik napról a másikra, ahogy közelebb van az a nap is, amikor a lemkó nyelv csatlakozik a korábban veszélyeztetett, de most már újjáélesztett nyelvek sorához.
Köszönetnyilvánítás. Szeretném megköszönni kollégámnak, Ming Qiannek a Peraton Labs-tól, hogy inspirált engem e kísérlet elvégzésére, és Brian Stensrudnak a Soar Technology, Inc.-től, hogy bemutatott minket, valamint a bátorítását.
Szeretném megköszönni barátomnak, Corinna Caudillnak a bátorítását és személyes érdeklődését a projekt iránt, valamint azt, hogy bemutatott a Kárpát-Ruszin Társaság elnökének, Maryann Sivaknak a Pittsburghi Egyetemről, akinek szeretném megköszönni a lehetőséget, hogy bemutathattam a munkámat.
Szeretném megköszönni Maria Silvestrinek, a John és Helen Timo Alapítványtól, hogy interjúkat készített lemkó anyanyelvi beszélőkkel, és adományozta az átiratokat, valamint az azokról készült fordításaimat a kutatás és fejlesztés számára.
Szeretném megköszönni Achim Rabusnak a Freiburgi Egyetemről és Yves Scherrernek a Helsinki Egyetemről a projekt iránti érdeklődésüket és ötleteiket.
Szeretném megköszönni Myhal’ Lŷžečkónak az InterFyisa kisebbségi nyelvi technológiai blogtól a projekt iránti korai érdeklődését és a közösségi kapcsolattartást.
Szeretném megköszönni Zahoczewie-i társamnak, Marko Łyszyknek a projekt iránti érdeklődését és a közösségi kapcsolattartást.
Végül szeretném megköszönni társszerzőmnek és az Antech Systems Inc. kollégájának, Tom Dobrynak a bátorítását és útmutatását.
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: A világ nyelvei, SIL International. Huszonnegyedik kiadás. SIL International, Dallas (2021). Online verzió: Hány nyelv veszélyeztetett?, https://www.ethnologue.com/guides/how-many-languages-endangered, utolsó hozzáférés: 2022.02.11.
6. ^^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021 konferencia kiadványában, 21176. számú tanulmány. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.), Integral Strategies for Language Revitalization, pp. 175–200. Első kiadás. „Artes Liberales” Kar, Varsói Egyetem, Varsó (2016).
8. ^ Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
17. ^^^^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: Szanszkrit-angol szótár etimológiailag és filológiailag rendezve, különös tekintettel a rokon indoeurópai nyelvekre, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: A szláv örökölt lexikon etimológiai szótára. In: Lubotsky, A. (szerk.) Leiden Indo-European Etymological Dictionary Series, 4. kötet, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: Felszólítás a BLEU pontszámok jelentésének egyértelműségére. In: A Harmadik Gépi Fordítási Konferencia (WMT) kiadványában, 1. kötet, o. 186–191. Association for Computational Linguistics, Brüsszel (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: A mondatszintű BLEU simítási technikáinak szisztematikus összehasonlítása. In: A Kilencedik Statisztikai Gépi Fordítási Műhely kiadványában, o. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Varsó (2005).
23. ^ Shevelov, G.: Az H és az új G kronológiájáról az ukrán nyelvben. In: Harvard Ukrainian Studies, 1. kötet, 2. szám, o. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Orynycz, P.; Dobry, T.; Jackson, A.; Litzenberg, K.Yes I Speak… AI neural machine translation in multi-lingual training
@inproceedings{orynycz2021yes,
author = {Petro Orynycz and T. Dobry and A. Jackson and K. Litzenberg},
title = {Yes I Speak… AI neural machine translation in multi-lingual training},
booktitle = {Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC)},
year = {2021},
url = {https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862}
}
✅ A hozzájárulás ezen verzióját szakértői felülvizsgálat után elfogadták publikálásra, de nem ez a végleges verzió, és nem tükrözi az elfogadás utáni fejlesztéseket vagy javításokat. A végleges verzió online elérhető ezen a linken. Az elfogadott verzió használatára a kiadó elfogadott kéziratának felhasználási feltételei vonatkoznak.
A koalíciós partnerek közötti gyorsan megosztható és közösen használható képzésnek nyelvi és kulturális szempontból alkalmazkodnia kell (azaz lokalizálnia kell) a nem angolszász szövetségesek nyelvéhez, akik frontvonalbeli szereplőket képviselnek korlátozott vagy potenciálisan nulla angol nyelvtudással. Hagyományosan a lokalizáció idő- és munkaigényes folyamat volt, egy szakértőnek több mint két hónapra volt szüksége egy közepes méretű könyv lefordításához. Eközben a képzési gyakorlatoknak napok és hetek, nem pedig hónapok és évek teljes fejlesztési időkeretére kell reagálniuk, hogy megfeleljenek az operatív világ változó valóságának. Ebben a keretben a hagyományos lokalizáció komoly szűk keresztmetszetté válik a koalíciós erőfeszítések számára. Gyorsan kibontakozó helyzetekben a szövetségesek egyszerűen nem várhatnak hónapokat és éveket a ma este szükséges képzésre, vagy a jövő heti küldetés megoldására olyan nyelveken, amelyeket a frontvonalon könnyen megértenek – azaz a régóta áhított álom megvalósítására, a helyi igényekre szabott képzésre.
Lépjen be a feltörekvő mesterséges intelligencia technológia, a neurális gépi fordítás, amely percek alatt elvégzi azt, ami egy tapasztalt organikus nyelvésznek egy órát vesz igénybe, lehetővé téve a koalíciós szintű, többnyelvű bevezetést napok és hetek alatt, egyre javuló komplexitással. Ezt a gépi tanulás teszi lehetővé, azaz mesterséges ismétlődő neurális hálózatok képzése az egyik természetes nyelvről a másikra történő fordításra.
Mesterséges intelligencia alapú motorokat építettünk, időzítettük az Észak-atlanti Szerződés Szervezete (NATO) képzési anyagainak fordítását, és pontosságukat a kétnyelvű alulértékelési (BLEU) metrika segítségével mértük. Motorunk oroszból 1169,51%-kal gyorsabban és 58,37%-kal pontosabban fordított, mint a kontrollként használt professzionális emberi nyelvészünk. Lengyel neurális motorunk 17,29%-kal pontosabb és 488,45%-kal gyorsabb volt, mint az emberi. lemkó fordító motorjaink a világon az elsők, és tisztességes BLEU pontszámot, 14,57-et értek el. Mindeközben mindezt egy olcsó laptop számítógépen végeztük egy légmentesen elzárt, hozzáférés-vezérelt környezetben, elvágva a külvilágtól.
Az online fordítási szolgáltatások addig működnek, amíg titokban nem kell fordítani, vagy olyan nyelvről, amely nem tartozik az erőforrások szempontjából a felső 2%-ba. Még a legbiztonságosabb online vagy felhőalapú fordítási szolgáltatások használata is azt jelenti, hogy információkat osztunk meg egy harmadik féllel, ami a legtöbb kereskedelmi titoktartási megállapodást sérti, nem is beszélve a védelmi ipar követelményeiről. Továbbá, a vezető online fordítási platform csak 109 nyelven működik (Google, 2021), ami kevesebb, mint a ma a világon beszélt 7139 nyelv 2%-a (Eberhard, Simons, & Fennig, 2021). A felhőszolgáltatók inherent harmadik fél kockázatával szembesülve sokan ellenőrzött emberi nyelvészekhez fordulnak, akik legjobb esetben havonta egy könyvet tudnak kezelni, legrosszabb esetben pedig életre szóló jogosulatlan nyilvánosságra hozatali fenyegetést jelentenek. Annak érdekében, hogy a többnyelvű vállalkozások és szervezetek több lehetőséget kapjanak, elhatároztuk, hogy megoldjuk azt a problémát, hogyan lehet mesterséges intelligenciát alkalmazni az anyagok gyors, pontos és titkos fordítására magas, közepes és alacsony erőforrású nyelvekről, légmentesen elzárt, olcsó, középkategóriás laptop számítógépeken, amelyek le vannak választva az internetről és a külvilágról.
Eddigi megoldások
Míg a gépi fordítás alapjait al-Kindī bagdadi műhelyében rakták le több mint egy évezreddel ezelőtt (DuPont, 2018; lásd még al-Kindī, 2002), addig a látványos, látható fejlődés szinte teljes egészében a Szilícium-völgyben zajlott az elmúlt öt évben. A fő áttörés a Google-nál történt (Lewis-Kraus, 2016), és a Facebook is csatlakozott a neurális gépi fordítás klubjához (Ott et al., 2019). Mi az ő FAIRseq motorjuk munkájára építettünk, amelyhez Sławomir Dadas kiváló lengyel-angol modellt tett elérhetővé (Dadas, 2019). Mr. Dadas munkájára építve hibrid neurális/szabályalapú/szótáralapú motorokat hoztunk létre, amelyek lemkó nyelvről angolra és fordítva fordítanak. A transzfer tanulás alkalmazásának ötletét a ruszin természetes nyelvi feldolgozásra (NLP) már megvitattuk tisztelt kollégáinkkal, Yves Scherrerrel és Achim Rabusszal, akik elsőként publikáltak eredményeket egy szakértői folyóiratban, és kedvesen megragadták az alkalmat, hogy megemlítsék Petro Orynycz hibrid neurális/szabályalapú lemkó gépi fordító motorját (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), amely 2019 márciusa óta működik és szabadon elérhető a www.lemkotran.com webcímen, transzliterációs természetes nyelvi feldolgozó modulja pedig 2017 szeptembere óta nyilvánosan elérhető ott.
A szélesebb rendszer
Magas, közepes és alacsony erőforrású nyelvek
A nyelvpárokat a tudományos irodalomban magas erőforrású, közepes erőforrású és alacsony erőforrású kategóriába sorolják, a rendelkezésre álló technológiák és adatkészletek mennyiségétől függően, nemzetközi jelentőségükhöz viszonyítva (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). A magas erőforrású párok közé tartozik a cseh-angol (Kocmi, 2020, p. 171), az orosz-angol, a német-angol (Ng, et al., 2019, p. 314) és a kínai-angol (Kocmi & Bojar, 2019, pp. 234–235). A lengyel-angol közepes erőforrású pár (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Az alacsony erőforrású párok közé tartozik a gudzsaráti-angol, a kazah-angol (Kocmi & Bojar, p. 234), az inuktitut-angol (Kocmi, p. 171) és a lemkó-angol (Scherrer & Rabus, 2019, p. 85). Mivel a mesterséges intelligencia nyelvi modelljeinek képzéséhez hatalmas mennyiségű kétnyelvű adatra van szükség, a magasabb erőforrású nyelvek általában élvezik a neurális gépi fordító motorok elérhetőségét. Eközben a gépi tanulási képzési adatok hiánya miatt a neurális motorok ritkábbak az alacsonyabb erőforrású nyelvek esetében, amelyeket gyakran jobban szolgálnak ki az előző generációs statisztikai gépi fordító (SMT) motorok.
Kísérlet alatt álló, magas erőforrású nyelv: orosz
Az oroszt több mint 168 millióan beszélik első nyelvként, és további 114 millióan kiegészítő nyelvként (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Az angolra fordítás automatizálása a háború utáni gépi fordítási erőfeszítések szent grálja volt. Az Egyesült Nemzetek hivatalos nyelveinek egyikeként hatalmas mennyiségű kétnyelvű orosz-angol szöveg áll rendelkezésre liberális licenc alatt (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).
Kísérlet alatt álló, közepes erőforrású nyelv: lengyel
A lengyel egy nyugati szláv nyelv, amelyet mintegy 38 millióan beszélnek a mai Lengyelországban, és ez a szám várhatóan csökkenni fog, részben a kiadás idején zajló világjárvány miatt (Associated Press, 2021). További 10 millióan beszélik a lengyelt valamilyen mértékben az ország határain kívül (Jassem, 2003, p. 103). Az Európai Unió egyik hivatalos nyelveként nagy mennyiségű kétnyelvű szöveg áll rendelkezésre a mesterséges intelligencia fordítási modelljeinek képzéséhez, beleértve 22 630 európai parlamenti dokumentumot (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).
Kísérlet alatt álló, alacsony erőforrású nyelv: lemkó
A lemkó egy alacsony erőforrású nyelv (Scherrer & Rabus, 2019, p. 85), amely megfelel a keleti szláv nyelvek osztályozásának hagyományos kritériumainak. Például a lemkó keleti szláv pleofóniát mutat, azaz a proto-szláv „ToRT” szekvenciák eredménye ToRoT (Fortson IV, 2004, pp. 371-372), mint a lemkó horodyty ’kerítést építeni, bekeríteni’ (Horoszczak, 2004, p. 45), valamint a standard ukrán horodyty, ruszin horodyty és orosz gorodit’ (Kerča, 2007, p. 176) szavakban. Eközben hasonlítsuk össze a lengyelt (egy nyugati szláv nyelv) a -ro--val a grodzić szóban, de a horvátot (egy déli szláv nyelv) a -ra--val a graditi ’építeni’ szóban. Távolabb, az angolban az -ar- a yard és a garden szavakban, az avesztai (óiráni) nyelvben a -ǝrǝ- a gǝrǝδō ’barlang’ szóban, és a szanszkrit (óindiai) nyelvben a -ṛ- a gṛhás ’otthon’ szóban (Vasmer, p. 1443).
Míg a lemkó pontos osztályozása és státusza a standard ukránhoz és a kodifikált ruszinhoz képest vitatott (Rabus & Scherrer, 2017), a lemkó-angol motorunk ilyen magas pontszáma a standard ukrán vagy a Szlovákiában kodifikált ruszin erőforrásainak igénybevétele nélkül alátámaszthatja Watral (2015) azon következtetését, hogy a lemkó önálló, teljes értékű nyelv, és nem más nyelvjárása. A növekvő objektív minőségi pontszámoktól felbuzdulva úgy döntöttünk, hogy a lengyel transzfer tanulást helyezzük előtérbe, mivel az azonnali megtérülést hoz a lemkó fordítási pontosság szempontjából, ami a legmagasabb értékünk. Lehetséges, hogy a minőségi pontszámokat a megfigyelt hibrid nyelv interferenciája növelte, amelynek során a lemkó nyelvtani végződéseket a standard lengyel szavakra illesztették (Watral, 2016, p. 242).
Lengyelország népszámlálási hivatala 2011-ben 6279 főt számlált, akik otthon lemkóul beszéltek, szemben a 2002-es 5605 fővel (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), és a kiadás idején új számlálás van folyamatban. Hányan lehetnek lemkóul beszélők a 2011-ben otthon ukránul beszélő 24 539 lengyel lakosból vagy a 626 „ruszin” (język ruski) nyelven beszélő háztartás tagjai közül (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), az meghaladja e tanulmány hatókörét. Ukrajna Állami Statisztikai Szolgálata 672 lemkót számlált határain belül (Deržavna služba statystyky Ukraïny, 2001). Az Egyesült Nemzetek nyelvi veszélyeztetettségi skáláján 0-tól 5-ig, ahol a 0 kihalt, az 5 pedig „biztonságos” (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, pp. 7-8), a lemkó a 2-eshez közelítene, azaz súlyosan veszélyeztetett: a természetes generációk közötti nyelvi átadás egyre inkább hiányzik, és a fiatalabb beszélők egyre inkább nem léteznek (Duć-Fajfer, 2016, p. 178). Vannak azonban zöld hajtások, a kisebbségi nyelvek oktatásban, műsorszórásban, kiadásban, útjelző táblákon és tudományban való használatát védő és támogató törvényeket egyre inkább kihasználják (Duć-Fajfer, 2016, pp. 178-179).
Az erőforrás-helyzet is javul. Petro Orynycz összeállított és összehangolt egy kétnyelvű lemkó-angol korpuszt, amely 68 599 forrásszót tartalmaz, valamint saját angol fordításait (az egyetlen létező párhuzamos szöveg, amiről tudomásunk van). A korpuszt az Egyesült Államok John és Helen Timo Alapítványa által lemkó nyelven készített interjúk felhasználásával állították össze, akik megbízták Orynycz urat, hogy írja át és fordítsa le őket, valamint engedélyezték számára, hogy a munkát tudományos kutatásában és fejlesztésében felhasználja. Emellett több mint egymillió szavas egynyelvű lemkó korpuszt is gyűjt. Bár a lemkó, a ruszin, a standard ukrán és a szlovák nyelvi közösségek közötti összetett szociolingvisztikai kapcsolatok meghaladják e tanulmány hatókörét, a lengyel erőforrások (különösen a lengyel neurális modellek) voltak kulcsfontosságúak Orynycz úr hibrid lemkó motorjaihoz.
Hipózisek és előrejelzések
Fordítási sebesség
Hipózis: a légmentesen elzárt mesterséges intelligencia gépi fordítás most már olyan gyors, mint az emberek
Azt feltételeztük, hogy a középkategóriás laptopokon offline futó neurális gépi fordító motorok sebessége most már összehasonlítható az emberi fordítók sebességével. Ez a motorfejlesztés során tett megfigyeléseken alapult, miszerint a neurális gépi fordítás egy mondat lefordításához egy középkategóriás laptopon néhány másodperctől egy percig tartott, ami összehasonlítható Petro Orynycz lokalizációs iparágban szerzett tapasztalatai alapján megfigyelt emberi sebességekkel.
Előrejelzés: a gépi fordító motorok több szót dolgoznak fel óránként, mint az emberi fordítók
Azon hipotézisünk alapján, miszerint a légmentesen elzárt neurális gépi fordító motorok, amelyek offline futnak középkategóriás laptopokon, olyan gyorsak lennének, mint az emberek, azt jósoltuk, hogy sebességük meghaladja az emberi nyelvészekét, és több szót fordítanak másodpercenként, mint az emberi kontroll alanyunk.
Fordítási pontosság
Hipózis: a mesterséges intelligencia gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók
Azt feltételeztük, hogy a neurális gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók. Ez Petro Orynycz fordítási minőségellenőrzési szakemberként szerzett szakmai megfigyelésein alapult, miszerint a kereskedelmi neurális gépi fordítási felhőszolgáltatások nemcsak drámaian javultak, hanem gyakran megkülönböztethetetlen eredményeket produkáltak az emberi nyelvészekétől.
Előrejelzés: a mesterséges intelligencia gépi fordító motorok legalább 75%-os BLEU minőségi pontszámot érnek el a professzionális emberi fordítókhoz képest
Bár tudtuk, hogy a neurális gépi fordító motorok felülmúlhatják a kétnyelvű amatőröket, akik először próbálkoznak a fordítással, nem hittük, hogy motorjaink legyőznék a tapasztalt, professzionális nyelvészeket egy közvetlen versenyben. Szerencsére kétségünket tesztelni lehetett. A kétnyelvű értékelési alulértékelési (BLEU) algoritmus a gépi fordítási kutatás legdominánsabb metrikája, mivel nyelvfüggetlen, olcsó és könnyen számítható, valamint ésszerűen korrelál az emberi ítéletekkel (Post, 2018). Azt jósoltuk, hogy neurális motorjaink az emberi nyelvész által elért minőségi pontok 75%-át érik el. Például, ha egy emberi nyelvész 40 pontot ért el, a neurális gépi fordítás 30 pontot ér el. Eközben azt jósoltuk, hogy hibrid lemkó-angol motorunk kumulatív BLEU pontszáma 15 lesz.
Fordítási biztonság
Hipózis: a mesterséges intelligencia gépi fordítás offline is elvégezhető laptopokon, magas biztonságú terepi körülmények között
Azt feltételeztük, hogy a neurális gépi fordítás offline is elvégezhető légmentesen elzárt, hordozható berendezéseken, teljesen elvágva a külvilágtól. Ez azon megfigyelésen alapult, hogy megoldásunk minden komponense nem hívta meg az internetet, miután a függőségeket telepítették. Implicit feltételezés, hogy a légmentesen elzárt fordítási rendszerek, amelyek Repülőgép üzemmódban vannak, nem monitorozhatók vagy hackelhetők távolról. Egy másik feltételezés, hogy az operátorokat megfelelően ellenőrizték, és megfelelő óvintézkedéseket tettek a külső és belső fenyegetések ellen. Egy másik implicit feltételezés, hogy könnyebb egyetlen mobil munkaállomást több órán keresztül védeni, mint megakadályozni, hogy az emberi nyelvészek, akik átlagosan 25,01 USD-t keresnek óránként (Bureau of Labor Statistics, United States Department of Labor, 2021), jogosulatlan nyilvánosságra hozatalt tegyenek életük során, különösen a nyelvészek letartóztatásáról szóló jelentések fényében, akik titkok kiszivárogtatásának gyanújával kerültek letartóztatásra (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Előrejelzés: a mesterséges intelligencia gépi fordítás sikeres lesz egy légmentesen elzárt Lenovo Legion Y730-17ICH laptop számítógépen, amely offline fut Repülőgép üzemmódban
Azt jósoltuk, hogy fordítási rendszerünk nem fog meghibásodni, és elvégzi feladatait, amikor fizikailag el van választva és le van választva minden hálózatról vagy eszközről a Windows 10 Pro Repülőgép üzemmód funkciójának aktiválásával egy Lenovo Legion Y730-17ICH laptop számítógépen (Type 81HG).
Hibrid szabály/szótár alapú és neurális lemkó-angol motor
Hipózis: a hibrid szótár/szabályalapú motorok javítják a gépi fordítás pontosságát
Azt feltételeztük, hogy lengyel-lemkó szabályalapú gépi fordító (RBMT) motorunk, lengyel-lemkó szótáralapú gépi fordító (DBMT) motorunk, fordított irányban futó lemkó-lengyel DBMT motorunk és neurális lengyel-angol motorunk szinergikusan összekapcsolható egy hibrid motorrá, amely minden további résszel magasabb minőségi pontszámokat ér el. Ez a hipotézis a szerzőnek a professzionális lemkó-angol fordítóként szerzett megfigyelésein alapult, miszerint a lemkó és a lengyel közötti megfelelések elég gyakoriak ahhoz, hogy a hibrid motor életképes javaslattá váljon.
Előrejelzés: a hibrid lemkó-angol motorunkhoz hozzáadott minden almotor 5 ponttal növeli a BLEU-t.
Azt jósoltuk, hogy minden egyes szabályalapú vagy szótáralapú lemkó-lengyel almotor esetében, amelyet a hibrid lemkó-angol motorunkhoz adtunk, az összesített BLEU pontosság 5 ponttal növekedne.
Módszerek bemutatása és indoklás
Embert állítottunk gép ellen azzal, hogy mindkettőnek egy középkategóriás, légmentesen elszigetelt laptopot adtunk, amely a saját fejlesztésű számítógéppel segített fordítóprogramunkat futtatta (részletek alább), offline állapotban, Windows Repülőgép üzemmódban. Rögzítettük a sebességet és a pontosságot az oroszról angolra (magas erőforrásigényű nyelvpár), a lengyelről angolra (közepes erőforrásigényű nyelvpár) és a lemkóról angolra (alacsony erőforrásigényű nyelvpár) történő fordítás során. A sebesség kifejezésére az óránkénti szavak metrikát használtuk, mivel ez a lokalizációs projektmenedzserek alapja, és a tudományos irodalomban is használatos (Macken, Prou, & Tezcan, 2020, 4. o.). A pontosság mérésére a BLEU metrikát használtuk, mivel ez a legelterjedtebb a kutatás és fejlesztés területén (Post, 2018).
Főbb eredmények röviden
Nemcsak azt sikerült elérnünk, hogy az áttörést jelentő neurális gépi fordítási technológiát alkalmazva mesterséges intelligenciát használjunk egy légmentesen elszigetelt, offline laptopon, Repülőgép üzemmódban, egy magas erőforrásigényű nyelv (orosz) fordítására, több mint 10-szer gyorsabban, mint az emberi nyelvész kontrollszemélyünk, hanem gépünk minőségi pontszáma több mint 58 százalékkal „jobb volt, mint az emberi”. Sőt, mi vagyunk az első csapat a világon, amely lemkó gépi fordító motorok eredményeit publikálta tudományos folyóiratban.
Anyagok és módszerek
Bevezetés
Előrejelzéseink tesztelésére számos mesterséges intelligencia alapú és hibrid fordítómotort építettünk, kiszámítottuk sebességüket és pontosságukat egy légmentesen elszigetelt laptopon, Windows Repülőgép üzemmódban, és ugyanezt tettük egy professzionális nyelvész bevonásával, hogy kísérletünk kontrollált legyen.
Laboratóriumi beállítás
Hardver
Egy Lenovo Legion Y730-17ICH laptop számítógépet (81HG típus) használtunk, amelyen Windows 10 Pro (64 bites) futott. A modell gyártását leállították, és a publikálás időpontjában körülbelül 850 USD-ért, használtan kapható.
Operációs rendszer
A kísérlethez használt virtualizált operációs rendszer a Linux alrendszer volt Windowsra, pontosabban az Ubuntu 18.04 LTS, amelyet a Microsoft Store digitális disztribúciós platformon keresztül telepítettek.
Függőségek
A Python 3.8 telepítése a következő paranccsal történt: sudo apt install python3.8.
A sudo python3.8 -m pip install –upgrade parancsot használtuk a főbb függőségek telepítésére, beleértve a bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision-t is.
Eszközkészletek
Telepítettük a Facebook AI Research Sequence-to-Sequence Eszközkészletet a következő parancsok futtatásával:
Neurális lengyel-angol és hibrid lemkó-angol motorjainkhoz Sławomir Dadas lengyel-angol konvolúciós modelljét használtuk, amely elérhető és dokumentált a Lengyel Természetes Nyelvfeldolgozási (NLP) Erőforrások tárhelyén (Dadas, 2019).
Orosz-angol motorunkhoz a Facebook AI Research Sequence-to-Sequence (FAIRseq) orosz-angol előre betanított egyetlen transzformátor modelljét használtuk finomhangolás nélkül, amelyet a 2019-es Negyedik Gépi Fordítási Konferenciára (WMT19) nyújtottak be.
Professzionális nyelvészünk offline hozzáférést kapott a New Kościuszko Foundation American English to Polish Dictionary (12,99 USD) elektronikus változatához, valamint az Oxford Russian Dictionary (19,99 USD) elektronikus változatához. Mindkettőt a Microsoft Store-on keresztül vásárolták. Jarosław Horoszczak lemkó-lengyel és lengyel-lemkó szótára (2004) szintén elérhetővé vált nyelvészünk számára offline használatra.
Kísérleti kontroll
A kísérletet úgy ellenőriztük, hogy egy professzionális emberi nyelvészt ültettünk a légmentesen elszigetelt laptop elé, miközben az Repülőgép üzemmódban volt, a fent említett elektronikus szótárakkal a gépen. A nyelvész megnyomta az Enter billentyűt, ekkor elindult az időzítő, és megjelent a fordítandó forrásmondat. A nyelvésznek megengedték, hogy a fordítását a Microsoft Wordben gépelje be (kihasználva annak helyesírás-ellenőrző funkcióját és egyéb szövegszerkesztési segédeszközeit), majd beillessze a saját fejlesztésű számítógéppel segített fordítóprogramunkba. Az Enter billentyű újbóli megnyomása után az emberi fordítás be lett küldve, és az időzítő leállt. Az emberi nyelvész sebességét (óránkénti szavakban) és pontosságát (BLEU pontszámban) minden lefordított mondat esetében kiszámítottuk.
Petro Orynycz, aki két évtizedes tapasztalattal rendelkezik orosz és lengyel nyelvészként, orosz nyelvből lengyel egyetemi diplomával, és több mint 5 éves tapasztalattal professzionális lemkó-angol fordítóként, szolgált kontrollszemélyként. Visszafordításokat végzett az alább felsorolt orosz és lengyel anyagokról, valamint angolra fordításokat lemkó nyelvről.
Kísérleti anyag: referenciafordítások
A kísérlethez használt orosz-angol és lengyel-angol szöveget a nyilvánossággal megosztott oktatási anyagokból szereztük be, amelyeket az Észak-atlanti Szerződés Szervezete (NATO) NATO Review kiadványa fordított angolról oroszra és lengyelre. Idézet: „A NATO Review részeinek, kivonatainak vagy cikkeinek reprodukálása nem kereskedelmi célokra engedélyezett, az alábbi feltétel mellett: a forrást, a NATO Review-t, fel kell tüntetni.” A szokásos gyakorlatnak megfelelően (Post, 2018) a korpusz adatokat megtisztítottuk és normalizáltuk a szöveg kisbetűsítésével és tokenizálásával. Gondoskodtunk arról, hogy a forrásszöveg és a célfordítások mondatszinten illeszkedjenek.
Ehhez a kísérlethez Dr. Jamie Shea, a NATO akkori főtitkárhelyettes-helyettesének (Emerging Security Challenges) előadását használtuk. Címe: Mit tanulhatunk ma a „Három Bölcs Férfitól”? Dr. Shea előadásának angol eredeti szövegét és a NATO által megrendelt orosz és lengyel fordításait a következő egységes erőforrás-azonosítókról szereztük be:
A kísérlethez használt lemkó-angol anyag a John & Helen Timo Alapítvány által rögzített személyes interjúkból állt, akik Petro Orynycz-t bízták meg az interjúk átírásával és angolra fordításával. Az alapítvány később szívesen adományozta az így kapott kétnyelvű korpuszokat tudományos kutatásra és fejlesztésre. Az interjúkban tárgyalt személyek magánéletének védelme, valamint az Európai Unió Általános Adatvédelmi Rendelete (GDPR) iránti tiszteletből az anyagokat nem tették nyilvánosan elérhetővé. Gondoskodunk arról, hogy a személyazonosításra alkalmas információkat (PII) és a személyes egészségügyi információkat (PHI) szerkesszük a minták megosztása előtt.
Módszer a fordítási pontosság értékelésére: BLEU
A kétnyelvű alulértékelési (BLEU) metrikát használtuk a referenciafordításhoz való hasonlóság, és így, bármennyire is tökéletlenül, a pontosság mérésére. Bár a BLEU pontszám nem tökéletes mérőszáma a pontosságnak vagy a minőségnek, ez az iparágban legszélesebb körben használt (Post, 2018). A Python modul a Python bleu csomagból származik, amely a következő egységes erőforrás-azonosítón dokumentált: https://pypi.org/project/bleu/
Gondoskodtunk arról, hogy a “it is a white cat .” és “wow , this dog is huge .” referencia mondatokat, valamint a “it is a white kitten .” és “wowww , the dog is huge !” jelölt hipotéziseket megadva, rendszerünk 34,99 kumulatív BLEU pontszámot számított, összhangban a Python bleu csomag dokumentációjával.
Módszer a szöveg normalizálására és tisztítására
Minden szöveget kisbetűsítettünk, és szóközt adtunk minden írásjel elé és után, hogy a rendszer ne feltételezze például, hogy a „Cat” és a „cat.” különböző szavak. Így a „It is a white cat.” normalizálva „it is a white cat .” lett. Több szóközt és egyéb szóközsorozatot egyetlen szóközzel helyettesítettünk a Python split() és join() metódusai segítségével.
Módszer a szavak számlálására
A mondatonkénti szavak számát a normalizált szöveges sztring szóköz alapú elválasztóval történő felosztásával határoztuk meg, majd megszámolva az elemeket abban a tömbben.
Módszer a fordítási sebesség mérésére
Abban a pillanatban, amikor az emberi fordító megnyomta az Enter billentyűt egy mondat fordításának megkezdéséhez, meghívtuk a Python time.time() metódusát, hogy megkapjuk az 1970. január 1-jei koordinált világidő (UTC) éjfél óta eltelt másodpercek számát lebegőpontos számként, amelyet általában Unix időnek neveznek, és ezt a számot használtuk emberi kezdési időként. Azt az Unix időt is rögzítettük, amikor gépi fordító motorjaink egy mondatot fordításra vettek.
Azt a pillanatot, amikor egy emberi nyelvész megnyomta az Enter billentyűt egy mondat fordításának beküldéséhez, vagy egy gép visszaadta egy mondat fordítását, használtuk végidőként. A kezdési idő kivonásával a végidőből megkaptuk a mondat fordításához szükséges másodpercek teljes számát.
Az óránkénti szavakat úgy számítottuk ki, hogy az Unix vég- és kezdési idők közötti különbséget elosztottuk a fent kiszámított szószámokkal, és az így kapott hányadost megszorozzuk 3600-zal (ami 60 60, azaz az egy órában lévő másodpercek száma):
Módszer a berendezések fizikai elszigetelésére és légmentesítésére
A kísérletben használt berendezéseket nemcsak fizikai elszigeteléssel vágtuk el a külvilágtól, hanem a Microsoft Windows 10 Pro Repülőgép üzemmódjának használatával is, amely a dokumentációja szerint kikapcsolja a gép összes vezeték nélküli kommunikációját, beleértve az IEEE 802.11b Direct Sequence vezeték nélküli hálózatot, a mobilhálózatot, a Bluetooth-t, a globális helymeghatározó rendszert és a közeli mezős kommunikációt.
Eredmények
Fordítási sebesség: Minél magasabb erőforrásigényű a nyelvpár, annál gyorsabb a motor
A gép felülmúlta az embert a fordítási sebesség tekintetében az orosz-angol (magas erőforrásigényű) és a lengyel-angol (közepes erőforrásigényű) nyelvpárok esetében, összhangban azzal a hipotézisünkkel, hogy a neurális gépi fordítás gyorsabb, mint az emberi, és azzal az előrejelzésünkkel, hogy neurális motorjaink több szót fordítanak óránként. Oroszról fordítva motorunk átlagosan több mint 6 456 szót fordított óránként, ami 1170%-kal gyorsabb volt, mint emberi nyelvészünk. Lengyelről fordítva neurális motorunk 488%-kal gyorsabb volt, mint emberi fordítónk, átlagosan 3 768 szót fordítva óránként. Az alacsony erőforrásigényű lemkó-angol nyelvpár esetében hibrid neurális és szótár/szabályalapú motorunk 707 szót fordított óránként, majdnem egyenlő eredményt elérve emberi nyelvészünkkel, aki 13%-kal gyorsabb volt 798 szó/óra sebességgel. A hibrid motor szótáralapú komponensének súlyának eltávolítása közel négyszeresére növelte a sebességet, 3 137 szó/órára, ami 293%-kal gyorsabb, mint az emberi, 13%-os pontosságcsökkenés árán.
1. ábra. Professzionális emberi versus gépi fordítási sebesség (szó/óra) egy légmentesen elszigetelt középkategóriás laptopon (repülőgép üzemmód): Orosz–angol (magas erőforrásigényű) vs. lengyel–angol (közepes erőforrásigényű) vs. lemkó–angol (alacsony erőforrásigényű).
Fordítási pontosság: Minél magasabb erőforrásigényű a nyelvpár, annál pontosabb a motor
Mesterséges intelligencia motorjaink fordítási pontossága felülmúlta a professzionális nyelvészekét. Ez meghaladta azt a hipotézisünket, miszerint a légmentesen elszigetelt neurális gépi fordítás már csak kissé kevésbé pontos, mint az emberi fordítók. Orosz-angol mesterséges intelligencia motorunk 158%-os pontosságot ért el emberi fordítónkhoz képest, túlszárnyalva az általunk előre jelzett 75%-ot. Lengyel-angol neurális motorunk 117%-os pontosságot ért el emberi nyelvészünkhöz képest, túlszárnyalva a 75%-os elvárásunkat. Hibrid lemkó-angol motorunk 14,57-es BLEU pontszámot ért el (ami professzionális fordítónk pontosságának 51%-a), összhangban a 15-ös előrejelzésünkkel, felfelé kerekítve. A szabályalapú almotor elhagyása 2%-os pontosságnövekedést és 6%-os sebességnövekedést eredményezett. A szótáralapú almotor elhagyása 13%-os pontosságcsökkenést, de 344%-os sebességnövekedést eredményezett. Összefoglalva, közepes és magas erőforrásigényű nyelvekhez készült mesterséges intelligencia motorjaink szignifikánsan pontosabbak voltak, mint emberi nyelvészünk, míg az alacsony erőforrásigényű nyelvekhez készült hibrid motorjaink körülbelül feleannyira voltak pontosak, mint emberi nyelvészünk.
2. ábra. Professzionális emberi versus gépi BLEU fordítási minőségi pontszám egy légmentesen elszigetelt középkategóriás laptopon, Repülőgép üzemmódban, Orosz-angol (magas erőforrásigényű nyelvpár) versus lengyel-angol (közepes erőforrásigényű nyelvpár) versus lemkó-angol (alacsony erőforrásigényű nyelvpár).
2. ábra adatai: BLEU pontszám
Nyelvpár
Módszer
BLEU
Orosz–angol
Csak mesterséges intelligencia neurális gépi fordítás
39,37
Orosz–angol
Professzionális emberi fordítás
24,86
Lengyel–angol
Csak mesterséges intelligencia neurális gépi fordítás
Összhangban azzal a hipotézisünkkel, hogy egy neurális gépi fordítási megoldás megtervezhető egy légmentesen elszigetelt laptopon való futtatásra, kísérletünk sikeres volt e tekintetben. Előrejelzésünknek megfelelően kísérletünk működött bekapcsolt Windows Repülőgép üzemmódban, és nem okozott hibát a külvilágtól elszigetelt működés.
Szabályalapú gépi fordítás lemkó és lengyel között
Azon hipotézisünk, miszerint a lemkó és a lengyel közötti affinitás elég erős ahhoz, hogy a lemkó szabályalapú és szótáralapú helyettesítéssel fordítható legyen lengyelre, bebizonyosodott a lemkó-angol neurális/szabályalapú hibrid motorunk lenyűgöző teljesítménye által. Azon hipotézisünket, miszerint egy szabályalapú almotor és egy szótáralapú almotor kombinálása pontosabb hibrid motort eredményezne, jelenleg nem támasztják alá adataink. Egy szótáralapú modul hozzáadása egy szabályalapúhoz 2,16 ponttal növelte a motor BLEU-ját, ami kevesebb, mint az 5-ös előrejelzésünk.
Megbeszélés
Új korszak
Bebizonyítottuk, hogy nemcsak lehetséges a mesterséges intelligenciát megbízni a magas, közepes és alacsony erőforrásigényű nyelvekről történő fordítás tudásalapú munkájával egy hozzáférés-ellenőrzött környezetben, hanem a neurális gépi fordítás gyorsabban, biztonságosabban és sok esetben jobban is el tudja végezni a munkát. Eredményeink nemcsak alátámasztották hipotéziseinket, hanem neurális motorjaink teljesítménye felülmúlta előrejelzéseinket is. Itt van a közel valós idejű gépi fordítás új korszaka, amely önállóan vagy emberekkel együttműködve működik.
Sebesség
Motorunk óránként 6456 szó sebességgel fordított oroszból. Ennek kontextusba helyezéséhez konzultáltunk Marc Hackel szakértővel, egy washingtoni, D.C.-beli védelmi ipari nyelvész és orosz-angol fordítóval, aki több évtizedes tapasztalattal rendelkezik, és aki elmondta nekünk, hogy „egyfajta ökölszabály szerint egy nagyon tapasztalt fordítónak legalább 8 oldalt (azaz 8 darab 500 szavas oldalt, összesen 4000 szót) kellene lefordítania egy 8 órás munkanap alatt, feltételezve, hogy nincsenek akadályok, mint például mozaikszavak és hasonló dolgok. Sokak átlaga valójában óránként 250 szó, nem 500.” Így a neurális motorok kevesebb mint egy óra alatt elvégezhetik azt, ami az embereknek napokba telik.
Pontosság
Mesterséges intelligencia motorjaink magasabb BLEU pontszámokat értek el, mint professzionális emberi nyelvészünk. Ezen mérőszám alapján gépeink „jobbak” az orosz és lengyel nyelvről való fordításban, mint az emberek.1 Mivel az a feltételezés, hogy a mesterséges intelligencia gépi fordítás több mint 50%-kal pontosabb lehet, mint a tapasztalt nyelvészeké, forradalmi, ezt a kísérletet még több emberi nyelvész és korpusz bevonásával meg kell ismételni, hogy kizárjuk a véletlen egybeeséseket. Kivételesen tiszta, kihívást jelentő, virágnyelvű szövegeket használtunk, amelyeken a gépi fordítórendszerek hagyományosan elakadnak, az emberek viszont kiválóan teljesítenek. Bár egyenlő feltételekre törekedtünk, azt vártuk, hogy bármilyen előny az emberi oldalon lesz. Kérjük, nyers adatainkhoz és eredményeinkhez való hozzáférésért vegye fel a kapcsolatot Orynycz Petroval a fent megadott címen.
Következő lépések
Régebbi, elavult berendezéseket használtunk. Újabb, gyorsabb, következő generációs grafikus feldolgozó egységekkel felszerelt berendezések drámai javulást eredményezhetnek a fordítási sebességben. Kódunkat optimalizálni kell a meglévő erőforrások, például a grafikus feldolgozó egységek (GPU-k) maximális kihasználására. Tervezzük, hogy szótár alapú gépi fordító modulunkat tesztsorrá alakítjuk át a szabályalapú gépi fordítás (RBMT) modulunk tesztvezérelt fejlesztéséhez (TDD), amely felhasználható lenne párhuzamos szövegek fejlesztésére tisztán neurális lemkó-angol és angol-lemkó mesterséges intelligencia neurális gépi fordítórendszerek képzéséhez. További kutatásokra van szükség a csökkenő hozamok pontjainak azonosításához. Orynycz Petro tervei szerint hibrid neurális és szabályalapú rendszereit alkalmazza majd a mai Szlovákiában és Ukrajnában őshonos ruszin és ukrán dialektusok fordítórendszereinek fejlesztésére.
Zárásul
Egy új, átalakító korszak hajnalán állunk: bebizonyítottuk, hogy a mesterséges intelligencia képes tudásalapú munkát végezni, akárcsak az emberek, sőt, egyre több esetben több mint 50%-kal jobban, a töredék idő alatt és szinte nulla biztonsági kockázattal. Néhány száz dollár értékű, hátizsákban elférő felszerelés elegendő ahhoz, hogy mindig legyen egy emberinél jobb, szilícium alapú terepnyelvész segítőnk, aki soha nem árul el titkokat és nem fárad el. A szellem kiszabadult a palackból, és talán teljesíti a kihalás szélén álló nyelvek újjáélesztésére vonatkozó kívánságunkat, ha nem is a kihaltak feltámasztásának álmát. A nyelvi tömeges kihalási esemény, amelynek közepén vagyunk, megállhat, sőt, megfordulhat. Óvatosnak kell lennünk, mit kívánunk – az évezredekig drágán fordítható nyelvek titkosításával elszigetelt világok összeütközni készülnek. Reméljük, hogy ez a változás jobb irányba mutat. Proščaj, nyelvi akadály. Helló, új világ.
Lábjegyzetek
^ 1 Történelmileg egyes közösségek ellenállnak a BLEU használatának az emberi és gépi fordítás összehasonlítására, mégis nincs más olyan rendszer, amely ilyen széles körben elfogadott vagy elérhető lenne széleskörű, szakmailag ellenőrzött validációval. Valójában a BLEU pontszám feltalálói, Papineni, Roukos, Ward és Zhu már előre jelezték ezt a feszültséget az Egyesült Államok Védelmi Minisztériuma (a Defense Advanced Research Projects Agency [DARPA] által finanszírozott és a Space and Naval Warfare Systems Command [SPAWAR] által felügyelt) által támogatott munkájukban, úttörő publikációjuk részeként, írva: „Továbbá, [a metrikának] különbséget kell tennie két különböző minőségű emberi fordítás között. Ez utóbbi követelmény biztosítja a metrika folyamatos érvényességét, ahogy a gépi fordítás (MT) megközelíti az emberi fordítás minőségét.” A tabu megtörésével kezdve, ezután kiszámították a BLEU pontszámokat a „Human-1” (sem kínai, sem angol anyanyelvű) és a „Human-2” (angol anyanyelvű) esetében, és feltérképezték, hogyan követték BLEU pontszámaik szorosan az emberi bírák által adott pontszámokat (Papineni, Roukos, Ward, & Zhu, 2002).
Köszönetnyilvánítás
Szeretnénk megköszönni tanácsadónknak, Tim Quiramnak, az Egyesült Államok Parti Őrség Készenléti Parancsnokság Kiképzési Osztályának helyettes vezetőjének, hogy bátorított minket a folytatásra, az Antech Systems, Inc. igazgatótanácsának és a Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) ePerformance csapatának, hogy olyan környezetet teremtettek, ahol szenvedélyeinket követhetjük, osztályunk ügyvezető alelnökének, Tom Dobrynak felbecsülhetetlen értékű útmutatásáért, megalapozott ítélőképességéért és látnoki vezetői képességéért, valamint csapatvezetőnknek, Will Duffnak, amiért arra ösztönzött minket, hogy keményen dolgozzunk, elősegítette a bajtársiasság szellemét és erkölcsi támogatást nyújtott. Orynycz Petro szeretné megköszönni mesterséges intelligencia űrprojekt menedzsereinek, Raffaele Pascalenak és Michal Brnušáknak a Szilícium-völgyi Venga Global Inc. nyelvi szolgáltatótól, professzionalizmusukat, a csapat iránti őszinte törődésüket és rendíthetetlen elkötelezettségüket a helyes eredmény elérésében. Orynycz úr szeretné megköszönni mérnöktársainak, kollégáinak és régi barátainak, Michael Lawrence Cramernek a BCT LLC-től és Michael Decerbónak a Raytheon BBN Technologies-től, hogy a kezdetektől fogva hittek benne. Továbbá szeretné megköszönni barátjának és kolléga számítógépes nyelvészének, Jouna Pyysalónak, Ph.D., a Helsinki Egyetemről, hogy valóra váltotta az álmokat. Végül szeretné megköszönni Maria Silvestrinek a John és Helen Timo Alapítványtól a tudományos kutatásra és fejlesztésre nyújtott adományát az általa készített lemkó interjúkhoz és az általa elvégzésre felkért fordításokhoz, valamint kedves barátjának, Ołena Dućnak a Ruska Bursától az interjúk felbecsülhetetlen értékű fordításaiért és átirataiért.
Hivatkozások
al-Kindī, Y. i. (2002). al-Kindi szerkesztett értekezése. M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (szerk.) művében, al-Kindi értekezése a kriptoanalízisről (1. kötet) (S. M. al-Asaad, ford., 1. kötet, 117-204. o.). Damaszkusz, Szíria: KFCRIS & KACST. (Eredeti mű kiadva kb. 850).
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kiválasztási kritériumok alacsony erőforrású nyelvi programokhoz. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai (4543–4549. o.). Portorož, Szlovénia: European Language Resources Association (ELRA). Letöltve 2021. június 27-én innen: https://www.aclweb.org/anthology/L16-1720
Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV. Jelentés a nemzeti és etnikai kisebbségek, valamint a regionális nyelvek helyzetéről a Lengyel Köztársaságban – 2013. Varsó, Lengyelország: Belügyminisztérium. Letöltve 2021. június 13-án innen: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Hány nyelv van a világon? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, szerk.) Letöltve 2021. június 13-án az Ethnologue: Languages of the World-ből: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Indoeurópai nyelv és kultúra. Malden, MA, USA: Blackwell Publishing.
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Az Európai Parlament digitális korpusza. Nyelvi Erőforrások és Értékelés Konferencia (LREC 2014), (3164-3171. o.). Reykjavik, Izland. Letöltve 2021. június 19-én innen: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Jassem, W. (2003. június). Lengyel. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Kísérletezés különböző gépi fordítási modellekkel közepes erőforrású környezetekben. P. Sojka, I. Kopeček, K. Pala, & A. Horák (szerk.) művében, Szöveg, beszéd és párbeszéd. TSD 2020. Lecture Notes in Computer Science.12284, 2. o. Springer, Cham. doi:10.1007/978-3-030-58323-1_10
Kerča, I. (2007). Ruszin-orosz szótár (1. kötet). Ungvár, Ukrajna: PolyPrynt.
Kocmi, T. (2020). CUNI beadvány az inuktitut nyelvről a WMT News 2020-ban. Az 5. Gépi Fordítási Konferencia (WMT) előadásai, (171–174. o.). Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 19-én innen: https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). CUNI beadvány alacsony erőforrású nyelvekről a WMT News 2019-ben. A Negyedik Gépi Fordítási Konferencia (WMT) előadásai.2. kötet: Megosztott feladatokról szóló tanulmányok (1. nap), 234–240. o. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 13-án innen: https://www.aclweb.org/anthology/W19-5322.pdf
Macken, L., Prou, D., & Tezcan, A. (2020. április 23.). A gépi fordítás hatásának számszerűsítése egy magas minőségű emberi fordítási gyártási folyamatban. Informatika, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). Az oroszul beszélők a FÁK-országokban: migrációs tevékenység és az orosz nyelv megőrzése. P. Vladimirovich (szerk.) művében, 2018 Nemzetközi Tudományos Konferencia „Befektetés, Építés, Ingatlan: Új technológiák és speciális fejlesztési prioritások” (ICRE 2018) , 212. Irkutszk, Oroszország. doi:10.1051/matecconf/201821210005
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019. augusztus). A Facebook FAIR WMT19 hírfodítási feladat beadványa. A Negyedik Gépi Fordítási Konferencia előadásai (2. kötet: Megosztott feladatokról szóló tanulmányok, 1. nap), 314-319. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Gyors, bővíthető eszköztár szekvenciamodellezéshez. A NAACL-HLT 2019 előadásai: Demonstrációk.A Számítógépes Nyelvészetért Egyesület Észak-amerikai Tagozatának 2019-es Konferenciájának előadásai (Demonstrációk), 48-53. o. Minneapolis, MN: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Módszer a gépi fordítás automatikus értékelésére. A Számítógépes Nyelvészetért Egyesület 40. éves ülésének előadásai (311-318. o.). Philadelphia, PA: A Számítógépes Nyelvészetért Egyesület éves ülése.
Post, M. (2018. szeptember 12.). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Lexikon indukció beszélt ruszin nyelvre – Kihívások és eredmények. A 6. Balti-szláv Természetes Nyelvfeldolgozási Műhely előadásai, (27-32. o.). Valencia, Spanyolország.
Scherrer, Y., & Rabus, A. (2017). Többforrású morfoszintaktikai címkézés beszélt ruszin nyelvre. A Negyedik Műhely előadásai a hasonló nyelvek, változatok és dialektusok NLP-jéről (84-92. o.). Valencia, Spanyolország: Számítógépes Nyelvészetért Egyesület. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019. szeptember). Neurális morfoszintaktikai címkézés ruszin nyelvre. (R. Mitkov, szerk.) Natural Language Engineering, 25(5), 633-650. o. doi:10.1017/S1351324919000287
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Az Egyesült Nemzetek Párhuzamos Korpusza v1.0. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai, (pp. 3530–3534). Portorož, Szlovénia. Elérhető innen: https://www.aclweb.org/anthology/L16-1561
A cf_use_ob süti tájékoztatja a Cloudflare-t, hogy a kért erőforrást az Always Online gyorsítótárból kérje le a megadott porton. Alkalmazható értékek: 0, 80 és 443. A cf_ob_info és cf_use_ob sütik tartós sütik, amelyek 30 másodperc után lejárnak.
munkamenet
__cfwaitingroom
A __cfwaitingroom süti csak a váróterem engedélyezett gazdagép és útvonal kombinációját elérő látogatók nyomon követésére szolgál egy zónában. Azok a látogatók, akik olyan böngészőt használnak, amely nem fogad el sütiket, nem látogathatják a gazdagép és útvonal kombinációt, amíg a váróterem aktív.
munkamenet
cf_chl_rc_i
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
cf_chl_rc_ni
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
cf_chl_rc_m
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
__cfruid
A Cloudflare tartalomszolgáltató által használt, megbízható webforgalom azonosítására.
munkamenet
__cf_bm
A Cloudflare bottermékei azonosítják és mérséklik az automatizált forgalmat, hogy megvédjék az Ön webhelyét a rosszindulatú botoktól. A Cloudflare a __cf_bm sütit helyezi el az End User eszközein, amelyek hozzáférnek a Bot Management vagy Bot Fight Mode által védett ügyfél webhelyekhez. A __cf_bm süti szükséges ezen botmegoldások megfelelő működéséhez.
munkamenet
__cflb
A Cloudflare Load Balancer-rel való munkamenet-azonosítás engedélyezésekor a Cloudflare egy egyedi értékű __cflb sütit állít be az első válaszban a kérő kliens számára. A Cloudflare a jövőbeli kéréseket ugyanarra az eredetre irányítja, optimalizálva a hálózati erőforrások felhasználását. Hiba esetén a Cloudflare új __cflb sütit állít be, hogy a jövőbeli kéréseket a hibaelhárító medencéhez irányítsa.
munkamenet
_cfuvid
Az _cfuvid süti csak akkor kerül beállításra, amikor egy webhely ezt az opciót használja a Korlátozási Szabályban, és csak arra használják, hogy a Cloudflare WAF megkülönböztesse az egyes felhasználókat, akik ugyanazt az IP-címet osztják meg.
munkamenet
cf_clearance
Hogy egy CAPTCHA vagy Javascript kihívás megoldásra került-e.
munkamenet
__cfseq
A sorozatszabályok sütiket használnak a felhasználó által tett kérések sorrendjének és a kérések közötti idő nyomon követésére, és elérhetővé teszik azokat a Cloudflare Szabályok által. Ez lehetővé teszi, hogy olyan szabályokat írjon, amelyek érvényes vagy érvénytelen sorozatokat illeszkednek. A sorozatok érvényesítésére használt konkrét sütiket sorozat sütiknek nevezik.
munkamenet
cf_ob_info
A cf_ob_info süti információkat nyújt a következőkről: Az eredeti webkiszolgáló által visszaadott HTTP állapotkód. Az eredeti sikertelen kérés Ray ID-ja. Az adatközpont, amely a forgalmat szolgálja.
munkamenet
Ezek a sütik szükségesek a hozzászólások hozzáadásához ezen a weboldalon.
Név
Leírás
Időtartam
comment_author
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
comment_author_email
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
comment_author_url
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
Ezek a sütik a bejelentkezési funkció kezelésére szolgálnak ezen a weboldalon.
Név
Leírás
Időtartam
wordpress_logged_in
A bejelentkezett felhasználók tárolására szolgál.
Tartós
wordpress_sec
A felhasználó nyomon követésére szolgál több munkamenet során.
15 nap
wordpress_test_cookie
A sütik engedélyezésének meghatározására szolgál.
Munkamenet
A WP Hozzájárulás API egy bővítmény, amely standardizálja az elfogadott hozzájárulási kategóriák kommunikációját a bővítmények között.
Név
Leírás
Időtartam
wp_consent_{category}
Tárolja az Ön hozzájárulási preferenciáját egy adott süti kategóriára vonatkozóan (pl. funkcionális, marketing). Biztosítja a következetes hozzájáruláskezelést a WP Hozzájárulás API-t támogató WordPress bővítmények között.
30 nap
WPForms is a user-friendly WordPress plugin for creating custom forms with drag-and-drop functionality.
Név
Leírás
Időtartam
wpfuuid
Used to track user interactions with forms.
11 years
A statisztikai sütik névtelenül gyűjtenek információt. Ez az információ segít megérteni, hogyan használják a látogatók a weboldalunkat.
A Google Analytics egy erőteljes eszköz, amely nyomon követi és elemzi a weboldal forgalmát, lehetővé téve a megalapozott marketingdöntéseket.
Tartalmazza a felhasználó marketingkampányaira vonatkozó információkat. Ezeket megosztják a Google AdWords / Google Ads szolgáltatással, amikor a Google Ads és a Google Analytics fiókok összekapcsolásra kerülnek.
90 nap
__utma
Azonosító, amelyet a felhasználók és ülések azonosítására használnak.
2 év az utolsó tevékenység után
__utmt
A Google Analytics szerver kérésének számának nyomon követésére szolgál.
10 perc
__utmb
Az új ülések és látogatások megkülönböztetésére használják. Ez a süti akkor kerül beállításra, amikor a GA.js javascript könyvtár betöltődik, és nincs meglévő __utmb süti. A süti frissül, amikor adatokat küldenek a Google Analytics szerverre.
30 perc az utolsó tevékenység után
__utmc
Csak a régi Urchin verziókkal használt Google Analytics esetén, nem a GA.js-sel. Az ülések és látogatások megkülönböztetésére használták az ülés végén.
Ülés vége (böngésző)
__utmz
Tartalmazza a forgalmi forrásra vagy kampányra vonatkozó információkat, amely a felhasználót a weboldalra irányította. Ez a süti akkor kerül beállításra, amikor a GA.js javascript betöltődik, és frissül, amikor adatokat küldenek a Google Analytics szerverre.
6 hónap az utolsó tevékenység után
__utmv
A webfejlesztő által a Google Analytics _setCustomVar módszerén keresztül beállított egyedi információkat tartalmaz. Ez a süti frissül, amikor új adatokat küldenek a Google Analytics szerverre.
2 év az utolsó tevékenység után
__utmx
A felhasználó A / B vagy Multivariate tesztbe való bevonásának meghatározására szolgál.
18 hónap
_ga
Azonosító, amelyet a felhasználók azonosítására használnak.
2 év
_gali
A Google Analytics által használt, hogy meghatározza, mely linkekre kattintanak egy oldalon.
30 másodperc
_ga_
Azonosító, amelyet a felhasználók azonosítására használnak.
2 év
_gid
Az ID, amelyet a felhasználók az utolsó aktivitás után 24 órán keresztül történő azonosítására használnak
24 óra
_gat
A Google Tag Manager használata során a Google Analytics szerver kérések számának figyelemmel kísérésére szolgál
1 perc
A marketing cookie-kat a weboldalak látogatóinak követésére használják. A cél az, hogy olyan hirdetéseket mutassanak, amelyek relevánsak és vonzóak az egyes felhasználók számára.
A video-sharing platform for users to upload, view, and share videos across various genres and topics.
Registers a unique ID on mobile devices to enable tracking based on geographical GPS location.
1 day
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos. Also used for marketing
179 days
PREF
This cookie stores your preferences and other information, in particular preferred language, how many search results you wish to be shown on your page, and whether or not you wish to have Google’s SafeSearch filter turned on.
10 years from set/ update
YSC
Registers a unique ID to keep statistics of what videos from YouTube the user has seen.
Session
DEVICE_INFO
Used to detect if the visitor has accepted the marketing category in the cookie banner. This cookie is necessary for GDPR-compliance of the website.
179 days
LOGIN_INFO
This cookie is used to play YouTube videos embedded on the website.
Vélemény, hozzászólás?