„hu ruszin” kifejezésre keresés eredménye:

  • Ruszin Fordító | a Ruszinátor

    Ruszin Fordító | a Ruszinátor

    Gépeljen a Ruszinátorral gyors, ingyenes ruszin fordításokért Szlovákia és Lengyelország számára (cirill + latin ábécék).

    → Rusyn
    Írja be a fordításhoz. A helyesírás, az írásjelek és a nyelvtan számít.
    0 / 800

    A fordításod pár másodperc múlva itt jelenik meg…

    A fordításod cirill átírása itt lesz.

    Kérjük, így hivatkozz rá: Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In H. Degen & S. Ntoa (Eds.), Artificial Intelligence in HCI (HCII 2023), Lecture Notes in Computer Science, vol. 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    Ruszin Fordító Demó

    Nézze meg a Ruszinátort működés közben

    Mit mondanak az emberek

    „Ez egy csodálatos, szívvel-lélekkel készült munka nekünk, büszke lemkóknak. A nagymamám és a nagypapám nagyon büszkék lennének!”

    Tamás

    „Ez a fordítás csodálatos. Köszönöm, hogy elérhetővé tetted, és digitálisan megőrzöd a nyelvet interaktív, hasznos módon.”

    István

    „Ezt egy Kárpátalján játszódó szerepjátékos Discord-szerveren használtam. Nagyon dobott az élményen — 10/10! Köszi! Дякую!”

    Névtelen

    Vélemény, hozzászólás?

    Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

    Ez az oldal az Akismetet használja a levélszemét csökkentésére. Tudja meg, hogyan dolgozzuk fel hozzászólásai adatait.

  • BLEU kilátások a veszélyeztetett nyelvek revitalizációjához: lemkó-ruszin és ukrán neurális AI fordítási pontosság szárnyal (2023)

    BLEU kilátások a veszélyeztetett nyelvek revitalizációjához: lemkó-ruszin és ukrán neurális AI fordítási pontosság szárnyal (2023)

    Absztrakt

    A globális nyelvvesztés felgyorsulása, amely az illegális szerhasználat, a 2-es típusú cukorbetegség, a mértéktelen alkoholfogyasztás és a támadások fokozott előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági rátával jár, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Azokban a környezetekben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek revitalizálni az örökségi nyelveket és felhatalmazni az új beszélőket azáltal, hogy lehetővé teszik számukra az azonnali fordítás révén történő megértést és megértetést. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, mint például a tiltó költségek és a kimeneti minőségi problémák. A megoldás az, hogy a neurális motorokat klasszikus, szabályalapú motorokkal párosítjuk, amelyek lehetővé teszik a mérnökök számára, hogy megtisztítsák a jövevényszavakat és semlegesítsék a domináns nyelvek interferenciáját. Ez a munka leírja a LemkoTran.com-on telepített motor átalakítását, hogy lehetővé tegye a fordítást a lemkó nyelvre és nyelvről, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású nyelv, amely Lengyelország és Szlovákia határvidékén őshonos (ahol ruszin néven is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag informált főnév-, ige- és melléknévgenerátorokkal szerelték fel, amelyeket 877 lemma és 708 szószedeti bejegyzés táplált, és az egész rendszert 9518 automatikus, kodifikációra hivatkozó, kötelezően átmenő minőségellenőrzési teszttel szegecselték. Ennek a munkának az eredménye 23%-os javulás az angolra fordítás minőségében az utolsó publikáció óta, és 35%-os minőségi növekedés az angolról lemkóra fordításban, olyan fordításokat biztosítva, amelyek minden Google Translate szolgáltatást felülmúlnak minden mérőszám szerint, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán szolgáltatása, amikor lemkóra fordítanak.

    Kérem, hivatkozzon így:

    Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, 14051. kötet. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

    1 Bevezetés

    1.1 A probléma

    A nyelvek legalább negyedévente egy nyelvet elveszítve tűnnek el, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, több mint 1500 beszélő közösséget érintve [1, 163. és 169. o.]. Ezek az eredmények összefüggésben állnak az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a támadások [4] megnövekedett előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági arányokkal, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].

    Egy friss amerikai tanulmány kimutatta, hogy az őslakos nyelvek használata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi kísérlet kimutatta, hogy a lemkó nyelv használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].

    A mesterséges intelligencia gépi fordítás segíthet az említett védőhatások terjesztésében az örökölt nyelvek beszélői körében, a haldokló és alvó nyelvek újjáélesztésével [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnak elő, és élvezhetik az olvasás megértését automatikus gépi fordítóeszközök segítségével, amíg el nem érik a teljes, független folyékonyságot.

    1.2 Vizsgált rendszer

    Nyelv

    A lemkó egy határozottan súlyosan veszélyeztetett [9, 177–178. o.] kelet-szláv nyelvjárás, amely délnyugat-ukrán genetikai besorolású [10, 52. o.; 11, 39. o.], és a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszin néven is emlegetik [11, 39. o.; 12].

    Keleti határok

    A lemkót keletre megkülönböztető egyedi izoglossza a rögzített paroxiton (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös jellemző [10, 161–162. és 972–973. o.; 11, 50. o.; 13, 70–73. o.], így kiterjedése Kelet-Szlovákiában legalább a Laborc folyóig terjed, utána átmeneti zónával [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a lemkó történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig ér, azon túl átmeneti zónával [11, 50. o.].

    Nyugati határok

    A lemkó történelmi nyugati határai a Poprád és a Dunajec folyók [14, 459. o.].

    Elhelyezkedés

    Az anyanyelvi beszélők ősi falvai, akiknek interjúi alkotják a korpuszt, a mai Kis-Lengyelország tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.

    lemkó névÁtírásLengyel névMegyeszékhelyKözségi székhely
    ІзбыIzbŷIzbyGorliceUście Gorlickie
    ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
    ЧорнеČorneCzarneGorliceSękowa
    ДолгеDolheDługieGorliceSękowa
    БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
    ФльоринкаFlʹorynkaFlorynkaNowy SączGrybów
    ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
    1. táblázat. A korpusz anyagában megkérdezett anyanyelvi beszélők ősi falvai.

    2 A technológia állása

    Tavaly publikálták a világ első minőségi értékelési eredményeit a lemkó gépi fordításokra vonatkozóan: BLEU 6.28, ami közel háromszorosa volt a Google Translate ukrán szolgáltatásának[1] (BLEU 2.17) [15, 570. o.]. Az előző évben kollégáimmal publikáltuk és bemutattuk a világ első eredményeit a lemkó-angol gépi fordításra vonatkozóan: BLEU 14.57 [16].


    [1] Nyilatkozat: Fizetett ukrán, lengyel és orosz fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben. Ügyfelem székhelye San Franciscóban, Kaliforniában található.

    A motor telepítésre került, és ingyenesen elérhetővé vált az univerzális erőforrás-azonosítón https://www.LemkoTran.com, ahol egy átírási motor működik 2017 őszétől. A fordítómotorra először Dr. Scherrer és Dr. Rabus hivatkozott nyomtatásban a Cambridge University Press Natural Language Engineering című folyóiratában 2019-ben [17].

    3 Anyagok és módszerek

    3.1 Anyagok

    A kísérletet egy kétnyelvű korpuszon végezték, amely lemkó cirill átiratokat és angol fordításokat tartalmazott a Lengyelországban őshonos földekről erőszakkal áttelepített túlélőkkel és gyermekeikkel készített interjúkból. Az átiratokat és fordításaikat[1] 3267 szegmensben igazították egymáshoz, a Microsoft Word szerint a lemkó forrásszavak száma 68 944, az angol célszavak száma pedig 81 188 volt.


    [1] A John és Helen Timo Alapítvány, Wilmington, Delaware, bízott meg az átiratok elkészítésével és lefordításával, akik ezután a munkatermékeket tudományos kutatási és fejlesztési törekvéseimhez adományozták.

    Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22], valamint Petro Pyrtej [23] nyelvtanai.

    3.2 Módszerek

    Motorfrissítések

    Ehhez a kísérlethez a LemkoTran.com-on telepített motort újonnan épített generátorokkal szerelték fel, amelyek a szófaj, a nyelvtani eset és a szám alapján készültek, azzal a céllal, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül fele nem ragozódik lengyelül vagy lemkóul, lehetővé téve az egyszerű helyettesítést.

    Minőségbiztosítási tesztek

    A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint összevetettek a fentebb, az Anyagok alatt felsorolt lemkó kodifikációkkal, nyelvtani szabályokkal és szótárakkal. Maguk a tesztek azt állítják, hogy a rendszer a megadott mondatokat a kívánt módon fordítja.

    LeírásMennyiség
    Főnév tő414
    Ige tő296
    Melléknév tő167
    Névmás, személyes87
    Névmás, egyéb178
    Számnév86
    Egyéb szótárbejegyzések357
    Összesen1,585
    2. táblázat. Rendszerszókincs.

    Szabályalapú gépi fordítás (RMBT)

    A szöveg lemkó vagy lengyel hangulatot kapott a karaktersorozatok, és különösen a ragozási végződések cseréjével.

    Lengyel szekvenciaLemkó sorozatPozíció
    owaćuwatyVégződés
    iamiiamyVégződés
    ająajutVégződés
    zezoKezdő
    podpidKezdő
    3. táblázat. Példa karakterlánc-cserékre.

    Fordítási minőség pontozása

    A fordítási minőséget ipari szabványok szerinti mérőszámokkal mérték a SacreBLEU eszköz alapértelmezett beállításait használva, amelyet Matt Post talált fel az Amazon Researchnél [24]. Az összehasonlíthatóság kedvéért a lengyel nyelvet lemkó cirill betűkkel adták vissza, ugyanúgy, mint az utolsó kísérletben [15, 573. o.].

    Kétnyelvű értékelési tanulmány (BLEU)

    Ez az n-gram alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban fejlesztették ki az IBM T. J. Watson Kutatóközpontban, a Védelmi Fejlett Kutatási Projektek Ügynökségének (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].

    Fordítási szerkesztési arány (TER)

    Ez a metrika a kimenet szemantikailag helyes fordításhoz való közelítéséhez szükséges szerkesztések számát tükrözi, célja, hogy toleránsabb legyen a kifejezésbeli eltolódásokkal szemben, mint a BLEU és más n-gram alapú metrikák. Meghatározása egy hipotézis és egy referencia közötti szerkesztési távolság számításának elosztásával történik az átlagos referencia szószámával. Fejlesztését az Egyesült Államokban szintén a DARPA támogatta [26].

    Karakter n-gram F-pontszám (chrF)

    Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi ítéletekkel, és még a BLEU-t és a TER-t is felülmúlja [27].

    4 Eredmények és megbeszélés

    A kísérleti rendszer, a LemkoTran.com, minden mérőszám szerint felülmúlta a Google Translate összes szolgáltatását. Az angol-lemkó fordítás BLEU minőségi pontszámai 35%-kal javultak az utoljára publikált eredményekhez képest [15], négyszer jobb eredményt produkálva, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatása. Eközben a lemkó-angol fordítás minősége 23%-kal javult az utoljára publikált eredmények óta [16], 16%-kal magasabb BLEU pontszámot érve el, mint a Google Translate által elért legjobb, amely az esetek 76%-ában automatikusan ukránként, 16%-ában oroszként, és 6%-ában fehéroroszként ismerte fel a lemkót.

    4.1 Angol-lemkó fordítási minőség

    Pontszámok

    A LemkoTran.com-on telepített motor minden mérőszám szerint felülmúlta a Google Translate-et, amikor angolról lemkóra fordított. A kísérletben a következő legmagasabb pontszámot elérő rendszer vagy a Google Translate ukrán szolgáltatásának kimenete volt (a BLEU vagy chrF metrikák használatával), vagy a lengyel szolgáltatásáé (a TER metrika használatával).

    BLEU

    A LemkoTran.com-on telepített rendszer fordítási minősége, a legelterjedtebb BLEU metrika szerint mérve, 8,48-ra emelkedett, ami 35%-os javulást jelent a 2022-ben utoljára publikált eredményekhez képest [15], és most négyszerese a Google Fordító legmagasabb pontszámának.

    1. ábra. Angol-lemkó fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus LemkoTran.com. Minél magasabb, annál jobb.
    chrF

    A LemkoTran.com motorja érte el a legjobb angol-lemkó karakter n-gram F-pontszámot (chrF 37.30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása magasabb pontszámot ért el, mint a lengyel és fehérorosz megfelelői, amikor a lemkó korpuszhoz viszonyítva mérték ezt a metrikát.

    2. ábra. Angol-lemkó fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (NMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
    TER

    A LemkoTran.com motorja érte el a legjobb angol-lemkó fordítási szerkesztési arányt (TER), 81.33 pontszámmal. A Google Translate lengyel szolgáltatása érte el a második legjobb eredményt, szorosan követve az ukrán szolgáltatását.

    3. ábra. Angol-lemkó fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Minél alacsonyabb, annál jobb.

    Példák

    Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.

    BemenetA gyermekeink is okosak voltak. De hol kellett volna tanulniuk?
    LeírásKimenetÁtírásMinőségi pontszámok
    Lemkó referencia
    (anyanyelvi beszélő)
    В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
    chrF2 100
    TER 0
    Fordítás lemkó nyelvre
    LemkoTran.com által
    Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
    chrF2 79,03
    TER 27,27
    Google Fordító (kontroll)Fordítás ukrán nyelvreНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4,41
    chrF2 25,80
    TER 72,73
    Fordítás orosz nyelvreНаши дети тоже были умными. Но где им было учиться? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3,71
    chrF2 16,95
    TER 90,91
    Fordítás lengyel nyelvreНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3,12
    chrF2 13,84
    TER 100
     Fordítás fehérorosz nyelvreРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3,09
    chrF2 12,83
    TER 100
    4. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
    BemenetÉs általánosságban elmondható, hogy a lengyelországi lemkóknak nincs, úgymond, olyan vezetőjük, aki mondana valamit.
    LeírásTermékÁtírásMinőségi pontszámok
    Lemkó referencia (anyanyelvi beszélő)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Fordítás lemkó nyelvre a LemkoTran.com általІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral’ni Lemkŷ v Pol’ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
    chrF2 65,32
    TER 29,41
    Google Fordító (kontroll)Fordítás lengyel nyelvreІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
    chrF2 29,29
    TER 82,35

    Fordítás ukrán nyelvreІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
    chrF2 26,56
    TER 82,35
    Fordítás orosz nyelvreИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
    chrF2 25,87
    TER 88,24
     Fordítás fehérorosz nyelvreІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
    chrF2 18,05
    TER 100
    5. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.

    Lemkó-angol fordítás

    Pontszámok

    Minden mérőszám szerint a LemkoTran.com-on telepített motor felülmúlta a Google Translate-et, amelynél a standard ukrán nyelvről történő fordítás mindig a második legjobb volt, ezt követte a forrásnyelv automatikus felismerése, majd a fehéroroszról, aztán a lengyelről történő fordítás, az orosz pedig mindig az utolsó helyen végzett. A Google Translate az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a fennmaradó időben pedig egyéb cirill betűs nyelvekként (pl. mongol) ismerte fel a lemkót.

    BLEU

    A LemkoTran.com 17,95 BLEU pontszámot ért el angolra fordítva, ami 23%-os javulás az utoljára publikált 14,57 BLEU pontszámhoz képest, és 16%-kal magasabb, mint a Google Fordító ukrán szolgáltatásának 15,43 BLEU pontszáma.

    4. ábra. Lemkó-angol fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
    chrF

    A LemoTran.com-on telepített motor 45,89 karakteres n-gram f-pontszámot (chrF) ért el angolra fordítva, ami 5%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.

    5. ábra. Lemkó-angol fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
    TER

    A LemkoTran.com 70,38 Translation Edit Rate (TER) pontszámot ért el angolra fordítva, ami 7%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.

    6. ábra. Lemkó-angol fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél alacsonyabb, annál jobb.

    Példák

    Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.

     LeírásTermékMinőségi
    pontszámok
    Anyanyelvi beszélő által elmondott lemkó szöveg átirataЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.n/a
    ÁtírásJak rozdiljame jazŷkŷ, to mala-m kontakt z pol’skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol’skoho, bo zme maly susidiv Poljakiv.n/a
    Kétnyelvű szakember által készített referenciafordításAmi a nyelvek szétválasztását illeti, volt kapcsolatom a lengyellel. Nem úgy volt, hogy lengyel tudás nélkül kezdtem az iskolát, mert lengyel szomszédaink voltak. BLEU 100
    chrF2 100
    TER 0
    Fordítás lemkó nyelvről a LemkoTran.com rendszerévelAmikor szétválasztjuk a nyelveket, volt kapcsolatom a lengyellel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert lengyel szomszédaink voltak.BLEU 45.84
    chrF2 69.60
    TER 32.00
    Google Fordító (kontroll)ukránból (92%-os megbízhatósággal automatikusan felismerve)Ahogy felosztjuk a nyelveket, akkor volt kapcsolatom a lengyellel, akkor nem úgy volt, és lengyel tudás nélkül jártam iskolába, mert lengyelek voltak a szomszédaim.BLEU 15.87
    chrF2 54.38
    TER 72.00
    belaruszbólAhogy szétválasztjuk a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert kevés lengyel szomszédunk volt.BLEU 11.76
    chrF2 58.92
    TER 68.00
    oroszbólAhogy terjesztjük a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert a kígyók öngyilkosok voltak Polyakivban.BLEU 6.87
    chrF2 42.66
    TER 92.00
    lengyelbőlAhogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert megváltoztatom a kis lengyel nyelvemet.BLEU 5.02
    chrF2 45.35
    TER 84.00
    6. táblázat. A lemkó bemenet fordítási hipotéziseinek összehasonlítása.

    5. Összefoglalás

    A morfológiailag és szintaktikailag informált generátorok neurális motorokkal való párosítása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben azzal az előnnyel is jár, hogy a mérnökök megtisztíthatják a jövevényszavakat és ellensúlyozhatják a domináns nyelvi interferenciát, valamint biztosíthatják a szabványoknak való megfelelést, például a kisebbségi nyelvek kodifikációit. A mesterséges intelligencia modellekben rejlő tökéletlenségek által okozott minőségi pontszám-üvegplafonok is áttörhetők a megfelelő mérnöki munkával. A lemkó, valamint a hasonlóan alacsony erőforrású, őslakos kisebbségi nyelvek esetében a fordítási minőség, valamint a revitalizációs forradalmak tekintetében most már a határ a csillagos ég.

    Köszönetnyilvánítás

    Szeretném megköszönni Dr. Ming Qiannek (Charles River Analytics) a kísérlet elvégzéséhez nyújtott inspirációt, Michael Decerbónak (Raytheon BBN Technologies) és Dr. James Joshua Penningtonnak az éleslátó megjegyzéseiket, valamint Dr. Yves Scherrernek (Helsinki Egyetem) a projekt iránti érdeklődését és ötleteit.

    Hivatkozások

    1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Kultúra, örökség és szabadidő: Aboriginal és Torres Strait Islander nyelvek beszélése. In: 4725.0 – Aboriginal és Torres Strait Islander jólét: Fókuszban a gyermekek és fiatalok. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
    5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-angol gépi fordítás a veszélyeztetett nyelvek revitalizációjához. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 577–595. o. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, 175–200. o. Faculty of “Artes Liberales”, University of Warsaw, Varsó (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Shevelov, G.: A Historical Phonology of the Ukrainian Language (ukrán fordítás). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo “AKTA”, Kharkiv (2002, original work published 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (ruszinul). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, 39–66. o. 2. kiadás. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (ruszinul). In: Magosci, P. (szerk.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, 67–84. o. 2. kiadás. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Vaňko, J.: A ruszin nyelv Szlovákiában: két tűz között. In: Duchêne, A. (szerk.) International Journal of the Sociology of Language, 2007. kötet, 183. szám, 75–96. o. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
    14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, 454–487. o. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Orynycz, P.: Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó revitalizálására. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, 13336. kötet, 567–580. o. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, 21176. számú cikk. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, 25. kötet, 5. szám, 633–650. o. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (lengyelül). Rutenika, Warsaw (2004).
    19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (ukránul). Siversiya MV, Ivano-Frankivsk (2004).
    20. Duda, I.: Lemkivsʹkyj slovnyk (ukránul). Aston, Ternopil (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Warsaw (1995).
    22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
    24. Post, M.: Felhívás a BLEU pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), 1. kötet, 186–191. o. Association for Computational Linguistics, Brüsszel (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), 311–318. o. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
    26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, 223–231. o. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
    27. Popović, M.: chrF: karakter n-gram F-pontszám az automatikus MT értékeléshez. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, 392–395. o. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Lektorált tudományos publikációk

    Lektorált tudományos publikációk

    Tudományos folyóiratokban publikáló szerző és előadó vagyok a világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature által kiadott ember-számítógép interakció (HCI) nemzetközi konferenciáin, amely az egyik legrangosabb, legnagyobb hatású és legrégebben folyamatosan működő tudományos kiadó.


    2023

    Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány

    A nyelvi veszteség nem csupán kulturális – működési. Ez a tanulmány lengyel ↔ lemkó gépi fordítást épít és értékel (szakértői szabályalapú + Transformer NMT), és mindkét irányt DARPA által támogatott mérőszámokkal (BLEU, TER) hasonlítja össze, beleértve egy Google Fordító proxy alapvonalat is.

    Főbb hozzájárulások

    • Épít egy lengyel ↔ lemkó fordítási rendszert, amely egy szakértői szabályalapú motort és Transformer NMT-t kombinál alacsony erőforrás-igényű környezethez.
    • Értékel mindkét irányt (PL→lemkó, lemkó→PL) szabványosított, reprodukálható mérőszámokkal (BLEU + TER).
    • Összekapcsolja a kisebbségi nyelvi gépi fordítást valós eredményekkel: képzési hatékonyság, hozzáférés és ellenálló képesség vitatott információs környezetekben.

    Főbb eredmények

    • PL → lemkó: szakértői rendszer BLEU 29,49 / TER 53,73; jelentése szerint ~6,5-szerese egy Google Fordító lengyel→ukrán proxynak BLEU-ban.
    • lemkó → PL: szakértői rendszer BLEU 31,13 / TER 54,10.
    • Transformer (PL → lemkó): BLEU 15,90 (30 ezer lépés) – a proxy alapvonal felett, a szakértői rendszer alatt ebben a beállításban.

    BLEU kilátások a veszélyeztetett nyelvek újjáélesztéséért: Lemko Rusyn and Ukrainian neurális mesterséges intelligencia fordítási pontossága szárnyal

    A kisebbségi nyelvek elvesztése nem csupán kulturális – mérhető kár. Ez a tanulmány a LemkoTran.com jelentős fejlesztéséről számol be, amely szabályalapú generálást kombinál neurális gépi fordítással, így a lemkó anyanyelvűek és az új tanulók azonnal olvashatnak és írhatnak. Morfológiailag tudatos főnév/ige/melléknév generátorokat adok hozzá, bővítem a lexikont, 9518 kötelezően átmenő minőségellenőrzési tesztet vezetek be, és összehasonlítom a fordítási minőséget BLEU, TER és chrF mérőszámokkal több Google Fordító szolgáltatással szemben.

    Főbb hozzájárulások

    • Fejleszti a LemkoTran hibrid rendszerét (szabályalapú + neurális) a lemkó nyelvre és lemkó nyelvről történő fordításhoz morfológiailag tudatos generálással.
    • Megerősíti a pontosságot 9518 kodifikációra hivatkozó teszttel, a fordítási minőséget kikényszeríthető minőségellenőrzéssé alakítva.
    • Bővíti a nyelvi lefedettséget ~1585 szabályalapú szókincs elemmel, valamint 877 lemmával + 708 szószedet bejegyzéssel táplált generátorokkal.
    • Szigorúan összehasonlít a SacreBLEU alapértelmezett beállításait és három kiegészítő mérőszámot (BLEU / TER / chrF) használva reprodukálható összehasonlításokhoz.
    • Mérnöki utat mutat a zavarmentesítéshez: a szabályalapú modulok lehetővé teszik a jövevényszavak / domináns nyelv átszivárgásának tisztítását (ahol kívánatos).

    Főbb eredmények

    • EN → lemkó: A BLEU 8,48-ra nő (+35% az előző publikációhoz képest), jelentése szerint ~4-szerese a Google Fordító legjobb szolgáltatásának BLEU-ban.
    • lemkó → EN: A BLEU eléri a 17,95-öt (+23% az előző munkához képest), jelentése szerint ~16%-kal magasabb, mint a Google Fordító ukrán szolgáltatása (legjobban teljesítő alapvonal).
    • Mérőszámok tekintetében: A LemkoTran felülmúlja a Google-t a BLEU + TER + chrF mérőszámokban, mivel a Google gyakran tévesen azonosítja a lemkó nyelvet (gyakori ukrán/orosz/fehérorosz felismerés).

    2022

    Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó nyelv újjáélesztésére

    A mesterséges intelligencia előnyhöz juttathatja a veszélyeztetett nyelveket: az új beszélők már az első naptól kezdve az irodalmi normához közelebb álló mondatokat alkothatnak. Mondd jól (2022) egy alacsony erőforrásigényű folyamatot (transzfertanulás + szabályalapú gépi fordítás) mutat be, kiad egy nyilvános angol→lemkó rendszert, és BLEU-val értékeli a minőséget.

    Főbb hozzájárulások

    • Transzfertanulás + szabályalapú motor alacsony erőforrásigényű nyelvhez.
    • Mennyiségi értékelés (BLEU), nem érzések alapján.
    • Nyilvános eszközként telepítve (LemkoTran).

    Főbb eredmények

    • Angol→lemkó rendszer: BLEU 6,28 (jelentett).
    • Összehasonlítva a Google ukrán/orosz/lengyel kimeneteivel (jelentett).
    • Erőforrás-korlátozott végrehajtásra tervezve (laptopon/offline is használható munkafolyamat).

    2021

    Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben (2021)


    Ez a tanulmány bemutatja, hogyan szüntetheti meg a neurális gépi fordítás (NMT) a lokalizációs szűk keresztmetszeteket a koalíciós képzésekhez: ahelyett, hogy hónapokat várnánk az emberi fordításra, napok/hetek alatt telepíthet többnyelvű tartalmat az NMT gyors lokalizációra való felhasználásával.

    Főbb eredmények

    • Orosz: +1169,51%-kal gyorsabb és +58,37%-kal pontosabb egy professzionális emberi nyelvész alapértékéhez képest.
    • Lengyel: +17,29%-kal pontosabb és +488,45%-kal gyorsabb emberi fordításhoz képest.
    • lemkó: „a világ első” motorja, BLEU 14,57-es értéket jelentettek.

    Főbb hozzájárulások

    • A lokalizációt működési szűk keresztmetszetként kezeli, és a „képzés ma este / jövő héten” időkereteket célozza meg.
    • NMT motorokat épít és értékel NATO képzési anyagokon, a BLEU-t használva értékelési metrikaként.
    • Gyakorlati munkafolyamatot mutat be egy olcsó, hálózattól elszigetelt laptopon (realisztikus telepítési korlátok mellett).
  • Felhő alapú TDD: spórolj 4 ezer dollárt, időt & végezz eXtreme programozást bárhol

    A probléma

    A probléma: akár Tesztvezérelt fejlesztés (TDD) (Beck, 2003) vagy test && commit || revert (TCR) (Beck, 2018) a munkamódszered, komoly előrehaladás után több ezer egységtesztet kell futtatni minden alkalommal, amikor elmented a munkát. Egy régi laptopon akár negyedórákat is várhatsz, egy jobb laptopon pedig perceket, ami lelassítja a szoftverfejlesztés előrehaladását.

    Régi megoldások és megküzdési stratégiák

    Pénzzel orvosolni a problémát

    Eddig valószínűleg a pénzzel való orvoslás volt a legegyszerűbb megoldás. Ha finanszírozni tudtál egy gyorsabb, több processzorral rendelkező laptopot, a teszteket kötegelni lehetett, és a futtatásukhoz szükséges idő gyorsan csökkent. Egy gyorsabb asztali számítógép beszerzése még jobb ár-érték arányt eredményezett volna, mint egy laptop, a hordozhatóság rovására.

    Tesztelés elhalasztása

    Egy nyilvánvaló megoldás, hogy leállítod a tesztelést a kódbázis minden változtatása után, és vársz, amíg néhány óra, egy műszak vagy egy hét fejlesztés befejeződik. Ez aligha ideális, mivel exponenciálisan megnő az esélye annak, hogy zsákutcába jutsz, vagy eltévedsz az erdőben. A teszteknek mindig zöldnek kell lenniük (azaz sikeresnek), különben előbb-utóbb valaki jó szándékkal rossz irányba fordul, és napokat, heteket vagy hónapokat veszítesz a termelékenységből.

    Új megoldás: a felhő

    Pár fillérért futtathatod az összes regressziós tesztedet a felhőben egy szerény laptopról. Ebben a példában a GitHub CodeSpaces felhőalapú fejlesztői környezetét használjuk körülbelül tízezer regressziós teszt futtatására, amelyek a lengyel és a lemkó (más néven „ruszin”), egy veszélyeztetett, délnyugat-ukrán genetikai eredetű, Lengyelországban és Szlovákiában (Magyarországon) őshonos nyelv közötti helyes fordításokat biztosítják. Nézd meg, ahogy a regressziós csomag futtatása 8 másodpercre csökken.

    Útmutató

    1. Regisztrálj egy Codespaces fiókot a GitHubon

    Itt van egy link: https://github.com/features/codespaces

    2. Növeld a költségkeretedet legalább egy dollárra

    Biztonsági mechanizmusként a kezdeti költségkeret nullára van állítva, és komoly teljesítmény eléréséhez nem nulla költségkeretre lesz szükséged. A sajtó idején a legerősebb rendszer óránként 2,88 USD-be került, így már egy dollár is elegendő az induláshoz.

    3. Nyisd meg a tárolódat a CodeSpacesben

    A kód tárolódon kattints a nagy zöld Kód gombra, győződj meg róla, hogy a CodeSpaces fül nyitva van, kattints a három pontra (…), és válaszd a „New with Options” (Új opciókkal) lehetőséget egy kódterület létrehozásához. Válassz erős processzorokat, és a maximálisan elérhetőt (valószínűleg 16-ot).

    4. Nyisd meg a CodeSpace-edet a Visual Studio Code-ban (!)

    A CodeSpaces menüben kattints az „Open in Visual Studio Code” (Megnyitás Visual Studio Code-ban) gombra.

    5. Akár 36 mag eléréséhez küldj be egy támogatási kérést

    Kérdéseid vannak? Kérdezz a kommentekben lent.

  • Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány (2023)

    Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány (2023)

    Absztrakt

    Amikor a kisebbségi és helyi nyelvek elvesznek, a nemzetbiztonság szenved: nemcsak az öngyilkossági arány, a depresszió, a cukorbetegség, a támadások és a kábítószer-fogyasztás jelentős növekedését dokumentálják gyakran, hanem egy űrt is teremt, amelyet történelmileg kihasználtak az ellenfelek. Például kisebbségi nyelvi közösségekből származó milliók történelmietlenül sajátjuknak tekintik az orosz nyelvet és/vagy identitást Ukrajnában, Fehéroroszországban, NATO-szövetséges országokban, sőt még az Egyesült Államokban is. Ha az anyanyelvi kommunikációs hiányosságok kizárólag az ellenfelek kezében maradnak, akik kihasználják az ezen nyelvekkel kapcsolatos hosszú tapasztalatukat, a NATO jelentős hátrányban marad, amikor megpróbálja bevonni ezeket a közösségeket. Európában a nyelvi veszteség által részben okozott lelki sebek nem gyógyultak be az asszimilációval. Ehelyett a városok elszigetelő feszültségek fellángolását élik át Nyugaton, és a keleti lakosságot az ellenfél hatalmak meggyőzik arról, hogy ezek a hatalmak az igazi szövetségeseik, akik megértik és tisztelik őket. Az oktatás sem csodaszer a hivatalos nyelven: Ukrajna (sőt Spanyolország) esetében a helyi nyelvjárások és a hivatalos nyelv közötti nem elhanyagolható különbségek lehetőséget teremtenek az ellenfelek számára a szeparatizmus lángjainak szítására.

    A gépi fordítóprogramok használata a NATO és partnerei felhatalmazására az újoncok képzésében vagy a helyszíni fellépésben, a szívükhöz és elméjükhöz legközelebb álló nyelven, azonnali összetartozás-érzést teremthet, és bemutathatja a NATO elfogadott polikulturális vízióját. Mesterséges intelligencia és szabályalapú motorokat állítottak össze, hogy fordítsanak Lengyelország hivatalos nyelve és az őshonos lemkó kisebbség nyelve között, amelyet régóta külföldi hatalmak céloztak meg. A motorokat lemkó nyelvről lengyelre történő fordításkor értékelték a DARPA támogatásával kifejlesztett metrikák segítségével, 31,13-as kétnyelvű értékelési alvizsgálati (BLEU) pontszámot és 54,10-es fordítási szerkesztési arányt (TER) eredményezve. Eközben, a másik irányban a motorok 53,73-as TER és 29,49-es BLEU pontszámot értek el, ami 6,5-szer jobb pontszám, mint a Google Fordító lengyel-ukrán szolgáltatásáé.

    Kérem, így hivatkozzon: Orynycz, P., & Dobry, T. (2023). Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány. A(z) Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) kiadványában.

    Kérem, hivatkozzon így:

    Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001

    Bevezetés

    A képzési eredmények profitálhatnak a gépi fordítás alkalmazásából az őshonos és kisebbségi nyelvek és dialektusok esetében, amelyek használatát a tudományos irodalom egyre inkább és jelentősen (p ≤ 0.05) élesebb elmével, ellenállóbb pszichével és robusztusabb egészséggel hozza összefüggésbe, nem is beszélve a hatszor alacsonyabb öngyilkossági arányról (Hallett et al., 2007, 398. o.). Az örökölt nyelv használata megerősíthet a külföldi ellenséges befolyással szemben, és az észak-atlanti térségben megakadályozhatja, hogy a célzott népességek orosz vagy más ahistorikus etnolingvisztikai identitásokba essenek a nyelvvesztés pusztító következményeivel való megküzdés során. Míg az anyagok helyi dialektusokra és nyelvekre történő lokalizálása korábban meghaladhatta a háború sújtotta közösségek és kormányok lehetőségeit, a mesterséges intelligencia és a számítógépes nyelvészet legújabb áttöréseinek köszönhetően ma már megfizethető eszközök is elképzelhetők, amelyek olcsóbbak, gyorsabbak és jobbak az embereknél az alacsony erőforrású őshonos és kisebbségi nyelvekre történő fordításban.

    A nyelvvesztés problémája nem korlátozódik Európára. Bár a globális nyelvi veszélyeztetettség helyzete talán nem olyan súlyos, mint ahogy az 1990-es évek elején rendelkezésre álló adatok sugallták, a rendelkezésre álló statisztikák mégis borús képet festenek. Egy gyakran idézett, Simmons és Lewis (2013) által „a nagy nyelvi fegyverbe hívásnak” nevezett munkájában Krauss 1992-ben arra figyelmeztetett, hogy a világ nyelveinek felétől 90%-áig terjedő része kihalásra ítéltetett ebben a században. Ezenkívül feltételezte az angolszász világban, ahol az angol dominál, az őshonos nyelvek 90%-ának „dokumentált pusztulási arányát”, és az egész Szovjetunióra, ahol az orosz volt a domináns, becsült 50%-os haldoklási arányt (Krauss, 1992, 5. o.). Húsz évvel később Simmons és Lewis (2013) frissített adatok felhasználásával becsülte, hogy a 7103 élő nyelv közül 1360 (19%) nem öröklődik át a következő generációra (12. o.), ez a szám Kelet-Európában 30%-ra emelkedik (13. o.).

    Neurotudomány és tanulási eredmények

    A legújabb kutatások azt mutatják, hogy az anyanyelv használata több mentális kapacitást biztosíthat a tanuláshoz, és a teszteredmények jelentősen javulnak. A Massachusetts Institute of Technology (MIT) kutatói által vezetett McGovern Agykutató Intézetben az év elején végzett vizsgálat viszonylag alacsony agyi választ figyelt meg az anyanyelvi ingerekre, amikor funkcionális mágneses rezonancia képalkotó (fMRI) technikával mérték (Malik-Moraleda et al., 2023). Magyarázatként a kutatók azt javasolták, hogy a szakértelem csökkenti a feladathoz szükséges agyi kapacitás mennyiségét (Mesa, 2023). A Világbank számára készült friss tanulmányban Soh, Del Carpio és Wang (2021) megállapította, hogy az anyanyelvtől eltérő oktatási nyelv használata káros lehet, különösen a férfiak számára. A tanulmányban a malajziai diákok matematika és természettudományi teszteredményei jelentősen csökkentek, miután az oktatás nyelvét malájról angolra váltották (Soh et al., 2021, 4., 17., 18–19. o.).

    Nemzetbiztonság

    A NATO Különleges Műveleti Iskola oktatói, White és Overdeer szerint Oroszország kihasználhatja a célzott társadalmak etnikai megosztottságát a hibrid hadviselés eszközeként, külpolitikai céljainak elérése érdekében (2020, 31–33. o.), mivel az etnolingvisztikai különbségek „könnyen elérhetők és könnyen súlyosbíthatók” (40. o.). Az alábbiakban az etnolingvisztikai viszály szítása és kihasználása Nyugat- és Kelet-Európában egyaránt feltárásra kerül.

    Spanyolország: Katalónia

    A katalán, egy északkelet-spanyolországi kisebbségi nyelv nyilvános használatát a Franco-kormány 1975-ig betiltotta (Miller & Miller, 1996, 113. o.). Ahelyett, hogy feloldotta volna a viszályt, ez a politika inkább elmélyíthette azt. A The New York Times számára írt cikkben Schwirtz és Bautista (2021) egy 2020. júniusi európai hírszerzési jelentésre hivatkozott, amely szerint az Orosz Föderáció katonai hírszerző rendszerének elit 29155-ös egysége Katalóniában tartózkodott egy 2017-es függetlenségi népszavazás idején, amikor a „titokzatos tüntető csoport”, a Tsunami Democràtic elfoglalta a barcelonai repülőteret és elzárta a Spanyolországot északi szomszédaival összekötő fő autópályát. Három nappal később az orosz Szövetségi Védelmi Szolgálat egyik ezredese és egy magas rangú elnöki tanácsadó közeli rokona, aki mélyen érintett volt Oroszország ukrajnai szeparatistákat támogató erőfeszítéseiben, Moszkvából érkezett egy stratégiai megbeszélésre, hogy megvitassák a katalán függetlenségi mozgalmat (Schwirtz & Bautista, 2021).

    Az Orosz Föderáció katalán függetlenségi mozgalom iránti támogatása állítólag még 10 000 katona és $500 milliárd amerikai dollár felajánlását is magában foglalta a függetlenség esetére (Baquero et al., 2022; lásd még Brunet, 2022, 74. o.). Louise I. Shelley, a Virginia állambeli George Mason Egyetem Terrorizmus, Transznacionális Bűnözés és Korrupció Központjának munkatársa szerint Oroszország spanyolországi szeparatista vezetőkkel való kapcsolatfelvétele összhangban van a korábbi viselkedéssel, és kifejtette: „A katalánok és az oroszok közötti kapcsolatok a szovjet korszakra nyúlnak vissza. A Szovjetunió összeomlása előtt magas szintű találkozókat tartottak Barcelonában prominens oroszokkal” (Baquero et al., 2022).

    Nyugat-Ukrajna

    Ukrajnában a helyi nyelvjárások és az iskolákban tanított irodalmi standard közötti nem elhanyagolható különbségek lehetőséget teremtenek az ellenfelek számára a szeparatizmus lángjainak szítására. A Rating 2012-es jelentése szerint az etnikai ukránoknak mindössze 54%-a használta örökölt nyelvét, 29%-uk oroszt, 17%-uk pedig a kettő keverékét (9. o.). Abban az évben kilenc orosz nyelvű könyv jelent meg minden egyes ukrán nyelvűre, és a nyomtatott média példányainak mindössze 13%-a volt ukrán nyelven írva (Moser, 2016a, 604. o.).

    Két évtizeddel ezelőtt az Egyesült Államok Külügyminisztériumának 2002. évi éves emberi jogi jelentése a következőket közölte:

    Néhány oroszbarát szervezet az ország keleti részén panaszkodott az ukrán nyelv iskolai és médiabeli fokozott használatára. Azt állították, hogy gyermekeik hátrányos helyzetbe kerültek az egyetemi felvételi vizsgákon, mivel minden jelentkezőnek ukrán nyelvi tesztet kellett tennie.

    Külügyminisztérium, 2003, 1758. o.

    A ruszinok (rutének) továbbra is hivatalos etnikai csoportként való elismerésüket követelték az országban. A ruszin közösség képviselői ruszin nyelvű iskolákat, ruszin nyelvű tanszéket az Ungvári Egyetemen, valamint azt követelték, hogy a ruszinokat vegyék fel az ország etnikai csoportjai közé a 2001-es népszámlálás során. Ruszin vezetők szerint több mint 700 000 ruszin él az országban.

    Külügyminisztérium, 2003, 1759. o.

    A Külügyminisztérium által említett szélesebb körű kérdések kiindulópontjaként, amelyek kívül esnek ezen tanulmány hatókörén, Michael Moser, a Harvard Ukrán Kutatóintézet korábbi munkatársa a következőket magyarázta:

    A ruszinokat valószínűleg a rutének/ruszinok azon maradványaként lehet a legjobban leírni, akik nem voltak hajlandóak csatlakozni a modern ukrán nemzeti és nyelvi mozgalomhoz… kezdetben ez a vonakodás nem modern értelemben vett ruszin identitáson alapult, hanem oroszbarát nézetekből fakadt, miszerint a rutének/ruszinok/kisoroszok egy oszthatatlan orosz néphez tartoznak, és nincs helye ukrán nemzetnek és ukrán nyelvnek.

    Moser, 2016b, 127. o.

    2007 júniusában elnöki rendelettel alapították meg Moszkvában az „Orosz Világ Alapítványt”, amely 2011 márciusáig több mint $1 200 000 amerikai dollárral kezdte támogatni az „honfitársakat” Ukrajnában (Moser, 2016a, 607. o.).

    Gyűlésre került sor az orosz drámai színházban, Ukrajna legnyugatibb városában, Munkácson, 2008. október 25-én (Wiktorek, 2010, 100. o.). Még arról is érkeztek jelentések, hogy mintegy száz fegyveres, vidéki személy tartózkodott kint (Ukrajinsʹke nacionalʹne objednannja, 2009; lásd még Wiktorek, 2010, 100. o.). Bármi is történt ott, aznap este 20:30-kor megjelent egy „ruszin államiság helyreállításáról” szóló kiáltvány orosz nyelven a rusin.forum24.ru online platformon. Panaszai között szerepel „a ruszin államnyelv felváltása galíciai ukránnal, a lengyel Galícia, a ruszinok északi szomszédjának nyelvével.” (2. Európai [sic] Kárpátaljai [sic] Ruszin Kongresszus, 2008).

    Mielőtt elrendelte volna hadseregének nyílt invázióját Ukrajnába egy nagyszabású „különleges katonai művelet” végrehajtására, az Orosz Föderáció elnöke egy teljes bekezdést szentelt Kárpátalja sorsának Az oroszok és ukránok történelmi egységéről című esszéjében:

    Külön tárgyalom Kárpátalja sorsát, amely Ausztria-Magyarország összeomlása után Csehszlovákiához került. A helyi lakosság jelentős részét ruszinok alkották. Bár ma már ritkán emlékeznek rá, Kárpátalja szovjet csapatok általi felszabadítása után a terület ortodox lakosságának kongresszusa támogatta Kárpátalja beolvasztását az Orosz Szovjet Szövetségi Szocialista Köztársaságba, vagy közvetlenül a Szovjetunióba, mint különálló, kárpát-orosz köztársaságot.

    Putyin, 2021

    A régióban egy másik incidens során a lengyel szélsőjobboldali Falanga szervezet két tagja, akik orosz szeparatisták között tartózkodtak Kelet-Ukrajnában, 2018-ban felgyújtották az őshonos magyar etnolingvisztikai kisebbség kulturális központját Ungvár regionális fővárosában, benzinnel leöntve és Molotov-koktélt dobva rá (Górzyński, 2018).

    Egészség és biztonság

    Öngyilkossági hajlam

    Hatszor magasabb öngyilkossági arányt figyeltek meg azokban a közösségekben, ahol kevesebb mint a fele számolt be örökölt nyelvének társalgási szintű ismeretéről (Hallett et al., 2007, 398. o.). Pozitívumként megemlítendő, hogy a fiatalok öngyilkossági aránya nullára csökkent minden esetben, kivéve egyet, ahol a többség arról számolt be, hogy képes társalogni örökölt nyelvén (397. o.). Pezzia és Hernandez 2022-es tanulmányában azok, akik nem beszéltek folyékonyan örökölt nyelvet, de szüleik igen (95. o.), a legnagyobb valószínűséggel öngyilkossági gondolatokkal küzdöttek (98. o.). A nyelvvesztés és az öngyilkossági gondolatok közötti összefüggés magyarázataként Pezzia és Hernandez az „akkulturációs stresszt vagy társadalmi kirekesztést” javasolja, amely abból ered, hogy az etnikai csoport teljes jogú tagjaként való elfogadást megakadályozza a nyelv folyékony ismeretének hiánya (100. o.).

    Depresszió

    Az életkor, nem, iskolai végzettség, anyagi helyzet és etnikai csoporttagság kontrollálása után a kutatók megállapították, hogy az identitás elrejtése az örökölt nyelv nyilvános használatának elkerülésével (ezt nyelvi elkerülésnek nevezik) statisztikailag szignifikáns (p = 0.006) előrejelzője annak, hogy valaki „depressziósnak” minősíthető, ha Kroenke és Spitzer 9-es számú beteg-egészségügyi kérdőívén 5 vagy annál magasabb pontszámot ér el (Olko et al., 2023, 5–6. o.). Elméleti mechanizmusként a kutatók az etnikai diszkrimináció által kiváltott krónikus stresszt említették, amely a hipotalamusz-hipofízis-mellékvese tengely tartós hiperaktivitásához, és ebből eredő megnövekedett kortikotropin-felszabadító faktor és kortizol szinthez vezet, utalva Willner (2017), valamint Slavich és Irwin (2014) munkájára.

    Cukorbetegség

    A szocioökonómiai tényezők korrigálása után a diabetes mellitus szignifikánsan (p = 0.005) kevésbé volt elterjedt az őshonos nyelvtudással rendelkező közösségekben (Oster et al., 2014, 9. o.).

    Dohányfogyasztás

    Az angol nyelvhez jobban akkulturálódott állapot szignifikánsan összefüggésbe hozható a dohányzással az idősebb ázsiai-amerikai serdülők körében New York Cityben (Rosario-Sim & O’Connell, 2009). Egy másik tanulmányban az angol nyelv otthoni használata magasabb dohányzási prevalencia rátával járt együtt az ázsiai-amerikai fiatalok körében (p = 0.021), akárcsak a magas angol nyelvtudás (p = 0.040) (Chen et al., 1999, 325. o.). A spanyolajkú lányok körében azok, akik angolul beszéltek szüleikkel, többet dohányoztak, mint azok, akik angolul és spanyolul is beszéltek szüleikkel (p < 0.0001), valamint azok a lányok, akik spanyolul beszéltek szüleikkel (p < 0.01) (Epstein et al., 1998, 586. o.).

    Szerhasználat és támadás

    Az Ausztrál Statisztikai Hivatal (2011/2012) szerint a tizenöt és huszonnégy év közötti őslakos fiatalok, akik őshonos nyelvet beszéltek, kisebb valószínűséggel használtak illegális szereket (16% vs. 26%), kisebb valószínűséggel számoltak be mértéktelen alkoholfogyasztásról az előző két hétben (18% vs. 34%), és kisebb valószínűséggel váltak fizikai vagy fenyegető erőszak áldozatává az előző évben (25% vs. 37%).

    Eddigi megoldások

    Neurális mesterséges intelligencia

    A neurális gépi fordítás áttörése, amelyet egy nemzetközi csapat a Defense Advanced Research Projects Agency (DARPA) finanszírozásával a Broad Operational Language Translation (BOLT) projekt keretében (Cho et al., 2014), valamint a Google (Sutskever et al., 2014) ért el, olyan motorokat hozott létre, amelyek képesek az emberi teljesítménnyel egyenértékű minőségi pontszámokat elérni. A neurális motorok képzéséhez azonban több adatra van szükség, mint amennyi általában rendelkezésre áll az alacsony erőforrású nyelvek esetében.

    Szabályalapú gépi fordítás

    A múlt szabályalapú fordítómotorjait általában pénzpazarlásnak tekintették (Hajič et al., 2000, 7. o.), kivéve a prágai RUSLAN rendszert, amelyet a szovjet alapítású Kölcsönös Gazdasági Segítség Tanácsa (KGST) finanszírozott, és amely cseh-orosz fordításokat készített nagyszámítógépes operációs rendszerek dokumentációjához (7. o.), ahol öt mondatból kettő helyes volt, további kettő csak kisebb hibákat tartalmazott, és mindössze egy igényelt jelentős szerkesztést vagy újrafordítást (8. o.).

    A prágai, cseh-orosz szabályalapú rendszerek eredményeivel kapcsolatos nyilvánvaló csalódás fő okai az voltak, hogy maga a feladat túl bonyolult volt, és hogy a cseh és az orosz nyelv nem áll eléggé közel egymáshoz ahhoz, hogy egy ilyen megközelítés életképes legyen. A listához hozzáadhatók a valótlan elvárások és az objektív értékelési metrikák hiánya. Eközben a cseh nyelvről szlovákra és lengyelre történő fordítások eredményei, amelyek mind közelebbi nyugati szláv nyelvek, meglehetősen biztatóak voltak (Hajič et al., 2000, 12. o.).

    Hibrid neurális/szabályalapú gépi fordítás

    Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) konferencián bemutatott eredmények szerint egy szabályalapú lemkó-lengyel motort egy lengyel-angol szabályalapú motorral kombináltak, hogy elkészítsék a világ első publikált eredményeit a lemkó nyelvről angolra történő gépi fordításokhoz (Orynycz et al., 2021). A következő évben a fordított irányú fordításokat a rendszer módosításával és visszafelé futtatásával állították elő (Orynycz, 2022). Az adott motoron végrehajtott fejlesztések, annak felülvizsgálata és szókincsének bővítése később 35%-os fordítási minőségjavulást eredményeztek (Orynycz, 2023).

    Új megoldások

    Szabályalapú gépi fordítási szakértői rendszer

    Egy következtető motort kézzel kódoltak tesztvezérelt fejlesztés (TDD) segítségével, hogy tükrözze a szakterületi szakértők munkájával összeállított tudásbázisban található igazságokat. Ez a megközelítés lehetővé teszi a külföldi beavatkozások manuális kiküszöbölését és az orosz, valamint más jövevényszavak tisztítását is. A felhasznált szótárak között szerepelt Horoszczak kétirányú lengyel-lemkó szótára (2004), Pyrtej lemkó-ukrán szótára (2004), Duda ukrán-lemkó szótára (2011), és Rieger lemkó-lengyel szójegyzéke (1995), valamint a Bartne faluból származó felvételeken alapuló lemkó-lengyel szójegyzéke (2016). Fontański és Chomiak (2000), valamint Pyrtej (2013) nyelvtanait vették figyelembe a szavak nyelvtani kategóriák, például szám, eset és nem szerinti ragozására vonatkozó szabályok kódolásakor.

    Transzformer mesterséges intelligencia

    Az idegi gépi fordítás áttörését szorosan követte a Google Brain és a Google Research tudósai által bevezetett Transformer architektúra, amely kizárólag figyelmi mechanizmusokon alapul, és teljesen elhagyja a rekurrenciát és a konvolúciókat (Vaswani et al., 2017). Ehhez a kísérlethez transzformer alapú mesterséges intelligencia modelleket képeztünk ki lengyelről lemkó nyelvre történő fordításra, és tudomásunk szerint mi publikáljuk először az eredményeket.

    Anyagok és módszerek

    Anyag

    Adatok

    Mesterséges intelligencia modelleket hoztak létre egy 1 611 352 forrásszót (a Microsoft Word 365 szerint számolva) tartalmazó korpusz felhasználásával, 112 507 sorban, lengyel születésű lemkó anyanyelvűek által írva, valamint azok lengyel fordításaival együtt, amelyeket a Google Cloud Platform Translation Application Programming Interface (API) készített, úgy konfigurálva, hogy standard ukrán nyelvről fordítson idegi gépi fordítás segítségével.

    A lemkó nyelv (más néven lemkó-ruszin nyelv) genetikailag a délnyugati ukrán dialektusrendszerhez tartozik, amelyen belül a hangsúly rögzített az utolsó előtti (második utolsó) szótagra (Danylenko, 2020). Ezek a dialektusok őshonosak a jelenleg Lengyelország és 1993 óta a Szlovák Köztársaság igazgatása alatt álló területeken.

    A két világháború közötti Lengyelországban a kormány külön lemkó, hucul és bojkó identitásokat támogatott azzal a céllal, hogy ellensúlyozza az ukrán mozgalmat, amelynek tanárait elbocsátották (Moser, 2016b, 128. o.). 1935-ben az oroszbarát tanárokat lengyelek váltották fel, és a lemkó nyelvet végül 1937-ben eltávolították az iskolákból (128. o.). A lengyelországi lemkó nyelvűek mintegy kétharmadát 1945 és 1947 között Ukrajnába deportálták, a fennmaradó 40 000–50 000 főt pedig elsősorban a kommunista Lengyelország újonnan annektált, korábban német területeire telepítették át (131. o.). Lengyelország 2021-es népszámlálásának előzetes eredményei szerint 12 700-an jelölték meg a „lemkó” etnikumot (Główny Urząd Statystyczny, 2023, 3. o.).

    Módszerek

    Előfeldolgozás

    Először minden szöveget kisbetűssé alakítottunk. Ezután szóközt illesztettünk minden nem alfanumerikus karakter elé és mögé. Minden sor elejéről és végéről eltávolítottuk a felesleges szóközöket. Ezt követően a fenti korpuszt Moslem (2023a) szkriptjével dolgoztuk fel a párhuzamos adatkészletek tisztítására és szűrésére (commit db6f441), így 33 612 sor maradt, amely 610 990 forrásszót tartalmazott a Microsoft Word 365 számlálása szerint.

    Alszó-tokenizálás

    Unigram alszó-modelleket képeztünk ki Moslem (2021a) szkriptjével (commit fbf2488). Ezután ezeket a modelleket használtuk a forrás- és célnyelvi szöveg tokenizálására ugyanazon commit második alszó-szkriptjével (Moslem, 2021b).

    Adatfelosztás

    A fenti korpuszból 2 000 sort különítettünk el értékelésre Moslem (2023b) erre a célra készült szkriptjével (commit e6decb7).

    Mesterséges intelligencia modellek képzése

    Mesterséges intelligencia modelleket képeztünk ki az OpenNMT neurális gépi fordítási eszköztár TensorFlow verziójával, amely a Harvard seq2seq-attn szekvencia-szekvencia modelljének utódja figyelmi mechanizmussal (Klein et al., 2017, 68. o.). A képzési és értékelési ciklus indítására szolgáló parancsot a Transformer modell automatikus konfigurációjával indítottuk el. Az automatikus értékelést is engedélyeztük, és úgy állítottuk be, hogy 5 000 lépésenként fusson a kétnyelvű értékelési alvizsgálat (BLEU) metrika használatával, és exportáljon egy modellt, amikor új csúcspontot ért el. A képzést a Google Colabatory platformon végeztük, NVIDIA A100 grafikus feldolgozó egységeket és nagy véletlen hozzáférésű memória futásidejű állapotot használva. A képzésnek engedélyeztük, hogy éjszaka is fusson.

    Következtető motor

    Egy fordítási következtető motort készítettünk Klein Python kiszolgáló kliens szkriptje (commit 2b196ff) (2021) alapján, amelyet módosítottunk, hogy befogadja a forrás- és célnyelvi alszó-tokenizálási modelleket, valamint optimalizálja a szóközöket és a nagybetűs írást, hogy jobban megfeleljen a mesterséges intelligencia modellek és a végfelhasználók elvárásainak. A fordítási előrejelzéseket fájlba mentettük a későbbi minőségértékelés céljából.

    Minőségértékelés

    A fordítások minőségét olyan metrikák felhasználásával értékeltük, amelyek fejlesztését a DARPA finanszírozta: mind a BLEU (Papineni et al., 2002), mind a Translation Edit Rate (TER) (Snover et al., 2006). Magukat a pontszámokat az Amazon Research által Post (2018) által kifejlesztett iparági szabványos módszerekkel számítottuk ki.

    Eredmények

    Fordítási minőségi pontszámok

    A kísérleti szabályalapú szakértői rendszer minden más rendszert felülmúlt minden metrika szerint, amikor lengyelről lemkó nyelvre és fordítva fordított.

    Lengyel-lemkó fordítási minőség

    Lengyelről lemkó nyelvre történő fordításkor a kísérleti szakértői szabályalapú rendszer 29,49-es BLEU kétnyelvű értékelési alvizsgálati minőségi pontszámot ért el, ami 6,50-szer jobb, mint a Google Fordító ukrán szolgáltatása. Eközben a kísérleti mesterséges intelligencia Transformer idegi gépi fordítási rendszer 15,90-es BLEU pontszámot ért el 30 000 képzési lépés után, ami 3,50-szer jobb volt, mint a Google Fordító ukrán szolgáltatása. Az alternatív TER metrika használatával mérve a kísérleti szakértői, szabályalapú rendszer 53,73-as TER pontszámot ért el, ami 61%-kal jobb, mint a Google Fordító ukrán szolgáltatása.

    1. ábra. Lengyel-lemkó fordítási minőség: BLEU pontszámok
    2. ábra. Lengyel-lemkó fordítási minőség: TER pontszámok

    Lemkó-lengyel fordítási minőség

    A kísérleti, szabályalapú szakértői rendszer minden más rendszert felülmúlt minden metrika szerint, amikor lemkó nyelvről lengyelre fordított, 31,13-as BLEU kétnyelvű értékelési alvizsgálati minőségi pontszámot érve el, ami 1,4-szer jobb volt, mint a Google Fordító ukrán szolgáltatásának teljesítménye 22,16-os BLEU pontszámmal.

    Példák

    Angol jelentés (emberi fordító)Például a szövegekben, és én főleg szövegeket tanulmányozok, van egy forrásom, azt írták: az osztrákok gyilkoltak minket, akkor mit fognak tenni velünk azok a szörnyű moszkvaiak, akikkel megpróbálnak minket megijeszteni?
    Lengyel
    (emberi fordító)
    Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
    Igazság: lemkó referencia (anyanyelvi beszélő)І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат?I ony napryklad v tekstach, a ja holovni dosljidžam tekstŷ, to značŷt mam takie džerelo, pysaly: no Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ Moskalji, kotrŷma nas strašat?
    RendszerFordítási hipotézisekMinőségi pontszámok
    CirillÁtírásBLEUTER
    KísérletiSzakértői rendszer (szabályalapú)Наприклад они в текстах, а я головні бадам текстий, мам такы джерело, писали: Австриякы нас мордували, то што зроблят тоты страшны москале, котрыма нас страшом?Napryklad ony v tekstach, a ja holovni badam tekstyj, mam takŷ džerelo, pysaly: Avstryjakŷ nas morduvaly, to што zrobljat totŷ strašnŷ moskale, kotrŷma nas strašom?46.3234.48
    Mesterséges intelligencia (Transformer)Примірово, в текстах, а я головні в заміріню тексту, маме джерело, писали: австриякы австриякы мордували, же то што зроблят стабілизацию тому, котрыма нас престрашыли?Prymirovo, v tekstax, a ja holovni v zamirinju tekstu, mame džerelo, pysaly: avstryjakŷ avstryjakŷ morduvaly, že to što zrobljat stabilyzacyju tomu, kotrŷma nas prestrašŷly?27.6555.17
    Google FordítóLengyelНа прзиклад оні в текстах, а я ґлувнє бадам тексти, мам такє зьрудло, пісалі: Аустряци нас мордовалі, то цо зробьон ці страшні Москалє, ктуримі нас страшон?Na przyklad oni v tekstach, a ja gluvnje badam teksty, mam takje źrudlo, pisalji: Austriacy nas mordovalji, to co zrobjon ci strašni Moskalje, kturymi nas strašon?14.2168.97
    UkránНаприклад, у своїх текстах, а я в основному досліджую тексти, у мене є таке джерело, вони писали: Австрійці нас повбивали, що будуть робити ті страшні москалі, якими вони нам погрожують?Napryklad, u svojix tekstax, a ja v osnovnomu doslidžuju teksty, u mene je take džerelo, vony pysaly: Avstrijci nas povbyvaly, ščo budutʹ robyty ti strašni moskali, jakymy vony nam pohrožujutʹ?9.4382.76
    OroszНапример, в их текстах, а я в основном исследую тексты, у меня есть такой источник, они писали: Нас убили австрийцы, что будут делать те страшные москвичи, которыми они нам угрожают?Naprimer, v ix tekstax, a ja v osnovnom issleduju teksty, u menja estʹ takoj istočnik, oni pisali: Nas ubili avstrijcy, čto budut delatʹ te strašnye moskviči, kotorymi oni nam ugrožajut?9.4386.21
    BelaruszНапрыклад, у сваіх тэкстах, а я ў асноўным тэксты дасьледую, у мяне ёсьць такая крыніца, яны пісалі: Аўстрыйцы нас забілі, што будуць рабіць тыя страшныя маскалі, якімі яны нам пагражаюць?Napryklad, u svaix tèkstax, a ja ŭ asnoŭnym tèksty das′leduju, u mjane ës′c′ takaja krynica, jany pisali: Aŭstryjcy nas zabili, što buduc′ rabic′ tyja strašnyja maskali, jakimi jany nam pahražajuc′?4.9996.55
    1. táblázat. Példa lengyel-lemkó fordításokra

    Megbeszélés

    Politikai vonatkozások

    A tanulási, közegészségügyi és biztonsági eredmények javulhatnak, ha az oktatási, képzési, közösségi tájékoztató és egyéb anyagokat a nemzeti szabványos nyelvek mellett regionális dialektusokra és nyelvekre is lokalizálják. Az emberi erőforrás-kapacitások túlterhelésének elkerülése érdekében a nyelvészek feladata lehetne a szakértői és mesterséges intelligencia gépi fordítási rendszerek kimenetének utószerkesztése, szemben a kézi fordítással. A fordított anyagokhoz való megfizethetőbb hozzáférés javulást hozhat a szociális szolgáltatásokban az alulfejlett területeken. Stonewall et al. a többnyelvűséget, és ezáltal az inkluzivitást, előkelő helyen említik az alulfejlett népességek bevonására vonatkozó legjobb gyakorlatok listáján (2017). Az Európai Unió olyan kutatásokat finanszíroz, amelyek szerint a gépi fordítás felhasználható a polgári részvétel elősegítésére, valamint az alulfejlett közösségek közegészségügyének és biztonságának erősítésére (Nurminen & Koponen, 2020).

    Technológiai vonatkozások

    A kereskedelmileg életképes, gombnyomásra elérhető lemkó gépi fordítás megvalósulása jó úton halad. A szakértői, szabályalapú rendszerek folyamatos, tesztvezérelt fejlesztése úgy tűnik, a leggyorsabb utat kínálja az emberfeletti fordítási minőségi pontszámok eléréséhez. A transzformer alapú mesterséges intelligencia rendszerek hosszú távon győzhetnek.

    A mesterséges intelligencia képzési eljárásának bizonyos finomhangolásai kísérletezést érdemelnek. A korpuszszűrő szkript túlzottan buzgó lehetett ehhez a feladathoz, és túlságosan lecsökkentette a korpusz méretét, akadályozva a teljesítményt. A szkript kihagyható egy jövőbeli kísérletben. A túltanulás ronthatja a pontszámokat, és talán az 5000 lépéses értékelési intervallumot is rövidíteni kellene. A szakértői szabályalapú rendszer használata a korpuszok lemkó nyelvről lengyelre történő fordítására a Google Cloud Platform szolgáltatás helyett jobb eredményeket hozhat. Az automatikus helyesírás-ellenőrző modulok beépítése globálisan is javíthatja a pontszámokat.

    Az orosz és más idegen nyelvi interferencia programozottan ellensúlyozható lenne a jövevényszavak keresés-csere algoritmusokkal történő tisztításával. A nemzeti nyelvi akadémiák és más hatóságok hasznosnak találhatják az ilyen képességeket. Lehetséges, hogy a fordítási minőség már elérte a szuperhumán szintet, ami egy olyan hipotézis, amelyet jövőbeli kísérletekben tesztelni lehetne.

    Érdekellentétek nyilatkozata

    A fő szerző minőségellenőrzési specialistaként dolgozik a Google Fordító San Franciscó-i projektjében.

    Hivatkozások

    2. Európai [sic] Kárpátaljai [sic] Ruszin Kongresszus [rusin]. (2008. október 25.).MEMORANDUM 2-go Evropejskogo Kongressa Podkarpatskix Rusinov o prinjatii AKTA PROVOZGLAŠENIJA vosstanovlenija rusinskoj gosudarstvennosti [A Kárpátaljai Ruszinok Második Európai Kongresszusának memorandumja a Ruszin Államiság Helyreállításáról szóló Kiáltvány elfogadásáról] [Online fórumbejegyzés]. Kárpátaljai Ruszinok Információs Ügynöksége. IAPR. Kárpátaljai Ruszinok Fóruma.
    http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832

    Ausztrál Statisztikai Hivatal, (2012). Kultúra, örökség és szabadidő: Aborigin és Torres-szigeteki nyelvek beszélése. Aborigin és Torres-szigeteki jólét: Fókuszban a gyermekek és fiatalok. (Eredeti mű megjelent: 2011) Letöltve: 2023. május 1., innen: https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC

    Baquero, A., Hall, K.G., Tsogoeva, A., Albalat, J.G., Grozev, C., Bagnoli, L., IStories, & Vergine, S. (2022. május 8.). Szeparatizmus szítása, Bitcoin ígéretek: Hogyan sürgetett egy orosz ügynök katalán vezetőket, hogy szakítsanak Madriddal. Szervezett Bűnözés és Korrupció Jelentési Projekt (OCCRP). https://www.occrp.org/en/investigations/fueling-secession-promising-bitcoins-how-a-russian-operator-urged-catalonian-leaders-to-break-with-madrid

    Brunet, F. (2022). A katalán szeparatizmus gazdaságtana. Cham: Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-14451-6

    Chen, X., Unger, J.B., Cruz, T.B., & Johnson, C.A. (1999). Ázsiai-amerikai fiatalok dohányzási szokásai Kaliforniában és kapcsolatuk az akkulturációval. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9

    Cho, K., van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Kifejezésreprezentációk tanulása RNN kódoló-dekódolóval statisztikai gépi fordításhoz. A 2014-es Természetes Nyelvfeldolgozás Empirikus Módszereinek Konferenciájának (EMNLP) Előadásai, 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179

    Danylenko, A. (2020). „Kárpát-ruszin”, ben: A szláv nyelvek és nyelvészet online enciklopédiája, főszerkesztő: Marc L. Greenberg. Online megtekintve: 2023. június 13.
    http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960

    Külügyminisztérium (2003). S.Prt. 108-30, I. kötet – ORSZÁGOS JELENTÉSEK AZ EMBERI JOGI GYAKORLATOKRÓL 2002-RE, I. KÖTET. Washington, D.C.: U.S. Government Publishing Office. https://www.govinfo.gov/app/details/CPRT-108JPRT86917/CPRT-108JPRT86917

    Duda, I. (2011). Lemkivsʹkyj slovnyk [Lemkó szótár]. Ternopil: Aston.

    Epstein, J. A., Botvin, G.J., & Diaz, T. (1998). Nyelvi akkulturáció és nemi hatások a dohányzásra a spanyolajkú fiatalok körében. Preventive medicine, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329

    Fontański, H., & Chomiak, M. (2000). Gramatyka języka łemkowskiego [A lemkó nyelv nyelvtana]. Katowice: „Śląsk” Sp. z o.o. Wydawnictwo Naukowe.

    Główny Urząd Statystyczny (2023). Wstępne wyniki NSP 2021 w zakresie struktury narodowo-etnicznej oraz języka kontaktów domowych [A 2021-es népszámlálás előzetes eredményei a nemzeti és etnikai szerkezet, valamint az otthon használt nyelv tekintetében]. Letöltve: 2023. június 11., innen: https://stat.gov.pl/spisy-powszechne/nsp-2021/nsp-2021-wyniki-wstepne/wstepne-wyniki-narodowego-spisu-powszechnego-ludnosci-i-mieszkan-2021-w-zakresie-struktury-narodowo-etnicznej-oraz-jezyka-kontaktow-domowych,10,1.html

    Górzyński, O. (2018. március 3.). Oroszország titkos kampánya Kelet-Európa felgyújtására. The Daily Beast. https://www.thedailybeast.com/russias-covert-campaign-inflaming-east-europe

    Hajič, J., Hric, J., & Kuboň, V. (2000. április). Nagyon közeli nyelvek gépi fordítása. In Hatodik Alkalmazott Természetes Nyelvfeldolgozási Konferencia (7–12. o.). http://dx.doi.org/10.3115/974147.974149

    Hallett, D., Chandler, M.J., & Lalonde C.E. (2007): Aborigin nyelvtudás és ifjúsági öngyilkosság. Kognitív Fejlődés. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001

    Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemkó-lengyel és lengyel-lemkó szótár], Warszawa: Rutenika.

    Klein, G. (2021). Következtetés TensorFlow Servinggel. Letöltve: 2023. június 5., innen: https://github.com/OpenNMT/OpenNMT-tf/blob/master/examples/serving/tensorflow_serving/ende_client.py

    Klein, G., Kim, Y., Deng, Y., Senellart, J., & Rush, A.M. (2017). OpenNMT: Nyílt forráskódú eszköztár neurális gépi fordításhoz. In A Számítógépes Nyelvészet Szövetségének 55. Éves Találkozójának Előadásai – Rendszerbemutatók, 67–72. o. https://doi.org/10.18653/v1/P17-4012

    Krauss, M. (1992). A világ nyelvei válságban. Language, 68(1), 4–11. https://doi.org/10.1353/lan.1992.0075

    Malik-Moraleda, S., Jouravlev, O., Mineroff, Z., Cucu, T., Taliaferro, M., Mahowald, K., Blank, I., & Fedorenko, E. Poligloták és hiperpoligloták nyelvi hálózatának funkcionális jellemzése precíziós fMRI-vel. Cold Spring Harbor Laboratory. Előzetes online publikáció. https://doi.org/10.1101/2023.01.19.524657

    Mesa, N. (2023. február 3.). Anyanyelved különleges helyet foglal el az agyadban, még akkor is, ha 10 nyelven beszélsz. Science, https://doi.org/10.1126/science.adh0055

    Miller, H., & Miller, K. (1996). Nyelvpolitika és identitás: a katalán eset. International Studies in Sociology of Education, 6(1). https://doi.org/10.1080/0962021960060106

    Moser, M. (2016a). Nyelvpolitika a kortárs Ukrajnában (2010. február 25. – 2011. február 25.). In Új hozzájárulások az ukrán nyelv történetéhez (601–619. o.). Canadian Institute of Ukrainian Studies Press. https://www.ciuspress.com/product/new-contributions-to-the-history-of-the-ukrainian-language/

    Moser, M. (2016b). Ruszin: Egy új-régi nyelv nemzetek és államok között. In: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (szerk.), The Palgrave Handbook of Slavic Languages, Identities and Borders, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7

    Moslem, Y. (2021a). SentencePiece modellek képzése a forrás- és célszöveghez. Letöltve: 2023. június 4., innen: https://github.com/ymoslem/MT-Preparation/blob/main/subwording/1-train_unigram.py

    Moslem, Y. (2021b). A forrás- és célszöveg fájlok szubszavazása. Letöltve: 2023. június 4., innen: https://github.com/ymoslem/MT-Preparation/blob/main/subwording/2-subword.py

    Moslem, Y. (2023a). Párhuzamos adathalmazok szűrése/tisztítása gépi fordításhoz. Letöltve: 2023. június 4., innen: https://github.com/ymoslem/MT-Preparation/blob/main/filtering/filter.py

    Moslem, Y. (2023b). A párhuzamos adathalmaz felosztása képzési, fejlesztési és tesztelési adathalmazokra gépi fordításhoz. Letöltve: 2023. június 4., innen:
    https://github.com/ymoslem/MT-Preparation/blob/main/train_dev_split/train_dev_test_split.py

    Nurminen, M., & Koponen, M. (2020). Gépi fordítás és méltányos hozzáférés az információhoz. Translation Spaces, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur

    Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): A hátrányos helyzet spirálja: Etnolingvisztikai diszkrimináció, akkulturációs stressz és egészség a mexikói Nahua őslakos közösségekben. American Journal of Biological Anthropology, 1–15. https://doi.org/10.1002/ajpa.24745

    Orynycz, P. (2022, május). Mondd jól: AI idegi gépi fordítás segíti az új beszélőket a lemkó nyelv újjáélesztésében. In Mesterséges intelligencia az HCI-ban: 3. Nemzetközi Konferencia, AI-HCI 2022, a 24. HCI Nemzetközi Konferencia, HCII 2022 részeként megrendezve, Virtuális esemény, 2022. június 26. – július 1., Előadások (pp. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37

    Orynycz, P. (2023, július). BLEU kilátások a veszélyeztetett nyelvek újjáélesztéséért: a lemkó-ruszin és ukrán neurális MI fordítási pontosság szárnyal. In Nemzetközi Ember-Számítógép Interakció Konferencia (pp. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10

    Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) előadásai. https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Kulturális folytonosság, hagyományos őslakos nyelv és cukorbetegség az Albertai Első Nemzetek körében: vegyes módszertanú tanulmány. International Journal for Equity in Health, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4

    Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, július). BLEU: módszer a gépi fordítás automatikus értékelésére. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311–318). https://doi.org/10.3115/1073083.1073135

    Pezzia, C., & Hernandez, L.M. (2022). Öngyilkossági gondolatok egy etnikailag vegyes, guatemalai hegyvidéki közösségben. Transcultural Psychiatry. 59(1), 93–105. https://doi.org/10.1177/1363461520976930

    Post, M. (2018). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. In Proceedings of the Third Conference on Machine Translation: Research Papers, pp. 186–191. Brussels: Association for Computational Linguistics http://dx.doi.org/10.18653/v1/W18-6319

    Putin, V. Ob istoričeskom edinstve russkix i ukraincev [Az oroszok és ukránok történelmi egységéről]. Letöltve: 2023. május 15., innen: http://kremlin.ru/events/president/news/66181

    Pyrtej, P. (2004). Korotkyj slovnyk lemkivsʹkyx hovirok [A lemkó dialektusok rövid szótára]. Ivano-Frankivsʹk: Siversija MB.

    Pyrtej, P. (2013). Lemkivsʹki hovirky. Fonetyka i morfolohija [A lemkó dialektusok. Fonetika és morfológia]. Gorlice: Zjednoczenie Łemków.

    Rating, (2012). Pytannja movy: rezulʹtaty ostannix doslidženʹ 2012 roku [A nyelvi kérdés: A legújabb kutatások eredményei 2012-ben]. Letöltve: 2023. augusztus 26., innen: https://ratinggroup.ua/files/ratinggroup/reg_files/rg_mova_dynamika_052012.pdf

    Rieger, J. (1995). Słownictwo i nazewnictwo łemkowskie [Lemkó szókincs és nómenklatúra]. Warszawa: Wydawnictwo Naukowe Semper.

    Rieger, J. (2016). Mały słownik łemkowkiej wsi Bartne [Bartne lemkó falu kis szótára]. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego.

    Rosario-Sim, M.G., & O’Connell K.A. (2009). A depresszió és a nyelvi akkulturáció összefüggése a dohányzással az idősebb ázsiai-amerikai serdülők körében New York Cityben. Public Health Nursing 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x

    Schwirtz, M., & Bautista, J. (2023, szeptember 23) Házas Kreml-kémek, egy árnyékos moszkvai küldetés és zavargások Katalóniában. The New York Times. Letöltve: 2023. május 16., innen: https://www.nytimes.com/2021/09/03/world/europe/spain-catalonia-russia.html

    Simmons, G.F., & Lewis, M.P. (2013). A világ nyelvei válságban: 20 éves frissítés. In E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (Eds.), Válaszok a nyelvi veszélyeztetettségre: Mickey Noonan tiszteletére. Új irányok a nyelvi dokumentációban és nyelvi revitalizációban (pp. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim

    Slavich, G.M., & Irwin, M.R. (2014). A stressztől a gyulladásig és a súlyos depressziós rendellenességig: a depresszió szociális jelátviteli elmélete. Psychological Bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302

    Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, (pp. 223–231). https://aclanthology.org/2006.amta-papers.25

    Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). Az oktatás nyelvének hatása az iskolákban a diákok teljesítményére: Bizonyítékok Malajziából a szintetikus kontroll módszer alkalmazásával. World Bank Group Policy Research Working Paper 9517. http://hdl.handle.net/10986/35031

    Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, szeptember). Bevált gyakorlatok az alulreprezentált népességek bevonására. In Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Vol. 61, No. 1, pp. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516

    Sutskever, I., Vinyals, O., & Le, Q.V. (2014). Szekvencia-szekvencia tanulás neurális hálózatokkal. Advances in Neural Information Processing Systems 27 (NIPS 2014). https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html

    Ukrajinsʹke nacionalʹne objednannja (2009). Zakarpatsʹke UNO obicjaje vlasnymy sylamy protydijaty separatystam [Kárpátaljai Ukrán Nemzeti Szervezet ígéretet tesz, hogy saját erővel száll szembe a szeparatistákkal május 1-jén] Letöltve: 2023. június 10., innen: https://zaxid.net/zakarpatske_uno_obitsyaye_vlasnimi_silami_protidiyati_separatistam_1_travnya_n1076607

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). A figyelem minden, amire szükséged van. NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349

    White, D.J., & Overdeer, D. (2020). Az etnikai hovatartozás kihasználása az orosz hibrid fenyegetésekben. Strategos: Scientific journal of the Croatian Defence Academy 4(1), 31–49. https://hrcak.srce.hr/242087

    Wiktorek, A.C. (2010). Kárpátaljai ruszinok: Az identitás versengő napirendjei. Washington, D.C.: Georgetown University. https://repository.library.georgetown.edu/handle/10822/552816

    Willner, P. (2017). A krónikus enyhe stressz (CMS) depresszió modellje: Története, értékelése és használata. Neurobiology of Stress, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002

  • Mondd jól: A mesterséges intelligencia neurális gépi fordítás új hangszórókat tesz képessé a lemkó újjáélesztésére (2022)

    Mondd jól: A mesterséges intelligencia neurális gépi fordítás új hangszórókat tesz képessé a lemkó újjáélesztésére (2022)

    Absztrakt

    A mesterséges intelligencia által működtetett neurális gépi fordítás hamarosan újjáélesztheti a veszélyeztetett nyelveket azáltal, hogy felhatalmazza az új beszélőket a valós idejű kommunikációra, olyan mondatok használatával, amelyek számszerűsíthetően közelebb állnak az irodalmi normához, mint az anyanyelvi beszélőké, és a nyelvi visszaszerzésük első napjától kezdve. Míg a Szilícium-völgy hatalmas erőforrásokat fektetett a neurális fordítási technológiába, amely emberfeletti sebességre és pontosságra képes a világ legszélesebb körben használt nyelvei esetében, addig 98%-uk lemaradt, korpuszok hiánya miatt: a neurális gépi fordítási modellek több millió szavas kétnyelvű szövegen alapulnak, amelyek egyszerűen nem léteznek a legtöbb nyelv esetében, és nyelvénként több mint százezer amerikai dollárba kerül az összeállításuk.

    Az alacsony erőforrású nyelvek esetében létezik egy leleményesebb, ha nem hatékonyabb megközelítés: az átviteli tanulás, amely lehetővé teszi az alacsonyabb erőforrású nyelvek számára, hogy profitáljanak a magasabb erőforrású nyelvek eredményeiből. Ebben a kísérletben a Google angol-lengyel neurális fordítási szolgáltatását párosították a klasszikus, szabályalapú motorommal, hogy angolról a veszélyeztetett, alacsony erőforrású, kelet-szláv lemkó nyelvre fordítsanak. A rendszer 6,28-as kétnyelvű értékelési alvizsgálati (BLEU) minőségi pontszámot ért el, ami többszörösen jobb, mint a Google Fordító angol-standard ukrán (BLEU 2,17), orosz (BLEU 1,10) és lengyel (BLEU 1,70) szolgáltatásai. Végül ennek a kísérletnek az eredménye, a világ első angol-lemkó fordítási szolgáltatása elérhetővé vált a www.LemkoTran.com webcímen, hogy felhatalmazza az új beszélőket nyelvük újjáélesztésére.

    Az új beszélők kulcsfontosságúak a nyelv újjáélesztésében, és a lemkó nyelven való „Mondd jól” képessége most már a kezükben van.

    Kulcsszavak: Emberközpontú AI, Nyelvújraélesztés, Lemkó.

    Kérem, így hivatkozzon: Orynycz, P. (2022). Mondd jól: AI idegi gépi fordítás segíti az új beszélőket a lemkó nyelv újjáélesztésében. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia az HCI-ben. HCII 2022. Lecture Notes in Computer Science, 13336. kötet. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    1 Bevezetés

    1.1. Problémák

    Ez a kísérlet célja, hogy helyi szinten hozzájáruljon a nyelvi veszteség globális kihívásához, amely naponta egy nyelv eltűnésével járhat, és tízből mindössze egy nyelv marad fenn [1, p. 1329]. A sajtó idején az SIL International Ethnologue című kiadványa Lewis és Simons 2010-es kiterjesztett, fokozatos intergenerációs zavar skáláját használja annak becslésére, hogy 3018 nyelv veszélyeztetett [2], ami a sajtó idején a Nemzetközi Szabványügyi Szervezet ISO 639-3 szabványában [3] számon tartott 7001 egyedi élő nyelv 43%-a. Eközben a Google Fordító csak 108 [4], a Facebook pedig 112 [5] nyelvet támogat, ami már egy kezdet. Mindazonáltal egy nyelvvel kevesebb van most alulreprezentálva, mivel e kísérlet eredményét egy webszerverre telepítették nyilvános fordítási szolgáltatásként.

    Új mesterséges intelligencia technológiák kecsegtetnek azzal az ígérettel, hogy ember-számítógép interakcióval azonnal kompenzálják a nyelvi veszteséget. Előző kísérletemben a következő generációs neurális motorok magasabb minőségi pontszámokat értek el orosz és lengyel nyelvről angolra fordítva, mint az emberi kontroll [6, p. 9]. Eközben a Facebook és a Google1 hatalmas erőforrásokat fektetett abba, hogy emberi teljesítményt felülmúló automatikus fordítási rendszereket biztosítson a fogyasztók számára nulla költséggel.

    1 Nyilatkozat: Fizetett orosz, lengyel és ukrán nyelvészként, valamint fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben; a központ San Franciscóban található.

    Az emberfeletti mesterséges intelligencia nem olcsó: a neurális nyelvi modellek képzéséhez kétnyelvű korpuszokra van szükség, amelyek szószámuk százezrekben, ideális esetben milliókban mérhető, ami több százezer dollárba kerülne lefordítani, olyan összegekbe, amelyek meghaladják a legtöbb alacsony erőforrású nyelvi közösség lehetőségeit. Szerencsére ez a kísérlet azt mutatja, hogy vannak találékonyabb és hatékonyabb módok a veszélyeztetett nyelvek újjáélesztését célzó fordítási segédeszközök létrehozásának kihívására.

    1.2 Eddigi munka

    Én építettem a világ első lemkó-angol gépi fordítási rendszerét, és nyilvánosan elérhetővé tettem. Objektív fordítási minőségi pontszámai javultak: a motor 2021 nyarán 14,57-es BLEU (bilingual evaluation understudy) pontszámot ért el, amelyet a Nemzeti Védelmi Ipari Szövetség Szolgálatközi/Ipari Képzési, Szimulációs és Oktatási Konferenciáján mutattak be szakembereknek, és közzétettek annak kiadványaiban [6]. Referenciaként én 28,66-os BLEU pontszámot értem el emberi fordítóként, terepi körülmények között dolgozva, elzárva a külvilágtól. 2021 őszére a motor elérte a 15,74-es BLEU pontszámot, amiről a Pittsburghi Egyetem által szervezett bemutató eseményen számoltak be nyelvészeknek, akadémikusoknak és a szélesebb közösségnek.2

    2 Nyilatkozat: az eseményt a Kárpát-Ruszin Társaság (Pennsylvania) támogatta, és a Pittsburghi Egyetem fizetett a prezentációmért.

    1.3 Vizsgált rendszer

    A lemkó nyelv határozottan súlyosan veszélyeztetett [6, p. 3, 7, pp. 177-178], alacsony erőforrású [8], hivatalosan elismert kisebbségi nyelv [9], amely feltehetően a Krakkó, Tarnów és Rzeszów nagyvárosi területektől délre fekvő, határokon átnyúló hegyvidékek őshonos nyelve; a történelmi elhatároló izoglosszák remélhetőleg egy jövőbeli tanulmány témái lesznek. Lengyelország népszámlálási hivatala 2011-ben 6279 lakost számlált, akik számára a lemkó volt az „általában otthon használt” nyelv (még ha a lengyel mellett is) [10, p. 3], ami 12%-os növekedést jelent a 2002-es 5605 főhöz képest, akik számára a lemkó volt a „leggyakrabban otthon beszélt” nyelv [11, p. 6, 12, p. 7]. A sajtó idején egy új számlálás eredményeit dolgozzák fel.

    A lemkó keleti szláv nyelvként osztályozható, mivel megfelel a szokásos genetikai szerkezeti jellemzők kritériumainak, amelyek közül a legjelentősebb a pleofónia [13, 20. o.], amely szerint egy magánhangzó keletkezett az ős-szláv mássalhangzó-sorozatokban C amelyet közép- vagy mély magánhangzó követ V (*e, vagy *o, amellyel *a összeolvadt [14, p. 366]), amelyet folyékony R követ (azaz, *l vagy *r), amelyet egy másik mássalhangzó követ C, azaz CVRC > CVRVC. Illusztrációként hasonlítsa össze az óangol „olvad” szót, a meltan (CVRC) [15, 718. o.] feltételezett lemkó rokonával, a mołódyj [16, 92. o., 17, 150. o.] (CVRC) szóval, ami „fiatal”-t jelent. Más keleti szláv rokon szavak közé tartozik az ukrán mołodýj és az orosz mołodój [17], mindkettő magánhangzót mutat a likvida után (CVRVC). Eközben a nyugati szláv nyelvekben hiányzik a magánhangzó a likvida előtt; hasonlítsa össze a lengyel młody és a szlovák mladý szavakat (mindkettő CRVC) [17]. Továbbá, rokonságot feltételeztek más, „enyhe” jelentésű szavak esetében is, beleértve a szanszkrit mṛdú (CRC) [18, p. 830] és a latin mollis (CVRC ha a *moldvis szóból ered) [15, 17, 19, p. 323].

    Azt, hogy a lemkó mennyire felel meg a szokásos, modern ukrán genetikai szerkezeti jellemzők kritériumainak, ebben a kísérletben nem értékelték. Azonban a lemkó és a standard ukrán közötti hasonlóságot számszerűsítették, tudomásom szerint először nyomtatásban. Alább a lemkó motorom 6,28-as BLEU pontszámot ért el, ami közel háromszorosa a Google Translate ukrán szolgáltatásának 2,17-es BLEU pontszámának. További kísérleteket lehetne végezni a lemkó, a standard ukrán, a lengyel és a Szlovákiában kodifikált ruszin közötti hasonlóság számszerűsítésére, valamint a lemkó tipológiai osztályozásának új megközelítésére.

    Az erőforrások mennyisége és minősége javult, ahogy a technológia által megerősített találékonyság is. Az összes ismert kétnyelvű korpuszt, amely kevesebb mint hetvenezer lemkó szót tartalmazott, összegyűjtötték ehhez a kísérlethez. Tisztítottam egy kétnyelvű korpuszt, amely Lengyelországban anyanyelvi beszélőkkel készített interjúk átiratait és az azokról készült angol fordításaimat tartalmazta, amelyeket egy amerikai ügyfél fizetett ki nekem, és engedélyezte a felhasználásukat. Monolingvális korpuszokat is összeállítok, amelyek a sajtó megjelenésekor összesen 534 512 szót tesznek ki.

    1.4 Hipotézis

    Az én szubjektív benyomásom alapján, mint professzionális fordító, hogy a Lengyelországban megkérdezett lemkó anyanyelvűek nagyobb valószínűséggel használtak nyilvánvaló lengyel rokon szavakat, mint standard ukránokat, azt feltételeztem, hogy minden más tényező egyenlő feltételezése mellett egy gép konfigurálható lenne angolról lemkóra történő fordításra, és magasabb BLEU objektív minőségi pontszámokat érhetne el, mint a Google Translate ukrán és orosz szolgáltatásai.

    1.5 Előrejelzések

    Lemkó Fordítási Rendszer. Azt jósoltam, hogy az említett fordítási rendszer 15-ös BLEU pontszámot ér el angolról lemkóra fordítva a kétnyelvű korpusz alapján.

    Google Fordító.

    Angol-ukrán szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-ukrán szolgáltatása 10-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.

    Angol-orosz szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-orosz szolgáltatása 1-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.

    1.6 Módszerek és indoklás

    A sebesség, az erőforrás-megőrzés és a robusztusság érdekében egy, a munkáltatóm által elavultnak ítélt laptop számítógépet konfiguráltak lemkóra történő fordításra és hívások kezdeményezésére a Google Cloud Platform Google Translate szolgáltatásához, valamint konfigurálták az említett fordítások értékelésére az iparági szabvány BLEU metrika segítségével.

    1.7 Fő eredmények

    Az angol-lemkó fordítási rendszer kumulatív BLEU pontszáma 6.28431824990417 volt. Eközben a Google Translate ukrán szolgáltatása 2.16830846776652 BLEU pontszámot ért el, orosz szolgáltatása 1.10424105952048 BLEU pontszámot, és a cirill ábécére átírt lengyel kontroll 1.70036447680114 BLEU pontszámot.

    2 Anyagok és módszerek

    A fenti hipotézist úgy tesztelték, hogy kiszámították a BLEU minőségi pontszámokat az alább részletezett módon beállított fordítórendszerek mindegyikére.

    2.1 Beállítás

    Hardver. A kísérletet egy HP Elitebook 850 G2 laptopon végezték, amely Core i7-5600U 2.6GHz processzorral és 16 gigabájt véletlen hozzáférésű memóriával rendelkezett. A munkáltatóm elavultnak ítélte és a sajtó idején 450 USD-ért hirdették eladásra.

    Konfiguráció. Az alapvető bemeneti/kimeneti rendszer (BIOS) menüjében az eszközt úgy konfigurálták, hogy engedélyezze a virtualizációs technológiát (VTx).

    Operációs rendszer. Windows 10 Professional 64 bit volt telepítve csupasz fémre. Biztosították, hogy a Virtual Machine Platform és Windows Subsystem for Linux Windows funkciók engedélyezve legyenek. Ezután telepítették a WSL2 Linux kernel update for x64 gépeket (wsl_update_x64.msi), amelyek a Microsofttól https://aka.ms/wsl2kernel címen érhetők el.

    Szoftver. A Docker Desktop for Windows 4.4.3 (73365) verziójú telepítőjét letöltötték a https://www.docker.com/get-started címről, és futtatták a Install required Windows components for WSL 2 selected opcióval.

    Csomagok. A kísérlet az alábbi Python Package Index csomagokra támaszkodott.

    SacreBLEU. A 2.0.0-s verziót a következő univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették:
    https://pypi.org/project/sacrebleu/2.0.0/

    Google Cloud Translation API klienskönyvtár. A 2.0.1-es verziót az univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették https://pypi.org/project/google-cloud-translate/2.0.1/

    A fenti függőségeket a követelmények fájlban a következőképpen adták meg:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Konténer.

    Építés. A kísérletet egy Docker konténerben futtatták, amely a Python programozási nyelv legújabb verzióját (akkoriban 3.10.2-es verzió) tartalmazta, Debian Bullseye 11 Linux operációs rendszeren, AMD64 architektúrán, a Secure Hash Algorithm 2 rövidített kivonatával bcb158d5ddb6, amely a következő paranccsal szerezhető be:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Futtatás. A konténert úgy konfigurálták, hogy a nyers kísérleti adatfájlokat egy helyi, csatlakoztatott kötetre mentse.

    Fordítási minőség pontozása.
    A fordítási minőségi pontszámokat a BLEU metrika szerint számították ki a SacreBLEU eszköz 2.0.0-s verziójával, amelyet Post [20] talált fel.

    Kis- és nagybetű érzékenység. Az értékelést kis- és nagybetű érzékeny módon végezték.

    Tokenizálás. A szegmenseket a Statisztikai Gépi Fordítás Műhely szabványos pontozási szkript metrika belső tokenizálási eljárásának 13a verziójával tokenizálták.

    Simítási módszer. Az Egyesült Államok szövetségi kormányzati alkalmazottai által a National Institute of Standards and Technology-nál a Multimodális Információs Csoport BLEU eszközkészletéhez kifejlesztett simítási technikát, amely Chen és Cherry [21, p. 363] által leírt harmadik technika, alapértelmezés szerint alkalmazták.

    Aláírás. A fenti beállítások a következő aláírást eredményezték:
    n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Kalibrálás. A fentiek szerint konfigurálva a gép a következő kimenetet produkálja:

    1031. szegmens.
    Angol forrásEverything was there.
    Lemkó hivatkozás és átírásВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipotézis és átírásВшытко там было.Všŷtko tam bŷlo.
    PontszámBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Magyarázat. A hipotézis szegmens azonos volt a referencia szegmenssel, és a gép tökéletes, 100-as BLEU pontszámot ért el.

    179. szegmens.
    Angol forrásI don't remember what year.
    Lemkó hivatkozás és átírásНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hipotézis és átírásНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    PontszámBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Magyarázat. A hipotézis két karakterrel különbözött a referenciától. A gép rosszul fordította a tagadó igekötőt, a „nem” (ni) szót használta a várt „nem” (ne) szó helyett. Ezt azóta nagyrészt kijavították. A gép vesszőt is tett a pamjatam után, ami azt jelenti, hogy „emlékszem”. Ez 100-ról 43,47-re csökkentette a pontszámot, ami egyébként tökéletes lett volna.

    Kontroll. Mivel a korpusz Lengyelországban készített interjúkon alapul, a lengyel fordításokat használták kontrollként. Ezeket cirill ábécére írták át, megfordítva a lengyel Belügyminisztérium által a lemkó nevek átírására vonatkozó szabályokat [22, 6564. o.]. A lengyel nazális magánhangzókat magánhangzóra és nazális zárhangra bontották, kivéve az approximánsok előtt, ahol közvetlenül denazalizálták őket. Szó végén az elülső nazális magánhangzó /ę/ egyszerűen denazalizálódott, a hátsó /ą/ pedig úgy íródott át, mintha egy dentális zárhang követné.

    3 Eredmények

    A nyilvánosan elérhető motor a www.LemkoTran.com címen az első helyet szerezte meg 6,28-as kumulatív fordítási minőségi pontszámmal, ami közel háromszorosa a második helyezett, a Google Fordító angol-ukrán szolgáltatásának (BLEU 2,17) pontszámának. Ezután következett az angol-lengyel szolgáltatása (BLEU 1,70), az angol-orosz szolgáltatása pedig az utolsó helyen végzett (BLEU 1,10).

    1. táblázat. Angol-lemkó fordítási minőség: LemkoTran.com kontra Google Translate

    3.1 Eredmények gépi fordítási szolgáltatás szerint

    Kontroll. Cirill betűkre átírva a Google Fordító standard lengyel fordításai 1,70-es korpuszszintű BLEU pontszámot értek el. Teljesítményének mintái a következők:

    2174. szegmens.
    Angol forrásWe had still been in Izby, right.
    Lemkó hivatkozás és átírásТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Lengyel hipotézis és átírásБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    PontszámBLEU = 46.20
    854. szegmens.
    Angol forrásAnd that's what it's all about.
    Lemkó hivatkozás és átírásІ о то ходит.I o to chodyt.
    Lengyel hipotézis és átírásІ о то власьнє ходзі.I o to właśnie chodzi.
    PontszámBLEU = 32.47
    217. szegmens.
    Angol forrásAnd that's what it's all about.
    Lemkó hivatkozás és átírásТак мі повіл.Tak mi povil.
    Lengyel hipotézis és átírásТак мі повєдзял.Tak mi powiedział.
    PontszámBLEU = 35.36

    Hibrid angol-lemkó motor. A nyilvánosan elérhető motor a www.LemkoTran.com URL-en 6,28-as korpuszszintű BLEU pontszámot ért el.

    1031. szegmens.
    Angol forrásEverything was there.
    Lemkó hivatkozás és átírásВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipotézis és átírásВшытко там было.Všŷtko tam bŷlo.
    PontszámBLEU = 100.00
    1445. szegmens.
    Angol forrásBut that officer took that medal and said,
    Lemkó hivatkozás és átírásАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hipotézis és átírásАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    PontszámBLEU = 75.06
    217. szegmens.
    Angol forrásThat's what he said to me.
    Lemkó hivatkozás és átírásТак мі повіл.Tak mi povil.
    Lemkotran.com hipotézis és átírásТак мі повіл.Tak mi povil.
    PontszámBLEU = 100.00

    Ukrán. A Google Fordító standard ukrán nyelvre fordított szövegei korpuszszintű BLEU-pontszáma 2,35 volt.

    2419. szegmens.
    Angol forrásWhere and when?
    Lemkó hivatkozás és átírásДе і коли?De i koly?
    Ukrán hipotézis és átírásДе і коли?De i koly?
    PontszámBLEU = 100.00
    1096. szegmens.
    Angol forrásWe were there for three months.
    Lemkó hivatkozás és átírásТам зме были три місяці.Tam zme bŷly try misiaci.
    Ukrán hipotézis és átírásМи були там три місяці.My buly tam try misjaci.
    PontszámBLEU = 30.21
    2513. szegmens.
    Angol forrásWell, here to the west.
    Lemkó hivatkozás és átírásНо то ту на захід.No to tu na zachid.
    Ukrán hipotézis és átírásНу, тут на захід.Nu, tut na zachid.
    PontszámBLEU = 30.21

    Orosz. A Google Fordító angolról oroszra fordító szolgáltatása korpuszszintű BLEU-pontszáma 1,10 volt.

    432. szegmens.
    Angol forrásNobody knew.
    Lemkó hivatkozás és átírásНихто не знал.Nychto ne znal.
    Orosz hipotézis és átírásНикто не знал.Nikto ne znal.
    PontszámBLEU = 59.46
    2751. szegmens.
    Angol forrásWhat did they expel us for?
    Lemkó hivatkozás és átírásЗа што нас выгнали?Za što nas vŷhnaly?
    Orosz hipotézis és átírásЗа что нас выгнали?Za čto nas vygnali?
    PontszámBLEU = 42.73
    2164. szegmens.
    Angol forrásBrother went off to war.
    Lemkó hivatkozás és átírásБрат пішол на войну.Brat pišol na vojnu.
    Orosz hipotézis és átírásБрат ушел на войну.Brat ušel na vojnu.
    PontszámBLEU = 42.73

    4. Megbeszélés

    A lemkó fordítási rendszer korpuszszintű 6,28-as BLEU pontszáma azt jelzi, hogy bár még sok a tennivaló, a dolgok jó úton haladnak. A standard orosz 1,10-es BLEU pontszáma azt jelzi, hogy a lemkó kevésbé hasonlít az oroszra, mint a lengyelre (BLEU 1,70). Talán a forradalom előtti helyesírás használata növelhetné az orosz pontszámát, de ez egy drága kísérlet lenne, kevés nyilvánvaló előnnyel.

    A transzliterált standard lengyel kontroll hasonlósági BLEU-pontszám, 1,70, azt jelzi, hogy a domináns lengyel nyelv kevésbé zavaró, mint várható lenne. Érdekes lenne újratervezni a kísérletet, ahol néhány számítástechnikailag olcsó és nyilvánvaló hangmegfelelést (például az *ę denazalizációját /ja/-ra és az *ǫ denazalizációját /u/-ra, az *i visszahúzását /y/-ra, és a *g változását /h/-ra [23]) alkalmaznának a lengyel nyelvre, hogy lássák, akkor magasabb pontszámot érne-e el, mint a standard ukrán.

    Összefoglalva, a lemkó nyelvet szintetizálták a laborban, és az előállításának képességét új és anyanyelvi beszélők kezébe adták. Egy alapos motorfelújítás és szószedet-bővítés után a következő lépés az, hogy objektíven mérjék, és ha lehetséges, a beszélők szubjektíven értékeljék a szintetikus lemkó minőségét az anyanyelvi beszélők által előállítottal szemben. Közelebb van az a nap, amikor az alacsony erőforrású nyelvek új beszélői gépi fordítást használhatnak nyelvükön való kommunikáció megkezdéséhez egyik napról a másikra, ahogy közelebb van az a nap is, amikor a lemkó nyelv csatlakozik a korábban veszélyeztetett, de most már újjáélesztett nyelvek sorához.

    Köszönetnyilvánítás. Szeretném megköszönni kollégámnak, Ming Qiannek a Peraton Labs-tól, hogy inspirált engem e kísérlet elvégzésére, és Brian Stensrudnak a Soar Technology, Inc.-től, hogy bemutatott minket, valamint a bátorítását.

    Szeretném megköszönni barátomnak, Corinna Caudillnak a bátorítását és személyes érdeklődését a projekt iránt, valamint azt, hogy bemutatott a Kárpát-Ruszin Társaság elnökének, Maryann Sivaknak a Pittsburghi Egyetemről, akinek szeretném megköszönni a lehetőséget, hogy bemutathattam a munkámat.

    Szeretném megköszönni Maria Silvestrinek, a John és Helen Timo Alapítványtól, hogy interjúkat készített lemkó anyanyelvi beszélőkkel, és adományozta az átiratokat, valamint az azokról készült fordításaimat a kutatás és fejlesztés számára.

    Szeretném megköszönni Achim Rabusnak a Freiburgi Egyetemről és Yves Scherrernek a Helsinki Egyetemről a projekt iránti érdeklődésüket és ötleteiket.

    Szeretném megköszönni Myhal’ Lŷžečkónak az InterFyisa kisebbségi nyelvi technológiai blogtól a projekt iránti korai érdeklődését és a közösségi kapcsolattartást.

    Szeretném megköszönni Zahoczewie-i társamnak, Marko Łyszyknek a projekt iránti érdeklődését és a közösségi kapcsolattartást.

    Végül szeretném megköszönni társszerzőmnek és az Antech Systems Inc. kollégájának, Tom Dobrynak a bátorítását és útmutatását.

    Hivatkozások

    1. ^ Graddol, D.: A nyelv jövője. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: A világ nyelvei, SIL International. Huszonnegyedik kiadás. SIL International, Dallas (2021). Online verzió: Hány nyelv veszélyeztetett?, https://www.ethnologue.com/guides/how-many-languages-endangered, utolsó hozzáférés: 2022.02.11.

    3. ^ ISO 639 Kódtáblázatok, https://iso639-3.sil.org/code_tables/639/data, utolsó hozzáférés: 2022.02.11.

    4. ^ Nyelvi támogatás, https://cloud.google.com/translate/docs/languages, utolsó hozzáférés: 2022.02.11.

    5. ^ Nyelv kiválasztása, https://m.facebook.com/language.php, utolsó hozzáférés: 2022.02.11.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021 konferencia kiadványában, 21176. számú tanulmány. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.), Integral Strategies for Language Revitalization, pp. 175–200. Első kiadás. „Artes Liberales” Kar, Varsói Egyetem, Varsó (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Fenntartások és nyilatkozatok a 148. sz. egyezményhez – Regionális vagy Kisebbségi Nyelvek Európai Chartája (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, utolsó hozzáférés: 2022.02.11.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, utolsó hozzáférés: 2022.02.11.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, utolsó hozzáférés: 2022.02.11.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, utolsó hozzáférés: 2022.02.11.

    13. ^ Vaňko, J.: Szlovákia ruszinjainak nyelve. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Varsó (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: Szanszkrit-angol szótár etimológiailag és filológiailag rendezve, különös tekintettel a rokon indoeurópai nyelvekre, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: A szláv örökölt lexikon etimológiai szótára. In: Lubotsky, A. (szerk.) Leiden Indo-European Etymological Dictionary Series, 4. kötet, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: Felszólítás a BLEU pontszámok jelentésének egyértelműségére. In: A Harmadik Gépi Fordítási Konferencia (WMT) kiadványában, 1. kötet, o. 186–191. Association for Computational Linguistics, Brüsszel (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: A mondatszintű BLEU simítási technikáinak szisztematikus összehasonlítása. In: A Kilencedik Statisztikai Gépi Fordítási Műhely kiadványában, o. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Varsó (2005).

    23. ^ Shevelov, G.: Az H és az új G kronológiájáról az ukrán nyelvben. In: Harvard Ukrainian Studies, 1. kötet, 2. szám, o. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

  • Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben (2021)

    Kérem, hivatkozzon így:

    Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    Absztrakt

    A koalíciós partnerek közötti gyorsan megosztható és közösen használható képzésnek nyelvi és kulturális szempontból alkalmazkodnia kell (azaz lokalizálnia kell) a nem angolszász szövetségesek nyelvéhez, akik frontvonalbeli szereplőket képviselnek korlátozott vagy potenciálisan nulla angol nyelvtudással. Hagyományosan a lokalizáció idő- és munkaigényes folyamat volt, egy szakértőnek több mint két hónapra volt szüksége egy közepes méretű könyv lefordításához. Eközben a képzési gyakorlatoknak napok és hetek, nem pedig hónapok és évek teljes fejlesztési időkeretére kell reagálniuk, hogy megfeleljenek az operatív világ változó valóságának. Ebben a keretben a hagyományos lokalizáció komoly szűk keresztmetszetté válik a koalíciós erőfeszítések számára. Gyorsan kibontakozó helyzetekben a szövetségesek egyszerűen nem várhatnak hónapokat és éveket a ma este szükséges képzésre, vagy a jövő heti küldetés megoldására olyan nyelveken, amelyeket a frontvonalon könnyen megértenek – azaz a régóta áhított álom megvalósítására, a helyi igényekre szabott képzésre.

    Lépjen be a feltörekvő mesterséges intelligencia technológia, a neurális gépi fordítás, amely percek alatt elvégzi azt, ami egy tapasztalt organikus nyelvésznek egy órát vesz igénybe, lehetővé téve a koalíciós szintű, többnyelvű bevezetést napok és hetek alatt, egyre javuló komplexitással. Ezt a gépi tanulás teszi lehetővé, azaz mesterséges ismétlődő neurális hálózatok képzése az egyik természetes nyelvről a másikra történő fordításra.

    Mesterséges intelligencia alapú motorokat építettünk, időzítettük az Észak-atlanti Szerződés Szervezete (NATO) képzési anyagainak fordítását, és pontosságukat a kétnyelvű alulértékelési (BLEU) metrika segítségével mértük. Motorunk oroszból 1169,51%-kal gyorsabban és 58,37%-kal pontosabban fordított, mint a kontrollként használt professzionális emberi nyelvészünk. Lengyel neurális motorunk 17,29%-kal pontosabb és 488,45%-kal gyorsabb volt, mint az emberi. lemkó fordító motorjaink a világon az elsők, és tisztességes BLEU pontszámot, 14,57-et értek el. Mindeközben mindezt egy olcsó laptop számítógépen végeztük egy légmentesen elzárt, hozzáférés-vezérelt környezetben, elvágva a külvilágtól.

    Bevezetés

    A probléma

    Az online fordítási szolgáltatások addig működnek, amíg titokban nem kell fordítani, vagy olyan nyelvről, amely nem tartozik az erőforrások szempontjából a felső 2%-ba. Még a legbiztonságosabb online vagy felhőalapú fordítási szolgáltatások használata is azt jelenti, hogy információkat osztunk meg egy harmadik féllel, ami a legtöbb kereskedelmi titoktartási megállapodást sérti, nem is beszélve a védelmi ipar követelményeiről. Továbbá, a vezető online fordítási platform csak 109 nyelven működik (Google, 2021), ami kevesebb, mint a ma a világon beszélt 7139 nyelv 2%-a (Eberhard, Simons, & Fennig, 2021). A felhőszolgáltatók inherent harmadik fél kockázatával szembesülve sokan ellenőrzött emberi nyelvészekhez fordulnak, akik legjobb esetben havonta egy könyvet tudnak kezelni, legrosszabb esetben pedig életre szóló jogosulatlan nyilvánosságra hozatali fenyegetést jelentenek. Annak érdekében, hogy a többnyelvű vállalkozások és szervezetek több lehetőséget kapjanak, elhatároztuk, hogy megoldjuk azt a problémát, hogyan lehet mesterséges intelligenciát alkalmazni az anyagok gyors, pontos és titkos fordítására magas, közepes és alacsony erőforrású nyelvekről, légmentesen elzárt, olcsó, középkategóriás laptop számítógépeken, amelyek le vannak választva az internetről és a külvilágról.

    Eddigi megoldások

    Míg a gépi fordítás alapjait al-Kindī bagdadi műhelyében rakták le több mint egy évezreddel ezelőtt (DuPont, 2018; lásd még al-Kindī, 2002), addig a látványos, látható fejlődés szinte teljes egészében a Szilícium-völgyben zajlott az elmúlt öt évben. A fő áttörés a Google-nál történt (Lewis-Kraus, 2016), és a Facebook is csatlakozott a neurális gépi fordítás klubjához (Ott et al., 2019). Mi az ő FAIRseq motorjuk munkájára építettünk, amelyhez Sławomir Dadas kiváló lengyel-angol modellt tett elérhetővé (Dadas, 2019). Mr. Dadas munkájára építve hibrid neurális/szabályalapú/szótáralapú motorokat hoztunk létre, amelyek lemkó nyelvről angolra és fordítva fordítanak. A transzfer tanulás alkalmazásának ötletét a ruszin természetes nyelvi feldolgozásra (NLP) már megvitattuk tisztelt kollégáinkkal, Yves Scherrerrel és Achim Rabusszal, akik elsőként publikáltak eredményeket egy szakértői folyóiratban, és kedvesen megragadták az alkalmat, hogy megemlítsék Petro Orynycz hibrid neurális/szabályalapú lemkó gépi fordító motorját (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), amely 2019 márciusa óta működik és szabadon elérhető a www.lemkotran.com webcímen, transzliterációs természetes nyelvi feldolgozó modulja pedig 2017 szeptembere óta nyilvánosan elérhető ott.

    A szélesebb rendszer

    Magas, közepes és alacsony erőforrású nyelvek

    A nyelvpárokat a tudományos irodalomban magas erőforrású, közepes erőforrású és alacsony erőforrású kategóriába sorolják, a rendelkezésre álló technológiák és adatkészletek mennyiségétől függően, nemzetközi jelentőségükhöz viszonyítva (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). A magas erőforrású párok közé tartozik a cseh-angol (Kocmi, 2020, p. 171), az orosz-angol, a német-angol (Ng, et al., 2019, p. 314) és a kínai-angol (Kocmi & Bojar, 2019, pp. 234–235). A lengyel-angol közepes erőforrású pár (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Az alacsony erőforrású párok közé tartozik a gudzsaráti-angol, a kazah-angol (Kocmi & Bojar, p. 234), az inuktitut-angol (Kocmi, p. 171) és a lemkó-angol (Scherrer & Rabus, 2019, p. 85). Mivel a mesterséges intelligencia nyelvi modelljeinek képzéséhez hatalmas mennyiségű kétnyelvű adatra van szükség, a magasabb erőforrású nyelvek általában élvezik a neurális gépi fordító motorok elérhetőségét. Eközben a gépi tanulási képzési adatok hiánya miatt a neurális motorok ritkábbak az alacsonyabb erőforrású nyelvek esetében, amelyeket gyakran jobban szolgálnak ki az előző generációs statisztikai gépi fordító (SMT) motorok.

    Kísérlet alatt álló, magas erőforrású nyelv: orosz

    Az oroszt több mint 168 millióan beszélik első nyelvként, és további 114 millióan kiegészítő nyelvként (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Az angolra fordítás automatizálása a háború utáni gépi fordítási erőfeszítések szent grálja volt. Az Egyesült Nemzetek hivatalos nyelveinek egyikeként hatalmas mennyiségű kétnyelvű orosz-angol szöveg áll rendelkezésre liberális licenc alatt (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).

    Kísérlet alatt álló, közepes erőforrású nyelv: lengyel

    A lengyel egy nyugati szláv nyelv, amelyet mintegy 38 millióan beszélnek a mai Lengyelországban, és ez a szám várhatóan csökkenni fog, részben a kiadás idején zajló világjárvány miatt (Associated Press, 2021). További 10 millióan beszélik a lengyelt valamilyen mértékben az ország határain kívül (Jassem, 2003, p. 103). Az Európai Unió egyik hivatalos nyelveként nagy mennyiségű kétnyelvű szöveg áll rendelkezésre a mesterséges intelligencia fordítási modelljeinek képzéséhez, beleértve 22 630 európai parlamenti dokumentumot (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).

    Kísérlet alatt álló, alacsony erőforrású nyelv: lemkó

    A lemkó egy alacsony erőforrású nyelv (Scherrer & Rabus, 2019, p. 85), amely megfelel a keleti szláv nyelvek osztályozásának hagyományos kritériumainak. Például a lemkó keleti szláv pleofóniát mutat, azaz a proto-szláv „ToRT” szekvenciák eredménye ToRoT (Fortson IV, 2004, pp. 371-372), mint a lemkó horodyty ’kerítést építeni, bekeríteni’ (Horoszczak, 2004, p. 45), valamint a standard ukrán horodyty, ruszin horodyty és orosz gorodit’ (Kerča, 2007, p. 176) szavakban. Eközben hasonlítsuk össze a lengyelt (egy nyugati szláv nyelv) a -ro--val a grodzić szóban, de a horvátot (egy déli szláv nyelv) a -ra--val a graditi ’építeni’ szóban. Távolabb, az angolban az -ar- a yard és a garden szavakban, az avesztai (óiráni) nyelvben a -ǝrǝ- a gǝrǝδō ’barlang’ szóban, és a szanszkrit (óindiai) nyelvben a -ṛ- a gṛhás ’otthon’ szóban (Vasmer, p. 1443).

    Míg a lemkó pontos osztályozása és státusza a standard ukránhoz és a kodifikált ruszinhoz képest vitatott (Rabus & Scherrer, 2017), a lemkó-angol motorunk ilyen magas pontszáma a standard ukrán vagy a Szlovákiában kodifikált ruszin erőforrásainak igénybevétele nélkül alátámaszthatja Watral (2015) azon következtetését, hogy a lemkó önálló, teljes értékű nyelv, és nem más nyelvjárása. A növekvő objektív minőségi pontszámoktól felbuzdulva úgy döntöttünk, hogy a lengyel transzfer tanulást helyezzük előtérbe, mivel az azonnali megtérülést hoz a lemkó fordítási pontosság szempontjából, ami a legmagasabb értékünk. Lehetséges, hogy a minőségi pontszámokat a megfigyelt hibrid nyelv interferenciája növelte, amelynek során a lemkó nyelvtani végződéseket a standard lengyel szavakra illesztették (Watral, 2016, p. 242).

    Lengyelország népszámlálási hivatala 2011-ben 6279 főt számlált, akik otthon lemkóul beszéltek, szemben a 2002-es 5605 fővel (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), és a kiadás idején új számlálás van folyamatban. Hányan lehetnek lemkóul beszélők a 2011-ben otthon ukránul beszélő 24 539 lengyel lakosból vagy a 626 „ruszin” (język ruski) nyelven beszélő háztartás tagjai közül (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), az meghaladja e tanulmány hatókörét. Ukrajna Állami Statisztikai Szolgálata 672 lemkót számlált határain belül (Deržavna služba statystyky Ukraïny, 2001). Az Egyesült Nemzetek nyelvi veszélyeztetettségi skáláján 0-tól 5-ig, ahol a 0 kihalt, az 5 pedig „biztonságos” (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, pp. 7-8), a lemkó a 2-eshez közelítene, azaz súlyosan veszélyeztetett: a természetes generációk közötti nyelvi átadás egyre inkább hiányzik, és a fiatalabb beszélők egyre inkább nem léteznek (Duć-Fajfer, 2016, p. 178). Vannak azonban zöld hajtások, a kisebbségi nyelvek oktatásban, műsorszórásban, kiadásban, útjelző táblákon és tudományban való használatát védő és támogató törvényeket egyre inkább kihasználják (Duć-Fajfer, 2016, pp. 178-179).

    Az erőforrás-helyzet is javul. Petro Orynycz összeállított és összehangolt egy kétnyelvű lemkó-angol korpuszt, amely 68 599 forrásszót tartalmaz, valamint saját angol fordításait (az egyetlen létező párhuzamos szöveg, amiről tudomásunk van). A korpuszt az Egyesült Államok John és Helen Timo Alapítványa által lemkó nyelven készített interjúk felhasználásával állították össze, akik megbízták Orynycz urat, hogy írja át és fordítsa le őket, valamint engedélyezték számára, hogy a munkát tudományos kutatásában és fejlesztésében felhasználja. Emellett több mint egymillió szavas egynyelvű lemkó korpuszt is gyűjt. Bár a lemkó, a ruszin, a standard ukrán és a szlovák nyelvi közösségek közötti összetett szociolingvisztikai kapcsolatok meghaladják e tanulmány hatókörét, a lengyel erőforrások (különösen a lengyel neurális modellek) voltak kulcsfontosságúak Orynycz úr hibrid lemkó motorjaihoz.

    Hipózisek és előrejelzések

    Fordítási sebesség

    Hipózis: a légmentesen elzárt mesterséges intelligencia gépi fordítás most már olyan gyors, mint az emberek

    Azt feltételeztük, hogy a középkategóriás laptopokon offline futó neurális gépi fordító motorok sebessége most már összehasonlítható az emberi fordítók sebességével. Ez a motorfejlesztés során tett megfigyeléseken alapult, miszerint a neurális gépi fordítás egy mondat lefordításához egy középkategóriás laptopon néhány másodperctől egy percig tartott, ami összehasonlítható Petro Orynycz lokalizációs iparágban szerzett tapasztalatai alapján megfigyelt emberi sebességekkel.

    Előrejelzés: a gépi fordító motorok több szót dolgoznak fel óránként, mint az emberi fordítók

    Azon hipotézisünk alapján, miszerint a légmentesen elzárt neurális gépi fordító motorok, amelyek offline futnak középkategóriás laptopokon, olyan gyorsak lennének, mint az emberek, azt jósoltuk, hogy sebességük meghaladja az emberi nyelvészekét, és több szót fordítanak másodpercenként, mint az emberi kontroll alanyunk.

    Fordítási pontosság

    Hipózis: a mesterséges intelligencia gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók

    Azt feltételeztük, hogy a neurális gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók. Ez Petro Orynycz fordítási minőségellenőrzési szakemberként szerzett szakmai megfigyelésein alapult, miszerint a kereskedelmi neurális gépi fordítási felhőszolgáltatások nemcsak drámaian javultak, hanem gyakran megkülönböztethetetlen eredményeket produkáltak az emberi nyelvészekétől.

    Előrejelzés: a mesterséges intelligencia gépi fordító motorok legalább 75%-os BLEU minőségi pontszámot érnek el a professzionális emberi fordítókhoz képest

    Bár tudtuk, hogy a neurális gépi fordító motorok felülmúlhatják a kétnyelvű amatőröket, akik először próbálkoznak a fordítással, nem hittük, hogy motorjaink legyőznék a tapasztalt, professzionális nyelvészeket egy közvetlen versenyben. Szerencsére kétségünket tesztelni lehetett. A kétnyelvű értékelési alulértékelési (BLEU) algoritmus a gépi fordítási kutatás legdominánsabb metrikája, mivel nyelvfüggetlen, olcsó és könnyen számítható, valamint ésszerűen korrelál az emberi ítéletekkel (Post, 2018). Azt jósoltuk, hogy neurális motorjaink az emberi nyelvész által elért minőségi pontok 75%-át érik el. Például, ha egy emberi nyelvész 40 pontot ért el, a neurális gépi fordítás 30 pontot ér el. Eközben azt jósoltuk, hogy hibrid lemkó-angol motorunk kumulatív BLEU pontszáma 15 lesz.

    Fordítási biztonság

    Hipózis: a mesterséges intelligencia gépi fordítás offline is elvégezhető laptopokon, magas biztonságú terepi körülmények között

    Azt feltételeztük, hogy a neurális gépi fordítás offline is elvégezhető légmentesen elzárt, hordozható berendezéseken, teljesen elvágva a külvilágtól. Ez azon megfigyelésen alapult, hogy megoldásunk minden komponense nem hívta meg az internetet, miután a függőségeket telepítették. Implicit feltételezés, hogy a légmentesen elzárt fordítási rendszerek, amelyek Repülőgép üzemmódban vannak, nem monitorozhatók vagy hackelhetők távolról. Egy másik feltételezés, hogy az operátorokat megfelelően ellenőrizték, és megfelelő óvintézkedéseket tettek a külső és belső fenyegetések ellen. Egy másik implicit feltételezés, hogy könnyebb egyetlen mobil munkaállomást több órán keresztül védeni, mint megakadályozni, hogy az emberi nyelvészek, akik átlagosan 25,01 USD-t keresnek óránként (Bureau of Labor Statistics, United States Department of Labor, 2021), jogosulatlan nyilvánosságra hozatalt tegyenek életük során, különösen a nyelvészek letartóztatásáról szóló jelentések fényében, akik titkok kiszivárogtatásának gyanújával kerültek letartóztatásra (Department of Justice Office of Public Affairs, 2009, 2018, 2020).

    Előrejelzés: a mesterséges intelligencia gépi fordítás sikeres lesz egy légmentesen elzárt Lenovo Legion Y730-17ICH laptop számítógépen, amely offline fut Repülőgép üzemmódban

    Azt jósoltuk, hogy fordítási rendszerünk nem fog meghibásodni, és elvégzi feladatait, amikor fizikailag el van választva és le van választva minden hálózatról vagy eszközről a Windows 10 Pro Repülőgép üzemmód funkciójának aktiválásával egy Lenovo Legion Y730-17ICH laptop számítógépen (Type 81HG).

    Hibrid szabály/szótár alapú és neurális lemkó-angol motor

    Hipózis: a hibrid szótár/szabályalapú motorok javítják a gépi fordítás pontosságát

    Azt feltételeztük, hogy lengyel-lemkó szabályalapú gépi fordító (RBMT) motorunk, lengyel-lemkó szótáralapú gépi fordító (DBMT) motorunk, fordított irányban futó lemkó-lengyel DBMT motorunk és neurális lengyel-angol motorunk szinergikusan összekapcsolható egy hibrid motorrá, amely minden további résszel magasabb minőségi pontszámokat ér el. Ez a hipotézis a szerzőnek a professzionális lemkó-angol fordítóként szerzett megfigyelésein alapult, miszerint a lemkó és a lengyel közötti megfelelések elég gyakoriak ahhoz, hogy a hibrid motor életképes javaslattá váljon.

    Előrejelzés: a hibrid lemkó-angol motorunkhoz hozzáadott minden almotor 5 ponttal növeli a BLEU-t.

    Azt jósoltuk, hogy minden egyes szabályalapú vagy szótáralapú lemkó-lengyel almotor esetében, amelyet a hibrid lemkó-angol motorunkhoz adtunk, az összesített BLEU pontosság 5 ponttal növekedne.

    Módszerek bemutatása és indoklás

    Embert állítottunk gép ellen azzal, hogy mindkettőnek egy középkategóriás, légmentesen elszigetelt laptopot adtunk, amely a saját fejlesztésű számítógéppel segített fordítóprogramunkat futtatta (részletek alább), offline állapotban, Windows Repülőgép üzemmódban. Rögzítettük a sebességet és a pontosságot az oroszról angolra (magas erőforrásigényű nyelvpár), a lengyelről angolra (közepes erőforrásigényű nyelvpár) és a lemkóról angolra (alacsony erőforrásigényű nyelvpár) történő fordítás során. A sebesség kifejezésére az óránkénti szavak metrikát használtuk, mivel ez a lokalizációs projektmenedzserek alapja, és a tudományos irodalomban is használatos (Macken, Prou, & Tezcan, 2020, 4. o.). A pontosság mérésére a BLEU metrikát használtuk, mivel ez a legelterjedtebb a kutatás és fejlesztés területén (Post, 2018).

    Főbb eredmények röviden

    Nemcsak azt sikerült elérnünk, hogy az áttörést jelentő neurális gépi fordítási technológiát alkalmazva mesterséges intelligenciát használjunk egy légmentesen elszigetelt, offline laptopon, Repülőgép üzemmódban, egy magas erőforrásigényű nyelv (orosz) fordítására, több mint 10-szer gyorsabban, mint az emberi nyelvész kontrollszemélyünk, hanem gépünk minőségi pontszáma több mint 58 százalékkal „jobb volt, mint az emberi”. Sőt, mi vagyunk az első csapat a világon, amely lemkó gépi fordító motorok eredményeit publikálta tudományos folyóiratban.

    Anyagok és módszerek

    Bevezetés

    Előrejelzéseink tesztelésére számos mesterséges intelligencia alapú és hibrid fordítómotort építettünk, kiszámítottuk sebességüket és pontosságukat egy légmentesen elszigetelt laptopon, Windows Repülőgép üzemmódban, és ugyanezt tettük egy professzionális nyelvész bevonásával, hogy kísérletünk kontrollált legyen.

    Laboratóriumi beállítás

    Hardver

    Egy Lenovo Legion Y730-17ICH laptop számítógépet (81HG típus) használtunk, amelyen Windows 10 Pro (64 bites) futott. A modell gyártását leállították, és a publikálás időpontjában körülbelül 850 USD-ért, használtan kapható.

    Operációs rendszer

    A kísérlethez használt virtualizált operációs rendszer a Linux alrendszer volt Windowsra, pontosabban az Ubuntu 18.04 LTS, amelyet a Microsoft Store digitális disztribúciós platformon keresztül telepítettek.

    Függőségek

    A Python 3.8 telepítése a következő paranccsal történt: sudo apt install python3.8.

    A sudo python3.8 -m pip install –upgrade parancsot használtuk a főbb függőségek telepítésére, beleértve a bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision-t is.

    Eszközkészletek

    Telepítettük a Facebook AI Research Sequence-to-Sequence Eszközkészletet a következő parancsok futtatásával:

    sudo git clone https://github.com/pytorch/fairseq
    cd fairseq
    sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./

    Dokumentáció és technikai támogatás elérhető itt: https://github.com/pytorch/fairseq

    Neurális gépi fordítási modellek

    Neurális lengyel-angol és hibrid lemkó-angol motorjainkhoz Sławomir Dadas lengyel-angol konvolúciós modelljét használtuk, amely elérhető és dokumentált a Lengyel Természetes Nyelvfeldolgozási (NLP) Erőforrások tárhelyén (Dadas, 2019).

    Modell: https://github.com/sdadas/polish-nlp-resources/releases/download/nmt-models-conv/polish-english-conv.zip

    Dokumentáció: https://github.com/sdadas/polish-nlp-resources#machine-translation-models

    Orosz-angol motorunkhoz a Facebook AI Research Sequence-to-Sequence (FAIRseq) orosz-angol előre betanított egyetlen transzformátor modelljét használtuk finomhangolás nélkül, amelyet a 2019-es Negyedik Gépi Fordítási Konferenciára (WMT19) nyújtottak be.

    Modell: https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
    Dokumentáció: https://github.com/pytorch/fairseq/tree/master/examples/wmt19

    Elektronikus szótárak

    Professzionális nyelvészünk offline hozzáférést kapott a New Kościuszko Foundation American English to Polish Dictionary (12,99 USD) elektronikus változatához, valamint az Oxford Russian Dictionary (19,99 USD) elektronikus változatához. Mindkettőt a Microsoft Store-on keresztül vásárolták. Jarosław Horoszczak lemkó-lengyel és lengyel-lemkó szótára (2004) szintén elérhetővé vált nyelvészünk számára offline használatra.

    Kísérleti kontroll

    A kísérletet úgy ellenőriztük, hogy egy professzionális emberi nyelvészt ültettünk a légmentesen elszigetelt laptop elé, miközben az Repülőgép üzemmódban volt, a fent említett elektronikus szótárakkal a gépen. A nyelvész megnyomta az Enter billentyűt, ekkor elindult az időzítő, és megjelent a fordítandó forrásmondat. A nyelvésznek megengedték, hogy a fordítását a Microsoft Wordben gépelje be (kihasználva annak helyesírás-ellenőrző funkcióját és egyéb szövegszerkesztési segédeszközeit), majd beillessze a saját fejlesztésű számítógéppel segített fordítóprogramunkba. Az Enter billentyű újbóli megnyomása után az emberi fordítás be lett küldve, és az időzítő leállt. Az emberi nyelvész sebességét (óránkénti szavakban) és pontosságát (BLEU pontszámban) minden lefordított mondat esetében kiszámítottuk.

    Petro Orynycz, aki két évtizedes tapasztalattal rendelkezik orosz és lengyel nyelvészként, orosz nyelvből lengyel egyetemi diplomával, és több mint 5 éves tapasztalattal professzionális lemkó-angol fordítóként, szolgált kontrollszemélyként. Visszafordításokat végzett az alább felsorolt orosz és lengyel anyagokról, valamint angolra fordításokat lemkó nyelvről.

    Kísérleti anyag: referenciafordítások

    A kísérlethez használt orosz-angol és lengyel-angol szöveget a nyilvánossággal megosztott oktatási anyagokból szereztük be, amelyeket az Észak-atlanti Szerződés Szervezete (NATO) NATO Review kiadványa fordított angolról oroszra és lengyelre. Idézet: „A NATO Review részeinek, kivonatainak vagy cikkeinek reprodukálása nem kereskedelmi célokra engedélyezett, az alábbi feltétel mellett: a forrást, a NATO Review-t, fel kell tüntetni.” A szokásos gyakorlatnak megfelelően (Post, 2018) a korpusz adatokat megtisztítottuk és normalizáltuk a szöveg kisbetűsítésével és tokenizálásával. Gondoskodtunk arról, hogy a forrásszöveg és a célfordítások mondatszinten illeszkedjenek.

    Ehhez a kísérlethez Dr. Jamie Shea, a NATO akkori főtitkárhelyettes-helyettesének (Emerging Security Challenges) előadását használtuk. Címe: Mit tanulhatunk ma a „Három Bölcs Férfitól”? Dr. Shea előadásának angol eredeti szövegét és a NATO által megrendelt orosz és lengyel fordításait a következő egységes erőforrás-azonosítókról szereztük be:

    Angol eredeti: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

    Orosz fordítás: https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.html

    Lengyel fordítás: https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.html

    A kísérlethez használt lemkó-angol anyag a John & Helen Timo Alapítvány által rögzített személyes interjúkból állt, akik Petro Orynycz-t bízták meg az interjúk átírásával és angolra fordításával. Az alapítvány később szívesen adományozta az így kapott kétnyelvű korpuszokat tudományos kutatásra és fejlesztésre. Az interjúkban tárgyalt személyek magánéletének védelme, valamint az Európai Unió Általános Adatvédelmi Rendelete (GDPR) iránti tiszteletből az anyagokat nem tették nyilvánosan elérhetővé. Gondoskodunk arról, hogy a személyazonosításra alkalmas információkat (PII) és a személyes egészségügyi információkat (PHI) szerkesszük a minták megosztása előtt.

    Módszer a fordítási pontosság értékelésére: BLEU

    A kétnyelvű alulértékelési (BLEU) metrikát használtuk a referenciafordításhoz való hasonlóság, és így, bármennyire is tökéletlenül, a pontosság mérésére. Bár a BLEU pontszám nem tökéletes mérőszáma a pontosságnak vagy a minőségnek, ez az iparágban legszélesebb körben használt (Post, 2018). A Python modul a Python bleu csomagból származik, amely a következő egységes erőforrás-azonosítón dokumentált: https://pypi.org/project/bleu/

    Gondoskodtunk arról, hogy a “it is a white cat .” és “wow , this dog is huge .” referencia mondatokat, valamint a “it is a white kitten .” és “wowww , the dog is huge !” jelölt hipotéziseket megadva, rendszerünk 34,99 kumulatív BLEU pontszámot számított, összhangban a Python bleu csomag dokumentációjával.

    Módszer a szöveg normalizálására és tisztítására

    Minden szöveget kisbetűsítettünk, és szóközt adtunk minden írásjel elé és után, hogy a rendszer ne feltételezze például, hogy a „Cat” és a „cat.” különböző szavak. Így a „It is a white cat.” normalizálva „it is a white cat .” lett. Több szóközt és egyéb szóközsorozatot egyetlen szóközzel helyettesítettünk a Python split() és join() metódusai segítségével.

    Módszer a szavak számlálására

    A mondatonkénti szavak számát a normalizált szöveges sztring szóköz alapú elválasztóval történő felosztásával határoztuk meg, majd megszámolva az elemeket abban a tömbben.

    Módszer a fordítási sebesség mérésére

    Abban a pillanatban, amikor az emberi fordító megnyomta az Enter billentyűt egy mondat fordításának megkezdéséhez, meghívtuk a Python time.time() metódusát, hogy megkapjuk az 1970. január 1-jei koordinált világidő (UTC) éjfél óta eltelt másodpercek számát lebegőpontos számként, amelyet általában Unix időnek neveznek, és ezt a számot használtuk emberi kezdési időként. Azt az Unix időt is rögzítettük, amikor gépi fordító motorjaink egy mondatot fordításra vettek.

    Azt a pillanatot, amikor egy emberi nyelvész megnyomta az Enter billentyűt egy mondat fordításának beküldéséhez, vagy egy gép visszaadta egy mondat fordítását, használtuk végidőként. A kezdési idő kivonásával a végidőből megkaptuk a mondat fordításához szükséges másodpercek teljes számát.

    Az óránkénti szavakat úgy számítottuk ki, hogy az Unix vég- és kezdési idők közötti különbséget elosztottuk a fent kiszámított szószámokkal, és az így kapott hányadost megszorozzuk 3600-zal (ami 60 60, azaz az egy órában lévő másodpercek száma):

    Sebesség = (Fordítás_vége_idő − Fordítás_kezdete_idő) / Összes_lefordított_szó_száma × 3600

    Módszer a berendezések fizikai elszigetelésére és légmentesítésére

    A kísérletben használt berendezéseket nemcsak fizikai elszigeteléssel vágtuk el a külvilágtól, hanem a Microsoft Windows 10 Pro Repülőgép üzemmódjának használatával is, amely a dokumentációja szerint kikapcsolja a gép összes vezeték nélküli kommunikációját, beleértve az IEEE 802.11b Direct Sequence vezeték nélküli hálózatot, a mobilhálózatot, a Bluetooth-t, a globális helymeghatározó rendszert és a közeli mezős kommunikációt.

    Eredmények

    Fordítási sebesség: Minél magasabb erőforrásigényű a nyelvpár, annál gyorsabb a motor

    A gép felülmúlta az embert a fordítási sebesség tekintetében az orosz-angol (magas erőforrásigényű) és a lengyel-angol (közepes erőforrásigényű) nyelvpárok esetében, összhangban azzal a hipotézisünkkel, hogy a neurális gépi fordítás gyorsabb, mint az emberi, és azzal az előrejelzésünkkel, hogy neurális motorjaink több szót fordítanak óránként. Oroszról fordítva motorunk átlagosan több mint 6 456 szót fordított óránként, ami 1170%-kal gyorsabb volt, mint emberi nyelvészünk. Lengyelről fordítva neurális motorunk 488%-kal gyorsabb volt, mint emberi fordítónk, átlagosan 3 768 szót fordítva óránként. Az alacsony erőforrásigényű lemkó-angol nyelvpár esetében hibrid neurális és szótár/szabályalapú motorunk 707 szót fordított óránként, majdnem egyenlő eredményt elérve emberi nyelvészünkkel, aki 13%-kal gyorsabb volt 798 szó/óra sebességgel. A hibrid motor szótáralapú komponensének súlyának eltávolítása közel négyszeresére növelte a sebességet, 3 137 szó/órára, ami 293%-kal gyorsabb, mint az emberi, 13%-os pontosságcsökkenés árán.

    Human versus Machine Translation Speed, Words per Hour 0 1000 2000 3000 4000 5000 6000 7000 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 6456 509 3768 640 3137 707 752 798 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional human translation
    1. ábra. Professzionális emberi versus gépi fordítási sebesség (szó/óra) egy légmentesen elszigetelt középkategóriás laptopon (repülőgép üzemmód): Orosz–angol (magas erőforrásigényű) vs. lengyel–angol (közepes erőforrásigényű) vs. lemkó–angol (alacsony erőforrásigényű).
    1. ábra adatai: fordítási sebesség (szó/óra)
    Nyelvpár Módszer Szó/óra
    Orosz–angolProfesszionális emberi509
    Orosz–angolCsak NMT6456
    Lengyel–angolProfesszionális emberi640
    Lengyel–angolCsak NMT3768
    lemkó–angolProfesszionális emberi798
    lemkó–angolRomanizáció + hibrid szótár/szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT707
    lemkó–angolRomanizáció + szótáralapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT752
    lemkó–angolRomanizáció + szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT3137

    Fordítási pontosság: Minél magasabb erőforrásigényű a nyelvpár, annál pontosabb a motor

    Mesterséges intelligencia motorjaink fordítási pontossága felülmúlta a professzionális nyelvészekét. Ez meghaladta azt a hipotézisünket, miszerint a légmentesen elszigetelt neurális gépi fordítás már csak kissé kevésbé pontos, mint az emberi fordítók. Orosz-angol mesterséges intelligencia motorunk 158%-os pontosságot ért el emberi fordítónkhoz képest, túlszárnyalva az általunk előre jelzett 75%-ot. Lengyel-angol neurális motorunk 117%-os pontosságot ért el emberi nyelvészünkhöz képest, túlszárnyalva a 75%-os elvárásunkat. Hibrid lemkó-angol motorunk 14,57-es BLEU pontszámot ért el (ami professzionális fordítónk pontosságának 51%-a), összhangban a 15-ös előrejelzésünkkel, felfelé kerekítve. A szabályalapú almotor elhagyása 2%-os pontosságnövekedést és 6%-os sebességnövekedést eredményezett. A szótáralapú almotor elhagyása 13%-os pontosságcsökkenést, de 344%-os sebességnövekedést eredményezett. Összefoglalva, közepes és magas erőforrásigényű nyelvekhez készült mesterséges intelligencia motorjaink szignifikánsan pontosabbak voltak, mint emberi nyelvészünk, míg az alacsony erőforrásigényű nyelvekhez készült hibrid motorjaink körülbelül feleannyira voltak pontosak, mint emberi nyelvészünk.

    Human versus Machine Translation Accuracy, BLEU Score 0 5 10 15 20 25 30 35 40 45 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 39.37 24.86 35.81 30.53 14.57 14.8 12.64 28.66 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional Human Translation
    2. ábra. Professzionális emberi versus gépi BLEU fordítási minőségi pontszám egy légmentesen elszigetelt középkategóriás laptopon, Repülőgép üzemmódban, Orosz-angol (magas erőforrásigényű nyelvpár) versus lengyel-angol (közepes erőforrásigényű nyelvpár) versus lemkó-angol (alacsony erőforrásigényű nyelvpár).
    2. ábra adatai: BLEU pontszám
    Nyelvpár Módszer BLEU
    Orosz–angolCsak mesterséges intelligencia neurális gépi fordítás39,37
    Orosz–angolProfesszionális emberi fordítás24,86
    Lengyel–angolCsak mesterséges intelligencia neurális gépi fordítás35,81
    Lengyel–angolProfesszionális emberi fordítás30,53
    lemkó–angolRomanizáció + hibrid szótár/szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás14,57
    lemkó–angolRomanizáció + szótáralapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás14,8
    lemkó–angolRomanizáció + szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás12,64
    lemkó–angolProfesszionális emberi fordítás28,66

    Fordítási biztonság

    Összhangban azzal a hipotézisünkkel, hogy egy neurális gépi fordítási megoldás megtervezhető egy légmentesen elszigetelt laptopon való futtatásra, kísérletünk sikeres volt e tekintetben. Előrejelzésünknek megfelelően kísérletünk működött bekapcsolt Windows Repülőgép üzemmódban, és nem okozott hibát a külvilágtól elszigetelt működés.

    Szabályalapú gépi fordítás lemkó és lengyel között

    Azon hipotézisünk, miszerint a lemkó és a lengyel közötti affinitás elég erős ahhoz, hogy a lemkó szabályalapú és szótáralapú helyettesítéssel fordítható legyen lengyelre, bebizonyosodott a lemkó-angol neurális/szabályalapú hibrid motorunk lenyűgöző teljesítménye által. Azon hipotézisünket, miszerint egy szabályalapú almotor és egy szótáralapú almotor kombinálása pontosabb hibrid motort eredményezne, jelenleg nem támasztják alá adataink. Egy szótáralapú modul hozzáadása egy szabályalapúhoz 2,16 ponttal növelte a motor BLEU-ját, ami kevesebb, mint az 5-ös előrejelzésünk.

    Megbeszélés

    Új korszak

    Bebizonyítottuk, hogy nemcsak lehetséges a mesterséges intelligenciát megbízni a magas, közepes és alacsony erőforrásigényű nyelvekről történő fordítás tudásalapú munkájával egy hozzáférés-ellenőrzött környezetben, hanem a neurális gépi fordítás gyorsabban, biztonságosabban és sok esetben jobban is el tudja végezni a munkát. Eredményeink nemcsak alátámasztották hipotéziseinket, hanem neurális motorjaink teljesítménye felülmúlta előrejelzéseinket is. Itt van a közel valós idejű gépi fordítás új korszaka, amely önállóan vagy emberekkel együttműködve működik.

    Sebesség

    Motorunk óránként 6456 szó sebességgel fordított oroszból. Ennek kontextusba helyezéséhez konzultáltunk Marc Hackel szakértővel, egy washingtoni, D.C.-beli védelmi ipari nyelvész és orosz-angol fordítóval, aki több évtizedes tapasztalattal rendelkezik, és aki elmondta nekünk, hogy „egyfajta ökölszabály szerint egy nagyon tapasztalt fordítónak legalább 8 oldalt (azaz 8 darab 500 szavas oldalt, összesen 4000 szót) kellene lefordítania egy 8 órás munkanap alatt, feltételezve, hogy nincsenek akadályok, mint például mozaikszavak és hasonló dolgok. Sokak átlaga valójában óránként 250 szó, nem 500.” Így a neurális motorok kevesebb mint egy óra alatt elvégezhetik azt, ami az embereknek napokba telik.

    Pontosság

    Mesterséges intelligencia motorjaink magasabb BLEU pontszámokat értek el, mint professzionális emberi nyelvészünk. Ezen mérőszám alapján gépeink „jobbak” az orosz és lengyel nyelvről való fordításban, mint az emberek.1 Mivel az a feltételezés, hogy a mesterséges intelligencia gépi fordítás több mint 50%-kal pontosabb lehet, mint a tapasztalt nyelvészeké, forradalmi, ezt a kísérletet még több emberi nyelvész és korpusz bevonásával meg kell ismételni, hogy kizárjuk a véletlen egybeeséseket. Kivételesen tiszta, kihívást jelentő, virágnyelvű szövegeket használtunk, amelyeken a gépi fordítórendszerek hagyományosan elakadnak, az emberek viszont kiválóan teljesítenek. Bár egyenlő feltételekre törekedtünk, azt vártuk, hogy bármilyen előny az emberi oldalon lesz. Kérjük, nyers adatainkhoz és eredményeinkhez való hozzáférésért vegye fel a kapcsolatot Orynycz Petroval a fent megadott címen.

    Következő lépések

    Régebbi, elavult berendezéseket használtunk. Újabb, gyorsabb, következő generációs grafikus feldolgozó egységekkel felszerelt berendezések drámai javulást eredményezhetnek a fordítási sebességben. Kódunkat optimalizálni kell a meglévő erőforrások, például a grafikus feldolgozó egységek (GPU-k) maximális kihasználására. Tervezzük, hogy szótár alapú gépi fordító modulunkat tesztsorrá alakítjuk át a szabályalapú gépi fordítás (RBMT) modulunk tesztvezérelt fejlesztéséhez (TDD), amely felhasználható lenne párhuzamos szövegek fejlesztésére tisztán neurális lemkó-angol és angol-lemkó mesterséges intelligencia neurális gépi fordítórendszerek képzéséhez. További kutatásokra van szükség a csökkenő hozamok pontjainak azonosításához. Orynycz Petro tervei szerint hibrid neurális és szabályalapú rendszereit alkalmazza majd a mai Szlovákiában és Ukrajnában őshonos ruszin és ukrán dialektusok fordítórendszereinek fejlesztésére.

    Zárásul

    Egy új, átalakító korszak hajnalán állunk: bebizonyítottuk, hogy a mesterséges intelligencia képes tudásalapú munkát végezni, akárcsak az emberek, sőt, egyre több esetben több mint 50%-kal jobban, a töredék idő alatt és szinte nulla biztonsági kockázattal. Néhány száz dollár értékű, hátizsákban elférő felszerelés elegendő ahhoz, hogy mindig legyen egy emberinél jobb, szilícium alapú terepnyelvész segítőnk, aki soha nem árul el titkokat és nem fárad el. A szellem kiszabadult a palackból, és talán teljesíti a kihalás szélén álló nyelvek újjáélesztésére vonatkozó kívánságunkat, ha nem is a kihaltak feltámasztásának álmát. A nyelvi tömeges kihalási esemény, amelynek közepén vagyunk, megállhat, sőt, megfordulhat. Óvatosnak kell lennünk, mit kívánunk – az évezredekig drágán fordítható nyelvek titkosításával elszigetelt világok összeütközni készülnek. Reméljük, hogy ez a változás jobb irányba mutat. Proščaj, nyelvi akadály. Helló, új világ.

    Lábjegyzetek

    ^ 1 Történelmileg egyes közösségek ellenállnak a BLEU használatának az emberi és gépi fordítás összehasonlítására, mégis nincs más olyan rendszer, amely ilyen széles körben elfogadott vagy elérhető lenne széleskörű, szakmailag ellenőrzött validációval. Valójában a BLEU pontszám feltalálói, Papineni, Roukos, Ward és Zhu már előre jelezték ezt a feszültséget az Egyesült Államok Védelmi Minisztériuma (a Defense Advanced Research Projects Agency [DARPA] által finanszírozott és a Space and Naval Warfare Systems Command [SPAWAR] által felügyelt) által támogatott munkájukban, úttörő publikációjuk részeként, írva: „Továbbá, [a metrikának] különbséget kell tennie két különböző minőségű emberi fordítás között. Ez utóbbi követelmény biztosítja a metrika folyamatos érvényességét, ahogy a gépi fordítás (MT) megközelíti az emberi fordítás minőségét.” A tabu megtörésével kezdve, ezután kiszámították a BLEU pontszámokat a „Human-1” (sem kínai, sem angol anyanyelvű) és a „Human-2” (angol anyanyelvű) esetében, és feltérképezték, hogyan követték BLEU pontszámaik szorosan az emberi bírák által adott pontszámokat (Papineni, Roukos, Ward, & Zhu, 2002).

    Köszönetnyilvánítás

    Szeretnénk megköszönni tanácsadónknak, Tim Quiramnak, az Egyesült Államok Parti Őrség Készenléti Parancsnokság Kiképzési Osztályának helyettes vezetőjének, hogy bátorított minket a folytatásra, az Antech Systems, Inc. igazgatótanácsának és a Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) ePerformance csapatának, hogy olyan környezetet teremtettek, ahol szenvedélyeinket követhetjük, osztályunk ügyvezető alelnökének, Tom Dobrynak felbecsülhetetlen értékű útmutatásáért, megalapozott ítélőképességéért és látnoki vezetői képességéért, valamint csapatvezetőnknek, Will Duffnak, amiért arra ösztönzött minket, hogy keményen dolgozzunk, elősegítette a bajtársiasság szellemét és erkölcsi támogatást nyújtott. Orynycz Petro szeretné megköszönni mesterséges intelligencia űrprojekt menedzsereinek, Raffaele Pascalenak és Michal Brnušáknak a Szilícium-völgyi Venga Global Inc. nyelvi szolgáltatótól, professzionalizmusukat, a csapat iránti őszinte törődésüket és rendíthetetlen elkötelezettségüket a helyes eredmény elérésében. Orynycz úr szeretné megköszönni mérnöktársainak, kollégáinak és régi barátainak, Michael Lawrence Cramernek a BCT LLC-től és Michael Decerbónak a Raytheon BBN Technologies-től, hogy a kezdetektől fogva hittek benne. Továbbá szeretné megköszönni barátjának és kolléga számítógépes nyelvészének, Jouna Pyysalónak, Ph.D., a Helsinki Egyetemről, hogy valóra váltotta az álmokat. Végül szeretné megköszönni Maria Silvestrinek a John és Helen Timo Alapítványtól a tudományos kutatásra és fejlesztésre nyújtott adományát az általa készített lemkó interjúkhoz és az általa elvégzésre felkért fordításokhoz, valamint kedves barátjának, Ołena Dućnak a Ruska Bursától az interjúk felbecsülhetetlen értékű fordításaiért és átirataiért.

    Hivatkozások

    al-Kindī, Y. i. (2002). al-Kindi szerkesztett értekezése. M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (szerk.) művében, al-Kindi értekezése a kriptoanalízisről (1. kötet) (S. M. al-Asaad, ford., 1. kötet, 117-204. o.). Damaszkusz, Szíria: KFCRIS & KACST. (Eredeti mű kiadva kb. 850).

    Associated Press. (2021. január 26.). Lengyelország lakossága gyorsan zsugorodik a járvány idején. Letöltve 2021. június 19-én az AP NEWS-ről: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e

    Bureau of Labor Statistics, Egyesült Államok Munkaügyi Minisztériuma. (2021). Foglalkozási Kilátások Kézikönyve, Tolmácsok és Fordítók. Washington, DC. Letöltve 2021. június 1-jén innen: https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm

    Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kiválasztási kritériumok alacsony erőforrású nyelvi programokhoz. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai (4543–4549. o.). Portorož, Szlovénia: European Language Resources Association (ELRA). Letöltve 2021. június 27-én innen: https://www.aclweb.org/anthology/L16-1720

    Dadas, S. (2019). Lengyel NLP erőforrások tárolója. Letöltve 2021. május 26-án innen: https://github.com/sdadas/polish-nlp-resources/

    Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV. Jelentés a nemzeti és etnikai kisebbségek, valamint a regionális nyelvek helyzetéről a Lengyel Köztársaságban – 2013. Varsó, Lengyelország: Belügyminisztérium. Letöltve 2021. június 13-án innen: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf

    Igazságügyi Minisztérium Közügyek Hivatala. (2009. december 17.). Volt FBI szerződéses nyelvész bűnösnek vallja magát minősített információk bloggernek való kiszivárogtatásában. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger

    Igazságügyi Minisztérium Közügyek Hivatala. (2018. augusztus 23.). Szövetségi kormányzati vállalkozót ítéltek el minősített anyagok hírügynökségnek való eltávolításáért és továbbításáért. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news

    Igazságügyi Minisztérium Közügyek Hivatala. (2020. augusztus 17.). Volt CIA tisztet tartóztattak le és vádoltak meg kémkedéssel. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage

    Ukrajna Állami Statisztikai Szolgálata. (2001). Az ukrán etnikum egyes etnográfiai csoportjainak létszáma és anyanyelvük. Letöltve 2021. augusztus 26-án az Összukrán Népesség-összeírás 2001-ből: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1

    Duć-Fajfer, O. (2016). Irodalom, fejlődési folyamat és nyelvi identitás revitalizációja a lemkó irodalom példáján. J. Olko, T. Wicherkiewicz, & R. Borges (szerk.) művében, Integrált stratégiák a nyelvi revitalizációhoz (177-178. o.). Varsó, Lengyelország: Varsói Egyetem, „Artes Liberales” Kar. Letöltve innen: http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177

    DuPont, Q. (2018. május). A gépi fordítás kriptológiai eredete, al-Kinditől Weaverig. (C. Mitchell, & R. Raley, szerk.) amodern(8), 1-20. Letöltve 2021. május 22-én innen: http://amodern.net/article/cryptological-origins-machine-translation/

    Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Hány nyelv van a világon? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, szerk.) Letöltve 2021. június 13-án az Ethnologue: Languages of the World-ből: https://www.ethnologue.com/guides/how-many-languages

    Fortson IV, B. W. (2004). Indoeurópai nyelv és kultúra. Malden, MA, USA: Blackwell Publishing.

    Google. (2021. június 8.). Nyelvi támogatás | Cloud Translation. Letöltve 2021. június 13-án a Google Cloud-ról: https://cloud.google.com/translate/docs/languages

    Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Az Európai Parlament digitális korpusza. Nyelvi Erőforrások és Értékelés Konferencia (LREC 2014), (3164-3171. o.). Reykjavik, Izland. Letöltve 2021. június 19-én innen: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf

    Horoszczak, J. (2004). Lemkó-lengyel, lengyel-lemkó szótár. Varsó, Lengyelország: Rutenika Lemkó Kisebbséget Támogató Alapítvány.

    Jassem, W. (2003. június). Lengyel. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191

    Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Kísérletezés különböző gépi fordítási modellekkel közepes erőforrású környezetekben. P. Sojka, I. Kopeček, K. Pala, & A. Horák (szerk.) művében, Szöveg, beszéd és párbeszéd. TSD 2020. Lecture Notes in Computer Science. 12284, 2. o. Springer, Cham. doi:10.1007/978-3-030-58323-1_10

    Kerča, I. (2007). Ruszin-orosz szótár (1. kötet). Ungvár, Ukrajna: PolyPrynt.

    Kocmi, T. (2020). CUNI beadvány az inuktitut nyelvről a WMT News 2020-ban. Az 5. Gépi Fordítási Konferencia (WMT) előadásai, (171–174. o.). Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 19-én innen: https://www.aclweb.org/anthology/2020.wmt-1.14

    Kocmi, T., & Bojar, O. (2019). CUNI beadvány alacsony erőforrású nyelvekről a WMT News 2019-ben. A Negyedik Gépi Fordítási Konferencia (WMT) előadásai. 2. kötet: Megosztott feladatokról szóló tanulmányok (1. nap), 234–240. o. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 13-án innen: https://www.aclweb.org/anthology/W19-5322.pdf

    Lewis-Kraus, G. (2016. december 14.). A nagy mesterséges intelligencia ébredés (neurális irány). The New York Times, 40. o. Letöltve innen: https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html

    Macken, L., Prou, D., & Tezcan, A. (2020. április 23.). A gépi fordítás hatásának számszerűsítése egy magas minőségű emberi fordítási gyártási folyamatban. Informatika, 7(2). doi:10.3390/informatics7020012

    Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). Az oroszul beszélők a FÁK-országokban: migrációs tevékenység és az orosz nyelv megőrzése. P. Vladimirovich (szerk.) művében, 2018 Nemzetközi Tudományos Konferencia „Befektetés, Építés, Ingatlan: Új technológiák és speciális fejlesztési prioritások” (ICRE 2018) , 212. Irkutszk, Oroszország. doi:10.1051/matecconf/201821210005

    Microsoft. (é.n.). Repülőgép üzemmód be- vagy kikapcsolása. Letöltve 2021. június 9-én a Microsofttól: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1

    NATO Review. (é.n.). Rólunk. Letöltve 2021. június 9-én az Észak-atlanti Szerződés Szervezetétől: https://www.nato.int/docu/review/about.html

    Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019. augusztus). A Facebook FAIR WMT19 hírfodítási feladat beadványa. A Negyedik Gépi Fordítási Konferencia előadásai (2. kötet: Megosztott feladatokról szóló tanulmányok, 1. nap), 314-319. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/W19-5333

    Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Gyors, bővíthető eszköztár szekvenciamodellezéshez. A NAACL-HLT 2019 előadásai: Demonstrációk. A Számítógépes Nyelvészetért Egyesület Észak-amerikai Tagozatának 2019-es Konferenciájának előadásai (Demonstrációk), 48-53. o. Minneapolis, MN: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/N19-4009

    Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Módszer a gépi fordítás automatikus értékelésére. A Számítógépes Nyelvészetért Egyesület 40. éves ülésének előadásai (311-318. o.). Philadelphia, PA: A Számítógépes Nyelvészetért Egyesület éves ülése.

    Post, M. (2018. szeptember 12.). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. Amazon Research.

    Rabus, A., & Scherrer, Y. (2017). Lexikon indukció beszélt ruszin nyelvre – Kihívások és eredmények. A 6. Balti-szláv Természetes Nyelvfeldolgozási Műhely előadásai, (27-32. o.). Valencia, Spanyolország.

    Scherrer, Y., & Rabus, A. (2017). Többforrású morfoszintaktikai címkézés beszélt ruszin nyelvre. A Negyedik Műhely előadásai a hasonló nyelvek, változatok és dialektusok NLP-jéről (84-92. o.). Valencia, Spanyolország: Számítógépes Nyelvészetért Egyesület. doi:http://dx.doi.org/10.18653/v1/W17-1210

    Scherrer, Y., & Rabus, A. (2019. szeptember). Neurális morfoszintaktikai címkézés ruszin nyelvre. (R. Mitkov, szerk.) Natural Language Engineering, 25(5), 633-650. o. doi:10.1017/S1351324919000287

    Shea, J. (2016. december 5.). Mit tanulhatunk ma a „három bölcstől”? NATO Review. Letöltve 2021. május 26-án innen: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

    UNESCO Ad Hoc Szakértői Csoport a Veszélyeztetett Nyelvekről. (2003). Nyelvi vitalitás és veszélyeztetettség. Nemzetközi Szakértői Találkozó az UNESCO Veszélyeztetett Nyelvek Megőrzési Programjáról. Párizs: UNESCO. Letöltve 2021. június 19-én innen: http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf

    Vasmer, M. J. (é.n.). Az orosz nyelv etimológiai szótára. (O. N. Trubačëv, ford.) Moszkva: AST (Eredeti mű kiadva 1950).

    Watral, M. (2015. február). A lemkók revitalizációja. Znak(717), 38-44. Letöltve 2021. augusztus 24-én innen: https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/

    Watral, M. (2016). Attitűdök a lemkó nyelvvel szemben – minta és megvalósítása. J. Olko, T. Wicherkiewicz, & R. Borges (szerk.) művében, Integrált stratégiák a nyelvi revitalizációhoz (221-260. o.). Varsó, Lengyelország: Varsói Egyetem, „Artes Liberales” Kar. Letöltve 2021. augusztus 24-én innen: http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243

    Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Az Egyesült Nemzetek Párhuzamos Korpusza v1.0. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai, (pp. 3530–3534). Portorož, Szlovénia. Elérhető innen: https://www.aclweb.org/anthology/L16-1561