This site is undergoing a full revamp. Layout may be temporarily broken.

Značka: Revitalizácia jazyka

  • Citácia v TalaMT: Viacjazyčný strojový preklad pre Cabécar-Bribri-španielčinu (Jones et al., MRL-WS 2023)

    Citácia v TalaMT: Viacjazyčný strojový preklad pre Cabécar-Bribri-španielčinu (Jones et al., MRL-WS 2023)

    Je mi cťou, že moja recenzovaná práca Say It Right: Neurónový strojový preklad AI posilňuje nových hovorcov, aby revitalizovali Lemko bola citovaná v decembri 2023 Alexom Jonesom a Rolandom Coto-Solanom z Dartmouth College, ako aj Guillermom Gonzálezom Camposom z Kostarickej univerzity v ich práci TalaMT: Viacjazyčný strojový preklad pre Cabécar-Bribri-španielčinu na strane 107 Zborníka 3. workshopu o viacjazyčnom učení reprezentácií v Singapure.

  • BLEU Skies pre revitalizáciu ohrozených jazykov: Presnosť neurónového prekladu AI Lemko Rusyn and Ukrainian prudko stúpa (2023)

    BLEU Skies pre revitalizáciu ohrozených jazykov: Presnosť neurónového prekladu AI Lemko Rusyn and Ukrainian prudko stúpa (2023)

    Abstrakt

    Zrýchľujúca sa globálna strata jazykov, spojená so zvýšeným výskytom užívania nelegálnych látok, cukrovky 2. typu, nadmerného pitia alkoholu a napadnutí, ako aj šesťnásobne vyššou mierou samovrážd mládeže, predstavuje narastajúcu výzvu pre menšinové, domorodé, utečenecké, kolonizované a imigrantské komunity. V prostrediach, kde je medzigeneračný prenos často narušený, systémy neurónového strojového prekladu s umelou inteligenciou majú potenciál revitalizovať dedičné jazyky a posilniť nových hovorcov tým, že im umožnia porozumieť a byť pochopení prostredníctvom okamžitého prekladu. Riešenia umelej inteligencie však predstavujú problémy, ako sú neúmerné náklady a problémy s kvalitou výstupu. Riešením je prepojiť neurónové enginy s klasickými, na pravidlách založenými, ktoré umožňujú inžinierom očistiť text od výpožičiek a neutralizovať interferenciu dominantných jazykov. Táto práca opisuje prepracovanie enginu nasadeného na LemkoTran.com, aby umožnil preklad do a z Lemko, vážne ohrozeného menšinového dialektu ukrajinskej genetickej klasifikácie, pôvodného pre pohraničné oblasti medzi Poľskom a Slovenskom (kde sa tiež označuje ako Rusínčina). Prekladové moduly založené na slovníkoch boli vybavené morfologicky a syntakticky informovanými generátormi podstatných mien, slovies a prídavných mien, poháňanými 877 lemami spolu so 708 glosárovými záznamami, a celý systém bol podrobený 9 518 automatickým, kódifikačne referenčným testom kontroly kvality, ktoré museli prejsť. Výsledkom tejto práce je 23 % zlepšenie kvality prekladu do angličtiny od poslednej publikácie a 35 % zvýšenie kvality prekladu z angličtiny do Lemko, poskytujúc preklady, ktoré prekonávajú každú službu Google Translate vo všetkých metrikách a dosahujú o 396 % vyššie skóre ako ukrajinská služba Google pri preklade do Lemko.

    Please cite as:

    Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    1 Úvod

    1.1 Problém

    Jazyky zanikajú tempom minimálne jedného za kalendárny štvrťrok, pričom táto strata sa má do roku 2062 strojnásobiť a do roku 2100 päťnásobne zvýšiť, čo ovplyvní viac ako 1 500 jazykových komunít [1, str. 163 a 169]. Takéto výsledky sú spojené so zvýšeným výskytom užívania nelegálnych látok [2, str. 179], cukrovky 2. typu [3], nadmerného pitia alkoholu a napadnutí [4], ako aj šesťnásobne vyššou mierou samovrážd mládeže, ak menej ako polovica členov komunity ovláda jazyk [5].

    Nedávna štúdia v Spojených štátoch zistila, že používanie domorodých jazykov má pozitívne účinky na zdravie, bez ohľadu na úroveň znalosti [6]. Experiment na hovorcoch v Poľsku zistil, že používanie Lemko zmierňuje emocionálne, behaviorálne a depresívne symptómy vyplývajúce z kognitívnej dostupnosti traumy [7].

    Strojový preklad s umelou inteligenciou môže pomôcť rozšíriť spomínané ochranné účinky na hovorcov dedičných jazykov revitalizáciou umierajúcich a spiacich jazykov [8, str. 577]. Napríklad noví hovorcovia môžu okamžite vytvárať správny text a tešiť sa z porozumenia čítaného textu pomocou automatických strojových prekladových zariadení ako pomôcky, kým nedosiahnu plnú, nezávislú plynulosť.

    1.2 Študovaný systém

    Jazyk

    Lemko je definitívne až vážne ohrozený [9, str. 177–178] východoslovanský dialekt juhozápadnej ukrajinskej genetickej klasifikácie [10, str. 52; 11, str. 39], pôvodný pre pohraničné oblasti medzi Poľskou republikou a Slovenskou republikou; niektorí ho označujú ako Rusínčina [11, str. 39; 12].

    Východné hranice

    Jedinečnou izoglosou odlišujúcou Lemko na východe je pevný paroxytonický (predposledná slabika) prízvuk, vlastnosť zdieľaná s poľskými a východoslovenskými dialektmi [10, str. 161–162 a 972–973; 11, str. 50; 13, str. 70–73], čím sa jeho rozsah na východnom Slovensku rozprestiera minimálne po rieku Laborec, s prechodnou zónou siahajúcou ďalej [13, str. 70; 11, str. 50]. Medzitým v Poľsku historický rozsah Lemko siaha minimálne po rieky Osławica alebo Wisłok, s prechodnou zónou za nimi [11, str. 50].

    Západné hranice

    Historické západné hranice Lemko sú rieky Poprad a Dunajec [14, str. 459].

    Lokalita

    Pôvodné dediny rodených hovorcov, ktorých rozhovory tvoria korpus, sa nachádzajú v súčasných administratívnych hraniciach dnešného Malopoľského vojvodstva, ktorého hlavným mestom je Krakov.

    Názov LemkoTransliteráciaPoľský názovOkresné sídloSídlo obce
    ІзбыIzbŷIzbyGorliceUście Gorlickie
    ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
    ЧорнеČorneCzarneGorliceSękowa
    ДолгеDolheDługieGorliceSękowa
    БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
    ФльоринкаFlʹorynkaFlorynkaNowy SączGrybów
    ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
    Tabuľka 1. Pôvodné dediny rodených hovorcov, s ktorými sa uskutočnili rozhovory v korpusovom materiáli.

    2 Stav techniky

    Minulý rok boli zverejnené prvé výsledky hodnotenia kvality strojových prekladov do Lemko: BLEU 6.28, čo bolo takmer trojnásobok výsledku ukrajinskej služby Google Translate[1] (BLEU 2.17) [15, str. 570]. Rok predtým sme s kolegami publikovali a predstavili prvé svetové výsledky strojového prekladu z Lemko do angličtiny: BLEU 14.57 [16].


    [1] Zverejnenie: Pracujem ako platený špecialista na kontrolu kvality prekladov z ukrajinčiny, poľštiny a ruštiny pre projekt Google Translate. Sídlo môjho klienta je v San Franciscu v Kalifornii.

    Engine bol nasadený a sprístupnený zadarmo na univerzálnom lokátore zdrojov https://www.LemkoTran.com, kde je transliteračný engine v prevádzke od jesene 2017. Na prekladový engine prvýkrát v tlači poukázali Dr. Scherrer a Rabus v časopise Cambridge University Press Natural Language Engineering v roku 2019 [17].

    3 Materiály a metódy

    3.1 Materiály

    Experiment bol vykonaný na bilingválnom korpuse, ktorý zahŕňal lemkovské cyrilské prepisy a anglické preklady rozhovorov s preživšími a deťmi nútených presídlení z pôvodných zemí v Poľsku. Prepisy a ich preklady[1] boli zarovnané naprieč 3 267 segmentmi, pričom Microsoft Word uviedol počet slov v zdrojovom texte Lemko 68 944 a v cieľovom texte angličtiny 81 188.


    [1] Bol som najatý na vyhotovenie prepisov a ich preklad nadáciou John and Helen Timo Foundation z Wilmingtonu, Delaware, ktorá následne darovala výsledky práce na moje vedecké výskumné a vývojové úsilie.

    Zdroje pravdy zahŕňali slovníky Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudu [20] a Janusza Riegera [21], ako aj gramatiky Henryka Fontańského a Mirosławy Chomiak [22] a Petra Pyrteja [23].

    3.2 Metódy

    Vylepšenia enginu

    Pre tento experiment bol engine nasadený na LemkoTran.com vybavený novo vybudovanými generátormi informovanými o slovnom druhu, gramatickom páde a čísle za účelom vytvárania gramaticky a syntakticky vhodných prekladov pre 1 585 slovníkových záznamov, z ktorých približne polovica sa neskloňuje v poľštine ani v Lemko, čo umožňuje jednoduchú substitúciu.

    Testy zabezpečenia kvality

    Kvalita bola zabezpečená 9 518 testami, ktoré boli, ak to bolo možné, krížovo odkazované na lemkovské kodifikácie, gramatiky a slovníky uvedené vyššie pod Materiály. Samotné testy potvrdzujú, že systém prekladá dané výpovede požadovaným spôsobom.

    PopisMnožstvo
    Koreň podstatného mena414
    Koreň slovesa296
    Koreň prídavného mena167
    Zámeno, osobné87
    Zámeno, iné178
    Číslovka86
    Ostatné slovníkové záznamy357
    Spolu1,585
    Tabuľka 2. Systémová slovná zásoba.

    Strojový preklad založený na pravidlách (RMBT)

    Textu bol dodaný lemkovský alebo poľský vzhľad a dojem nahradením sekvencií znakov, a najmä flektívnych koncoviek.

    Poľská sekvenciaLemkovská sekvenciaPozícia
    owaćuwatyKonečný
    iamiiamyKonečný
    ająajutKonečný
    zezoPočiatočný
    podpidPočiatočný
    Tabuľka 3. Príklady nahradení sekvencií znakov.

    Hodnotenie kvality prekladu

    Kvalita prekladu bola meraná podľa priemyselných štandardných metrík s použitím predvolených nastavení nástroja SacreBLEU, ktorý vynašiel Matt Post z Amazon Research [24]. Pre účely porovnateľnosti bola poľština vykreslená v lemkovskej cyrilike rovnakým spôsobom ako v poslednom experimente [15, str. 573].

    Bilingválne hodnotenie (BLEU)

    Táto metrika založená na n-gramoch sa teší širokej popularite už desaťročia. Bola vyvinutá v Spojených štátoch v IBM T. J. Watson Research Center s podporou Defense Advanced Research Projects Agency (DARPA) a pod dohľadom United States Space and Naval Warfare Systems Command (SPAWAR) [25].

    Miera úprav prekladu (TER)

    Táto metrika odráža počet úprav potrebných na to, aby sa výstup sémanticky priblížil správnemu prekladu, s cieľom byť tolerantnejšia k frázovým posunom ako BLEU a iné metríky založené na n-gramoch. Určuje sa vydelením výpočtu editačnej vzdialenosti medzi hypotézou a referenciou priemerným počtom slov referencie. Jej vývoj v Spojených štátoch bol tiež podporený DARPA [26].

    F-skóre znakových n-gramov (chrF)

    Ukázalo sa, že táto európska metrika veľmi dobre koreluje s ľudskými posudkami a dokonca prekonáva BLEU aj TER [27].

    4 Výsledky a diskusia

    Experimentálny systém LemkoTran.com prekonal každú službu Google Translate vo všetkých metrikách. Skóre kvality prekladu BLEU z angličtiny do Lemko sa zlepšilo o 35 % v porovnaní s poslednými publikovanými výsledkami [15], čím sa dosiahli výsledky štyrikrát lepšie ako ďalšia najlepšia ponuka Google Translate, jej ukrajinská služba. Medzitým sa kvalita prekladu z Lemko do angličtiny zlepšila o 23 % od posledných publikovaných výsledkov [16], dosahujúc skóre BLEU o 16 % vyššie ako najlepšie dosiahnuté Google Translate, ktorá automaticky rozpoznala Lemko ako ukrajinčinu v 76 % prípadov, ako ruštinu v 16 % prípadov a ako bieloruštinu v 6 % prípadov.

    4.1 Kvalita prekladu z angličtiny do Lemko

    Skóre

    Engine nasadený na LemkoTran.com prekonal Google Translate vo všetkých metrikách pri preklade z angličtiny do Lemko. Ďalší najvyššie bodovaný systém v experimente bol buď výstup ukrajinskej služby Google Translate (používajúci metriky BLEU alebo chrF), alebo jej poľskej služby (používajúci metriku TER).

    BLEU

    Kvalita prekladu systému nasadeného na LemkoTran.com, meraná najrozšírenejšou metrikou BLEU, vzrástla na 8,48, čo predstavuje 35 % zlepšenie oproti výsledkom naposledy publikovaným v roku 2022 [15], a teraz štvornásobok najvyššieho skóre Google Translate.

    Obr. 1. Kvalita prekladu z angličtiny do Lemko meraná skóre Bilingual Evaluation Understudy (BLEU), služby neurónového strojového prekladu Google Cloud (NMT) verzus LemkoTran.com. Čím vyššie, tým lepšie.
    chrF

    Engine LemkoTran.com dosiahol najlepšie f-skóre znakových n-gramov z angličtiny do Lemko (chrF 37,30), čo je o 37 % viac ako ďalšia najlepšia, ukrajinská služba Google Translate. Medzitým ruská služba Google Translate dosiahla vyššie skóre ako jej poľské a bieloruské náprotivky, keď sa merala voči lemkovskému korpusu touto metrikou.

    Obr. 2. Kvalita prekladu z angličtiny do Lemko meraná F-skóre znakových n-gramov (chrF), neurónový strojový preklad Google Cloud (NMT) verzus experimentálny systém LemkoTran.com. Čím vyššie, tým lepšie.
    TER

    Engine LemkoTran.com dosiahol najlepšiu mieru úprav prekladu z angličtiny do Lemko (TER), s výsledkom 81,33. Poľská služba Google Translate dosiahla druhé najlepšie skóre, tesne nasledovaná ukrajinskou.

    Obr. 3. Miera úprav prekladu z angličtiny do Lemko (TER), neurónový strojový preklad Google Cloud (NMT) verzus LemkoTran.com. Čím nižšie, tým lepšie.

    Vzorky

    Výstup z prekladových systémov pri vstupe v angličtine je uvedený nižšie.

    VstupNaše deti boli tiež múdre. Ale kde sa mali učiť?
    PopisVýstupTransliteráciaSkóre kvality
    Lemkovská referencia
    (rodený hovorca)
    В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
    chrF2 100
    TER 0
    Preklad do Lemko od
    LemkoTran.com
    Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
    chrF2 79,03
    TER 27,27
    Google Translate (kontrola)Preklad do ukrajinčinyНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4,41
    chrF2 25,80
    TER 72,73
    Preklad do ruštinyНаши дети тоже были умными. Но где им было учиться? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3,71
    chrF2 16,95
    TER 90,91
    Preklad do poľštinyНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3,12
    chrF2 13,84
    TER 100
     Preklad do bieloruštinyРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3,09
    chrF2 12,83
    TER 100
    Tabuľka 4. Porovnania prekladových hypotéz pre anglický vstup.
    VstupA všeobecne povedané, Lemkovia v Poľsku nemajú lídra, takpovediac, ktorý by niečo povedal.
    PopisProduktTransliteráciaSkóre kvality
    Lemkovská referencia (rodený hovorca)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Preklad do Lemko od LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral’ni Lemkŷ v Pol’ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
    chrF2 65,32
    TER 29,41
    Google Translate (kontrola)Preklad do poľštinyІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos‘ povjedzjal.BLEU 9,26
    chrF2 29,29
    TER 82,35

    Preklad do ukrajinčinyІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
    chrF2 26,56
    TER 82,35
    Preklad do ruštinyИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
    chrF2 25,87
    TER 88,24
     Preklad do bieloruštinyІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
    chrF2 18,05
    TER 94,12
    Tabuľka 5. Porovnania prekladových hypotéz pre anglický vstup.

    Preklad z Lemko do angličtiny

    Skóre

    Pri každej metrike systém nasadený na LemkoTran.com prekonal Google Translate, pre ktorý bol preklad akoby zo štandardnej ukrajinčiny vždy druhý najlepší, nasledovaný automatickou detekciou zdrojového jazyka, potom prekladom akoby z bieloruštiny a potom z poľštiny, pričom ruština bola vždy na poslednom mieste. Google Translate rozpoznal Lemko ako ukrajinčinu v 76 % prípadov, ako ruštinu v 16 % prípadov, ako bieloruštinu v 6 % prípadov a ako rôzne jazyky používajúce cyriliku (napr. mongolčinu) po zvyšok času.

    BLEU

    LemkoTran.com dosiahol skóre BLEU 17,95 pri preklade do angličtiny, čo predstavuje 23 % zlepšenie oproti posledným publikovaným výsledkom BLEU 14,57 a o 16 % viac ako skóre BLEU 15,43 ukrajinskej služby Google Translate.

    Obr. 4. Kvalita prekladu z Lemko do angličtiny meraná skóre Bilingual Evaluation Understudy (BLEU), služby Google Cloud Neural Machine Translation (NMT) verzus experimentálny systém LemkoTran.com. Čím vyššie, tým lepšie.
    chrF

    Systém nasadený na LemoTran.com dosiahol f-skóre znakových n-gramov (chrF) 45,89 pri preklade do angličtiny, čo bolo o 5 % lepšie ako skóre ukrajinskej služby Google Translate.

    Obr. 5. Kvalita prekladu z Lemko do angličtiny meraná skóre F-skóre znakových n-gramov (chrF), Google Cloud Neural Machine Translation (GNMT) verzus experimentálny systém LemkoTran.com. Čím vyššie, tým lepšie.
    TER

    LemkoTran.com dosiahol mieru úprav prekladu (TER) 70,38 pri preklade do angličtiny, čo bolo o 7 % lepšie ako skóre ukrajinskej služby Google Translate.

    Obr. 6. Miera úprav prekladu z Lemko do angličtiny (TER), Google Cloud Neural Machine Translation (GNMT) verzus experimentálny systém LemkoTran.com. Čím nižšie, tým lepšie.

    Vzorky

    Výstup z prekladových systémov pri vstupe v angličtine je uvedený nižšie.

     PopisProduktKvalita
    Skóre
    Vstupná transkripcia Lemko hovoreného rodeným hovorcomЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.n/a
    TransliteráciaJak rozdiljame jazŷkŷ, to mala-m kontakt z pol’skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol’skoho, bo zme maly susidiv Poljakiv.n/a
    Referenčný preklad od bilingválneho profesionálaPokiaľ ide o rozdeľovanie jazykov, mala som kontakt s poľštinou. Nebolo to tak, že by som išla do školy bez znalosti poľštiny, pretože sme mali poľských susedov. BLEU 100
    chrF2 100
    TER 0
    Preklad z Lemko systémom na LemkoTran.comKeď rozdeľujeme jazyky, mala som kontakt s poľštinou, nebolo to tak, že by som išla do školy bez poľštiny, pretože sme mali poľských susedov.BLEU 45,84
    chrF2 69,60
    TER 32,00
    Google Translate (kontrola)z ukrajinčiny (automaticky detekované s 92 % spoľahlivosťou)Keď rozdeľujeme jazyky, potom som mala kontakt s poľštinou, potom to nebolo tak, a išla som do školy bez poľštiny, pretože som mala Poliakov za susedov.BLEU 15,87
    chrF2 54,38
    TER 72,00
    z bieloruštinyKeď oddeľujeme jazyky, potom som mala malý kontakt s poľštinou, potom to nebolo tak, ale išla som do školy bez poľštiny, pretože sme mali málo poľských susedov.BLEU 11,76
    chrF2 58,92
    TER 68,00
    z ruštinyKeď šírime jazyky, potom bol malý kontakt s poľštinou, potom to nebolo tak, ale išla som do školy bez poľštiny, lebo hady boli sucid v Polyakiv.BLEU 6,87
    chrF2 42,66
    TER 92,00
    z poľštinyKeď šírim jazyk, mám malý kontakt s poľským jazykom, nebolo to tak, že by som išla do školy bez poľštiny, pretože zmením svoj malý poľský jazyk.BLEU 5,02
    chrF2 45,35
    TER 84,00
    Tabuľka 6. Porovnania prekladových hypotéz pre vstup v Lemko.

    5 Záver

    Spojenie morfologicky a syntakticky informovaných generátorov s neurónovými systémami môže zlepšiť kvalitu strojového prekladu minimálne o tretinu, pričom má aj vedľajší prínos v tom, že umožňuje inžinierom odstraňovať výpožičky a pôsobiť proti iným interferenciám dominantného jazyka, ako aj zabezpečiť súlad s normami, ako sú kodifikácie menšinových jazykov. Sklenené stropy kvality skóre, ktoré sú spôsobené nedokonalosťami vlastnými modelom umelej inteligencie, môžu byť tiež prekonané prostredníctvom spoľahlivého inžinierstva. Pre Lemko, ako aj pre ďalšie málo zdrojové, pôvodné menšinové jazyky, je teraz obloha limitom pre kvalitu prekladu, ako aj pre revitalizačné revolúcie, ktoré sú už na obzore.

    Poďakovanie

    Rád by som poďakoval Dr. Ming Qianovi z Charles River Analytics za inšpiráciu k uskutočneniu tohto experimentu, Michaelovi Decerbovi z Raytheon BBN Technologies a Dr. Jamesovi Joshuovi Penningtonovi za ich cenné poznámky, ako aj Dr. Yvesovi Scherrerovi z Helsinskej univerzity za jeho záujem o projekt a nápady.

    Referencie

    1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globálne prediktory ohrozenia jazykov a budúcnosť jazykovej rozmanitosti. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Jazyk ako sprostredkovateľ kultúrneho spojenia. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Kultúrna kontinuita, tradičný domorodý jazyk a diabetes u Prvých národov Alberty: štúdia zmiešanými metódami. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Kultúra, dedičstvo a voľný čas: Hovorenie jazykmi domorodcov a obyvateľov Torres Strait. In: 4725.0 – Blahobyt domorodcov a obyvateľov Torres Strait: Zameranie na deti a mládež. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
    5. Hallett, D., Chandler, M., Lalonde, C.: Znalosť domorodého jazyka a samovraždy mládeže. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Zdravotné účinky používania a revitalizácie domorodých jazykov: realistický prehľad. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: Dvojaká úloha menšinového jazyka v historickej traume: Prípad lemkovskej menšiny v Poľsku. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Čerokíjsko-anglický strojový preklad pre revitalizáciu ohrozených jazykov. In: Zborník príspevkov z konferencie o empirických metódach v spracovaní prirodzeného jazyka (EMNLP) 2020, s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (v poľštine). In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.) Integrálne stratégie pre revitalizáciu jazyka, 1. vyd., s. 175–200. Faculty of “Artes Liberales”, University of Warsaw, Varšava (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Shevelov, G.: Historická fonológia ukrajinského jazyka (ukrajinský preklad). Vakulenko, S., Danylenko, A. (prekl.), Ushkalov, L. (red.). Naukove vydavnyctvo “AKTA”, Charkov (2002, pôvodné dielo publikované 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx“ dialektiv v Karpatax (v rusínčine). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39–66. 2. vyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (v rusínčine). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2. vyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Vaňko, J.: Rusínsky jazyk na Slovensku: medzi kladivom a nákovou. In: Duchêne, A. (ed.) International Journal of the Sociology of Language, vol. 2007, č. 183, s. 75–96. Walter de Gruyter GmbH, Berlín (2007). https://doi.org/10.1515/IJSL.2007.005
    14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (v ukrajinčine). In: Skrypnyk, H. (ed.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kyjev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Orynycz, P.: Say It Right: AI neurónový strojový preklad posilňuje nových hovorcov pri revitalizácii Lemko. In: Degen, H., Ntoa, S. (eds.) Umelá inteligencia v HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336, s. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Áno, hovorím… AI neurónový strojový preklad vo viacjazyčnom tréningu. In: Zborník príspevkov z konferencie Interservice/Industry Training, Simulation, and Education (I/ITSEC) 2021, príspevok č. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Scherrer, Y., Rabus, A.: Neurónové morfosyntaktické značkovanie pre rusínčinu. In: Mitkov, R., Tait, J., Boguraev, B. (eds.) Natural Language Engineering, vol. 25, č. 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (v poľštine). Rutenika, Varšava (2004).
    19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (v ukrajinčine). Siversiya MV, Ivano-Frankivsk (2004).
    20. Duda, I.: Lemkivsʹkyj slovnyk (v ukrajinčine). Aston, Ternopil (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (v poľštine). Wydawnictwo naukowe Semper, Varšava (1995).
    22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (v poľštine). Wydawnictwo Naukowe „Śląsk”, Katovice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (v poľštine). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
    24. Post, M.: Výzva na jasnosť pri uvádzaní skóre BLEU. In: Zborník príspevkov z Tretej konferencie o strojovom preklade (WMT), vol. 1, s. 186–191. Association for Computational Linguistics, Brusel (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Metóda pre automatické hodnotenie strojového prekladu. In: Zborník príspevkov zo 40. výročného stretnutia Asociácie pre počítačovú lingvistiku (ACL 02), s. 311–318. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
    26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: Štúdia miery úprav prekladu s cielenou ľudskou anotáciou. In: Zborník príspevkov zo 7. konferencie Asociácie pre strojový preklad v Amerike: Technické práce, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
    27. Popović, M.: chrF: F-skóre znakových n-gramov pre automatické hodnotenie MT. In: Zborník príspevkov z Desiateho workshopu o štatistickom strojovom preklade, s. 392–395. Association for Computational Linguistics, Lisabon (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Say It Right: Umelý preklad neurónových strojov posilňuje nových hovorcov na oživenie Lemko (2022)

    Say It Right: Umelý preklad neurónových strojov posilňuje nových hovorcov na oživenie Lemko (2022)

    Abstrakt

    Neurónový strojový preklad poháňaný umelou inteligenciou by mohol čoskoro oživiť ohrozené jazyky tým, že umožní novým hovorcom komunikovať v reálnom čase pomocou viet, ktoré sú kvantitatívne bližšie k literárnej norme ako vety rodených hovorcov, a to už od prvého dňa ich cesty k obnove jazyka. Zatiaľ čo Silicon Valley investuje obrovské zdroje do technológie neurónového prekladu schopnej nadľudskej rýchlosti a presnosti pre najpoužívanejšie jazyky sveta, 98 % z nich zostalo pozadu, kvôli nedostatku korpusov: modely neurónového strojového prekladu sa trénujú na miliónoch slov dvojjazyčného textu, ktoré pre väčšinu jazykov jednoducho neexistujú a ich zostavenie stojí státisíce amerických dolárov za jeden jazyk.

    Pre jazyky s nízkymi zdrojmi existuje vynaliezavejší prístup, ak nie efektívnejší: prenosové učenie, ktoré umožňuje jazykom s nižšími zdrojmi profitovať z úspechov jazykov s vyššími zdrojmi. V tomto experimente bola služba neurónového prekladu Google z angličtiny do poľštiny spojená s mojím klasickým, pravidlami riadeným motorom na preklad z angličtiny do ohrozeného, nízkoresursového, východoslovanského jazyka Lemko. Systém dosiahol skóre kvality dvojjazyčného hodnotenia (BLEU) 6,28, čo je niekoľkonásobne lepšie ako služby Google Translate z angličtiny do štandardnej ukrajinčiny (BLEU 2,17), ruštiny (BLEU 1,10) a poľštiny (BLEU 1,70). Nakoniec bol výsledok tohto experimentu, prvá prekladateľská služba z angličtiny do Lemko na svete, sprístupnený na webovej adrese www.LemkoTran.com, aby umožnil novým hovorcom oživiť ich jazyk.

    Noví hovorcovia sú kľúčom k oživeniu jazyka a možnosť „povedať to správne“ v Lemko je teraz na dosah ruky.

    Kľúčové slová: Umelá inteligencia zameraná na človeka, revitalizácia jazyka, Lemko.

    Prosím, citujte ako: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    1 Úvod

    1.1. Problémy

    Tento experiment si kladie za cieľ prispieť na miestnej úrovni k globálnemu problému straty jazykov, ku ktorej môže dochádzať rýchlosťou jedného jazyka denne, pričom prežiť má len jeden z desiatich jazykov [1, s. 1329]. V čase tlače používa SIL International’s Ethnologue rozšírenú stupňovanú škálu medzigeneračného narušenia Lewis a Simons z roku 2010 na odhad, že 3 018 jazykov je ohrozených [2], čo je 43 % zo 7 001 jednotlivých živých jazykov zaznamenaných v čase tlače v norme Medzinárodnej organizácie pre normalizáciu ISO 639-3 [3]. Medzitým Google Translate obsluhuje len 108 [4] a Facebook 112 [5], čo je začiatok. Napriek tomu je teraz jeden jazyk menej nedostatočne obsluhovaný, keďže výsledok tohto experimentu bol nasadený na webový server ako verejná prekladateľská služba.

    Nové technológie umelej inteligencie lákajú prísľubom pomoci, ktorá okamžite kompenzuje stratu jazyka prostredníctvom interakcie človek-počítač. V mojom predchádzajúcom experimente dosiahli neurónové motory novej generácie vyššie skóre kvality pri preklade z ruštiny a poľštiny do angličtiny ako ľudská kontrola [6, s. 9]. Medzitým Facebook a Google1 investovali obrovské zdroje do poskytovania lepších ako ľudských automatických prekladateľských systémov s nulovými nákladmi pre spotrebiteľa.

    1 Zverejnenie: Pracujem ako platený lingvista a špecialista na kontrolu kvality prekladu pre projekt Google Translate v ruštine, poľštine a ukrajinčine; sídlo je v San Franciscu.

    Nadľudská umelá inteligencia nie je lacná: tréning neurónových jazykových modelov si vyžaduje dvojjazyčné korpusy s počtom slov v stovkách tisíc, a ideálne miliónoch, čo by stálo státisíce dolárov na preklad, sumy presahujúce možnosti väčšiny jazykových komunít s nízkymi zdrojmi. Našťastie, tento experiment ukazuje, že existujú vynaliezavejšie a efektívnejšie spôsoby, ako reagovať na výzvu vytvárania prekladateľských pomôcok na revitalizáciu ohrozených jazykov v prostredí s nízkymi zdrojmi.

    1.2 Doterajšia práca

    Vytvoril som prvý systém strojového prekladu z Lemko do angličtiny na svete a sprístupnil som ho verejnosti. Jeho objektívne skóre kvality prekladu sa zlepšuje: motor dosiahol skóre dvojjazyčného hodnotenia (BLEU) 14,57 v lete 2021, ako bolo prezentované odborníkom na konferencii Interservice/Industry Training, Simulation and Education Conference Národnej asociácie obranného priemyslu a publikované v jej zborníku [6]. Pre porovnanie, ako ľudský prekladateľ pracujúci v terénnych podmienkach, odrezaný od vonkajšieho sveta, som dosiahol BLEU 28,66. Do jesene 2021 motor dosiahol BLEU 15,74, ako bolo oznámené lingvistom, akademikom a širšej komunite na podujatí, ktoré usporiadala University of Pittsburgh.2

    2 Zverejnenie: podujatie sponzorovala Karpatsko-rusínska spoločnosť (Pensylvánia) a University of Pittsburgh mi zaplatila za moju prezentáciu.

    1.3 Študovaný systém

    Lemko je definitívne až vážne ohrozený [6, s. 3, 7, s. 177-178], nízkoresursový [8], oficiálne uznaný menšinový jazyk [9], pravdepodobne pôvodný pre cezhraničné vysočiny južne od metropolitných oblastí Krakova, Tarnova a Rzeszowa; historické vymedzujúce izoglosy budú, dúfajme, témou budúcej práce. Poľský štatistický úrad v roku 2011 zaznamenal 6 279 obyvateľov, pre ktorých bolo Lemko jazykom „zvyčajne používaným doma“ (aj keď okrem poľštiny) [10, s. 3], čo predstavuje 12 % nárast oproti 5 605, pre ktorých bolo Lemko „najčastejšie hovoreným jazykom doma“ v roku 2002 [11, s. 6, 12, s. 7]. V čase tlače sa výsledky nového sčítania sčítavajú.

    Lemko je klasifikovateľné ako východoslovanský jazyk, pretože spĺňa obvyklé kritériá genetických štrukturálnych znakov, z ktorých najvýznamnejším je pleofónia [13, s. 20], pri ktorej sa predpokladá, že samohláska vznikla v praslovanských sekvenciách spoluhlásky C nasledovanej strednou alebo nízkou samohláskou V (*e, alebo *o, s ktorou sa *a zlúčilo [14, s. 366]), nasledovanej likvidou R (t.j. *l alebo *r), nasledovanou ďalšou spoluhláskou C, t.j. CVRC > CVRVC. Na ilustráciu porovnajte staroanglické slovo pre „topiť“, meltan (CVRC) [15, s. 718] s jeho predpokladaným lemkovským príbuzným mołódyj [16, s. 92, 17, s. 150] (CVRC), čo znamená „mladý“. Medzi ďalšie východoslovanské príbuzné patria ukrajinské mołodýj a ruské mołodój [17], obe vykazujúce samohlásku po likvide (CVRVC). Medzitým západoslovanské jazyky nemajú samohlásku pred likvidou; porovnajte poľské młody a slovenské mladý (obe CRVC) [17]. Ďalej sa predpokladá príbuznosť pre iné slová preložiteľné ako „mierny“, vrátane sanskritského mṛdú (CRC) [18, s. 830] a latinského mollis (CVRC ak z *moldvis) [15, 17, 19, s. 323].

    V tomto experimente sa nehodnotilo, ako dobre Lemko spĺňa obvyklé, moderné ukrajinské kritériá genetických štrukturálnych znakov. Avšak, podobnosť medzi Lemko a štandardnou ukrajinčinou bola kvantifikovaná, po prvýkrát v tlači, o ktorej viem. Nižšie, môj Lemko motor dosiahol skóre BLEU 6,28, takmer trikrát vyššie ako skóre ukrajinčiny Google Translate s BLEU 2,17. Ďalšie experimenty by sa mohli vykonať za účelom kvantifikácie podobnosti medzi Lemko, štandardnou ukrajinčinou, poľštinou a rusínčinou, ako je kodifikovaná na Slovensku, ako aj nový pohľad na typologickú klasifikáciu Lemko.

    Množstvo a kvalita zdrojov sa zlepšuje, rovnako ako vynaliezavosť posilnená technológiou. Všetky známe dvojjazyčné korpusy, obsahujúce menej ako sedemdesiattisíc lemkovských slov, boli zhromaždené pre tento experiment. Čistím dvojjazyčný korpus prepisov rozhovorov vedených s rodenými hovorcami v Poľsku a mojich prekladov do angličtiny, ktoré mi zaplatil americký klient a povolil mi ich použiť. Taktiež zostavujem monolingválne korpusy, ktoré v čase tlače celkovo obsahujú 534 512 slov.

    1.4 Hypotéza

    Na základe môjho subjektívneho dojmu ako profesionálneho prekladateľa, že rodení hovorcovia Lemko, s ktorými som robil rozhovory v Poľsku, s väčšou pravdepodobnosťou používali slová s očividnými poľskými príbuznými ako štandardné ukrajinské, som predpokladal, že za inak rovnakých podmienok by sa stroj mohol nakonfigurovať na preklad do Lemko z angličtiny a dosiahnuť objektívne skóre kvality BLEU vyššie ako služby Google Translate pre ukrajinčinu a ruštinu.

    1.5 Predpovede

    Prekladateľský systém Lemko. Predpokladal som, že vyššie uvedený prekladateľský systém dosiahne skóre BLEU 15 pri preklade do Lemko z angličtiny oproti dvojjazyčnému korpusu.

    Google Translate.

    Služba z angličtiny do ukrajinčiny. Predpokladal som, že služba Google Translate z angličtiny do ukrajinčiny dosiahne skóre BLEU 10 oproti dvojjazyčnému korpusu.

    Služba z angličtiny do ruštiny. Predpokladal som, že služba Google Translate z angličtiny do ruštiny dosiahne skóre BLEU 1 oproti dvojjazyčnému korpusu.

    1.6 Metódy a zdôvodnenie

    V záujme rýchlosti, úspory zdrojov a robustnosti bol notebook, ktorý môj zamestnávateľ vyradil ako zastaraný, nakonfigurovaný na preklad do Lemko a na volanie služby Google Cloud Platform Google Translate, ako aj na vyhodnocovanie uvedených prekladov pomocou priemyselného štandardu BLEU.

    1.7 Hlavné výsledky

    Prekladateľský systém z angličtiny do Lemko dosiahol kumulatívne skóre BLEU 6.28431824990417. Medzitým služba Google Translate pre ukrajinčinu dosiahla BLEU 2.16830846776652, jej služba pre ruštinu BLEU 1.10424105952048 a kontrola poľštiny prepísanej do cyriliky BLEU 1.70036447680114.

    2 Materiály a metódy

    Vyššie uvedená hypotéza bola testovaná výpočtom skóre kvality BLEU pre každý prekladateľský systém nastavený spôsobom podrobne opísaným nižšie.

    2.1 Nastavenie

    Hardvér. Experiment sa uskutočnil na notebooku HP Elitebook 850 G2 s procesorom Core i7-5600U 2,6 GHz a 16 gigabajtami pamäte RAM. Môj zamestnávateľ ho vyradil ako zastaraný a v čase tlače bol ponúkaný na predaj za 450 USD.

    Konfigurácia. V menu základného vstupno-výstupného systému (BIOS) bolo zariadenie nakonfigurované tak, aby umožňovalo technológiu virtualizácie (VTx).

    Operačný systém. Windows 10 Professional 64 bit bol nainštalovaný na holý hardvér. Bolo zabezpečené, aby boli povolené funkcie Windows Virtual Machine Platform a Windows Subsystem for Linux. Následne boli nainštalované WSL2 Linux kernel update for x64 stroje (wsl_update_x64.msi) dostupné od spoločnosti Microsoft na https://aka.ms/wsl2kernel.

    Softvér. Inštalátor Docker Desktop pre Windows verzie 4.4.3 (73365) bol stiahnutý z https://www.docker.com/get-started a spustený s možnosťou Install required Windows components for WSL 2 selected.

    Balíčky. Experiment závisel od nižšie uvedených balíkov z Python Package Index.

    SacreBLEU. Verzia 2.0.0 bola nainštalovaná pomocou balíka Python zdokumentovaného na nasledujúcom univerzálnom lokátore zdrojov (URL):
    https://pypi.org/project/sacrebleu/2.0.0/

    Klientska knižnica Google Cloud Translation API. Verzia 2.0.1 bola nainštalovaná pomocou balíka Python zdokumentovaného na univerzálnom lokátore zdrojov (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

    Vyššie uvedené závislosti boli špecifikované v súbore požiadaviek nasledovne:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Kontajner.

    Zostavenie. Experiment bol spustený v kontajneri Docker s najnovšou verziou programovacieho jazyka Python, ktorá bola v tom čase verzia 3.10.2, bežiaca na operačnom systéme Debian Bullseye 11 Linux architektúry AMD64, so skráteným digestom Secure Hash Algorithm 2 bcb158d5ddb6, získateľným pomocou nasledujúceho príkazu:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Runtime. Kontajner bol nakonfigurovaný tak, aby ukladal surové experimentálne dátové súbory do lokálne pripojeného zväzku.

    Hodnotenie kvality prekladu.
    Skóre kvality prekladu bolo vypočítané podľa metriky BLEU pomocou verzie 2.0.0 nástroja SacreBLEU, ktorý vynašiel Post [20].

    Citlivosť na veľké a malé písmená. Hodnotenie sa vykonalo s ohľadom na veľké a malé písmená.

    Tokenizácia. Segmenty boli tokenizované pomocou verzie 13a štandardného skriptu na hodnotenie Workshop on Statistical Machine Translation, interného postupu tokenizácie metriky.

    Metóda vyhladzovania. Použila sa metóda vyhladzovania vyvinutá Národným inštitútom pre štandardy a technológie zamestnancami federálnej vlády Spojených štátov pre ich súpravu nástrojov Multimodal Information Group BLEU, ktorá je treťou technikou opísanou Chenom a Cherrym [21, s. 363], štandardne.

    Podpis. Vyššie uvedené nastavenia vytvorili nasledujúci podpis:
    n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Kalibrácia. Nakonfigurovaný ako vyššie, stroj produkuje nasledujúci výstup:

    Segment 1031.
    Anglický zdrojEverything was there.
    Lemko referencia a transliteráciaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypotéza a transliteráciaВшытко там было.Všŷtko tam bŷlo.
    SkóreBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Vysvetlenie. Hypotetický segment bol identický s referenčným a stroj dosiahol perfektné skóre BLEU 100.

    Segment 179.
    Anglický zdrojI don't remember what year.
    Lemko referencia a transliteráciaНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hypotéza a transliteráciaНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    SkóreBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Vysvetlenie. Hypotéza sa líšila od referencie o dva znaky. Stroj nesprávne preložil časticu negujúcu sloveso, použil slovo pre „nie“ (ni) namiesto očakávaného slova pre „nie“ (ne). To sa odvtedy do značnej miery opravilo. Stroj tiež pridal čiarku za pamjatam, čo znamená „pamätám si“. To znížilo skóre z perfektného skóre 100 na 43,47.

    Kontrola. Keďže korpus je založený na rozhovoroch uskutočnených v Poľsku, preklady do poľštiny boli použité ako kontrola. Boli transliterované do cyriliky obrátením pravidiel pre transliteráciu mien Lemko, ktoré stanovilo poľské Ministerstvo vnútra a administratívy [22, str. 6564]. Poľské nosové samohlásky boli rozložené na samohlásku plus nosovú záverovú spoluhlásku, okrem prípadov pred aproximantmi, kde boli priamo denazalizované. Na konci slova bola predná nosová samohláska /ę/ jednoducho denazalizovaná a zadná /ą/ bola transliterovaná, akoby po nej nasledovala zubná záverová spoluhláska.

    3 Výsledky

    Motor dostupný verejnosti na www.LemkoTran.com obsadil prvé miesto s kumulatívnym skóre kvality prekladu BLEU 6,28, čo je takmer trojnásobok skóre druhého v poradí, služby Google Translate z angličtiny do ukrajinčiny (BLEU 2,17). Ďalej nasledovala jej služba z angličtiny do poľštiny (BLEU 1,70) a jej služba z angličtiny do ruštiny bola na poslednom mieste (BLEU 1,10).

    Tabuľka 1. Kvalita prekladu z angličtiny do Lemko: LemkoTran.com verzus Google Translate

    3.1 Výsledky podľa služby strojového prekladu

    Kontrola. Pri transliterácii do cyriliky dosiahli preklady Google Translate do štandardnej poľštiny skóre BLEU na úrovni korpusu 1,70. Ukážky jeho výkonov sú nasledovné:

    Segment 2174.
    Anglický zdrojWe had still been in Izby, right.
    Lemko referenčný text a transliteráciaТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Poľská hypotéza a transliteráciaБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    SkóreBLEU = 46.20
    Segment 854.
    Anglický zdrojAnd that's what it's all about.
    Lemko referenčný text a transliteráciaІ о то ходит.I o to chodyt.
    Poľská hypotéza a transliteráciaІ о то власьнє ходзі.I o to właśnie chodzi.
    SkóreBLEU = 32.47
    Segment 217.
    Anglický zdrojAnd that's what it's all about.
    Lemko referenčný text a transliteráciaТак мі повіл.Tak mi povil.
    Poľská hypotéza a transliteráciaТак мі повєдзял.Tak mi powiedział.
    SkóreBLEU = 35.36

    Hybridný anglicko-Lemko motor. Motor voľne dostupný verejnosti na URL adrese www.LemkoTran.com dosiahol skóre BLEU na úrovni korpusu 6,28.

    Segment 1031.
    Anglický zdrojEverything was there.
    Lemko referenčný text a transliteráciaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypotéza a transliteráciaВшытко там было.Všŷtko tam bŷlo.
    SkóreBLEU = 100.00
    Segment 1445.
    Anglický zdrojBut that officer took that medal and said,
    Lemko referenčný text a transliteráciaАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hypotéza a transliteráciaАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    SkóreBLEU = 75.06
    Segment 217.
    Anglický zdrojThat's what he said to me.
    Lemko referenčný text a transliteráciaТак мі повіл.Tak mi povil.
    Lemkotran.com hypotéza a transliteráciaТак мі повіл.Tak mi povil.
    SkóreBLEU = 100.00

    Ukrajinčina. Preklady Google Translate do štandardnej ukrajinčiny dosiahli skóre BLEU na úrovni korpusu 2,35.

    Segment 2419.
    Anglický zdrojWhere and when?
    Lemko referenčný text a transliteráciaДе і коли?De i koly?
    Ukrajinská hypotéza a transliteráciaДе і коли?De i koly?
    SkóreBLEU = 100.00
    Segment 1096.
    Anglický zdrojWe were there for three months.
    Lemko referenčný text a transliteráciaТам зме были три місяці.Tam zme bŷly try misiaci.
    Ukrajinská hypotéza a transliteráciaМи були там три місяці.My buly tam try misjaci.
    SkóreBLEU = 30.21
    Segment 2513.
    Anglický zdrojWell, here to the west.
    Lemko referenčný text a transliteráciaНо то ту на захід.No to tu na zachid.
    Ukrajinská hypotéza a transliteráciaНу, тут на захід.Nu, tut na zachid.
    SkóreBLEU = 30.21

    Ruština. Služba Google Translate z angličtiny do ruštiny dosiahla skóre BLEU na úrovni korpusu 1,10.

    Segment 432.
    Anglický zdrojNobody knew.
    Lemko referenčný text a transliteráciaНихто не знал.Nychto ne znal.
    Ruská hypotéza a transliteráciaНикто не знал.Nikto ne znal.
    SkóreBLEU = 59.46
    Segment 2751.
    Anglický zdrojWhat did they expel us for?
    Lemko referenčný text a transliteráciaЗа што нас выгнали?Za što nas vŷhnaly?
    Ruská hypotéza a transliteráciaЗа что нас выгнали?Za čto nas vygnali?
    SkóreBLEU = 42.73
    Segment 2164.
    Anglický zdrojBrother went off to war.
    Lemko referenčný text a transliteráciaБрат пішол на войну.Brat pišol na vojnu.
    Ruská hypotéza a transliteráciaБрат ушел на войну.Brat ušel na vojnu.
    SkóreBLEU = 42.73

    4 Diskusia

    Skóre BLEU na úrovni korpusu pre prekladový systém Lemko 6,28 naznačuje, že hoci je ešte veľa práce, veci sú na správnej ceste. Štandardné ruské skóre BLEU 1,10 naznačuje, že Lemko je menej podobné ruštine ako poľštine (BLEU 1,70). Možno by použitie predrevolučnej ortografie mohlo zvýšiť skóre ruštiny, ale to by bol drahý experiment s malým zjavným prínosom.

    Transliterované štandardné poľské kontrolné skóre podobnosti BLEU 1,70 naznačuje menšie rušenie zo strany dominantného jazyka v Poľsku, než by sa dalo očakávať. Bolo by zaujímavé prepracovať experiment, kde by sa na poľštinu aplikovalo niekoľko výpočtovo nenáročných a zjavných zvukových korešpondencií (napríklad denazalizácia *ę na /ja/ a *ǫ na /u/, retrakcia *i na /y/ a zmena *g na /h/ [23]), aby sa zistilo, či by potom dosiahla vyššie skóre ako štandardná ukrajinčina.

    Zhrnutie: Lemko bolo syntetizované v laboratóriu a možnosť jeho produkcie bola daná do rúk novým aj rodeným hovorcom. Po dôkladnej generálnej oprave motora a rozšírení glosára je ďalším krokom objektívne zmerať a, ak je to možné, nechať hovorcami subjektívne ohodnotiť kvalitu syntetického Lemko v porovnaní s tým, ktoré produkujú rodení hovorcovia. Deň, keď noví hovorcovia jazykov s nízkymi zdrojmi môžu použiť strojový preklad na to, aby začali komunikovať vo svojom jazyku cez noc, je bližšie, rovnako ako deň, keď sa jazyk Lemko pripojí k radom tých, ktoré boli predtým ohrozené, ale teraz sú revitalizované.

    Poďakovanie. Rád by som poďakoval svojmu kolegovi Mingovi Qianovi z Peraton Labs za inšpiráciu k uskutočneniu tohto experimentu a Brianovi Stensrudovi zo Soar Technology, Inc. za to, že nás predstavil, ako aj za jeho povzbudenie.

    Taktiež by som rád poďakoval svojej priateľke Corinne Caudill za jej povzbudenie a osobný záujem o projekt, ako aj za to, že ma predstavila prezidentke Karpatsko-rusínskej spoločnosti Maryann Sivak z University of Pittsburgh, ktorej by som rád poďakoval za príležitosť prezentovať moju prácu.

    Taktiež by som rád poďakoval Marii Silvestri z nadácie John and Helen Timo Foundation za uskutočnenie rozhovorov s rodenými hovorcami Lemko a darovanie prepisov a mojich prekladov na výskum a vývoj.

    Rád by som poďakoval Achimovi Rabusovi z Univerzity vo Freiburgu a Yvesovi Scherrerovi z Helsinskej univerzity za ich záujem o projekt a nápady.

    Taktiež by som rád poďakoval Myhal’ovi Lŷžečkovi z blogu o technológiách menšinových jazykov InterFyisa za jeho skorý záujem o projekt a komunitnú osvetu.

    Taktiež by som rád poďakoval kolegovi, rodákovi zo Zahoczewie, Markovi Łyszykovi za jeho záujem o projekt a komunitnú osvetu.

    Na záver by som rád poďakoval svojmu spoluautorovi a kolegovi z Antech Systems Inc. Tomovi Dobrymu za jeho povzbudenie a vedenie.

    Referencie

    1. ^ Graddol, D.: Budúcnosť jazyka. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Jazyky sveta, SIL International. Dvadsiate štvrté vydanie. SIL International, Dallas (2021). Online verzia: Koľko jazykov je ohrozených?, https://www.ethnologue.com/guides/how-many-languages-endangered, naposledy prístupné 11. 2. 2022.

    3. ^ Kódové tabuľky ISO 639, https://iso639-3.sil.org/code_tables/639/data, naposledy prístupné 11. 2. 2022.

    4. ^ Jazyková podpora, https://cloud.google.com/translate/docs/languages, naposledy prístupné 11. 2. 2022.

    5. ^ Vybrať jazyk, https://m.facebook.com/language.php, naposledy prístupné 11. 2. 2022.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Áno, hovorím… Neurónový strojový preklad AI vo viacjazyčnom tréningu. In: Zborník príspevkov z konferencie Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, príspevok č. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integrované stratégie pre revitalizáciu jazyka, str. 175–200. Prvé vydanie. Fakulta „Artes Liberales“, Varšavská univerzita, Varšava (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neurónové morfosyntaktické značkovanie pre rusínčinu. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Výhrady a vyhlásenia k Zmluve č. 148 – Európska charta regionálnych alebo menšinových jazykov (ETS č. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, naposledy prístupné 11. 2. 2022.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, naposledy prístupné 11. 2. 2022.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, naposledy prístupné 11. 2. 2022.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, naposledy prístupné 11. 2. 2022.

    13. ^ Vaňko, J.: Jazyk slovenských Rusínov. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indoeurópsky jazyk a kultúra. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Varšava (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: Sanskrt-anglický slovník etymologicky a filologicky usporiadaný so zvláštnym zreteľom na príbuzné indoeurópske jazyky, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: Etymologický slovník slovanskej zdedenej lexiky. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: Výzva na jasnosť pri uvádzaní skóre BLEU. In: Zborník príspevkov z Tretej konferencie o strojovom preklade (WMT), vol. 1, str. 186–191. Association for Computational Linguistics, Brusel (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: Systematické porovnanie vyhladzovacích techník pre BLEU na úrovni viet. In: Zborník príspevkov z Deviateho workshopu o štatistickom strojovom preklade, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstvo vnútra a administratívy: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw č. 102, str. 6560–6573. Rządowe Centrum Legislacji, Varšava (2005).

    23. ^ Shevelov, G.: O chronológii H a nového G v ukrajinčine. In: Harvard Ukrainian Studies, vol. 1, č. 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942