Tag: Rewitalizacja języka

  • Citation in TalaMT: Multilingual Machine Translation for Cabécar-Bribri-Spanish (Jones et al., MRL-WS 2023)

    Citation in TalaMT: Multilingual Machine Translation for Cabécar-Bribri-Spanish (Jones et al., MRL-WS 2023)

    Honored to have my peer-reviewed paper Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko cited in December 2023 by Alex Jones and Rolando Coto-Solano of Dartmouth College, as well as Guillermo González Campos of University of Costa Rica in their work TalaMT: Multilingual Machine Translation for Cabécar-Bribri-Spanish on Page 107 of the Proceedings of the 3rd Multilingual Representation Learning Workshop in Singapore.

  • BLEU Skies dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji gwałtownie rośnie

    BLEU Skies dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji gwałtownie rośnie

    Streszczenie

    Przyspieszająca globalna utrata języka, związana z podwyższonym wskaźnikiem używania nielegalnych substancji, cukrzycy typu 2, upijania się i napaści, a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, stanowi rosnące wyzwanie dla mniejszości, społeczności tubylczych, uchodźców, skolonizowanych i imigrantów. W środowiskach, w których transmisja międzypokoleniowa jest często zakłócana, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mogą potencjalnie ożywić języki dziedzictwa i wzmocnić pozycję nowych użytkowników, umożliwiając im rozumienie i bycie rozumianym poprzez natychmiastowe tłumaczenie. Jednak rozwiązania oparte na sztucznej inteligencji stwarzają problemy, takie jak wygórowane koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie zakłóceń z języków dominujących. Niniejsza praca opisuje przegląd silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na i z języka łemkowskiego, poważnie zagrożonego, mniejszościowego wykładu ukraińskiej klasyfikacji genetycznej, występującego na pograniczu Polski i Słowacji (gdzie jest również określany jako Rusin). Moduły tłumaczeniowe oparte na słownikach zostały wyposażone w morfologiczne i składniowe generatory rzeczowników, czasowników i przymiotników zasilane 877 lematami wraz z 708 hasłami glosariusza, a cały system został nitowany przez 9 518 automatycznych, kodyfikacyjnych testów kontroli jakości. Owocem tej pracy jest 23% poprawa jakości tłumaczenia na język angielski od czasu ostatniej publikacji i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Tłumacza Google pod każdym względem i uzyskują wynik o 396% wyższy niż ukraińska usługa Google podczas tłumaczenia na łemkowski.

    Cytuj jako: Orynycz, P. (2023). Niebo BLEU dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji szybuje w górę. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    Dowiedz się więcej: BLEU Skies dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji gwałtownie rośnie

    Ta wersja artykułu została zaakceptowana do publikacji po recenzji, ale nie jest wersją rekordową i nie odzwierciedla ulepszeń po akceptacji ani żadnych poprawek. Wersja rekordowa jest dostępna online pod adresem https://doi.org/10.1007/978-3-031-35894-4_10. Korzystanie z tej zaakceptowanej wersji podlega warunkom korzystania z zaakceptowanego manuskryptu wydawcy: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

    1 Wprowadzenie

    1.1 Problem

    Języki są tracone w tempie co najmniej jednego na kwartał kalendarzowy, przy czym utrata ta ma się potroić do 2062 r. i wzrosnąć pięciokrotnie do 2100 r., wpływając na ponad 1500 społeczności mówców [1, s. 163 i 169]. Takie wyniki wiążą się ze zwiększoną częstością używania nielegalnych substancji [2, s. 179], cukrzycy typu 2 [3], upijania się i napaści [4], a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, gdy mniej niż połowa członków społeczności zna język [5].

    Niedawne badanie przeprowadzone w Stanach Zjednoczonych wykazało, że używanie języka tubylczego ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na osobach mówiących po polsku wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].

    Tłumaczenie maszynowe oparte na sztucznej inteligencji może być pomocne w rozprzestrzenianiu wyżej wymienionych efektów ochronnych na osoby posługujące się językami dziedzictwa kulturowego poprzez rewitalizację umierających i uśpionych języków [8, s. 577]. Na przykład, nowi użytkownicy języka mogą natychmiast tworzyć poprawny tekst i cieszyć się czytaniem ze zrozumieniem, korzystając z automatycznych urządzeń do tłumaczenia maszynowego jako pomocy do czasu osiągnięcia pełnej, niezależnej płynności.

    1.2 Badany system

    Język

    Łemko to definitywnie lub poważnie zagrożony [9, s. 177-178] wschodniosłowiański lekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39], występujący na pograniczu Rzeczypospolitej Polskiej i Republiki Słowackiej; niektórzy określają go jako Rusin [11, s. 39; 12].

    Granice wschodnie

    Unikalną izoglosią różnicującą Łemkowszczyznę na wschodzie jest stały akcent paroksytoniczny (na przedostatniej sylabie), cecha wspólna z dialektami polskimi i wschodniosłowackimi [10, s. 161-162 i 972-973; 11, s. 50; 13, s. 70-73], dzięki czemu jej zasięg we wschodniej Słowacji sięga co najmniej do rzeki Laborec, ze strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg Łemkowszczyzny sięga co najmniej do rzeki Osławicy lub Wisłoka, ze strefą przejściową poza nimi [11, s. 50].

    Zachodnie granice

    Historycznymi zachodnimi granicami Łemkowszczyzny są rzeki Poprad i Dunajec [14, s. 459].

    Lokalizacja

    Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

    Nazwa łemkowskaТранслітерацияPolska nazwaSiedziba hrabstwaSiedziba gminy
    ІзбыIzbŷIzbyGorliceUście Gorlickie
    ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
    ЧорнеČorneCzarneGorliceSękowa
    ДолгеDolheDługieGorliceSękowa
    БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
    ФльоринкаFlorynkaFlorynkaNowy SączGrybów
    ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
    Tabela 1. Wioski przodków native speakerów, z którymi przeprowadzono wywiady w materiale korpusowym.

    2 Aktualny stan wiedzy

    W ubiegłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczenia maszynowego na język łemkowski: BLEU 6,28, co stanowiło prawie trzykrotność ukraińskiej usługi Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej ja i moi koledzy opublikowaliśmy i zaprezentowaliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14.57 [16].


    [1] Ujawnienie: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń ukraińskich, polskich i rosyjskich w projekcie Tłumacz Google. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.

    Silnik został wdrożony i udostępniony bezpłatnie w uniwersalnym lokalizatorze zasobów https://www.LemkoTran.com, gdzie silnik transliteracji działa od jesieni 2017 roku. Silnik transliteracji został po raz pierwszy wspomniany w druku przez dr Scherrera i Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].

    3 Materiały i metody

    3.1 Materiały

    Eksperyment został przeprowadzony na dwujęzycznym korpusie zawierającym transkrypcje łemkowską cyrylicą i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypcje i ich tłumaczenia[1] zostały ujednolicone w 3 267 segmentach, przy czym w programie Microsoft Word liczba łemkowskich słów źródłowych wyniosła 68 944, a liczba angielskich słów docelowych 81 188.


    [Zostałem zatrudniony do sporządzenia transkrypcji i przetłumaczenia ich przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała produkty pracy na moje badania naukowe i przedsięwzięcia rozwojowe.

    Źródłem prawdy były słowniki Jarosława Horoszczaka [18], Petro Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petro Pyrteja [23].

    3.2 Metody

    Ulepszenia silnika

    Na potrzeby tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory informujące o części mowy, przypadku gramatycznym i liczbie w celu wygenerowania gramatycznie i składniowo odpowiednich tłumaczeń dla 1585 haseł słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, co pozwala na prostą substytucję.

    Testy zapewnienia jakości

    Jakość została zapewniona przez 9 518 testów, które w miarę możliwości zostały porównane z łemkowskimi kodyfikacjami, gramatykami i słownikami wymienionymi powyżej w części Materiały. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.

    OpisIlość
    Rdzeń rzeczownika414
    Rdzeń czasownika296
    Rdzeń przymiotnika167
    Zaimek osobowy87
    Zaimek, inne178
    Numeral86
    Inne hasła słownikowe357
    Łącznie1,585
    Tabela 2. Słownictwo systemowe.

    Tłumaczenie maszynowe oparte na regułach (RMBT)

    Tekstowi nadano łemkowski lub polski wygląd, zastępując sekwencje znaków, a zwłaszcza końcówki fleksyjne.

    Sekwencja polskaSekwencja łemkowskaPozycja
    owaćuwatyFinał
    iamiiamyFinał
    ająajutFinał
    zezoPoczątkowy
    podpidPoczątkowy
    Tabela 3. Przykładowe zamiany sekwencji znaków.

    Ocena jakości tłumaczenia

    Jakość tłumaczenia została zmierzona według standardowych wskaźników branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU opracowanego w Amazon Research przez Matta Posta [24]. Dla celów porównawczych język polski został przetłumaczony na cyrylicę łemkowską w taki sam sposób, jak w ostatnim eksperymencie [15, s. 573].

    Dwujęzyczne badanie ewaluacyjne (BLEU)

    Ta metryka oparta na n-gramach cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) i monitorowaniu przez Dowództwo Systemów Kosmicznych i Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

    Współczynnik edycji tłumaczenia (TER)

    Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

    Wynik F-gramu znaków (chrF)

    Wykazano, że ta europejska metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

    4 Wyniki i dyskusja

    Eksperymentalny system, LemkoTran.com, przewyższył wszystkie usługi Tłumacza Google pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnio opublikowanymi wynikami [15], dając wyniki czterokrotnie lepsze niż kolejna najlepsza oferta Google Translate, jej ukraińska usługa. W międzyczasie jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze wyniki uzyskane przez Google Translate, który automatycznie rozpoznawał łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.

    4.1 Jakość tłumaczenia z angielskiego na łemkowski

    Wyniki

    Silnik wdrożony na LemkoTran.com pokonał Google Translate pod każdym względem podczas tłumaczenia z angielskiego na łemkowski. Kolejnym najwyżej ocenionym systemem w eksperymencie był albo wynik ukraińskiej usługi Google Translate (przy użyciu metryk BLEU lub chrF), albo wynik polskiej usługi (przy użyciu metryki TER).

    BLEU

    Jakość tłumaczenia systemu wdrożonego na LemkoTran.com mierzona najbardziej rozpowszechnioną metryką BLEU wzrosła do 8,48, co stanowi 35% poprawę w stosunku do wyników ostatnio opublikowanych w 2022 r. [15], a obecnie czterokrotnie przewyższa najwyższy wynik Tłumacza Google.

    Rys. 1. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem BLEU (Bilingual Evaluation Understudy), usługi Google Cloud Neural Machine Translation (NMT) w porównaniu z LemkoTran.com. Im wyższy, tym lepiej.
    chrF

    Silnik LemkoTran.com osiągnął najlepszy wynik f-gramu znaków z języka angielskiego na łemkowski (chrF 37,30), który jest o 37% wyższy niż kolejny najlepszy, ukraiński serwis Google Translate. Tymczasem rosyjska usługa Google Translate uzyskała wyższy wynik niż jej polskie i białoruskie odpowiedniki w porównaniu z korpusem łemkowskim.

    Rys. 2. Jakość tłumaczenia z angielskiego na łemkowski mierzona za pomocą wyniku F-score n-gramów znaków (chrF), Google Cloud Neural Machine Translation (NMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im wyższy wynik, tym lepiej.
    TER

    Silnik LemkoTran.com osiągnął najlepszy współczynnik edycji tłumaczenia z angielskiego na łemkowski (TER), uzyskując wynik 81,33. Polska usługa Google Translate zajęła drugie miejsce, a tuż za nią uplasowała się ukraińska usługa.

    Rys. 3. Współczynnik edycji tłumaczenia z angielskiego na łemkowski (TER), Google Cloud Neural Machine Translation (NMT) kontra LemkoTran.com. Im niższy, tym lepiej.

    Próbki

    Poniżej podano dane wyjściowe z systemów tłumaczenia, gdy są one zasilane językiem angielskim.

    Текст до перекладуNasze dzieci też były mądre. Ale gdzie miały się uczyć?
    OpisWyjścieТранслітерацияWyniki jakości
    Lemko reference
    (native speaker)
    В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na język łemkowski:
    LemkoTran.com
    Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58.34
    chrF2 79.03
    TER 27.27
    Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
    chrF2 25,80
    TER 72,73
    Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3.71
    chrF2 16.95
    TER 90.91
    Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3.12
    chrF2 13.84
    TER 100
     Tłumaczenie na język białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3.09
    chrF2 12.83
    TER 100
    Tabela 4. Porównanie hipotez tłumaczeniowych dla języka angielskiego.
    Текст до перекладуI generalnie Łemkowie w Polsce nie mają lidera, że tak powiem, który by coś powiedział.
    OpisProduktТранслітерацияWyniki jakości
    Łemkowszczyzna (native speaker)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na język łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55.58
    chrF2 65.32
    TER 29.41
    Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9.26
    chrF2 29.29
    TER 82.35

    Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5.15
    chrF2 26.56
    TER 82.35
    Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2.96
    chrF2 25.87
    TER 88.24
     Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2.72
    chrF2 18.05
    TER 94.12
    Tabela 5. Porównanie hipotez tłumaczeniowych dla języka angielskiego.

    Tłumaczenie z łemkowskiego na angielski

    Wyniki

    Pod każdym względem silnik wdrożony na LemkoTran.com przewyższał Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze na drugim miejscu, następnie automatycznie wykrywał język źródłowy, następnie tłumaczył jak z białoruskiego, a następnie polskiego, a rosyjski zawsze zajmował ostatnie miejsce. Tłumacz Google rozpoznał język łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków, a w pozostałych przypadkach jako różne języki używające cyrylicy (np. mongolski).

    BLEU

    LemkoTran.com uzyskał wynik BLEU 17,95 podczas tłumaczenia na język angielski, co stanowi 23% poprawę w stosunku do ostatnio opublikowanych wyników BLEU 14,57 i 16% więcej niż wynik BLEU 15,43 ukraińskiej usługi Google Translate.

    Rys. 4. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wynikiem BLEU (Bilingual Evaluation Understudy), usługi Google Cloud Neural Machine Translation (NMT) w porównaniu z systemem eksperymentalnym LemkoTran.com. Im wyższy wynik, tym lepiej.
    chrF

    Silnik wdrożony na LemoTran.com osiągnął wynik f-gramu znaków (chrF) na poziomie 45,89 podczas tłumaczenia na język angielski, co było o 5% lepszym wynikiem niż wynik ukraińskiej usługi Google Translate.

    Rys. 5. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wynikiem F-score n-gramów znaków (chrF), Google Cloud Neural Machine Translation (GNMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im wyższy, tym lepiej.
    TER

    LemkoTran.com uzyskał współczynnik Translation Edit Rate (TER) na poziomie 70,38 tłumacząc na język angielski, co było o 7% lepszym wynikiem niż ukraińska usługa Google Translate.

    Rys. 6. Współczynnik edycji tłumaczenia z łemkowskiego na angielski (TER), Google Cloud Neural Machine Translation (GNMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im niższy, tym lepiej.

    Próbki

    Poniżej podano dane wyjściowe z systemów tłumaczenia, gdy są one zasilane językiem angielskim.

     OpisProduktJakość
    Wyniki
    Transkrypcja wejściowa języka łemkowskiego wymawianego przez rodzimego użytkownika językaЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.n/d
    ТранслітерацияJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.n/d
    Tłumaczenie referencyjne wykonane przez dwujęzycznego profesjonalistęJeśli chodzi o rozdzielanie języków, miałem kontakt z polskim. To nie było tak, że zacząłem szkołę nie znając polskiego, bo mieliśmy polskich sąsiadów. BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie z języka łemkowskiego przez system LemkoTran.comKiedy rozdzielamy języki, miałem kontakt z polskim, to nie było tak, że chodziłem do szkoły bez polskiego, bo mieliśmy polskich sąsiadów.BLEU 45.84
    chrF2 69.60
    TER 32.00
    Tłumacz Google (kontrola)z ukraińskiego (wykrywane automatycznie z 92% pewnością)Jak dzielimy języki, to miałem kontakt z polskim, potem już tak nie było i chodziłem do szkoły bez polskiego, bo miałem Polaków za sąsiadów.BLEU 15.87
    chrF2 54.38
    TER 72.00
    z białoruskiegoJak rozdzielaliśmy języki, to miałem mało kontaktu z polskim, potem już tak nie było, ale chodziłem do szkoły bez polskiego, bo mieliśmy mało polskich sąsiadów.BLEU 11.76
    chrF2 58.92
    TER 68.00
    z rosyjskiegoJak się rozeszły języki, to mało było kontaktu z polskim, potem już tak nie było, ale ja chodziłem do szkoły bez polskiego, bo w Poliakowie węże były soczyste.BLEU 6.87
    chrF2 42.66
    TER 92.00
    z języka polskiegoJak rozkminiam język, to mam mały kontakt z językiem polskim, to nie było tak, że chodziłem do szkoły bez polskiego, bo trochę polszczyznę zmienię.BLEU 5.02
    chrF2 45.35
    TER 84.00
    Tabela 6. Porównanie hipotez tłumaczeniowych dla danych wejściowych Lemko.

    5 Wnioski

    Sprzężenie morfologicznych i składniowych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, przynosząc jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innym ingerencjom języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakościowych narzucone przez niedoskonałości nieodłącznie związane z modelami sztucznej inteligencji można również rozbić za pomocą inżynierii dźwięku. Dla języka łemkowskiego, a także innych rdzennych języków mniejszościowych o niskich zasobach, niebo jest teraz granicą jakości tłumaczeń, a także rewolucji rewitalizacyjnych tuż za horyzontem.

    Podziękowania

    Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies i dr Jamesowi Joshua Penningtonowi za ich wnikliwe uwagi, a także dr Yvesowi Scherrerowi z Uniwersytetu w Helsinkach za zainteresowanie projektem i pomysły.

    Referencje

    1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163-173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Ciągłość kulturowa, tradycyjny język tubylczy i cukrzyca u Pierwszych Narodów Alberty: badanie metodami mieszanymi. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Kultura, dziedzictwo i czas wolny: mówienie w językach Aborygenów i mieszkańców wysp Cieśniny Torresa. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC.
    5. Hallett, D., Chandler, M., Lalonde, C.: Znajomość języka Aborygenów i samobójstwa wśród młodzieży. Cognitive Development 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Skutki zdrowotne używania i rewitalizacji języków tubylczych: przegląd realistyczny. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: Podwójna rola języka mniejszości w traumie historycznej: Przypadek mniejszości łemkowskiej w Polsce. Journal of Language and Social Psychology. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577-595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O: Literatura a proces rozwoju i rewitalizacji tożsamości językowej na przykładzie literatury łemkowskiej. W: Olko, J., Wicherkiewicz, T., Borges, R. (eds.) Integral Strategies for Language Revitalization, 1st edn., pp. 175-200. Wydział „Artes Liberales”, Uniwersytet Warszawski, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Szewelow, G.: Historyczna fonologia języka ukraińskiego (tłumaczenie na język ukraiński). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo „AKTA”, Charków (2002, praca oryginalna opublikowana w 1979 r.). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (in Rusyn). In: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39-66. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (in Rusyn). In: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67-84. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Vaňko, J.: Język rusiński na Słowacji: między młotem a kowadłem. In: Duchêne, A. (red.) International Journal of the Sociology of Language, vol. 2007, nr 183, s. 75-96. Walter de Gruyter GmbH, Berlin (2007) . https://doi.org/10.1515/IJSL.2007.005.
    14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (in Ukrainian). In: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454-487. Narodowa Akademia Nauk Ukrainy, Narodowe Stowarzyszenie Ukrainoznawstwa, Rylski Instytut Badań nad Sztuką, Folklorem i Etnologią, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Orynycz, P: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (red.) Sztuczna inteligencja w HCI. HCII 2022. Lecture Notes in Computer Science, vol. 13336, s. 567-580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.) Natural Language Engineering, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warszawa (2004).
    19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (w języku ukraińskim). Siversiya MV, Iwano-Frankowsk (2004).
    20. Duda, I.: Lemkivsʹkyj slovnyk (w języku ukraińskim). Aston, Ternopil (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie. Wydawnictwo naukowe Semper, Warszawa (1995).
    22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego. Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (w języku polskim). Hojsak, W. (red.). Zjednoczenie Łemków, Gorlice (2013).
    24. Post, M.: Wezwanie do jasności w raportowaniu wyników BLEU. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186-191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z: BLEU: Metoda automatycznej oceny tłumaczenia maszynowego. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311-318. Association for Computational Linguistics, Philadelphia (2002) . https://doi.org/10.3115/1073083.1073135.
    26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223-231. Association for Machine Translation in the Americas, Cambridge (2006) . https://aclanthology.org/2006.amta-papers.25.
    27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392-395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko

    Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko

    Abstract

    Artificial-intelligence powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world’s most widely used languages, 98% have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.

    For low-resource languages, there is a more resourceful approach, if not a more effective one: transfer learning, which enables lower-resource languages to benefit from achievements among higher-resource ones. In this experiment, Google’s English-Polish neural translation service was coupled with my classical, rule-based engine to translate from English into the endangered, low-resource, East Slavic language of Lemko. The system achieved a bilingual evaluation understudy (BLEU) quality score of 6.28, several times better than Google Translate’s English to Standard Ukrainian (BLEU 2.17), Russian (BLEU 1.10), and Polish (BLEU 1.70) services. Finally, the fruit of this experiment, the world’s first English to Lemko translation service, was made available at the web address www.LemkoTran.com to empower new speakers to revitalize their language.

    New speakers are key to language revitalization, and the power to “say it right” in Lemko is now at their fingertips.

    Keywords: Human-Centered AI, Language Revitalization, Lemko.

    Please cite as: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    This version of the contribution has been accepted for publication after peer review but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections. The Version of Record is available online at https://doi.org/10.1007/978-3-031-05643-7_37. Use of this Accepted Version is subject to the publisher’s Accepted Manuscript terms of use: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

    1 Introduction

    1.1. Problems

    This experiment aims to contribute at the local level to the global challenge of language loss, which may be occurring at the rate of one per day, with as few as one tongue in ten set to survive [1, p. 1329]. At press time, SIL International’s Ethnologue uses Lewis and Simons’ 2010 Expanded Graded Intergenerational Disruption Scale to estimate that 3,018 languages are endangered [2], which is 43% of the 7,001 individual living ones tallied at press time in International Organization for Standardization standard ISO 639-3 [3]. Meanwhile, Google Translate only serves 108 [4], and Facebook, 112 [5], which is a start. Nevertheless, one less language is now underserved, as the fruit of this experiment has been deployed to a web server as a public translation service.

    New, artificial intelligence technologies beckon with the promise of an aid that instantly compensates for language loss via human-computer interaction. In my previous experiment, next-generation neural engines achieved higher quality scores translating from Russian and Polish into English than the human control [6, p. 9]. Meanwhile, Facebook and Google1 have invested enormous resources into delivering better-than-human automatic translation systems at zero cost to consumer.

    1 Disclosure: I work as a paid Russian, Polish, and Ukrainian linguist and translation quality control specialist for the Google Translate project; headquarters are in San Francisco.

    Superhuman artificial intelligence does not come cheap: training neural language models requires bilingual corpora with wordcounts in the hundreds of thousands, and ideally, millions, which would cost hundreds of thousands of dollars to translate, sums beyond the means of most low-resource language communities. Fortunately, this experiment shows that there are more resourceful and effective ways to respond to the challenge of creating translation aids for revitalizing endangered languages in low-resource settings.

    1.2 Work So Far

    I built the world’s first Lemko to English machine translation system and have made it available to the public. Its objective translation quality scores have been improving: the engine achieved a bilingual evaluation understudy (BLEU) score of 14.57 in the summer of 2021, as presented to professionals at the National Defense Industrial Association’s Interservice/Industry Training, Simulation and Education Conference and published in its proceedings [6]. For reference, I scored BLEU 28.66 as a human translator working in field conditions, cut off from the outside world. By the autumn of 2021, the engine had reached BLEU 15.74, as reported to linguists, academics, and the wider community at an unveiling event hosted by the University of Pittsburgh.2

    2 Disclosure: the event was sponsored by the Carpatho-Rusyn Society (Pennsylvania), and I was paid by the University of Pittsburgh for my presentation.

    1.3 System Under Study

    Lemko is a definitively to severely endangered [6, p. 3, 7, pp. 177-178], low-resource [8], officially recognized minority language [9] presumably indigenous to transborder highlands south of the Cracow, Tarnów, and Rzeszów metropolitan areas; historical demarcating isoglosses will hopefully be the topic of a future paper. Poland’s census bureau tallied 6,279 residents for whom Lemko was a language “usually used at home” (even if in addition to Polish) in 2011 [10, p. 3], a 12% increase from the 5,605 for whom Lemko was a “language spoken most often at home” in 2002 [11, p. 6, 12, p. 7]. At press time, the results of a fresh count are being tabulated.

    Lemko is classifiable as an East Slavic language as it fits the customary genetic structural feature criteria, the most significant of which is pleophony [13, p. 20], whereby a vowel is assumed to have arisen in proto-Slavic sequences of consonant C followed by mid or low vowel V (*e, or *o, with which *a had merged [14, p. 366]), followed by liquid R (that is, *l or *r), followed by another consonant C, that is, CVRC > CVRVC. To illustrate, compare the Old English word for “melt”, meltan (CVRC) [15, p. 718] to its putative Lemko cognate mołódyj [16, p. 92, 17, p. 150] (CVRC), meaning “young”. Other East Slavic cognates include Ukrainian mołodýj and Russian mołodój [17], both exhibiting a vowel after the liquid (CVRVC). Meanwhile, West Slavic languages lack a vowel before the liquid; compare Polish młody and Slovak mladý (both CRVC) [17]. Further afield, kinship has been posited for other words translatable as “mild”, including Sanskrit mṛdú (CRC) [18, p. 830] and Latin mollis (CVRC if from *moldvis) [15, 17, 19, p. 323].

    How well Lemko meets customary, modern Ukrainian genetic structural feature criteria was not evaluated in this experiment. However, similarity between Lemko and Standard Ukrainian was quantified, for the first time in print of which I am aware. Below, my Lemko engine scored BLEU 6.28, nearly three times the score of Google Translate’s Ukrainian at BLEU 2.17. Further experiments could be performed for the purposes of quantification of similarity between Lemko, Standard Ukrainian, Polish, and Rusyn as codified in Slovakia, as well as a fresh take on the typological classification of Lemko.

    The quantity and quality of resources have been improving, as has resourcefulness empowered by technology. All known bilingual corpora, comprising fewer than seventy thousand Lemko words, were mustered for this experiment. I have been cleaning a bilingual corpus of transcriptions of interviews conducted with native speakers in Poland and my translations into English, which a United States client paid me to perform and permitted me to use. I am also compiling monolingual corpora, which total 534,512 words at press time.

    1.4 Hypothesis

    Based on my subjective impression as a professional translator that Lemko native speakers interviewed in Poland were more likely to use words with obvious Polish cognates than Standard Ukrainian ones, I hypothesized that, all else being equal, a machine could be configured to translate into Lemko from English and achieve BLEU objective quality scores higher than those of Google Translate’s Ukrainian and Russian services.

    1.5 Predictions

    Lemko Translation System. I predicted that the aforementioned translation system would achieve a BLEU score of 15 translating into Lemko from English against the bilingual corpus.

    Google Translate.

    English to Ukrainian service. I predicted that Google Translate’s English to Ukrainian service would achieve a BLEU score of 10 against the bilingual corpus.

    English to Russian service. I predicted that Google Translate’s English to Russian service would achieve a BLEU score of 1 against the bilingual corpus.

    1.6 Methods and Justification

    In the interest of speed, resource conversation, and ruggedizability, a laptop computer discarded as obsolete by my employer was configured to translate into Lemko and make calls to the Google Cloud Platform Google Translate service, as well as configured to evaluate said translations using the industry standard BLEU metric.

    1.7 Principal Results

    The English to Lemko translation system achieved a cumulative BLEU score of 6.28431824990417. Meanwhile, Google Translate’s Ukrainian service scored BLEU 2.16830846776652, its Russian service BLEU 1.10424105952048, and the control of Polish transliterated into the Cyrillic alphabet BLEU 1.70036447680114.

    2 Materials and Methods

    The above hypothesis was tested by calculating BLEU quality scores for each translation system set up in the manner detailed below.

    2.1 Setup

    Hardware. The experiment was conducted on an HP Elitebook 850 G2 laptop with a Core i7-5600U 2.6GHz processor, and 16 gigabytes of random-access memory. It had been discarded by my employer as obsolete and listed for sale at USD 450 at time of press.

    Configuration. In the basic input/output system (BIOS) menu, the device was configured to enable Virtualization Technology (VTx).

    Operating System. Windows 10 Professional 64 bit had been installed on bare metal. It was ensured that Virtual Machine Platform and Windows Subsystem for Linux Windows features were enabled. Next, the WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) available from Microsoft at https://aka.ms/wsl2kernel was installed.

    Software. The Docker Desktop for Windows version 4.4.3 (73365) installer was downloaded from https://www.docker.com/get-started and run with the option to Install required Windows components for WSL 2 selected.

    Packages. The experiment depended on the below packages from the Python Package Index.

    SacreBLEU. Version 2.0.0 was installed using the Python package documented at the following universal resource locator (URL):
    https://pypi.org/project/sacrebleu/2.0.0/

    Google Cloud Translation API client library. Version 2.0.1 was installed using the Python package documented at the universal resource locator (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

    The above dependencies were specified in the requirements file as follows:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Container.

    Build. The experiment was run in a Docker container featuring the latest version of the Python programming language, which was version 3.10.2 at the time, running on the Debian Bullseye 11 Linux operating system of AMD64 architecture, of Secure Hash Algorithm 2 shortened digest bcb158d5ddb6, obtainable via the following command:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Runtime. The container was configured to save raw experiment data files to a local bind mounted volume.

    Translation Quality Scoring.
    Translation quality scores were calculated according to the BLEU metric using version 2.0.0 of the SacreBLEU tool invented by Post [20].

    Case sensitivity. The evaluation was performed in a case-sensitive manner.

    Tokenization. Segments were tokenized using version 13a of the Workshop on Statistical Machine Translation standard scoring script metric internal tokenization procedure.

    Smoothing Method. The smoothing technique developed at the National Institute of Standards and Technology by United States Federal Government employees for their Multimodal Information Group BLEU toolkit, being the third technique described by Chen and Cherry [21, p. 363], was employed by default.

    Signature. The above settings produced the following signature:
    nrefs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Calibration. Configured as above, the machine produces the following output:

    Segment 1031.
    English sourceEverything was there.
    Lemko reference and transliterationВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypothesis and transliterationВшытко там было.Všŷtko tam bŷlo.
    ScoreBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Explanation. The hypothesis segment was identical to the reference one and the machine achieved a perfect score of BLEU 100.

    Segment 179.
    English sourceI don't remember what year.
    Lemko reference and transliterationНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hypothesis and transliterationНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    ScoreBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Explanation. The hypothesis was different from the reference by two characters. The machine mistranslated the particle negating the verb, using the word for “no” (ni) instead of the expected word for “not” (ne). This has since been largely fixed. The machine also added a comma after pamjatam, which means “I remember”. That dropped the score from what would have been a perfect score of 100 to 43.47.

    Control. As the corpus is based on interviews conducted in Poland, translations into Polish were used as a control. They were transliterated into the Cyrillic alphabet by reversing the rules for transliterating Lemko names established by Poland’s Ministry of the Interior and Administration [22, p. 6564]. Polish nasal vowels were decomposed into a vowel plus a nasal stop, except before approximants, where they were directly denasalized. Word finally, the front nasal vowel /ę/ was simply denasalized, and the back one /ą/ was transliterated as if followed by a dental stop.

    3 Results

    The engine available to the public at www.LemkoTran.com took first place with a cumulative translation quality score of BLEU 6.28, nearly three times that of the runner-up, Google Translate’s English-Ukrainian service (BLEU 2.17). Next was its English-Polish service (BLEU 1.70), with its English-Russian service in last place (BLEU 1.10).

    Table 1. English to Lemko Translation Quality: LemkoTran.com versus Google Translate

    3.1 Results by machine translation service

    Control. When transliterated into the Cyrillic alphabet, Google Translate’s translations into Standard Polish achieved a corpus-level BLEU score of 1.70. Samples of its performances are as follows:

    Segment 2174.
    English sourceWe had still been in Izby, right.
    Lemko reference and transliterationТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Polish hypothesis and transliterationБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    ScoreBLEU = 46.20
    Segment 854.
    English sourceAnd that's what it's all about.
    Lemko reference and transliterationІ о то ходит.I o to chodyt.
    Polish hypothesis and transliterationІ о то власьнє ходзі.I o to właśnie chodzi.
    ScoreBLEU = 32.47
    Segment 217.
    English sourceAnd that's what it's all about.
    Lemko reference and transliterationТак мі повіл.Tak mi povil.
    Polish hypothesis and transliterationТак мі повєдзял.Tak mi powiedział.
    ScoreBLEU = 35.36

    Hybrid English-Lemko Engine. The engine freely available to the public at the URL www.LemkoTran.com achieved a corpus-level BLEU score of 6.28.

    Segment 1031.
    English sourceEverything was there.
    Lemko reference and transliterationВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypothesis and transliterationВшытко там было.Všŷtko tam bŷlo.
    ScoreBLEU = 100.00
    Segment 1445.
    English sourceBut that officer took that medal and said,
    Lemko reference and transliterationАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hypothesis and transliterationАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    ScoreBLEU = 75.06
    Segment 217.
    English sourceThat's what he said to me.
    Lemko reference and transliterationТак мі повіл.Tak mi povil.
    Lemkotran.com hypothesis and transliterationТак мі повіл.Tak mi povil.
    ScoreBLEU = 100.00

    Ukrainian. Google Translate’s translations into Standard Ukrainian achieved a corpus-level BLEU score of 2.35.

    Segment 2419.
    English sourceWhere and when?
    Lemko reference and transliterationДе і коли?De i koly?
    Ukrainian hypothesis and transliterationДе і коли?De i koly?
    ScoreBLEU = 100.00
    Segment 1096.
    English sourceWe were there for three months.
    Lemko reference and transliterationТам зме были три місяці.Tam zme bŷly try misiaci.
    Ukrainian hypothesis and transliterationМи були там три місяці.My buly tam try misjaci.
    ScoreBLEU = 30.21
    Segment 2513.
    English sourceWell, here to the west.
    Lemko reference and transliterationНо то ту на захід.No to tu na zachid.
    Ukrainian hypothesis and transliterationНу, тут на захід.Nu, tut na zachid.
    ScoreBLEU = 30.21

    Russian. Google Translate’s English to Russian service achieved a corpus-level BLEU score of 1.10.

    Segment 432.
    English sourceNobody knew.
    Lemko reference and transliterationНихто не знал.Nychto ne znal.
    Russian hypothesis and transliterationНикто не знал.Nikto ne znal.
    ScoreBLEU = 59.46
    Segment 2751.
    English sourceWhat did they expel us for?
    Lemko reference and transliterationЗа што нас выгнали?Za što nas vŷhnaly?
    Russian hypothesis and transliterationЗа что нас выгнали?Za čto nas vygnali?
    ScoreBLEU = 42.73
    Segment 2164.
    English sourceBrother went off to war.
    Lemko reference and transliterationБрат пішол на войну.Brat pišol na vojnu.
    Russian hypothesis and transliterationБрат ушел на войну.Brat ušel na vojnu.
    ScoreBLEU = 42.73

    4 Discussion

    The Lemko translation system corpus-level BLEU score of 6.28 indicates that while there is much still to be done, things are on track. The Standard Russian score of BLEU 1.10 indicates that Lemko is less similar to Russian than Polish (BLEU 1.70). Perhaps using pre-revolutionary orthography could boost Russian’s score, but that would be an expensive experiment with little obvious benefit.

    The transliterated Standard Polish control similarity score of BLEU 1.70 indicates less interference from the dominant language in Poland than might be expected. It would be interesting to redesign the experiment where a handful of computationally inexpensive and obvious sound correspondences (for example, denasalization of *ę to /ja/ and *ǫ to /u/, retraction of *i to /y/, and change of *g to /h/ [23]) were applied to Polish to see if it then scored higher than Standard Ukrainian.

    In summary, Lemko has been synthesized in the lab and the power to produce it placed in the hands of speakers both new and native. After a thorough engine overhaul and glossary ramp-up, the next step is to objectively measure, and if feasible, have speakers subjectively rate, the quality of synthetic Lemko versus that produced by native speakers. The day when new speakers of low-resource languages can use machine translation to start communicating in their language overnight is closer, as is the day the Lemko language joins the ranks of those previously endangered, but now revitalized.

    Acknowledgements. I would like to thank my colleague Ming Qian of Peraton Labs for inspiring me to conduct this experiment, and Brian Stensrud of Soar Technology, Inc. for introducing us, as well as his encouragement.

    I would also like to thank my friend Corinna Caudill for her encouragement and personal interest in the project, as well as for introducing me to Carpatho-Rusyn Society President Maryann Sivak of the University of Pittsburgh, whom I would like to thank for the opportunity to present my work.

    I would also like to thank Maria Silvestri of the John and Helen Timo Foundation for conducting interviews with Lemko native speakers and donating the transcripts and my translations of them to research and development.

    I would like to Achim Rabus of the University of Freiburg and Yves Scherrer of the University of Helsinki for their interest in the project and ideas.

    I would also like to thank Myhal’ Lŷžečko of the minority-language technology blog InterFyisa for his early interest in the project and community outreach.

    I would also like to thank fellow son of Zahoczewie Marko Łyszyk for his interest in the project and community outreach.

    Finally, I would like to thank my co-author and Antech Systems Inc. colleague Tom Dobry for his encouragement and guidance.

    References

    1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Online version: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, last accessed 2022/02/11.

    3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, last accessed 2022/02/11.

    4. ^ Language support, https://cloud.google.com/translate/docs/languages, last accessed 2022/02/11.

    5. ^ Select language, https://m.facebook.com/language.php, last accessed 2022/02/11.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integral Strategies for Language Revitalization, pp. 175–200. First edition. Faculty of „Artes Liberales”, University of Warsaw, Warsaw (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, last accessed 2022/02/11.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, last accessed 2022/02/11.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, last accessed 2022/02/11.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, last accessed 2022/02/11.

    13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186–191. Association for Computational Linguistics, Brussels (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. In: Proceedings of the Ninth Workshop on Statistical Machine Translation, pp. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Warsaw (2005).

    23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. In: Harvard Ukrainian Studies, vol. 1, no. 2, pp. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942