BLEU Skies dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji gwałtownie rośnie

Streszczenie

Przyspieszająca globalna utrata języka, związana z podwyższonym wskaźnikiem używania nielegalnych substancji, cukrzycy typu 2, upijania się i napaści, a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, stanowi rosnące wyzwanie dla mniejszości, społeczności tubylczych, uchodźców, skolonizowanych i imigrantów. W środowiskach, w których transmisja międzypokoleniowa jest często zakłócana, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mogą potencjalnie ożywić języki dziedzictwa i wzmocnić pozycję nowych użytkowników, umożliwiając im rozumienie i bycie rozumianym poprzez natychmiastowe tłumaczenie. Jednak rozwiązania oparte na sztucznej inteligencji stwarzają problemy, takie jak wygórowane koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie zakłóceń z języków dominujących. Niniejsza praca opisuje przegląd silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na i z języka łemkowskiego, poważnie zagrożonego, mniejszościowego wykładu ukraińskiej klasyfikacji genetycznej, występującego na pograniczu Polski i Słowacji (gdzie jest również określany jako Rusin). Moduły tłumaczeniowe oparte na słownikach zostały wyposażone w morfologiczne i składniowe generatory rzeczowników, czasowników i przymiotników zasilane 877 lematami wraz z 708 hasłami glosariusza, a cały system został nitowany przez 9 518 automatycznych, kodyfikacyjnych testów kontroli jakości. Owocem tej pracy jest 23% poprawa jakości tłumaczenia na język angielski od czasu ostatniej publikacji i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Tłumacza Google pod każdym względem i uzyskują wynik o 396% wyższy niż ukraińska usługa Google podczas tłumaczenia na łemkowski.

Cytuj jako: Orynycz, P. (2023). Niebo BLEU dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji szybuje w górę. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

Dowiedz się więcej: BLEU Skies dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia łemkowskiej Rusi i ukraińskiej neuronowej sztucznej inteligencji gwałtownie rośnie

Ta wersja artykułu została zaakceptowana do publikacji po recenzji, ale nie jest wersją rekordową i nie odzwierciedla ulepszeń po akceptacji ani żadnych poprawek. Wersja rekordowa jest dostępna online pod adresem https://doi.org/10.1007/978-3-031-35894-4_10. Korzystanie z tej zaakceptowanej wersji podlega warunkom korzystania z zaakceptowanego manuskryptu wydawcy: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

1 Wprowadzenie

1.1 Problem

Języki są tracone w tempie co najmniej jednego na kwartał kalendarzowy, przy czym utrata ta ma się potroić do 2062 r. i wzrosnąć pięciokrotnie do 2100 r., wpływając na ponad 1500 społeczności mówców [1, s. 163 i 169]. Takie wyniki wiążą się ze zwiększoną częstością używania nielegalnych substancji [2, s. 179], cukrzycy typu 2 [3], upijania się i napaści [4], a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, gdy mniej niż połowa członków społeczności zna język [5].

Niedawne badanie przeprowadzone w Stanach Zjednoczonych wykazało, że używanie języka tubylczego ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na osobach mówiących po polsku wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].

Tłumaczenie maszynowe oparte na sztucznej inteligencji może być pomocne w rozprzestrzenianiu wyżej wymienionych efektów ochronnych na osoby posługujące się językami dziedzictwa kulturowego poprzez rewitalizację umierających i uśpionych języków [8, s. 577]. Na przykład, nowi użytkownicy języka mogą natychmiast tworzyć poprawny tekst i cieszyć się czytaniem ze zrozumieniem, korzystając z automatycznych urządzeń do tłumaczenia maszynowego jako pomocy do czasu osiągnięcia pełnej, niezależnej płynności.

1.2 Badany system

Język

Łemko to definitywnie lub poważnie zagrożony [9, s. 177-178] wschodniosłowiański lekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39], występujący na pograniczu Rzeczypospolitej Polskiej i Republiki Słowackiej; niektórzy określają go jako Rusin [11, s. 39; 12].

Granice wschodnie

Unikalną izoglosią różnicującą Łemkowszczyznę na wschodzie jest stały akcent paroksytoniczny (na przedostatniej sylabie), cecha wspólna z dialektami polskimi i wschodniosłowackimi [10, s. 161-162 i 972-973; 11, s. 50; 13, s. 70-73], dzięki czemu jej zasięg we wschodniej Słowacji sięga co najmniej do rzeki Laborec, ze strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg Łemkowszczyzny sięga co najmniej do rzeki Osławicy lub Wisłoka, ze strefą przejściową poza nimi [11, s. 50].

Zachodnie granice

Historycznymi zachodnimi granicami Łemkowszczyzny są rzeki Poprad i Dunajec [14, s. 459].

Lokalizacja

Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

Nazwa łemkowskaТранслітерацияPolska nazwaSiedziba hrabstwaSiedziba gminy
ІзбыIzbŷIzbyGorliceUście Gorlickie
ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
ЧорнеČorneCzarneGorliceSękowa
ДолгеDolheDługieGorliceSękowa
БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
ФльоринкаFlorynkaFlorynkaNowy SączGrybów
ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
Tabela 1. Wioski przodków native speakerów, z którymi przeprowadzono wywiady w materiale korpusowym.

2 Aktualny stan wiedzy

W ubiegłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczenia maszynowego na język łemkowski: BLEU 6,28, co stanowiło prawie trzykrotność ukraińskiej usługi Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej ja i moi koledzy opublikowaliśmy i zaprezentowaliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14.57 [16].


[1] Ujawnienie: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń ukraińskich, polskich i rosyjskich w projekcie Tłumacz Google. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.

Silnik został wdrożony i udostępniony bezpłatnie w uniwersalnym lokalizatorze zasobów https://www.LemkoTran.com, gdzie silnik transliteracji działa od jesieni 2017 roku. Silnik transliteracji został po raz pierwszy wspomniany w druku przez dr Scherrera i Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].

3 Materiały i metody

3.1 Materiały

Eksperyment został przeprowadzony na dwujęzycznym korpusie zawierającym transkrypcje łemkowską cyrylicą i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypcje i ich tłumaczenia[1] zostały ujednolicone w 3 267 segmentach, przy czym w programie Microsoft Word liczba łemkowskich słów źródłowych wyniosła 68 944, a liczba angielskich słów docelowych 81 188.


[Zostałem zatrudniony do sporządzenia transkrypcji i przetłumaczenia ich przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała produkty pracy na moje badania naukowe i przedsięwzięcia rozwojowe.

Źródłem prawdy były słowniki Jarosława Horoszczaka [18], Petro Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petro Pyrteja [23].

3.2 Metody

Ulepszenia silnika

Na potrzeby tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory informujące o części mowy, przypadku gramatycznym i liczbie w celu wygenerowania gramatycznie i składniowo odpowiednich tłumaczeń dla 1585 haseł słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, co pozwala na prostą substytucję.

Testy zapewnienia jakości

Jakość została zapewniona przez 9 518 testów, które w miarę możliwości zostały porównane z łemkowskimi kodyfikacjami, gramatykami i słownikami wymienionymi powyżej w części Materiały. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.

OpisIlość
Rdzeń rzeczownika414
Rdzeń czasownika296
Rdzeń przymiotnika167
Zaimek osobowy87
Zaimek, inne178
Numeral86
Inne hasła słownikowe357
Łącznie1,585
Tabela 2. Słownictwo systemowe.

Tłumaczenie maszynowe oparte na regułach (RMBT)

Tekstowi nadano łemkowski lub polski wygląd, zastępując sekwencje znaków, a zwłaszcza końcówki fleksyjne.

Sekwencja polskaSekwencja łemkowskaPozycja
owaćuwatyFinał
iamiiamyFinał
ająajutFinał
zezoPoczątkowy
podpidPoczątkowy
Tabela 3. Przykładowe zamiany sekwencji znaków.

Ocena jakości tłumaczenia

Jakość tłumaczenia została zmierzona według standardowych wskaźników branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU opracowanego w Amazon Research przez Matta Posta [24]. Dla celów porównawczych język polski został przetłumaczony na cyrylicę łemkowską w taki sam sposób, jak w ostatnim eksperymencie [15, s. 573].

Dwujęzyczne badanie ewaluacyjne (BLEU)

Ta metryka oparta na n-gramach cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) i monitorowaniu przez Dowództwo Systemów Kosmicznych i Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

Współczynnik edycji tłumaczenia (TER)

Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

Wynik F-gramu znaków (chrF)

Wykazano, że ta europejska metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

4 Wyniki i dyskusja

Eksperymentalny system, LemkoTran.com, przewyższył wszystkie usługi Tłumacza Google pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnio opublikowanymi wynikami [15], dając wyniki czterokrotnie lepsze niż kolejna najlepsza oferta Google Translate, jej ukraińska usługa. W międzyczasie jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze wyniki uzyskane przez Google Translate, który automatycznie rozpoznawał łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.

4.1 Jakość tłumaczenia z angielskiego na łemkowski

Wyniki

Silnik wdrożony na LemkoTran.com pokonał Google Translate pod każdym względem podczas tłumaczenia z angielskiego na łemkowski. Kolejnym najwyżej ocenionym systemem w eksperymencie był albo wynik ukraińskiej usługi Google Translate (przy użyciu metryk BLEU lub chrF), albo wynik polskiej usługi (przy użyciu metryki TER).

BLEU

Jakość tłumaczenia systemu wdrożonego na LemkoTran.com mierzona najbardziej rozpowszechnioną metryką BLEU wzrosła do 8,48, co stanowi 35% poprawę w stosunku do wyników ostatnio opublikowanych w 2022 r. [15], a obecnie czterokrotnie przewyższa najwyższy wynik Tłumacza Google.

Rys. 1. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem BLEU (Bilingual Evaluation Understudy), usługi Google Cloud Neural Machine Translation (NMT) w porównaniu z LemkoTran.com. Im wyższy, tym lepiej.
chrF

Silnik LemkoTran.com osiągnął najlepszy wynik f-gramu znaków z języka angielskiego na łemkowski (chrF 37,30), który jest o 37% wyższy niż kolejny najlepszy, ukraiński serwis Google Translate. Tymczasem rosyjska usługa Google Translate uzyskała wyższy wynik niż jej polskie i białoruskie odpowiedniki w porównaniu z korpusem łemkowskim.

Rys. 2. Jakość tłumaczenia z angielskiego na łemkowski mierzona za pomocą wyniku F-score n-gramów znaków (chrF), Google Cloud Neural Machine Translation (NMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im wyższy wynik, tym lepiej.
TER

Silnik LemkoTran.com osiągnął najlepszy współczynnik edycji tłumaczenia z angielskiego na łemkowski (TER), uzyskując wynik 81,33. Polska usługa Google Translate zajęła drugie miejsce, a tuż za nią uplasowała się ukraińska usługa.

Rys. 3. Współczynnik edycji tłumaczenia z angielskiego na łemkowski (TER), Google Cloud Neural Machine Translation (NMT) kontra LemkoTran.com. Im niższy, tym lepiej.

Próbki

Poniżej podano dane wyjściowe z systemów tłumaczenia, gdy są one zasilane językiem angielskim.

Текст до перекладуNasze dzieci też były mądre. Ale gdzie miały się uczyć?
OpisWyjścieТранслітерацияWyniki jakości
Lemko reference
(native speaker)
В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
chrF2 100
TER 0
Tłumaczenie na język łemkowski:
LemkoTran.com
Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58.34
chrF2 79.03
TER 27.27
Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
chrF2 25,80
TER 72,73
Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3.71
chrF2 16.95
TER 90.91
Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3.12
chrF2 13.84
TER 100
 Tłumaczenie na język białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3.09
chrF2 12.83
TER 100
Tabela 4. Porównanie hipotez tłumaczeniowych dla języka angielskiego.
Текст до перекладуI generalnie Łemkowie w Polsce nie mają lidera, że tak powiem, który by coś powiedział.
OpisProduktТранслітерацияWyniki jakości
Łemkowszczyzna (native speaker)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
chrF2 100
TER 0
Tłumaczenie na język łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55.58
chrF2 65.32
TER 29.41
Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9.26
chrF2 29.29
TER 82.35

Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5.15
chrF2 26.56
TER 82.35
Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2.96
chrF2 25.87
TER 88.24
 Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2.72
chrF2 18.05
TER 94.12
Tabela 5. Porównanie hipotez tłumaczeniowych dla języka angielskiego.

Tłumaczenie z łemkowskiego na angielski

Wyniki

Pod każdym względem silnik wdrożony na LemkoTran.com przewyższał Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze na drugim miejscu, następnie automatycznie wykrywał język źródłowy, następnie tłumaczył jak z białoruskiego, a następnie polskiego, a rosyjski zawsze zajmował ostatnie miejsce. Tłumacz Google rozpoznał język łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków, a w pozostałych przypadkach jako różne języki używające cyrylicy (np. mongolski).

BLEU

LemkoTran.com uzyskał wynik BLEU 17,95 podczas tłumaczenia na język angielski, co stanowi 23% poprawę w stosunku do ostatnio opublikowanych wyników BLEU 14,57 i 16% więcej niż wynik BLEU 15,43 ukraińskiej usługi Google Translate.

Rys. 4. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wynikiem BLEU (Bilingual Evaluation Understudy), usługi Google Cloud Neural Machine Translation (NMT) w porównaniu z systemem eksperymentalnym LemkoTran.com. Im wyższy wynik, tym lepiej.
chrF

Silnik wdrożony na LemoTran.com osiągnął wynik f-gramu znaków (chrF) na poziomie 45,89 podczas tłumaczenia na język angielski, co było o 5% lepszym wynikiem niż wynik ukraińskiej usługi Google Translate.

Rys. 5. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wynikiem F-score n-gramów znaków (chrF), Google Cloud Neural Machine Translation (GNMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im wyższy, tym lepiej.
TER

LemkoTran.com uzyskał współczynnik Translation Edit Rate (TER) na poziomie 70,38 tłumacząc na język angielski, co było o 7% lepszym wynikiem niż ukraińska usługa Google Translate.

Rys. 6. Współczynnik edycji tłumaczenia z łemkowskiego na angielski (TER), Google Cloud Neural Machine Translation (GNMT) w porównaniu z eksperymentalnym systemem LemkoTran.com. Im niższy, tym lepiej.

Próbki

Poniżej podano dane wyjściowe z systemów tłumaczenia, gdy są one zasilane językiem angielskim.

 OpisProduktJakość
Wyniki
Transkrypcja wejściowa języka łemkowskiego wymawianego przez rodzimego użytkownika językaЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.n/d
ТранслітерацияJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.n/d
Tłumaczenie referencyjne wykonane przez dwujęzycznego profesjonalistęJeśli chodzi o rozdzielanie języków, miałem kontakt z polskim. To nie było tak, że zacząłem szkołę nie znając polskiego, bo mieliśmy polskich sąsiadów. BLEU 100
chrF2 100
TER 0
Tłumaczenie z języka łemkowskiego przez system LemkoTran.comKiedy rozdzielamy języki, miałem kontakt z polskim, to nie było tak, że chodziłem do szkoły bez polskiego, bo mieliśmy polskich sąsiadów.BLEU 45.84
chrF2 69.60
TER 32.00
Tłumacz Google (kontrola)z ukraińskiego (wykrywane automatycznie z 92% pewnością)Jak dzielimy języki, to miałem kontakt z polskim, potem już tak nie było i chodziłem do szkoły bez polskiego, bo miałem Polaków za sąsiadów.BLEU 15.87
chrF2 54.38
TER 72.00
z białoruskiegoJak rozdzielaliśmy języki, to miałem mało kontaktu z polskim, potem już tak nie było, ale chodziłem do szkoły bez polskiego, bo mieliśmy mało polskich sąsiadów.BLEU 11.76
chrF2 58.92
TER 68.00
z rosyjskiegoJak się rozeszły języki, to mało było kontaktu z polskim, potem już tak nie było, ale ja chodziłem do szkoły bez polskiego, bo w Poliakowie węże były soczyste.BLEU 6.87
chrF2 42.66
TER 92.00
z języka polskiegoJak rozkminiam język, to mam mały kontakt z językiem polskim, to nie było tak, że chodziłem do szkoły bez polskiego, bo trochę polszczyznę zmienię.BLEU 5.02
chrF2 45.35
TER 84.00
Tabela 6. Porównanie hipotez tłumaczeniowych dla danych wejściowych Lemko.

5 Wnioski

Sprzężenie morfologicznych i składniowych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, przynosząc jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innym ingerencjom języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakościowych narzucone przez niedoskonałości nieodłącznie związane z modelami sztucznej inteligencji można również rozbić za pomocą inżynierii dźwięku. Dla języka łemkowskiego, a także innych rdzennych języków mniejszościowych o niskich zasobach, niebo jest teraz granicą jakości tłumaczeń, a także rewolucji rewitalizacyjnych tuż za horyzontem.

Podziękowania

Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies i dr Jamesowi Joshua Penningtonowi za ich wnikliwe uwagi, a także dr Yvesowi Scherrerowi z Uniwersytetu w Helsinkach za zainteresowanie projektem i pomysły.

Referencje

  1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163-173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Ciągłość kulturowa, tradycyjny język tubylczy i cukrzyca u Pierwszych Narodów Alberty: badanie metodami mieszanymi. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Kultura, dziedzictwo i czas wolny: mówienie w językach Aborygenów i mieszkańców wysp Cieśniny Torresa. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC.
  5. Hallett, D., Chandler, M., Lalonde, C.: Znajomość języka Aborygenów i samobójstwa wśród młodzieży. Cognitive Development 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Skutki zdrowotne używania i rewitalizacji języków tubylczych: przegląd realistyczny. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: Podwójna rola języka mniejszości w traumie historycznej: Przypadek mniejszości łemkowskiej w Polsce. Journal of Language and Social Psychology. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577-595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O: Literatura a proces rozwoju i rewitalizacji tożsamości językowej na przykładzie literatury łemkowskiej. W: Olko, J., Wicherkiewicz, T., Borges, R. (eds.) Integral Strategies for Language Revitalization, 1st edn., pp. 175-200. Wydział „Artes Liberales”, Uniwersytet Warszawski, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Szewelow, G.: Historyczna fonologia języka ukraińskiego (tłumaczenie na język ukraiński). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo „AKTA”, Charków (2002, praca oryginalna opublikowana w 1979 r.). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (in Rusyn). In: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39-66. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (in Rusyn). In: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67-84. 2nd edn. Uniwersytet Opolski – Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: Język rusiński na Słowacji: między młotem a kowadłem. In: Duchêne, A. (red.) International Journal of the Sociology of Language, vol. 2007, nr 183, s. 75-96. Walter de Gruyter GmbH, Berlin (2007) . https://doi.org/10.1515/IJSL.2007.005.
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (in Ukrainian). In: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454-487. Narodowa Akademia Nauk Ukrainy, Narodowe Stowarzyszenie Ukrainoznawstwa, Rylski Instytut Badań nad Sztuką, Folklorem i Etnologią, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Orynycz, P: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (red.) Sztuczna inteligencja w HCI. HCII 2022. Lecture Notes in Computer Science, vol. 13336, s. 567-580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.) Natural Language Engineering, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warszawa (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (w języku ukraińskim). Siversiya MV, Iwano-Frankowsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (w języku ukraińskim). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie. Wydawnictwo naukowe Semper, Warszawa (1995).
  22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego. Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (w języku polskim). Hojsak, W. (red.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: Wezwanie do jasności w raportowaniu wyników BLEU. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186-191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z: BLEU: Metoda automatycznej oceny tłumaczenia maszynowego. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311-318. Association for Computational Linguistics, Philadelphia (2002) . https://doi.org/10.3115/1073083.1073135.
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223-231. Association for Machine Translation in the Americas, Cambridge (2006) . https://aclanthology.org/2006.amta-papers.25.
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392-395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ta strona korzysta z Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.