This site is undergoing a full revamp. Layout may be temporarily broken.

BLEUkitne niebo dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia neuronowego na język łemkowsko-rusiński i ukraiński szybuje (2023)

Streszczenie

Przyspieszająca globalna utrata języków, związana z podwyższonym wskaźnikiem używania nielegalnych substancji, cukrzycy typu 2, upijania się i napaści, a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, stanowi rosnące wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, w których transmisja międzypokoleniowa jest często zakłócana, systemy neuronowego tłumaczenia maszynowego oparte na sztucznej inteligencji mogą potencjalnie ożywić języki dziedzictwa i wzmocnić pozycję nowych użytkowników, umożliwiając im rozumienie innych i bycie rozumianymi dzięki natychmiastowemu tłumaczeniu. Jednak rozwiązania oparte na sztucznej inteligencji stwarzają także problemy, takie jak wygórowane koszty i wątpliwa jakość wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach systemami, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie zakłóceń ze strony języków dominujących. Niniejsza praca opisuje przebudowę silnika wdrożonego w serwisie LemkoTran.com w celu umożliwienia tłumaczenia z i na język łemkowski, poważnie zagrożony język mniejszościowy o ukraińskiej klasyfikowalności genetycznej, używany na pograniczu Polski i Słowacji (gdzie bywa również określany jako rusiński). Moduły tłumaczeniowe oparte na słownikach zostały wyposażone w morfologiczne i składniowe generatory rzeczowników, czasowników i przymiotników zasilane 877 lematami oraz 708 hasłami glosariusza, a cały system został poddany 9 518 automatycznym testom kontroli jakości odwołującym się do kodyfikacji językowej. Owocem tej pracy jest 23-procentowa poprawa jakości tłumaczenia na język angielski od czasu ostatniej publikacji oraz 35-procentowy wzrost jakości tłumaczenia z języka angielskiego na łemkowski, co pozwala uzyskać tłumaczenia przewyższające każdą usługę Tłumacza Google pod każdym względem i dające wynik o 396% wyższy niż ukraińska wersja Tłumacza Google podczas tłumaczenia na łemkowski.

Proszę cytować jako: Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science (LNAI), t. 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

Czytaj więcej: BLEUkitne niebo dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia neuronowego na język łemkowsko-rusiński i ukraiński szybuje (2023)

1 Wprowadzenie

1.1 Problem

Języki zanikają w tempie co najmniej jednego na kwartał, przy czym tempo to ma się potroić do roku 2062, a do 2100 roku wzrosnąć pięciokrotnie, obejmując ponad 1500 społeczności językowych [1, s. 163, 169]. Zjawisku temu towarzyszy zwiększona częstość używania substancji psychoaktywnych o nielegalnym statusie [2, s. 179], występowania cukrzycy typu 2 [3], epizodów intensywnego picia alkoholu i napaści [4], a także sześciokrotnie wyższy wskaźnik samobójstw wśród młodzieży w społecznościach, w których mniej niż połowa członków zna dany język [5].

Niedawne badanie przeprowadzone w Stanach Zjednoczonych wykazało, że posługiwanie się językami rdzennymi wywiera pozytywny wpływ na zdrowie, niezależnie od poziomu ich biegłej znajomości [6]. Eksperyment przeprowadzony wśród użytkowników języka polskiego wykazał, że posługiwanie się językiem łemkowskim łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności wspomnień traumatycznych [7].

Tłumaczenie maszynowe oparte na sztucznej inteligencji może odegrać istotną rolę w upowszechnianiu opisanych wyżej efektów ochronnych wśród użytkowników języków dziedziczonych poprzez rewitalizację języków zagrożonych wymarciem oraz tzw. języków uśpionych [8, s. 577]. Na przykład nowi użytkownicy języka mogą natychmiast wytwarzać poprawny tekst i korzystać ze zrozumiałych tłumaczeń pisemnych, wspomagając się automatycznymi systemami tłumaczenia maszynowego do czasu osiągnięcia pełnej, samodzielnej biegłości.

1.2 Badany system

Język

Łemkowski jest zdecydowanie, a nawet skrajnie zagrożonym wymarciem [9, s. 177–178] wschodniosłowiańskim lektem o południowozachodnioukraińskiej klasyfikowalności genetycznej [10, s. 52; 11, s. 39], rdzennie związanym z pograniczem między Rzecząpospolitą Polską a Republiką Słowacką; w części opracowań bywa określany jako „rusiński” [11, s. 39; 12].

Granice wschodnie

Jedyną w swoim rodzaju izoglosą odróżniającą zasięg języka łemkowskiego od obszarów położonych dalej na wschód jest stały akcent paroksytoniczny (na przedostatniej sylabie), cecha wspólna z językiem polskim i dialektami wschodniosłowackimi [10, s. 161–162, 972–973; 11, s. 50; 13, s. 70–73]. Na Słowacji izoglosa ta pozwala śledzić zasięg łemkowszczyzny co najmniej do rzeki Laborec, za którą rozciąga się strefa przejściowa [13, s. 70; 11, s. 50]. W Polsce historyczny zasięg języka łemkowskiego sięga co najmniej rzek Osławica lub Wisłok, z dalszą strefą przejściową poza nimi [11, s. 50].

Zachodnie granice

Historyczne zachodnie granice zasięgu języka łemkowskiego wyznaczają rzeki Poprad i Dunajec [14, s. 459].

Lokalizacja

Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

Nazwa łemkowskaTransliteracjaPolska nazwaSiedziba powiatuSiedziba gminy
ІзбыIzbŷIzbyGorliceUście Gorlickie
ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
ЧорнеČorneCzarneGorliceSękowa
ДолгеDolheDługieGorliceSękowa
БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
ФльоринкаFlorynkaFlorynkaNowy SączGrybów
ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
Tabela 1. Miejscowości pochodzenia rodzimych użytkowników języka łemkowskiego, z którymi przeprowadzono wywiady wchodzące w skład materiału korpusowego.

2 Stan badań

W ubiegłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczeń maszynowych na język łemkowski: BLEU 6,28, co stanowi prawie trzykrotność wyniku ukraińskiej wersji usługi Google Translate [1] (BLEU 2,17) [15, s. 570]. Rok wcześniej wraz ze współautorami opublikowaliśmy i zaprezentowaliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na język angielski: BLEU 14,57 [16].


[1] Oświadczenie: pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń z języków ukraińskiego, polskiego i rosyjskiego w projekcie Google Translate. Siedziba mojego klienta znajduje się w San Francisco w stanie Kalifornia.

Silnik tłumaczeniowy został wdrożony i udostępniony bezpłatnie pod adresem URL https://www.LemkoTran.com, gdzie od jesieni 2017 roku działa także silnik transliteracyjny. Po raz pierwszy wzmianka o tym silniku tłumaczeniowym pojawiła się w druku w artykule Scherrera i Rabusa opublikowanym w 2019 roku na łamach czasopisma *Natural Language Engineering* wydawnictwa Cambridge University Press [17].

3 Materiały i metody

3.1 Materiały

Eksperyment przeprowadzono na dwujęzycznym korpusie obejmującym cyrylickie transkrypcje w języku łemkowskim oraz angielskie tłumaczenia wywiadów z osobami, które przeżyły przymusowe przesiedlenia z ziem swoich przodków w Polsce, oraz z ich dziećmi. Transkrypcje i ich tłumaczenia[1] wyrównano do siebie w 3 267 segmentach; według programu Microsoft Word korpus obejmuje 68 944 słowa w tekście źródłowym w języku łemkowskim oraz 81 188 słów w tekście docelowym w języku angielskim.


[1] Zostałem zatrudniony do sporządzenia transkrypcji oraz ich tłumaczenia przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała powstałe materiały na potrzeby mojej działalności badawczo-rozwojowej.

Za podstawowe źródła odniesienia przyjęto słowniki Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petra Pyrteja [23].

3.2 Metody

Ulepszenia silnika

Na potrzeby niniejszego eksperymentu silnik wdrożony na stronie LemkoTran.com został rozbudowany o nowo skonstruowane generatory uwzględniające część mowy, przypadek gramatyczny oraz liczbę, w celu uzyskania gramatycznie i składniowo poprawnych tłumaczeń dla 1 585 haseł słownikowych. Około połowa z nich nie ulega odmianie ani w języku polskim, ani w łemkowskim, co umożliwiało zastosowanie prostej substytucji.

Testy zapewnienia jakości

Jakość działania systemu zapewniono za pomocą 9 518 testów, które w miarę możliwości weryfikowano z wykorzystaniem łemkowskich kodyfikacji, gramatyk i słowników wymienionych powyżej w części „Materiały”. Same testy sprawdzają, czy system tłumaczy dane wypowiedzi w pożądany, z góry określony sposób.

OpisLiczba
Temat rzeczownika414
Temat czasownika296
Temat przymiotnika167
Zaimek osobowy87
Inny zaimek / Pozostałe zaimki178
Liczebnik86
Inne hasła słownikowe357
Razem1,585
Tabela 2. Słownictwo systemowe.

Tłumaczenie maszynowe oparte na regułach (RMBT)

Tekstowi nadawano łemkowski lub polski charakter przez zastępowanie ciągów znaków, w szczególności końcówek fleksyjnych.

Sekwencja polskaSekwencja łemkowskaPozycja w wyrazie
owaćuwatykońcowa (wygłos)
iamiiamykońcowa (wygłos)
ająajutkońcowa (wygłos)
zezopoczątkowa (nagłos)
podpidpoczątkowa (nagłos)
Tabela 3. Przykładowe zamiany sekwencji znaków.

Ocena jakości tłumaczenia

Jakość tłumaczeń oceniono za pomocą standardowych w branży metryk, korzystając z domyślnych ustawień narzędzia SacreBLEU opracowanego w Amazon Research przez Matta Posta [24]. Dla celów porównawczych język polski został zapisany cyrylicą łemkowską w taki sam sposób jak w poprzednim eksperymencie [15, s. 573].

Metryka BLEU (Bilingual Evaluation Understudy)

Ta oparta na n-gramach metryka cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w ośrodku IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) oraz pod nadzorem Dowództwa Systemów Kosmicznych i Morskich Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

Współczynnik edycji tłumaczenia (TER)

Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

Wskaźnik F dla znakowych n-gramów (chrF)

Wykazano, że ta opracowana w Europie metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

4 Wyniki i dyskusja

Eksperymentalny system LemkoTran.com przewyższył wszystkie usługi Google Translate według wszystkich zastosowanych metryk. Wynik BLEU dla tłumaczenia z języka angielskiego na łemkowski był o 35% wyższy niż w ostatnio opublikowanych badaniach [15] i czterokrotnie przewyższał wynik kolejnej najlepszej usługi Google Translate, czyli tłumaczenia na język ukraiński. Z kolei jakość tłumaczenia z języka łemkowskiego na angielski poprawiła się o 23% względem wcześniejszych wyników [16], osiągając wartości BLEU o 16% wyższe niż najlepsze rezultaty uzyskane przez Google Translate, który automatycznie rozpoznawał łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% oraz jako białoruski w 6% przypadków.

4.1 Jakość tłumaczenia z angielskiego na łemkowski

Wyniki

Silnik wdrożony w serwisie LemkoTran.com uzyskał lepsze wyniki niż Google Translate według wszystkich metryk podczas tłumaczenia z języka angielskiego na łemkowski. Kolejnym najwyżej ocenionym systemem w eksperymencie była albo ukraińska usługa Google Translate (przy metrykach BLEU i chrF), albo polska usługa Google Translate (przy metryce TER).

BLEU

Jakość tłumaczeń systemu wdrożonego w serwisie LemkoTran.com, mierzona najpowszechniej stosowaną metryką BLEU, wzrosła do 8,48, co oznacza poprawę o 35% względem ostatnio opublikowanych w 2022 roku wyników [15] i obecnie czterokrotnie przewyższa najwyższy wynik uzyskany przez Google Translate.

Rys. 1. Jakość tłumaczenia z języka angielskiego na łemkowski mierzona wynikiem BLEU (Bilingual Evaluation Understudy): porównanie usług Google Cloud Neural Machine Translation (NMT) z systemem LemkoTran.com. Im wyższa wartość, tym lepiej.
chrF

Silnik LemkoTran.com uzyskał najwyższy wynik wskaźnika F dla znakowych n-gramów (chrF 37,30) w tłumaczeniu z języka angielskiego na łemkowski; wartość ta jest o 37% wyższa niż w przypadku kolejnej najlepszej usługi, czyli ukraińskiej wersji Google Translate. Jednocześnie rosyjska usługa Google Translate osiągnęła wyższy wynik niż jego wersje polska i białoruska, gdy oceniano je tą metryką na korpusie łemkowskim.

Rys. 2. Jakość tłumaczenia z języka angielskiego na łemkowski mierzona wskaźnikiem F dla znakowych n-gramów (chrF): porównanie usług Google Cloud Neural Machine Translation (NMT) z eksperymentalnym systemem LemkoTran.com. Im wyższa wartość, tym lepiej.
TER

Silnik LemkoTran.com uzyskał najlepszy wynik współczynnika edycji tłumaczenia (Translation Edit Rate, TER) dla tłumaczeń z języka angielskiego na łemkowski, osiągając wartość 81,33. Na drugim miejscu znalazła się polska usługa Google Translate, a tuż za nią uplasowała się jego wersja ukraińska.

Rys. 3. Współczynnik edycji tłumaczenia (TER) dla tłumaczeń z języka angielskiego na łemkowski: porównanie usług Google Cloud Neural Machine Translation (NMT) z systemem LemkoTran.com. Im niższa wartość, tym lepiej.

Próbki

Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

WejścieOur children were smart too. But where were they supposed to study?
OpisWynikTransliteracjaWyniki jakości
Tłumaczenie referencyjne
(łemkowski, rodzimy użytkownik)
В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
chrF2 100
TER 0
Tłumaczenie na łemkowski
przez LemkoTran.com
Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
chrF2 79,03
TER 27,27
Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
chrF2 25,80
TER 72,73
Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3,71
chrF2 16,95
TER 90,91
Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3,12
chrF2 13,84
TER 100
 Tłumaczenie na białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3,09
chrF2 12,83
TER 100
Tabela 4. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.
WejścieAnd generally speaking, Lemkos in Poland don’t have a leader, so to speak, who would say something.
OpisWynikTransliteracjaWyniki jakości
Tłumaczenie referencyjne (łemkowski, rodzimy użytkownik)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
chrF2 100
TER 0
Tłumaczenie na język łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
chrF2 65,32
TER 29,41
Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
chrF2 29,29
TER 82,35

Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
chrF2 25,87
TER 88,24
 Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
chrF2 18,05
TER 94,12
Tabela 5. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.

Tłumaczenie z łemkowskiego na angielski

Wyniki

Pod względem wszystkich zastosowanych metryk silnik wdrożony w serwisie LemkoTran.com uzyskał lepsze wyniki niż Google Translate. W przypadku Google Translate drugie najlepsze rezultaty dawało traktowanie łemkowskiego jako standardowego języka ukraińskiego, następnie tryb automatycznego rozpoznawania języka źródłowego, dalej tłumaczenie traktujące tekst wejściowy jako białoruski, a potem jako polski; tłumaczenie z języka rosyjskiego konsekwentnie dawało najsłabsze wyniki. Tłumacz Google rozpoznał język łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16%, jako białoruski w 6%, a w pozostałych przypadkach jako różne języki używające alfabetu cyrylickiego (np. mongolski).

BLEU

LemkoTran.com uzyskał wynik BLEU równy 17,95 podczas tłumaczenia na język angielski, co stanowi poprawę o 23% w stosunku do ostatnio opublikowanych wyników (BLEU 14,57) oraz wartość o 16% wyższą niż w przypadku ukraińskiej usługi Google Translate (BLEU 15,43).

Rys. 4. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wynikiem BLEU (Bilingual Evaluation Understudy): porównanie usług Google Cloud Neural Machine Translation (NMT) z eksperymentalnym systemem LemkoTran.com. Im wyższa wartość, tym lepiej.
chrF

Silnik wdrożony w serwisie LemkoTran.com osiągnął wartość wskaźnika F dla znakowych n-gramów (chrF) równą 45,89 podczas tłumaczenia na język angielski; jest to wynik o 5% lepszy niż w przypadku ukraińskiej usługi Google Translate.

Rys. 5. Jakość tłumaczenia z języka łemkowskiego na angielski mierzona wskaźnikiem F dla znakowych n-gramów (chrF): porównanie usług Google Cloud Neural Machine Translation (GNMT) z eksperymentalnym systemem LemkoTran.com. Im wyższa wartość, tym lepiej.
TER

LemkoTran.com uzyskał wartość współczynnika Translation Edit Rate (TER) równą 70,38 podczas tłumaczenia na język angielski; wynik ten jest o 7% lepszy niż w przypadku ukraińskiej usługi Google Translate.

Rys. 6. Współczynnik edycji tłumaczenia (TER) dla tłumaczeń z języka łemkowskiego na angielski: porównanie usług Google Cloud Neural Machine Translation (GNMT) z eksperymentalnym systemem LemkoTran.com. Im niższa wartość, tym lepiej.

Próbki

Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

 OpisWynikWyniki
jakości
Transkrypcja wejściowa wypowiedzi w języku łemkowskim (rodzimy użytkownik)Як розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
TransliteracjaJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.
Tłumaczenie referencyjne wykonane przez dwujęzycznego tłumaczaWhen it comes to separating languages, I had contact with Polish. It wasn’t like I started school without knowing Polish because we had Polish neighbors. BLEU 100
chrF2 100
TER 0
Tłumaczenie z łemkowskiego przez system LemkoTran.comWhen we separate languages, I had contact with Polish, it wasn’t like I went to school without Polish, because we had Polish neighbors.BLEU 45,84
chrF2 69,60
TER 32,00
Tłumacz Google (kontrola)z ukraińskiego (autowykrycie, 92% pewności)As we divide the languages, then I had contact with Polish, then it was not like that, and I went to school without Polish, because I had Poles as neighbors.BLEU 15,87
chrF2 54,38
TER 72,00
z białoruskiegoAs we separate the languages, then I had little contact with Polish, then it was not like that, but I went to school without Polish, because we had few Polish neighbors.BLEU 11,.76
chrF2 58,92
TER 68,00
z rosyjskiegoAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6,87
chrF2 42,66
TER 92,00
z języka polskiegoAs I spread the language, I have little contact with the Polish language, it wasn’t like that I went to school without Polish, because I will change my little Polish language.BLEU 5,02
chrF2 45,35
TER 84,00
Tabela 6. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku łemkowskim.

5 Wnioski

Sprzężenie generatorów uwzględniających informację morfologiczną i składniową z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego co najmniej o jedną trzecią, a przy tym daje dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń, przeciwdziałania innym przejawom interferencji języka dominującego oraz zapewniania zgodności z normami, w tym z kodyfikacjami języków mniejszościowych. „Szklane sufity” jakości wyznaczane przez niedoskonałości modeli sztucznej inteligencji można również rozbijać dzięki rzetelnej inżynierii. W przypadku języka łemkowskiego, jak i innych rdzennych języków mniejszościowych o ograniczonych zasobach, niebo staje się obecnie jedyną granicą jakości tłumaczeń, a na horyzoncie rysują się rewolucje rewitalizacyjne.

Podziękowania

Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies oraz dr. Jamesowi Joshui Penningtonowi za ich wnikliwe uwagi, a także dr. Yvesowi Scherrerowi z Uniwersytetu Helsińskiego za zainteresowanie projektem i zgłoszone pomysły.

Referencje

  1. Bromham, L., Dinnage, R., Skirgård, H., Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (in Polish). W: Olko, J., Wicherkiewicz, T., Borges, R. (eds.) Integral Strategies for Language Revitalization, 1st edn., s. 175–200. Faculty of “Artes Liberales”, University of Warsaw, Warsaw (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Shevelov, G.: A Historical Phonology of the Ukrainian Language. Tłum. S. Wakulenko, A. Danylenko, red. L. Uszkalow. Naukowe wydawnyctwo „AKTA”, Charkiw 2002 (wyd. oryg. 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax. W: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 39–66. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv. W: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. W: Duchêne, A. (ed.) International Journal of the Sociology of Language, t. 2007, nr 183, s. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (po ukraińsku). W: Skrypnyk, H. (ed.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kyiv (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Orynycz, P.: Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. W: Degen, H., Ntoa, S. (eds.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, t. 13336, s. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, nr 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (eds.) Natural Language Engineering, t. 25, nr 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (po ukraińsku). Siversiya MV, Ivano-Frankivsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (in Ukrainian). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (in Polish). Wydawnictwo naukowe Semper, Warsaw (1995).
  22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (in Polish). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia . Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: A Call for Clarity in Reporting BLEU Scores. In: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, s. 186–191. Association for Computational Linguistics, Brussels (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311–318. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392–395. Association for Computational Linguistics, Lisbon (2015). http://dx.doi.org/10.18653/v1/W15-3049

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.