This site is undergoing a full revamp. Layout may be temporarily broken.
Strona główna » Nauka » Recenzowane artykuły naukowe » BLEUkitne niebo (2023)

BLEUkitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowej sztucznej inteligencji dla języka łemkowskiego i ukraińskiego osiąga nowe wyżyny (2023)

Portret Petro Orynycza z napisami "BLEUkitne niebo" i "Łemkowska AI Neuronowa" na białym tle

Streszczenie

Przyspieszająca globalna utrata języków, związana z podwyższonym występowaniem używania substancji niedozwolonych, cukrzycy typu 2, picia alkoholu w nadmiarze i napaści, a także sześciokrotnie wyższymi wskaźnikami samobójstw wśród młodzieży, stanowi narastające wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, gdzie przekaz międzypokoleniowy jest często zakłócany, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mają potencjał do rewitalizacji języków dziedzictwa i wzmocnienia nowych użytkowników poprzez umożliwienie im zrozumienia i bycia zrozumianymi za pomocą natychmiastowego tłumaczenia. Jednak rozwiązania sztucznej inteligencji stwarzają problemy, takie jak prohibicyjne koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie interferencji z języków dominujących. Ta praca opisuje przebudowę silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na język łemkowski i z niego, będący poważnie zagrożonym, mniejszościowym dialektem ukraińskiej klasyfikacji genetycznej, rdzennym dla pogranicza między Polską a Słowacją (gdzie jest również określany jako rusiński). Moduły tłumaczenia oparte na słownikach zostały wyposażone w morfologicznie i syntaktycznie poinformowane generatory rzeczowników, czasowników i przymiotników zasilane przez 877 lematów wraz z 708 wpisami słownikowymi, a cały system został wzmocniony przez 9 518 automatycznych, odnoszących się do kodyfikacji, obowiązkowych testów kontroli jakości. Owocem tej pracy jest 23% poprawa od ostatniej publikacji w jakości tłumaczenia na język angielski i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Google Translate według każdej metryki i uzyskują wynik o 396% wyższy niż usługa ukraińska Google przy tłumaczeniu na język łemkowski.

Proszę cytować:

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: Degen, H., Ntoa, S. (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

1 Wprowadzenie

1.1 Problem

Języki zanikają w tempie co najmniej jednego na kwartał, przy czym tempo to ma się potroić do roku 2062, a do 2100 roku wzrosnąć pięciokrotnie, obejmując ponad 1500 społeczności językowych [1, s. 163, 169]. Zjawisku temu towarzyszy zwiększona częstość używania substancji psychoaktywnych o nielegalnym statusie [2, s. 179], występowania cukrzycy typu 2 [3], epizodów intensywnego picia alkoholu i napaści [4], a także sześciokrotnie wyższy wskaźnik samobójstw wśród młodzieży w społecznościach, w których mniej niż połowa członków zna dany język [5].

Niedawne badanie w Stanach Zjednoczonych wykazało, że używanie języków rdzennych ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na użytkownikach w Polsce wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].

Tłumaczenie maszynowe oparte na sztucznej inteligencji może odegrać istotną rolę w upowszechnianiu opisanych wyżej efektów ochronnych wśród użytkowników języków dziedziczonych poprzez rewitalizację języków zagrożonych wymarciem oraz tzw. języków uśpionych [8, s. 577]. Na przykład nowi użytkownicy języka mogą natychmiast wytwarzać poprawny tekst i korzystać ze zrozumiałych tłumaczeń pisemnych, wspomagając się automatycznymi systemami tłumaczenia maszynowego do czasu osiągnięcia pełnej, samodzielnej biegłości.

1.2 Badany system

Język

Język łemkowski to definitywnie do poważnie zagrożony [9, s. 177–178] wschodniosłowiański dialekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39] rodzimy dla pogranicza między Rzeczpospolitą Polską a Republiką Słowacką; niektórzy określali go jako rusiński [11, s. 39; 12].

Granice wschodnie

Unikalna izoglosa różnicująca język łemkowski na wschodzie to stały akcent paroksytoniczny (przedostatnia sylaba), cecha wspólna z polskim i wschodniosłowackimi dialektami [10, s. 161–162 i 972–973; 11, s. 50; 13, s. 70–73], czyniąc jego zasięg na wschodniej Słowacji co najmniej do rzeki Laborec, z strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg języka łemkowskiego sięga co najmniej rzek Osławica lub Wisłok, ze strefą przejściową poza nimi [11, s. 50].

Zachodnie granice

Historyczne zachodnie granice języka łemkowskiego to rzeki Poprad i Dunajec [14, s. 459].

Lokalizacja

Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

Nazwa łemkowskaTransliteracjaPolska nazwaSiedziba powiatuSiedziba gminy
ІзбыIzbŷIzbyGorliceUście Gorlickie
ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
ЧорнеČorneCzarneGorliceSękowa
ДолгеDolheDługieGorliceSękowa
БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
ФльоринкаFlorynkaFlorynkaNowy SączGrybów
ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
Tabela 1. Miejscowości pochodzenia rodzimych użytkowników języka łemkowskiego, z którymi przeprowadzono wywiady wchodzące w skład materiału korpusowego.

2 Aktualny stan wiedzy

W zeszłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczeń maszynowych na język łemkowski: BLEU 6,28, co było prawie trzykrotnie wyższe niż usługa ukraińska Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej moi koledzy i ja opublikowaliśmy i przedstawiliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14,57 [16].


[1] Ujawnienie informacji: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń z języka ukraińskiego, polskiego i rosyjskiego w ramach projektu Google Translate. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.

Silnik został wdrożony i jest dostępny bezpłatnie pod adresem https://www.LemkoTran.com, gdzie od jesieni 2017 r. działa silnik transliteracji. Silnik tłumaczeniowy został po raz pierwszy wspomniany w druku przez dr. Scherrera i dr. Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].

3 Materiały i metody

3.1 Materiały

Eksperyment został przeprowadzony na dwujęzycznym korpusie obejmującym łemkowskie transkrypty cyrylickie i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypty i ich tłumaczenia[1] zostały wyrównane w 3 267 segmentach, przy czym Microsoft Word podał łemkowską liczbę słów źródłowych 68 944 i angielską docelową liczbę słów 81 188.


[1] Zostałem zatrudniony do sporządzenia transkrypcji oraz ich tłumaczenia przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała powstałe materiały na potrzeby mojej działalności badawczo-rozwojowej.

Za podstawowe źródła odniesienia przyjęto słowniki Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petra Pyrteja [23].

3.2 Metody

Ulepszenia silnika

Do tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory poinformowane przez część mowy, przypadek gramatyczny i liczbę w celu tworzenia gramatycznie i syntaktycznie odpowiednich tłumaczeń dla 1 585 wpisów słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, umożliwiając prostą substytucję.

Testy zapewnienia jakości

Jakość została zapewniona przez 9 518 testów skrzyżowanych, gdy było to możliwe, z kodyfikacjami łemkowskimi, gramatykami i słownikami wymienionymi powyżej w Materiałach. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.

OpisLiczba
Temat rzeczownika414
Temat czasownika296
Temat przymiotnika167
Zaimek osobowy87
Inny zaimek / Pozostałe zaimki178
Liczebnik86
Inne hasła słownikowe357
Razem1,585
Tabela 2. Słownictwo systemowe.

Tłumaczenie maszynowe oparte na regułach (RMBT)

Tekst otrzymał łemkowski lub polski wygląd i charakter poprzez zastąpienie sekwencji znaków, a szczególnie końcówek fleksyjnych.

Sekwencja polskaSekwencja łemkowskaPozycja w wyrazie
owaćuwatykońcowa (wygłos)
iamiiamykońcowa (wygłos)
ająajutkońcowa (wygłos)
zezopoczątkowa (nagłos)
podpidpoczątkowa (nagłos)
Tabela 3. Przykładowe zamiany sekwencji znaków.

Ocena jakości tłumaczenia

Jakość tłumaczenia została zmierzona według standardowych metryk branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU wynalezionego w Amazon Research przez Matta Posta [24]. Ze względu na porównywalność, język polski został przedstawiony w cyrylicy łemkowskiej w taki sam sposób jak w ostatnim eksperymencie [15, s. 573].

Metryka BLEU (Bilingual Evaluation Understudy)

Ta oparta na n-gramach metryka cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w ośrodku IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) oraz pod nadzorem Dowództwa Systemów Kosmicznych i Morskich Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

Współczynnik edycji tłumaczenia (TER)

Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

Wskaźnik F dla znakowych n-gramów (chrF)

Wykazano, że ta opracowana w Europie metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

4 Wyniki i dyskusja

System eksperymentalny, LemkoTran.com, przewyższył każdą usługę Google Translate pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnimi opublikowanymi wynikami [15], dając rezultaty cztery razy lepsze niż najlepsza oferta Google Translate, jej usługa ukraińska. Tymczasem jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze uzyskane przez Google Translate, które automatycznie rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.

4.1 Jakość tłumaczenia z języka angielskiego na łemkowski

Wyniki

Silnik wdrożony na LemkoTran.com przewyższył Google Translate pod każdym względem przy tłumaczeniu z angielskiego na łemkowski. Następnym najwyżej punktowanym systemem w eksperymencie był albo wynik usługi ukraińskiej Google Translate (używając metryk BLEU lub chrF) albo jej usługi polskiej (używając metryki TER).

BLEU

Jakość tłumaczeń systemu wdrożonego w serwisie LemkoTran.com, mierzona najpowszechniej stosowaną metryką BLEU, wzrosła do 8,48, co oznacza poprawę o 35% względem ostatnio opublikowanych w 2022 roku wyników [15] i obecnie czterokrotnie przewyższa najwyższy wynik uzyskany przez Google Translate.

Rys. 1. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im wyżej, tym lepiej.
chrF

Silnik LemkoTran.com osiągnął najlepszy wynik f-score (chrF 37,30) dla n-gramów znaków w tłumaczeniu z angielskiego na łemkowski, który jest o 37% wyższy niż następny najlepszy, usługa ukraińska Google Translate. Tymczasem usługa rosyjska Google Translate uzyskała wyższy wynik niż jej odpowiedniki polskie i białoruskie przy pomiarze względem korpusu łemkowskiego tą metryką.

Rys. 2. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
TER

Silnik LemkoTran.com osiągnął najlepszy wskaźnik Translation Edit Rate (TER) dla tłumaczenia z angielskiego na łemkowski, uzyskując wynik 81,33. Usługa polska Google Translate zajęła drugie miejsce, a tuż za nią jej usługa ukraińska.

Rys. 3. Translation Edit Rate (TER) z angielskiego na łemkowski, Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im niżej, tym lepiej.

Próbki

Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

WejścieOur children were smart too. But where were they supposed to study?
OpisWynikTransliteracjaWyniki jakości
Referencja łemkowska
(native speaker)
В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
chrF2 100
TER 0
Tłumaczenie na łemkowski przez
LemkoTran.com
Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
chrF2 79,03
TER 27,27
Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
chrF2 25,80
TER 72,73
Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3,71
chrF2 16,95
TER 90,91
Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3,12
chrF2 13,84
TER 100
 Tłumaczenie na białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3,09
chrF2 12,83
TER 100
Tabela 4. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.
WejścieAnd generally speaking, Lemkos in Poland don’t have a leader, so to speak, who would say something.
OpisWynikTransliteracjaWyniki jakości
Referencja łemkowska (native speaker)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
chrF2 100
TER 0
Tłumaczenie na łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
chrF2 65,32
TER 29,41
Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
chrF2 29,29
TER 82,35

Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
chrF2 25,87
TER 88,24
 Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
chrF2 18,05
TER 94,12
Tabela 5. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.

Tłumaczenie z języka łemkowskiego na angielski

Wyniki

Pod każdym względem silnik wdrożony na LemkoTran.com przewyższył Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze drugie najlepsze, następnie automatyczne wykrywanie języka źródłowego, potem tłumaczenie jak z białoruskiego, a następnie polskiego, z rosyjskim zawsze na ostatnim miejscu. Google Translate rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków i jako różne języki używające alfabetów cyrylickich (np. mongolski) w pozostałych przypadkach.

BLEU

LemkoTran.com uzyskał wynik BLEU równy 17,95 podczas tłumaczenia na język angielski, co stanowi poprawę o 23% w stosunku do ostatnio opublikowanych wyników (BLEU 14,57) oraz wartość o 16% wyższą niż w przypadku ukraińskiej usługi Google Translate (BLEU 15,43).

Rys. 4. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
chrF

Silnik wdrożony w serwisie LemkoTran.com osiągnął wartość wskaźnika F dla znakowych n-gramów (chrF) równą 45,89 podczas tłumaczenia na język angielski; jest to wynik o 5% lepszy niż w przypadku ukraińskiej usługi Google Translate.

Rys. 5. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
TER

LemkoTran.com uzyskał wartość współczynnika Translation Edit Rate (TER) równą 70,38 podczas tłumaczenia na język angielski; wynik ten jest o 7% lepszy niż w przypadku ukraińskiej usługi Google Translate.

Rys. 6. Translation Edit Rate (TER) z łemkowskiego na angielski, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im niżej, tym lepiej.

Próbki

Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

 OpisWynikWyniki
jakości
Transkrypcja wejściowa łemkowskiego mówionego przez native speakeraЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
TransliteracjaJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.
Tłumaczenie referencyjne wykonane przez dwujęzycznego tłumaczaWhen it comes to separating languages, I had contact with Polish. It wasn’t like I started school without knowing Polish because we had Polish neighbors. BLEU 100
chrF2 100
TER 0
Tłumaczenie z łemkowskiego przez system na LemkoTran.comWhen we separate languages, I had contact with Polish, it wasn’t like I went to school without Polish, because we had Polish neighbors.BLEU 45,84
chrF2 69,60
TER 32,00
Tłumacz Google (kontrola)z ukraińskiego (autowykrycie, 92% pewności)As we divide the languages, then I had contact with Polish, then it was not like that, and I went to school without Polish, because I had Poles as neighbors.BLEU 15,87
chrF2 54,38
TER 72,00
z białoruskiegoAs we separate the languages, then I had little contact with Polish, then it was not like that, but I went to school without Polish, because we had few Polish neighbors.BLEU 11,.76
chrF2 58,92
TER 68,00
z rosyjskiegoAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6,87
chrF2 42,66
TER 92,00
z języka polskiegoAs I spread the language, I have little contact with the Polish language, it wasn’t like that I went to school without Polish, because I will change my little Polish language.BLEU 5,02
chrF2 45,35
TER 84,00
Tabela 6. Porównania hipotez tłumaczeniowych dla wejścia łemkowskiego.

5 Wnioski

Połączenie morfologicznie i syntaktycznie poinformowanych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, mając jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innej interferencji języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakości narzucone przez niedoskonałości nieodłączne od modeli sztucznej inteligencji mogą również zostać rozbite poprzez solidną inżynierię. Dla języka łemkowskiego, jak również dla podobnych języków mniejszościowych rdzennych o niskich zasobach, niebo jest teraz granicą dla jakości tłumaczenia, a także dla rewolucji rewitalizacyjnych tuż za horyzontem.

Podziękowania

Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies oraz dr. Jamesowi Joshui Penningtonowi za ich wnikliwe uwagi, a także dr. Yvesowi Scherrerowi z Uniwersytetu Helsińskiego za zainteresowanie projektem i zgłoszone pomysły.

Referencje

  1. Bromham, L., Dinnage, R., Skirgård, H., Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (w języku polskim). W: Olko, J., Wicherkiewicz, T., Borges, R. (red.) Integral Strategies for Language Revitalization, 1. wyd., s. 175–200. Faculty of „Artes Liberales”, University of Warsaw, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Shevelov, G.: A Historical Phonology of the Ukrainian Language. Tłum. S. Wakulenko, A. Danylenko, red. L. Uszkalow. Naukowe wydawnyctwo „AKTA”, Charkiw 2002 (wyd. oryg. 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39–66. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. W: Duchêne, A. (red.) International Journal of the Sociology of Language, t. 2007, nr 183, s. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (w języku ukraińskim). W: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Orynycz, P.: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.) Natural Language Engineering, t. 25, nr 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (po ukraińsku). Siversiya MV, Ivano-Frankivsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (in Ukrainian). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (in Polish). Wydawnictwo naukowe Semper, Warsaw (1995).
  22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (in Polish). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia. Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, s. 186–191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. W: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311–318. Association for Computational Linguistics, Filadelfia (2002). https://doi.org/10.3115/1073083.1073135
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. W: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. W: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392–395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.