Streszczenie
Przyspieszająca globalna utrata języków, związana z podwyższonym występowaniem używania substancji niedozwolonych, cukrzycy typu 2, picia alkoholu w nadmiarze i napaści, a także sześciokrotnie wyższymi wskaźnikami samobójstw wśród młodzieży, stanowi narastające wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, gdzie przekaz międzypokoleniowy jest często zakłócany, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mają potencjał do rewitalizacji języków dziedzictwa i wzmocnienia nowych użytkowników poprzez umożliwienie im zrozumienia i bycia zrozumianymi za pomocą natychmiastowego tłumaczenia. Jednak rozwiązania sztucznej inteligencji stwarzają problemy, takie jak prohibicyjne koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie interferencji z języków dominujących. Ta praca opisuje przebudowę silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na język łemkowski i z niego, będący poważnie zagrożonym, mniejszościowym dialektem ukraińskiej klasyfikacji genetycznej, rdzennym dla pogranicza między Polską a Słowacją (gdzie jest również określany jako rusiński). Moduły tłumaczenia oparte na słownikach zostały wyposażone w morfologicznie i syntaktycznie poinformowane generatory rzeczowników, czasowników i przymiotników zasilane przez 877 lematów wraz z 708 wpisami słownikowymi, a cały system został wzmocniony przez 9 518 automatycznych, odnoszących się do kodyfikacji, obowiązkowych testów kontroli jakości. Owocem tej pracy jest 23% poprawa od ostatniej publikacji w jakości tłumaczenia na język angielski i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Google Translate według każdej metryki i uzyskują wynik o 396% wyższy niż usługa ukraińska Google przy tłumaczeniu na język łemkowski.
Proszę cytować:
Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: Degen, H., Ntoa, S. (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10
✅ Ta wersja artykułu została zaakceptowana do publikacji po recenzji, ale nie jest Wersją Ostateczną i nie zawiera ulepszeń po akceptacji ani żadnych poprawek. Wersja Ostateczna jest dostępna online pod adresem https://doi.org/10.1007/978-3-031-35894-4_10. Korzystanie z tej Zaakceptowanej Wersji podlega warunkom wydawcy dotyczącym wykorzystania Zaakceptowanego Manuskryptu: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Spis treści
1 Wprowadzenie
1.1 Problem
Języki zanikają w tempie co najmniej jednego na kwartał, przy czym tempo to ma się potroić do roku 2062, a do 2100 roku wzrosnąć pięciokrotnie, obejmując ponad 1500 społeczności językowych [1, s. 163, 169]. Zjawisku temu towarzyszy zwiększona częstość używania substancji psychoaktywnych o nielegalnym statusie [2, s. 179], występowania cukrzycy typu 2 [3], epizodów intensywnego picia alkoholu i napaści [4], a także sześciokrotnie wyższy wskaźnik samobójstw wśród młodzieży w społecznościach, w których mniej niż połowa członków zna dany język [5].
Niedawne badanie w Stanach Zjednoczonych wykazało, że używanie języków rdzennych ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na użytkownikach w Polsce wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].
Tłumaczenie maszynowe oparte na sztucznej inteligencji może odegrać istotną rolę w upowszechnianiu opisanych wyżej efektów ochronnych wśród użytkowników języków dziedziczonych poprzez rewitalizację języków zagrożonych wymarciem oraz tzw. języków uśpionych [8, s. 577]. Na przykład nowi użytkownicy języka mogą natychmiast wytwarzać poprawny tekst i korzystać ze zrozumiałych tłumaczeń pisemnych, wspomagając się automatycznymi systemami tłumaczenia maszynowego do czasu osiągnięcia pełnej, samodzielnej biegłości.
1.2 Badany system
Język
Język łemkowski to definitywnie do poważnie zagrożony [9, s. 177–178] wschodniosłowiański dialekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39] rodzimy dla pogranicza między Rzeczpospolitą Polską a Republiką Słowacką; niektórzy określali go jako rusiński [11, s. 39; 12].
Granice wschodnie
Unikalna izoglosa różnicująca język łemkowski na wschodzie to stały akcent paroksytoniczny (przedostatnia sylaba), cecha wspólna z polskim i wschodniosłowackimi dialektami [10, s. 161–162 i 972–973; 11, s. 50; 13, s. 70–73], czyniąc jego zasięg na wschodniej Słowacji co najmniej do rzeki Laborec, z strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg języka łemkowskiego sięga co najmniej rzek Osławica lub Wisłok, ze strefą przejściową poza nimi [11, s. 50].
Zachodnie granice
Historyczne zachodnie granice języka łemkowskiego to rzeki Poprad i Dunajec [14, s. 459].
Lokalizacja
Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.
| Nazwa łemkowska | Transliteracja | Polska nazwa | Siedziba powiatu | Siedziba gminy |
| Ізбы | Izbŷ | Izby | Gorlice | Uście Gorlickie |
| Ґлaдышiв | Gladŷšiv | Gładyszów | Gorlice | Uście Gorlickie |
| Чорне | Čorne | Czarne | Gorlice | Sękowa |
| Долге | Dolhe | Długie | Gorlice | Sękowa |
| Білцарьова | Bilcarʹova | Binczarowa | Nowy Sącz | Grybów |
| Фльоринка | Florynka | Florynka | Nowy Sącz | Grybów |
| Чырна | Čŷrna | Czyrna | Nowy Sącz | Krynica-Zdrój |
2 Aktualny stan wiedzy
W zeszłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczeń maszynowych na język łemkowski: BLEU 6,28, co było prawie trzykrotnie wyższe niż usługa ukraińska Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej moi koledzy i ja opublikowaliśmy i przedstawiliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14,57 [16].
[1] Ujawnienie informacji: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń z języka ukraińskiego, polskiego i rosyjskiego w ramach projektu Google Translate. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.
Silnik został wdrożony i jest dostępny bezpłatnie pod adresem https://www.LemkoTran.com, gdzie od jesieni 2017 r. działa silnik transliteracji. Silnik tłumaczeniowy został po raz pierwszy wspomniany w druku przez dr. Scherrera i dr. Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].
3 Materiały i metody
3.1 Materiały
Eksperyment został przeprowadzony na dwujęzycznym korpusie obejmującym łemkowskie transkrypty cyrylickie i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypty i ich tłumaczenia[1] zostały wyrównane w 3 267 segmentach, przy czym Microsoft Word podał łemkowską liczbę słów źródłowych 68 944 i angielską docelową liczbę słów 81 188.
[1] Zostałem zatrudniony do sporządzenia transkrypcji oraz ich tłumaczenia przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała powstałe materiały na potrzeby mojej działalności badawczo-rozwojowej.
Za podstawowe źródła odniesienia przyjęto słowniki Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petra Pyrteja [23].
3.2 Metody
Ulepszenia silnika
Do tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory poinformowane przez część mowy, przypadek gramatyczny i liczbę w celu tworzenia gramatycznie i syntaktycznie odpowiednich tłumaczeń dla 1 585 wpisów słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, umożliwiając prostą substytucję.
Testy zapewnienia jakości
Jakość została zapewniona przez 9 518 testów skrzyżowanych, gdy było to możliwe, z kodyfikacjami łemkowskimi, gramatykami i słownikami wymienionymi powyżej w Materiałach. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.
| Opis | Liczba |
| Temat rzeczownika | 414 |
| Temat czasownika | 296 |
| Temat przymiotnika | 167 |
| Zaimek osobowy | 87 |
| Inny zaimek / Pozostałe zaimki | 178 |
| Liczebnik | 86 |
| Inne hasła słownikowe | 357 |
| Razem | 1,585 |
Tłumaczenie maszynowe oparte na regułach (RMBT)
Tekst otrzymał łemkowski lub polski wygląd i charakter poprzez zastąpienie sekwencji znaków, a szczególnie końcówek fleksyjnych.
| Sekwencja polska | Sekwencja łemkowska | Pozycja w wyrazie |
| ować | uwaty | końcowa (wygłos) |
| iami | iamy | końcowa (wygłos) |
| ają | ajut | końcowa (wygłos) |
| ze | zo | początkowa (nagłos) |
| pod | pid | początkowa (nagłos) |
Ocena jakości tłumaczenia
Jakość tłumaczenia została zmierzona według standardowych metryk branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU wynalezionego w Amazon Research przez Matta Posta [24]. Ze względu na porównywalność, język polski został przedstawiony w cyrylicy łemkowskiej w taki sam sposób jak w ostatnim eksperymencie [15, s. 573].
Metryka BLEU (Bilingual Evaluation Understudy)
Ta oparta na n-gramach metryka cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w ośrodku IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) oraz pod nadzorem Dowództwa Systemów Kosmicznych i Morskich Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].
Współczynnik edycji tłumaczenia (TER)
Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].
Wskaźnik F dla znakowych n-gramów (chrF)
Wykazano, że ta opracowana w Europie metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].
4 Wyniki i dyskusja
System eksperymentalny, LemkoTran.com, przewyższył każdą usługę Google Translate pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnimi opublikowanymi wynikami [15], dając rezultaty cztery razy lepsze niż najlepsza oferta Google Translate, jej usługa ukraińska. Tymczasem jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze uzyskane przez Google Translate, które automatycznie rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.
4.1 Jakość tłumaczenia z języka angielskiego na łemkowski
Wyniki
Silnik wdrożony na LemkoTran.com przewyższył Google Translate pod każdym względem przy tłumaczeniu z angielskiego na łemkowski. Następnym najwyżej punktowanym systemem w eksperymencie był albo wynik usługi ukraińskiej Google Translate (używając metryk BLEU lub chrF) albo jej usługi polskiej (używając metryki TER).
BLEU
Jakość tłumaczeń systemu wdrożonego w serwisie LemkoTran.com, mierzona najpowszechniej stosowaną metryką BLEU, wzrosła do 8,48, co oznacza poprawę o 35% względem ostatnio opublikowanych w 2022 roku wyników [15] i obecnie czterokrotnie przewyższa najwyższy wynik uzyskany przez Google Translate.

chrF
Silnik LemkoTran.com osiągnął najlepszy wynik f-score (chrF 37,30) dla n-gramów znaków w tłumaczeniu z angielskiego na łemkowski, który jest o 37% wyższy niż następny najlepszy, usługa ukraińska Google Translate. Tymczasem usługa rosyjska Google Translate uzyskała wyższy wynik niż jej odpowiedniki polskie i białoruskie przy pomiarze względem korpusu łemkowskiego tą metryką.

TER
Silnik LemkoTran.com osiągnął najlepszy wskaźnik Translation Edit Rate (TER) dla tłumaczenia z angielskiego na łemkowski, uzyskując wynik 81,33. Usługa polska Google Translate zajęła drugie miejsce, a tuż za nią jej usługa ukraińska.

Próbki
Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.
| Wejście | Our children were smart too. But where were they supposed to study? | |||
| Opis | Wynik | Transliteracja | Wyniki jakości | |
| Referencja łemkowska (native speaker) | В нас діти тіж были мудры, але де мали ся вчыти? | V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty? | BLEU 100 chrF2 100 TER 0 | |
| Tłumaczenie na łemkowski przez LemkoTran.com | Нашы діти тіж были мудры. але де мали ся вчыти? | Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? | BLEU 58,34 chrF2 79,03 TER 27,27 | |
| Tłumacz Google (kontrola) | Tłumaczenie na język ukraiński | Наші діти теж були розумними. Але де вони мали вчитися? | Naši dity tež buly rozumnymy. Ale czy jest to możliwe? | BLEU 4,41 chrF2 25,80 TER 72,73 |
| Tłumaczenie na język rosyjski | Наши дети тоже были умными. Но где им было учиться? | Na pewno byli umarłymi. Nie masz nic przeciwko? | BLEU 3,71 chrF2 16,95 TER 90,91 | |
| Tłumaczenie na język polski | Наше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? | Nie musisz się martwić. Czy jesteś w stanie to zrobić? | BLEU 3,12 chrF2 13,84 TER 100 | |
| Tłumaczenie na białoruski | Разумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? | Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? | BLEU 3,09 chrF2 12,83 TER 100 | |
| Wejście | And generally speaking, Lemkos in Poland don’t have a leader, so to speak, who would say something. | |||
| Opis | Wynik | Transliteracja | Wyniki jakości | |
| Referencja łemkowska (native speaker) | А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл. | A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil. | BLEU 100 chrF2 100 TER 0 | |
| Tłumaczenie na łemkowski przez LemkoTran.com | І генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл. | I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil. | BLEU 55,58 chrF2 65,32 TER 29,41 | |
| Tłumacz Google (kontrola) | Tłumaczenie na język polski | І ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял. | I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal. | BLEU 9,26 chrF2 29,29 TER 82,35 |
| Tłumaczenie na język ukraiński | І взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав. | I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav. | BLEU 5,15 chrF2 26,56 TER 82,35 | |
| Tłumaczenie na język rosyjski | И вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал. | I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal. | BLEU 2,96 chrF2 25,87 TER 88,24 | |
| Tłumaczenie na język białoruski | І ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў. | I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ. | BLEU 2,72 chrF2 18,05 TER 94,12 | |
Tłumaczenie z języka łemkowskiego na angielski
Wyniki
Pod każdym względem silnik wdrożony na LemkoTran.com przewyższył Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze drugie najlepsze, następnie automatyczne wykrywanie języka źródłowego, potem tłumaczenie jak z białoruskiego, a następnie polskiego, z rosyjskim zawsze na ostatnim miejscu. Google Translate rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków i jako różne języki używające alfabetów cyrylickich (np. mongolski) w pozostałych przypadkach.
BLEU
LemkoTran.com uzyskał wynik BLEU równy 17,95 podczas tłumaczenia na język angielski, co stanowi poprawę o 23% w stosunku do ostatnio opublikowanych wyników (BLEU 14,57) oraz wartość o 16% wyższą niż w przypadku ukraińskiej usługi Google Translate (BLEU 15,43).

chrF
Silnik wdrożony w serwisie LemkoTran.com osiągnął wartość wskaźnika F dla znakowych n-gramów (chrF) równą 45,89 podczas tłumaczenia na język angielski; jest to wynik o 5% lepszy niż w przypadku ukraińskiej usługi Google Translate.

TER
LemkoTran.com uzyskał wartość współczynnika Translation Edit Rate (TER) równą 70,38 podczas tłumaczenia na język angielski; wynik ten jest o 7% lepszy niż w przypadku ukraińskiej usługi Google Translate.

Próbki
Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.
| Opis | Wynik | Wyniki jakości | |
| Transkrypcja wejściowa łemkowskiego mówionego przez native speakera | Як розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків. | — | |
| Transliteracja | Jak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv. | — | |
| Tłumaczenie referencyjne wykonane przez dwujęzycznego tłumacza | When it comes to separating languages, I had contact with Polish. It wasn’t like I started school without knowing Polish because we had Polish neighbors. | BLEU 100 chrF2 100 TER 0 | |
| Tłumaczenie z łemkowskiego przez system na LemkoTran.com | When we separate languages, I had contact with Polish, it wasn’t like I went to school without Polish, because we had Polish neighbors. | BLEU 45,84 chrF2 69,60 TER 32,00 | |
| Tłumacz Google (kontrola) | z ukraińskiego (autowykrycie, 92% pewności) | As we divide the languages, then I had contact with Polish, then it was not like that, and I went to school without Polish, because I had Poles as neighbors. | BLEU 15,87 chrF2 54,38 TER 72,00 |
| z białoruskiego | As we separate the languages, then I had little contact with Polish, then it was not like that, but I went to school without Polish, because we had few Polish neighbors. | BLEU 11,.76 chrF2 58,92 TER 68,00 | |
| z rosyjskiego | As we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv. | BLEU 6,87 chrF2 42,66 TER 92,00 | |
| z języka polskiego | As I spread the language, I have little contact with the Polish language, it wasn’t like that I went to school without Polish, because I will change my little Polish language. | BLEU 5,02 chrF2 45,35 TER 84,00 | |
5 Wnioski
Połączenie morfologicznie i syntaktycznie poinformowanych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, mając jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innej interferencji języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakości narzucone przez niedoskonałości nieodłączne od modeli sztucznej inteligencji mogą również zostać rozbite poprzez solidną inżynierię. Dla języka łemkowskiego, jak również dla podobnych języków mniejszościowych rdzennych o niskich zasobach, niebo jest teraz granicą dla jakości tłumaczenia, a także dla rewolucji rewitalizacyjnych tuż za horyzontem.
Podziękowania
Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies oraz dr. Jamesowi Joshui Penningtonowi za ich wnikliwe uwagi, a także dr. Yvesowi Scherrerowi z Uniwersytetu Helsińskiego za zainteresowanie projektem i zgłoszone pomysły.
Referencje
- Bromham, L., Dinnage, R., Skirgård, H., Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
- Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
- Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
- Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
- Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
- Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
- Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
- Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
- Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (w języku polskim). W: Olko, J., Wicherkiewicz, T., Borges, R. (red.) Integral Strategies for Language Revitalization, 1. wyd., s. 175–200. Faculty of „Artes Liberales”, University of Warsaw, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
- Shevelov, G.: A Historical Phonology of the Ukrainian Language. Tłum. S. Wakulenko, A. Danylenko, red. L. Uszkalow. Naukowe wydawnyctwo „AKTA”, Charkiw 2002 (wyd. oryg. 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
- Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx” dialektiv v Karpatax (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39–66. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. W: Duchêne, A. (red.) International Journal of the Sociology of Language, t. 2007, nr 183, s. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
- Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (w języku ukraińskim). W: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
- Orynycz, P.: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
- Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
- Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.) Natural Language Engineering, t. 25, nr 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
- Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
- Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (po ukraińsku). Siversiya MV, Ivano-Frankivsk (2004).
- Duda, I.: Lemkivsʹkyj slovnyk (in Ukrainian). Aston, Ternopil (2011).
- Rieger, J.: Słownictwo i nazewnictwo łemkowskie (in Polish). Wydawnictwo naukowe Semper, Warsaw (1995).
- Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (in Polish). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
- Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia. Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
- Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, s. 186–191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
- Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. W: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311–318. Association for Computational Linguistics, Filadelfia (2002). https://doi.org/10.3115/1073083.1073135
- Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. W: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
- Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. W: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392–395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049

Dodaj komentarz