Tag: łemkowski

  • Zdobywanie serc i języków: Studium przypadku tłumaczenia z polskiego na język łemkowski (2023)

    Zdobywanie serc i języków: Studium przypadku tłumaczenia z polskiego na język łemkowski (2023)

    Streszczenie

    Gdy zanikają języki mniejszości i lokalne, cierpi na tym bezpieczeństwo narodowe: nie tylko często dokumentuje się znaczący wzrost samobójstw, depresji, cukrzycy, napaści i nadużywania substancji, ale powstaje próżnia, która historycznie była wykorzystywana przez przeciwników. Na przykład, miliony osób ze społeczności mniejszościowych ahistorycznie przyjmują język i/lub tożsamość rosyjską jako własną w Ukrainie, Białorusi, krajach sojuszniczych NATO, a nawet w Stanach Zjednoczonych. Jeśli luki w komunikacji w języku ojczystym pozostaną wyłącznie w rękach przeciwników, wykorzystujących ich długie doświadczenie z tymi językami, NATO pozostaje w znaczącej niekorzystnej sytuacji próbując dotrzeć do tych społeczności. W Europie rany psychiczne zadane częściowo przez utratę języka nie zostały zaleczone przez asymilację. Zamiast tego miasta doświadczają wybuchów izolujących napięć na Zachodzie, a wschodnie populacje są przekonywane przez wrogie mocarstwa, że to one są ich prawdziwymi sojusznikami, którzy ich rozumieją i szanują. Edukacja w języku oficjalnym również nie jest panaceum: w przypadku Ukrainy (a nawet Hiszpanii), nietrywiale różnice między lokalnymi lektami a językiem oficjalnym tworzą możliwości dla przeciwników do podsycania płomieni separatyzmu.

    Wykorzystanie silników tłumaczenia maszynowego do wzmocnienia NATO i jego partnerów w szkoleniu rekrutów lub działaniu w terenie w języku najbliższym ich sercom i umysłom może zapewnić natychmiastowe poczucie „swojskości„ i pokazać wielokulturową wizję NATO. Silniki oparte na sztucznej inteligencji i regułach zostały złożone w celu tłumaczenia między oficjalnym językiem Polski a językiem jej rdzennej mniejszości łemkowskiej, która od dawna była celem obcych mocarstw. Silniki zostały ocenione podczas tłumaczenia z łemkowskiego na polski przy użyciu metryk opracowanych przy wsparciu DARPA, uzyskując wynik BLEU (bilingual evaluation understudy) 31,13 i TER (translation edit rate) 54,10. Tymczasem w przeciwnym kierunku silniki uzyskały wynik TER 53,73 i BLEU 29,49, wynik 6,5 razy lepszy niż usługa Google Translate dla pary polsko-ukraińskiej.

    Proszę cytować jako: Orynycz, P., i Dobry, T. (2023). Zdobywanie serc i języków: Studium przypadku tłumaczenia z polskiego na język łemkowski. W Materiałach z Konferencji Międzyresortowej/Przemysłowej ds. Szkoleń, Symulacji i Edukacji (I/ITSEC).

    Proszę cytować:

    Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001

    Wprowadzenie

    Wyniki szkoleń mogą skorzystać z wykorzystania tłumaczenia maszynowego dla języków i dialektów rdzennych i mniejszościowych, których użycie jest coraz bardziej i znacząco (p ≤ 0,05) powiązane w literaturze naukowej z bystrzejszymi umysłami, bardziej odpornymi psychikami i lepszym zdrowiem, nie wspominając o sześciokrotnie niższych wskaźnikach samobójstw (Hallett i in., 2007, s. 398). Używanie języka dziedziczonego może chronić przed wpływami obcych przeciwników, a na teatrze północnoatlantyckim może zapobiec przyjmowaniu przez docelowe populacje rosyjskich lub innych ahistorycznych tożsamości etnolingwistycznych podczas radzenia sobie z dewastującymi skutkami utraty języka. Podczas gdy lokalizacja materiałów na lokalne dialekty i języki mogła wcześniej przekraczać możliwości zniszczonych wojną społeczności i rządów, dzięki niedawnym przełomom w sztucznej inteligencji i lingwistyce obliczeniowej, możliwe jest teraz rozważanie przystępnych cenowo urządzeń, które są tańsze, szybsze i lepsze niż ludzie w tłumaczeniu na nisko-zasobowe języki rdzenne i mniejszościowe.

    Problem utraty języka nie ogranicza się do Europy. Chociaż globalna sytuacja zagrożenia języków może nie być tak dramatyczna, jak sugerowały dostępne dane z początku lat dziewięćdziesiątych, dostępne statystyki nadal malują ponury obraz. W często cytowanej pracy nazwanej przez Simmonsa i Lewisa (2013) „wielkim językowym wezwaniem do działania„, Krauss ostrzegał w 1992 roku, że od połowy do 90% języków świata miało wymrzeć w tym stuleciu. Ponadto stwierdził „udokumentowany wskaźnik destrukcji„ wynoszący 90% języków rdzennych w anglosfery, gdzie dominuje język angielski, oraz szacowany 50% wskaźnik wymierania dla całego Związku Radzieckiego, gdzie dominował język rosyjski (Krauss, 1992, s. 5). Dwadzieścia lat później Simmons i Lewis (2013) wykorzystali zaktualizowane dane, aby oszacować, że 1360 z 7103 żywych języków (19%) nie jest przekazywanych następnemu pokoleniu (s. 12), a wskaźnik ten wzrasta do 30% w Europie Wschodniej (s. 13).

    Neuronauka i Wyniki Uczenia się

    Najnowsze badania wskazują, że używanie języka ojczystego może oznaczać, że więcej przepustowości umysłowej jest dostępne do nauki, a wyniki testów znacząco się poprawiają. Badanie przeprowadzone w Instytucie Badań Mózgu McGoverna kierowane przez naukowców z Massachusetts Institute of Technology (MIT) na początku tego roku zaobserwowało stosunkowo niską reakcję mózgu na bodźce w języku ojczystym, mierzoną techniką funkcjonalnego rezonansu magnetycznego (fMRI) (Malik-Moraleda i in., 2023). Jako wyjaśnienie, badacze zasugerowali, że ekspertyza zmniejsza ilość mocy mózgu wymaganej do wykonania zadania (Mesa, 2023). W niedawnym badaniu dla Banku Światowego, Soh, Del Carpio i Wang (2021) stwierdzili, że używanie nieojczystego języka nauczania może być niekorzystne, szczególnie dla mężczyzn. W badaniu, wyniki testów z matematyki i nauk ścisłych wśród uczniów w Malezji znacząco spadły po zmianie języka nauczania z malajskiego na angielski (Soh i in., 2021, ss. 4, 17, 18–19).

    Bezpieczeństwo Narodowe

    Według wykładowców Szkoły Operacji Specjalnych NATO White’a i Overdeera, Rosja może wykorzystywać podziały etniczne w społeczeństwach docelowych jako dźwignię wojny hybrydowej w próbie osiągnięcia celów polityki zagranicznej (2020, s. 31-33), przy czym różnice etnolingwistyczne są „łatwo dostępne i łatwe do zaostrzenia„ (s. 40). Poniżej badane jest podżeganie i wykorzystywanie konfliktów etnolingwistycznych zarówno w Europie zachodniej, jak i wschodniej.

    Hiszpania: Katalonia

    Publiczne używanie języka katalońskiego, języka mniejszościowego używanego w północno-wschodniej Hiszpanii, było zakazane przez rząd Franco do 1975 roku (Miller & Miller, 1996, s. 113). Zamiast rozwiązać konflikt, polityka ta mogła spowodować jego zaognienie. W artykule dla The New York Times, Schwirtz i Bautista (2021) cytowali europejski raport wywiadowczy z czerwca 2020 roku, twierdzący, że elitarna Jednostka 29155 rosyjskiego wywiadu wojskowego była obecna w Katalonii w czasie referendum niepodległościowego w 2017 roku, gdy „tajna grupa protestacyjna„ Tsunami Democràtic okupowała lotnisko w Barcelonie i zablokowała główną autostradę łączącą Hiszpanię z jej północnymi sąsiadami. Trzy dni później, pułkownik rosyjskiej Federalnej Służby Ochrony i bliski krewny wysokiego doradcy prezydenta, głęboko zaangażowanego w rosyjskie wysiłki wspierania separatystów na Ukrainie, przyleciał z Moskwy na sesję strategiczną, aby omówić kataloński ruch niepodległościowy (Schwirtz & Bautista, 2021).

    Wsparcie Federacji Rosyjskiej dla katalońskiego ruchu niepodległościowego podobno obejmowało nawet ofertę 10 000 żołnierzy i 500 miliardów dolarów amerykańskich w przypadku uzyskania niepodległości (Baquero i in., 2022; patrz także Brunet, 2022, s. 74). Louise I. Shelley z Centrum Terroryzmu, Przestępczości Transnarodowej i Korupcji na Uniwersytecie George’a Masona w Wirginii nazwała kontakty Rosji z przywódcami separatystycznymi w Hiszpanii zgodnymi z wcześniejszym zachowaniem i wyjaśniła: „Powiązania między Katalończykami a Rosjanami sięgają czasów sowieckich. Przed upadkiem ZSRR w Barcelonie odbywały się spotkania wysokiego szczebla z wybitnymi Rosjanami„ (Baquero i in., 2022).

    Zachodnia Ukraina

    Na Ukrainie, nietrywialnie różnice między lokalnymi lektami a literackim standardem nauczanym w szkołach tworzą okazje dla przeciwników do podsycania płomieni separatyzmu. Według raportu Rating z 2012 roku, tylko 54% etnicznych Ukraińców używało swojego języka dziedziczonego, 29% używało rosyjskiego, a 17% mieszanki obu (s. 9). W tym samym roku, na każdą książkę drukowaną po ukraińsku przypadało dziewięć drukowanych po rosyjsku, a tylko 13% nakładu mediów drukowanych było napisanych po ukraińsku (Moser, 2016a, s. 604).

    Dwie dekady temu, coroczny raport Departamentu Stanu Stanów Zjednoczonych o Praktykach w zakresie Praw Człowieka za rok 2002 informował następująco:

    Niektóre prorosyjskie organizacje we wschodniej części kraju skarżyły się na zwiększone użycie języka ukraińskiego w szkołach i mediach. Twierdziły, że ich dzieci są w niekorzystnej sytuacji podczas zdawania akademickich egzaminów wstępnych, ponieważ wszyscy kandydaci byli zobowiązani do zdania testu z języka ukraińskiego.

    Departament Stanu, 2003, s. 1758

    Rusini (Rusini) nadal domagali się statusu oficjalnej grupy etnicznej w kraju. Przedstawiciele społeczności rusińskiej wzywali do utworzenia szkół z językiem rusińskim, wydziału języka rusińskiego na Uniwersytecie w Użhorodzie oraz włączenia Rusinów jako jednej z grup etnicznych kraju w spisie powszechnym z 2001 roku. Według przywódców rusińskich, w kraju mieszka ponad 700 000 Rusinów.

    Departament Stanu, 2003, s. 1759

    Jako punkt wyjścia dla szerszych kwestii wspomnianych przez Departament Stanu, które wykraczają poza zakres tego artykułu, były członek Ukraińskiego Instytutu Badawczego Harvarda, Michael Moser, wyjaśnił:

    Rusinów można prawdopodobnie najlepiej opisać jako pozostałości Rusinów/Rusinów, którzy nie chcieli przyłączyć się do nowoczesnego ukraińskiego ruchu narodowego i językowego… początkowo ta niechęć nie była oparta na żadnej rusińskiej tożsamości w nowoczesnym sensie, ale wynikała z poglądów rusofilskich, że Rusini/Rusini/Małorusini należą do jednego niepodzielnego narodu rosyjskiego i nie było miejsca dla narodu ukraińskiego i języka ukraińskiego.

    Moser, 2016b, s.127

    W czerwcu 2007 roku w Moskwie została założona na mocy dekretu prezydenckiego „Fundacja Russkij Mir„, która zaczęła finansować „rodaków„ na Ukrainie, przekazując do marca 2011 roku ponad 1 200 000 dolarów amerykańskich (Moser, 2016a, s. 607).

    25 października 2008 roku w Teatrze Dramatycznym w Mukaczewie, mieście położonym na dalekim zachodzie Ukrainy, odbyło się zgromadzenie (Wiktorek, 2010, s. 100). Pojawiły się nawet doniesienia o około stu uzbrojonych osobach spoza miasta, znajdujących się na zewnątrz (Ukrajinsʹke nacionalʹne objednannja, 2009; patrz również Wiktorek, 2010, s. 100). Cokolwiek się tam wydarzyło, o godzinie 20:30 tego wieczoru na platformie internetowej rusin.forum24.ru pojawiła się proklamacja „przywrócenia państwowości rusińskiej„ w języku rosyjskim. Wśród skarg wymieniono „zastąpienie rusińskiego języka państwowego ukraińskim galicyjskim, językiem polskiej Galicji, północnego sąsiada Rusinów.„ (2-nd Europаn [sic] Сongress Subсarpathion [sic] Rusyns, 2008).

    W okresie poprzedzającym wydanie rozkazu jawnej inwazji armii na Ukrainę w celu przeprowadzenia szeroko zakrojonej „specjalnej operacji wojskowej„, prezydent Federacji Rosyjskiej poświęcił cały akapit „losowi Rusi Podkarpackiej„ w swoim eseju O historycznej jedności Rosjan i Ukraińców:

    Osobno omówię los Rusi Podkarpackiej, która po upadku Austro-Węgier znalazła się w Czechosłowacji. Znaczną część miejscowej ludności stanowili Rusini. Chociaż rzadko się o tym teraz wspomina, po wyzwoleniu Zakarpacia przez wojska radzieckie, kongres prawosławnej ludności tego terytorium zadeklarował poparcie dla włączenia Rusi Podkarpackiej do Rosyjskiej Federacyjnej Socjalistycznej Republiki Radzieckiej lub bezpośrednio do Związku Radzieckiego jako odrębnej, Karpacko-Rosyjskiej republiki.

    Putin, 2021

    W innym incydencie w regionie, dwóch członków polskiej skrajnie prawicowej organizacji Falanga, której członkowie byli obecni wśród rosyjskich separatystów we wschodniej Ukrainie, podpaliło centrum kulturalne węgierskiej rdzennej mniejszości etnolingwistycznej w stolicy regionu, Użhorodzie, w 2018 roku, oblewając je benzyną i wrzucając koktajl Mołotowa (Górzyński, 2018).

    Zdrowie i Bezpieczeństwo

    Skłonności samobójcze

    Zaobserwowano sześciokrotnie wyższe wskaźniki samobójstw w społecznościach, gdzie mniej niż połowa deklaruje znajomość swojego języka dziedziczonego na poziomie konwersacyjnym (Hallett i in., 2007, s. 398). Pozytywnym aspektem jest to, że wskaźniki samobójstw wśród młodzieży spadły do zera we wszystkich przypadkach z wyjątkiem jednego, gdzie większość deklarowała umiejętność prowadzenia rozmowy w swoim języku dziedziczonym (s. 397). W badaniu z 2022 roku przeprowadzonym przez Pezzię i Hernandeza, osoby, które nie mówiły płynnie językiem dziedziczonym, ale których rodzice mówili (s. 95), były najbardziej narażone na myśli samobójcze (s. 98). Jako wyjaśnienie związku między utratą języka a myślami samobójczymi, Pezzia i Hernandez sugerują „stres akulturacyjny lub wykluczenie społeczne„ wynikające z braku akceptacji jako pełnoprawnego członka swojej grupy etnicznej z powodu braku biegłości w jej języku (s. 100).

    Depresja

    Po uwzględnieniu wieku, płci, wykształcenia, sytuacji finansowej i przynależności do grupy etnicznej, badacze odkryli, że ukrywanie tożsamości poprzez unikanie używania języka dziedziczonego w miejscach publicznych (określane jako unikanie języka) jest statystycznie istotnym (p = 0,006) predyktorem zakwalifikowania jako „osoba w depresji„ ze względu na uzyskanie wyniku 5 lub wyższego w Kwestionariuszu Zdrowia Pacjenta 9 Kroenke’go i Spitzera (Olko i in., 2023, s. 5-6). Jako teoretyczny mechanizm badacze wspomnieli, że dyskryminacja etniczna wywołuje przewlekły stres, prowadząc do uporczywej nadaktywności osi podwzgórze-przysadka-nadnercza i wynikających z tego podwyższonych poziomów czynnika uwalniającego kortykotropinę i kortyzolu, powołując się na prace Willnera (2017) oraz Slavicha i Irwina (2014).

    Cukrzyca

    Po uwzględnieniu czynników społeczno-ekonomicznych, cukrzyca typu 2 była znacząco (p = 0,005) mniej rozpowszechniona w społecznościach ze znajomością języka rdzennego (Oster i in., 2014, s. 9).

    Używanie tytoniu

    Wyższy stopień akulturacji do języka angielskiego był znacząco związany z paleniem wśród starszych azjatyckich amerykańskich nastolatków w Nowym Jorku (Rosario-Sim & O’Connell, 2009). W innym badaniu, używanie języka angielskiego w domu było związane z wyższymi wskaźnikami palenia wśród azjatycko-amerykańskiej młodzieży (p = 0,021), podobnie jak wysoka biegłość w języku angielskim (p = 0,040) (Chen i in., 1999, s. 325). Wśród dziewcząt pochodzenia hiszpańskiego, te, które mówiły po angielsku z rodzicami, paliły więcej niż te, które mówiły zarówno po angielsku, jak i po hiszpańsku z rodzicami (p < 0,0001), a także dziewczęta, które mówiły po hiszpańsku z rodzicami (p < 0,01) (Epstein i in., 1998, s. 586).

    Używanie substancji i napaść

    Według Australijskiego Biura Statystycznego (2011/2012), młodzież aborygeńska w wieku od piętnastu do dwudziestu czterech lat, która posługiwała się językiem rdzennym, była mniej skłonna do używania nielegalnych substancji (16% vs 26%), rzadziej zgłaszała upijanie się w ciągu ostatnich dwóch tygodni (18% vs. 34%) i rzadziej padała ofiarą przemocy fizycznej lub gróźb w ciągu ostatniego roku (25% vs 37%).

    Dotychczasowe rozwiązania

    Sztuczna inteligencja neuronowa

    Przełom w neuronowym tłumaczeniu maszynowym dokonany przez międzynarodowy zespół finansowany przez Agencję Zaawansowanych Projektów Badawczych w Obszarze Obronności (DARPA) w ramach projektu Broad Operational Language Translation (BOLT) (Cho i in., 2014), a także przez Google (Sutskever i in., 2014), doprowadził do powstania silników zdolnych do osiągania wyników jakościowych na poziomie porównywalnym z ludzkimi. Jednakże, szkolenie silników neuronowych wymaga większej ilości danych niż jest zazwyczaj dostępna dla języków o ograniczonych zasobach.

    Tłumaczenie maszynowe oparte na regułach

    Silniki tłumaczeniowe oparte na regułach z przeszłości były generalnie uważane za marnotrawstwo pieniędzy (Hajič i in., 2000, s. 7), z godnym uwagi wyjątkiem praskiego systemu RUSLAN finansowanego przez założoną przez Sowietów Radę Wzajemnej Pomocy Gospodarczej (RWPG), który produkował tłumaczenia dokumentacji systemów operacyjnych komputerów mainframe z czeskiego na rosyjski (s. 7), przy czym tłumaczenia dwóch na pięć zdań były poprawne, kolejne dwa na pięć zawierały tylko drobne błędy, a tylko jedno na pięć wymagało znacznej edycji lub ponownego tłumaczenia (s. 8).

    Główne powody podawane dla pozornego rozczarowania w Pradze wynikami systemów opartych na regułach tłumaczących z czeskiego na rosyjski to fakt, że samo zadanie było zbyt złożone, oraz że czeski i rosyjski nie są wystarczająco blisko spokrewnione, aby takie podejście było opłacalne. Do listy można by dodać nierealistyczne oczekiwania i brak obiektywnych metryk oceny. Tymczasem wyniki tłumaczeń z czeskiego na słowacki i polski, wszystkie bliżej spokrewnione języki zachodniosłowiańskie, były całkiem zachęcające (Hajič i in., 2000, s. 12).

    Hybrydowe neuronowe/oparte na regułach tłumaczenie maszynowe

    W wynikach przedstawionych na konferencji Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC), silnik oparty na regułach do tłumaczenia z języka łemkowskiego na polski został połączony z silnikiem opartym na regułach do tłumaczenia z polskiego na angielski, co pozwoliło uzyskać pierwsze na świecie opublikowane wyniki tłumaczeń maszynowych z języka łemkowskiego na angielski (Orynycz i in., 2021). W następnym roku uzyskano tłumaczenia w przeciwnym kierunku, modyfikując system i uruchamiając go w odwrotną stronę (Orynycz, 2022). Ulepszenia wprowadzone do tego silnika poprzez jego gruntowną przebudowę i zwiększenie słownictwa doprowadziły później do 35% poprawy jakości tłumaczenia (Orynycz, 2023).

    Nowe rozwiązania

    System ekspercki tłumaczenia maszynowego opartego na regułach

    Silnik wnioskujący został ręcznie zakodowany za pomocą rozwoju sterowanego testami, aby odzwierciedlić prawdy zawarte w bazie wiedzy zebranej w konsultacji z pracami ekspertów dziedzinowych. To podejście pozwala również na ręczne eliminowanie obcych wpływów i usuwanie rusycyzmów i innych zapożyczeń. Konsultowane słowniki obejmowały dwukierunkowy słownik polsko-łemkowski Horoszczaka (2004), słownik łemkowsko-ukraiński Pyrteja (2004), słownik ukraińsko-łemkowski Dudy (2011) oraz glosariusz łemkowsko-polski Riegera (1995), a także jego glosariusz łemkowsko-polski oparty na nagraniach z wioski Bartne (2016). Gramatyki Fontańskiego i Chomiaka (2000) oraz Pyrteja (2013) były konsultowane przy kodowaniu reguł odmiany słów według kategorii gramatycznych takich jak liczba, przypadek i rodzaj.

    Sztuczna inteligencja oparta na transformatorach

    Przełom w neuronowym tłumaczeniu maszynowym był ściśle związany z wprowadzeniem przez naukowców z Google Brain i Google Research architektury Transformer, która opiera się wyłącznie na mechanizmach uwagi i całkowicie rezygnuje z rekurencji i konwolucji (Vaswani i in., 2017). W ramach tego eksperymentu wytrenowaliśmy modele sztucznej inteligencji oparte na transformatorach do tłumaczenia z polskiego na język łemkowski i, o ile nam wiadomo, jesteśmy pierwszymi, którzy publikują wyniki.

    Materiał i metody

    Materiał

    Dane

    Modele sztucznej inteligencji zostały stworzone przy użyciu korpusu obejmującego 1 611 352 słów źródłowych (według licznika Microsoft Word 365) w 112 507 wierszach napisanych przez urodzonych w Polsce rodzimych użytkowników języka łemkowskiego, wraz z ich tłumaczeniami na polski przez interfejs programowania aplikacji (API) Google Cloud Platform Translation skonfigurowany do tłumaczenia jak ze standardowego ukraińskiego przy użyciu neuronowego tłumaczenia maszynowego.

    Język łemkowski (znany również jako łemkowski rusiński) genetycznie należy do południowo-zachodniego systemu dialektów ukraińskich, w ramach którego wyróżnia się stałym akcentem na przedostatniej sylabie (Danylenko, 2020). Takie dialekty są rodzime dla terytoriów obecnie znajdujących się pod zarządem Polski i, od 1993 roku, Republiki Słowackiej.

    W Polsce międzywojennej rząd wspierał odrębne tożsamości łemkowską, huculską i bojkowską w celu przeciwdziałania ruchowi ukraińskiemu, którego nauczyciele zostali zwolnieni (Moser, 2016b, s. 128). W 1935 roku nauczyciele rusofilscy zostali zastąpieni Polakami, a język łemkowski został ostatecznie usunięty ze szkół w 1937 roku (s. 128). Około dwóch trzecich użytkowników języka łemkowskiego w Polsce zostało deportowanych na Ukrainę w latach 1945-1947, a pozostałe 40 000 do 50 000 przesiedlono głównie na nowo przyłączone, dawne niemieckie terytoria komunistycznej Polski (s. 131). Według wstępnych wyników spisu ludności Polski z 2021 roku, 12 700 osób zadeklarowało narodowość „łemkowską” (Główny Urząd Statystyczny, 2023, s. 3).

    Metody

    Przetwarzanie wstępne

    Najpierw cały tekst został zamieniony na małe litery. Następnie dodano spację przed i po wszystkich znakach niealfanumerycznych. Początkowe i końcowe białe znaki zostały również usunięte z każdego wiersza. Następnie powyższy korpus został przetworzony przy użyciu skryptu Moslema (2023a) do czyszczenia i filtrowania równoległych zbiorów danych (commit db6f441), pozostawiając 33 612 wierszy obejmujących 610 990 słów źródłowych według liczenia przez Microsoft Word 365.

    Tokenizacja podwyrazowa

    Modele podwyrazowe unigramowe zostały wytrenowane przy użyciu skryptu Moslema (2021a) (commit fbf2488). Następnie te modele zostały wykorzystane do tokenizacji zarówno tekstu źródłowego, jak i docelowego przy użyciu drugiego skryptu podwyrazowego z tego samego commita (Moslem, 2021b).

    Podział danych

    2000 wierszy z powyższego korpusu zostało wydzielonych do ewaluacji przy użyciu skryptu Moslema (2023b) przeznaczonego do tego celu (commit e6decb7).

    Trenowanie modeli sztucznej inteligencji

    Modele sztucznej inteligencji zostały wytrenowane przy użyciu wersji TensorFlow zestawu narzędzi OpenNMT do neuronowego tłumaczenia maszynowego, który jest następcą modelu sekwencja-do-sekwencji z uwagą seq2seq-attn Harvardu (Klein i in., 2017, s. 68). Polecenie rozpoczynające pętlę trenowania i ewaluacji zostało uruchomione z automatyczną konfiguracją dla modelu Transformer. Automatyczna ewaluacja została również włączona i ustawiona na uruchamianie co 5000 kroków przy użyciu metryki dwujęzycznej ewaluacji zastępczej (BLEU) oraz eksportowanie modelu, gdy osiągnięto nowy najwyższy wynik. Trenowanie było prowadzone na platformie Google Colabatory wykorzystującej jednostki przetwarzania graficznego NVIDIA A100 i stan wykonawczy o dużej pamięci operacyjnej. Trenowanie było dozwolone przez całą noc.

    Silnik wnioskujący

    Silnik wnioskujący do tłumaczenia został stworzony na podstawie skryptu klienta Pythona Kleina (commit 2b196ff) (2021), który został zmodyfikowany w celu dostosowania modeli tokenizacji podwyrazowej źródłowej i docelowej, a także optymalizacji odstępów i kapitalizacji, aby lepiej odpowiadać oczekiwaniom modeli sztucznej inteligencji i użytkowników końcowych. Przewidywania tłumaczeń zostały zapisane do pliku w celu późniejszej oceny jakości.

    Ocena jakości

    Jakość tłumaczeń została oceniona przy użyciu metryk, których rozwój był finansowany przez DARPA: zarówno BLEU (Papineni i in., 2002), jak i Translation Edit Rate (TER) (Snover i in., 2006). Same wyniki zostały obliczone przy użyciu standardowych w branży metod opracowanych w Amazon Research przez Posta (2018).

    Wyniki

    Wyniki jakości tłumaczenia

    Eksperymentalny system ekspercki oparty na regułach przewyższył wszystkie inne pod względem każdej metryki podczas tłumaczenia z polskiego na język łemkowski i odwrotnie.

    Jakość tłumaczenia z polskiego na język łemkowski

    Podczas tłumaczenia z polskiego na język łemkowski, eksperymentalny system ekspercki oparty na regułach osiągnął wynik jakości BLEU 29,49, co jest 6,50 razy lepsze niż usługa tłumaczenia ukraińskiego Google Translate. Tymczasem eksperymentalny system sztucznej inteligencji oparty na transformatorach do neuronowego tłumaczenia maszynowego osiągnął wynik BLEU 15,90 po 30 000 krokach treningu, co było 3,50 razy lepsze niż ukraiński Google Translate. Przy pomiarze za pomocą alternatywnej metryki TER, eksperymentalny system ekspercki oparty na regułach uzyskał wynik TER 53,73, co jest o 61% lepsze niż usługa tłumaczenia ukraińskiego Google Translate.

    Rysunek 1. Jakość tłumaczenia z polskiego na język łemkowski: Wyniki BLEU
    Rysunek 2. Jakość tłumaczenia z polskiego na język łemkowski: Wyniki TER

    Jakość tłumaczenia z języka łemkowskiego na polski

    Eksperymentalny system ekspercki oparty na regułach przewyższył wszystkie inne pod względem każdej metryki podczas tłumaczenia z języka łemkowskiego na polski, osiągając wynik jakości BLEU 31,13, co było 1,4 razy lepsze niż wynik usługi tłumaczenia ukraińskiego Google Translate wynoszący BLEU 22,16.

    Próbki

    Znaczenie w języku angielskim (tłumacz ludzki)W tekstach na przykład, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
    Polski
    (tłumacz ludzki)
    Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
    Prawda: Referencja łemkowska (rodzimy użytkownik)І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат?Na przykład w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: no Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
    SystemHipotezy tłumaczeniaWyniki jakości
    CyrylicaTransliteracjaBLEUTER
    EksperymentalnySystem ekspercki (oparty na regułach)Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?46.3234.48
    Sztuczna inteligencja (Transformer)Na przykład, w tekstach, a ja głównie badam teksty, mamy źródło, pisali: Austriacy nas mordowali, że to co zrobią stabilizację temu, którymi nas przestraszyli?Na przykład, w tekstach, a ja głównie badam teksty, mamy źródło, pisali: Austriacy nas mordowali, że to co zrobią stabilizację temu, którymi nas przestraszyli?27.6555.17
    Google TranslatePolskiNa przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?14.2168.97
    UkraińskiNa przykład, w swoich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas wymordowali, co będą robić ci straszni Moskale, którymi nam grożą?Na przykład, w swoich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas wymordowali, co będą robić ci straszni Moskale, którymi nam grożą?9.4382.76
    RosyjskiNa przykład, w ich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas zabili, co będą robić ci straszni Moskale, którymi nam grożą?Na przykład, w ich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas zabili, co będą robić ci straszni Moskale, którymi nam grożą?9.4386.21
    BiałoruskiNa przykład, w swoich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas zabili, co będą robić ci straszni Moskale, którymi nam grożą?Na przykład, w swoich tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas zabili, co będą robić ci straszni Moskale, którymi nam grożą?4.9996.55
    Tabela 1. Przykłady tłumaczeń z polskiego na język łemkowski

    Dyskusja

    Implikacje polityczne

    Wyniki w zakresie nauki, zdrowia publicznego i bezpieczeństwa mogą ulec poprawie, jeśli materiały edukacyjne, szkoleniowe, informacyjne dla społeczności i inne zostaną zlokalizowane nie tylko w standardowych językach narodowych, ale także w dialektach i językach regionalnych. Aby uniknąć przeciążenia zasobów ludzkich, lingwiści mogliby zająć się post-edycją wyników tłumaczeń maszynowych wykonanych przez systemy eksperckie i sztucznej inteligencji, zamiast tłumaczyć ręcznie. Bardziej przystępny cenowo dostęp do przetłumaczonych materiałów mógłby przynieść poprawę usług społecznych na obszarach niedostatecznie obsługiwanych. Stonewall i in. wymieniają wielojęzyczność, a tym samym inkluzywność, wysoko na liście najlepszych praktyk angażowania niedostatecznie obsługiwanych populacji (2017). Unia Europejska finansuje badania sugerujące, że tłumaczenie maszynowe może być wykorzystane do ułatwienia partycypacji obywatelskiej, a także wzmocnienia zdrowia publicznego i bezpieczeństwa wśród społeczności niedostatecznie obsługiwanych (Nurminen & Koponen, 2020).

    Implikacje technologiczne

    Wszystko zmierza w kierunku komercyjnie opłacalnego tłumaczenia maszynowego na język łemkowski za naciśnięciem przycisku. Ciągły rozwój systemów eksperckich opartych na regułach, kierowany testami, wydaje się oferować najszybszą drogę do uzyskania nadludzkich wyników jakości tłumaczenia. Systemy sztucznej inteligencji oparte na transformatorach mogą zwyciężyć w długim terminie.

    Niektóre modyfikacje procedury treningu sztucznej inteligencji zasługują na eksperymentowanie. Skrypt filtrujący korpus mógł być zbyt gorliwy dla tego zadania i nadmiernie zmniejszyć rozmiar korpusu, utrudniając wydajność. Skrypt ten mógłby zostać pominięty w przyszłym eksperymencie. Nadmierne dopasowanie może hamować wyniki, a być może interwał oceny wynoszący 5000 kroków powinien zostać skrócony. Wykorzystanie eksperckiego systemu opartego na regułach do tłumaczenia korpusów na polski z języka łemkowskiego zamiast usługi Google Cloud Platform mogłoby przynieść lepsze rezultaty. Włączenie modułów automatycznej korekty pisowni mogłoby również globalnie poprawić wyniki.

    Rosyjskie i inne obce wpływy językowe mogłyby być zwalczane programowo poprzez usuwanie zapożyczeń za pomocą algorytmów znajdź-zamień. Narodowe akademie językowe i inne instytucje mogłyby uznać takie możliwości za użyteczne. Możliwe, że jakość tłumaczenia osiągnęła już poziom nadludzki, co jest hipotezą, którą można by przetestować w przyszłych eksperymentach.

    Deklaracja konfliktu interesów

    Główny autor pełni funkcję specjalisty ds. kontroli jakości w projekcie Google Translate w San Francisco.

    Referencje

    2-nd Europаn [sic] Сongress Subсarpathion [sic] Rusyns [rusin]. (2008, 25 października).MEMORANDUM 2-go Evropejskogo Kongressa Podkarpatskix Rusinov o prinjatii AKTA PROVOZGLAŠENIJA vosstanovlenija rusinskoj gosudarstvennosti [Memorandum Drugiego Kongresu Europejskiego Rusinów Podkarpackich w sprawie Przyjęcia Proklamacji Przywrócenia Państwowości Rusińskiej] [Post na forum internetowym]. Informacionnoe Agenstvo Podkarpatskoj Rusi. IAPR. Forum podkarpatskix rusinov.
    http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832

    Australijskie Biuro Statystyczne, (2012). Kultura, dziedzictwo i czas wolny: Mówienie językami aborygeńskimi i wyspiarzy Cieśniny Torresa. Dobrostan Aborygenów i wyspiarzy Cieśniny Torresa: Skupienie na dzieciach i młodzieży. (Oryginalna praca opublikowana w 2011 r.) Pobrano 1 maja 2023 r. z https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC

    Baquero, A., Hall, K.G., Tsogoeva, A., Albalat, J.G., Grozev, C., Bagnoli, L., IStories, & Vergine, S. (2022, 8 maja). Podsycanie secesji, obiecywanie bitcoinów: Jak rosyjski operator nakłaniał katalońskich przywódców do zerwania z Madrytem. Projekt Raportowania o Przestępczości Zorganizowanej i Korupcji (OCCRP). https://www.occrp.org/en/investigations/fueling-secession-promising-bitcoins-how-a-russian-operator-urged-catalonian-leaders-to-break-with-madrid

    Brunet, F. (2022). Ekonomia separatyzmu katalońskiego. Cham: Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-14451-6

    Chen, X., Unger, J.B., Cruz, T.B., & Johnson, C.A. (1999). Wzorce palenia wśród młodzieży azjatycko-amerykańskiej w Kalifornii i ich związek z akulturacją. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9

    Cho, K., van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Uczenie się reprezentacji fraz przy użyciu kodera-dekodera RNN dla statystycznego tłumaczenia maszynowego. Materiały z Konferencji 2014 na temat Empirycznych Metod w Przetwarzaniu Języka Naturalnego (EMNLP), 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179

    Danylenko, A. (2020). „Karpacko-Rusiński„, w: Encyclopedia of Slavic Languages and Linguistics Online, Redaktor Naczelny Marc L. Greenberg. Sprawdzono online 13 czerwca 2023
    http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960

    Departament Stanu (2003). S.Prt. 108-30, Tom I – RAPORTY KRAJOWE O PRAKTYKACH W ZAKRESIE PRAW CZŁOWIEKA ZA ROK 2002 TOM I. Waszyngton, D.C: Biuro Wydawnictw Rządowych USA. https://www.govinfo.gov/app/details/CPRT-108JPRT86917/CPRT-108JPRT86917

    Duda, I. (2011). Słownik łemkowski. Tarnopol: Aston.

    Epstein, J. A., Botvin, G.J., & Diaz, T. (1998). Akulturacja językowa i efekty płci w paleniu wśród młodzieży latynoskiej. Preventive medicine, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329

    Fontański, H., & Chomiak, M. (2000). Gramatyka języka łemkowskiego. Katowice: „Śląsk” Sp. z o.o. Wydawnictwo Naukowe.

    Główny Urząd Statystyczny (2023). Wstępne wyniki NSP 2021 w zakresie struktury narodowo-etnicznej oraz języka kontaktów domowych. Pobrano 11 czerwca 2023 r. z https://stat.gov.pl/spisy-powszechne/nsp-2021/nsp-2021-wyniki-wstepne/wstepne-wyniki-narodowego-spisu-powszechnego-ludnosci-i-mieszkan-2021-w-zakresie-struktury-narodowo-etnicznej-oraz-jezyka-kontaktow-domowych,10,1.html

    Górzyński, O. (2018, 3 marca). Tajna kampania Rosji mająca na celu zaognienie sytuacji w Europie Wschodniej. The Daily Beast. https://www.thedailybeast.com/russias-covert-campaign-inflaming-east-europe

    Hajič, J., Hric, J., & Kuboň, V. (2000, kwiecień). Tłumaczenie maszynowe bardzo bliskich języków. W Szósta Konferencja Stosowanego Przetwarzania Języka Naturalnego (str. 7–12). http://dx.doi.org/10.3115/974147.974149

    Hallett, D., Chandler, M.J., & Lalonde C.E. (2007): Znajomość języka aborygeńskiego a samobójstwa młodzieży. Cognitive Development. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001

    Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski, Warszawa: Rutenika.

    Klein, G. (2021). Wnioskowanie z TensorFlow Serving. Pobrano 5 czerwca 2023 r. z https://github.com/OpenNMT/OpenNMT-tf/blob/master/examples/serving/tensorflow_serving/ende_client.py

    Klein, G., Kim, Y., Deng, Y., Senellart, J., & Rush, A.M. (2017). OpenNMT: Otwartoźródłowy zestaw narzędzi do neuronowego tłumaczenia maszynowego. W Materiały z 55. Dorocznego Spotkania Stowarzyszenia Lingwistyki Obliczeniowej-Demonstracje Systemów, str. 67–72. https://doi.org/10.18653/v1/P17-4012

    Krauss, M. (1992). Języki świata w kryzysie. Language, 68(1), 4–11. https://doi.org/10.1353/lan.1992.0075

    Malik-Moraleda, S., Jouravlev, O., Mineroff, Z., Cucu, T., Taliaferro, M., Mahowald, K., Blank, I., & Fedorenko, E. Funkcjonalna charakterystyka sieci językowej poliglotów i hiperpoliglotów za pomocą precyzyjnego fMRI. Cold Spring Harbor Laboratory. Publikacja online przed drukiem. https://doi.org/10.1101/2023.01.19.524657

    Mesa, N. (2023, 3 lutego). Twój język ojczysty zajmuje szczególne miejsce w twoim mózgu, nawet jeśli mówisz 10 językami. Science, https://doi.org/10.1126/science.adh0055

    Miller, H., & Miller, K. (1996). Polityka językowa a tożsamość: przypadek Katalonii. International Studies in Sociology of Education, 6(1). https://doi.org/10.1080/0962021960060106

    Moser, M. (2016a). Polityka językowa we współczesnej Ukrainie (25 lutego 2010–25 lutego 2011). W Nowe przyczynki do historii języka ukraińskiego (str. 601–619). Canadian Institute of Ukrainian Studies Press. https://www.ciuspress.com/product/new-contributions-to-the-history-of-the-ukrainian-language/

    Moser, M. (2016b). Rusiński: Nowo-stary język pomiędzy narodami i państwami. W: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (red.), The Palgrave Handbook of Slavic Languages, Identities and Borders, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7

    Moslem, Y. (2021a). Trenowanie modeli SentencePiece dla źródła i celu. Pobrano 4 czerwca 2023 r. z https://github.com/ymoslem/MT-Preparation/blob/main/subwording/1-train_unigram.py

    Moslem, Y. (2021b). Podział na podwyrazy plików źródłowych i docelowych. Pobrano 4 czerwca 2023 r. z https://github.com/ymoslem/MT-Preparation/blob/main/subwording/2-subword.py

    Moslem, Y. (2023a). Filtrowanie/Czyszczenie równoległych zbiorów danych dla tłumaczenia maszynowego. Pobrano 4 czerwca 2023 r. z https://github.com/ymoslem/MT-Preparation/blob/main/filtering/filter.py

    Moslem, Y. (2023b). Podział równoległego zbioru danych na zbiory treningowe, rozwojowe i testowe dla tłumaczenia maszynowego. Pobrano 4 czerwca 2023 z
    https://github.com/ymoslem/MT-Preparation/blob/main/train_dev_split/train_dev_test_split.py

    Nurminen, M., & Koponen, M. (2020). Tłumaczenie maszynowe i sprawiedliwy dostęp do informacji. Translation Spaces, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur

    Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): Spirala niekorzystnych warunków: Dyskryminacja etnolingwistyczna, stres akulturacyjny i zdrowie w społecznościach rdzennych Nahua w Meksyku. American Journal of Biological Anthropology, 1–15. https://doi.org/10.1002/ajpa.24745

    Orynycz, P. (2022, maj). Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI umożliwia nowym użytkownikom rewitalizację języka łemkowskiego. W Sztuczna Inteligencja w HCI: 3. Międzynarodowa Konferencja, AI-HCI 2022, organizowana w ramach 24. Międzynarodowej Konferencji HCI, HCII 2022, Wydarzenie Wirtualne, 26 czerwca–1 lipca 2022, Materiały (str. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37

    Orynycz, P. (2023, lipiec). BLEUkitne niebo dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia neuronowego AI dla języka łemkowskiego i ukraińskiego wzrasta. W Międzynarodowa Konferencja Interakcji Człowiek-Komputer (str. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10

    Orynycz, P., Dobry, T., Jackson, A., i Litzenberg, K. (2021). Yes I Speak… Tłumaczenie maszynowe AI w szkoleniu wielojęzycznym. W Materiały z Konferencji Międzyresortowej/Przemysłowej ds. Szkoleń, Symulacji i Edukacji (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4

    Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, lipiec). BLEU: a method for automatic evaluation of machine translation. W Proceedings of the 40th annual meeting of the Association for Computational Linguistics (s. 311–318). https://doi.org/10.3115/1073083.1073135

    Pezzia, C., & Hernandez, L.M. (2022). Suicidal ideation in an ethnically mixed, highland Guatemalan community. Transcultural Psychiatry. 59(1), 93–105. https://doi.org/10.1177/1363461520976930

    Post, M. (2018). A call for clarity in reporting BLEU scores. W Proceedings of the Third Conference on Machine Translation: Research Papers, s. 186–191. Bruksela: Association for Computational Linguistics http://dx.doi.org/10.18653/v1/W18-6319

    Putin, V. Ob istoričeskom edinstve russkix i ukraincev [O historycznej jedności Rosjan i Ukraińców]. Pobrano 15 maja 2023 z http://kremlin.ru/events/president/news/66181

    Pyrtej, P. (2004). Krótki słownik gwar łemkowskich. Iwano-Frankiwsk: Siversija MB.

    Pyrtej, P. (2013). Gwary łemkowskie. Fonetyka i morfologia. Gorlice: Zjednoczenie Łemków.

    Rating, (2012). Pytannja movy: rezulʹtaty ostannix doslidženʹ 2012 roku [Kwestia językowa: wyniki najnowszych badań z 2012 roku]. Pobrano 26 sierpnia 2023 z https://ratinggroup.ua/files/ratinggroup/reg_files/rg_mova_dynamika_052012.pdf

    Rieger, J. (1995). Słownictwo i nazewnictwo łemkowskie [Słownictwo i nazewnictwo łemkowskie]. Warszawa: Wydawnictwo Naukowe Semper.

    Rieger, J. (2016). Mały słownik łemkowskiej wsi Bartne. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego.

    Rosario-Sim, M.G., & O’Connell K.A. (2009). Depression and Language Acculturation Correlate With Smoking Among Older Asian American Adolescents in New York City. Public Health Nursing 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x

    Schwirtz, M., & Bautista, J. (2023, 23 września) Married Kremlin Spies, a Shadowy Mission to Moscow and Unrest in Catalonia. The New York Times. Pobrano 16 maja 2023 z https://www.nytimes.com/2021/09/03/world/europe/spain-catalonia-russia.html

    Simmons, G.F., & Lewis, M.P. (2013). Języki świata w kryzysie: 20-letnia aktualizacja. W E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (Red.), Reakcje na zagrożenie języków: Ku czci Mickey’a Noonana. Nowe kierunki w dokumentacji języków i rewitalizacji językowej (str. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim

    Slavich, G.M., & Irwin, M.R. (2014). Od stresu do stanu zapalnego i ciężkiej depresji: społeczna teoria transdukcji sygnałów w depresji. Psychological Bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302

    Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Badanie współczynnika edycji tłumaczenia z ukierunkowaną anotacją ludzką. W Materiały z 7. Konferencji Stowarzyszenia Tłumaczenia Maszynowego w Amerykach: Artykuły techniczne, (str. 223–231). https://aclanthology.org/2006.amta-papers.25

    Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). Wpływ języka nauczania w szkołach na osiągnięcia uczniów: Dowody z Malezji z wykorzystaniem metody kontroli syntetycznej. World Bank Group Policy Research Working Paper 9517. http://hdl.handle.net/10986/35031

    Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, wrzesień). Najlepsze praktyki angażowania niedostatecznie reprezentowanych populacji. W Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Tom 61, Nr 1, str. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516

    Sutskever, I., Vinyals, O., & Le, Q.V. (2014). Uczenie się sekwencyjne z sieciami neuronowymi. Advances in Neural Information Processing Systems 27 (NIPS 2014). https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html

    Ukrajinsʹke nacionalʹne objednannja (2009). Zakarpatsʹke UNO obicjaje vlasnymy sylamy protydijaty separatystam [Zakarpacka Ukraińska Organizacja Narodowa obiecuje przeciwstawić się separatystom 1-go maja własnymi siłami] Pobrano 10 czerwca 2023 z https://zaxid.net/zakarpatske_uno_obitsyaye_vlasnimi_silami_protidiyati_separatistam_1_travnya_n1076607

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). Uwaga to wszystko, czego potrzebujesz. NIPS’17: Materiały z 31. Międzynarodowej Konferencji na temat Systemów Przetwarzania Informacji Neuronowych, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349

    White, D.J., & Overdeer, D. (2020). Wykorzystywanie etniczności w rosyjskich zagrożeniach hybrydowych. Strategos: Czasopismo naukowe Chorwackiej Akademii Obrony 4(1), 31–49. https://hrcak.srce.hr/242087

    Wiktorek, A.C. (2010). Rusini Karpat: Konkurencyjne programy tożsamości. Waszyngton, D.C.: Georgetown University. https://repository.library.georgetown.edu/handle/10822/552816

    Willner, P. (2017). Model przewlekłego łagodnego stresu (CMS) w depresji: Historia, ocena i zastosowanie. Neurobiology of Stress, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002

  • BLEUkitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowej sztucznej inteligencji dla języka łemkowskiego i ukraińskiego osiąga nowe wyżyny (2023)

    BLEUkitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowej sztucznej inteligencji dla języka łemkowskiego i ukraińskiego osiąga nowe wyżyny (2023)

    Streszczenie

    Przyspieszająca globalna utrata języków, związana z podwyższonym występowaniem używania substancji niedozwolonych, cukrzycy typu 2, picia alkoholu w nadmiarze i napaści, a także sześciokrotnie wyższymi wskaźnikami samobójstw wśród młodzieży, stanowi narastające wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, gdzie przekaz międzypokoleniowy jest często zakłócany, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mają potencjał do rewitalizacji języków dziedzictwa i wzmocnienia nowych użytkowników poprzez umożliwienie im zrozumienia i bycia zrozumianymi za pomocą natychmiastowego tłumaczenia. Jednak rozwiązania sztucznej inteligencji stwarzają problemy, takie jak prohibicyjne koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie interferencji z języków dominujących. Ta praca opisuje przebudowę silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na język łemkowski i z niego, będący poważnie zagrożonym, mniejszościowym dialektem ukraińskiej klasyfikacji genetycznej, rdzennym dla pogranicza między Polską a Słowacją (gdzie jest również określany jako rusiński). Moduły tłumaczenia oparte na słownikach zostały wyposażone w morfologicznie i syntaktycznie poinformowane generatory rzeczowników, czasowników i przymiotników zasilane przez 877 lematów wraz z 708 wpisami słownikowymi, a cały system został wzmocniony przez 9 518 automatycznych, odnoszących się do kodyfikacji, obowiązkowych testów kontroli jakości. Owocem tej pracy jest 23% poprawa od ostatniej publikacji w jakości tłumaczenia na język angielski i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Google Translate według każdej metryki i uzyskują wynik o 396% wyższy niż usługa ukraińska Google przy tłumaczeniu na język łemkowski.

    Proszę cytować:

    Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: Degen, H., Ntoa, S. (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

    1 Wprowadzenie

    1.1 Problem

    Języki zanikają w tempie co najmniej jednego na kwartał, przy czym tempo to ma się potroić do roku 2062, a do 2100 roku wzrosnąć pięciokrotnie, obejmując ponad 1500 społeczności językowych [1, s. 163, 169]. Zjawisku temu towarzyszy zwiększona częstość używania substancji psychoaktywnych o nielegalnym statusie [2, s. 179], występowania cukrzycy typu 2 [3], epizodów intensywnego picia alkoholu i napaści [4], a także sześciokrotnie wyższy wskaźnik samobójstw wśród młodzieży w społecznościach, w których mniej niż połowa członków zna dany język [5].

    Niedawne badanie w Stanach Zjednoczonych wykazało, że używanie języków rdzennych ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na użytkownikach w Polsce wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].

    Tłumaczenie maszynowe oparte na sztucznej inteligencji może odegrać istotną rolę w upowszechnianiu opisanych wyżej efektów ochronnych wśród użytkowników języków dziedziczonych poprzez rewitalizację języków zagrożonych wymarciem oraz tzw. języków uśpionych [8, s. 577]. Na przykład nowi użytkownicy języka mogą natychmiast wytwarzać poprawny tekst i korzystać ze zrozumiałych tłumaczeń pisemnych, wspomagając się automatycznymi systemami tłumaczenia maszynowego do czasu osiągnięcia pełnej, samodzielnej biegłości.

    1.2 Badany system

    Język

    Język łemkowski to definitywnie do poważnie zagrożony [9, s. 177–178] wschodniosłowiański dialekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39] rodzimy dla pogranicza między Rzeczpospolitą Polską a Republiką Słowacką; niektórzy określali go jako rusiński [11, s. 39; 12].

    Granice wschodnie

    Unikalna izoglosa różnicująca język łemkowski na wschodzie to stały akcent paroksytoniczny (przedostatnia sylaba), cecha wspólna z polskim i wschodniosłowackimi dialektami [10, s. 161–162 i 972–973; 11, s. 50; 13, s. 70–73], czyniąc jego zasięg na wschodniej Słowacji co najmniej do rzeki Laborec, z strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg języka łemkowskiego sięga co najmniej rzek Osławica lub Wisłok, ze strefą przejściową poza nimi [11, s. 50].

    Zachodnie granice

    Historyczne zachodnie granice języka łemkowskiego to rzeki Poprad i Dunajec [14, s. 459].

    Lokalizacja

    Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

    Nazwa łemkowskaTransliteracjaPolska nazwaSiedziba powiatuSiedziba gminy
    ІзбыIzbŷIzbyGorliceUście Gorlickie
    ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
    ЧорнеČorneCzarneGorliceSękowa
    ДолгеDolheDługieGorliceSękowa
    БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
    ФльоринкаFlorynkaFlorynkaNowy SączGrybów
    ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
    Tabela 1. Miejscowości pochodzenia rodzimych użytkowników języka łemkowskiego, z którymi przeprowadzono wywiady wchodzące w skład materiału korpusowego.

    2 Aktualny stan wiedzy

    W zeszłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczeń maszynowych na język łemkowski: BLEU 6,28, co było prawie trzykrotnie wyższe niż usługa ukraińska Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej moi koledzy i ja opublikowaliśmy i przedstawiliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14,57 [16].


    [1] Ujawnienie informacji: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń z języka ukraińskiego, polskiego i rosyjskiego w ramach projektu Google Translate. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.

    Silnik został wdrożony i jest dostępny bezpłatnie pod adresem https://www.LemkoTran.com, gdzie od jesieni 2017 r. działa silnik transliteracji. Silnik tłumaczeniowy został po raz pierwszy wspomniany w druku przez dr. Scherrera i dr. Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].

    3 Materiały i metody

    3.1 Materiały

    Eksperyment został przeprowadzony na dwujęzycznym korpusie obejmującym łemkowskie transkrypty cyrylickie i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypty i ich tłumaczenia[1] zostały wyrównane w 3 267 segmentach, przy czym Microsoft Word podał łemkowską liczbę słów źródłowych 68 944 i angielską docelową liczbę słów 81 188.


    [1] Zostałem zatrudniony do sporządzenia transkrypcji oraz ich tłumaczenia przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała powstałe materiały na potrzeby mojej działalności badawczo-rozwojowej.

    Za podstawowe źródła odniesienia przyjęto słowniki Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petra Pyrteja [23].

    3.2 Metody

    Ulepszenia silnika

    Do tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory poinformowane przez część mowy, przypadek gramatyczny i liczbę w celu tworzenia gramatycznie i syntaktycznie odpowiednich tłumaczeń dla 1 585 wpisów słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, umożliwiając prostą substytucję.

    Testy zapewnienia jakości

    Jakość została zapewniona przez 9 518 testów skrzyżowanych, gdy było to możliwe, z kodyfikacjami łemkowskimi, gramatykami i słownikami wymienionymi powyżej w Materiałach. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.

    OpisLiczba
    Temat rzeczownika414
    Temat czasownika296
    Temat przymiotnika167
    Zaimek osobowy87
    Inny zaimek / Pozostałe zaimki178
    Liczebnik86
    Inne hasła słownikowe357
    Razem1,585
    Tabela 2. Słownictwo systemowe.

    Tłumaczenie maszynowe oparte na regułach (RMBT)

    Tekst otrzymał łemkowski lub polski wygląd i charakter poprzez zastąpienie sekwencji znaków, a szczególnie końcówek fleksyjnych.

    Sekwencja polskaSekwencja łemkowskaPozycja w wyrazie
    owaćuwatykońcowa (wygłos)
    iamiiamykońcowa (wygłos)
    ająajutkońcowa (wygłos)
    zezopoczątkowa (nagłos)
    podpidpoczątkowa (nagłos)
    Tabela 3. Przykładowe zamiany sekwencji znaków.

    Ocena jakości tłumaczenia

    Jakość tłumaczenia została zmierzona według standardowych metryk branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU wynalezionego w Amazon Research przez Matta Posta [24]. Ze względu na porównywalność, język polski został przedstawiony w cyrylicy łemkowskiej w taki sam sposób jak w ostatnim eksperymencie [15, s. 573].

    Metryka BLEU (Bilingual Evaluation Understudy)

    Ta oparta na n-gramach metryka cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w ośrodku IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) oraz pod nadzorem Dowództwa Systemów Kosmicznych i Morskich Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

    Współczynnik edycji tłumaczenia (TER)

    Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

    Wskaźnik F dla znakowych n-gramów (chrF)

    Wykazano, że ta opracowana w Europie metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

    4 Wyniki i dyskusja

    System eksperymentalny, LemkoTran.com, przewyższył każdą usługę Google Translate pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnimi opublikowanymi wynikami [15], dając rezultaty cztery razy lepsze niż najlepsza oferta Google Translate, jej usługa ukraińska. Tymczasem jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze uzyskane przez Google Translate, które automatycznie rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.

    4.1 Jakość tłumaczenia z języka angielskiego na łemkowski

    Wyniki

    Silnik wdrożony na LemkoTran.com przewyższył Google Translate pod każdym względem przy tłumaczeniu z angielskiego na łemkowski. Następnym najwyżej punktowanym systemem w eksperymencie był albo wynik usługi ukraińskiej Google Translate (używając metryk BLEU lub chrF) albo jej usługi polskiej (używając metryki TER).

    BLEU

    Jakość tłumaczeń systemu wdrożonego w serwisie LemkoTran.com, mierzona najpowszechniej stosowaną metryką BLEU, wzrosła do 8,48, co oznacza poprawę o 35% względem ostatnio opublikowanych w 2022 roku wyników [15] i obecnie czterokrotnie przewyższa najwyższy wynik uzyskany przez Google Translate.

    Rys. 1. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im wyżej, tym lepiej.
    chrF

    Silnik LemkoTran.com osiągnął najlepszy wynik f-score (chrF 37,30) dla n-gramów znaków w tłumaczeniu z angielskiego na łemkowski, który jest o 37% wyższy niż następny najlepszy, usługa ukraińska Google Translate. Tymczasem usługa rosyjska Google Translate uzyskała wyższy wynik niż jej odpowiedniki polskie i białoruskie przy pomiarze względem korpusu łemkowskiego tą metryką.

    Rys. 2. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    TER

    Silnik LemkoTran.com osiągnął najlepszy wskaźnik Translation Edit Rate (TER) dla tłumaczenia z angielskiego na łemkowski, uzyskując wynik 81,33. Usługa polska Google Translate zajęła drugie miejsce, a tuż za nią jej usługa ukraińska.

    Rys. 3. Translation Edit Rate (TER) z angielskiego na łemkowski, Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im niżej, tym lepiej.

    Próbki

    Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

    WejścieOur children were smart too. But where were they supposed to study?
    OpisWynikTransliteracjaWyniki jakości
    Referencja łemkowska
    (native speaker)
    В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na łemkowski przez
    LemkoTran.com
    Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
    chrF2 79,03
    TER 27,27
    Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
    chrF2 25,80
    TER 72,73
    Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3,71
    chrF2 16,95
    TER 90,91
    Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3,12
    chrF2 13,84
    TER 100
     Tłumaczenie na białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3,09
    chrF2 12,83
    TER 100
    Tabela 4. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.
    WejścieAnd generally speaking, Lemkos in Poland don’t have a leader, so to speak, who would say something.
    OpisWynikTransliteracjaWyniki jakości
    Referencja łemkowska (native speaker)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
    chrF2 65,32
    TER 29,41
    Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
    chrF2 29,29
    TER 82,35

    Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
    chrF2 26,56
    TER 82,35
    Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
    chrF2 25,87
    TER 88,24
     Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
    chrF2 18,05
    TER 94,12
    Tabela 5. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.

    Tłumaczenie z języka łemkowskiego na angielski

    Wyniki

    Pod każdym względem silnik wdrożony na LemkoTran.com przewyższył Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze drugie najlepsze, następnie automatyczne wykrywanie języka źródłowego, potem tłumaczenie jak z białoruskiego, a następnie polskiego, z rosyjskim zawsze na ostatnim miejscu. Google Translate rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków i jako różne języki używające alfabetów cyrylickich (np. mongolski) w pozostałych przypadkach.

    BLEU

    LemkoTran.com uzyskał wynik BLEU równy 17,95 podczas tłumaczenia na język angielski, co stanowi poprawę o 23% w stosunku do ostatnio opublikowanych wyników (BLEU 14,57) oraz wartość o 16% wyższą niż w przypadku ukraińskiej usługi Google Translate (BLEU 15,43).

    Rys. 4. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    chrF

    Silnik wdrożony w serwisie LemkoTran.com osiągnął wartość wskaźnika F dla znakowych n-gramów (chrF) równą 45,89 podczas tłumaczenia na język angielski; jest to wynik o 5% lepszy niż w przypadku ukraińskiej usługi Google Translate.

    Rys. 5. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    TER

    LemkoTran.com uzyskał wartość współczynnika Translation Edit Rate (TER) równą 70,38 podczas tłumaczenia na język angielski; wynik ten jest o 7% lepszy niż w przypadku ukraińskiej usługi Google Translate.

    Rys. 6. Translation Edit Rate (TER) z łemkowskiego na angielski, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im niżej, tym lepiej.

    Próbki

    Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

     OpisWynikWyniki
    jakości
    Transkrypcja wejściowa łemkowskiego mówionego przez native speakeraЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
    TransliteracjaJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.
    Tłumaczenie referencyjne wykonane przez dwujęzycznego tłumaczaWhen it comes to separating languages, I had contact with Polish. It wasn’t like I started school without knowing Polish because we had Polish neighbors. BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie z łemkowskiego przez system na LemkoTran.comWhen we separate languages, I had contact with Polish, it wasn’t like I went to school without Polish, because we had Polish neighbors.BLEU 45,84
    chrF2 69,60
    TER 32,00
    Tłumacz Google (kontrola)z ukraińskiego (autowykrycie, 92% pewności)As we divide the languages, then I had contact with Polish, then it was not like that, and I went to school without Polish, because I had Poles as neighbors.BLEU 15,87
    chrF2 54,38
    TER 72,00
    z białoruskiegoAs we separate the languages, then I had little contact with Polish, then it was not like that, but I went to school without Polish, because we had few Polish neighbors.BLEU 11,.76
    chrF2 58,92
    TER 68,00
    z rosyjskiegoAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6,87
    chrF2 42,66
    TER 92,00
    z języka polskiegoAs I spread the language, I have little contact with the Polish language, it wasn’t like that I went to school without Polish, because I will change my little Polish language.BLEU 5,02
    chrF2 45,35
    TER 84,00
    Tabela 6. Porównania hipotez tłumaczeniowych dla wejścia łemkowskiego.

    5 Wnioski

    Połączenie morfologicznie i syntaktycznie poinformowanych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, mając jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innej interferencji języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakości narzucone przez niedoskonałości nieodłączne od modeli sztucznej inteligencji mogą również zostać rozbite poprzez solidną inżynierię. Dla języka łemkowskiego, jak również dla podobnych języków mniejszościowych rdzennych o niskich zasobach, niebo jest teraz granicą dla jakości tłumaczenia, a także dla rewolucji rewitalizacyjnych tuż za horyzontem.

    Podziękowania

    Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies oraz dr. Jamesowi Joshui Penningtonowi za ich wnikliwe uwagi, a także dr. Yvesowi Scherrerowi z Uniwersytetu Helsińskiego za zainteresowanie projektem i zgłoszone pomysły.

    Referencje

    1. Bromham, L., Dinnage, R., Skirgård, H., Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
    5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (w języku polskim). W: Olko, J., Wicherkiewicz, T., Borges, R. (red.) Integral Strategies for Language Revitalization, 1. wyd., s. 175–200. Faculty of „Artes Liberales„, University of Warsaw, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Shevelov, G.: A Historical Phonology of the Ukrainian Language. Tłum. S. Wakulenko, A. Danylenko, red. L. Uszkalow. Naukowe wydawnyctwo „AKTA”, Charkiw 2002 (wyd. oryg. 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx„ dialektiv v Karpatax (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39–66. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. W: Duchêne, A. (red.) International Journal of the Sociology of Language, t. 2007, nr 183, s. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
    14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (w języku ukraińskim). W: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Orynycz, P.: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.) Natural Language Engineering, t. 25, nr 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
    19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (po ukraińsku). Siversiya MV, Ivano-Frankivsk (2004).
    20. Duda, I.: Lemkivsʹkyj slovnyk (in Ukrainian). Aston, Ternopil (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (in Polish). Wydawnictwo naukowe Semper, Warsaw (1995).
    22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (in Polish). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia. Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
    24. Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, s. 186–191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. W: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311–318. Association for Computational Linguistics, Filadelfia (2002). https://doi.org/10.3115/1073083.1073135
    26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. W: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
    27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. W: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392–395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Lemko черевікы ⟨čerevikŷ⟩ 'shoes’

    Lemko черевікы ⟨čerevikŷ⟩ 'shoes’

    The Lemko word черевікы ⟨čerevikŷ⟩ means shoes in English, черевики ⟨čerevyky⟩ in Standard Ukrainian, and buty in Polish. See Пиртей 339, Дуда 352, and Горощак 197.

  • Lemko авто ⟨avto⟩ ‘car’

    Lemko авто ⟨avto⟩ ‘car’

    The neuter Lemko noun авто ⟨avto⟩ means car or automobile in English and auto or samochód in Polish. The accent is on the first syllable in the nominative singular.

    References

    • Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. 2004 [Page 21]
    • Питрей, П.: Короткий словник лемківських говірок. 2004. [Page 16]
    • Дуда, І.: Лемківський словник. 2011 [Page 26]
  • Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

    Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

    Streszczenie

    Neuronowe tłumaczenie maszynowe wspierane sztuczną inteligencją może wkrótce rewitalizować zagrożone języki, umożliwiając nowym użytkownikom komunikację w czasie rzeczywistym przy użyciu zdań mierzalnie bliższych normie literackiej niż te używane przez rodzimych użytkowników, i to od pierwszego dnia ich podróży odzyskiwania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne zasoby w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków świata, 98% zostało pominiętych z powodu braku korpusów: modele neuronowego tłumaczenia maszynowego uczą się na milionach słów tekstu dwujęzycznego, który po prostu nie istnieje dla większości języków i kosztuje ponad sto tysięcy dolarów amerykańskich na język, aby go zgromadzić.

    Dla języków o ograniczonych zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej efektywne: transfer uczenia się, który umożliwia językom o mniejszych zasobach korzystanie z osiągnięć języków o większych zasobach. W tym eksperymencie neuronowa usługa tłumaczenia Google z angielskiego na polski została połączona z moim klasycznym silnikiem opartym na regułach, aby tłumaczyć z angielskiego na zagrożony, niskorezursowy, wschodniosłowiański język łemkowski. System osiągnął wynik jakości BLEU (bilingual evaluation understudy) 6,28, kilkakrotnie lepszy niż usługi Google Translate dla tłumaczenia z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Ostatecznie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem internetowym www.LemkoTran.com, aby umożliwić nowym mówcom rewitalizację ich języka.

    Nowi użytkownicy języka są kluczem do rewitalizacji języka, a możliwość „poprawnego mówienia„ w języku łemkowskim jest teraz w zasięgu ich ręki.

    Słowa kluczowe: Sztuczna inteligencja skoncentrowana na człowieku, Rewitalizacja języka, Łemkowski.

    Proszę cytować jako: Orynycz, P. (2022). Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI umożliwia nowym użytkownikom rewitalizację języka łemkowskiego. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, t. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    1 Wprowadzenie

    1.1. Problemy

    Celem tego eksperymentu jest przyczynienie się na poziomie lokalnym do globalnego wyzwania, jakim jest zanik języków, który może następować w tempie jednego dziennie, przy czym szanse na przetrwanie ma zaledwie jeden na dziesięć języków [1, s. 1329]. W momencie publikacji, SIL International’s Ethnologue używa Rozszerzonej Skali Międzypokoleniowego Zakłócenia Transmisji Lewisa i Simonsa z 2010 roku, aby oszacować, że 3018 języków jest zagrożonych [2], co stanowi 43% z 7001 indywidualnych żywych języków zliczonych w momencie publikacji w standardzie ISO 639-3 Międzynarodowej Organizacji Normalizacyjnej [3]. Tymczasem Google Translate obsługuje tylko 108 języków [4], a Facebook 112 [5], co jest początkiem. Niemniej jednak, jeden język jest teraz mniej niedostatecznie obsługiwany, ponieważ owoc tego eksperymentu został wdrożony na serwerze internetowym jako publiczna usługa tłumaczeniowa.

    Nowe technologie sztucznej inteligencji kuszą obietnicą pomocy, która natychmiast kompensuje utratę języka poprzez interakcję człowiek-komputer. W moim poprzednim eksperymencie silniki neuronowe nowej generacji osiągnęły wyższe wyniki jakości tłumaczenia z rosyjskiego i polskiego na angielski niż kontrola ludzka [6, s. 9]. Tymczasem Facebook i Google1 zainwestowały ogromne zasoby w dostarczanie lepszych niż ludzkie automatycznych systemów tłumaczeniowych bez kosztów dla konsumenta.

    1 Ujawnienie: pracuję jako płatny lingwista rosyjski, polski i ukraiński oraz specjalista kontroli jakości tłumaczeń dla projektu Google Translate; siedziba główna znajduje się w San Francisco.

    Nadludzka sztuczna inteligencja nie jest tania: trenowanie neuronowych modeli językowych wymaga dwujęzycznych korpusów z liczbą słów w setkach tysięcy, a idealnie w milionach, których przetłumaczenie kosztowałoby setki tysięcy dolarów, sumy przekraczające możliwości większości społeczności języków o niskich zasobach. Na szczęście ten eksperyment pokazuje, że istnieją bardziej zaradne i skuteczne sposoby odpowiedzi na wyzwanie tworzenia pomocy tłumaczeniowych do rewitalizacji zagrożonych języków w środowiskach o niskich zasobach.

    1.2 Dotychczasowe prace

    Zbudowałem pierwszy na świecie system tłumaczenia maszynowego z języka łemkowskiego na angielski i udostępniłem go publicznie. Jego obiektywne wyniki jakości tłumaczenia ulegały poprawie: silnik osiągnął wynik BLEU (bilingual evaluation understudy) 14,57 latem 2021 roku, co zostało zaprezentowane profesjonalistom na konferencji Interservice/Industry Training, Simulation and Education Conference Narodowego Stowarzyszenia Przemysłu Obronnego i opublikowane w jej materiałach [6]. Dla porównania, jako tłumacz-człowiek pracujący w warunkach polowych, odcięty od świata zewnętrznego, uzyskałem wynik BLEU 28,66. Jesienią 2021 roku silnik osiągnął wynik BLEU 15,74, co zostało przedstawione językoznawcom, naukowcom i szerszej społeczności podczas wydarzenia prezentacyjnego zorganizowanego przez Uniwersytet w Pittsburghu.2

    2 Ujawnienie: wydarzenie było sponsorowane przez Carpatho-Rusyn Society (Pensylwania), a Uniwersytet w Pittsburghu zapłacił mi za prezentację.

    1.3 Badany system

    Łemkowski jest zdecydowanie do poważnie zagrożonego [6, s. 3, 7, ss. 177-178], niskozasobowym [8], oficjalnie uznanym językiem mniejszościowym [9], przypuszczalnie rdzennym dla transgranicznych wyżyn na południe od obszarów metropolitalnych Krakowa, Tarnowa i Rzeszowa; historyczne izoglosy demarkacyjne będą, miejmy nadzieję, tematem przyszłego artykułu. Polski urząd statystyczny w 2011 roku odnotował 6279 mieszkańców, dla których język łemkowski był językiem „zwykle używanym w domu” (nawet jeśli dodatkowo używali języka polskiego) [10, str. 3], co stanowi wzrost o 12% w porównaniu z 5605 osobami, dla których język łemkowski był „językiem najczęściej używanym w domu” w 2002 roku [11, str. 6, 12, str. 7]. W momencie publikacji trwa opracowywanie wyników nowego spisu.

    Łemkowski można sklasyfikować jako język wschodniosłowiański, ponieważ spełnia zwyczajowe kryteria cech strukturalnych genetycznych, z których najważniejszą jest pełnogłos [13, s. 20], zgodnie z którym zakłada się, że samogłoska powstała w prasłowiańskich sekwencjach spółgłoski C po której następuje samogłoska średnia lub niska V (*e, lub *o, z którą *a się połączyła [14, s. 366]), po której następuje płynna R (to jest *l lub *r), po której następuje kolejna spółgłoska C, to znaczy CVRC > CVRVC. Dla ilustracji, porównajmy staroangielskie słowo oznaczające „topić się„, meltan () [15, s. 718] z jego domniemanym łemkowskim odpowiednikiem mołódyj [16, s. 92, 17, s. 150] (), oznaczającym „młody„. Inne wschodniosłowiańskie odpowiedniki obejmują ukraińskie mołodýj i rosyjskie mołodój [17], oba wykazujące samogłoskę po spółgłosce płynnej (CVRVC). Tymczasem języki zachodniosłowiańskie nie mają samogłoski przed płynną; porównaj polskie młody i słowackie mladý (oba CRVC) [17]. Ponadto pokrewieństwo postulowano dla innych słów tłumaczonych jako „łagodny”, w tym sanskryckie mṛdú (CRC) [18, str. 830] i łacińskie mollis (CVRC jeśli od *moldvis) [15, 17, 19, str. 323].

    W tym eksperymencie nie oceniano, jak dobrze łemkowski spełnia zwyczajowe, współczesne ukraińskie kryteria cech strukturalnych genetycznych. Jednakże podobieństwo między łemkowskim a standardowym ukraińskim zostało po raz pierwszy, o ile mi wiadomo, skwantyfikowane w druku. Poniżej, mój silnik łemkowski uzyskał wynik BLEU 6,28, prawie trzykrotnie wyższy niż wynik ukraińskiego Google Translate wynoszący BLEU 2,17. Można przeprowadzić dalsze eksperymenty w celu kwantyfikacji podobieństwa między łemkowskim, standardowym ukraińskim, polskim i rusińskim skodyfikowanym na Słowacji, a także świeże spojrzenie na klasyfikację typologiczną łemkowskiego.

    Ilość i jakość zasobów ulegają poprawie, podobnie jak pomysłowość wspierana przez technologię. Wszystkie znane korpusy dwujęzyczne, obejmujące mniej niż siedemdziesiąt tysięcy słów łemkowskich, zostały zgromadzone na potrzeby tego eksperymentu. Oczyszczam dwujęzyczny korpus transkrypcji wywiadów przeprowadzonych z rodzimymi użytkownikami w Polsce i moich tłumaczeń na język angielski, które klient ze Stanów Zjednoczonych zlecił mi wykonać i pozwolił wykorzystać. Kompiluję również korpusy jednojęzyczne, które w momencie publikacji liczą 534 512 słów.

    1.4 Hipoteza

    Na podstawie mojego subiektywnego wrażenia jako profesjonalnego tłumacza, że rodzimi użytkownicy języka łemkowskiego, z którymi przeprowadzono wywiady w Polsce, częściej używali słów z oczywistymi polskimi odpowiednikami niż standardowymi ukraińskimi, postawiłem hipotezę, że przy innych równych warunkach, maszynę można skonfigurować do tłumaczenia na łemkowski z angielskiego i osiągnąć obiektywne wyniki jakości BLEU wyższe niż usługi ukraińskie i rosyjskie Google Translate.

    1.5 Przewidywania

    System tłumaczenia łemkowskiego. Przewidziałem, że wspomniany system tłumaczenia osiągnie wynik BLEU 15 w tłumaczeniu na łemkowski z angielskiego w porównaniu z korpusem dwujęzycznym.

    Google Translate.

    Usługa z angielskiego na ukraiński. Przewidywałem, że usługa Google Translate z angielskiego na ukraiński osiągnie wynik BLEU 10 względem korpusu dwujęzycznego.

    Usługa z angielskiego na rosyjski. Przewidywałem, że usługa Google Translate z angielskiego na rosyjski osiągnie wynik BLEU 1 względem korpusu dwujęzycznego.

    1.6 Metody i uzasadnienie

    W celu przyspieszenia, oszczędności zasobów i zwiększenia odporności, laptop uznany za przestarzały przez mojego pracodawcę został skonfigurowany do tłumaczenia na łemkowski i wykonywania połączeń z usługą Google Translate na platformie Google Cloud, a także do oceny wspomnianych tłumaczeń przy użyciu standardowej w branży miary BLEU.

    1.7 Główne wyniki

    System tłumaczenia z angielskiego na łemkowski osiągnął łączny wynik BLEU 6.28431824990417. Tymczasem usługa ukraińska Google Translate uzyskała wynik BLEU 2.16830846776652, usługa rosyjska BLEU 1.10424105952048, a kontrolny polski transliterowany na alfabet cyrylicki BLEU 1.70036447680114.

    2 Materiały i metody

    Powyższa hipoteza została przetestowana przez obliczenie wyników jakości BLEU dla każdego systemu tłumaczeniowego skonfigurowanego w sposób szczegółowo opisany poniżej.

    2.1 Konfiguracja

    Sprzęt. Eksperyment został przeprowadzony na laptopie HP Elitebook 850 G2 z procesorem Core i7-5600U 2,6 GHz i 16 gigabajtami pamięci o dostępie swobodnym. Został odrzucony przez mojego pracodawcę jako przestarzały i wystawiony na sprzedaż za 450 USD w momencie publikacji.

    Konfiguracja. W menu podstawowego systemu wejścia/wyjścia (BIOS) urządzenie zostało skonfigurowane w celu włączenia technologii wirtualizacji (VTx).

    System operacyjny. Windows 10 Professional 64 bit został zainstalowany na gołym metalu. Upewniono się, że funkcje Windows Virtual Machine Platform i Windows Subsystem for Linux były włączone. Następnie zainstalowano WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) dostępne od Microsoft pod adresem https://aka.ms/wsl2kernel.

    Oprogramowanie. Instalator Docker Desktop dla Windows w wersji 4.4.3 (73365) został pobrany z https://www.docker.com/get-started i uruchomiony z opcją Install required Windows components for WSL 2 selected.

    Pakiety. Eksperyment zależał od poniższych pakietów z Python Package Index.

    SacreBLEU. Wersja 2.0.0 została zainstalowana przy użyciu pakietu Python udokumentowanego pod następującym uniwersalnym lokalizatorem zasobów (URL):
    https://pypi.org/project/sacrebleu/2.0.0/

    Biblioteka klienta Google Cloud Translation API. Wersja 2.0.1 została zainstalowana przy użyciu pakietu Python udokumentowanego pod uniwersalnym lokalizatorem zasobów (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

    Powyższe zależności zostały określone w pliku wymagań w następujący sposób:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Kontener.

    Budowa. Eksperyment został uruchomiony w kontenerze Docker z najnowszą wersją języka programowania Python, którą w tym czasie była wersja 3.10.2, działającą na systemie operacyjnym Debian Bullseye 11 Linux architektury AMD64, o skróconym skrócie Secure Hash Algorithm 2 bcb158d5ddb6, dostępnym za pomocą następującego polecenia:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Środowisko uruchomieniowe. Kontener został skonfigurowany do zapisywania surowych plików danych eksperymentalnych do lokalnego woluminu bind mounted.

    Ocena jakości tłumaczenia.
    Wyniki jakości tłumaczenia zostały obliczone zgodnie z metryką BLEU przy użyciu wersji 2.0.0 narzędzia SacreBLEU wynalezionego przez Posta [20].

    Wrażliwość na wielkość liter. Ocena została przeprowadzona w sposób wrażliwy na wielkość liter.

    Tokenizacja. Segmenty zostały tokenizowane przy użyciu wersji 13a standardowej procedury tokenizacji wewnętrznej skryptu metrycznego Workshop on Statistical Machine Translation.

    Metoda wygładzania. Zastosowano domyślnie technikę wygładzania opracowaną w National Institute of Standards and Technology przez pracowników Rządu Federalnego Stanów Zjednoczonych dla ich zestawu narzędzi BLEU Multimodal Information Group, będącą trzecią techniką opisaną przez Chen i Cherry [21, s. 363].

    Sygnatura. Powyższe ustawienia wygenerowały następującą sygnaturę:
    n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Kalibracja. Skonfigurowana jak powyżej, maszyna produkuje następujące wyniki:

    Segment 1031.
    Źródło angielskieEverything was there.
    Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
    WynikBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Wyjaśnienie. Segment hipotezy był identyczny z segmentem odniesienia i maszyna osiągnęła doskonały wynik BLEU 100.

    Segment 179.
    Źródło angielskieI don't remember what year.
    Odniesienie i transliteracja łemkowskaНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hipoteza i transliteracjaНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    WynikBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Wyjaśnienie. Hipoteza różniła się od odniesienia o dwa znaki. Maszyna błędnie przetłumaczyła cząstkę negującą czasownik, używając słowa oznaczającego „nie” (ni) zamiast oczekiwanego słowa „nie” (ne). To zostało już w dużej mierze naprawione. Maszyna również dodała przecinek po pamjatam, co oznacza „pamiętam”. To obniżyło wynik z tego, co byłoby doskonałym wynikiem 100, do 43,47.

    Kontrola. Ponieważ korpus opiera się na wywiadach przeprowadzonych w Polsce, jako kontrolę wykorzystano tłumaczenia na język polski. Zostały one transliterowane na alfabet cyrylicki poprzez odwrócenie zasad transliteracji nazwisk łemkowskich ustanowionych przez Ministerstwo Spraw Wewnętrznych i Administracji Polski [22, s. 6564]. Polskie samogłoski nosowe zostały rozłożone na samogłoskę plus zwarcie nosowe, z wyjątkiem pozycji przed aproksymantami, gdzie zostały bezpośrednio odnazalizowane. W wygłosie przednia samogłoska nosowa /ę/ została po prostu odnazalizowana, a tylna /ą/ została transliterowana tak, jakby była następowana przez zwarcie zębowe.

    3 Wyniki

    Silnik dostępny publicznie pod adresem www.LemkoTran.com zajął pierwsze miejsce z łącznym wynikiem jakości tłumaczenia BLEU 6,28, prawie trzy razy wyższym niż drugi w kolejności Google Translate z usługą angielsko-ukraińską (BLEU 2,17). Następna była jego usługa angielsko-polska (BLEU 1,70), z usługą angielsko-rosyjską na ostatnim miejscu (BLEU 1,10).

    Tabela 1. Jakość tłumaczenia z angielskiego na łemkowski: LemkoTran.com versus Google Translate

    3.1 Wyniki według usługi tłumaczenia maszynowego

    Kontrola. Po transliteracji na alfabet cyrylicki, tłumaczenia Google Translate na standardowy język polski osiągnęły wynik BLEU na poziomie korpusu 1,70. Próbki jego wydajności są następujące:

    Segment 2174.
    Źródło angielskieWe had still been in Izby, right.
    Odniesienie i transliteracja łemkowskaТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Hipoteza polska i transliteracjaБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    WynikBLEU = 46.20
    Segment 854.
    Źródło angielskieAnd that's what it's all about.
    Odniesienie i transliteracja łemkowskaІ о то ходит.I o to chodyt.
    Hipoteza polska i transliteracjaІ о то власьнє ходзі.I o to właśnie chodzi.
    WynikBLEU = 32.47
    Segment 217.
    Źródło angielskieAnd that's what it's all about.
    Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
    Hipoteza polska i transliteracjaТак мі повєдзял.Tak mi powiedział.
    WynikBLEU = 35.36

    Hybrydowy silnik angielsko-łemkowski. Silnik dostępny bezpłatnie publicznie pod adresem URL www.LemkoTran.com osiągnął wynik BLEU na poziomie korpusu 6,28.

    Segment 1031.
    Źródło angielskieEverything was there.
    Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
    WynikBLEU = 100.00
    Segment 1445.
    Źródło angielskieBut that officer took that medal and said,
    Odniesienie i transliteracja łemkowskaАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hipoteza i transliteracjaАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    WynikBLEU = 75.06
    Segment 217.
    Źródło angielskieThat's what he said to me.
    Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
    Lemkotran.com hipoteza i transliteracjaТак мі повіл.Tak mi povil.
    WynikBLEU = 100.00

    Ukraiński. Tłumaczenia Google Translate na standardowy język ukraiński osiągnęły wynik BLEU na poziomie korpusu 2,35.

    Segment 2419.
    Źródło angielskieWhere and when?
    Odniesienie i transliteracja łemkowskaДе і коли?De i koly?
    Hipoteza ukraińska i transliteracjaДе і коли?De i koly?
    WynikBLEU = 100.00
    Segment 1096.
    Źródło angielskieWe were there for three months.
    Odniesienie i transliteracja łemkowskaТам зме были три місяці.Tam zme bŷly try misiaci.
    Hipoteza ukraińska i transliteracjaМи були там три місяці.My buly tam try misjaci.
    WynikBLEU = 30.21
    Segment 2513.
    Źródło angielskieWell, here to the west.
    Odniesienie i transliteracja łemkowskaНо то ту на захід.No to tu na zachid.
    Hipoteza ukraińska i transliteracjaНу, тут на захід.Nu, tut na zachid.
    WynikBLEU = 30.21

    Rosyjski. Usługa Google Translate z angielskiego na rosyjski osiągnęła wynik BLEU na poziomie korpusu 1,10.

    Segment 432.
    Źródło angielskieNobody knew.
    Odniesienie i transliteracja łemkowskaНихто не знал.Nychto ne znal.
    Hipoteza rosyjska i transliteracjaНикто не знал.Nikto ne znal.
    WynikBLEU = 59.46
    Segment 2751.
    Źródło angielskieWhat did they expel us for?
    Odniesienie i transliteracja łemkowskaЗа што нас выгнали?Za što nas vŷhnaly?
    Hipoteza rosyjska i transliteracjaЗа что нас выгнали?Za čto nas vygnali?
    WynikBLEU = 42.73
    Segment 2164.
    Źródło angielskieBrother went off to war.
    Odniesienie i transliteracja łemkowskaБрат пішол на войну.Brat pišol na vojnu.
    Hipoteza rosyjska i transliteracjaБрат ушел на войну.Brat ušel na vojnu.
    WynikBLEU = 42.73

    4 Dyskusja

    Wynik BLEU 6,28 na poziomie korpusu dla systemu tłumaczenia łemkowskiego wskazuje, że choć jest jeszcze wiele do zrobienia, sprawy idą w dobrym kierunku. Wynik BLEU 1,10 dla standardowego rosyjskiego wskazuje, że łemkowski jest mniej podobny do rosyjskiego niż do polskiego (BLEU 1,70). Być może użycie przedrewolucyjnej ortografii mogłoby poprawić wynik rosyjskiego, ale byłby to kosztowny eksperyment z niewielką oczywistą korzyścią.

    Transliterowany wynik podobieństwa kontrolnego standardowego polskiego BLEU 1,70 wskazuje na mniejszą interferencję języka dominującego w Polsce niż można by oczekiwać. Interesujące byłoby przeprojektowanie eksperymentu, w którym zastosowano by kilka obliczeniowo niedrogich i oczywistych korespondencji dźwiękowych (na przykład denazalizacja *ę do /ja/ i *ǫ do /u/, retrakcja *i do /y/ oraz zmiana *g na /h/ [23]) do polskiego, aby sprawdzić, czy uzyskałby wtedy wyższy wynik niż standardowy ukraiński.

    Podsumowując, łemkowski został zsyntetyzowany w laboratorium, a możliwość jego tworzenia została oddana w ręce zarówno nowych, jak i rodzimych użytkowników. Po gruntownym przeglądzie silnika i rozbudowie słownika, kolejnym krokiem jest obiektywny pomiar, a jeśli to możliwe, subiektywna ocena przez użytkowników jakości syntetycznego łemkowskiego w porównaniu z tym tworzonym przez rodzimych użytkowników. Dzień, w którym nowi użytkownicy języków niskorezursowych będą mogli korzystać z tłumaczenia maszynowego, aby zacząć komunikować się w swoim języku z dnia na dzień, jest bliżej, podobnie jak dzień, w którym język łemkowski dołączy do grona tych wcześniej zagrożonych, ale teraz rewitalizowanych.

    Podziękowania. Chciałbym podziękować mojemu koledze Ming Qian z Peraton Labs za zainspirowanie mnie do przeprowadzenia tego eksperymentu oraz Brian Stensrud z Soar Technology, Inc. za przedstawienie nas sobie, a także za jego zachętę.

    Chciałbym również podziękować mojej przyjaciółce Corinna Caudill za jej zachętę i osobiste zainteresowanie projektem, a także za przedstawienie mnie Prezydent Carpatho-Rusyn Society Maryann Sivak z University of Pittsburgh, której chciałbym podziękować za możliwość zaprezentowania mojej pracy.

    Chciałbym również podziękować Marii Silvestri z Fundacji Johna i Helen Timo za przeprowadzenie wywiadów z rodzimymi użytkownikami języka łemkowskiego i przekazanie transkryptów oraz moich tłumaczeń na potrzeby badań i rozwoju.

    Chciałbym podziękować Achim Rabus z University of Freiburg i Yves Scherrer z University of Helsinki za ich zainteresowanie projektem i pomysły.

    Chciałbym również podziękować Myhal’ Lŷžečko z blogu technologii języków mniejszościowych InterFyisa za jego wczesne zainteresowanie projektem i działania społeczne.

    Chciałbym również podziękować współsynowi Zahoczewie Marko Łyszyk za jego zainteresowanie projektem i działania społeczne.

    Na koniec chciałbym podziękować mojemu współautorowi i koledze z Antech Systems Inc. Tom Dobry za jego zachętę i wskazówki.

    Referencje

    1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Wersja online: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, ostatni dostęp 2022/02/11.

    3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, ostatni dostęp 2022/02/11.

    4. ^ Language support, https://cloud.google.com/translate/docs/languages, ostatni dostęp 2022/02/11.

    5. ^ Select language, https://m.facebook.com/language.php, ostatni dostęp 2022/02/11.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. W: Olko, J., Wicherkiewicz, T., Borges, R. (red.), Integral Strategies for Language Revitalization, ss. 175–200. Wydanie pierwsze. Wydział „Artes Liberales”, Uniwersytet Warszawski, Warszawa (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, ostatni dostęp 2022/02/11.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, ostatni dostęp 2022/02/11.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, ostatni dostęp 2022/02/11.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, ostatni dostęp 2022/02/11.

    13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warszawa (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. W: Lubotsky, A. (red.) Leiden Indo-European Etymological Dictionary Series, t. 4, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, str. 186–191. Association for Computational Linguistics, Bruksela (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. W: Proceedings of the Ninth Workshop on Statistical Machine Translation, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. W: Dziennik Ustaw Nr 102, ss. 6560–6573. Rządowe Centrum Legislacji, Warszawa (2005).

    23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. W: Harvard Ukrainian Studies, t. 1, nr 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

  • Lemko земля ⟨zemlja⟩ 'earth’

    Lemko земля ⟨zemlja⟩ 'earth’

    Meaning

    The Lemko noun земля ⟨zemlja⟩ is translatable into English as „earth„, „ground„, or „floor„, depending on the context. It translates into Polish as ziemia.

    How to Pronounce and Memorize

    The first syllable is pronounced like English zen, but with an ⟨m⟩ sound at the end. The second syllable is pronounced as in „la la la„. To memorize, imagine a zen monk meditating in mud outside and saying „La la la, I can’t hear you!„

    Etymology

    The Lemko noun земля ⟨zemlja⟩ 'earth’ comes from Proto-Slavic *zemļà (Derksen, 2008, p. 542). Cognates include Old Church Slavonic землꙗ (ⰸⰵⰿⰾⱑ) ⟨zemlja⟩ Avestan 𐬰𐬃‎ ⟨zā̊⟩ 'earth’ (accusative form 𐬰𐬆𐬨‎ ⟨zəm⟩), Sanskrit क्ष ⟨kṣá⟩ 'earth’, Persian زمین‎ ⟨zamin⟩ 'earth’, Ancient Greek χθών ⟨khthṓn⟩ “earth”, Hittite 𒋼𒂊𒃷 ⟨tēkan⟩, (genitive 𒁖𒈾𒀸 ⟨taknas⟩), Latin humus 'ground’, and Ancient Greek χαμαί ⟨khamaí⟩ 'on the ground’ (Vasmer 1953, pp. 452–453, see also Derksen, 2008, p. 542 and Pokorny, 1959, p. 415).

    Declension

    Lemko земля ⟨zemlja⟩ is a soft, first-declension noun that declines as follows:

    Singular

    CaseLemkoPolishUkrainianRussian
    Nomзе́мля ⟨zémlja⟩ziemiaземля́земля́
    Genзе́млі ⟨zémli⟩ziemiземлі́земли́
    Datзе́мли ⟨zémly⟩aziemiземлі́земле́
    Accзе́млю ⟨zémlju⟩ziemięзе́млюзе́млю
    Insзе́мльом ⟨zémlʹom⟩ziemiąземле́юземлёй
    Locзе́мли ⟨zémly⟩aziemiземлі́земле́
    Vocзе́мльо ⟨zémlʹo⟩bziemioзе́мле
    The singular declension of the Lemko soft first declension noun земля ⟨zemlja⟩ 'earth’ compared to its Polish, Ukrainian, and Russian cognates.

    a Pyrtej (2013, p. 38) gives зе́млі ⟨zémli⟩ as the dative and locative singular forms, yet Fontański and Chomiak (2000, p. 64) provide зе́мли ⟨zémly⟩.

    b Fontański and Chomiak (2000, p. 64) provide земле ⟨zemle⟩ as an alternative vocative singular form.

    Plural

    CaseLemkoPolishUkrainianRussian
    Nomзе́млі ⟨zémli⟩ziemieзе́млізе́мли
    Genзе́мель ⟨zémlʹ⟩ziemземе́льземе́ль
    Datзе́млям ⟨zémljam⟩ziemiomзе́млямзе́млям
    Accзе́млі ⟨zémli⟩ziemieзе́млізе́мли
    Insземля́ми ⟨zemljámy⟩ziemiamiзе́млямизе́млями
    Locзе́млях ⟨zémljax⟩ziemiachзе́мляхзе́млях
    Vocзе́млі ⟨zémli⟩ziemieзе́млі
    The plural declension of the Lemko soft first declension noun земля ⟨zemlja⟩ 'earth’ compared to its Polish, Ukrainian, and Russian cognates.

    References

    ^ Derksen, Rick. (2008). In Lubotsky, A. (Ed.), Leiden Indo-European Etymological Dictionary Series: Vol. 4. Etymological Dictionary of the Slavic Inherited Lexicon. Koninklijke Brill NV. https://brill.com/view/title/12607

    ^ Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    ^ Pokorny, Julius. (1959). Indogermanisches Etymologisches Wörterbuch [Indo-Germanic Etymological Dictionary]. A. Francke AG Verlag Bern.

    ^ ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology]. Обʼєднання лемків [Lemko Union].

    ^ Vasmer, M. (1953). Russisches Etymologisches Wörterbuch, Erster Band: A – K [Russian Etymological Dictionary, Volume One: A – K]. Carl Winter Universitätsverlag.

  • Lemko рік ⟨rik⟩ 'year’

    Lemko рік ⟨rik⟩ 'year’

    Learn the meaning, origin, and morphology of the Lemko masculine noun рікrik⟩, as well as how to memorize it.

    Translation

    The forms of the Lemko word рікrik⟩ listed below are translatable into English as “year” or „years„.

    Mnemonic

    To memorize the Lemko word рікrik⟩, English speakers might imagine something reeking at a New Year’s Eve party (Lemko rik and English reek are pronounced practically the same).

    Etymology

    From Proto-Slavic *rokŭ 'time’, itself a deverbal noun from *rekti 'say’, whose cognates include Old Church Slavonic рокъ (ⱃⱁⰽⱏ) ⟨rokŭ⟩ 'time, term’, as well as possibly English reckon, Sanskrit रचयति ⟨racáyati⟩ „construct, work„, Gothic 𐍂𐌰𐌷𐌽𐌾𐌰𐌽 ⟨rahnjan⟩ 'reckon’ (Pokorny 1959, p. 863, see also Vasmer, 1955, p. 532) and Welsh rhegi 'curse’ (Derksen, 2008, pp. 433, 438).

    The entry for the Proto-Slavic noun *rokъ on page 438 of Derksen’s Etymological Dictionary of the Slavic Inherited Lexicon.
    The entry for the Proto-Slavic verb *rekti on page 433 of Derksen’s Etymological Dictionary of the Slavic Inherited Lexicon.
    The entry rē̆k- on page 863 of Pokorny’s Indo-Germanic Etymological Dictionary (1959), which mentions Old Church Slavonic rokъ.
    The entry for the Muscovite Russian noun рок ⟨rok⟩ in Vasmer’s Russian Etymological Dictionary (1955, p. 532), which mentions Ukrainian rik.

    Declension

    Singular

    CaseLemkoPolishUkrainianRussian
    Nominativeрік ⟨rikarokрікго́д
    Genitiveро́ка ⟨rókabrokuро́куго́да
    Dativeроко́ви ⟨rókovybrokowiро́кові, ро́куго́ду
    Accusativeрік ⟨rikarokрікго́д
    Instrumentalро́ком ⟨rókomcrokiemро́комго́дом
    Locativeро́ці ⟨rócicrokuро́ціго́де
    Vocativeроку ⟨rókurokuро́куго́д

    a The nominative and accusative form of Lemko рік ⟨rik⟩ 'year’ is the same as the genitive plural of ріка ⟨rika⟩ 'river’. Horoszczak (2004, p. 330) provides the nominative and accusative singular as „рик ryk⟩, рікrik⟩„.

    b See Pyrtej (2013, p. 46) for the genitive and dative singular forms of Lemko рік ⟨rik⟩ 'year’. Photograph below.

    Table on page 46 of Pyrtej’s Lemko Dialects. Phonetics and Morphology

    c See Pyrtej (2013, p. 47) for the instrumental and locative singular forms of Lemko рік ⟨rik⟩ 'year’. Photograph below.

    Table on page 47 of Pyrtej’s Lemko Dialects. Phonetics and Morphology

    Plural

    CaseLemkoPolishUkrainianRussian
    Nominativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    Genitiveро́ків ⟨rókivlatро́кі́вгодо́в, ле́т
    Dativeро́кам ⟨rókamblatomро́ка́мгода́м, лета́м
    Accusativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    Instrumentalрока́ми ⟨rokámylatamiро́ка́мигода́ми, лета́ми
    Locativeро́ках ⟨rókachlatachро́ка́хгода́х, лета́х
    Vocativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    SourceSource

    References

    ^ Derksen, Rick. (2008). In Lubotsky, A. (Ed.), Leiden Indo-European Etymological Dictionary Series: Vol. 4. Etymological Dictionary of the Slavic Inherited Lexicon. Koninklijke Brill NV. https://brill.com/view/title/12607

    Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    ^ Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemko-Polish and Polish-Lemko Dictionary]. Rutenika.

    ^ Pokorny, Julius. (1959). Indogermanisches Etymologisches Wörterbuch [Indo-Germanic Etymological Dictionary]. A. Francke AG Verlag Bern.

    ^ ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology]. Обʼєднання лемків [Lemko Union].

    ^ Vasmer, M. (1955). Russisches Etymologisches Wörterbuch, Zweiter Band: L–Ssuda [Russian Etymological Dictionary, Volume Two: L–Ssuda]. Carl Winter Universitätsverlag.

  • Lemko Demonstrative Pronouns

    Lemko Demonstrative Pronouns

    Please find below the translation, etymology, full declension tables, and references for the Lemko demonstrative pronouns тотtot⟩ meaning „this„ or „these„, and тамтотtamtot⟩ meaning „that„ or „those„.

    Translation

    The Lemko demonstrative pronoun of dictionary (masculine singular) form тотtot⟩ is translatable into English as „this„ in the singular and „these„ in the plural. When prefixed with тамtam⟩, (for example, тамтотtamtot⟩), it is translatable as „that„ in the singular and „those„ in the plural.

    Etymology

    The Lemko demonstrative pronoun of dictionary (masculine singular) form тотtot⟩ derives from reconstructed proto-Slavic *. Further afield, it is related to the English word that and Sanskrit तत्tat⟩ (Vasmer, 1958, p. 128), translatable as „this„ and appearing in the famous line तत्त्वमसिtat tvam asi⟩ meaning „That thou art„.

    The entry for the Muscovite Russian demonstrative pronoun тотtot⟩ in Vasmer’s Russisches Etymologisches Wörterbuch, Dritter Band: Sta–Ÿ (1958, p. 128).

    Nearby („this„ and „these„)

    Singular („This„)

    All of the following forms are translatable into English as „this„.

    Masculine

    CaseLemkoPolishUkrainianRussian
    Nominativeтот ⟨totatenцейэ́тот
    Genitiveто́го ⟨tóhotegoцього́э́того
    Dativeто́му ⟨tómutemuцьому́э́тому
    Accusative (inanimate)тот ⟨tota
    tenцейэ́тот
    Accusative
    (animate)
    то́го ⟨tóhotegoцього́э́того
    Instrumentalтым ⟨tŷmbtymцимэ́тим
    Locativeтым ⟨tŷmctymцьо́му, цімэ́том

    a Pyrtej (2013) gives той ⟨toj⟩ as an alternative form of the Lemko masculine nominative (as well as accusative inanimate) singular demonstrative pronoun (p. 107). That form is absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the masculine instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the masculine locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    Feminine

    CaseLemkoPolishUkrainianRussian
    Nominativeто́та ⟨tóta⟩ataцяэ́та
    Genitiveтой ⟨toj⟩tejціє́їэ́той
    Dativeтій ⟨tij⟩tejційэ́той
    Accusativeто́ту ⟨tótu⟩bцюэ́ту
    Instrumentalтом ⟨tom⟩ціє́юэ́той, э́тою
    Locativeтій ⟨tij⟩tejційэ́той

    a Pyrtej (2013) gives та ⟨ta⟩ and та́я ⟨tája⟩ as alternative forms of the Lemko feminine nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives ту ⟨tu⟩ and ту́ю ⟨túju⟩ as alternative forms of the Lemko feminine accusative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    Neuter

    CaseLemkoPolishUkrainianRussian
    Nominativeто́то ⟨tóto⟩atoцеэ́то
    Genitiveто́го ⟨tóho⟩tegoцього́э́того
    Dativeто́му ⟨tómu⟩temuцьому́э́тому
    Accusativeто́то ⟨tóto⟩
    toцейэ́то
    Instrumentalтым ⟨tŷm⟩btymцимэ́тим
    Locativeтым ⟨tŷm⟩ctymцьо́му, цімэ́том

    a Pyrtej (2013) gives то ⟨to⟩ and то́є ⟨tóje⟩ as alternative forms of the Lemko neuter nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the neuter instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the neuter locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    References
    Fontański & Chomiak (2000, p. 97).
    Pyrtej (2013, p. 107).

    Plural („These„)

    The following forms are used regardless of grammatical gender and are translatable into English as „these„.

    CaseLemkoPolishUkrainianRussian
    Nominativeто́ты ⟨tótŷte/ciціэ́ти
    Genitiveтых ⟨tŷch⟩tychцихэ́тих
    Dativeтым ⟨tŷm⟩tymцимэ́тим
    Accusative (inanimate)то́ты ⟨tótŷteціэ́ти
    Accusative (animate)тых ⟨tŷch
    tychцихэ́тих
    Instrumentalты́ма ⟨tŷma⟩tymiци́миэ́тими
    Locativeтых ⟨tŷch⟩tychцихэ́тих

    Distant („that„, „those„)

    To communicate distance from the speaker, simply prefix all of the above pronouns with Lemko там ⟨tam⟩. This is equivalent to saying „that„ instead of „this„ or „those„ instead of „these„ in English.

    Singular („That„)

    CaseMasculineFeminineNeuter
    Nominativeтамтот ⟨tamtotaтамто́та ⟨tamtóta⟩dтамто́то ⟨tamtóto⟩x
    Genitiveтамто́го ⟨tamtóhoтамтой ⟨tamtoj⟩тамто́го ⟨tamtóho⟩
    Dativeтамто́му ⟨tamtómuтамтій ⟨tamtij⟩тамто́му ⟨tamtómu⟩
    Accusative (inanimate)тамтот ⟨tamtota
    тамто́ту ⟨tamtótu⟩eтамто́то ⟨tamtóto
    Accusative
    (animate)
    тамто́го ⟨tamtóhoтамто́ту ⟨tamtótu⟩eтамто́то ⟨tamtóto
    Instrumentalтамтым ⟨tamtŷmbтамтом ⟨tamtom⟩тамтым ⟨tamtŷm⟩b
    Locativeтамтым ⟨tŷmcтамтій ⟨tamtij⟩тамтым ⟨tamtŷmc

    a Pyrtej (2013) gives той ⟨toj⟩ as an alternative form of the Lemko masculine nominative (as well as accusative inanimate) singular demonstrative pronoun (p. 107). That form is absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the masculine and neuter instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the masculine and neuter locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    d Pyrtej (2013) gives та ⟨ta⟩ and та́я ⟨tája⟩ as alternative forms of the Lemko feminine nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    e Pyrtej (2013) gives ту ⟨tu⟩ and ту́ю ⟨túju⟩ as alternative forms of the Lemko feminine accusative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    f Pyrtej (2013) gives то ⟨to⟩ and то́є ⟨tóje⟩ as alternative forms of the Lemko neuter nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    Plural („Those„)

    CaseLemkoPolishUkrainianRussian
    Nominativeтамто́ты ⟨tamtótŷtamte/tamciтіте
    Genitiveтамтых ⟨tamtŷch⟩tamtychтихтех
    Dativeтамтым ⟨tamtŷm⟩tamtymтимтем
    Accusative (inanimate)тамто́ты ⟨tamtótŷtamteтіте
    Accusative (animate)тамтых ⟨tamtŷch
    tamtychтихтех
    Instrumentalтамты́ма ⟨tamtŷma⟩tamtymiти́мите́ми
    Locativeтых ⟨tamtŷch⟩tamtychтихтех

    References

    1. ^ Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    2. ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology].

    3. Vasmer, M. (1958). Russisches Etymologisches Wörterbuch, Dritter Band: Sta–Ÿ [Russian Etymological Dictionary, Volume Three: Sta–Ÿ]. Carl Winter Universitätsverlag.

  • Lemko быти ⟨bŷty⟩ 'be’

    Lemko быти ⟨bŷty⟩ 'be’

    To be or not to be? Быти або не быти? That is the question, and now you can conjugate the infinitives made famous by the opening line of Hamlet’s soliloquy in Lemko using the automatic translation service LemkoTran, or craft your own copulae using this handy DIY guide.

    Translations

    The Lemko verb быти (scientific transliteration: ⟨bŷty⟩) means„to be„ in English, być in Polish, бути ⟨buty⟩ in Standard Ukrainian, and быть ⟨byt’⟩ in Muscovite Russian.

    EnglishLemkoPolishUkrainianRussian
    beбыти ⟨bŷty⟩byćбутибыть
    Translations of the Lemko verb быти into English, Polish, Ukrainian, and Russian.

    Etymology

    The Lemko infinitive быти ⟨bŷty⟩, meaning „to be„, comes from the Proto-Slavic athematic verb *byti, and is related to Sanskrit भूति ⟨bhūtíṣ⟩ „wellbeing„ (Vasmer 1953, p. 159; Pokorny 1959 147), Persian بودن ⟨būdan⟩ „be„ (Pokorny, p. 147), Latin futūrus „future„ (Vasmer, p. 159, Pokorny, p. 149), and via Old English bēon, English be (Pokorny, p. 149).

    Attestation

    Hamlet’s famous opening line „To be or not to be, that is the question„ is alluded to in the following published pieces found in the wild:

    Для дакотрых орґанізаций є то быти або не быти, значыт, без тых грошів не сут в силі нич зреализувати.„ (LEM.fm 2021)

    Transcription
    dl'a dakotrŷch organizacyj je to bŷty abo ne bŷty, značŷt, bez tŷch hrošiv ne sut v syl'i nyč zrealyzuvaty.

    Translation
    For some organizations, it's to be or not to be, meaning they will not be able to achieve anything without those funds.

    От нашых діл и нашой віры буде рішатися вопрос: ци нам лемкам быти, ци не быти?….„ (Цисляк 1964, p. 162)

    Transliteration
    Ot našŷch dil y našoj virŷ bude rišatysia vopros: cy nam lemkam bŷty, cy ne bŷty?…
    Translation
    Our affairs and our faith will be decide the question of whether we Lemkos are to be or not to be

    Inflection

    Future Tense

    Root: буд– ⟨bud-⟩

    The future tense of the Lemko verb for to be, быти ⟨bŷty⟩, is formed by adding personal endings to the root bud-, equivalent to will in English.

    Etymology

    Lemko bud- comes from the Proto-Slavic root *bǫd-. Compare the suffix -bund in English moribund from Latin moribundus (Pokorny, p. 150, Vasmer, p. 136).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I willбуду ⟨búdu⟩bęбудубуду
    you willбудеш⟨búdeš⟩będzieszбудешбудешь
    (s)he willбуде ⟨búdet⟩będzieбудебудет
    we willбудеме ⟨budéme⟩będziemyбудемобудем
    you all willбудете ⟨budéte⟩będziecieбудетебудете
    they willбудут ⟨búdut⟩bęбудутьбудут
    Forms of the future tense conjugation of Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    Present Tense

    Root: є– ⟨je-⟩, с– ⟨s-⟩

    In Lemko, the present tense of the verb to be is formed in the singular from the root є- ⟨je-⟩, and in the plural from the root с- ⟨s-⟩.

    Etymology

    All the below forms trace back to the ancestor of the Proto-Slavic root *es-, to which personal endings were affixed. Compare to English is, German ist, Latin est, Ancient Greek ἐστί ⟨estí⟩, Persian است ⟨ast⟩, and Sanskrit अस्ति ⟨ásti⟩ (Pokorny, pp. 340-341; Vasmer, p. 405).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I amєм ⟨jem⟩jestemєесть
    you areєс ⟨jes⟩jesteśєесть
    (s)he isєст ⟨jest⟩ajestєесть
    we areсме ⟨sme⟩bjesteśmyєесть
    you all areсте ⟨ste⟩cjesteścieєесть
    they areсут ⟨sut⟩єесть
    Forms of the present tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a The Lemko third-person singular form єст ⟨jest⟩ is now being replaced by є ⟨je⟩, though this is still rare (Fontański & Chomiak 2000, p. 109).

    b Fontański & Chomiak (2000, p. 109) give the Lemko first-person plural form as (єсме)сме/зме ⟨(jesme)sme/zme⟩.

    c Fontański & Chomiak (2000, p. 109) give the Lemko second-person plural form as (єсте)сте ⟨(jeste)ste⟩.

    Reference
    Fontański & Chomiak (2000, p. 106).

    Past Tense

    Root: был- ⟨bŷl-⟩

    The past tense of the verb „to be„ is formed in Lemko by adding any appropriate gender and plural markers to the stem был- ⟨bŷl-⟩, translatable into English as was or were.

    Etymology

    Lemko был ⟨bŷl⟩ is undoubtedly the continuation of Proto-Slavic resultative participle *bylŭ. Compare to Ancient Greek φῦλον ⟨phylon⟩ (Vasmer, p. 159), whence English phylum.

    Conjugation Tables

    Masculine

    Use the following to refer to males or mixed parties of males and females, as well as objects of grammatically masculine gender. Male virility is not a grammatical category in Lemko, unlike Polish.

    EnglishLemkoPolishUkrainianRussian
    I wasя былa
    ⟨ja bŷl⟩
    byłemя бувя был
    you wereты былb
    ⟨tý bŷl⟩
    byłeśти бувты был
    he wasвін был
    ⟨vin bŷl⟩
    byłвін бувон был
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byliśmyми булимы были
    you guys wereвы былиd
    ⟨vŷ bŷly⟩
    byliścieви буливы были
    those guys wereони были
    ⟨ony bŷly⟩
    byliвони булиони были
    Forms of the masculine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite был єм ⟨bŷl em⟩ as an alternative masculine first person singular form of the past of the verb „to be„.

    b Fontański & Chomiak (2000, p. 109) cite был єс ⟨bŷl es⟩ as an alternative masculine second person singular form of the past of the verb „to be„.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be„.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be„.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Feminine

    Use the below to refer to females and objects of grammatically feminine gender.

    EnglishLemkoPolishUkrainianRussian
    I wasя былаa
    ⟨ja bŷla⟩
    byłamя булая была
    you wereты былаb
    ⟨tý bŷla⟩
    byłaśти булаты была
    she wasона была
    ⟨ona bŷla⟩
    byłaвона булаон была
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byłyśmyми булимы были
    you gals wereвы былиd
    ⟨wŷ bŷly⟩
    byłyścieви буливы были
    those gals wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the feminine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite была єм ⟨bŷla em⟩ and былам ⟨bŷlam⟩ as alternative feminine first person singular forms of the past of the verb „to be„.

    b Fontański & Chomiak (2000, p. 109) cite была єс ⟨bŷla es⟩ and былас ⟨bŷlas⟩ as alternative feminine second person singular forms of the past of the verb „to be„.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be„.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be„.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Neuter

    Use the below to refer to objects of grammatically neuter gender.

    EnglishLemkoPolishUkrainianRussian
    it wasоно было
    ⟨ono bŷlo⟩
    byłoвоно булооно было
    they wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the neuter past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    References

    1. Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.
    2. Vasmer, M. (1953). Russisches Etymologisches Wörterbuch, Erster Band: A – K [Russian Etymological Dictionary, Volume One: A – K]. Carl Winter Universitätsverlag.
    3. Pokorny, J. (1959). Indogermanisches etymologisches Wörterbuch, I. Band [Indo-Germanic Etymological Dictionary, Volume One]. A. Francke AG Verlag.
    4. Цисляк, А. (1964). Нашы Родны Бескиды [Our Ancestral Beskid Mountains]. In: Карпаторусский Календарь Лемко-Союза На Год 1964. Типография Лемко-Союза.
    5. Lem.fm (2021). Хто робит, а хто… но власні, што? [He Who Does, and He Who… Well, What?], www.Lem.fm.
    Strona główna » łemkowski

  • New Experiment: Lab-Made Lemko?

    New Experiment: Lab-Made Lemko?

    I will be conducting an experiment this month to see if machines can be made to translate into Lemko better than Google Translate or humans.

    Hypothesis

    A machine can be configured to translate from English into the endangered Slavic language of Lemko and achieve quality scores higher than those of Google Translate’s Ukrainian service, but not yet higher than those of humans.

    Predictions

    • My English to Lemko rule-based machine translation (RBMT) engine will achieve a bilingual evaluation understudy (BLEU) score of 15 against a clean bilingual corpus.
    • The above engine will achieve a BLEU score that is a third higher (e.g. 20) when coupled with an improvised dictionary-based machine translation (DBMT) created from Lemko-Polish unit-test assertion pairs.
    • Google Translate’s English to Ukrainian translation service will achieve a BLEU score of 10 against the above corpus.
    • I, a human, will achieve a higher BLEU score than all the above machines against the above corpus.

    The experiments will be conducted over the next week or so, for subsequent publication.