This site is undergoing a full revamp. Layout may be temporarily broken.
Strona główna » Nauka » Recenzowane artykuły naukowe » Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

Zdjęcie portretowe Petra Orynycza z tekstem „Powiedz to dobrze – łemkowskie tłumaczenie neuronowe AI”.

Streszczenie

Neuronowe tłumaczenie maszynowe wspierane sztuczną inteligencją może wkrótce rewitalizować zagrożone języki, umożliwiając nowym użytkownikom komunikację w czasie rzeczywistym przy użyciu zdań mierzalnie bliższych normie literackiej niż te używane przez rodzimych użytkowników, i to od pierwszego dnia ich podróży odzyskiwania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne zasoby w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków świata, 98% zostało pominiętych z powodu braku korpusów: modele neuronowego tłumaczenia maszynowego uczą się na milionach słów tekstu dwujęzycznego, który po prostu nie istnieje dla większości języków i kosztuje ponad sto tysięcy dolarów amerykańskich na język, aby go zgromadzić.

Dla języków o ograniczonych zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej efektywne: transfer uczenia się, który umożliwia językom o mniejszych zasobach korzystanie z osiągnięć języków o większych zasobach. W tym eksperymencie neuronowa usługa tłumaczenia Google z angielskiego na polski została połączona z moim klasycznym silnikiem opartym na regułach, aby tłumaczyć z angielskiego na zagrożony, niskorezursowy, wschodniosłowiański język łemkowski. System osiągnął wynik jakości BLEU (bilingual evaluation understudy) 6,28, kilkakrotnie lepszy niż usługi Google Translate dla tłumaczenia z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Ostatecznie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem internetowym www.LemkoTran.com, aby umożliwić nowym mówcom rewitalizację ich języka.

Nowi użytkownicy języka są kluczem do rewitalizacji języka, a możliwość „poprawnego mówienia” w języku łemkowskim jest teraz w zasięgu ich ręki.

Słowa kluczowe: Sztuczna inteligencja skoncentrowana na człowieku, Rewitalizacja języka, Łemkowski.

Proszę cytować jako: Orynycz, P. (2022). Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI umożliwia nowym użytkownikom rewitalizację języka łemkowskiego. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, t. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

1 Wprowadzenie

1.1. Problemy

Celem tego eksperymentu jest przyczynienie się na poziomie lokalnym do globalnego wyzwania, jakim jest zanik języków, który może następować w tempie jednego dziennie, przy czym szanse na przetrwanie ma zaledwie jeden na dziesięć języków [1, s. 1329]. W momencie publikacji, SIL International’s Ethnologue używa Rozszerzonej Skali Międzypokoleniowego Zakłócenia Transmisji Lewisa i Simonsa z 2010 roku, aby oszacować, że 3018 języków jest zagrożonych [2], co stanowi 43% z 7001 indywidualnych żywych języków zliczonych w momencie publikacji w standardzie ISO 639-3 Międzynarodowej Organizacji Normalizacyjnej [3]. Tymczasem Google Translate obsługuje tylko 108 języków [4], a Facebook 112 [5], co jest początkiem. Niemniej jednak, jeden język jest teraz mniej niedostatecznie obsługiwany, ponieważ owoc tego eksperymentu został wdrożony na serwerze internetowym jako publiczna usługa tłumaczeniowa.

Nowe technologie sztucznej inteligencji kuszą obietnicą pomocy, która natychmiast kompensuje utratę języka poprzez interakcję człowiek-komputer. W moim poprzednim eksperymencie silniki neuronowe nowej generacji osiągnęły wyższe wyniki jakości tłumaczenia z rosyjskiego i polskiego na angielski niż kontrola ludzka [6, s. 9]. Tymczasem Facebook i Google1 zainwestowały ogromne zasoby w dostarczanie lepszych niż ludzkie automatycznych systemów tłumaczeniowych bez kosztów dla konsumenta.

1 Ujawnienie: pracuję jako płatny lingwista rosyjski, polski i ukraiński oraz specjalista kontroli jakości tłumaczeń dla projektu Google Translate; siedziba główna znajduje się w San Francisco.

Nadludzka sztuczna inteligencja nie jest tania: trenowanie neuronowych modeli językowych wymaga dwujęzycznych korpusów z liczbą słów w setkach tysięcy, a idealnie w milionach, których przetłumaczenie kosztowałoby setki tysięcy dolarów, sumy przekraczające możliwości większości społeczności języków o niskich zasobach. Na szczęście ten eksperyment pokazuje, że istnieją bardziej zaradne i skuteczne sposoby odpowiedzi na wyzwanie tworzenia pomocy tłumaczeniowych do rewitalizacji zagrożonych języków w środowiskach o niskich zasobach.

1.2 Dotychczasowe prace

Zbudowałem pierwszy na świecie system tłumaczenia maszynowego z języka łemkowskiego na angielski i udostępniłem go publicznie. Jego obiektywne wyniki jakości tłumaczenia ulegały poprawie: silnik osiągnął wynik BLEU (bilingual evaluation understudy) 14,57 latem 2021 roku, co zostało zaprezentowane profesjonalistom na konferencji Interservice/Industry Training, Simulation and Education Conference Narodowego Stowarzyszenia Przemysłu Obronnego i opublikowane w jej materiałach [6]. Dla porównania, jako tłumacz-człowiek pracujący w warunkach polowych, odcięty od świata zewnętrznego, uzyskałem wynik BLEU 28,66. Jesienią 2021 roku silnik osiągnął wynik BLEU 15,74, co zostało przedstawione językoznawcom, naukowcom i szerszej społeczności podczas wydarzenia prezentacyjnego zorganizowanego przez Uniwersytet w Pittsburghu.2

2 Ujawnienie: wydarzenie było sponsorowane przez Carpatho-Rusyn Society (Pensylwania), a Uniwersytet w Pittsburghu zapłacił mi za prezentację.

1.3 Badany system

Łemkowski jest zdecydowanie do poważnie zagrożonego [6, s. 3, 7, ss. 177-178], niskozasobowym [8], oficjalnie uznanym językiem mniejszościowym [9], przypuszczalnie rdzennym dla transgranicznych wyżyn na południe od obszarów metropolitalnych Krakowa, Tarnowa i Rzeszowa; historyczne izoglosy demarkacyjne będą, miejmy nadzieję, tematem przyszłego artykułu. Polski urząd statystyczny w 2011 roku odnotował 6279 mieszkańców, dla których język łemkowski był językiem „zwykle używanym w domu” (nawet jeśli dodatkowo używali języka polskiego) [10, str. 3], co stanowi wzrost o 12% w porównaniu z 5605 osobami, dla których język łemkowski był „językiem najczęściej używanym w domu” w 2002 roku [11, str. 6, 12, str. 7]. W momencie publikacji trwa opracowywanie wyników nowego spisu.

Łemkowski można sklasyfikować jako język wschodniosłowiański, ponieważ spełnia zwyczajowe kryteria cech strukturalnych genetycznych, z których najważniejszą jest pełnogłos [13, s. 20], zgodnie z którym zakłada się, że samogłoska powstała w prasłowiańskich sekwencjach spółgłoski C po której następuje samogłoska średnia lub niska V (*e, lub *o, z którą *a się połączyła [14, s. 366]), po której następuje płynna R (to jest *l lub *r), po której następuje kolejna spółgłoska C, to znaczy CVRC > CVRVC. Dla ilustracji, porównajmy staroangielskie słowo oznaczające „topić się”, meltan () [15, s. 718] z jego domniemanym łemkowskim odpowiednikiem mołódyj [16, s. 92, 17, s. 150] (), oznaczającym „młody”. Inne wschodniosłowiańskie odpowiedniki obejmują ukraińskie mołodýj i rosyjskie mołodój [17], oba wykazujące samogłoskę po spółgłosce płynnej (CVRVC). Tymczasem języki zachodniosłowiańskie nie mają samogłoski przed płynną; porównaj polskie młody i słowackie mladý (oba CRVC) [17]. Ponadto pokrewieństwo postulowano dla innych słów tłumaczonych jako „łagodny”, w tym sanskryckie mṛdú (CRC) [18, str. 830] i łacińskie mollis (CVRC jeśli od *moldvis) [15, 17, 19, str. 323].

W tym eksperymencie nie oceniano, jak dobrze łemkowski spełnia zwyczajowe, współczesne ukraińskie kryteria cech strukturalnych genetycznych. Jednakże podobieństwo między łemkowskim a standardowym ukraińskim zostało po raz pierwszy, o ile mi wiadomo, skwantyfikowane w druku. Poniżej, mój silnik łemkowski uzyskał wynik BLEU 6,28, prawie trzykrotnie wyższy niż wynik ukraińskiego Google Translate wynoszący BLEU 2,17. Można przeprowadzić dalsze eksperymenty w celu kwantyfikacji podobieństwa między łemkowskim, standardowym ukraińskim, polskim i rusińskim skodyfikowanym na Słowacji, a także świeże spojrzenie na klasyfikację typologiczną łemkowskiego.

Ilość i jakość zasobów ulegają poprawie, podobnie jak pomysłowość wspierana przez technologię. Wszystkie znane korpusy dwujęzyczne, obejmujące mniej niż siedemdziesiąt tysięcy słów łemkowskich, zostały zgromadzone na potrzeby tego eksperymentu. Oczyszczam dwujęzyczny korpus transkrypcji wywiadów przeprowadzonych z rodzimymi użytkownikami w Polsce i moich tłumaczeń na język angielski, które klient ze Stanów Zjednoczonych zlecił mi wykonać i pozwolił wykorzystać. Kompiluję również korpusy jednojęzyczne, które w momencie publikacji liczą 534 512 słów.

1.4 Hipoteza

Na podstawie mojego subiektywnego wrażenia jako profesjonalnego tłumacza, że rodzimi użytkownicy języka łemkowskiego, z którymi przeprowadzono wywiady w Polsce, częściej używali słów z oczywistymi polskimi odpowiednikami niż standardowymi ukraińskimi, postawiłem hipotezę, że przy innych równych warunkach, maszynę można skonfigurować do tłumaczenia na łemkowski z angielskiego i osiągnąć obiektywne wyniki jakości BLEU wyższe niż usługi ukraińskie i rosyjskie Google Translate.

1.5 Przewidywania

System tłumaczenia łemkowskiego. Przewidziałem, że wspomniany system tłumaczenia osiągnie wynik BLEU 15 w tłumaczeniu na łemkowski z angielskiego w porównaniu z korpusem dwujęzycznym.

Google Translate.

Usługa z angielskiego na ukraiński. Przewidywałem, że usługa Google Translate z angielskiego na ukraiński osiągnie wynik BLEU 10 względem korpusu dwujęzycznego.

Usługa z angielskiego na rosyjski. Przewidywałem, że usługa Google Translate z angielskiego na rosyjski osiągnie wynik BLEU 1 względem korpusu dwujęzycznego.

1.6 Metody i uzasadnienie

W celu przyspieszenia, oszczędności zasobów i zwiększenia odporności, laptop uznany za przestarzały przez mojego pracodawcę został skonfigurowany do tłumaczenia na łemkowski i wykonywania połączeń z usługą Google Translate na platformie Google Cloud, a także do oceny wspomnianych tłumaczeń przy użyciu standardowej w branży miary BLEU.

1.7 Główne wyniki

System tłumaczenia z angielskiego na łemkowski osiągnął łączny wynik BLEU 6.28431824990417. Tymczasem usługa ukraińska Google Translate uzyskała wynik BLEU 2.16830846776652, usługa rosyjska BLEU 1.10424105952048, a kontrolny polski transliterowany na alfabet cyrylicki BLEU 1.70036447680114.

2 Materiały i metody

Powyższa hipoteza została przetestowana przez obliczenie wyników jakości BLEU dla każdego systemu tłumaczeniowego skonfigurowanego w sposób szczegółowo opisany poniżej.

2.1 Konfiguracja

Sprzęt. Eksperyment został przeprowadzony na laptopie HP Elitebook 850 G2 z procesorem Core i7-5600U 2,6 GHz i 16 gigabajtami pamięci o dostępie swobodnym. Został odrzucony przez mojego pracodawcę jako przestarzały i wystawiony na sprzedaż za 450 USD w momencie publikacji.

Konfiguracja. W menu podstawowego systemu wejścia/wyjścia (BIOS) urządzenie zostało skonfigurowane w celu włączenia technologii wirtualizacji (VTx).

System operacyjny. Windows 10 Professional 64 bit został zainstalowany na gołym metalu. Upewniono się, że funkcje Windows Virtual Machine Platform i Windows Subsystem for Linux były włączone. Następnie zainstalowano WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) dostępne od Microsoft pod adresem https://aka.ms/wsl2kernel.

Oprogramowanie. Instalator Docker Desktop dla Windows w wersji 4.4.3 (73365) został pobrany z https://www.docker.com/get-started i uruchomiony z opcją Install required Windows components for WSL 2 selected.

Pakiety. Eksperyment zależał od poniższych pakietów z Python Package Index.

SacreBLEU. Wersja 2.0.0 została zainstalowana przy użyciu pakietu Python udokumentowanego pod następującym uniwersalnym lokalizatorem zasobów (URL):
https://pypi.org/project/sacrebleu/2.0.0/

Biblioteka klienta Google Cloud Translation API. Wersja 2.0.1 została zainstalowana przy użyciu pakietu Python udokumentowanego pod uniwersalnym lokalizatorem zasobów (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

Powyższe zależności zostały określone w pliku wymagań w następujący sposób:
google-cloud-translate==2.0.1
sacrebleu==2.0.0

Kontener.

Budowa. Eksperyment został uruchomiony w kontenerze Docker z najnowszą wersją języka programowania Python, którą w tym czasie była wersja 3.10.2, działającą na systemie operacyjnym Debian Bullseye 11 Linux architektury AMD64, o skróconym skrócie Secure Hash Algorithm 2 bcb158d5ddb6, dostępnym za pomocą następującego polecenia:
docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

Środowisko uruchomieniowe. Kontener został skonfigurowany do zapisywania surowych plików danych eksperymentalnych do lokalnego woluminu bind mounted.

Ocena jakości tłumaczenia.
Wyniki jakości tłumaczenia zostały obliczone zgodnie z metryką BLEU przy użyciu wersji 2.0.0 narzędzia SacreBLEU wynalezionego przez Posta [20].

Wrażliwość na wielkość liter. Ocena została przeprowadzona w sposób wrażliwy na wielkość liter.

Tokenizacja. Segmenty zostały tokenizowane przy użyciu wersji 13a standardowej procedury tokenizacji wewnętrznej skryptu metrycznego Workshop on Statistical Machine Translation.

Metoda wygładzania. Zastosowano domyślnie technikę wygładzania opracowaną w National Institute of Standards and Technology przez pracowników Rządu Federalnego Stanów Zjednoczonych dla ich zestawu narzędzi BLEU Multimodal Information Group, będącą trzecią techniką opisaną przez Chen i Cherry [21, s. 363].

Sygnatura. Powyższe ustawienia wygenerowały następującą sygnaturę:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

Kalibracja. Skonfigurowana jak powyżej, maszyna produkuje następujące wyniki:

Segment 1031.
Źródło angielskieEverything was there.
Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
WynikBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

Wyjaśnienie. Segment hipotezy był identyczny z segmentem odniesienia i maszyna osiągnęła doskonały wynik BLEU 100.

Segment 179.
Źródło angielskieI don't remember what year.
Odniesienie i transliteracja łemkowskaНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
Lemkotran.com hipoteza i transliteracjaНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
WynikBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

Wyjaśnienie. Hipoteza różniła się od odniesienia o dwa znaki. Maszyna błędnie przetłumaczyła cząstkę negującą czasownik, używając słowa oznaczającego „nie” (ni) zamiast oczekiwanego słowa „nie” (ne). To zostało już w dużej mierze naprawione. Maszyna również dodała przecinek po pamjatam, co oznacza „pamiętam”. To obniżyło wynik z tego, co byłoby doskonałym wynikiem 100, do 43,47.

Kontrola. Ponieważ korpus opiera się na wywiadach przeprowadzonych w Polsce, jako kontrolę wykorzystano tłumaczenia na język polski. Zostały one transliterowane na alfabet cyrylicki poprzez odwrócenie zasad transliteracji nazwisk łemkowskich ustanowionych przez Ministerstwo Spraw Wewnętrznych i Administracji Polski [22, s. 6564]. Polskie samogłoski nosowe zostały rozłożone na samogłoskę plus zwarcie nosowe, z wyjątkiem pozycji przed aproksymantami, gdzie zostały bezpośrednio odnazalizowane. W wygłosie przednia samogłoska nosowa /ę/ została po prostu odnazalizowana, a tylna /ą/ została transliterowana tak, jakby była następowana przez zwarcie zębowe.

3 Wyniki

Silnik dostępny publicznie pod adresem www.LemkoTran.com zajął pierwsze miejsce z łącznym wynikiem jakości tłumaczenia BLEU 6,28, prawie trzy razy wyższym niż drugi w kolejności Google Translate z usługą angielsko-ukraińską (BLEU 2,17). Następna była jego usługa angielsko-polska (BLEU 1,70), z usługą angielsko-rosyjską na ostatnim miejscu (BLEU 1,10).

Tabela 1. Jakość tłumaczenia z angielskiego na łemkowski: LemkoTran.com versus Google Translate

3.1 Wyniki według usługi tłumaczenia maszynowego

Kontrola. Po transliteracji na alfabet cyrylicki, tłumaczenia Google Translate na standardowy język polski osiągnęły wynik BLEU na poziomie korpusu 1,70. Próbki jego wydajności są następujące:

Segment 2174.
Źródło angielskieWe had still been in Izby, right.
Odniesienie i transliteracja łemkowskaТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
Hipoteza polska i transliteracjaБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
WynikBLEU = 46.20
Segment 854.
Źródło angielskieAnd that's what it's all about.
Odniesienie i transliteracja łemkowskaІ о то ходит.I o to chodyt.
Hipoteza polska i transliteracjaІ о то власьнє ходзі.I o to właśnie chodzi.
WynikBLEU = 32.47
Segment 217.
Źródło angielskieAnd that's what it's all about.
Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
Hipoteza polska i transliteracjaТак мі повєдзял.Tak mi powiedział.
WynikBLEU = 35.36

Hybrydowy silnik angielsko-łemkowski. Silnik dostępny bezpłatnie publicznie pod adresem URL www.LemkoTran.com osiągnął wynik BLEU na poziomie korpusu 6,28.

Segment 1031.
Źródło angielskieEverything was there.
Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
WynikBLEU = 100.00
Segment 1445.
Źródło angielskieBut that officer took that medal and said,
Odniesienie i transliteracja łemkowskaАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com hipoteza i transliteracjaАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
WynikBLEU = 75.06
Segment 217.
Źródło angielskieThat's what he said to me.
Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
Lemkotran.com hipoteza i transliteracjaТак мі повіл.Tak mi povil.
WynikBLEU = 100.00

Ukraiński. Tłumaczenia Google Translate na standardowy język ukraiński osiągnęły wynik BLEU na poziomie korpusu 2,35.

Segment 2419.
Źródło angielskieWhere and when?
Odniesienie i transliteracja łemkowskaДе і коли?De i koly?
Hipoteza ukraińska i transliteracjaДе і коли?De i koly?
WynikBLEU = 100.00
Segment 1096.
Źródło angielskieWe were there for three months.
Odniesienie i transliteracja łemkowskaТам зме были три місяці.Tam zme bŷly try misiaci.
Hipoteza ukraińska i transliteracjaМи були там три місяці.My buly tam try misjaci.
WynikBLEU = 30.21
Segment 2513.
Źródło angielskieWell, here to the west.
Odniesienie i transliteracja łemkowskaНо то ту на захід.No to tu na zachid.
Hipoteza ukraińska i transliteracjaНу, тут на захід.Nu, tut na zachid.
WynikBLEU = 30.21

Rosyjski. Usługa Google Translate z angielskiego na rosyjski osiągnęła wynik BLEU na poziomie korpusu 1,10.

Segment 432.
Źródło angielskieNobody knew.
Odniesienie i transliteracja łemkowskaНихто не знал.Nychto ne znal.
Hipoteza rosyjska i transliteracjaНикто не знал.Nikto ne znal.
WynikBLEU = 59.46
Segment 2751.
Źródło angielskieWhat did they expel us for?
Odniesienie i transliteracja łemkowskaЗа што нас выгнали?Za što nas vŷhnaly?
Hipoteza rosyjska i transliteracjaЗа что нас выгнали?Za čto nas vygnali?
WynikBLEU = 42.73
Segment 2164.
Źródło angielskieBrother went off to war.
Odniesienie i transliteracja łemkowskaБрат пішол на войну.Brat pišol na vojnu.
Hipoteza rosyjska i transliteracjaБрат ушел на войну.Brat ušel na vojnu.
WynikBLEU = 42.73

4 Dyskusja

Wynik BLEU 6,28 na poziomie korpusu dla systemu tłumaczenia łemkowskiego wskazuje, że choć jest jeszcze wiele do zrobienia, sprawy idą w dobrym kierunku. Wynik BLEU 1,10 dla standardowego rosyjskiego wskazuje, że łemkowski jest mniej podobny do rosyjskiego niż do polskiego (BLEU 1,70). Być może użycie przedrewolucyjnej ortografii mogłoby poprawić wynik rosyjskiego, ale byłby to kosztowny eksperyment z niewielką oczywistą korzyścią.

Transliterowany wynik podobieństwa kontrolnego standardowego polskiego BLEU 1,70 wskazuje na mniejszą interferencję języka dominującego w Polsce niż można by oczekiwać. Interesujące byłoby przeprojektowanie eksperymentu, w którym zastosowano by kilka obliczeniowo niedrogich i oczywistych korespondencji dźwiękowych (na przykład denazalizacja *ę do /ja/ i *ǫ do /u/, retrakcja *i do /y/ oraz zmiana *g na /h/ [23]) do polskiego, aby sprawdzić, czy uzyskałby wtedy wyższy wynik niż standardowy ukraiński.

Podsumowując, łemkowski został zsyntetyzowany w laboratorium, a możliwość jego tworzenia została oddana w ręce zarówno nowych, jak i rodzimych użytkowników. Po gruntownym przeglądzie silnika i rozbudowie słownika, kolejnym krokiem jest obiektywny pomiar, a jeśli to możliwe, subiektywna ocena przez użytkowników jakości syntetycznego łemkowskiego w porównaniu z tym tworzonym przez rodzimych użytkowników. Dzień, w którym nowi użytkownicy języków niskorezursowych będą mogli korzystać z tłumaczenia maszynowego, aby zacząć komunikować się w swoim języku z dnia na dzień, jest bliżej, podobnie jak dzień, w którym język łemkowski dołączy do grona tych wcześniej zagrożonych, ale teraz rewitalizowanych.

Podziękowania. Chciałbym podziękować mojemu koledze Ming Qian z Peraton Labs za zainspirowanie mnie do przeprowadzenia tego eksperymentu oraz Brian Stensrud z Soar Technology, Inc. za przedstawienie nas sobie, a także za jego zachętę.

Chciałbym również podziękować mojej przyjaciółce Corinna Caudill za jej zachętę i osobiste zainteresowanie projektem, a także za przedstawienie mnie Prezydent Carpatho-Rusyn Society Maryann Sivak z University of Pittsburgh, której chciałbym podziękować za możliwość zaprezentowania mojej pracy.

Chciałbym również podziękować Marii Silvestri z Fundacji Johna i Helen Timo za przeprowadzenie wywiadów z rodzimymi użytkownikami języka łemkowskiego i przekazanie transkryptów oraz moich tłumaczeń na potrzeby badań i rozwoju.

Chciałbym podziękować Achim Rabus z University of Freiburg i Yves Scherrer z University of Helsinki za ich zainteresowanie projektem i pomysły.

Chciałbym również podziękować Myhal’ Lŷžečko z blogu technologii języków mniejszościowych InterFyisa za jego wczesne zainteresowanie projektem i działania społeczne.

Chciałbym również podziękować współsynowi Zahoczewie Marko Łyszyk za jego zainteresowanie projektem i działania społeczne.

Na koniec chciałbym podziękować mojemu współautorowi i koledze z Antech Systems Inc. Tom Dobry za jego zachętę i wskazówki.

Referencje

1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Wersja online: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, ostatni dostęp 2022/02/11.

3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, ostatni dostęp 2022/02/11.

4. ^ Language support, https://cloud.google.com/translate/docs/languages, ostatni dostęp 2022/02/11.

5. ^ Select language, https://m.facebook.com/language.php, ostatni dostęp 2022/02/11.

6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. W: Olko, J., Wicherkiewicz, T., Borges, R. (red.), Integral Strategies for Language Revitalization, ss. 175–200. Wydanie pierwsze. Wydział „Artes Liberales”, Uniwersytet Warszawski, Warszawa (2016).

8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, ostatni dostęp 2022/02/11.

10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, ostatni dostęp 2022/02/11.

11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, ostatni dostęp 2022/02/11.

12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, ostatni dostęp 2022/02/11.

13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).

14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warszawa (2004).

17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).

19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. W: Lubotsky, A. (red.) Leiden Indo-European Etymological Dictionary Series, t. 4, Koninklijke Brill, Leiden (2008).

20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, str. 186–191. Association for Computational Linguistics, Bruksela (2018). https://aclanthology.org/W18-63

21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. W: Proceedings of the Ninth Workshop on Statistical Machine Translation, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. W: Dziennik Ustaw Nr 102, ss. 6560–6573. Rządowe Centrum Legislacji, Warszawa (2005).

23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. W: Harvard Ukrainian Studies, t. 1, nr 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.