Streszczenie
Neuronowe tłumaczenie maszynowe wspierane sztuczną inteligencją może wkrótce rewitalizować zagrożone języki, umożliwiając nowym użytkownikom komunikację w czasie rzeczywistym przy użyciu zdań mierzalnie bliższych normie literackiej niż te używane przez rodzimych użytkowników, i to od pierwszego dnia ich podróży odzyskiwania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne zasoby w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków świata, 98% zostało pominiętych z powodu braku korpusów: modele neuronowego tłumaczenia maszynowego uczą się na milionach słów tekstu dwujęzycznego, który po prostu nie istnieje dla większości języków i kosztuje ponad sto tysięcy dolarów amerykańskich na język, aby go zgromadzić.
Dla języków o ograniczonych zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej efektywne: transfer uczenia się, który umożliwia językom o mniejszych zasobach korzystanie z osiągnięć języków o większych zasobach. W tym eksperymencie usługa tłumaczenia neuronowego Google z angielskiego na polski została połączona z moim klasycznym silnikiem opartym na regułach, aby tłumaczyć z angielskiego na zagrożony, niskorezursowy, wschodniosłowiański język łemkowski. System osiągnął wynik jakości BLEU (bilingual evaluation understudy) 6,28, kilkakrotnie lepszy niż usługi Google Translate dla tłumaczenia z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Wreszcie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem internetowym www.LemkoTran.com, aby wspierać nowych użytkowników w rewitalizacji ich języka.
Nowi użytkownicy są kluczowi dla rewitalizacji języka, a możliwość „powiedzenia tego poprawnie” w języku łemkowskim jest teraz w zasięgu ich ręki.
Słowa kluczowe: AI zorientowana na człowieka, rewitalizacja języka, łemkowski.
Proszę cytować jako: Orynycz, P. (2022). Powiedz to poprawnie: Neuronowe tłumaczenie maszynowe AI wspiera nowych użytkowników w rewitalizacji języka łemkowskiego. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
✅ Ta wersja publikacji została zaakceptowana do publikacji po recenzji, ale nie jest wersją ostateczną i nie odzwierciedla poprawek wprowadzonych po akceptacji ani żadnych korekt. Wersja ostateczna jest dostępna online pod adresem https://doi.org/10.1007/978-3-031-05643-7_37. Korzystanie z tej zaakceptowanej wersji podlega warunkom wydawcy dotyczącym zaakceptowanych manuskryptów: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Spis treści
1 Wprowadzenie
1.1. Problemy
Ten eksperyment ma na celu przyczynienie się na poziomie lokalnym do globalnego wyzwania utraty języków, która może następować w tempie jednego dziennie, przy czym zaledwie jeden na dziesięć języków ma szansę przetrwać [1, s. 1329]. W momencie publikacji SIL International’s Ethnologue używa rozszerzonej skali zakłóceń międzypokoleniowych Lewisa i Simonsa z 2010 roku, aby oszacować, że 3018 języków jest zagrożonych [2], co stanowi 43% z 7001 indywidualnych żywych języków policzonych w momencie publikacji w standardzie Międzynarodowej Organizacji Normalizacyjnej ISO 639-3 [3]. Tymczasem Google Translate obsługuje tylko 108 [4], a Facebook 112 [5], co jest początkiem. Niemniej jednak jeden język mniej jest teraz niedostatecznie obsługiwany, ponieważ owoc tego eksperymentu został wdrożony na serwer internetowy jako publiczna usługa tłumaczeniowa.
Nowe technologie sztucznej inteligencji kuszą obietnicą pomocy, która natychmiast kompensuje utratę języka poprzez interakcję człowiek-komputer. W moim poprzednim eksperymencie silniki neuronowe nowej generacji osiągnęły wyższe wyniki jakości tłumaczenia z rosyjskiego i polskiego na angielski niż kontrola ludzka [6, s. 9]. Tymczasem Facebook i Google1 zainwestowały ogromne zasoby w dostarczanie lepszych niż ludzkie automatycznych systemów tłumaczeniowych bez kosztów dla konsumenta.
1 Ujawnienie: pracuję jako płatny lingwista rosyjski, polski i ukraiński oraz specjalista kontroli jakości tłumaczeń dla projektu Google Translate; siedziba główna znajduje się w San Francisco.
Nadludzka sztuczna inteligencja nie jest tania: trenowanie neuronowych modeli językowych wymaga dwujęzycznych korpusów z liczbą słów w setkach tysięcy, a idealnie w milionach, których przetłumaczenie kosztowałoby setki tysięcy dolarów, sumy przekraczające możliwości większości społeczności języków o niskich zasobach. Na szczęście ten eksperyment pokazuje, że istnieją bardziej zaradne i skuteczne sposoby odpowiedzi na wyzwanie tworzenia pomocy tłumaczeniowych do rewitalizacji zagrożonych języków w środowiskach o niskich zasobach.
1.2 Dotychczasowe prace
Zbudowałem pierwszy na świecie system tłumaczenia maszynowego z łemkowskiego na angielski i udostępniłem go publicznie. Jego obiektywne wyniki jakości tłumaczenia ulegają poprawie: silnik osiągnął wynik bilingual evaluation understudy (BLEU) 14,57 latem 2021 roku, jak przedstawiono profesjonalistom na konferencji Interservice/Industry Training, Simulation and Education Conference Stowarzyszenia Przemysłu Obronnego Narodowego i opublikowano w jej materiałach [6]. Dla porównania, jako tłumacz ludzki pracujący w warunkach terenowych, odcięty od świata zewnętrznego, osiągnąłem wynik BLEU 28,66. Jesienią 2021 roku silnik osiągnął BLEU 15,74, jak zgłoszono lingwistom, akademikom i szerszej społeczności podczas wydarzenia prezentacyjnego organizowanego przez Uniwersytet w Pittsburghu.2
2 Ujawnienie: wydarzenie było sponsorowane przez Carpatho-Rusyn Society (Pensylwania), a Uniwersytet w Pittsburghu zapłacił mi za prezentację.
1.3 Badany system
Łemkowski jest językiem zdecydowanie do poważnie zagrożonym [6, s. 3, 7, ss. 177-178], o niskich zasobach [8], oficjalnie uznanym językiem mniejszościowym [9], prawdopodobnie rodzimym dla transgranicznych wyżyn na południe od obszarów metropolitalnych Krakowa, Tarnowa i Rzeszowa; historyczne izoglosy demarkacyjne będą, miejmy nadzieję, tematem przyszłej pracy. Główny Urząd Statystyczny Polski naliczył 6 279 mieszkańców, dla których język łemkowski był językiem „zwykle używanym w domu” (nawet jeśli obok polskiego) w 2011 roku [10, s. 3], co stanowi wzrost o 12% w porównaniu do 5 605 osób, dla których łemkowski był „językiem najczęściej używanym w domu” w 2002 roku [11, s. 6, 12, s. 7]. W momencie publikacji wyniki nowego spisu są w trakcie przeliczania.
Łemkowski można sklasyfikować jako język wschodniosłowiański, ponieważ spełnia zwyczajowe kryteria genetycznych cech strukturalnych, z których najważniejszą jest pleofonia [13, s. 20], zgodnie z którą zakłada się, że samogłoska powstała w protosłowiańskich sekwencjach spółgłoski C po której następuje samogłoska średnia lub niska V (*e, lub *o, z którą *a się połączyła [14, s. 366]), po której następuje płynna R (to jest *l lub *r), po której następuje kolejna spółgłoska C, to znaczy, CVRC > CVRVC. Dla ilustracji, porównaj staroangielskie słowo na „topnieć”, meltan (CVRC) [15, s. 718] z jego domniemanym łemkowskim odpowiednikiem mołódyj [16, s. 92, 17, s. 150] (CVRC), oznaczającym „młody”. Inne wschodniosłowiańskie odpowiedniki to ukraińskie mołodýj i rosyjskie mołodój [17], oba wykazujące samogłoskę po spółgłosce płynnej (CVRVC). Tymczasem języki zachodniosłowiańskie nie mają samogłoski przed spółgłoską płynną; porównaj polskie młody i słowackie mladý (oba CRVC) [17]. W dalszej perspektywie, pokrewieństwo zostało zaproponowane dla innych słów tłumaczonych jako „łagodny”, w tym sanskryckiego mṛdú (CRC) [18, s. 830] i łacińskiego mollis (CVRC jeśli od *moldvis) [15, 17, 19, s. 323].
Jak dobrze łemkowski spełnia zwyczajowe, nowoczesne ukraińskie kryteria genetycznych cech strukturalnych nie było oceniane w tym eksperymencie. Jednak podobieństwo między łemkowskim a standardowym ukraińskim zostało skwantyfikowane po raz pierwszy w druku, o którym jestem świadomy. Poniżej mój silnik łemkowski osiągnął wynik BLEU 6,28, prawie trzy razy wyższy od wyniku Google Translate dla ukraińskiego wynoszącego BLEU 2,17. Dalsze eksperymenty mogłyby zostać przeprowadzone w celu kwantyfikacji podobieństwa między łemkowskim, standardowym ukraińskim, polskim i rusynem skodyfikowanym na Słowacji, a także świeżego spojrzenia na klasyfikację typologiczną łemkowskiego.
Ilość i jakość zasobów ulegają poprawie, podobnie jak zaradność wspierana przez technologię. Wszystkie znane korpusy dwujęzyczne, obejmujące mniej niż siedemdziesiąt tysięcy słów łemkowskich, zostały zmobilizowane do tego eksperymentu. Oczyszczam dwujęzyczny korpus transkrypcji wywiadów przeprowadzonych z rodzimymi użytkownikami w Polsce i moich tłumaczeń na angielski, które klient ze Stanów Zjednoczonych zapłacił mi za wykonanie i pozwolił mi używać. Kompiluję również korpusy jednojęzyczne, które w momencie publikacji liczą 534 512 słów.
1.4 Hipoteza
Na podstawie mojego subiektywnego wrażenia jako profesjonalnego tłumacza, że rodzimi użytkownicy łemkowskiego wywiadowani w Polsce częściej używali słów z oczywistymi polskimi kognatami niż standardowymi ukraińskimi, postawiłem hipotezę, że przy wszystkich innych równych warunkach maszyna może zostać skonfigurowana do tłumaczenia na łemkowski z angielskiego i osiągnąć obiektywne wyniki jakości BLEU wyższe niż te z usług ukraińskich i rosyjskich Google Translate.
1.5 Przewidywania
System tłumaczenia łemkowskiego. Przewidywałem, że wspomniany system tłumaczeniowy osiągnie wynik BLEU 15 tłumacząc na łemkowski z angielskiego względem korpusu dwujęzycznego.
Google Translate.
Usługa z angielskiego na ukraiński. Przewidywałem, że usługa Google Translate z angielskiego na ukraiński osiągnie wynik BLEU 10 względem korpusu dwujęzycznego.
Usługa z angielskiego na rosyjski. Przewidywałem, że usługa Google Translate z angielskiego na rosyjski osiągnie wynik BLEU 1 względem korpusu dwujęzycznego.
1.6 Metody i uzasadnienie
W interesie szybkości, oszczędności zasobów i wytrzymałości laptop odrzucony jako przestarzały przez mojego pracodawcę został skonfigurowany do tłumaczenia na łemkowski i wykonywania wywołań do usługi Google Translate Google Cloud Platform, a także skonfigurowany do oceny wspomnianych tłumaczeń przy użyciu branżowego standardu metryki BLEU.
1.7 Główne wyniki
System tłumaczenia z angielskiego na łemkowski osiągnął skumulowany wynik BLEU 6.28431824990417. Tymczasem usługa ukraińska Google Translate osiągnęła wynik BLEU 2.16830846776652, jej usługa rosyjska BLEU 1.10424105952048, a kontrola polskiego transliterowanego na alfabet cyrylicki BLEU 1.70036447680114.
2 Materiały i metody
Powyższa hipoteza została przetestowana przez obliczenie wyników jakości BLEU dla każdego systemu tłumaczeniowego skonfigurowanego w sposób szczegółowo opisany poniżej.
2.1 Konfiguracja
Sprzęt. Eksperyment został przeprowadzony na laptopie HP Elitebook 850 G2 z procesorem Core i7-5600U 2,6 GHz i 16 gigabajtami pamięci o dostępie swobodnym. Został odrzucony przez mojego pracodawcę jako przestarzały i wystawiony na sprzedaż za 450 USD w momencie publikacji.
Konfiguracja. W menu podstawowego systemu wejścia/wyjścia (BIOS) urządzenie zostało skonfigurowane w celu włączenia technologii wirtualizacji (VTx).
System operacyjny. Windows 10 Professional 64 bit został zainstalowany na gołym metalu. Upewniono się, że funkcje Windows Virtual Machine Platform i Windows Subsystem for Linux były włączone. Następnie zainstalowano WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) dostępne od Microsoft pod adresem https://aka.ms/wsl2kernel.
Oprogramowanie. Instalator Docker Desktop dla Windows w wersji 4.4.3 (73365) został pobrany z https://www.docker.com/get-started i uruchomiony z opcją Install required Windows components for WSL 2 selected.
Pakiety. Eksperyment zależał od poniższych pakietów z Python Package Index.
SacreBLEU. Wersja 2.0.0 została zainstalowana przy użyciu pakietu Python udokumentowanego pod następującym uniwersalnym lokalizatorem zasobów (URL):https://pypi.org/project/sacrebleu/2.0.0/
Biblioteka klienta Google Cloud Translation API. Wersja 2.0.1 została zainstalowana przy użyciu pakietu Python udokumentowanego pod uniwersalnym lokalizatorem zasobów (URL) https://pypi.org/project/google-cloud-translate/2.0.1/
Powyższe zależności zostały określone w pliku wymagań w następujący sposób:google-cloud-translate==2.0.1sacrebleu==2.0.0
Kontener.
Budowa. Eksperyment został uruchomiony w kontenerze Docker z najnowszą wersją języka programowania Python, którą w tym czasie była wersja 3.10.2, działającą na systemie operacyjnym Debian Bullseye 11 Linux architektury AMD64, o skróconym skrócie Secure Hash Algorithm 2 bcb158d5ddb6, dostępnym za pomocą następującego polecenia: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Środowisko uruchomieniowe. Kontener został skonfigurowany do zapisywania surowych plików danych eksperymentalnych do lokalnego woluminu bind mounted.
Ocena jakości tłumaczenia.
Wyniki jakości tłumaczenia zostały obliczone zgodnie z metryką BLEU przy użyciu wersji 2.0.0 narzędzia SacreBLEU wynalezionego przez Posta [20].
Wrażliwość na wielkość liter. Ocena została przeprowadzona w sposób wrażliwy na wielkość liter.
Tokenizacja. Segmenty zostały tokenizowane przy użyciu wersji 13a standardowej procedury tokenizacji wewnętrznej skryptu metrycznego Workshop on Statistical Machine Translation.
Metoda wygładzania. Zastosowano domyślnie technikę wygładzania opracowaną w National Institute of Standards and Technology przez pracowników Rządu Federalnego Stanów Zjednoczonych dla ich zestawu narzędzi BLEU Multimodal Information Group, będącą trzecią techniką opisaną przez Chen i Cherry [21, s. 363].
Sygnatura. Powyższe ustawienia wygenerowały następującą sygnaturę:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibracja. Skonfigurowana jak powyżej, maszyna produkuje następujące wyniki:
| Źródło angielskie | Everything was there. | |
| Odniesienie łemkowskie i transliteracja | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hipoteza i transliteracja | Вшытко там было. | Všŷtko tam bŷlo. |
| Wynik | BLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4) | |
Wyjaśnienie. Segment hipotezy był identyczny z segmentem odniesienia i maszyna osiągnęła doskonały wynik BLEU 100.
| Źródło angielskie | I don't remember what year. | |
| Odniesienie łemkowskie i transliteracja | Не памятам в котрым році. | Ne pamjatam v kotrŷm roci. |
Lemkotran.com hipoteza i transliteracja | Ні памятам, в котрым році. | Ni pamjatam, v kotrŷm roci. |
| Wynik | BLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6) | |
Wyjaśnienie. Hipoteza różniła się od odniesienia o dwa znaki. Maszyna błędnie przetłumaczyła cząstkę negującą czasownik, używając słowa oznaczającego „nie” (ni) zamiast oczekiwanego słowa „nie” (ne). To zostało już w dużej mierze naprawione. Maszyna również dodała przecinek po
Kontrola. Ponieważ korpus opiera się na wywiadach przeprowadzonych w Polsce, tłumaczenia na język polski zostały użyte jako kontrola. Zostały one transliterowane na alfabet cyrylicki poprzez odwrócenie zasad transliteracji nazw łemkowskich ustanowionych przez Ministerstwo Spraw Wewnętrznych i Administracji Polski [22, s. 6564]. Polskie samogłoski nosowe zostały rozłożone na samogłoskę plus spółgłoskę nosową, z wyjątkiem pozycji przed aproksymantami, gdzie zostały bezpośrednio zdenazalizowane. Na końcu słowa przednia samogłoska nosowa /ę/ została po prostu zdenazalizowana, a tylna /ą/ została transliterowana tak, jakby była poprzedzona spółgłoską zębową.
3 Wyniki
Silnik dostępny publicznie pod adresem www.LemkoTran.com zajął pierwsze miejsce z łącznym wynikiem jakości tłumaczenia BLEU 6,28, prawie trzy razy wyższym niż drugi w kolejności Google Translate z usługą angielsko-ukraińską (BLEU 2,17). Następna była jego usługa angielsko-polska (BLEU 1,70), z usługą angielsko-rosyjską na ostatnim miejscu (BLEU 1,10).

3.1 Wyniki według usługi tłumaczenia maszynowego
Kontrola. Po transliteracji na alfabet cyrylicki, tłumaczenia Google Translate na standardowy język polski osiągnęły wynik BLEU na poziomie korpusu 1,70. Próbki jego wydajności są następujące:
| Źródło angielskie | We had still been in Izby, right. | |
| Odniesienie łemkowskie i transliteracja | То мы іщы были в Ізбах, так. | To mŷ iščŷ bŷly v Izbach, tak. |
| Hipoteza polska i transliteracja | Билісьми єще в Ізбах, так. | Byliśmy jeszcze w Izbach, tak. |
| Wynik | BLEU = 46.20 | |
| Źródło angielskie | And that's what it's all about. | |
| Odniesienie łemkowskie i transliteracja | І о то ходит. | I o to chodyt. |
| Hipoteza polska i transliteracja | І о то власьнє ходзі. | I o to właśnie chodzi. |
| Wynik | BLEU = 32.47 | |
| Źródło angielskie | And that's what it's all about. | |
| Odniesienie łemkowskie i transliteracja | Так мі повіл. | Tak mi povil. |
| Hipoteza polska i transliteracja | Так мі повєдзял. | Tak mi powiedział. |
| Wynik | BLEU = 35.36 | |
Hybrydowy silnik angielsko-łemkowski. Silnik dostępny bezpłatnie publicznie pod adresem URL www.LemkoTran.com osiągnął wynik BLEU na poziomie korpusu 6,28.
| Źródło angielskie | Everything was there. | |
| Odniesienie łemkowskie i transliteracja | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hipoteza i transliteracja | Вшытко там было. | Všŷtko tam bŷlo. |
| Wynik | BLEU = 100.00 | |
| Źródło angielskie | But that officer took that medal and said, | |
| Odniesienie łemkowskie i transliteracja | Але тот офіцер взял тот медаль і повідат: | Ale tot oficer vzial tot medal' i povidat: |
Lemkotran.com hipoteza i transliteracja | Але тот офіцер взял тот медаль і повіл: | Ale tot oficer vzial tot medal' i povil: |
| Wynik | BLEU = 75.06 | |
| Źródło angielskie | That's what he said to me. | |
| Odniesienie łemkowskie i transliteracja | Так мі повіл. | Tak mi povil. |
Lemkotran.com hipoteza i transliteracja | Так мі повіл. | Tak mi povil. |
| Wynik | BLEU = 100.00 | |
Ukraiński. Tłumaczenia Google Translate na standardowy język ukraiński osiągnęły wynik BLEU na poziomie korpusu 2,35.
| Źródło angielskie | Where and when? | |
| Odniesienie łemkowskie i transliteracja | Де і коли? | De i koly? |
| Hipoteza ukraińska i transliteracja | Де і коли? | De i koly? |
| Wynik | BLEU = 100.00 | |
| Źródło angielskie | We were there for three months. | |
| Odniesienie łemkowskie i transliteracja | Там зме были три місяці. | Tam zme bŷly try misiaci. |
| Hipoteza ukraińska i transliteracja | Ми були там три місяці. | My buly tam try misjaci. |
| Wynik | BLEU = 30.21 | |
| Źródło angielskie | Well, here to the west. | |
| Odniesienie łemkowskie i transliteracja | Но то ту на захід. | No to tu na zachid. |
| Hipoteza ukraińska i transliteracja | Ну, тут на захід. | Nu, tut na zachid. |
| Wynik | BLEU = 30.21 | |
Rosyjski. Usługa Google Translate z angielskiego na rosyjski osiągnęła wynik BLEU na poziomie korpusu 1,10.
| Źródło angielskie | Nobody knew. | |
| Odniesienie łemkowskie i transliteracja | Нихто не знал. | Nychto ne znal. |
| Hipoteza rosyjska i transliteracja | Никто не знал. | Nikto ne znal. |
| Wynik | BLEU = 59.46 | |
| Źródło angielskie | What did they expel us for? | |
| Odniesienie łemkowskie i transliteracja | За што нас выгнали? | Za što nas vŷhnaly? |
| Hipoteza rosyjska i transliteracja | За что нас выгнали? | Za čto nas vygnali? |
| Wynik | BLEU = 42.73 | |
| Źródło angielskie | Brother went off to war. | |
| Odniesienie łemkowskie i transliteracja | Брат пішол на войну. | Brat pišol na vojnu. |
| Hipoteza rosyjska i transliteracja | Брат ушел на войну. | Brat ušel na vojnu. |
| Wynik | BLEU = 42.73 | |
4 Dyskusja
Wynik BLEU na poziomie korpusu systemu tłumaczenia łemkowskiego wynoszący 6,28 wskazuje, że choć wiele jeszcze pozostaje do zrobienia, sprawy idą we właściwym kierunku. Wynik standardowego rosyjskiego BLEU 1,10 wskazuje, że łemkowski jest mniej podobny do rosyjskiego niż do polskiego (BLEU 1,70). Być może użycie ortografii przedrewolucyjnej mogłoby podnieść wynik rosyjskiego, ale byłby to kosztowny eksperyment o niewielkich oczywistych korzyściach.
Transliterowany wynik podobieństwa kontrolnego standardowego polskiego BLEU 1,70 wskazuje na mniejszą interferencję języka dominującego w Polsce niż można by oczekiwać. Interesujące byłoby przeprojektowanie eksperymentu, w którym zastosowano by kilka obliczeniowo niedrogich i oczywistych korespondencji dźwiękowych (na przykład denazalizacja *ę do /ja/ i *ǫ do /u/, retrakcja *i do /y/ oraz zmiana *g na /h/ [23]) do polskiego, aby sprawdzić, czy uzyskałby wtedy wyższy wynik niż standardowy ukraiński.
Podsumowując, łemkowski został zsyntetyzowany w laboratorium, a moc jego wytwarzania została oddana w ręce użytkowników zarówno nowych, jak i rodzimych. Po gruntownej przebudowie silnika i zwiększeniu słownictwa, następnym krokiem jest obiektywne zmierzenie, a jeśli to możliwe, uzyskanie subiektywnej oceny użytkowników jakości syntetycznego łemkowskiego w porównaniu z tym produkowanym przez rodzimych użytkowników. Dzień, w którym nowi użytkownicy języków o niskich zasobach będą mogli używać tłumaczenia maszynowego do rozpoczęcia komunikacji w swoim języku z dnia na dzień, jest bliższy, podobnie jak dzień, w którym język łemkowski dołączy do grona tych wcześniej zagrożonych, ale teraz zrewitalizowanych.
Podziękowania. Chciałbym podziękować mojemu koledze Ming Qian z Peraton Labs za zainspirowanie mnie do przeprowadzenia tego eksperymentu oraz Brian Stensrud z Soar Technology, Inc. za przedstawienie nas sobie, a także za jego zachętę.
Chciałbym również podziękować mojej przyjaciółce Corinna Caudill za jej zachętę i osobiste zainteresowanie projektem, a także za przedstawienie mnie Prezydent Carpatho-Rusyn Society Maryann Sivak z University of Pittsburgh, której chciałbym podziękować za możliwość zaprezentowania mojej pracy.
Chciałbym również podziękować Maria Silvestri z John and Helen Timo Foundation za przeprowadzenie wywiadów z rodzimymi użytkownikami łemkowskiego i przekazanie transkrypcji oraz moich tłumaczeń na potrzeby badań i rozwoju.
Chciałbym podziękować Achim Rabus z University of Freiburg i Yves Scherrer z University of Helsinki za ich zainteresowanie projektem i pomysły.
Chciałbym również podziękować Myhal’ Lŷžečko z blogu technologii języków mniejszościowych InterFyisa za jego wczesne zainteresowanie projektem i działania społeczne.
Chciałbym również podziękować współsynowi Zahoczewie Marko Łyszyk za jego zainteresowanie projektem i działania społeczne.
Na koniec chciałbym podziękować mojemu współautorowi i koledze z Antech Systems Inc. Tom Dobry za jego zachętę i wskazówki.
Referencje
1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Wersja online: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, ostatni dostęp 2022/02/11.
3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, ostatni dostęp 2022/02/11.
4. ^ Language support, https://cloud.google.com/translate/docs/languages, ostatni dostęp 2022/02/11.
5. ^ Select language, https://m.facebook.com/language.php, ostatni dostęp 2022/02/11.
6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integral Strategies for Language Revitalization, pp. 175–200. First edition. Faculty of „Artes Liberales”, University of Warsaw, Warsaw (2016).
8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, ostatni dostęp 2022/02/11.
10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, ostatni dostęp 2022/02/11.
11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, ostatni dostęp 2022/02/11.
12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, ostatni dostęp 2022/02/11.
13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).
14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).
15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.
16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186–191. Association for Computational Linguistics, Brussels (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: Systematyczne porównanie technik wygładzania dla BLEU na poziomie zdań. W: Materiały z Dziewiątych Warsztatów Statystycznego Tłumaczenia Maszynowego, str. 362–367. Stowarzyszenie Lingwistyki Komputerowej, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. W: Dziennik Ustaw Nr 102, str. 6560–6573. Rządowe Centrum Legislacji, Warszawa (2005).
23. ^ Shevelov, G.: O chronologii H i nowego G w języku ukraińskim. W: Harvard Ukrainian Studies, tom 1, nr 2, str. 137–152. Instytut Badań Ukraińskich Uniwersytetu Harvarda, Cambridge (1977). https://www.jstor.org/stable/40999942

Dodaj komentarz