This site is undergoing a full revamp. Layout may be temporarily broken.

Tak, mówię… Tłumaczenie maszynowe AI w szkoleniu wielojęzycznym (2021)

Proszę cytować:

Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

Streszczenie

Szybko współdzielone i wspólnie wykorzystywane szkolenia między partnerami koalicyjnymi muszą być dostosowane językowo i kulturowo (czyli zlokalizowane) do języków sojuszników spoza anglojęzycznego świata, reprezentujących podmioty pierwszej linii o ograniczonej lub potencjalnie żadnej znajomości języka angielskiego. Tradycyjnie lokalizacja była procesem czasochłonnym i pracochłonnym, gdzie ekspert potrzebował ponad dwóch miesięcy na przetłumaczenie książki średniej wielkości. Tymczasem ćwiczenia szkoleniowe muszą odpowiadać na całkowite terminy rozwoju liczące dni i tygodnie, a nie miesiące i lata, aby reagować na zmieniające się realia świata operacyjnego. W tym kontekście tradycyjna lokalizacja staje się głównym wąskim gardłem dla przedsięwzięć koalicyjnych. W szybko rozwijających się sytuacjach sojusznicy po prostu nie mogą czekać miesiącami i latami na szkolenie potrzebne dziś wieczorem lub na przyszłotygodniową misję w językach łatwo zrozumiałych na pierwszej linii – czyli na realizację długo oczekiwanego marzenia o lokalnie dostosowanym szkoleniu odpowiadającym potrzebom w terenie.

Wkracza tu nowa technologia sztucznej inteligencji w postaci tłumaczenia maszynowego opartego na sieciach neuronowych, która może wykonać w kilka minut to, co doświadczonym lingwistom zajmuje godzinę, czyniąc wykonalnym wielojęzyczne wdrożenie w skali koalicji w ciągu dni i tygodni, z uwzględnieniem stale rosnącej złożoności. Jest to możliwe dzięki uczeniu maszynowemu, czyli trenowaniu sztucznych rekurencyjnych sieci neuronowych do tłumaczenia z jednego języka naturalnego na drugi.

Zbudowaliśmy silniki oparte na sztucznej inteligencji, zmierzyliśmy czas tłumaczenia materiałów szkoleniowych NATO i zmierzyliśmy ich dokładność za pomocą metryki BLEU. Nasz silnik tłumaczył z rosyjskiego 1.169,51% szybciej i 58,37% dokładniej niż nasz profesjonalny lingwista użyty jako kontrola. Nasz polski silnik neuronowy był o 17,29% dokładniejszy i o 488,45% szybszy niż człowiek. Nasze silniki tłumaczące na język łemkowski są pierwszymi na świecie i uzyskały przyzwoity wynik BLEU 14,57. Tymczasem wykonaliśmy powyższe na niedrogim laptopie w odizolowanym, kontrolowanym środowisku odciętym od świata zewnętrznego.

Wprowadzenie

Problem

Usługi tłumaczeniowe online działają do momentu, gdy trzeba tłumaczyć w tajemnicy lub z języka nienależącego do górnych 2% pod względem zasobów. Korzystanie nawet z najbezpieczniejszych usług tłumaczeniowych online lub w chmurze oznacza dzielenie się informacjami z osobą trzecią, co narusza większość komercyjnych umów o zachowaniu poufności, nie wspominając o wymogach przemysłu obronnego. Ponadto, wiodąca platforma tłumaczeniowa online obsługuje tylko 109 języków (Google, 2021), co stanowi mniej niż 2% z 7.139 języków używanych dziś na świecie (Eberhard, Simons, & Fennig, 2021). W obliczu nieodłącznego ryzyka związanego z zewnętrznymi dostawcami usług w chmurze, wielu zwraca się do zweryfikowanych lingwistów, którzy w najlepszym razie mogą przetłumaczyć książkę miesięcznie, a w najgorszym stanowią dożywotnie zagrożenie nieuprawnionego ujawnienia. Aby dać wielojęzycznym przedsiębiorstwom i organizacjom więcej opcji, postanowiliśmy rozwiązać problem wykorzystania sztucznej inteligencji do szybkiego, dokładnego i dyskretnego tłumaczenia materiałów z języków o wysokich, średnich i niskich zasobach na odizolowanych, niedrogich laptopach średniej klasy odłączonych od internetu i świata zewnętrznego.

Dotychczasowe rozwiązania

Podczas gdy podstawy tłumaczenia maszynowego zostały położone w Bagdadzie al-Kindīego ponad tysiąc lat temu (DuPont, 2018; zobacz także al-Kindī, 2002), prawie cały spektakularny, widoczny postęp miał miejsce w Dolinie Krzemowej w ciągu ostatnich pięciu lat. Główny przełom nastąpił w Google (Lewis-Kraus, 2016), a Facebook dołączył teraz do klubu tłumaczenia maszynowego opartego na sieciach neuronowych (Ott, et al., 2019). Opieraliśmy się na pracy ich silnika FAIRseq, dla którego Sławomir Dadas udostępnił doskonały model polsko-angielski (Dadas, 2019). Bazując na pracy Pana Dadasa, stworzyliśmy hybrydowe silniki neuronowe/oparte na regułach/słownikowe, które tłumaczą z języka łemkowskiego na angielski i odwrotnie. Pomysł zastosowania transfer learningu do przetwarzania języka naturalnego (NLP) dla języka rusińskiego był omawiany z naszymi szanownymi kolegami Yvesem Scherrerem i Achimem Rabusem, którzy jako pierwsi opublikowali wyniki w recenzowanym czasopiśmie i uprzejmie wykorzystali okazję, aby wspomnieć o hybrydowym neuronowo-regułowym silniku tłumaczenia maszynowego języka łemkowskiego Petra Orynycza (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), który jest operacyjny i dostępny bezpłatnie do użytku publicznego pod adresem www.lemkotran.com od marca 2019 roku, a jego moduł transliteracji NLP został udostępniony do użytku publicznego we wrześniu 2017 roku.

Szerszy system

Języki o wysokich, średnich i niskich zasobach

Pary językowe są klasyfikowane w literaturze naukowej jako wysokozasobowe, średniozasobowe i niskozasobowe, w zależności od ilości dostępnych technologii i zbiorów danych w stosunku do ich międzynarodowego znaczenia (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). Pary wysokozasobowe obejmują czesko-angielską (Kocmi, 2020, p. 171), rosyjsko-angielską, niemiecko-angielską (Ng, et al., 2019, p. 314) i chińsko-angielską (Kocmi & Bojar, 2019, pp. 234–235). Polsko-angielska jest parą średniozasobową (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Pary niskozasobowe obejmują gudżaracko-angielską, kazachsko-angielską (Kocmi & Bojar, p. 234), inuktitut-angielską (Kocmi, p. 171) i łemkowsko-angielską (Scherrer & Rabus, 2019, p. 85). Ponieważ trenowanie modeli językowych sztucznej inteligencji wymaga ogromnych ilości danych dwujęzycznych, języki o wyższych zasobach generalnie cieszą się dostępnością silników tłumaczenia neuronowego. Tymczasem, ze względu na brak danych treningowych do uczenia maszynowego, silniki neuronowe są rzadsze dla języków o niższych zasobach, które często są lepiej obsługiwane przez silniki tłumaczenia statystycznego (SMT) poprzedniej generacji.

Język wysokozasobowy w eksperymencie: rosyjski

Rosyjski jest używany jako pierwszy język przez ponad 168 milionów osób, a jako dodatkowy język przez kolejne 114 milionów (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Automatyzacja jego tłumaczenia na angielski była świętym Graalem powojennych wysiłków w dziedzinie tłumaczenia maszynowego. Jako jeden z oficjalnych języków Organizacji Narodów Zjednoczonych, ogromne ilości dwujęzycznego tekstu rosyjsko-angielskiego są dostępne na liberalnej licencji (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).

Język średniozasobowy w eksperymencie: polski

Polski jest językiem zachodniosłowiańskim używanym przez około 38 milionów osób w dzisiejszej Polsce, liczba ta ma spaść częściowo z powodu trwającej w momencie publikacji pandemii (Associated Press, 2021). Kolejne 10 milionów mówi po polsku w pewnym stopniu poza granicami kraju (Jassem, 2003, p. 103). Jako jeden z oficjalnych języków Unii Europejskiej, duże ilości dwujęzycznego tekstu są dostępne do trenowania modeli tłumaczenia sztucznej inteligencji, w tym 22.630 dokumentów Parlamentu Europejskiego (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).

Język niskozasobowy w eksperymencie: łemkowski

Łemkowski jest językiem niskozasobowym (Scherrer & Rabus, 2019, p. 85), który spełnia tradycyjne kryteria klasyfikacji jako wschodniosłowiański. Na przykład, łemkowski wykazuje wschodniosłowiańską pleofonie, to znaczy, wynik prasłowiańskich sekwencji „ToRT” to ToRoT (Fortson IV, 2004, pp. 371-372), jak w łemkowskim horodyty 'grodzić, ogrodzić’ (Horoszczak, 2004, p. 45), jak również w standardowym ukraińskim horodyty, rusińskim horodyty i rosyjskim gorodit’ (Kerča, 2007, p. 176). Tymczasem porównaj polski (język zachodniosłowiański) z -ro- w grodzić, ale chorwacki (język południowosłowiański) z -ra- w graditi, 'budować’. Dalej, jest angielski z -ar- w yard i garden, awestyjski (starożytny irański) z -ǝrǝ- w gǝrǝδō 'jaskinia’, i sanskryt (starożytny indyjski) z -ṛ- w gṛhás 'dom’ (Vasmer, p. 1443).

Podczas gdy dokładna klasyfikacja języka łemkowskiego i jego status względem standardowego ukraińskiego i skodyfikowanego rusińskiego jest przedmiotem kontrowersji (Rabus & Scherrer, 2017), tak wysokie wyniki naszego silnika łemkowsko-angielskiego bez odwoływania się do zasobów standardowego ukraińskiego lub rusińskiego skodyfikowanego na Słowacji mogłyby wspierać wniosek Watrala (2015), że łemkowski jest pełnoprawnym językiem samym w sobie, a nie dialektem jakiegokolwiek innego języka. Zachęceni rosnącymi obiektywnymi wynikami jakości, zdecydowaliśmy się priorytetowo potraktować transfer learning z języka polskiego ze względu na jego bezpośredni zwrot z inwestycji w zakresie dokładności tłumaczenia łemkowskiego, naszej najwyższej wartości. Możliwe, że wyniki jakościowe zostały podwyższone przez interferencję z obserwowanego języka hybrydowego, w którym łemkowskie końcówki gramatyczne są retrofitowane do standardowych polskich słów (Watral, 2016, p. 242).

Według spisu ludności w Polsce w 2011 roku odnotowano 6279 osób mówiących w domu po łemkowsku, w porównaniu z 5605 w 2002 roku (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, str. 7), przy czym w momencie publikacji trwał nowy spis. Określenie, ilu spośród 24 539 mieszkańców Polski, którzy w 2011 roku deklarowali używanie języka ukraińskiego w domu, lub 626 mówiących „po rusku” (język ruski) z innymi członkami gospodarstwa domowego (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, str. 7) mogło być użytkownikami języka łemkowskiego, wykracza poza zakres niniejszego opracowania. Państwowa Służba Statystyki Ukrainy odnotowała 672 Łemków w granicach kraju (Deržavna služba statystyky Ukraïny, 2001). W skali zagrożenia języków ONZ od 0 do 5, gdzie 0 oznacza wymarły, a 5 „bezpieczny” (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, str. 7-8), język łemkowski zbliża się do poziomu 2, czyli jest poważnie zagrożony: naturalna międzypokoleniowa transmisja języka jest coraz rzadsza, a młodszych użytkowników jest coraz mniej (Duć-Fajfer, 2016, str. 178). Pojawiają się jednak oznaki poprawy, dzięki coraz częstszemu wykorzystywaniu przepisów chroniących i promujących używanie języków mniejszościowych w edukacji, mediach, publikacjach, oznakowaniu dróg i nauce (Duć-Fajfer, 2016, str. 178-179).

Sytuacja zasobów również się poprawia. Petro Orynycz skompilował i wyrównał dwujęzyczny korpus łemkowsko-angielski zawierający 68.599 słów źródłowych wraz z ich tłumaczeniami na angielski (jedyny istniejący tekst równoległy, o którym wiemy). Korpus został zestawiony przy użyciu wywiadów przeprowadzonych w języku łemkowskim przez Fundację Johna i Helen Timo ze Stanów Zjednoczonych, która zleciła Panu Orynyczowi ich transkrypcję i tłumaczenie, a także zezwoliła mu na wykorzystanie tej pracy w jego badaniach naukowych i rozwoju. Gromadzi on również jednojęzyczny korpus łemkowski liczący ponad milion słów. Podczas gdy złożone relacje socjolingwistyczne między społecznościami językowymi łemkowską, rusińską, standardową ukraińską i słowacką wykraczają poza zakres tego artykułu, to właśnie zasoby polskie (konkretnie polskie modele neuronowe) były kluczowe dla hybrydowych silników łemkowskich Pana Orynycza.

Hipotezy i przewidywania

Szybkość tłumaczenia

Hipoteza: odizolowane tłumaczenie maszynowe oparte na sztucznej inteligencji jest teraz tak szybkie jak ludzkie

Postawiliśmy hipotezę, że silniki tłumaczenia neuronowego działające offline na laptopach średniej klasy są obecnie porównywalne pod względem szybkości do tłumaczy ludzkich. Było to oparte na obserwacjach podczas rozwoju silnika, że tłumaczenie neuronowe maszynowe wydawało się zajmować od kilku sekund do mniej niż minuty na przetłumaczenie zdania na laptopie średniej klasy, co jest porównywalne z ludzkimi prędkościami obserwowanymi przez Petra Orynycza w jego doświadczeniu w branży lokalizacyjnej.

Przewidywanie: silniki tłumaczenia maszynowego będą przetwarzać więcej słów na godzinę niż tłumacze ludzcy

Na podstawie naszej hipotezy, że odizolowane od sieci silniki tłumaczenia maszynowego działające offline na laptopach średniej klasy będą tak szybkie jak ludzie, przewidzieliśmy, że ich prędkość przewyższy prędkość ludzkich lingwistów i będą tłumaczyć więcej słów na sekundę niż nasz ludzki podmiot kontrolny.

Dokładność tłumaczenia

Hipoteza: silniki tłumaczenia maszynowego oparte na sztucznej inteligencji są obecnie niemal tak dokładne jak tłumacze ludzcy

Postawiliśmy hipotezę, że silniki tłumaczenia maszynowego są obecnie niemal tak dokładne jak tłumacze ludzcy. Opierało się to na profesjonalnej obserwacji Petra Orynycza jako specjalisty ds. kontroli jakości tłumaczeń, że komercyjne usługi tłumaczenia maszynowego w chmurze nie tylko znacznie się poprawiły, ale często produkują wyniki nie do odróżnienia od tych tworzonych przez ludzkich lingwistów.

Przewidywanie: silniki tłumaczenia maszynowego opartego na sztucznej inteligencji osiągną co najmniej 75% wyniku jakości BLEU profesjonalnych tłumaczy

Chociaż wiedzieliśmy, że silniki tłumaczenia maszynowego mogą być lepsze od dwujęzycznych amatorów próbujących swoich sił w tłumaczeniu po raz pierwszy, nie wierzyliśmy, że nasze silniki pokonają doświadczonych, profesjonalnych lingwistów w bezpośredniej rywalizacji. Na szczęście, nasze wątpliwości można było poddać testom. Algorytm BLEU (bilingual evaluation understudy) jest dominującą metryką w badaniach nad tłumaczeniem maszynowym, będąc niezależnym od języka, tanim i łatwym w obliczeniach, a także rozsądnie skorelowanym z ocenami ludzkimi (Post, 2018). Przewidzieliśmy, że nasze silniki neuronowe uzyskają 75% punktów jakości uzyskanych przez ludzkiego lingwistę. Na przykład, jeśli ludzki lingwista uzyskał 40 punktów, tłumaczenie maszynowe uzyskałoby 30. Tymczasem przewidzieliśmy, że nasz hybrydowy silnik łemkowsko-angielski osiągnie łączny wynik BLEU na poziomie 15.

Bezpieczeństwo tłumaczenia

Hipoteza: tłumaczenie maszynowe oparte na sztucznej inteligencji może być wykonywane offline na laptopach w warunkach wysokiego bezpieczeństwa

Postawiliśmy hipotezę, że tłumaczenie maszynowe może być wykonywane offline na odizolowanym, przenośnym sprzęcie całkowicie odciętym od świata zewnętrznego. Opierało się to na obserwacji, że wszystkie komponenty naszego rozwiązania nie wykonywały żadnych połączeń z internetem po zainstalowaniu zależności. Domyślnym założeniem jest, że odizolowane systemy tłumaczeniowe z włączonym trybem samolotowym nie mogą być zdalnie monitorowane ani zhakowane. Kolejnym założeniem jest to, że operatorzy nie tylko zostali odpowiednio zweryfikowani, ale podjęli odpowiednie środki ostrożności przeciwko zagrożeniom zewnętrznym i wewnętrznym. Kolejnym domyślnym założeniem jest to, że łatwiej jest zabezpieczyć jedną mobilną stację roboczą przez kilka godzin niż zapobiec temu, by ludzcy lingwiści zarabiający średnio 25,01 USD na godzinę (Biuro Statystyki Pracy, Departament Pracy Stanów Zjednoczonych, 2021) dokonywali nieautoryzowanych ujawnień przez całe życie, szczególnie w świetle doniesień o aresztowaniach lingwistów podejrzanych o ujawnianie tajemnic (Biuro Spraw Publicznych Departamentu Sprawiedliwości, 2009, 2018, 2020).

Przewidywanie: tłumaczenie maszynowe oparte na sztucznej inteligencji będzie działać na odizolowanym laptopie Lenovo Legion Y730-17ICH pracującym offline w trybie samolotowym

Przewidzieliśmy, że nasz system tłumaczeniowy nie będzie działał wadliwie i ukończy swoje zadania gdy będzie fizycznie oddzielony i odłączony od wszystkich sieci lub urządzeń poprzez aktywację funkcji trybu samolotowego w systemie Windows 10 Pro na laptopie Lenovo Legion Y730-17ICH (Typ 81HG).

Hybrydowy silnik łemkowsko-angielski oparty na regułach/słowniku i sieciach neuronowych

Hipoteza: hybrydowe silniki oparte na słownikach/regułach poprawiają dokładność tłumaczenia maszynowego

Postawiliśmy hipotezę, że nasz silnik tłumaczenia maszynowego oparty na regułach (RBMT) polsko-łemkowski, silnik tłumaczenia maszynowego oparty na słowniku (DBMT) polsko-łemkowski, silnik DBMT łemkowsko-polski uruchomiony w odwrotnym kierunku oraz neuronowy silnik polsko-angielski mogą być synergicznie połączone w silnik hybrydowy, który osiąga wyższe wyniki jakości z każdą dodatkową częścią. Hipoteza ta opierała się na obserwacjach autora pracującego jako profesjonalny tłumacz łemkowsko-angielski, że odpowiedniki między językiem łemkowskim a polskim były wystarczająco częste, aby uczynić silnik hybrydowy realną propozycją.

Przewidywanie: każdy podsilnik dodany do naszego hybrydowego silnika łemkowsko-angielskiego zwiększy BLEU o 5 punktów

Przewidzieliśmy, że dla każdego podsilnika łemkowsko-polskiego opartego na regułach lub słowniku, który dodamy do naszego hybrydowego silnika łemkowsko-angielskiego, ogólny wynik dokładności BLEU wzrośnie o 5 punktów.

Wprowadzenie do metod i uzasadnienie

Zestawiliśmy człowieka z maszyną, dając obu laptop średniej klasy odizolowany od sieci, uruchamiający nasz własny program wspomaganego komputerowo tłumaczenia (szczegółowo opisany poniżej) w trybie offline z włączonym trybem samolotowym Windows. Rejestrowaliśmy szybkość i dokładność tłumaczenia z rosyjskiego na angielski (para języków o dużych zasobach), z polskiego na angielski (para o średnich zasobach) i z łemkowskiego na angielski (para o małych zasobach). Do wyrażenia szybkości użyliśmy metryki słów na godzinę, ponieważ jest ona podstawą dla kierowników projektów lokalizacyjnych, a także jest stosowana w literaturze naukowej (Macken, Prou, & Tezcan, 2020, s. 4). Do pomiaru dokładności użyliśmy metryki BLEU, ponieważ jest ona najbardziej rozpowszechniona w dziedzinie badań i rozwoju (Post, 2018).

Główne wyniki w skrócie

Nie tylko udało nam się zastosować przełomową technologię neuronowego tłumaczenia maszynowego do wykorzystania sztucznej inteligencji na odizolowanym, offline’owym laptopie w trybie samolotowym do tłumaczenia języka o bogatych zasobach (rosyjskiego) ponad 10 razy szybciej niż nasz kontrolny tłumacz-człowiek, ale jakość tłumaczenia naszej maszyny była o ponad 58 procent „lepsza niż ludzka”. Co więcej, jesteśmy pierwszym zespołem na świecie, który opublikował w czasopiśmie naukowym wyniki dotyczące silników tłumaczenia maszynowego dla języka łemkowskiego.

Materiały i metody

Wprowadzenie

Aby przetestować nasze przewidywania, zbudowaliśmy szereg silników tłumaczeniowych opartych na sztucznej inteligencji i hybrydowych, obliczyliśmy ich szybkość i dokładność na odizolowanym laptopie w trybie samolotowym Windows i zrobiliśmy to samo z profesjonalnym lingwistą, aby uczynić nasz eksperyment kontrolowanym.

Konfiguracja laboratorium

Sprzęt

Używaliśmy laptopa Lenovo Legion Y730-17ICH (Typ 81HG) z systemem Windows 10 Pro (64-bit). Model został wycofany ze sprzedaży i kosztuje około 850 USD w stanie używanym w momencie publikacji.

System operacyjny

Zwirtualizowanym systemem operacyjnym używanym do eksperymentu był Linux Subsystem for Windows, a dokładnie Ubuntu 18.04 LTS zainstalowany przez platformę dystrybucji cyfrowej Microsoft Store.

Zależności

Python 3.8 został zainstalowany przy użyciu polecenia sudo apt install python3.8.

Polecenie sudo python3.8 -m pip install –upgrade zostało użyte do zainstalowania głównych zależności, w tym bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision.

Narzędzia

Zainstalowaliśmy Facebook AI Research Sequence-to-Sequence Toolkit, uruchamiając następujące polecenia:

sudo git clone https://github.com/pytorch/fairseq
cd fairseq
sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./

Dokumentacja i wsparcie techniczne są dostępne na https://github.com/pytorch/fairseq

Modele tłumaczenia maszynowego

Dla naszych silników neuronowych polsko-angielskich i hybrydowych łemkowsko-angielskich użyliśmy modelu konwolucyjnego polsko-angielskiego Sławomira Dadasa, dostępnego i udokumentowanego w jego repozytorium Polish Natural Language Processing (NLP) Resources (Dadas, 2019).

Model: https://github.com/sdadas/polish-nlp-resources/releases/download/nmt-models-conv/polish-english-conv.zip

Dokumentacja: https://github.com/sdadas/polish-nlp-resources#machine-translation-models

Dla naszego silnika rosyjsko-angielskiego wykorzystaliśmy wstępnie wytrenowany pojedynczy model transformatora Facebook AI Research Sequence-to-Sequence (FAIRseq) z rosyjskiego na angielski bez dostrajania, który został zgłoszony na Fourth Conference on Machine Translation (WMT19) w 2019 roku.

Model: https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
Dokumentacja: https://github.com/pytorch/fairseq/tree/master/examples/wmt19

Słowniki elektroniczne

Nasz profesjonalny lingwista miał dostęp offline do elektronicznych wersji New Kościuszko Foundation American English to Polish Dictionary (12,99 USD), a także Oxford Russian Dictionary (19,99 USD). Oba zostały zakupione przez Microsoft Store. Słownik łemkowsko-polski i polsko-łemkowski Jarosława Horoszczaka (2004) był również dostępny dla naszego lingwisty do użytku offline.

Kontrola eksperymentu

Eksperyment był kontrolowany poprzez posadzenie profesjonalnego lingwisty przy odizolowanym laptopie w trybie samolotowym, z wyżej wymienionymi słownikami elektronicznymi dostępnymi na maszynie. Lingwista naciskał klawisz enter, w tym momencie uruchamiał się timer i wyświetlało się zdanie źródłowe do przetłumaczenia. Lingwista mógł wpisać swoje tłumaczenie w Microsoft Word (aby skorzystać z funkcji sprawdzania pisowni i innych pomocy do przetwarzania tekstu), a następnie wkleić je do naszego własnego programu wspomaganego komputerowo tłumaczenia. Po ponownym naciśnięciu klawisza enter, tłumaczenie ludzkie zostało przesłane i timer zatrzymany. Szybkość ludzkiego lingwisty w zakresie słów na godzinę i dokładność w zakresie wyniku BLEU były obliczane dla każdego przetłumaczonego zdania.

Petro Orynycz, który ma dwudziestoletnie doświadczenie jako lingwista rosyjski i polski, polski dyplom uniwersytecki z języka rosyjskiego i ponad 5-letnie doświadczenie jako profesjonalny tłumacz łemkowsko-angielski, służył jako podmiot kontrolny. Wykonał tłumaczenia zwrotne materiałów rosyjskich i polskich wymienionych poniżej, a także retranslacje na angielski z łemkowskiego.

Materiał eksperymentalny: tłumaczenia referencyjne

Tekst rosyjsko-angielski i polsko-angielski do eksperymentu został pozyskany z materiałów edukacyjnych udostępnionych publicznie i przetłumaczonych z języka angielskiego na rosyjski i polski przez publikację NATO Review Organizacji Traktatu Północnoatlantyckiego (NATO). Cytując: „Reprodukcja części, fragmentów lub artykułów NATO Review jest dozwolona do celów niekomercyjnych, pod warunkiem podania źródła: NATO Review”. Zgodnie ze standardową praktyką (Post, 2018), dane korpusu zostały oczyszczone i znormalizowane poprzez zamianę tekstu na małe litery i tokenizację. Zadbano o to, aby tekst źródłowy i tłumaczenia docelowe były wyrównane na poziomie zdań.

Do tego eksperymentu wykorzystaliśmy wykład wygłoszony przez dr. Jamiego Shea, ówczesnego zastępcę sekretarza generalnego NATO ds. nowych wyzwań bezpieczeństwa. Jego tytuł to What Can We Learn Today from the 'Three Wise Men’? Oryginalny tekst angielski wykładu dr. Shea i jego tłumaczenia na rosyjski i polski zlecone przez NATO zostały pobrane z następujących jednolitych lokalizatorów zasobów:

Angielski oryginał: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

Tłumaczenie rosyjskie: https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.html

Tłumaczenie polskie: https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.html

Materiał łemkowsko-angielski do eksperymentu obejmował wywiady przeprowadzone osobiście przez John & Helen Timo Foundation ze Stanów Zjednoczonych, która zatrudniła Petra Orynycza do transkrypcji wywiadów i przetłumaczenia ich na angielski. Fundacja później uprzejmie przekazała powstałe korpusy dwujęzyczne na rzecz badań naukowych i rozwoju. Aby chronić prywatność osób omawianych w wywiadach i z poszanowaniem ogólnego rozporządzenia o ochronie danych Unii Europejskiej (RODO), materiały nie zostały udostępnione publicznie. Zachowano ostrożność, aby zredagować wszelkie dane umożliwiające identyfikację osoby (PII) i informacje o zdrowiu osobistym (PHI) przed udostępnieniem próbek.

Metoda oceny dokładności tłumaczenia: BLEU

Metryka bilingual understudy evaluation (BLEU) została użyta do pomiaru podobieństwa do tłumaczenia referencyjnego, a tym samym, choć niedoskonale, dokładności. Chociaż wynik BLEU nie jest doskonałą miarą dokładności lub jakości, jest najszerzej stosowany w branży (Post, 2018). Moduł Python został pozyskany z pakietu Python bleu, udokumentowanego pod następującym jednolitym lokalizatorem zasobów: https://pypi.org/project/bleu/

Upewniliśmy się, że gdy podane są referencyjne ciągi zdań “it is a white cat .” i “wow , this dog is huge .” wraz z kandydującymi hipotezami “it is a white kitten .” i “wowww , the dog is huge !”, nasz system obliczył łączny wynik BLEU 34,99, zgodnie z dokumentacją pakietu Python bleu.

Metoda normalizacji i czyszczenia tekstu

Cały tekst został zapisany małymi literami, a przed i po wszystkich znakach interpunkcyjnych dodano spację, aby system nie zakładał, że na przykład „Kot” i „kot.” to różne słowa. Tak więc „To jest biały kot.” zostałoby znormalizowane do „to jest biały kot .”. Wielokrotne spacje i inne sekwencje białych znaków zostały zastąpione pojedynczą spacją przy użyciu metod Python split() i join().

Metoda liczenia słów

Liczba słów na zdanie była określana poprzez podzielenie znormalizowanego ciągu tekstu na tablicę przy użyciu spacji jako separatora, a następnie zliczenie elementów w tej tablicy.

Metoda pomiaru szybkości tłumaczenia

W momencie gdy tłumacz ludzki nacisnął klawisz enter, aby rozpocząć tłumaczenie zdania, wywołaliśmy metodę Python time.time() aby uzyskać liczbę sekund od północy czasu uniwersalnego (UTC) 1 stycznia 1970 jako liczbę zmiennoprzecinkową, powszechnie określaną jako czas Unix, i użyliśmy tej liczby jako czasu rozpoczęcia przez człowieka. Uzyskaliśmy również czas Unix, gdy nasze silniki tłumaczenia maszynowego podejmowały zdanie do tłumaczenia.

Moment, w którym tłumacz-człowiek nacisnął klawisz enter, aby przesłać swoje tłumaczenie zdania, lub maszyna zwróciła swoje tłumaczenie zdania, był używany jako czas zakończenia. Odejmując czas rozpoczęcia od czasu zakończenia, otrzymaliśmy całkowitą liczbę sekund, jaką zajęło tłumaczenie zdania.

Obliczyliśmy liczbę słów na godzinę, dzieląc różnicę między czasem zakończenia a czasem rozpoczęcia w formacie Unix przez liczbę słów obliczoną jak powyżej, a następnie mnożąc ten iloraz przez 3600 (czyli 60 × 60, czyli liczbę sekund w godzinie):

Prędkość = (Czas_zakończenia_tłumaczenia − Czas_rozpoczęcia_tłumaczenia) / Całkowita_liczba_przetłumaczonych_słów × 3600

Metoda fizycznego izolowania i odłączania sprzętu od sieci

Sprzęt używany w eksperymencie został odcięty od świata zewnętrznego nie tylko poprzez jego fizyczną izolację, ale także poprzez zastosowanie funkcji Trybu samolotowego systemu Microsoft Windows 10 Pro, która zgodnie z dokumentacją wyłącza całą komunikację bezprzewodową na urządzeniu, w tym bezprzewodową sieć IEEE 802.11b Direct Sequence, sieć komórkową, Bluetooth, System Pozycjonowania Globalnego oraz komunikację bliskiego zasięgu.

Wyniki

Prędkość tłumaczenia: im wyższy zasób pary językowej, tym szybszy silnik

Maszyna przewyższyła człowieka pod względem prędkości tłumaczenia dla pary o wysokim zasobie rosyjsko-angielskiej i pary o średnim zasobie polsko-angielskiej, zgodnie z naszą hipotezą, że neuronowe tłumaczenie maszynowe było szybsze niż ludzkie, i przewidywaniem, że nasze silniki neuronowe przetłumaczą więcej słów na godzinę. Przy tłumaczeniu z rosyjskiego nasz silnik osiągnął średnio ponad 6456 słów na godzinę, co było o 1170% szybsze niż nasz tłumacz-człowiek. Przy tłumaczeniu z polskiego nasz silnik neuronowy był o 488% szybszy niż nasz tłumacz-człowiek, osiągając średnio 3768 słów na godzinę. Dla pary o niskim zasobie łemkowsko-angielskiej nasz hybrydowy silnik neuronowy i słownikowo-regułowy osiągnął 707 słów na godzinę, prawie dorównując naszemu tłumaczowi-człowiekowi, który był o 13% szybszy, osiągając 798 słów na godzinę. Usunięcie wagi komponentu opartego na słowniku z silnika hybrydowego prawie czterokrotnie zwiększyło prędkość do 3137 słów na godzinę, co jest o 293% szybsze niż człowiek, kosztem 13% spadku dokładności.

Human versus Machine Translation Speed, Words per Hour 0 1000 2000 3000 4000 5000 6000 7000 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 6456 509 3768 640 3137 707 752 798 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional human translation
Rysunek 1. Prędkość tłumaczenia profesjonalnego człowieka w porównaniu z maszyną (słowa/godzinę) na odłączonym od sieci laptopie średniej klasy (tryb samolotowy): rosyjsko-angielski (wysoki zasób) vs polsko-angielski (średni zasób) vs łemkowsko-angielski (niski zasób).
Dane z rysunku 1: prędkość tłumaczenia (słowa na godzinę)
Para językowa Metoda Słowa/godzinę
Rosyjsko-angielskiProfesjonalny człowiek509
Rosyjsko-angielskiTylko NMT6456
Polsko-angielskiProfesjonalny człowiek640
Polsko-angielskiTylko NMT3768
Łemkowsko-angielskiProfesjonalny człowiek798
Łemkowsko-angielskiRomanizacja + hybrydowy słownikowo-regułowy MT łemkowski→polski + NMT polski→angielski707
Łemkowsko-angielskiRomanizacja + słownikowy MT łemkowski→polski + NMT polski→angielski752
Łemkowsko-angielskiRomanizacja + regułowy MT łemkowski→polski + NMT polski→angielski3137

Dokładność tłumaczenia: im wyższy zasób pary językowej, tym dokładniejszy silnik

Dokładność tłumaczenia naszych silników sztucznej inteligencji przewyższyła dokładność profesjonalnych lingwistów. To wykroczyło poza naszą hipotezę, że odłączone od sieci neuronowe tłumaczenie maszynowe jest teraz tylko nieznacznie mniej dokładne niż tłumacze-ludzie. Nasz rosyjsko-angielski silnik sztucznej inteligencji osiągnął 158% dokładności naszego tłumacza-człowieka, przekraczając przewidywane przez nas 75%. Nasz polsko-angielski silnik neuronowy uzyskał wynik 117% dokładności naszego tłumacza-człowieka, przekraczając nasze oczekiwanie 75%. Nasz hybrydowy silnik łemkowsko-angielski osiągnął wynik BLEU 14,57 (51% wyniku naszego profesjonalnego tłumacza), zgodnie z naszą prognozą 15, po zaokrągleniu w górę. Usunięcie naszego podsilnika opartego na regułach spowodowało 2% wzrost dokładności i 6% wzrost prędkości. Usunięcie podsilnika opartego na słowniku spowodowało 13% spadek dokładności, ale 344% wzrost prędkości. Podsumowując, nasze silniki sztucznej inteligencji dla języków o średnim i wysokim zasobie były znacznie dokładniejsze niż nasz tłumacz-człowiek, podczas gdy nasze hybrydowe silniki dla języków o niskim zasobie były około połowę tak dokładne jak nasz tłumacz-człowiek.

Human versus Machine Translation Accuracy, BLEU Score 0 5 10 15 20 25 30 35 40 45 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 39.37 24.86 35.81 30.53 14.57 14.8 12.64 28.66 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional Human Translation
Rysunek 2. Wynik jakości tłumaczenia BLEU profesjonalnego człowieka w porównaniu z maszyną na odłączonym od sieci laptopie średniej klasy w trybie samolotowym, rosyjsko-angielski (para o wysokim zasobie) versus polsko-angielski (para o średnim zasobie) versus łemkowsko-angielski (para o niskim zasobie).
Dane z rysunku 2: wynik BLEU
Para językowa Metoda BLEU
Rosyjsko-angielskiSztuczna inteligencja Neuronowe tłumaczenie maszynowe samodzielnie39,37
Rosyjsko-angielskiProfesjonalne tłumaczenie ludzkie24,86
Polsko-angielskiSztuczna inteligencja Neuronowe tłumaczenie maszynowe samodzielnie35,81
Polsko-angielskiProfesjonalne tłumaczenie ludzkie30,53
Łemkowsko-angielskiRomanizacja + hybrydowy słownikowo-regułowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski14,57
Łemkowsko-angielskiRomanizacja + słownikowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski14,8
Łemkowsko-angielskiRomanizacja + regułowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski12,64
Łemkowsko-angielskiProfesjonalne tłumaczenie ludzkie28,66

Bezpieczeństwo tłumaczenia

Zgodnie z naszą hipotezą, że rozwiązanie neuronowego tłumaczenia maszynowego może być zaprojektowane do działania na odłączonym od sieci laptopie, nasz eksperyment zakończył się sukcesem w tym zakresie. Zgodnie z naszą prognozą, nasz eksperyment działał z włączonym trybem samolotowym Windows i nie wystąpiły żadne błędy spowodowane działaniem w odcięciu od świata zewnętrznego.

Tłumaczenie maszynowe oparte na regułach między językiem łemkowskim a polskim

Nasza hipoteza, że pokrewieństwo między językiem łemkowskim a polskim jest na tyle silne, że łemkowski będzie można tłumaczyć na polski za pomocą substytucji opartej na regułach i słowniku, została potwierdzona przez imponujące wyniki naszego hybrydowego silnika neuronowo-regułowego łemkowsko-angielskiego. Nasza hipoteza, że połączenie podsilnika opartego na regułach z opartym na słowniku zaowocuje dokładniejszym silnikiem hybrydowym, nie jest obecnie poparta naszymi danymi. Dodanie modułu opartego na słowniku do opartego na regułach zwiększyło BLEU silnika o 2,16 punktu, mniej niż nasze przewidywanie 5.

Dyskusja

Nowa era

Udowodniliśmy, że nie tylko możliwe jest powierzenie sztucznej inteligencji pracy związanej z wiedzą w zakresie tłumaczenia z języków o wysokim, średnim i niskim zasobie w środowisku o kontrolowanym dostępie, ale neuronowe tłumaczenie maszynowe może wykonać tę pracę szybciej, bezpieczniej i w wielu przypadkach lepiej. Nasze wyniki nie tylko potwierdziły nasze hipotezy, ale wydajność naszych silników neuronowych przewyższyła nasze przewidywania. Nadeszła nowa era tłumaczenia maszynowego w czasie prawie rzeczywistym, działającego niezależnie lub w partnerstwie z ludźmi.

Prędkość

Nasz silnik tłumaczył z języka rosyjskiego w tempie 6456 słów na godzinę. Dla kontekstu, skonsultowaliśmy się z ekspertem Marcem Hackelem, waszyngtońskim lingwistą branży obronnej i tłumaczem rosyjsko-angielskim z wieloletnim doświadczeniem, który powiedział nam, że „swoistą regułą jest, że bardzo doświadczony tłumacz powinien być w stanie przetłumaczyć co najmniej 8 stron (czyli 8 stron po 500 słów, łącznie 4000 słów) w ciągu 8-godzinnego dnia pracy, zakładając brak przeszkód takich jak akronimy i tym podobne. Średnia dla wielu wynosi faktycznie 250 słów na godzinę, nie 500”. Tak więc silniki neuronowe mogą wykonać w niespełna godzinę to, co ludziom zajmuje dni.

Dokładność

Nasze silniki sztucznej inteligencji osiągnęły wyższe wyniki BLEU niż nasz profesjonalny lingwista. Według tej miary, nasze maszyny są „lepsze” w tłumaczeniu z rosyjskiego i polskiego niż ludzie.1 Ponieważ sugestia, że maszynowe tłumaczenie sztucznej inteligencji może być o ponad 50% dokładniejsze niż doświadczeni lingwiści jest rewolucyjna, eksperyment ten wymaga powtórzenia na jeszcze większej liczbie lingwistów i korpusów, aby wykluczyć przypadkowość. Użyliśmy wyjątkowo czystych, wymagających tekstów z kwiecistym językiem, na których silniki tłumaczenia maszynowego tradycyjnie się dławią, a ludzie doskonale sobie radzą. Chociaż dążyliśmy do wyrównanych szans, spodziewaliśmy się, że jakakolwiek przewaga będzie po stronie ludzkiej. Prosimy o kontakt z Petro Orynyczem pod podanym powyżej adresem w celu uzyskania dostępu do naszych surowych danych i wyników.

Następne kroki

Używaliśmy starszego, przestarzałego sprzętu. Nowszy sprzęt z szybszymi, następnej generacji jednostkami przetwarzania graficznego mógłby skutkować dramatyczną poprawą szybkości tłumaczenia. Nasza baza kodu powinna zostać zoptymalizowana, aby zmaksymalizować wykorzystanie istniejących zasobów, takich jak jednostki przetwarzania graficznego (GPU). Planujemy przekształcić nasz moduł tłumaczenia maszynowego opartego na słowniku w zestaw testów do użycia w rozwoju sterowanym testami (TDD) naszego modułu tłumaczenia maszynowego opartego na regułach (RBMT), który mógłby zostać użyty do opracowania tekstów równoległych do trenowania czysto neuronowych silników sztucznej inteligencji neuronowego tłumaczenia maszynowego łemkowsko-angielskiego i angielsko-łemkowskiego. Potrzebne są dalsze badania w celu identyfikacji punktów malejących zwrotów. Petro Orynycz planuje zastosować swoje hybrydowe systemy neuronowe i oparte na regułach do opracowania silników tłumaczeniowych dla dialektów rusińskich i ukraińskich rodzimych dla dzisiejszej Słowacji i Ukrainy.

Podsumowanie

Znajdujemy się u progu nowej transformacyjnej ery: udowodniliśmy, że sztuczna inteligencja może wykonywać pracę umysłową równie dobrze jak ludzie, a w coraz większej liczbie przypadków ponad 50% lepiej, w ułamku czasu i prawie bez ryzyka związanego z bezpieczeństwem. Sprzęt o wartości kilkuset dolarów, który mieści się w plecaku, to wszystko, czego potrzeba, aby zawsze mieć lepszego niż człowiek, krzemowego towarzysza-lingwistę, który nigdy nie zdradza sekretów ani się nie męczy. Dżin wydostał się z butelki i może spełnić nasze życzenie rewitalizacji zagrożonych języków, a może nawet marzenie o wskrzeszeniu wymarłych. Masowe wymieranie języków, w którego środku się znajdujemy, może zostać zatrzymane, a nawet odwrócone. Powinniśmy uważać na to, czego sobie życzymy – światy odizolowane przez wieki przez szyfrowanie w kosztownych do przetłumaczenia językach mają się zderzyć. Mamy nadzieję, że to zmiana na lepsze. Proščaj, bariero językowa. Witaj, nowy świecie.

Przypisy

^ 1 Historycznie niektóre społeczności sprzeciwiają się używaniu BLEU do porównywania tłumaczenia ludzkiego z maszynowym, jednak żaden inny system nie jest tak szeroko akceptowany ani dostępny z szeroką, recenzowaną walidacją w użyciu. W rzeczywistości, twórcy wskaźnika BLEU – Papineni, Roukos, Ward i Zhu przewidzieli ten punkt napięcia w pracy sponsorowanej przez Departament Obrony Stanów Zjednoczonych (finansowanej przez Defense Advanced Research Projects Agency [DARPA] i monitorowanej przez Space and Naval Warfare Systems Command [SPAWAR]) w ramach ich przełomowej publikacji, pisząc: „Ponadto [metryka] musi rozróżniać między dwoma tłumaczeniami ludzkimi o różnej jakości. Ten ostatni wymóg zapewnia ciągłą ważność metryki, gdy MT [tłumaczenie maszynowe] zbliża się do jakości tłumaczenia ludzkiego.” Łamiąc tabu od samego początku, przystąpili następnie do obliczania wyników BLEU dla „Human-1”, nie będącego rodzimym użytkownikiem ani chińskiego, ani angielskiego, oraz „Human-2”, rodzimego użytkownika języka angielskiego, i pokazali, jak ich wyniki BLEU były zbliżone do ocen wydanych przez ludzkich sędziów (Papineni, Roukos, Ward, & Zhu, 2002).

Podziękowania

Pragniemy podziękować naszemu doradcy, Timowi Quiramowi, Zastępcy Szefa Wydziału Szkolenia Dowództwa Gotowości Sił Straży Przybrzeżnej Stanów Zjednoczonych, za zachęcanie do kontynuowania pracy, zarządowi Antech Systems, Inc. oraz zespołowi ePerformance Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF), za stworzenie środowiska, w którym możemy realizować nasze pasje, naszemu Wiceprezesowi Wykonawczemu Dywizji Tomowi Dobry’emu za jego nieocenione wskazówki, trafny osąd i wizjonerskie przywództwo, a także naszemu kierownikowi zespołu Willowi Duffowi za motywowanie nas do ciężkiej pracy, budowanie ducha koleżeństwa i wsparcie moralne. Petro Orynycz pragnie podziękować swoim kierownikom projektów z zakresu sztucznej inteligencji, Raffaele Pascale i Michalowi Brnušákowi z firmy Venga Global Inc. z Doliny Krzemowej, za ich profesjonalizm, autentyczną troskę o zespół i niezachwiane dążenie do perfekcji. Pan Orynycz pragnie również podziękować swoim kolegom inżynierom i starym przyjaciołom, Michaelowi Lawrence’owi Cramerowi z BCT LLC i Michaelowi Decerbo z Raytheon BBN Technologies, za wiarę od samego początku. Ponadto pragnie podziękować swojemu przyjacielowi i koledze językoznawcy obliczeniowemu, dr. Jounie Pyysalo z Uniwersytetu w Helsinkach, za spełnianie marzeń. Na koniec pragnie podziękować Marii Silvestri z Fundacji Johna i Helen Timo za jej wkład w badania naukowe i rozwój wywiadów łemkowskich, które przeprowadziła, oraz tłumaczeń, które zleciła mu wykonać, a także swojej drogiej przyjaciółce Ołenie Duć z Ruskiej Bursy za jej nieocenione tłumaczenia i transkrypcje wywiadów.

Referencje

al-Kindī, Y. i. (2002). Zredagowany traktat al-Kindiego. W M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (red.), Traktat al-Kindiego o kryptoanalizie (t. 1) (S. M. al-Asaad, tłum., t. 1, s. 117-204). Damaszek, Syria: KFCRIS & KACST. (Oryginał opublikowany ok. 850).

Associated Press. (2021, 26 stycznia). Populacja Polski gwałtownie maleje w czasie pandemii. Pobrano 19 czerwca 2021 z lokalizacji AP NEWS: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e

Biuro Statystyki Pracy, Departament Pracy Stanów Zjednoczonych. (2021). Informator zawodowy, Tłumacze ustni i pisemni. Waszyngton, DC. Pobrano 1 czerwca 2021 z: https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm

Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kryteria wyboru programów dla języków o ograniczonych zasobach. Materiały z Dziesiątej Międzynarodowej Konferencji na temat Zasobów i Ewaluacji Językowej (LREC’16) (s. 4543–4549). Portorož, Słowenia: European Language Resources Association (ELRA). Pobrano 27 czerwca 2021 z: https://www.aclweb.org/anthology/L16-1720

Dadas, S. (2019). Repozytorium zasobów NLP dla języka polskiego. Pobrano 26 maja 2021 z: https://github.com/sdadas/polish-nlp-resources/

Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013. Warszawa, Polska: Ministerstwo Spraw Wewnętrznych i Administracji. Pobrano 13 czerwca 2021 z: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf

Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2009, 17 grudnia). Były tłumacz kontraktowy FBI przyznaje się do ujawnienia informacji niejawnych blogerowi. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger

Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2018, 23 sierpnia). Kontrahent rządu federalnego skazany za usunięcie i przekazanie materiałów niejawnych do agencji informacyjnej. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news

Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2020, 17 sierpnia). Były oficer CIA aresztowany i oskarżony o szpiegostwo. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage

Państwowa Służba Statystyki Ukrainy. (2001). Liczebność osób poszczególnych grup etnograficznych narodu ukraińskiego i ich język ojczysty. Pobrano 26 sierpnia 2021 z Ogólnoukraińskiego spisu ludności 2001: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1

Duć-Fajfer, O. (2016). Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In J. Olko, T. Wicherkiewicz, & R. Borges (red.), Integral Strategies for Language Revitalization (pp. 177-178). Warszawa, Poland: Faculty of „Artes Liberales”, University of Warsaw. Retrieved from http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177

DuPont, Q. (2018, maj). Kryptologiczne początki tłumaczenia maszynowego, od al-Kindiego do Weavera. (C. Mitchell, & R. Raley, red.) amodern(8), 1-20. Pobrano 22 maja 2021 z: http://amodern.net/article/cryptological-origins-machine-translation/

Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Ile języków jest na świecie? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, red.) Pobrano 13 czerwca 2021 z Ethnologue: Languages of the World: https://www.ethnologue.com/guides/how-many-languages

Fortson IV, B. W. (2004). Język i kultura indoeuropejska. Malden, MA, USA: Blackwell Publishing.

Google. (2021, 8 czerwca). Obsługiwane języki | Cloud Translation. Pobrano 13 czerwca 2021 z Google Cloud: https://cloud.google.com/translate/docs/languages

Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Cyfrowy Korpus Parlamentu Europejskiego. Konferencja Zasobów Językowych i Ewaluacji (LREC 2014), (s. 3164-3171). Reykjavik, Islandia. Pobrano 19 czerwca 2021 z: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf

Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski. Warszawa, Polska: Fundacja Wspierania Mniejszości Łemkowskiej Rutenika.

Jassem, W. (2003, czerwiec). Polski. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191

Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Eksperymentowanie z różnymi modelami tłumaczenia maszynowego w warunkach średnich zasobów. W P. Sojka, I. Kopeček, K. Pala, & A. Horák (red.), Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science. 12284, s. 2. Springer, Cham. doi:10.1007/978-3-030-58323-1_10

Kerča, I. (2007). Słownik rusińsko-rosyjski (t. 1). Użhorod, Ukraina: PolyPrynt.

Kocmi, T. (2020). Zgłoszenie CUNI dla języka inuktitut w WMT News 2020. Materiały z 5. Konferencji o Tłumaczeniu Maszynowym (WMT), (s. 171–174). Association for Computational Linguistics. Pobrano 19 czerwca 2021 z: https://www.aclweb.org/anthology/2020.wmt-1.14

Kocmi, T., & Bojar, O. (2019). Zgłoszenie CUNI dla języków o ograniczonych zasobach w WMT News 2019. Materiały z Czwartej Konferencji o Tłumaczeniu Maszynowym (WMT). Tom 2: Artykuły o zadaniach wspólnych (Dzień 1), s. 234–240. Florencja, Włochy: Association for Computational Linguistics. Pobrano 13 czerwca 2021 z: https://www.aclweb.org/anthology/W19-5322.pdf

Lewis-Kraus, G. (2016, 14 grudnia). Wielkie przebudzenie SI (Going Neural). The New York Times, s. 40. Pobrano z: https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html

Macken, L., Prou, D., & Tezcan, A. (2020, 23 kwietnia). Kwantyfikacja wpływu tłumaczenia maszynowego w procesie produkcji tłumaczeń wysokiej jakości. Informatics, 7(2). doi:10.3390/informatics7020012

Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). The Russian-speakers in the CIS countries: migration activity and preservation of the Russian language. W: P. Vladimirovich (red.), 2018 International Scientific Conference „Investment, Construction, Real Estate: New Technologies and Special-Purpose Development Priorities” (ICRE 2018), 212. Irkuck, Rosja. doi:10.1051/matecconf/201821210005

Microsoft. (b.d.). Włączanie i wyłączanie trybu samolotowego. Pobrano 9 czerwca 2021 z Microsoft: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1

NATO Review. (b.d.). O nas. Pobrano 9 czerwca 2021 z Organizacji Traktatu Północnoatlantyckiego: https://www.nato.int/docu/review/about.html

Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019, sierpień). Zgłoszenie Facebook FAIR do zadania tłumaczenia wiadomości WMT19. Materiały z Czwartej Konferencji o Tłumaczeniu Maszynowym (Tom 2: Artykuły o zadaniach wspólnych, Dzień 1), 314-319. Florencja, Włochy: Association for Computational Linguistics. doi:10.18653/v1/W19-5333

Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Szybkie, rozszerzalne narzędzie do modelowania sekwencyjnego. Materiały z NAACL-HLT 2019: Demonstracje. Materiały z Konferencji Północnoamerykańskiego Oddziału Stowarzyszenia Lingwistyki Komputerowej 2019 (Demonstracje), s. 48-53. Minneapolis, MN: Association for Computational Linguistics. doi:10.18653/v1/N19-4009

Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Metoda automatycznej ewaluacji tłumaczenia maszynowego. Materiały z 40. Dorocznego Spotkania Stowarzyszenia Lingwistyki Komputerowej (s. 311-318). Filadelfia, PA: Annual Meeting of the Association for Computational Linguistics.

Post, M. (2018, 12 września). Apel o jasność w raportowaniu wyników BLEU. Amazon Research.

Rabus, A., & Scherrer, Y. (2017). Indukcja leksykonu dla mówionego języka rusińskiego – wyzwania i wyniki. Materiały z 6. Warsztatów Przetwarzania Języka Naturalnego dla Języków Bałto-Słowiańskich, (s. 27-32). Walencja, Hiszpania.

Scherrer, Y., & Rabus, A. (2017). Wieloźródłowe tagowanie morfoskładniowe dla mówionego języka rusińskiego. Materiały z Czwartych Warsztatów NLP dla Podobnych Języków, Odmian i Dialektów (s. 84-92). Walencja, Hiszpania: Association for Computational Linguistics. doi:http://dx.doi.org/10.18653/v1/W17-1210

Scherrer, Y., & Rabus, A. (2019, wrzesień). Neuronowe tagowanie morfoskładniowe dla języka rusińskiego. (R. Mitkov, red.) Natural Language Engineering, 25(5), s. 633-650. doi:10.1017/S1351324919000287

Shea, J. (2016, 5 grudnia). What can we learn today from the 'three wise men’? NATO Review. Pobrano 26 maja 2021, z https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

Grupa Ekspertów Ad Hoc UNESCO ds. Języków Zagrożonych. (2003). Żywotność i zagrożenie języków. Międzynarodowe Spotkanie Ekspertów w sprawie Programu UNESCO Ochrony Języków Zagrożonych. Paryż: UNESCO. Pobrano 19 czerwca 2021 z: http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf

Vasmer, M. J. (b.d.). Słownik etymologiczny języka rosyjskiego. (O. N. Trubačëv, tłum.) Moskwa: AST (Oryginał opublikowany w 1950).

Watral, M. (2015, luty). Rewitalizacja Łemków. Znak(717), 38-44. Pobrano 24 sierpnia 2021 z: https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/

Watral, M. (2016). Postawy względem języka łemkowskiego – wzór i jego realizacja. In J. Olko, T. Wicherkiewicz, & R. Borges (red.), Integral Strategies for Language Revitalization (pp. 221-260). Warsaw, Poland: Faculty of „Artes Liberales”, University of Warsaw. Retrieved August 24, 2021, from http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243

Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Korpus równoległy Narodów Zjednoczonych v1.0. Materiały z Dziesiątej Międzynarodowej Konferencji na temat Zasobów i Ewaluacji Językowej (LREC’16), (s. 3530–3534). Portorož, Słowenia. Pobrano z: https://www.aclweb.org/anthology/L16-1561


Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.