Wyniki wyszukiwania dla „pl lemkotran pro”

  • Lemko Artificial Intelligence Manhattan Project Breakthrough Delivers Humanlike Translations

    Lemko Artificial Intelligence Manhattan Project Breakthrough Delivers Humanlike Translations

    MANHATTAN, Sept 25 (LEMKOTRAN.COM) – Breakthrough artificial intelligence (AI) neural machine translation (NMT) technology has delivered real-time translations at near-human quality, with Lemko to English engines deployed in Manhattan achieving a speed of 95,877 words per hour and corpus bilingual evaluation understudy (BLEU) score of 17.74 against a professional human linguist’s score of 28.

    „These newly deployed AI translators empower new speakers of Lemko to read in their heritage language immediately, without undergoing the thousands of hours of instruction and immersion normally required,„ said Petro Orynycz, the linguist and engineer behind the project.

    The language revitalization „Manhattan project„ is just ramping up, with sights set on delivering translations that are „more human than human„, that is, able to deliver real-time translations more accurate than those of professional field linguists.

    The Lemko-English transliteration and translation service has been freely available to the public since 2017 at www.lemkotran.com

  • Tłumacz polsko-łemkowski | LemkoTran

    Tłumacz polsko-łemkowski | LemkoTran

    Wpisz, aby uzyskać natychmiastowe, bezpłatne tłumaczenia z polskiego na łemkowski (alfabety cyrylicki i łaciński) przez LemkoTran.

    → Lemko
    Wpisz tekst do przetłumaczenia. Pisownia, interpunkcja i gramatyka się liczą.
    0 / 800

    Twoje tłumaczenie pojawi się tutaj za kilka sekund…

    Tutaj pojawi się transliteracja cyrylicy twojego tłumaczenia.

    Proszę cytować: Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: H. Degen, S. Ntoa (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    Demo tłumacza

    Co mówią ludzie

    „To wspaniała praca z miłości — dla nas, dumnych Łemków. Moja baba i dido byliby tacy dumni!”

    Tomasz

    „To tłumaczenie jest niesamowite. Dziękuję, że to udostępniasz i cyfrowo zachowujesz język w interaktywny, praktyczny sposób.”

    Stephan

    “Użyłem tego na serwerze roleplay na Discordzie, którego akcja dzieje się na Zakarpaciu. Mega pomaga w klimacie — 10/10! Dzięki! Дякую!”

    Anonimowy

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.

  • Tłumacz rusiński | Rusinator

    Tłumacz rusiński | Rusinator

    Pisz, aby uzyskać szybkie, bezpłatne tłumaczenia na język rusiński dla Słowacji i Polski (alfabety cyrylicki i łaciński) dzięki Rusinatorowi.

    → Rusyn
    Wpisz tekst do przetłumaczenia. Pisownia, interpunkcja i gramatyka się liczą.
    0 / 800

    Twoje tłumaczenie pojawi się tutaj za kilka sekund…

    Tutaj pojawi się transliteracja cyrylicy twojego tłumaczenia.

    Proszę cytować: Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: H. Degen, S. Ntoa (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    Demo tłumacza rusińskiego

    Zobacz Rusynator w działaniu

    Co mówią ludzie

    „To wspaniała praca z miłości — dla nas, dumnych Łemków. Moja baba i dido byliby tacy dumni!”

    Tomasz

    „To tłumaczenie jest niesamowite. Dziękuję, że to udostępniasz i cyfrowo zachowujesz język w interaktywny, praktyczny sposób.”

    Stephan

    “Użyłem tego na serwerze roleplay na Discordzie, którego akcja dzieje się na Zakarpaciu. Mega pomaga w klimacie — 10/10! Dzięki! Дякую!”

    Anonimowy

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Ta strona wykorzystuje Akismet w celu ograniczenia spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.

  • Recenzowane publikacje naukowe

    Recenzowane publikacje naukowe

    Jestem recenzowanym autorem i prelegentem na największej na świecie konferencji szkoleniowej w dziedzinie obronności (I/ITSEC), a także na międzynarodowych konferencjach dotyczących interakcji człowiek-komputer (HCI), publikowanych przez Springer Nature, jedno z najbardziej prestiżowych, o najwyższym wpływie i najdłużej nieprzerwanie działających wydawnictw akademickich.


    2023

    Zdobywanie serc i języków: studium przypadku tłumaczenia z polskiego na język łemkowski

    Utrata języka to nie tylko strata kulturowa—to strata operacyjna. Ta praca przedstawia i ocenia tłumaczenie maszynowe polski ↔ łemkowski (ekspercki system regułowy + Transformer NMT) oraz porównuje oba kierunki za pomocą metryk wspieranych przez DARPA (BLEU, TER), włączając punkt odniesienia w postaci Google Translate.

    Kluczowe wkłady

    • Tworzy stos tłumaczeniowy polski ↔ łemkowski łączący ekspercki system regułowy i Transformer NMT dla języka o ograniczonych zasobach.
    • Ocenia oba kierunki (PL→LEM, LEM→PL) za pomocą standaryzowanych, powtarzalnych metryk (BLEU + TER).
    • Łączy tłumaczenie maszynowe języków mniejszościowych z realnymi efektami: skutecznością szkolenia, dostępnością i odpornością w środowiskach o kwestionowanych informacjach.

    Kluczowe wyniki

    • PL → LEM: system ekspercki BLEU 29,49 / TER 53,73; raportowany jako ~6,5× lepszy od Google Translate w tłumaczeniu polski→ukraiński według BLEU.
    • LEM → PL: system ekspercki BLEU 31,13 / TER 54,10.
    • Transformer (PL → LEM): BLEU 15,90 (30k kroków)—powyżej bazowego punktu odniesienia, poniżej systemu eksperckiego w tej konfiguracji.

    BLEUkitne niebo dla rewitalizacji zagrożonych języków: dokładność neuronowego tłumaczenia AI dla języków Lemko Rusyn and Ukrainian gwałtownie wzrasta

    Utrata języka mniejszościowego to nie tylko strata kulturowa—to mierzalna szkoda. Ta praca przedstawia znaczącą aktualizację LemkoTran.com, łączącą generowanie regułowe z neuronowym MT, dzięki czemu użytkownicy języka łemkowskiego i nowi uczący się mogą natychmiast czytać i pisać. Dodaję generatory świadome morfologii dla rzeczowników/czasowników/przymiotników, rozszerzam leksykon, egzekwuję 9 518 obowiązkowych testów kontroli jakości i porównuję jakość tłumaczenia za pomocą BLEU, TER i chrF z różnymi usługami Google Translate.

    Kluczowe wkłady

    • Ulepsza hybrydowy stos LemkoTran (regułowy + neuronowy) do tłumaczenia na język łemkowski i z języka łemkowskiego z generowaniem świadomym morfologii.
    • Wzmacnia poprawność poprzez 9 518 testów opartych na kodyfikacji, przekształcając jakość tłumaczenia w egzekwowalną kontrolę jakości.
    • Rozszerza pokrycie językowe o ~1 585 elementów słownictwa opartego na regułach plus generatory zasilane przez 877 lematów + 708 wpisów glosariusza.
    • Rygorystycznie testuje używając domyślnych ustawień SacreBLEU i trzech uzupełniających się metryk (BLEU / TER / chrF) dla powtarzalnych porównań.
    • Pokazuje inżynieryjną ścieżkę do de-interferencji: moduły oparte na regułach umożliwiają usuwanie zapożyczeń / przenikania języka dominującego (gdzie pożądane).

    Kluczowe wyniki

    • EN → LEM: BLEU wzrasta do 8,48 (+35% w porównaniu z poprzednią publikacją), raportowany jako ~4× lepszy od najlepszej usługi Google Translate według BLEU.
    • LEM → EN: BLEU osiąga 17,95 (+23% w porównaniu z poprzednią pracą), raportowany jako ~16% wyższy niż usługa ukraińska Google Translate (najlepiej działający punkt odniesienia).
    • Według wszystkich metryk: LemkoTran przewyższa Google we wszystkich miarach BLEU + TER + chrF, przy czym Google często błędnie identyfikuje język łemkowski (częste wykrywanie jako ukraiński/rosyjski/białoruski).

    2022

    Powiedz to dobrze: Tłumaczenie maszynowe oparte na sztucznej inteligencji umożliwia nowym użytkownikom rewitalizację języka łemkowskiego

    Sztuczna inteligencja może dać zagrożonym językom przewagę: nowi użytkownicy mogą od pierwszego dnia tworzyć zdania bliższe normie literackiej. Powiedz to dobrze (2022) przedstawia niskobudżetowy proces (transfer learning + tłumaczenie maszynowe oparte na regułach), udostępnia publicznie system tłumaczenia z angielskiego na łemkowski i ocenia jakość za pomocą metody BLEU.

    Kluczowe wkłady

    • Transfer learning + silnik oparty na regułach dla języka o ograniczonych zasobach.
    • Ocena ilościowa (BLEU), nie subiektywne odczucia.
    • Wdrożony jako narzędzie publiczne (LemkoTran).

    Kluczowe wyniki

    • System angielsko-łemkowski: BLEU 6,28 (raportowany).
    • Porównany z wynikami tłumaczeń Google dla języka ukraińskiego/rosyjskiego/polskiego (raportowane).
    • Zbudowany z myślą o ograniczonych zasobach (przyjazny dla laptopów/pracy offline).

    2021

    Tak, mówię… Tłumaczenie maszynowe AI w szkoleniu wielojęzycznym (2021)


    Ten artykuł pokazuje, jak tłumaczenie maszynowe oparte na sieciach neuronowych (NMT) może przełamać wąskie gardła lokalizacji w szkoleniach koalicyjnych: zamiast czekać miesiące na tłumaczenie wykonane przez człowieka, można wdrożyć wielojęzyczne treści w ciągu dni/tygodni, wykorzystując NMT do szybkiej lokalizacji.

    Kluczowe wyniki

    • Rosyjski: +1 169,51% szybciej i +58,37% dokładniej w porównaniu z bazową wersją profesjonalnego lingwisty.
    • Polski: +17,29% dokładniej i +488,45% szybciej w porównaniu z człowiekiem.
    • Łemkowski: silnik „pierwszy na świecie”, zgłoszono BLEU 14.57.

    Kluczowe wkłady

    • Lokalizacja klatek jako wąskie gardło operacyjne i cele w zakresie harmonogramów „szkolenie dziś wieczorem / w przyszłym tygodniu”.
    • Buduje i ocenia silniki NMT na materiałach szkoleniowych NATO, używając BLEU jako metryki oceny.
    • Demonstruje praktyczny przepływ pracy na niedrogim, odizolowanym od sieci laptopie (realistyczne ograniczenia wdrożeniowe).
  • BLEUkitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowej sztucznej inteligencji dla języka łemkowskiego i ukraińskiego osiąga nowe wyżyny (2023)

    BLEUkitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowej sztucznej inteligencji dla języka łemkowskiego i ukraińskiego osiąga nowe wyżyny (2023)

    Streszczenie

    Przyspieszająca globalna utrata języków, związana z podwyższonym występowaniem używania substancji niedozwolonych, cukrzycy typu 2, picia alkoholu w nadmiarze i napaści, a także sześciokrotnie wyższymi wskaźnikami samobójstw wśród młodzieży, stanowi narastające wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, gdzie przekaz międzypokoleniowy jest często zakłócany, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mają potencjał do rewitalizacji języków dziedzictwa i wzmocnienia nowych użytkowników poprzez umożliwienie im zrozumienia i bycia zrozumianymi za pomocą natychmiastowego tłumaczenia. Jednak rozwiązania sztucznej inteligencji stwarzają problemy, takie jak prohibicyjne koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie interferencji z języków dominujących. Ta praca opisuje przebudowę silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na język łemkowski i z niego, będący poważnie zagrożonym, mniejszościowym dialektem ukraińskiej klasyfikacji genetycznej, rdzennym dla pogranicza między Polską a Słowacją (gdzie jest również określany jako rusiński). Moduły tłumaczenia oparte na słownikach zostały wyposażone w morfologicznie i syntaktycznie poinformowane generatory rzeczowników, czasowników i przymiotników zasilane przez 877 lematów wraz z 708 wpisami słownikowymi, a cały system został wzmocniony przez 9 518 automatycznych, odnoszących się do kodyfikacji, obowiązkowych testów kontroli jakości. Owocem tej pracy jest 23% poprawa od ostatniej publikacji w jakości tłumaczenia na język angielski i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Google Translate według każdej metryki i uzyskują wynik o 396% wyższy niż usługa ukraińska Google przy tłumaczeniu na język łemkowski.

    Proszę cytować:

    Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. W: Degen, H., Ntoa, S. (red.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, t. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

    1 Wprowadzenie

    1.1 Problem

    Języki zanikają w tempie co najmniej jednego na kwartał, przy czym tempo to ma się potroić do roku 2062, a do 2100 roku wzrosnąć pięciokrotnie, obejmując ponad 1500 społeczności językowych [1, s. 163, 169]. Zjawisku temu towarzyszy zwiększona częstość używania substancji psychoaktywnych o nielegalnym statusie [2, s. 179], występowania cukrzycy typu 2 [3], epizodów intensywnego picia alkoholu i napaści [4], a także sześciokrotnie wyższy wskaźnik samobójstw wśród młodzieży w społecznościach, w których mniej niż połowa członków zna dany język [5].

    Niedawne badanie w Stanach Zjednoczonych wykazało, że używanie języków rdzennych ma pozytywny wpływ na zdrowie, niezależnie od poziomu biegłości [6]. Eksperyment przeprowadzony na użytkownikach w Polsce wykazał, że używanie języka łemkowskiego łagodzi objawy emocjonalne, behawioralne i depresyjne wynikające z poznawczej dostępności traumy [7].

    Tłumaczenie maszynowe oparte na sztucznej inteligencji może odegrać istotną rolę w upowszechnianiu opisanych wyżej efektów ochronnych wśród użytkowników języków dziedziczonych poprzez rewitalizację języków zagrożonych wymarciem oraz tzw. języków uśpionych [8, s. 577]. Na przykład nowi użytkownicy języka mogą natychmiast wytwarzać poprawny tekst i korzystać ze zrozumiałych tłumaczeń pisemnych, wspomagając się automatycznymi systemami tłumaczenia maszynowego do czasu osiągnięcia pełnej, samodzielnej biegłości.

    1.2 Badany system

    Język

    Język łemkowski to definitywnie do poważnie zagrożony [9, s. 177–178] wschodniosłowiański dialekt o południowo-zachodniej ukraińskiej klasyfikacji genetycznej [10, s. 52; 11, s. 39] rodzimy dla pogranicza między Rzeczpospolitą Polską a Republiką Słowacką; niektórzy określali go jako rusiński [11, s. 39; 12].

    Granice wschodnie

    Unikalna izoglosa różnicująca język łemkowski na wschodzie to stały akcent paroksytoniczny (przedostatnia sylaba), cecha wspólna z polskim i wschodniosłowackimi dialektami [10, s. 161–162 i 972–973; 11, s. 50; 13, s. 70–73], czyniąc jego zasięg na wschodniej Słowacji co najmniej do rzeki Laborec, z strefą przejściową rozciągającą się dalej [13, s. 70; 11, s. 50]. Tymczasem w Polsce historyczny zasięg języka łemkowskiego sięga co najmniej rzek Osławica lub Wisłok, ze strefą przejściową poza nimi [11, s. 50].

    Zachodnie granice

    Historyczne zachodnie granice języka łemkowskiego to rzeki Poprad i Dunajec [14, s. 459].

    Lokalizacja

    Wioski przodków native speakerów, których wywiady składają się na korpus, znajdują się w obecnych granicach administracyjnych dzisiejszego województwa małopolskiego, którego stolicą jest Kraków.

    Nazwa łemkowskaTransliteracjaPolska nazwaSiedziba powiatuSiedziba gminy
    ІзбыIzbŷIzbyGorliceUście Gorlickie
    ҐлaдышiвGladŷšivGładyszówGorliceUście Gorlickie
    ЧорнеČorneCzarneGorliceSękowa
    ДолгеDolheDługieGorliceSękowa
    БілцарьоваBilcarʹovaBinczarowaNowy SączGrybów
    ФльоринкаFlorynkaFlorynkaNowy SączGrybów
    ЧырнаČŷrnaCzyrnaNowy SączKrynica-Zdrój
    Tabela 1. Miejscowości pochodzenia rodzimych użytkowników języka łemkowskiego, z którymi przeprowadzono wywiady wchodzące w skład materiału korpusowego.

    2 Aktualny stan wiedzy

    W zeszłym roku opublikowano pierwsze na świecie wyniki oceny jakości tłumaczeń maszynowych na język łemkowski: BLEU 6,28, co było prawie trzykrotnie wyższe niż usługa ukraińska Google Translate[1] (BLEU 2,17) [15, s. 570]. Rok wcześniej moi koledzy i ja opublikowaliśmy i przedstawiliśmy pierwsze na świecie wyniki tłumaczenia maszynowego z języka łemkowskiego na angielski: BLEU 14,57 [16].


    [1] Ujawnienie informacji: Pracuję jako płatny specjalista ds. kontroli jakości tłumaczeń z języka ukraińskiego, polskiego i rosyjskiego w ramach projektu Google Translate. Siedziba mojego klienta znajduje się w San Francisco w Kalifornii.

    Silnik został wdrożony i jest dostępny bezpłatnie pod adresem https://www.LemkoTran.com, gdzie od jesieni 2017 r. działa silnik transliteracji. Silnik tłumaczeniowy został po raz pierwszy wspomniany w druku przez dr. Scherrera i dr. Rabusa w czasopiśmie Cambridge University Press Natural Language Engineering w 2019 roku [17].

    3 Materiały i metody

    3.1 Materiały

    Eksperyment został przeprowadzony na dwujęzycznym korpusie obejmującym łemkowskie transkrypty cyrylickie i angielskie tłumaczenia wywiadów z ocalałymi i dziećmi przymusowych przesiedleń z ziem przodków w Polsce. Transkrypty i ich tłumaczenia[1] zostały wyrównane w 3 267 segmentach, przy czym Microsoft Word podał łemkowską liczbę słów źródłowych 68 944 i angielską docelową liczbę słów 81 188.


    [1] Zostałem zatrudniony do sporządzenia transkrypcji oraz ich tłumaczenia przez Fundację Johna i Helen Timo z Wilmington w stanie Delaware, która następnie przekazała powstałe materiały na potrzeby mojej działalności badawczo-rozwojowej.

    Za podstawowe źródła odniesienia przyjęto słowniki Jarosława Horoszczaka [18], Petra Pyrteja [19], Ihora Dudy [20] i Janusza Riegera [21], a także gramatyki Henryka Fontańskiego i Mirosławy Chomiak [22] oraz Petra Pyrteja [23].

    3.2 Metody

    Ulepszenia silnika

    Do tego eksperymentu silnik wdrożony na LemkoTran.com został wyposażony w nowo zbudowane generatory poinformowane przez część mowy, przypadek gramatyczny i liczbę w celu tworzenia gramatycznie i syntaktycznie odpowiednich tłumaczeń dla 1 585 wpisów słownikowych, z których około połowa nie odmienia się w języku polskim lub łemkowskim, umożliwiając prostą substytucję.

    Testy zapewnienia jakości

    Jakość została zapewniona przez 9 518 testów skrzyżowanych, gdy było to możliwe, z kodyfikacjami łemkowskimi, gramatykami i słownikami wymienionymi powyżej w Materiałach. Same testy potwierdzają, że system tłumaczy dane wypowiedzi w pożądany sposób.

    OpisLiczba
    Temat rzeczownika414
    Temat czasownika296
    Temat przymiotnika167
    Zaimek osobowy87
    Inny zaimek / Pozostałe zaimki178
    Liczebnik86
    Inne hasła słownikowe357
    Razem1,585
    Tabela 2. Słownictwo systemowe.

    Tłumaczenie maszynowe oparte na regułach (RMBT)

    Tekst otrzymał łemkowski lub polski wygląd i charakter poprzez zastąpienie sekwencji znaków, a szczególnie końcówek fleksyjnych.

    Sekwencja polskaSekwencja łemkowskaPozycja w wyrazie
    owaćuwatykońcowa (wygłos)
    iamiiamykońcowa (wygłos)
    ająajutkońcowa (wygłos)
    zezopoczątkowa (nagłos)
    podpidpoczątkowa (nagłos)
    Tabela 3. Przykładowe zamiany sekwencji znaków.

    Ocena jakości tłumaczenia

    Jakość tłumaczenia została zmierzona według standardowych metryk branżowych przy użyciu domyślnych ustawień narzędzia SacreBLEU wynalezionego w Amazon Research przez Matta Posta [24]. Ze względu na porównywalność, język polski został przedstawiony w cyrylicy łemkowskiej w taki sam sposób jak w ostatnim eksperymencie [15, s. 573].

    Metryka BLEU (Bilingual Evaluation Understudy)

    Ta oparta na n-gramach metryka cieszy się dużą popularnością od dziesięcioleci. Została opracowana w Stanach Zjednoczonych w ośrodku IBM T. J. Watson Research Center przy wsparciu Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) oraz pod nadzorem Dowództwa Systemów Kosmicznych i Morskich Marynarki Wojennej Stanów Zjednoczonych (SPAWAR) [25].

    Współczynnik edycji tłumaczenia (TER)

    Metryka ta odzwierciedla liczbę edycji niezbędnych do tego, aby wynik był semantycznie zbliżony do poprawnego tłumaczenia, mając na celu większą tolerancję na przesunięcia frazowe niż BLEU i inne metryki oparte na n-gramach. Jest on określany poprzez podzielenie obliczenia odległości edycji między hipotezą a odniesieniem przez średnią liczbę słów odniesienia. Jego rozwój w Stanach Zjednoczonych był również wspierany przez DARPA [26].

    Wskaźnik F dla znakowych n-gramów (chrF)

    Wykazano, że ta opracowana w Europie metryka bardzo dobrze koreluje z ludzkimi ocenami, a nawet przewyższa zarówno BLEU, jak i TER [27].

    4 Wyniki i dyskusja

    System eksperymentalny, LemkoTran.com, przewyższył każdą usługę Google Translate pod każdym względem. Wyniki jakości BLEU tłumaczenia z angielskiego na łemkowski poprawiły się o 35% w porównaniu z ostatnimi opublikowanymi wynikami [15], dając rezultaty cztery razy lepsze niż najlepsza oferta Google Translate, jej usługa ukraińska. Tymczasem jakość tłumaczenia z łemkowskiego na angielski poprawiła się o 23% od ostatnich opublikowanych wyników [16], osiągając wyniki BLEU o 16% wyższe niż najlepsze uzyskane przez Google Translate, które automatycznie rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków i jako białoruski w 6% przypadków.

    4.1 Jakość tłumaczenia z języka angielskiego na łemkowski

    Wyniki

    Silnik wdrożony na LemkoTran.com przewyższył Google Translate pod każdym względem przy tłumaczeniu z angielskiego na łemkowski. Następnym najwyżej punktowanym systemem w eksperymencie był albo wynik usługi ukraińskiej Google Translate (używając metryk BLEU lub chrF) albo jej usługi polskiej (używając metryki TER).

    BLEU

    Jakość tłumaczeń systemu wdrożonego w serwisie LemkoTran.com, mierzona najpowszechniej stosowaną metryką BLEU, wzrosła do 8,48, co oznacza poprawę o 35% względem ostatnio opublikowanych w 2022 roku wyników [15] i obecnie czterokrotnie przewyższa najwyższy wynik uzyskany przez Google Translate.

    Rys. 1. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im wyżej, tym lepiej.
    chrF

    Silnik LemkoTran.com osiągnął najlepszy wynik f-score (chrF 37,30) dla n-gramów znaków w tłumaczeniu z angielskiego na łemkowski, który jest o 37% wyższy niż następny najlepszy, usługa ukraińska Google Translate. Tymczasem usługa rosyjska Google Translate uzyskała wyższy wynik niż jej odpowiedniki polskie i białoruskie przy pomiarze względem korpusu łemkowskiego tą metryką.

    Rys. 2. Jakość tłumaczenia z angielskiego na łemkowski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    TER

    Silnik LemkoTran.com osiągnął najlepszy wskaźnik Translation Edit Rate (TER) dla tłumaczenia z angielskiego na łemkowski, uzyskując wynik 81,33. Usługa polska Google Translate zajęła drugie miejsce, a tuż za nią jej usługa ukraińska.

    Rys. 3. Translation Edit Rate (TER) z angielskiego na łemkowski, Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Im niżej, tym lepiej.

    Próbki

    Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

    WejścieOur children were smart too. But where were they supposed to study?
    OpisWynikTransliteracjaWyniki jakości
    Referencja łemkowska
    (native speaker)
    В нас діти тіж были мудры, але де мали ся вчыти?V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na łemkowski przez
    LemkoTran.com
    Нашы діти тіж были мудры. але де мали ся вчыти? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58,34
    chrF2 79,03
    TER 27,27
    Tłumacz Google (kontrola)Tłumaczenie na język ukraińskiНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale czy jest to możliwe? BLEU 4,41
    chrF2 25,80
    TER 72,73
    Tłumaczenie na język rosyjskiНаши дети тоже были умными. Но где им было учиться? Na pewno byli umarłymi. Nie masz nic przeciwko? BLEU 3,71
    chrF2 16,95
    TER 90,91
    Tłumaczenie na język polskiНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Nie musisz się martwić. Czy jesteś w stanie to zrobić? BLEU 3,12
    chrF2 13,84
    TER 100
     Tłumaczenie na białoruskiРазумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца? Razumnyja byli i našy dzeci. Ale czy twój pavinny byli wučycca? BLEU 3,09
    chrF2 12,83
    TER 100
    Tabela 4. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.
    WejścieAnd generally speaking, Lemkos in Poland don’t have a leader, so to speak, who would say something.
    OpisWynikTransliteracjaWyniki jakości
    Referencja łemkowska (native speaker)А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie na łemkowski przez LemkoTran.comІ генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.I heneral „ni Lemkŷ v Pol” ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55,58
    chrF2 65,32
    TER 29,41
    Tłumacz Google (kontrola)Tłumaczenie na język polskiІ ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9,26
    chrF2 29,29
    TER 82,35

    Tłumaczenie na język ukraińskiІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
    chrF2 26,56
    TER 82,35
    Tłumaczenie na język rosyjskiИ вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2,96
    chrF2 25,87
    TER 88,24
     Tłumaczenie na język białoruskiІ ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.BLEU 2,72
    chrF2 18,05
    TER 94,12
    Tabela 5. Porównanie hipotez tłumaczeniowych dla zdania wejściowego w języku angielskim.

    Tłumaczenie z języka łemkowskiego na angielski

    Wyniki

    Pod każdym względem silnik wdrożony na LemkoTran.com przewyższył Google Translate, dla którego tłumaczenie jak ze standardowego ukraińskiego było zawsze drugie najlepsze, następnie automatyczne wykrywanie języka źródłowego, potem tłumaczenie jak z białoruskiego, a następnie polskiego, z rosyjskim zawsze na ostatnim miejscu. Google Translate rozpoznało łemkowski jako ukraiński w 76% przypadków, jako rosyjski w 16% przypadków, jako białoruski w 6% przypadków i jako różne języki używające alfabetów cyrylickich (np. mongolski) w pozostałych przypadkach.

    BLEU

    LemkoTran.com uzyskał wynik BLEU równy 17,95 podczas tłumaczenia na język angielski, co stanowi poprawę o 23% w stosunku do ostatnio opublikowanych wyników (BLEU 14,57) oraz wartość o 16% wyższą niż w przypadku ukraińskiej usługi Google Translate (BLEU 15,43).

    Rys. 4. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem Bilingual Evaluation Understudy (BLEU), usługi Google Cloud Neural Machine Translation (NMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    chrF

    Silnik wdrożony w serwisie LemkoTran.com osiągnął wartość wskaźnika F dla znakowych n-gramów (chrF) równą 45,89 podczas tłumaczenia na język angielski; jest to wynik o 5% lepszy niż w przypadku ukraińskiej usługi Google Translate.

    Rys. 5. Jakość tłumaczenia z łemkowskiego na angielski mierzona wynikiem F-score (chrF) dla n-gramów znaków, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im wyżej, tym lepiej.
    TER

    LemkoTran.com uzyskał wartość współczynnika Translation Edit Rate (TER) równą 70,38 podczas tłumaczenia na język angielski; wynik ten jest o 7% lepszy niż w przypadku ukraińskiej usługi Google Translate.

    Rys. 6. Translation Edit Rate (TER) z łemkowskiego na angielski, Google Cloud Neural Machine Translation (GNMT) versus system eksperymentalny LemkoTran.com. Im niżej, tym lepiej.

    Próbki

    Poniżej przedstawiono wyniki działania systemów tłumaczeniowych dla zdań wejściowych w języku angielskim.

     OpisWynikWyniki
    jakości
    Transkrypcja wejściowa łemkowskiego mówionego przez native speakeraЯк розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
    TransliteracjaJak rozdiljame jazŷkŷ, to mala-m kontakt z pol „skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol” skoho, bo zme maly susidiv Poljakiv.
    Tłumaczenie referencyjne wykonane przez dwujęzycznego tłumaczaWhen it comes to separating languages, I had contact with Polish. It wasn’t like I started school without knowing Polish because we had Polish neighbors. BLEU 100
    chrF2 100
    TER 0
    Tłumaczenie z łemkowskiego przez system na LemkoTran.comWhen we separate languages, I had contact with Polish, it wasn’t like I went to school without Polish, because we had Polish neighbors.BLEU 45,84
    chrF2 69,60
    TER 32,00
    Tłumacz Google (kontrola)z ukraińskiego (autowykrycie, 92% pewności)As we divide the languages, then I had contact with Polish, then it was not like that, and I went to school without Polish, because I had Poles as neighbors.BLEU 15,87
    chrF2 54,38
    TER 72,00
    z białoruskiegoAs we separate the languages, then I had little contact with Polish, then it was not like that, but I went to school without Polish, because we had few Polish neighbors.BLEU 11,.76
    chrF2 58,92
    TER 68,00
    z rosyjskiegoAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6,87
    chrF2 42,66
    TER 92,00
    z języka polskiegoAs I spread the language, I have little contact with the Polish language, it wasn’t like that I went to school without Polish, because I will change my little Polish language.BLEU 5,02
    chrF2 45,35
    TER 84,00
    Tabela 6. Porównania hipotez tłumaczeniowych dla wejścia łemkowskiego.

    5 Wnioski

    Połączenie morfologicznie i syntaktycznie poinformowanych generatorów z silnikami neuronowymi może poprawić jakość tłumaczenia maszynowego o co najmniej jedną trzecią, mając jednocześnie dodatkową korzyść w postaci umożliwienia inżynierom usuwania zapożyczeń i przeciwdziałania innej interferencji języka dominującego, a także zapewnienia zgodności ze standardami, takimi jak kodyfikacje języków mniejszościowych. Szklane sufity wyników jakości narzucone przez niedoskonałości nieodłączne od modeli sztucznej inteligencji mogą również zostać rozbite poprzez solidną inżynierię. Dla języka łemkowskiego, jak również dla podobnych języków mniejszościowych rdzennych o niskich zasobach, niebo jest teraz granicą dla jakości tłumaczenia, a także dla rewolucji rewitalizacyjnych tuż za horyzontem.

    Podziękowania

    Chciałbym podziękować dr Mingowi Qianowi z Charles River Analytics za inspirację do przeprowadzenia tego eksperymentu, Michaelowi Decerbo z Raytheon BBN Technologies oraz dr. Jamesowi Joshui Penningtonowi za ich wnikliwe uwagi, a także dr. Yvesowi Scherrerowi z Uniwersytetu Helsińskiego za zainteresowanie projektem i zgłoszone pomysły.

    Referencje

    1. Bromham, L., Dinnage, R., Skirgård, H., Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Globalne predyktory zagrożenia językowego i przyszłość różnorodności językowej. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. W: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
    5. Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. W: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), s. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (w języku polskim). W: Olko, J., Wicherkiewicz, T., Borges, R. (red.) Integral Strategies for Language Revitalization, 1. wyd., s. 175–200. Faculty of „Artes Liberales„, University of Warsaw, Warszawa (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Shevelov, G.: A Historical Phonology of the Ukrainian Language. Tłum. S. Wakulenko, A. Danylenko, red. L. Uszkalow. Naukowe wydawnyctwo „AKTA”, Charkiw 2002 (wyd. oryg. 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx„ dialektiv v Karpatax (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 39–66. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (w języku rusińskim). W: Magosci, P. (red.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, s. 67–84. 2. wyd. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. W: Duchêne, A. (red.) International Journal of the Sociology of Language, t. 2007, nr 183, s. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
    14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (w języku ukraińskim). W: Skrypnyk, H. (red.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, s. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijów (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Orynycz, P.: Powiedz to dobrze: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, vol 13336, pp. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.) Natural Language Engineering, t. 25, nr 5, s. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
    19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (po ukraińsku). Siversiya MV, Ivano-Frankivsk (2004).
    20. Duda, I.: Lemkivsʹkyj slovnyk (in Ukrainian). Aston, Ternopil (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (in Polish). Wydawnictwo naukowe Semper, Warsaw (1995).
    22. Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (in Polish). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia. Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
    24. Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, s. 186–191. Association for Computational Linguistics, Bruksela (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. W: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), s. 311–318. Association for Computational Linguistics, Filadelfia (2002). https://doi.org/10.3115/1073083.1073135
    26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. W: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, s. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
    27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. W: Proceedings of the Tenth Workshop on Statistical Machine Translation, s. 392–395. Association for Computational Linguistics, Lizbona (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

    Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI pozwala nowym mówcom ożywić język łemkowski (2022)

    Streszczenie

    Neuronowe tłumaczenie maszynowe wspierane sztuczną inteligencją może wkrótce rewitalizować zagrożone języki, umożliwiając nowym użytkownikom komunikację w czasie rzeczywistym przy użyciu zdań mierzalnie bliższych normie literackiej niż te używane przez rodzimych użytkowników, i to od pierwszego dnia ich podróży odzyskiwania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne zasoby w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków świata, 98% zostało pominiętych z powodu braku korpusów: modele neuronowego tłumaczenia maszynowego uczą się na milionach słów tekstu dwujęzycznego, który po prostu nie istnieje dla większości języków i kosztuje ponad sto tysięcy dolarów amerykańskich na język, aby go zgromadzić.

    Dla języków o ograniczonych zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej efektywne: transfer uczenia się, który umożliwia językom o mniejszych zasobach korzystanie z osiągnięć języków o większych zasobach. W tym eksperymencie neuronowa usługa tłumaczenia Google z angielskiego na polski została połączona z moim klasycznym silnikiem opartym na regułach, aby tłumaczyć z angielskiego na zagrożony, niskorezursowy, wschodniosłowiański język łemkowski. System osiągnął wynik jakości BLEU (bilingual evaluation understudy) 6,28, kilkakrotnie lepszy niż usługi Google Translate dla tłumaczenia z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Ostatecznie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem internetowym www.LemkoTran.com, aby umożliwić nowym mówcom rewitalizację ich języka.

    Nowi użytkownicy języka są kluczem do rewitalizacji języka, a możliwość „poprawnego mówienia„ w języku łemkowskim jest teraz w zasięgu ich ręki.

    Słowa kluczowe: Sztuczna inteligencja skoncentrowana na człowieku, Rewitalizacja języka, Łemkowski.

    Proszę cytować jako: Orynycz, P. (2022). Powiedz to dobrze: Neuronowe tłumaczenie maszynowe AI umożliwia nowym użytkownikom rewitalizację języka łemkowskiego. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, t. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    1 Wprowadzenie

    1.1. Problemy

    Celem tego eksperymentu jest przyczynienie się na poziomie lokalnym do globalnego wyzwania, jakim jest zanik języków, który może następować w tempie jednego dziennie, przy czym szanse na przetrwanie ma zaledwie jeden na dziesięć języków [1, s. 1329]. W momencie publikacji, SIL International’s Ethnologue używa Rozszerzonej Skali Międzypokoleniowego Zakłócenia Transmisji Lewisa i Simonsa z 2010 roku, aby oszacować, że 3018 języków jest zagrożonych [2], co stanowi 43% z 7001 indywidualnych żywych języków zliczonych w momencie publikacji w standardzie ISO 639-3 Międzynarodowej Organizacji Normalizacyjnej [3]. Tymczasem Google Translate obsługuje tylko 108 języków [4], a Facebook 112 [5], co jest początkiem. Niemniej jednak, jeden język jest teraz mniej niedostatecznie obsługiwany, ponieważ owoc tego eksperymentu został wdrożony na serwerze internetowym jako publiczna usługa tłumaczeniowa.

    Nowe technologie sztucznej inteligencji kuszą obietnicą pomocy, która natychmiast kompensuje utratę języka poprzez interakcję człowiek-komputer. W moim poprzednim eksperymencie silniki neuronowe nowej generacji osiągnęły wyższe wyniki jakości tłumaczenia z rosyjskiego i polskiego na angielski niż kontrola ludzka [6, s. 9]. Tymczasem Facebook i Google1 zainwestowały ogromne zasoby w dostarczanie lepszych niż ludzkie automatycznych systemów tłumaczeniowych bez kosztów dla konsumenta.

    1 Ujawnienie: pracuję jako płatny lingwista rosyjski, polski i ukraiński oraz specjalista kontroli jakości tłumaczeń dla projektu Google Translate; siedziba główna znajduje się w San Francisco.

    Nadludzka sztuczna inteligencja nie jest tania: trenowanie neuronowych modeli językowych wymaga dwujęzycznych korpusów z liczbą słów w setkach tysięcy, a idealnie w milionach, których przetłumaczenie kosztowałoby setki tysięcy dolarów, sumy przekraczające możliwości większości społeczności języków o niskich zasobach. Na szczęście ten eksperyment pokazuje, że istnieją bardziej zaradne i skuteczne sposoby odpowiedzi na wyzwanie tworzenia pomocy tłumaczeniowych do rewitalizacji zagrożonych języków w środowiskach o niskich zasobach.

    1.2 Dotychczasowe prace

    Zbudowałem pierwszy na świecie system tłumaczenia maszynowego z języka łemkowskiego na angielski i udostępniłem go publicznie. Jego obiektywne wyniki jakości tłumaczenia ulegały poprawie: silnik osiągnął wynik BLEU (bilingual evaluation understudy) 14,57 latem 2021 roku, co zostało zaprezentowane profesjonalistom na konferencji Interservice/Industry Training, Simulation and Education Conference Narodowego Stowarzyszenia Przemysłu Obronnego i opublikowane w jej materiałach [6]. Dla porównania, jako tłumacz-człowiek pracujący w warunkach polowych, odcięty od świata zewnętrznego, uzyskałem wynik BLEU 28,66. Jesienią 2021 roku silnik osiągnął wynik BLEU 15,74, co zostało przedstawione językoznawcom, naukowcom i szerszej społeczności podczas wydarzenia prezentacyjnego zorganizowanego przez Uniwersytet w Pittsburghu.2

    2 Ujawnienie: wydarzenie było sponsorowane przez Carpatho-Rusyn Society (Pensylwania), a Uniwersytet w Pittsburghu zapłacił mi za prezentację.

    1.3 Badany system

    Łemkowski jest zdecydowanie do poważnie zagrożonego [6, s. 3, 7, ss. 177-178], niskozasobowym [8], oficjalnie uznanym językiem mniejszościowym [9], przypuszczalnie rdzennym dla transgranicznych wyżyn na południe od obszarów metropolitalnych Krakowa, Tarnowa i Rzeszowa; historyczne izoglosy demarkacyjne będą, miejmy nadzieję, tematem przyszłego artykułu. Polski urząd statystyczny w 2011 roku odnotował 6279 mieszkańców, dla których język łemkowski był językiem „zwykle używanym w domu” (nawet jeśli dodatkowo używali języka polskiego) [10, str. 3], co stanowi wzrost o 12% w porównaniu z 5605 osobami, dla których język łemkowski był „językiem najczęściej używanym w domu” w 2002 roku [11, str. 6, 12, str. 7]. W momencie publikacji trwa opracowywanie wyników nowego spisu.

    Łemkowski można sklasyfikować jako język wschodniosłowiański, ponieważ spełnia zwyczajowe kryteria cech strukturalnych genetycznych, z których najważniejszą jest pełnogłos [13, s. 20], zgodnie z którym zakłada się, że samogłoska powstała w prasłowiańskich sekwencjach spółgłoski C po której następuje samogłoska średnia lub niska V (*e, lub *o, z którą *a się połączyła [14, s. 366]), po której następuje płynna R (to jest *l lub *r), po której następuje kolejna spółgłoska C, to znaczy CVRC > CVRVC. Dla ilustracji, porównajmy staroangielskie słowo oznaczające „topić się„, meltan () [15, s. 718] z jego domniemanym łemkowskim odpowiednikiem mołódyj [16, s. 92, 17, s. 150] (), oznaczającym „młody„. Inne wschodniosłowiańskie odpowiedniki obejmują ukraińskie mołodýj i rosyjskie mołodój [17], oba wykazujące samogłoskę po spółgłosce płynnej (CVRVC). Tymczasem języki zachodniosłowiańskie nie mają samogłoski przed płynną; porównaj polskie młody i słowackie mladý (oba CRVC) [17]. Ponadto pokrewieństwo postulowano dla innych słów tłumaczonych jako „łagodny”, w tym sanskryckie mṛdú (CRC) [18, str. 830] i łacińskie mollis (CVRC jeśli od *moldvis) [15, 17, 19, str. 323].

    W tym eksperymencie nie oceniano, jak dobrze łemkowski spełnia zwyczajowe, współczesne ukraińskie kryteria cech strukturalnych genetycznych. Jednakże podobieństwo między łemkowskim a standardowym ukraińskim zostało po raz pierwszy, o ile mi wiadomo, skwantyfikowane w druku. Poniżej, mój silnik łemkowski uzyskał wynik BLEU 6,28, prawie trzykrotnie wyższy niż wynik ukraińskiego Google Translate wynoszący BLEU 2,17. Można przeprowadzić dalsze eksperymenty w celu kwantyfikacji podobieństwa między łemkowskim, standardowym ukraińskim, polskim i rusińskim skodyfikowanym na Słowacji, a także świeże spojrzenie na klasyfikację typologiczną łemkowskiego.

    Ilość i jakość zasobów ulegają poprawie, podobnie jak pomysłowość wspierana przez technologię. Wszystkie znane korpusy dwujęzyczne, obejmujące mniej niż siedemdziesiąt tysięcy słów łemkowskich, zostały zgromadzone na potrzeby tego eksperymentu. Oczyszczam dwujęzyczny korpus transkrypcji wywiadów przeprowadzonych z rodzimymi użytkownikami w Polsce i moich tłumaczeń na język angielski, które klient ze Stanów Zjednoczonych zlecił mi wykonać i pozwolił wykorzystać. Kompiluję również korpusy jednojęzyczne, które w momencie publikacji liczą 534 512 słów.

    1.4 Hipoteza

    Na podstawie mojego subiektywnego wrażenia jako profesjonalnego tłumacza, że rodzimi użytkownicy języka łemkowskiego, z którymi przeprowadzono wywiady w Polsce, częściej używali słów z oczywistymi polskimi odpowiednikami niż standardowymi ukraińskimi, postawiłem hipotezę, że przy innych równych warunkach, maszynę można skonfigurować do tłumaczenia na łemkowski z angielskiego i osiągnąć obiektywne wyniki jakości BLEU wyższe niż usługi ukraińskie i rosyjskie Google Translate.

    1.5 Przewidywania

    System tłumaczenia łemkowskiego. Przewidziałem, że wspomniany system tłumaczenia osiągnie wynik BLEU 15 w tłumaczeniu na łemkowski z angielskiego w porównaniu z korpusem dwujęzycznym.

    Google Translate.

    Usługa z angielskiego na ukraiński. Przewidywałem, że usługa Google Translate z angielskiego na ukraiński osiągnie wynik BLEU 10 względem korpusu dwujęzycznego.

    Usługa z angielskiego na rosyjski. Przewidywałem, że usługa Google Translate z angielskiego na rosyjski osiągnie wynik BLEU 1 względem korpusu dwujęzycznego.

    1.6 Metody i uzasadnienie

    W celu przyspieszenia, oszczędności zasobów i zwiększenia odporności, laptop uznany za przestarzały przez mojego pracodawcę został skonfigurowany do tłumaczenia na łemkowski i wykonywania połączeń z usługą Google Translate na platformie Google Cloud, a także do oceny wspomnianych tłumaczeń przy użyciu standardowej w branży miary BLEU.

    1.7 Główne wyniki

    System tłumaczenia z angielskiego na łemkowski osiągnął łączny wynik BLEU 6.28431824990417. Tymczasem usługa ukraińska Google Translate uzyskała wynik BLEU 2.16830846776652, usługa rosyjska BLEU 1.10424105952048, a kontrolny polski transliterowany na alfabet cyrylicki BLEU 1.70036447680114.

    2 Materiały i metody

    Powyższa hipoteza została przetestowana przez obliczenie wyników jakości BLEU dla każdego systemu tłumaczeniowego skonfigurowanego w sposób szczegółowo opisany poniżej.

    2.1 Konfiguracja

    Sprzęt. Eksperyment został przeprowadzony na laptopie HP Elitebook 850 G2 z procesorem Core i7-5600U 2,6 GHz i 16 gigabajtami pamięci o dostępie swobodnym. Został odrzucony przez mojego pracodawcę jako przestarzały i wystawiony na sprzedaż za 450 USD w momencie publikacji.

    Konfiguracja. W menu podstawowego systemu wejścia/wyjścia (BIOS) urządzenie zostało skonfigurowane w celu włączenia technologii wirtualizacji (VTx).

    System operacyjny. Windows 10 Professional 64 bit został zainstalowany na gołym metalu. Upewniono się, że funkcje Windows Virtual Machine Platform i Windows Subsystem for Linux były włączone. Następnie zainstalowano WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) dostępne od Microsoft pod adresem https://aka.ms/wsl2kernel.

    Oprogramowanie. Instalator Docker Desktop dla Windows w wersji 4.4.3 (73365) został pobrany z https://www.docker.com/get-started i uruchomiony z opcją Install required Windows components for WSL 2 selected.

    Pakiety. Eksperyment zależał od poniższych pakietów z Python Package Index.

    SacreBLEU. Wersja 2.0.0 została zainstalowana przy użyciu pakietu Python udokumentowanego pod następującym uniwersalnym lokalizatorem zasobów (URL):
    https://pypi.org/project/sacrebleu/2.0.0/

    Biblioteka klienta Google Cloud Translation API. Wersja 2.0.1 została zainstalowana przy użyciu pakietu Python udokumentowanego pod uniwersalnym lokalizatorem zasobów (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

    Powyższe zależności zostały określone w pliku wymagań w następujący sposób:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Kontener.

    Budowa. Eksperyment został uruchomiony w kontenerze Docker z najnowszą wersją języka programowania Python, którą w tym czasie była wersja 3.10.2, działającą na systemie operacyjnym Debian Bullseye 11 Linux architektury AMD64, o skróconym skrócie Secure Hash Algorithm 2 bcb158d5ddb6, dostępnym za pomocą następującego polecenia:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Środowisko uruchomieniowe. Kontener został skonfigurowany do zapisywania surowych plików danych eksperymentalnych do lokalnego woluminu bind mounted.

    Ocena jakości tłumaczenia.
    Wyniki jakości tłumaczenia zostały obliczone zgodnie z metryką BLEU przy użyciu wersji 2.0.0 narzędzia SacreBLEU wynalezionego przez Posta [20].

    Wrażliwość na wielkość liter. Ocena została przeprowadzona w sposób wrażliwy na wielkość liter.

    Tokenizacja. Segmenty zostały tokenizowane przy użyciu wersji 13a standardowej procedury tokenizacji wewnętrznej skryptu metrycznego Workshop on Statistical Machine Translation.

    Metoda wygładzania. Zastosowano domyślnie technikę wygładzania opracowaną w National Institute of Standards and Technology przez pracowników Rządu Federalnego Stanów Zjednoczonych dla ich zestawu narzędzi BLEU Multimodal Information Group, będącą trzecią techniką opisaną przez Chen i Cherry [21, s. 363].

    Sygnatura. Powyższe ustawienia wygenerowały następującą sygnaturę:
    n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Kalibracja. Skonfigurowana jak powyżej, maszyna produkuje następujące wyniki:

    Segment 1031.
    Źródło angielskieEverything was there.
    Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
    WynikBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Wyjaśnienie. Segment hipotezy był identyczny z segmentem odniesienia i maszyna osiągnęła doskonały wynik BLEU 100.

    Segment 179.
    Źródło angielskieI don't remember what year.
    Odniesienie i transliteracja łemkowskaНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hipoteza i transliteracjaНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    WynikBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Wyjaśnienie. Hipoteza różniła się od odniesienia o dwa znaki. Maszyna błędnie przetłumaczyła cząstkę negującą czasownik, używając słowa oznaczającego „nie” (ni) zamiast oczekiwanego słowa „nie” (ne). To zostało już w dużej mierze naprawione. Maszyna również dodała przecinek po pamjatam, co oznacza „pamiętam”. To obniżyło wynik z tego, co byłoby doskonałym wynikiem 100, do 43,47.

    Kontrola. Ponieważ korpus opiera się na wywiadach przeprowadzonych w Polsce, jako kontrolę wykorzystano tłumaczenia na język polski. Zostały one transliterowane na alfabet cyrylicki poprzez odwrócenie zasad transliteracji nazwisk łemkowskich ustanowionych przez Ministerstwo Spraw Wewnętrznych i Administracji Polski [22, s. 6564]. Polskie samogłoski nosowe zostały rozłożone na samogłoskę plus zwarcie nosowe, z wyjątkiem pozycji przed aproksymantami, gdzie zostały bezpośrednio odnazalizowane. W wygłosie przednia samogłoska nosowa /ę/ została po prostu odnazalizowana, a tylna /ą/ została transliterowana tak, jakby była następowana przez zwarcie zębowe.

    3 Wyniki

    Silnik dostępny publicznie pod adresem www.LemkoTran.com zajął pierwsze miejsce z łącznym wynikiem jakości tłumaczenia BLEU 6,28, prawie trzy razy wyższym niż drugi w kolejności Google Translate z usługą angielsko-ukraińską (BLEU 2,17). Następna była jego usługa angielsko-polska (BLEU 1,70), z usługą angielsko-rosyjską na ostatnim miejscu (BLEU 1,10).

    Tabela 1. Jakość tłumaczenia z angielskiego na łemkowski: LemkoTran.com versus Google Translate

    3.1 Wyniki według usługi tłumaczenia maszynowego

    Kontrola. Po transliteracji na alfabet cyrylicki, tłumaczenia Google Translate na standardowy język polski osiągnęły wynik BLEU na poziomie korpusu 1,70. Próbki jego wydajności są następujące:

    Segment 2174.
    Źródło angielskieWe had still been in Izby, right.
    Odniesienie i transliteracja łemkowskaТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Hipoteza polska i transliteracjaБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    WynikBLEU = 46.20
    Segment 854.
    Źródło angielskieAnd that's what it's all about.
    Odniesienie i transliteracja łemkowskaІ о то ходит.I o to chodyt.
    Hipoteza polska i transliteracjaІ о то власьнє ходзі.I o to właśnie chodzi.
    WynikBLEU = 32.47
    Segment 217.
    Źródło angielskieAnd that's what it's all about.
    Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
    Hipoteza polska i transliteracjaТак мі повєдзял.Tak mi powiedział.
    WynikBLEU = 35.36

    Hybrydowy silnik angielsko-łemkowski. Silnik dostępny bezpłatnie publicznie pod adresem URL www.LemkoTran.com osiągnął wynik BLEU na poziomie korpusu 6,28.

    Segment 1031.
    Źródło angielskieEverything was there.
    Odniesienie i transliteracja łemkowskaВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hipoteza i transliteracjaВшытко там было.Všŷtko tam bŷlo.
    WynikBLEU = 100.00
    Segment 1445.
    Źródło angielskieBut that officer took that medal and said,
    Odniesienie i transliteracja łemkowskaАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hipoteza i transliteracjaАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    WynikBLEU = 75.06
    Segment 217.
    Źródło angielskieThat's what he said to me.
    Odniesienie i transliteracja łemkowskaТак мі повіл.Tak mi povil.
    Lemkotran.com hipoteza i transliteracjaТак мі повіл.Tak mi povil.
    WynikBLEU = 100.00

    Ukraiński. Tłumaczenia Google Translate na standardowy język ukraiński osiągnęły wynik BLEU na poziomie korpusu 2,35.

    Segment 2419.
    Źródło angielskieWhere and when?
    Odniesienie i transliteracja łemkowskaДе і коли?De i koly?
    Hipoteza ukraińska i transliteracjaДе і коли?De i koly?
    WynikBLEU = 100.00
    Segment 1096.
    Źródło angielskieWe were there for three months.
    Odniesienie i transliteracja łemkowskaТам зме были три місяці.Tam zme bŷly try misiaci.
    Hipoteza ukraińska i transliteracjaМи були там три місяці.My buly tam try misjaci.
    WynikBLEU = 30.21
    Segment 2513.
    Źródło angielskieWell, here to the west.
    Odniesienie i transliteracja łemkowskaНо то ту на захід.No to tu na zachid.
    Hipoteza ukraińska i transliteracjaНу, тут на захід.Nu, tut na zachid.
    WynikBLEU = 30.21

    Rosyjski. Usługa Google Translate z angielskiego na rosyjski osiągnęła wynik BLEU na poziomie korpusu 1,10.

    Segment 432.
    Źródło angielskieNobody knew.
    Odniesienie i transliteracja łemkowskaНихто не знал.Nychto ne znal.
    Hipoteza rosyjska i transliteracjaНикто не знал.Nikto ne znal.
    WynikBLEU = 59.46
    Segment 2751.
    Źródło angielskieWhat did they expel us for?
    Odniesienie i transliteracja łemkowskaЗа што нас выгнали?Za što nas vŷhnaly?
    Hipoteza rosyjska i transliteracjaЗа что нас выгнали?Za čto nas vygnali?
    WynikBLEU = 42.73
    Segment 2164.
    Źródło angielskieBrother went off to war.
    Odniesienie i transliteracja łemkowskaБрат пішол на войну.Brat pišol na vojnu.
    Hipoteza rosyjska i transliteracjaБрат ушел на войну.Brat ušel na vojnu.
    WynikBLEU = 42.73

    4 Dyskusja

    Wynik BLEU 6,28 na poziomie korpusu dla systemu tłumaczenia łemkowskiego wskazuje, że choć jest jeszcze wiele do zrobienia, sprawy idą w dobrym kierunku. Wynik BLEU 1,10 dla standardowego rosyjskiego wskazuje, że łemkowski jest mniej podobny do rosyjskiego niż do polskiego (BLEU 1,70). Być może użycie przedrewolucyjnej ortografii mogłoby poprawić wynik rosyjskiego, ale byłby to kosztowny eksperyment z niewielką oczywistą korzyścią.

    Transliterowany wynik podobieństwa kontrolnego standardowego polskiego BLEU 1,70 wskazuje na mniejszą interferencję języka dominującego w Polsce niż można by oczekiwać. Interesujące byłoby przeprojektowanie eksperymentu, w którym zastosowano by kilka obliczeniowo niedrogich i oczywistych korespondencji dźwiękowych (na przykład denazalizacja *ę do /ja/ i *ǫ do /u/, retrakcja *i do /y/ oraz zmiana *g na /h/ [23]) do polskiego, aby sprawdzić, czy uzyskałby wtedy wyższy wynik niż standardowy ukraiński.

    Podsumowując, łemkowski został zsyntetyzowany w laboratorium, a możliwość jego tworzenia została oddana w ręce zarówno nowych, jak i rodzimych użytkowników. Po gruntownym przeglądzie silnika i rozbudowie słownika, kolejnym krokiem jest obiektywny pomiar, a jeśli to możliwe, subiektywna ocena przez użytkowników jakości syntetycznego łemkowskiego w porównaniu z tym tworzonym przez rodzimych użytkowników. Dzień, w którym nowi użytkownicy języków niskorezursowych będą mogli korzystać z tłumaczenia maszynowego, aby zacząć komunikować się w swoim języku z dnia na dzień, jest bliżej, podobnie jak dzień, w którym język łemkowski dołączy do grona tych wcześniej zagrożonych, ale teraz rewitalizowanych.

    Podziękowania. Chciałbym podziękować mojemu koledze Ming Qian z Peraton Labs za zainspirowanie mnie do przeprowadzenia tego eksperymentu oraz Brian Stensrud z Soar Technology, Inc. za przedstawienie nas sobie, a także za jego zachętę.

    Chciałbym również podziękować mojej przyjaciółce Corinna Caudill za jej zachętę i osobiste zainteresowanie projektem, a także za przedstawienie mnie Prezydent Carpatho-Rusyn Society Maryann Sivak z University of Pittsburgh, której chciałbym podziękować za możliwość zaprezentowania mojej pracy.

    Chciałbym również podziękować Marii Silvestri z Fundacji Johna i Helen Timo za przeprowadzenie wywiadów z rodzimymi użytkownikami języka łemkowskiego i przekazanie transkryptów oraz moich tłumaczeń na potrzeby badań i rozwoju.

    Chciałbym podziękować Achim Rabus z University of Freiburg i Yves Scherrer z University of Helsinki za ich zainteresowanie projektem i pomysły.

    Chciałbym również podziękować Myhal’ Lŷžečko z blogu technologii języków mniejszościowych InterFyisa za jego wczesne zainteresowanie projektem i działania społeczne.

    Chciałbym również podziękować współsynowi Zahoczewie Marko Łyszyk za jego zainteresowanie projektem i działania społeczne.

    Na koniec chciałbym podziękować mojemu współautorowi i koledze z Antech Systems Inc. Tom Dobry za jego zachętę i wskazówki.

    Referencje

    1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Wersja online: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, ostatni dostęp 2022/02/11.

    3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, ostatni dostęp 2022/02/11.

    4. ^ Language support, https://cloud.google.com/translate/docs/languages, ostatni dostęp 2022/02/11.

    5. ^ Select language, https://m.facebook.com/language.php, ostatni dostęp 2022/02/11.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. W: Olko, J., Wicherkiewicz, T., Borges, R. (red.), Integral Strategies for Language Revitalization, ss. 175–200. Wydanie pierwsze. Wydział „Artes Liberales”, Uniwersytet Warszawski, Warszawa (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. W: Mitkov, R., Tait, J., Boguraev, B. (red.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, ostatni dostęp 2022/02/11.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, ostatni dostęp 2022/02/11.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, ostatni dostęp 2022/02/11.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, ostatni dostęp 2022/02/11.

    13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warszawa (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. W: Lubotsky, A. (red.) Leiden Indo-European Etymological Dictionary Series, t. 4, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. W: Proceedings of the Third Conference on Machine Translation (WMT), t. 1, str. 186–191. Association for Computational Linguistics, Bruksela (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. W: Proceedings of the Ninth Workshop on Statistical Machine Translation, str. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. W: Dziennik Ustaw Nr 102, ss. 6560–6573. Rządowe Centrum Legislacji, Warszawa (2005).

    23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. W: Harvard Ukrainian Studies, t. 1, nr 2, str. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

  • Lemko быти ⟨bŷty⟩ 'be’

    Lemko быти ⟨bŷty⟩ 'be’

    To be or not to be? Быти або не быти? That is the question, and now you can conjugate the infinitives made famous by the opening line of Hamlet’s soliloquy in Lemko using the automatic translation service LemkoTran, or craft your own copulae using this handy DIY guide.

    Translations

    The Lemko verb быти (scientific transliteration: ⟨bŷty⟩) means„to be„ in English, być in Polish, бути ⟨buty⟩ in Standard Ukrainian, and быть ⟨byt’⟩ in Muscovite Russian.

    EnglishLemkoPolishUkrainianRussian
    beбыти ⟨bŷty⟩byćбутибыть
    Translations of the Lemko verb быти into English, Polish, Ukrainian, and Russian.

    Etymology

    The Lemko infinitive быти ⟨bŷty⟩, meaning „to be„, comes from the Proto-Slavic athematic verb *byti, and is related to Sanskrit भूति ⟨bhūtíṣ⟩ „wellbeing„ (Vasmer 1953, p. 159; Pokorny 1959 147), Persian بودن ⟨būdan⟩ „be„ (Pokorny, p. 147), Latin futūrus „future„ (Vasmer, p. 159, Pokorny, p. 149), and via Old English bēon, English be (Pokorny, p. 149).

    Attestation

    Hamlet’s famous opening line „To be or not to be, that is the question„ is alluded to in the following published pieces found in the wild:

    Для дакотрых орґанізаций є то быти або не быти, значыт, без тых грошів не сут в силі нич зреализувати.„ (LEM.fm 2021)

    Transcription
    dl'a dakotrŷch organizacyj je to bŷty abo ne bŷty, značŷt, bez tŷch hrošiv ne sut v syl'i nyč zrealyzuvaty.

    Translation
    For some organizations, it's to be or not to be, meaning they will not be able to achieve anything without those funds.

    От нашых діл и нашой віры буде рішатися вопрос: ци нам лемкам быти, ци не быти?….„ (Цисляк 1964, p. 162)

    Transliteration
    Ot našŷch dil y našoj virŷ bude rišatysia vopros: cy nam lemkam bŷty, cy ne bŷty?…
    Translation
    Our affairs and our faith will be decide the question of whether we Lemkos are to be or not to be

    Inflection

    Future Tense

    Root: буд– ⟨bud-⟩

    The future tense of the Lemko verb for to be, быти ⟨bŷty⟩, is formed by adding personal endings to the root bud-, equivalent to will in English.

    Etymology

    Lemko bud- comes from the Proto-Slavic root *bǫd-. Compare the suffix -bund in English moribund from Latin moribundus (Pokorny, p. 150, Vasmer, p. 136).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I willбуду ⟨búdu⟩bęбудубуду
    you willбудеш⟨búdeš⟩będzieszбудешбудешь
    (s)he willбуде ⟨búdet⟩będzieбудебудет
    we willбудеме ⟨budéme⟩będziemyбудемобудем
    you all willбудете ⟨budéte⟩będziecieбудетебудете
    they willбудут ⟨búdut⟩bęбудутьбудут
    Forms of the future tense conjugation of Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    Present Tense

    Root: є– ⟨je-⟩, с– ⟨s-⟩

    In Lemko, the present tense of the verb to be is formed in the singular from the root є- ⟨je-⟩, and in the plural from the root с- ⟨s-⟩.

    Etymology

    All the below forms trace back to the ancestor of the Proto-Slavic root *es-, to which personal endings were affixed. Compare to English is, German ist, Latin est, Ancient Greek ἐστί ⟨estí⟩, Persian است ⟨ast⟩, and Sanskrit अस्ति ⟨ásti⟩ (Pokorny, pp. 340-341; Vasmer, p. 405).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I amєм ⟨jem⟩jestemєесть
    you areєс ⟨jes⟩jesteśєесть
    (s)he isєст ⟨jest⟩ajestєесть
    we areсме ⟨sme⟩bjesteśmyєесть
    you all areсте ⟨ste⟩cjesteścieєесть
    they areсут ⟨sut⟩єесть
    Forms of the present tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a The Lemko third-person singular form єст ⟨jest⟩ is now being replaced by є ⟨je⟩, though this is still rare (Fontański & Chomiak 2000, p. 109).

    b Fontański & Chomiak (2000, p. 109) give the Lemko first-person plural form as (єсме)сме/зме ⟨(jesme)sme/zme⟩.

    c Fontański & Chomiak (2000, p. 109) give the Lemko second-person plural form as (єсте)сте ⟨(jeste)ste⟩.

    Reference
    Fontański & Chomiak (2000, p. 106).

    Past Tense

    Root: был- ⟨bŷl-⟩

    The past tense of the verb „to be„ is formed in Lemko by adding any appropriate gender and plural markers to the stem был- ⟨bŷl-⟩, translatable into English as was or were.

    Etymology

    Lemko был ⟨bŷl⟩ is undoubtedly the continuation of Proto-Slavic resultative participle *bylŭ. Compare to Ancient Greek φῦλον ⟨phylon⟩ (Vasmer, p. 159), whence English phylum.

    Conjugation Tables

    Masculine

    Use the following to refer to males or mixed parties of males and females, as well as objects of grammatically masculine gender. Male virility is not a grammatical category in Lemko, unlike Polish.

    EnglishLemkoPolishUkrainianRussian
    I wasя былa
    ⟨ja bŷl⟩
    byłemя бувя был
    you wereты былb
    ⟨tý bŷl⟩
    byłeśти бувты был
    he wasвін был
    ⟨vin bŷl⟩
    byłвін бувон был
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byliśmyми булимы были
    you guys wereвы былиd
    ⟨vŷ bŷly⟩
    byliścieви буливы были
    those guys wereони были
    ⟨ony bŷly⟩
    byliвони булиони были
    Forms of the masculine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite был єм ⟨bŷl em⟩ as an alternative masculine first person singular form of the past of the verb „to be„.

    b Fontański & Chomiak (2000, p. 109) cite был єс ⟨bŷl es⟩ as an alternative masculine second person singular form of the past of the verb „to be„.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be„.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be„.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Feminine

    Use the below to refer to females and objects of grammatically feminine gender.

    EnglishLemkoPolishUkrainianRussian
    I wasя былаa
    ⟨ja bŷla⟩
    byłamя булая была
    you wereты былаb
    ⟨tý bŷla⟩
    byłaśти булаты была
    she wasона была
    ⟨ona bŷla⟩
    byłaвона булаон была
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byłyśmyми булимы были
    you gals wereвы былиd
    ⟨wŷ bŷly⟩
    byłyścieви буливы были
    those gals wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the feminine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite была єм ⟨bŷla em⟩ and былам ⟨bŷlam⟩ as alternative feminine first person singular forms of the past of the verb „to be„.

    b Fontański & Chomiak (2000, p. 109) cite была єс ⟨bŷla es⟩ and былас ⟨bŷlas⟩ as alternative feminine second person singular forms of the past of the verb „to be„.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be„.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be„.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Neuter

    Use the below to refer to objects of grammatically neuter gender.

    EnglishLemkoPolishUkrainianRussian
    it wasоно было
    ⟨ono bŷlo⟩
    byłoвоно булооно было
    they wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the neuter past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    References

    1. Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.
    2. Vasmer, M. (1953). Russisches Etymologisches Wörterbuch, Erster Band: A – K [Russian Etymological Dictionary, Volume One: A – K]. Carl Winter Universitätsverlag.
    3. Pokorny, J. (1959). Indogermanisches etymologisches Wörterbuch, I. Band [Indo-Germanic Etymological Dictionary, Volume One]. A. Francke AG Verlag.
    4. Цисляк, А. (1964). Нашы Родны Бескиды [Our Ancestral Beskid Mountains]. In: Карпаторусский Календарь Лемко-Союза На Год 1964. Типография Лемко-Союза.
    5. Lem.fm (2021). Хто робит, а хто… но власні, што? [He Who Does, and He Who… Well, What?], www.Lem.fm.
    Strona główna » Szukałeś pl lemkotran pro

  • Tak, mówię… Tłumaczenie maszynowe AI w szkoleniu wielojęzycznym (2021)

    Proszę cytować:

    Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    Streszczenie

    Szybko współdzielone i wspólnie wykorzystywane szkolenia między partnerami koalicyjnymi muszą być dostosowane językowo i kulturowo (czyli zlokalizowane) do języków sojuszników spoza anglojęzycznego świata, reprezentujących podmioty pierwszej linii o ograniczonej lub potencjalnie żadnej znajomości języka angielskiego. Tradycyjnie lokalizacja była procesem czasochłonnym i pracochłonnym, gdzie ekspert potrzebował ponad dwóch miesięcy na przetłumaczenie książki średniej wielkości. Tymczasem ćwiczenia szkoleniowe muszą odpowiadać na całkowite terminy rozwoju liczące dni i tygodnie, a nie miesiące i lata, aby reagować na zmieniające się realia świata operacyjnego. W tym kontekście tradycyjna lokalizacja staje się głównym wąskim gardłem dla przedsięwzięć koalicyjnych. W szybko rozwijających się sytuacjach sojusznicy po prostu nie mogą czekać miesiącami i latami na szkolenie potrzebne dziś wieczorem lub na przyszłotygodniową misję w językach łatwo zrozumiałych na pierwszej linii – czyli na realizację długo oczekiwanego marzenia o lokalnie dostosowanym szkoleniu odpowiadającym potrzebom w terenie.

    Wkracza tu nowa technologia sztucznej inteligencji w postaci tłumaczenia maszynowego opartego na sieciach neuronowych, która może wykonać w kilka minut to, co doświadczonym lingwistom zajmuje godzinę, czyniąc wykonalnym wielojęzyczne wdrożenie w skali koalicji w ciągu dni i tygodni, z uwzględnieniem stale rosnącej złożoności. Jest to możliwe dzięki uczeniu maszynowemu, czyli trenowaniu sztucznych rekurencyjnych sieci neuronowych do tłumaczenia z jednego języka naturalnego na drugi.

    Zbudowaliśmy silniki oparte na sztucznej inteligencji, zmierzyliśmy czas tłumaczenia materiałów szkoleniowych NATO i zmierzyliśmy ich dokładność za pomocą metryki BLEU. Nasz silnik tłumaczył z rosyjskiego 1.169,51% szybciej i 58,37% dokładniej niż nasz profesjonalny lingwista użyty jako kontrola. Nasz polski silnik neuronowy był o 17,29% dokładniejszy i o 488,45% szybszy niż człowiek. Nasze silniki tłumaczące na język łemkowski są pierwszymi na świecie i uzyskały przyzwoity wynik BLEU 14,57. Tymczasem wykonaliśmy powyższe na niedrogim laptopie w odizolowanym, kontrolowanym środowisku odciętym od świata zewnętrznego.

    Wprowadzenie

    Problem

    Usługi tłumaczeniowe online działają do momentu, gdy trzeba tłumaczyć w tajemnicy lub z języka nienależącego do górnych 2% pod względem zasobów. Korzystanie nawet z najbezpieczniejszych usług tłumaczeniowych online lub w chmurze oznacza dzielenie się informacjami z osobą trzecią, co narusza większość komercyjnych umów o zachowaniu poufności, nie wspominając o wymogach przemysłu obronnego. Ponadto, wiodąca platforma tłumaczeniowa online obsługuje tylko 109 języków (Google, 2021), co stanowi mniej niż 2% z 7.139 języków używanych dziś na świecie (Eberhard, Simons, & Fennig, 2021). W obliczu nieodłącznego ryzyka związanego z zewnętrznymi dostawcami usług w chmurze, wielu zwraca się do zweryfikowanych lingwistów, którzy w najlepszym razie mogą przetłumaczyć książkę miesięcznie, a w najgorszym stanowią dożywotnie zagrożenie nieuprawnionego ujawnienia. Aby dać wielojęzycznym przedsiębiorstwom i organizacjom więcej opcji, postanowiliśmy rozwiązać problem wykorzystania sztucznej inteligencji do szybkiego, dokładnego i dyskretnego tłumaczenia materiałów z języków o wysokich, średnich i niskich zasobach na odizolowanych, niedrogich laptopach średniej klasy odłączonych od internetu i świata zewnętrznego.

    Dotychczasowe rozwiązania

    Podczas gdy podstawy tłumaczenia maszynowego zostały położone w Bagdadzie al-Kindīego ponad tysiąc lat temu (DuPont, 2018; zobacz także al-Kindī, 2002), prawie cały spektakularny, widoczny postęp miał miejsce w Dolinie Krzemowej w ciągu ostatnich pięciu lat. Główny przełom nastąpił w Google (Lewis-Kraus, 2016), a Facebook dołączył teraz do klubu tłumaczenia maszynowego opartego na sieciach neuronowych (Ott, et al., 2019). Opieraliśmy się na pracy ich silnika FAIRseq, dla którego Sławomir Dadas udostępnił doskonały model polsko-angielski (Dadas, 2019). Bazując na pracy Pana Dadasa, stworzyliśmy hybrydowe silniki neuronowe/oparte na regułach/słownikowe, które tłumaczą z języka łemkowskiego na angielski i odwrotnie. Pomysł zastosowania transfer learningu do przetwarzania języka naturalnego (NLP) dla języka rusińskiego był omawiany z naszymi szanownymi kolegami Yvesem Scherrerem i Achimem Rabusem, którzy jako pierwsi opublikowali wyniki w recenzowanym czasopiśmie i uprzejmie wykorzystali okazję, aby wspomnieć o hybrydowym neuronowo-regułowym silniku tłumaczenia maszynowego języka łemkowskiego Petra Orynycza (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), który jest operacyjny i dostępny bezpłatnie do użytku publicznego pod adresem www.lemkotran.com od marca 2019 roku, a jego moduł transliteracji NLP został udostępniony do użytku publicznego we wrześniu 2017 roku.

    Szerszy system

    Języki o wysokich, średnich i niskich zasobach

    Pary językowe są klasyfikowane w literaturze naukowej jako wysokozasobowe, średniozasobowe i niskozasobowe, w zależności od ilości dostępnych technologii i zbiorów danych w stosunku do ich międzynarodowego znaczenia (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). Pary wysokozasobowe obejmują czesko-angielską (Kocmi, 2020, p. 171), rosyjsko-angielską, niemiecko-angielską (Ng, et al., 2019, p. 314) i chińsko-angielską (Kocmi & Bojar, 2019, pp. 234–235). Polsko-angielska jest parą średniozasobową (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Pary niskozasobowe obejmują gudżaracko-angielską, kazachsko-angielską (Kocmi & Bojar, p. 234), inuktitut-angielską (Kocmi, p. 171) i łemkowsko-angielską (Scherrer & Rabus, 2019, p. 85). Ponieważ trenowanie modeli językowych sztucznej inteligencji wymaga ogromnych ilości danych dwujęzycznych, języki o wyższych zasobach generalnie cieszą się dostępnością silników tłumaczenia neuronowego. Tymczasem, ze względu na brak danych treningowych do uczenia maszynowego, silniki neuronowe są rzadsze dla języków o niższych zasobach, które często są lepiej obsługiwane przez silniki tłumaczenia statystycznego (SMT) poprzedniej generacji.

    Język wysokozasobowy w eksperymencie: rosyjski

    Rosyjski jest używany jako pierwszy język przez ponad 168 milionów osób, a jako dodatkowy język przez kolejne 114 milionów (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Automatyzacja jego tłumaczenia na angielski była świętym Graalem powojennych wysiłków w dziedzinie tłumaczenia maszynowego. Jako jeden z oficjalnych języków Organizacji Narodów Zjednoczonych, ogromne ilości dwujęzycznego tekstu rosyjsko-angielskiego są dostępne na liberalnej licencji (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).

    Język średniozasobowy w eksperymencie: polski

    Polski jest językiem zachodniosłowiańskim używanym przez około 38 milionów osób w dzisiejszej Polsce, liczba ta ma spaść częściowo z powodu trwającej w momencie publikacji pandemii (Associated Press, 2021). Kolejne 10 milionów mówi po polsku w pewnym stopniu poza granicami kraju (Jassem, 2003, p. 103). Jako jeden z oficjalnych języków Unii Europejskiej, duże ilości dwujęzycznego tekstu są dostępne do trenowania modeli tłumaczenia sztucznej inteligencji, w tym 22.630 dokumentów Parlamentu Europejskiego (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).

    Język niskozasobowy w eksperymencie: łemkowski

    Łemkowski jest językiem niskozasobowym (Scherrer & Rabus, 2019, p. 85), który spełnia tradycyjne kryteria klasyfikacji jako wschodniosłowiański. Na przykład, łemkowski wykazuje wschodniosłowiańską pleofonie, to znaczy, wynik prasłowiańskich sekwencji „ToRT„ to ToRoT (Fortson IV, 2004, pp. 371-372), jak w łemkowskim horodyty 'grodzić, ogrodzić’ (Horoszczak, 2004, p. 45), jak również w standardowym ukraińskim horodyty, rusińskim horodyty i rosyjskim gorodit’ (Kerča, 2007, p. 176). Tymczasem porównaj polski (język zachodniosłowiański) z -ro- w grodzić, ale chorwacki (język południowosłowiański) z -ra- w graditi, 'budować’. Dalej, jest angielski z -ar- w yard i garden, awestyjski (starożytny irański) z -ǝrǝ- w gǝrǝδō 'jaskinia’, i sanskryt (starożytny indyjski) z -ṛ- w gṛhás 'dom’ (Vasmer, p. 1443).

    Podczas gdy dokładna klasyfikacja języka łemkowskiego i jego status względem standardowego ukraińskiego i skodyfikowanego rusińskiego jest przedmiotem kontrowersji (Rabus & Scherrer, 2017), tak wysokie wyniki naszego silnika łemkowsko-angielskiego bez odwoływania się do zasobów standardowego ukraińskiego lub rusińskiego skodyfikowanego na Słowacji mogłyby wspierać wniosek Watrala (2015), że łemkowski jest pełnoprawnym językiem samym w sobie, a nie dialektem jakiegokolwiek innego języka. Zachęceni rosnącymi obiektywnymi wynikami jakości, zdecydowaliśmy się priorytetowo potraktować transfer learning z języka polskiego ze względu na jego bezpośredni zwrot z inwestycji w zakresie dokładności tłumaczenia łemkowskiego, naszej najwyższej wartości. Możliwe, że wyniki jakościowe zostały podwyższone przez interferencję z obserwowanego języka hybrydowego, w którym łemkowskie końcówki gramatyczne są retrofitowane do standardowych polskich słów (Watral, 2016, p. 242).

    Według spisu ludności w Polsce w 2011 roku odnotowano 6279 osób mówiących w domu po łemkowsku, w porównaniu z 5605 w 2002 roku (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, str. 7), przy czym w momencie publikacji trwał nowy spis. Określenie, ilu spośród 24 539 mieszkańców Polski, którzy w 2011 roku deklarowali używanie języka ukraińskiego w domu, lub 626 mówiących „po rusku„ (język ruski) z innymi członkami gospodarstwa domowego (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, str. 7) mogło być użytkownikami języka łemkowskiego, wykracza poza zakres niniejszego opracowania. Państwowa Służba Statystyki Ukrainy odnotowała 672 Łemków w granicach kraju (Deržavna služba statystyky Ukraïny, 2001). W skali zagrożenia języków ONZ od 0 do 5, gdzie 0 oznacza wymarły, a 5 „bezpieczny„ (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, str. 7-8), język łemkowski zbliża się do poziomu 2, czyli jest poważnie zagrożony: naturalna międzypokoleniowa transmisja języka jest coraz rzadsza, a młodszych użytkowników jest coraz mniej (Duć-Fajfer, 2016, str. 178). Pojawiają się jednak oznaki poprawy, dzięki coraz częstszemu wykorzystywaniu przepisów chroniących i promujących używanie języków mniejszościowych w edukacji, mediach, publikacjach, oznakowaniu dróg i nauce (Duć-Fajfer, 2016, str. 178-179).

    Sytuacja zasobów również się poprawia. Petro Orynycz skompilował i wyrównał dwujęzyczny korpus łemkowsko-angielski zawierający 68.599 słów źródłowych wraz z ich tłumaczeniami na angielski (jedyny istniejący tekst równoległy, o którym wiemy). Korpus został zestawiony przy użyciu wywiadów przeprowadzonych w języku łemkowskim przez Fundację Johna i Helen Timo ze Stanów Zjednoczonych, która zleciła Panu Orynyczowi ich transkrypcję i tłumaczenie, a także zezwoliła mu na wykorzystanie tej pracy w jego badaniach naukowych i rozwoju. Gromadzi on również jednojęzyczny korpus łemkowski liczący ponad milion słów. Podczas gdy złożone relacje socjolingwistyczne między społecznościami językowymi łemkowską, rusińską, standardową ukraińską i słowacką wykraczają poza zakres tego artykułu, to właśnie zasoby polskie (konkretnie polskie modele neuronowe) były kluczowe dla hybrydowych silników łemkowskich Pana Orynycza.

    Hipotezy i przewidywania

    Szybkość tłumaczenia

    Hipoteza: odizolowane tłumaczenie maszynowe oparte na sztucznej inteligencji jest teraz tak szybkie jak ludzkie

    Postawiliśmy hipotezę, że silniki tłumaczenia neuronowego działające offline na laptopach średniej klasy są obecnie porównywalne pod względem szybkości do tłumaczy ludzkich. Było to oparte na obserwacjach podczas rozwoju silnika, że tłumaczenie neuronowe maszynowe wydawało się zajmować od kilku sekund do mniej niż minuty na przetłumaczenie zdania na laptopie średniej klasy, co jest porównywalne z ludzkimi prędkościami obserwowanymi przez Petra Orynycza w jego doświadczeniu w branży lokalizacyjnej.

    Przewidywanie: silniki tłumaczenia maszynowego będą przetwarzać więcej słów na godzinę niż tłumacze ludzcy

    Na podstawie naszej hipotezy, że odizolowane od sieci silniki tłumaczenia maszynowego działające offline na laptopach średniej klasy będą tak szybkie jak ludzie, przewidzieliśmy, że ich prędkość przewyższy prędkość ludzkich lingwistów i będą tłumaczyć więcej słów na sekundę niż nasz ludzki podmiot kontrolny.

    Dokładność tłumaczenia

    Hipoteza: silniki tłumaczenia maszynowego oparte na sztucznej inteligencji są obecnie niemal tak dokładne jak tłumacze ludzcy

    Postawiliśmy hipotezę, że silniki tłumaczenia maszynowego są obecnie niemal tak dokładne jak tłumacze ludzcy. Opierało się to na profesjonalnej obserwacji Petra Orynycza jako specjalisty ds. kontroli jakości tłumaczeń, że komercyjne usługi tłumaczenia maszynowego w chmurze nie tylko znacznie się poprawiły, ale często produkują wyniki nie do odróżnienia od tych tworzonych przez ludzkich lingwistów.

    Przewidywanie: silniki tłumaczenia maszynowego opartego na sztucznej inteligencji osiągną co najmniej 75% wyniku jakości BLEU profesjonalnych tłumaczy

    Chociaż wiedzieliśmy, że silniki tłumaczenia maszynowego mogą być lepsze od dwujęzycznych amatorów próbujących swoich sił w tłumaczeniu po raz pierwszy, nie wierzyliśmy, że nasze silniki pokonają doświadczonych, profesjonalnych lingwistów w bezpośredniej rywalizacji. Na szczęście, nasze wątpliwości można było poddać testom. Algorytm BLEU (bilingual evaluation understudy) jest dominującą metryką w badaniach nad tłumaczeniem maszynowym, będąc niezależnym od języka, tanim i łatwym w obliczeniach, a także rozsądnie skorelowanym z ocenami ludzkimi (Post, 2018). Przewidzieliśmy, że nasze silniki neuronowe uzyskają 75% punktów jakości uzyskanych przez ludzkiego lingwistę. Na przykład, jeśli ludzki lingwista uzyskał 40 punktów, tłumaczenie maszynowe uzyskałoby 30. Tymczasem przewidzieliśmy, że nasz hybrydowy silnik łemkowsko-angielski osiągnie łączny wynik BLEU na poziomie 15.

    Bezpieczeństwo tłumaczenia

    Hipoteza: tłumaczenie maszynowe oparte na sztucznej inteligencji może być wykonywane offline na laptopach w warunkach wysokiego bezpieczeństwa

    Postawiliśmy hipotezę, że tłumaczenie maszynowe może być wykonywane offline na odizolowanym, przenośnym sprzęcie całkowicie odciętym od świata zewnętrznego. Opierało się to na obserwacji, że wszystkie komponenty naszego rozwiązania nie wykonywały żadnych połączeń z internetem po zainstalowaniu zależności. Domyślnym założeniem jest, że odizolowane systemy tłumaczeniowe z włączonym trybem samolotowym nie mogą być zdalnie monitorowane ani zhakowane. Kolejnym założeniem jest to, że operatorzy nie tylko zostali odpowiednio zweryfikowani, ale podjęli odpowiednie środki ostrożności przeciwko zagrożeniom zewnętrznym i wewnętrznym. Kolejnym domyślnym założeniem jest to, że łatwiej jest zabezpieczyć jedną mobilną stację roboczą przez kilka godzin niż zapobiec temu, by ludzcy lingwiści zarabiający średnio 25,01 USD na godzinę (Biuro Statystyki Pracy, Departament Pracy Stanów Zjednoczonych, 2021) dokonywali nieautoryzowanych ujawnień przez całe życie, szczególnie w świetle doniesień o aresztowaniach lingwistów podejrzanych o ujawnianie tajemnic (Biuro Spraw Publicznych Departamentu Sprawiedliwości, 2009, 2018, 2020).

    Przewidywanie: tłumaczenie maszynowe oparte na sztucznej inteligencji będzie działać na odizolowanym laptopie Lenovo Legion Y730-17ICH pracującym offline w trybie samolotowym

    Przewidzieliśmy, że nasz system tłumaczeniowy nie będzie działał wadliwie i ukończy swoje zadania gdy będzie fizycznie oddzielony i odłączony od wszystkich sieci lub urządzeń poprzez aktywację funkcji trybu samolotowego w systemie Windows 10 Pro na laptopie Lenovo Legion Y730-17ICH (Typ 81HG).

    Hybrydowy silnik łemkowsko-angielski oparty na regułach/słowniku i sieciach neuronowych

    Hipoteza: hybrydowe silniki oparte na słownikach/regułach poprawiają dokładność tłumaczenia maszynowego

    Postawiliśmy hipotezę, że nasz silnik tłumaczenia maszynowego oparty na regułach (RBMT) polsko-łemkowski, silnik tłumaczenia maszynowego oparty na słowniku (DBMT) polsko-łemkowski, silnik DBMT łemkowsko-polski uruchomiony w odwrotnym kierunku oraz neuronowy silnik polsko-angielski mogą być synergicznie połączone w silnik hybrydowy, który osiąga wyższe wyniki jakości z każdą dodatkową częścią. Hipoteza ta opierała się na obserwacjach autora pracującego jako profesjonalny tłumacz łemkowsko-angielski, że odpowiedniki między językiem łemkowskim a polskim były wystarczająco częste, aby uczynić silnik hybrydowy realną propozycją.

    Przewidywanie: każdy podsilnik dodany do naszego hybrydowego silnika łemkowsko-angielskiego zwiększy BLEU o 5 punktów

    Przewidzieliśmy, że dla każdego podsilnika łemkowsko-polskiego opartego na regułach lub słowniku, który dodamy do naszego hybrydowego silnika łemkowsko-angielskiego, ogólny wynik dokładności BLEU wzrośnie o 5 punktów.

    Wprowadzenie do metod i uzasadnienie

    Zestawiliśmy człowieka z maszyną, dając obu laptop średniej klasy odizolowany od sieci, uruchamiający nasz własny program wspomaganego komputerowo tłumaczenia (szczegółowo opisany poniżej) w trybie offline z włączonym trybem samolotowym Windows. Rejestrowaliśmy szybkość i dokładność tłumaczenia z rosyjskiego na angielski (para języków o dużych zasobach), z polskiego na angielski (para o średnich zasobach) i z łemkowskiego na angielski (para o małych zasobach). Do wyrażenia szybkości użyliśmy metryki słów na godzinę, ponieważ jest ona podstawą dla kierowników projektów lokalizacyjnych, a także jest stosowana w literaturze naukowej (Macken, Prou, & Tezcan, 2020, s. 4). Do pomiaru dokładności użyliśmy metryki BLEU, ponieważ jest ona najbardziej rozpowszechniona w dziedzinie badań i rozwoju (Post, 2018).

    Główne wyniki w skrócie

    Nie tylko udało nam się zastosować przełomową technologię neuronowego tłumaczenia maszynowego do wykorzystania sztucznej inteligencji na odizolowanym, offline’owym laptopie w trybie samolotowym do tłumaczenia języka o bogatych zasobach (rosyjskiego) ponad 10 razy szybciej niż nasz kontrolny tłumacz-człowiek, ale jakość tłumaczenia naszej maszyny była o ponad 58 procent „lepsza niż ludzka„. Co więcej, jesteśmy pierwszym zespołem na świecie, który opublikował w czasopiśmie naukowym wyniki dotyczące silników tłumaczenia maszynowego dla języka łemkowskiego.

    Materiały i metody

    Wprowadzenie

    Aby przetestować nasze przewidywania, zbudowaliśmy szereg silników tłumaczeniowych opartych na sztucznej inteligencji i hybrydowych, obliczyliśmy ich szybkość i dokładność na odizolowanym laptopie w trybie samolotowym Windows i zrobiliśmy to samo z profesjonalnym lingwistą, aby uczynić nasz eksperyment kontrolowanym.

    Konfiguracja laboratorium

    Sprzęt

    Używaliśmy laptopa Lenovo Legion Y730-17ICH (Typ 81HG) z systemem Windows 10 Pro (64-bit). Model został wycofany ze sprzedaży i kosztuje około 850 USD w stanie używanym w momencie publikacji.

    System operacyjny

    Zwirtualizowanym systemem operacyjnym używanym do eksperymentu był Linux Subsystem for Windows, a dokładnie Ubuntu 18.04 LTS zainstalowany przez platformę dystrybucji cyfrowej Microsoft Store.

    Zależności

    Python 3.8 został zainstalowany przy użyciu polecenia sudo apt install python3.8.

    Polecenie sudo python3.8 -m pip install –upgrade zostało użyte do zainstalowania głównych zależności, w tym bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision.

    Narzędzia

    Zainstalowaliśmy Facebook AI Research Sequence-to-Sequence Toolkit, uruchamiając następujące polecenia:

    sudo git clone https://github.com/pytorch/fairseq
    cd fairseq
    sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./

    Dokumentacja i wsparcie techniczne są dostępne na https://github.com/pytorch/fairseq

    Modele tłumaczenia maszynowego

    Dla naszych silników neuronowych polsko-angielskich i hybrydowych łemkowsko-angielskich użyliśmy modelu konwolucyjnego polsko-angielskiego Sławomira Dadasa, dostępnego i udokumentowanego w jego repozytorium Polish Natural Language Processing (NLP) Resources (Dadas, 2019).

    Model: https://github.com/sdadas/polish-nlp-resources/releases/download/nmt-models-conv/polish-english-conv.zip

    Dokumentacja: https://github.com/sdadas/polish-nlp-resources#machine-translation-models

    Dla naszego silnika rosyjsko-angielskiego wykorzystaliśmy wstępnie wytrenowany pojedynczy model transformatora Facebook AI Research Sequence-to-Sequence (FAIRseq) z rosyjskiego na angielski bez dostrajania, który został zgłoszony na Fourth Conference on Machine Translation (WMT19) w 2019 roku.

    Model: https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
    Dokumentacja: https://github.com/pytorch/fairseq/tree/master/examples/wmt19

    Słowniki elektroniczne

    Nasz profesjonalny lingwista miał dostęp offline do elektronicznych wersji New Kościuszko Foundation American English to Polish Dictionary (12,99 USD), a także Oxford Russian Dictionary (19,99 USD). Oba zostały zakupione przez Microsoft Store. Słownik łemkowsko-polski i polsko-łemkowski Jarosława Horoszczaka (2004) był również dostępny dla naszego lingwisty do użytku offline.

    Kontrola eksperymentu

    Eksperyment był kontrolowany poprzez posadzenie profesjonalnego lingwisty przy odizolowanym laptopie w trybie samolotowym, z wyżej wymienionymi słownikami elektronicznymi dostępnymi na maszynie. Lingwista naciskał klawisz enter, w tym momencie uruchamiał się timer i wyświetlało się zdanie źródłowe do przetłumaczenia. Lingwista mógł wpisać swoje tłumaczenie w Microsoft Word (aby skorzystać z funkcji sprawdzania pisowni i innych pomocy do przetwarzania tekstu), a następnie wkleić je do naszego własnego programu wspomaganego komputerowo tłumaczenia. Po ponownym naciśnięciu klawisza enter, tłumaczenie ludzkie zostało przesłane i timer zatrzymany. Szybkość ludzkiego lingwisty w zakresie słów na godzinę i dokładność w zakresie wyniku BLEU były obliczane dla każdego przetłumaczonego zdania.

    Petro Orynycz, który ma dwudziestoletnie doświadczenie jako lingwista rosyjski i polski, polski dyplom uniwersytecki z języka rosyjskiego i ponad 5-letnie doświadczenie jako profesjonalny tłumacz łemkowsko-angielski, służył jako podmiot kontrolny. Wykonał tłumaczenia zwrotne materiałów rosyjskich i polskich wymienionych poniżej, a także retranslacje na angielski z łemkowskiego.

    Materiał eksperymentalny: tłumaczenia referencyjne

    Tekst rosyjsko-angielski i polsko-angielski do eksperymentu został pozyskany z materiałów edukacyjnych udostępnionych publicznie i przetłumaczonych z języka angielskiego na rosyjski i polski przez publikację NATO Review Organizacji Traktatu Północnoatlantyckiego (NATO). Cytując: „Reprodukcja części, fragmentów lub artykułów NATO Review jest dozwolona do celów niekomercyjnych, pod warunkiem podania źródła: NATO Review„. Zgodnie ze standardową praktyką (Post, 2018), dane korpusu zostały oczyszczone i znormalizowane poprzez zamianę tekstu na małe litery i tokenizację. Zadbano o to, aby tekst źródłowy i tłumaczenia docelowe były wyrównane na poziomie zdań.

    Do tego eksperymentu wykorzystaliśmy wykład wygłoszony przez dr. Jamiego Shea, ówczesnego zastępcę sekretarza generalnego NATO ds. nowych wyzwań bezpieczeństwa. Jego tytuł to What Can We Learn Today from the 'Three Wise Men’? Oryginalny tekst angielski wykładu dr. Shea i jego tłumaczenia na rosyjski i polski zlecone przez NATO zostały pobrane z następujących jednolitych lokalizatorów zasobów:

    Angielski oryginał: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

    Tłumaczenie rosyjskie: https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.html

    Tłumaczenie polskie: https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.html

    Materiał łemkowsko-angielski do eksperymentu obejmował wywiady przeprowadzone osobiście przez John & Helen Timo Foundation ze Stanów Zjednoczonych, która zatrudniła Petra Orynycza do transkrypcji wywiadów i przetłumaczenia ich na angielski. Fundacja później uprzejmie przekazała powstałe korpusy dwujęzyczne na rzecz badań naukowych i rozwoju. Aby chronić prywatność osób omawianych w wywiadach i z poszanowaniem ogólnego rozporządzenia o ochronie danych Unii Europejskiej (RODO), materiały nie zostały udostępnione publicznie. Zachowano ostrożność, aby zredagować wszelkie dane umożliwiające identyfikację osoby (PII) i informacje o zdrowiu osobistym (PHI) przed udostępnieniem próbek.

    Metoda oceny dokładności tłumaczenia: BLEU

    Metryka bilingual understudy evaluation (BLEU) została użyta do pomiaru podobieństwa do tłumaczenia referencyjnego, a tym samym, choć niedoskonale, dokładności. Chociaż wynik BLEU nie jest doskonałą miarą dokładności lub jakości, jest najszerzej stosowany w branży (Post, 2018). Moduł Python został pozyskany z pakietu Python bleu, udokumentowanego pod następującym jednolitym lokalizatorem zasobów: https://pypi.org/project/bleu/

    Upewniliśmy się, że gdy podane są referencyjne ciągi zdań “it is a white cat .” i “wow , this dog is huge .” wraz z kandydującymi hipotezami “it is a white kitten .” i “wowww , the dog is huge !”, nasz system obliczył łączny wynik BLEU 34,99, zgodnie z dokumentacją pakietu Python bleu.

    Metoda normalizacji i czyszczenia tekstu

    Cały tekst został zapisany małymi literami, a przed i po wszystkich znakach interpunkcyjnych dodano spację, aby system nie zakładał, że na przykład „Kot„ i „kot.„ to różne słowa. Tak więc „To jest biały kot.„ zostałoby znormalizowane do „to jest biały kot .„. Wielokrotne spacje i inne sekwencje białych znaków zostały zastąpione pojedynczą spacją przy użyciu metod Python split() i join().

    Metoda liczenia słów

    Liczba słów na zdanie była określana poprzez podzielenie znormalizowanego ciągu tekstu na tablicę przy użyciu spacji jako separatora, a następnie zliczenie elementów w tej tablicy.

    Metoda pomiaru szybkości tłumaczenia

    W momencie gdy tłumacz ludzki nacisnął klawisz enter, aby rozpocząć tłumaczenie zdania, wywołaliśmy metodę Python time.time() aby uzyskać liczbę sekund od północy czasu uniwersalnego (UTC) 1 stycznia 1970 jako liczbę zmiennoprzecinkową, powszechnie określaną jako czas Unix, i użyliśmy tej liczby jako czasu rozpoczęcia przez człowieka. Uzyskaliśmy również czas Unix, gdy nasze silniki tłumaczenia maszynowego podejmowały zdanie do tłumaczenia.

    Moment, w którym tłumacz-człowiek nacisnął klawisz enter, aby przesłać swoje tłumaczenie zdania, lub maszyna zwróciła swoje tłumaczenie zdania, był używany jako czas zakończenia. Odejmując czas rozpoczęcia od czasu zakończenia, otrzymaliśmy całkowitą liczbę sekund, jaką zajęło tłumaczenie zdania.

    Obliczyliśmy liczbę słów na godzinę, dzieląc różnicę między czasem zakończenia a czasem rozpoczęcia w formacie Unix przez liczbę słów obliczoną jak powyżej, a następnie mnożąc ten iloraz przez 3600 (czyli 60 × 60, czyli liczbę sekund w godzinie):

    Prędkość = (Czas_zakończenia_tłumaczenia − Czas_rozpoczęcia_tłumaczenia) / Całkowita_liczba_przetłumaczonych_słów × 3600

    Metoda fizycznego izolowania i odłączania sprzętu od sieci

    Sprzęt używany w eksperymencie został odcięty od świata zewnętrznego nie tylko poprzez jego fizyczną izolację, ale także poprzez zastosowanie funkcji Trybu samolotowego systemu Microsoft Windows 10 Pro, która zgodnie z dokumentacją wyłącza całą komunikację bezprzewodową na urządzeniu, w tym bezprzewodową sieć IEEE 802.11b Direct Sequence, sieć komórkową, Bluetooth, System Pozycjonowania Globalnego oraz komunikację bliskiego zasięgu.

    Wyniki

    Prędkość tłumaczenia: im wyższy zasób pary językowej, tym szybszy silnik

    Maszyna przewyższyła człowieka pod względem prędkości tłumaczenia dla pary o wysokim zasobie rosyjsko-angielskiej i pary o średnim zasobie polsko-angielskiej, zgodnie z naszą hipotezą, że neuronowe tłumaczenie maszynowe było szybsze niż ludzkie, i przewidywaniem, że nasze silniki neuronowe przetłumaczą więcej słów na godzinę. Przy tłumaczeniu z rosyjskiego nasz silnik osiągnął średnio ponad 6456 słów na godzinę, co było o 1170% szybsze niż nasz tłumacz-człowiek. Przy tłumaczeniu z polskiego nasz silnik neuronowy był o 488% szybszy niż nasz tłumacz-człowiek, osiągając średnio 3768 słów na godzinę. Dla pary o niskim zasobie łemkowsko-angielskiej nasz hybrydowy silnik neuronowy i słownikowo-regułowy osiągnął 707 słów na godzinę, prawie dorównując naszemu tłumaczowi-człowiekowi, który był o 13% szybszy, osiągając 798 słów na godzinę. Usunięcie wagi komponentu opartego na słowniku z silnika hybrydowego prawie czterokrotnie zwiększyło prędkość do 3137 słów na godzinę, co jest o 293% szybsze niż człowiek, kosztem 13% spadku dokładności.

    Human versus Machine Translation Speed, Words per Hour 0 1000 2000 3000 4000 5000 6000 7000 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 6456 509 3768 640 3137 707 752 798 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional human translation
    Rysunek 1. Prędkość tłumaczenia profesjonalnego człowieka w porównaniu z maszyną (słowa/godzinę) na odłączonym od sieci laptopie średniej klasy (tryb samolotowy): rosyjsko-angielski (wysoki zasób) vs polsko-angielski (średni zasób) vs łemkowsko-angielski (niski zasób).
    Dane z rysunku 1: prędkość tłumaczenia (słowa na godzinę)
    Para językowa Metoda Słowa/godzinę
    Rosyjsko-angielskiProfesjonalny człowiek509
    Rosyjsko-angielskiTylko NMT6456
    Polsko-angielskiProfesjonalny człowiek640
    Polsko-angielskiTylko NMT3768
    Łemkowsko-angielskiProfesjonalny człowiek798
    Łemkowsko-angielskiRomanizacja + hybrydowy słownikowo-regułowy MT łemkowski→polski + NMT polski→angielski707
    Łemkowsko-angielskiRomanizacja + słownikowy MT łemkowski→polski + NMT polski→angielski752
    Łemkowsko-angielskiRomanizacja + regułowy MT łemkowski→polski + NMT polski→angielski3137

    Dokładność tłumaczenia: im wyższy zasób pary językowej, tym dokładniejszy silnik

    Dokładność tłumaczenia naszych silników sztucznej inteligencji przewyższyła dokładność profesjonalnych lingwistów. To wykroczyło poza naszą hipotezę, że odłączone od sieci neuronowe tłumaczenie maszynowe jest teraz tylko nieznacznie mniej dokładne niż tłumacze-ludzie. Nasz rosyjsko-angielski silnik sztucznej inteligencji osiągnął 158% dokładności naszego tłumacza-człowieka, przekraczając przewidywane przez nas 75%. Nasz polsko-angielski silnik neuronowy uzyskał wynik 117% dokładności naszego tłumacza-człowieka, przekraczając nasze oczekiwanie 75%. Nasz hybrydowy silnik łemkowsko-angielski osiągnął wynik BLEU 14,57 (51% wyniku naszego profesjonalnego tłumacza), zgodnie z naszą prognozą 15, po zaokrągleniu w górę. Usunięcie naszego podsilnika opartego na regułach spowodowało 2% wzrost dokładności i 6% wzrost prędkości. Usunięcie podsilnika opartego na słowniku spowodowało 13% spadek dokładności, ale 344% wzrost prędkości. Podsumowując, nasze silniki sztucznej inteligencji dla języków o średnim i wysokim zasobie były znacznie dokładniejsze niż nasz tłumacz-człowiek, podczas gdy nasze hybrydowe silniki dla języków o niskim zasobie były około połowę tak dokładne jak nasz tłumacz-człowiek.

    Human versus Machine Translation Accuracy, BLEU Score 0 5 10 15 20 25 30 35 40 45 Russian-English (High-Resource Pair) Polish-English (Medium-Resource Pair) Lemko-English (Low-Resource Pair) 39.37 24.86 35.81 30.53 14.57 14.8 12.64 28.66 Romanization + Hybrid Dictionary/Rule-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Dictionary-Based Lemko-Polish MT + Polish-English Neural Translation Romanization + Rule-Based Lemko-Polish MT + Polish-English Neural Translation Artificial Intelligence Neural Machine Translation Alone Professional Human Translation
    Rysunek 2. Wynik jakości tłumaczenia BLEU profesjonalnego człowieka w porównaniu z maszyną na odłączonym od sieci laptopie średniej klasy w trybie samolotowym, rosyjsko-angielski (para o wysokim zasobie) versus polsko-angielski (para o średnim zasobie) versus łemkowsko-angielski (para o niskim zasobie).
    Dane z rysunku 2: wynik BLEU
    Para językowa Metoda BLEU
    Rosyjsko-angielskiSztuczna inteligencja Neuronowe tłumaczenie maszynowe samodzielnie39,37
    Rosyjsko-angielskiProfesjonalne tłumaczenie ludzkie24,86
    Polsko-angielskiSztuczna inteligencja Neuronowe tłumaczenie maszynowe samodzielnie35,81
    Polsko-angielskiProfesjonalne tłumaczenie ludzkie30,53
    Łemkowsko-angielskiRomanizacja + hybrydowy słownikowo-regułowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski14,57
    Łemkowsko-angielskiRomanizacja + słownikowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski14,8
    Łemkowsko-angielskiRomanizacja + regułowy MT łemkowski→polski + Neuronowe tłumaczenie polski→angielski12,64
    Łemkowsko-angielskiProfesjonalne tłumaczenie ludzkie28,66

    Bezpieczeństwo tłumaczenia

    Zgodnie z naszą hipotezą, że rozwiązanie neuronowego tłumaczenia maszynowego może być zaprojektowane do działania na odłączonym od sieci laptopie, nasz eksperyment zakończył się sukcesem w tym zakresie. Zgodnie z naszą prognozą, nasz eksperyment działał z włączonym trybem samolotowym Windows i nie wystąpiły żadne błędy spowodowane działaniem w odcięciu od świata zewnętrznego.

    Tłumaczenie maszynowe oparte na regułach między językiem łemkowskim a polskim

    Nasza hipoteza, że pokrewieństwo między językiem łemkowskim a polskim jest na tyle silne, że łemkowski będzie można tłumaczyć na polski za pomocą substytucji opartej na regułach i słowniku, została potwierdzona przez imponujące wyniki naszego hybrydowego silnika neuronowo-regułowego łemkowsko-angielskiego. Nasza hipoteza, że połączenie podsilnika opartego na regułach z opartym na słowniku zaowocuje dokładniejszym silnikiem hybrydowym, nie jest obecnie poparta naszymi danymi. Dodanie modułu opartego na słowniku do opartego na regułach zwiększyło BLEU silnika o 2,16 punktu, mniej niż nasze przewidywanie 5.

    Dyskusja

    Nowa era

    Udowodniliśmy, że nie tylko możliwe jest powierzenie sztucznej inteligencji pracy związanej z wiedzą w zakresie tłumaczenia z języków o wysokim, średnim i niskim zasobie w środowisku o kontrolowanym dostępie, ale neuronowe tłumaczenie maszynowe może wykonać tę pracę szybciej, bezpieczniej i w wielu przypadkach lepiej. Nasze wyniki nie tylko potwierdziły nasze hipotezy, ale wydajność naszych silników neuronowych przewyższyła nasze przewidywania. Nadeszła nowa era tłumaczenia maszynowego w czasie prawie rzeczywistym, działającego niezależnie lub w partnerstwie z ludźmi.

    Prędkość

    Nasz silnik tłumaczył z języka rosyjskiego w tempie 6456 słów na godzinę. Dla kontekstu, skonsultowaliśmy się z ekspertem Marcem Hackelem, waszyngtońskim lingwistą branży obronnej i tłumaczem rosyjsko-angielskim z wieloletnim doświadczeniem, który powiedział nam, że „swoistą regułą jest, że bardzo doświadczony tłumacz powinien być w stanie przetłumaczyć co najmniej 8 stron (czyli 8 stron po 500 słów, łącznie 4000 słów) w ciągu 8-godzinnego dnia pracy, zakładając brak przeszkód takich jak akronimy i tym podobne. Średnia dla wielu wynosi faktycznie 250 słów na godzinę, nie 500„. Tak więc silniki neuronowe mogą wykonać w niespełna godzinę to, co ludziom zajmuje dni.

    Dokładność

    Nasze silniki sztucznej inteligencji osiągnęły wyższe wyniki BLEU niż nasz profesjonalny lingwista. Według tej miary, nasze maszyny są „lepsze„ w tłumaczeniu z rosyjskiego i polskiego niż ludzie.1 Ponieważ sugestia, że maszynowe tłumaczenie sztucznej inteligencji może być o ponad 50% dokładniejsze niż doświadczeni lingwiści jest rewolucyjna, eksperyment ten wymaga powtórzenia na jeszcze większej liczbie lingwistów i korpusów, aby wykluczyć przypadkowość. Użyliśmy wyjątkowo czystych, wymagających tekstów z kwiecistym językiem, na których silniki tłumaczenia maszynowego tradycyjnie się dławią, a ludzie doskonale sobie radzą. Chociaż dążyliśmy do wyrównanych szans, spodziewaliśmy się, że jakakolwiek przewaga będzie po stronie ludzkiej. Prosimy o kontakt z Petro Orynyczem pod podanym powyżej adresem w celu uzyskania dostępu do naszych surowych danych i wyników.

    Następne kroki

    Używaliśmy starszego, przestarzałego sprzętu. Nowszy sprzęt z szybszymi, następnej generacji jednostkami przetwarzania graficznego mógłby skutkować dramatyczną poprawą szybkości tłumaczenia. Nasza baza kodu powinna zostać zoptymalizowana, aby zmaksymalizować wykorzystanie istniejących zasobów, takich jak jednostki przetwarzania graficznego (GPU). Planujemy przekształcić nasz moduł tłumaczenia maszynowego opartego na słowniku w zestaw testów do użycia w rozwoju sterowanym testami (TDD) naszego modułu tłumaczenia maszynowego opartego na regułach (RBMT), który mógłby zostać użyty do opracowania tekstów równoległych do trenowania czysto neuronowych silników sztucznej inteligencji neuronowego tłumaczenia maszynowego łemkowsko-angielskiego i angielsko-łemkowskiego. Potrzebne są dalsze badania w celu identyfikacji punktów malejących zwrotów. Petro Orynycz planuje zastosować swoje hybrydowe systemy neuronowe i oparte na regułach do opracowania silników tłumaczeniowych dla dialektów rusińskich i ukraińskich rodzimych dla dzisiejszej Słowacji i Ukrainy.

    Podsumowanie

    Znajdujemy się u progu nowej transformacyjnej ery: udowodniliśmy, że sztuczna inteligencja może wykonywać pracę umysłową równie dobrze jak ludzie, a w coraz większej liczbie przypadków ponad 50% lepiej, w ułamku czasu i prawie bez ryzyka związanego z bezpieczeństwem. Sprzęt o wartości kilkuset dolarów, który mieści się w plecaku, to wszystko, czego potrzeba, aby zawsze mieć lepszego niż człowiek, krzemowego towarzysza-lingwistę, który nigdy nie zdradza sekretów ani się nie męczy. Dżin wydostał się z butelki i może spełnić nasze życzenie rewitalizacji zagrożonych języków, a może nawet marzenie o wskrzeszeniu wymarłych. Masowe wymieranie języków, w którego środku się znajdujemy, może zostać zatrzymane, a nawet odwrócone. Powinniśmy uważać na to, czego sobie życzymy – światy odizolowane przez wieki przez szyfrowanie w kosztownych do przetłumaczenia językach mają się zderzyć. Mamy nadzieję, że to zmiana na lepsze. Proščaj, bariero językowa. Witaj, nowy świecie.

    Przypisy

    ^ 1 Historycznie niektóre społeczności sprzeciwiają się używaniu BLEU do porównywania tłumaczenia ludzkiego z maszynowym, jednak żaden inny system nie jest tak szeroko akceptowany ani dostępny z szeroką, recenzowaną walidacją w użyciu. W rzeczywistości, twórcy wskaźnika BLEU – Papineni, Roukos, Ward i Zhu przewidzieli ten punkt napięcia w pracy sponsorowanej przez Departament Obrony Stanów Zjednoczonych (finansowanej przez Defense Advanced Research Projects Agency [DARPA] i monitorowanej przez Space and Naval Warfare Systems Command [SPAWAR]) w ramach ich przełomowej publikacji, pisząc: „Ponadto [metryka] musi rozróżniać między dwoma tłumaczeniami ludzkimi o różnej jakości. Ten ostatni wymóg zapewnia ciągłą ważność metryki, gdy MT [tłumaczenie maszynowe] zbliża się do jakości tłumaczenia ludzkiego.„ Łamiąc tabu od samego początku, przystąpili następnie do obliczania wyników BLEU dla „Human-1„, nie będącego rodzimym użytkownikiem ani chińskiego, ani angielskiego, oraz „Human-2„, rodzimego użytkownika języka angielskiego, i pokazali, jak ich wyniki BLEU były zbliżone do ocen wydanych przez ludzkich sędziów (Papineni, Roukos, Ward, & Zhu, 2002).

    Podziękowania

    Pragniemy podziękować naszemu doradcy, Timowi Quiramowi, Zastępcy Szefa Wydziału Szkolenia Dowództwa Gotowości Sił Straży Przybrzeżnej Stanów Zjednoczonych, za zachęcanie do kontynuowania pracy, zarządowi Antech Systems, Inc. oraz zespołowi ePerformance Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF), za stworzenie środowiska, w którym możemy realizować nasze pasje, naszemu Wiceprezesowi Wykonawczemu Dywizji Tomowi Dobry’emu za jego nieocenione wskazówki, trafny osąd i wizjonerskie przywództwo, a także naszemu kierownikowi zespołu Willowi Duffowi za motywowanie nas do ciężkiej pracy, budowanie ducha koleżeństwa i wsparcie moralne. Petro Orynycz pragnie podziękować swoim kierownikom projektów z zakresu sztucznej inteligencji, Raffaele Pascale i Michalowi Brnušákowi z firmy Venga Global Inc. z Doliny Krzemowej, za ich profesjonalizm, autentyczną troskę o zespół i niezachwiane dążenie do perfekcji. Pan Orynycz pragnie również podziękować swoim kolegom inżynierom i starym przyjaciołom, Michaelowi Lawrence’owi Cramerowi z BCT LLC i Michaelowi Decerbo z Raytheon BBN Technologies, za wiarę od samego początku. Ponadto pragnie podziękować swojemu przyjacielowi i koledze językoznawcy obliczeniowemu, dr. Jounie Pyysalo z Uniwersytetu w Helsinkach, za spełnianie marzeń. Na koniec pragnie podziękować Marii Silvestri z Fundacji Johna i Helen Timo za jej wkład w badania naukowe i rozwój wywiadów łemkowskich, które przeprowadziła, oraz tłumaczeń, które zleciła mu wykonać, a także swojej drogiej przyjaciółce Ołenie Duć z Ruskiej Bursy za jej nieocenione tłumaczenia i transkrypcje wywiadów.

    Referencje

    al-Kindī, Y. i. (2002). Zredagowany traktat al-Kindiego. W M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (red.), Traktat al-Kindiego o kryptoanalizie (t. 1) (S. M. al-Asaad, tłum., t. 1, s. 117-204). Damaszek, Syria: KFCRIS & KACST. (Oryginał opublikowany ok. 850).

    Associated Press. (2021, 26 stycznia). Populacja Polski gwałtownie maleje w czasie pandemii. Pobrano 19 czerwca 2021 z lokalizacji AP NEWS: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e

    Biuro Statystyki Pracy, Departament Pracy Stanów Zjednoczonych. (2021). Informator zawodowy, Tłumacze ustni i pisemni. Waszyngton, DC. Pobrano 1 czerwca 2021 z: https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm

    Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kryteria wyboru programów dla języków o ograniczonych zasobach. Materiały z Dziesiątej Międzynarodowej Konferencji na temat Zasobów i Ewaluacji Językowej (LREC’16) (s. 4543–4549). Portorož, Słowenia: European Language Resources Association (ELRA). Pobrano 27 czerwca 2021 z: https://www.aclweb.org/anthology/L16-1720

    Dadas, S. (2019). Repozytorium zasobów NLP dla języka polskiego. Pobrano 26 maja 2021 z: https://github.com/sdadas/polish-nlp-resources/

    Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013. Warszawa, Polska: Ministerstwo Spraw Wewnętrznych i Administracji. Pobrano 13 czerwca 2021 z: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf

    Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2009, 17 grudnia). Były tłumacz kontraktowy FBI przyznaje się do ujawnienia informacji niejawnych blogerowi. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger

    Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2018, 23 sierpnia). Kontrahent rządu federalnego skazany za usunięcie i przekazanie materiałów niejawnych do agencji informacyjnej. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news

    Biuro Informacji Publicznej Departamentu Sprawiedliwości. (2020, 17 sierpnia). Były oficer CIA aresztowany i oskarżony o szpiegostwo. Pobrano 9 czerwca 2021 z Departamentu Sprawiedliwości Stanów Zjednoczonych: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage

    Państwowa Służba Statystyki Ukrainy. (2001). Liczebność osób poszczególnych grup etnograficznych narodu ukraińskiego i ich język ojczysty. Pobrano 26 sierpnia 2021 z Ogólnoukraińskiego spisu ludności 2001: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1

    Duć-Fajfer, O. (2016). Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In J. Olko, T. Wicherkiewicz, & R. Borges (red.), Integral Strategies for Language Revitalization (pp. 177-178). Warszawa, Poland: Faculty of „Artes Liberales„, University of Warsaw. Retrieved from http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177

    DuPont, Q. (2018, maj). Kryptologiczne początki tłumaczenia maszynowego, od al-Kindiego do Weavera. (C. Mitchell, & R. Raley, red.) amodern(8), 1-20. Pobrano 22 maja 2021 z: http://amodern.net/article/cryptological-origins-machine-translation/

    Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Ile języków jest na świecie? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, red.) Pobrano 13 czerwca 2021 z Ethnologue: Languages of the World: https://www.ethnologue.com/guides/how-many-languages

    Fortson IV, B. W. (2004). Język i kultura indoeuropejska. Malden, MA, USA: Blackwell Publishing.

    Google. (2021, 8 czerwca). Obsługiwane języki | Cloud Translation. Pobrano 13 czerwca 2021 z Google Cloud: https://cloud.google.com/translate/docs/languages

    Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Cyfrowy Korpus Parlamentu Europejskiego. Konferencja Zasobów Językowych i Ewaluacji (LREC 2014), (s. 3164-3171). Reykjavik, Islandia. Pobrano 19 czerwca 2021 z: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf

    Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski. Warszawa, Polska: Fundacja Wspierania Mniejszości Łemkowskiej Rutenika.

    Jassem, W. (2003, czerwiec). Polski. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191

    Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Eksperymentowanie z różnymi modelami tłumaczenia maszynowego w warunkach średnich zasobów. W P. Sojka, I. Kopeček, K. Pala, & A. Horák (red.), Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science. 12284, s. 2. Springer, Cham. doi:10.1007/978-3-030-58323-1_10

    Kerča, I. (2007). Słownik rusińsko-rosyjski (t. 1). Użhorod, Ukraina: PolyPrynt.

    Kocmi, T. (2020). Zgłoszenie CUNI dla języka inuktitut w WMT News 2020. Materiały z 5. Konferencji o Tłumaczeniu Maszynowym (WMT), (s. 171–174). Association for Computational Linguistics. Pobrano 19 czerwca 2021 z: https://www.aclweb.org/anthology/2020.wmt-1.14

    Kocmi, T., & Bojar, O. (2019). Zgłoszenie CUNI dla języków o ograniczonych zasobach w WMT News 2019. Materiały z Czwartej Konferencji o Tłumaczeniu Maszynowym (WMT). Tom 2: Artykuły o zadaniach wspólnych (Dzień 1), s. 234–240. Florencja, Włochy: Association for Computational Linguistics. Pobrano 13 czerwca 2021 z: https://www.aclweb.org/anthology/W19-5322.pdf

    Lewis-Kraus, G. (2016, 14 grudnia). Wielkie przebudzenie SI (Going Neural). The New York Times, s. 40. Pobrano z: https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html

    Macken, L., Prou, D., & Tezcan, A. (2020, 23 kwietnia). Kwantyfikacja wpływu tłumaczenia maszynowego w procesie produkcji tłumaczeń wysokiej jakości. Informatics, 7(2). doi:10.3390/informatics7020012

    Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). The Russian-speakers in the CIS countries: migration activity and preservation of the Russian language. W: P. Vladimirovich (red.), 2018 International Scientific Conference „Investment, Construction, Real Estate: New Technologies and Special-Purpose Development Priorities„ (ICRE 2018), 212. Irkuck, Rosja. doi:10.1051/matecconf/201821210005

    Microsoft. (b.d.). Włączanie i wyłączanie trybu samolotowego. Pobrano 9 czerwca 2021 z Microsoft: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1

    NATO Review. (b.d.). O nas. Pobrano 9 czerwca 2021 z Organizacji Traktatu Północnoatlantyckiego: https://www.nato.int/docu/review/about.html

    Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019, sierpień). Zgłoszenie Facebook FAIR do zadania tłumaczenia wiadomości WMT19. Materiały z Czwartej Konferencji o Tłumaczeniu Maszynowym (Tom 2: Artykuły o zadaniach wspólnych, Dzień 1), 314-319. Florencja, Włochy: Association for Computational Linguistics. doi:10.18653/v1/W19-5333

    Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Szybkie, rozszerzalne narzędzie do modelowania sekwencyjnego. Materiały z NAACL-HLT 2019: Demonstracje. Materiały z Konferencji Północnoamerykańskiego Oddziału Stowarzyszenia Lingwistyki Komputerowej 2019 (Demonstracje), s. 48-53. Minneapolis, MN: Association for Computational Linguistics. doi:10.18653/v1/N19-4009

    Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Metoda automatycznej ewaluacji tłumaczenia maszynowego. Materiały z 40. Dorocznego Spotkania Stowarzyszenia Lingwistyki Komputerowej (s. 311-318). Filadelfia, PA: Annual Meeting of the Association for Computational Linguistics.

    Post, M. (2018, 12 września). Apel o jasność w raportowaniu wyników BLEU. Amazon Research.

    Rabus, A., & Scherrer, Y. (2017). Indukcja leksykonu dla mówionego języka rusińskiego – wyzwania i wyniki. Materiały z 6. Warsztatów Przetwarzania Języka Naturalnego dla Języków Bałto-Słowiańskich, (s. 27-32). Walencja, Hiszpania.

    Scherrer, Y., & Rabus, A. (2017). Wieloźródłowe tagowanie morfoskładniowe dla mówionego języka rusińskiego. Materiały z Czwartych Warsztatów NLP dla Podobnych Języków, Odmian i Dialektów (s. 84-92). Walencja, Hiszpania: Association for Computational Linguistics. doi:http://dx.doi.org/10.18653/v1/W17-1210

    Scherrer, Y., & Rabus, A. (2019, wrzesień). Neuronowe tagowanie morfoskładniowe dla języka rusińskiego. (R. Mitkov, red.) Natural Language Engineering, 25(5), s. 633-650. doi:10.1017/S1351324919000287

    Shea, J. (2016, 5 grudnia). What can we learn today from the 'three wise men’? NATO Review. Pobrano 26 maja 2021, z https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html

    Grupa Ekspertów Ad Hoc UNESCO ds. Języków Zagrożonych. (2003). Żywotność i zagrożenie języków. Międzynarodowe Spotkanie Ekspertów w sprawie Programu UNESCO Ochrony Języków Zagrożonych. Paryż: UNESCO. Pobrano 19 czerwca 2021 z: http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf

    Vasmer, M. J. (b.d.). Słownik etymologiczny języka rosyjskiego. (O. N. Trubačëv, tłum.) Moskwa: AST (Oryginał opublikowany w 1950).

    Watral, M. (2015, luty). Rewitalizacja Łemków. Znak(717), 38-44. Pobrano 24 sierpnia 2021 z: https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/

    Watral, M. (2016). Postawy względem języka łemkowskiego – wzór i jego realizacja. In J. Olko, T. Wicherkiewicz, & R. Borges (red.), Integral Strategies for Language Revitalization (pp. 221-260). Warsaw, Poland: Faculty of „Artes Liberales„, University of Warsaw. Retrieved August 24, 2021, from http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243

    Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Korpus równoległy Narodów Zjednoczonych v1.0. Materiały z Dziesiątej Międzynarodowej Konferencji na temat Zasobów i Ewaluacji Językowej (LREC’16), (s. 3530–3534). Portorož, Słowenia. Pobrano z: https://www.aclweb.org/anthology/L16-1561


  • Watch AI Empower New Speakers of Endangered Languages Like Lemko

    Watch AI Empower New Speakers of Endangered Languages Like Lemko

    Engineer Petro Orynycz unveils AI technology that empowers endangered language (Lemko) new speakers to read their language immediately. Watch and follow along with this interactive seminar.

    Watch

    https://www.orynycz.com/show/watch-ai-empower-new-speakers

    On Youtube

    [icon name=„youtube„ prefix=„fab„] Watch on YouTube

    On Facebook

    [icon name=„facebook-square„ prefix=„fab„] Watch on Facebook

    Try It Yourself

    1. Copy Lemko Text Below

    130 років тому вродил ся Теофіль Курилло, передовый представник лемківской інтеліґенциі
    Записал обставины поневоліня в початковым періоді од 14. вересня/септембра 1914 р. до 22. серпня/авґуста 1915 р.
    130 років тому в Розділю під Ґорлицями вродил ся єден з передовых представників лемківской інтеліґенциі поч. ХХ ст. – Теофіль Курилло (1891-1945).

    Source: LEM.FM – 130 років тому вродил ся Теофіль Курилло, передовый представник лемківской інтеліґенциі

    2. Paste Text Into Translator:

    [xyz-ips snippet=„Lemkotran„]

    3. Press „Go!„ Button Above.

    Description

    In a hands-on demo attended by over 50 worldwide, Natural Language Processing Engineer Petro Orynycz and Carpatho-Rusyn Society President Maryann Sivak unveil hybrid artificial intelligence technology that empowers new speakers of Lemko to read in the language immediately. Implications for endangered, low-resource language revitalization are discussed.

    Promotional Flyer by the University of Pittsburgh

    See here for the official announcement on the website of the Nationality Rooms of the University of Pittsburgh.

    Thank You Sponsors

    University of Pittsburgh
    University of Pittsburgh Center for Russian, East European & Eurasian Studies
    Carpatho-Rusyn Society
    https://www.orynycz.com/show/watch-ai-empower-new-speakers