Oto moje pełne artykuły na temat sztucznej inteligencji do tłumaczenia i rewitalizacji języków zagrożonych, takich jak łemkowski/ukraiński, w formacie tekstowym i PDF. Zapraszam do lektury!
Jestem autorem recenzowanych publikacji i prelegentem na największej na świecie konferencji szkoleniowej w dziedzinie obronności (I/ITSEC), a także na międzynarodowych konferencjach dotyczących interakcji człowiek-komputer (HCI), publikowanych przez Springer Nature, jedno z najbardziej prestiżowych, wpływowych i najdłużej działających wydawnictw akademickich.
Błękitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowego AI dla języka łemkowskiego i ukraińskiego wzrasta (2023)
Streszczenie
Przyspieszająca globalna utrata języków, związana z podwyższonym wskaźnikiem używania nielegalnych substancji, cukrzycy typu 2, upijania się i napaści, a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, stanowi rosnące wyzwanie dla społeczności mniejszościowych, rdzennych, uchodźczych, skolonizowanych i imigranckich. W środowiskach, w których transmisja międzypokoleniowa jest często zakłócana, systemy neuronowego tłumaczenia maszynowego oparte na sztucznej inteligencji mogą potencjalnie ożywić języki dziedzictwa i wzmocnić pozycję nowych użytkowników, umożliwiając im rozumienie innych i bycie rozumianymi dzięki natychmiastowemu tłumaczeniu. Jednak rozwiązania oparte na sztucznej inteligencji stwarzają także problemy, takie jak wygórowane koszty i wątpliwa jakość wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach systemami, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie zakłóceń ze strony języków dominujących. Niniejsza praca opisuje przebudowę silnika wdrożonego w serwisie LemkoTran.com w celu umożliwienia tłumaczenia z i na język łemkowski, poważnie zagrożony język mniejszościowy o ukraińskiej klasyfikowalności genetycznej, używany na pograniczu Polski i Słowacji (gdzie bywa również określany jako rusiński). Moduły tłumaczeniowe oparte na słownikach zostały wyposażone w morfologiczne i składniowe generatory rzeczowników, czasowników i przymiotników zasilane 877 lematami oraz 708 hasłami glosariusza, a cały system został poddany 9 518 automatycznym testom kontroli jakości odwołującym się do kodyfikacji językowej. Owocem tej pracy jest 23-procentowa poprawa jakości tłumaczenia na język angielski od czasu ostatniej publikacji oraz 35-procentowy wzrost jakości tłumaczenia z języka angielskiego na łemkowski, co pozwala uzyskać tłumaczenia przewyższające każdą usługę Tłumacza Google pod każdym względem i dające wynik o 396% wyższy niż ukraińska wersja Tłumacza Google podczas tłumaczenia na łemkowski.
Preprint
Prosimy cytować
Orynycz, P. (2023). Błękitne niebo dla rewitalizacji języków zagrożonych: Dokładność tłumaczenia neuronowego AI dla języka łemkowskiego i ukraińskiego wzrasta. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science (LNAI), t. 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
Zdobywanie serc i języków: Studium przypadku tłumaczenia z polskiego na łemkowski (2023)
Streszczenie
Gdy zanikają języki mniejszości i lokalne, cierpi na tym bezpieczeństwo narodowe: nie tylko często dokumentuje się znaczący wzrost samobójstw, depresji, cukrzycy, napaści i nadużywania substancji, ale powstaje próżnia, która historycznie była wykorzystywana przez przeciwników. Na przykład, miliony osób ze społeczności mniejszościowych ahistorycznie przyjmują język i/lub tożsamość rosyjską jako własną w Ukrainie, Białorusi, krajach sojuszniczych NATO, a nawet w Stanach Zjednoczonych. Jeśli luki w komunikacji w języku ojczystym pozostaną wyłącznie w rękach przeciwników, wykorzystujących ich długie doświadczenie z tymi językami, NATO pozostaje w znaczącej niekorzystnej sytuacji próbując dotrzeć do tych społeczności. W Europie rany psychiczne zadane częściowo przez utratę języka nie zostały zaleczone przez asymilację. Zamiast tego miasta doświadczają wybuchów izolujących napięć na Zachodzie, a wschodnie populacje są przekonywane przez wrogie mocarstwa, że to one są ich prawdziwymi sojusznikami, którzy ich rozumieją i szanują. Edukacja w języku oficjalnym również nie jest panaceum: w przypadku Ukrainy (a nawet Hiszpanii), nietrywiale różnice między lokalnymi lektami a językiem oficjalnym tworzą możliwości dla przeciwników do podsycania płomieni separatyzmu.
Wykorzystanie silników tłumaczenia maszynowego do wzmocnienia NATO i jego partnerów w szkoleniu rekrutów lub działaniu w terenie w języku najbliższym ich sercom i umysłom może zapewnić natychmiastowe poczucie „swojskości” i pokazać wielokulturową wizję NATO. Zgromadzono silniki sztucznej inteligencji i silniki oparte na regułach do tłumaczenia między oficjalnym językiem Polski a językiem jej rdzennej mniejszości łemkowskiej, która od dawna była celem obcych mocarstw. Silniki zostały ocenione w tłumaczeniu z łemkowskiego na polski przy użyciu metryk opracowanych przy wsparciu DARPA, uzyskując wynik BLEU (bilingual evaluation understudy) 31,13 i współczynnik edycji tłumaczenia (TER) 54,10. Tymczasem w przeciwnym kierunku silniki uzyskały wynik TER 53,73 i BLEU 29,49, wynik 6,5 razy lepszy niż usługa Google Translate dla pary polsko-ukraińskiej.
Preprint
Przeczytaj pełny tekst po angielsku!
Prosimy cytować
Orynycz, P., & Dobry, T. (2023). Zdobywanie serc i języków: Studium przypadku tłumaczenia z polskiego na łemkowski. W Materiałach z Konferencji Międzyresortowej/Przemysłowej ds. Szkoleń, Symulacji i Edukacji (I/ITSEC)
Powiedz to poprawnie: Neuronowe tłumaczenie maszynowe AI wspiera nowych użytkowników w rewitalizacji języka łemkowskiego (2022)
Streszczenie
Neuronowe tłumaczenie maszynowe wspierane sztuczną inteligencją może wkrótce rewitalizować zagrożone języki, umożliwiając nowym użytkownikom komunikację w czasie rzeczywistym przy użyciu zdań mierzalnie bliższych normie literackiej niż te używane przez rodzimych użytkowników, i to od pierwszego dnia ich podróży odzyskiwania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne zasoby w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków świata, 98% zostało pominiętych z powodu braku korpusów: modele neuronowego tłumaczenia maszynowego uczą się na milionach słów tekstu dwujęzycznego, który po prostu nie istnieje dla większości języków i kosztuje ponad sto tysięcy dolarów amerykańskich na język, aby go zgromadzić.
Dla języków o ograniczonych zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej efektywne: transfer uczenia się, który umożliwia językom o mniejszych zasobach korzystanie z osiągnięć języków o większych zasobach. W tym eksperymencie usługa tłumaczenia neuronowego Google z angielskiego na polski została połączona z moim klasycznym silnikiem opartym na regułach, aby tłumaczyć z angielskiego na zagrożony, niskorezursowy, wschodniosłowiański język łemkowski. System osiągnął wynik jakości BLEU (bilingual evaluation understudy) 6,28, kilkakrotnie lepszy niż usługi Google Translate dla tłumaczenia z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Wreszcie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem internetowym www.LemkoTran.com, aby wspierać nowych użytkowników w rewitalizacji ich języka.
Nowi użytkownicy są kluczowi dla rewitalizacji języka, a możliwość „powiedzenia tego poprawnie” w języku łemkowskim jest teraz w zasięgu ich ręki.
Preprint
Przeczytaj pełny tekst po angielsku
Prosimy cytować
Orynycz, P. (2022). Powiedz to poprawnie: Neuronowe tłumaczenie maszynowe AI wspiera nowych użytkowników w rewitalizacji języka łemkowskiego. W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37