Recenzowane publikacje naukowe

Jestem prelegentem i autorem recenzowanych artykułów dla największej na świecie konferencji poświęconej szkoleniom obronnym (I/ITSEC), a także dla międzynarodowych konferencjach poświęconych interakcji człowiek-komputer (HCI) publikowanych przez Springer Nature, jedno z najbardziej prestiżowych, najbardziej wpływowych i najstarszych nieprzerwanie działających wydawnictw akademickich.

BLEUkitne niebo dla rewitalizacji zagrożonych języków: Dokładność tłumaczenia neuronowego na język łemkowsko-rusiński i ukraiński szybuje (2023)

Streszczenie

Przyspieszająca globalna utrata języków, związana z podwyższonym wskaźnikiem używania nielegalnych substancji, cukrzycy typu 2, upijania się i napaści, a także sześciokrotnie wyższym wskaźnikiem samobójstw wśród młodzieży, stanowi rosnące wyzwanie dla mniejszości, społeczności tubylczych, uchodźców, skolonizowanych i imigrantów. W środowiskach, w których transmisja międzypokoleniowa jest często zakłócana, systemy neuronowego tłumaczenia maszynowego sztucznej inteligencji mogą potencjalnie ożywić języki dziedzictwa i wzmocnić pozycję nowych użytkowników, umożliwiając im rozumienie i bycie rozumianym poprzez natychmiastowe tłumaczenie. Jednak rozwiązania oparte na sztucznej inteligencji stwarzają problemy, takie jak wygórowane koszty i problemy z jakością wyników. Rozwiązaniem jest połączenie silników neuronowych z klasycznymi, opartymi na regułach, które umożliwiają inżynierom usuwanie zapożyczeń i neutralizowanie zakłóceń z języków dominujących. Niniejsza praca opisuje przegląd silnika wdrożonego na LemkoTran.com w celu umożliwienia tłumaczenia na i z języka łemkowskiego, poważnie zagrożonego, mniejszościowego języka ukraińskiej klasyfikacji genetycznej, występującego na pograniczu Polski i Słowacji (gdzie jest również określany jako rusiński). Moduły tłumaczeniowe oparte na słownikach zostały wyposażone w morfologiczne i składniowe generatory rzeczowników, czasowników i przymiotników zasilane 877 lematami wraz z 708 hasłami glosariusza, a cały system został nitowany przez 9 518 automatycznych, kodyfikacyjnych testów kontroli jakości. Owocem tej pracy jest 23% poprawa jakości tłumaczenia na język angielski od czasu ostatniej publikacji i 35% wzrost jakości tłumaczenia z języka angielskiego na łemkowski, zapewniając tłumaczenia, które przewyższają każdą usługę Tłumacza Google pod każdym względem i uzyskują wynik o 396% wyższy niż ukraińska usługa Google podczas tłumaczenia na łemkowski.

Preprint

Cytuj jako

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars.  W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), t. 14051.  Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
@inproceedings{orynycz2023bleu,
title={BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars},
author={Orynycz, Petro},
booktitle={International Conference on Human-Computer Interaction},
pages={135--149},
year={2023},
organization={Springer}
}

Zdobywanie serc i języków: Studium przypadku polsko-łemkowskiego (2023)

Streszczenie

Kiedy języki mniejszościowe i lokalne są tracone, cierpi na tym bezpieczeństwo narodowe: nie tylko często udokumentowany jest znaczny wzrost samobójstw, depresji, cukrzycy, napaści i nadużywania substancji odurzających, ale także powstaje pustka, która w przeszłości była wykorzystywana przez przeciwników. Na przykład, miliony osób ze społeczności posługujących się językami mniejszościowymi ahistorycznie przyjmują język rosyjski i/lub tożsamość rosyjską jako swoje własne w Ukrainie, w Białorusi, u sojuszników NATO, a nawet w Stanach Zjednoczonych. Jeśli luki w komunikacji w języku ojczystym pozostają wyłącznie w rękach przeciwników, wykorzystujących swoje wieloletnie doświadczenie z tymi językami, NATO pozostaje w bardzo niekorzystnej sytuacji, próbując zaangażować te społeczności. W Europie rany psychiczne zadane częściowo przez utratę języka nie zostały zasklepione przez asymilację. Zamiast tego, miasta doświadczają wybuchów izolujących napięć na Zachodzie, a wschodnie populacje są przekonywane przez wrogie mocarstwa, że są one ich prawdziwymi sojusznikami, którzy je rozumieją i szanują. Edukacja w języku urzędowym nie jest również panaceum: w przypadku Ukrainy (a nawet Hiszpanii) nietrywialne różnice między regionalnymi lektami a językiem urzędowym stwarzają przeciwnikom możliwości podsycania płomieni separatyzmu.

Wykorzystanie mechanizmów tłumaczenia maszynowego w celu wzmocnienia pozycji NATO i jego partnerów w szkoleniu rekrutów lub działaniu w terenie w języku najbliższym ich sercom i umysłom może przynieść natychmiastowy efekt „my” i pokazać przyjętą przez NATO wizję wielokulturowości. Sztuczna inteligencja i silniki oparte na regułach zostały zmontowane w celu tłumaczenia między urzędowym językiem Polski a językiem jej rdzennej mniejszości łemkowskiej, która od dawna jest celem obcych mocarstw. Silniki zostały ocenione za tłumaczenie z łemkowskiego na polski przy użyciu metryk opracowanych przy wsparciu Agencja Zaawansowanych Projektów Badawczych Departamentu Obrony Stanów Zjednoczonych (DARPA), uzyskując wynik oceny dwujęzycznej zastępczej BLEU na poziomie 31,13 i współczynnik edycji tłumaczenia TER na poziomie 54,10. Tymczasem w przeciwnym kierunku silniki uzyskały TER 53,73 i BLEU 29,49, co jest wynikiem 6,5 razy lepszym niż w przypadku polsko-ukraińskiej usługi Google Translate.

Preprint

Cytuj jako

Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. W: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC)  

Powiedz to dobrze: Neuronowe tłumaczenie maszynowe oparte na sztucznej inteligencji umożliwia nowym mówcom ożywienie języka łemkowskiego (2022)

Streszczenie

Oparte na sztucznej inteligencji neuronowe tłumaczenie maszynowe może wkrótce wskrzesić zagrożone języki, umożliwiając nowym użytkownikom porozumiewanie się w czasie rzeczywistym za pomocą zdań mierzalnie bliższych literackiej normie niż zdania rodzimych użytkowników języka, i to już od pierwszego dnia ich podróży do odzyskania języka. Podczas gdy Dolina Krzemowa inwestuje ogromne środki w technologię tłumaczenia neuronowego zdolną do nadludzkiej szybkości i dokładności dla najczęściej używanych języków na świecie, 98% zostało w tyle z powodu braku korpusów: neuronowe modele tłumaczenia maszynowego trenują na milionach słów dwujęzycznego tekstu, które po prostu nie istnieją dla większości języków, a ich złożenie kosztuje nawet sto tysięcy dolarów amerykańskich za język.

W przypadku języków o niskich zasobach istnieje bardziej pomysłowe podejście, jeśli nie bardziej skuteczne: uczenie transferowe, które umożliwia językom o niższych zasobach korzystanie z osiągnięć języków o wyższych zasobach. W tym eksperymencie angielsko-polska usługa tłumaczenia neuronowego Google została połączona z moim klasycznym, opartym na regułach silnikiem do tłumaczenia z angielskiego na zagrożony, wschodniosłowiański język o niskich zasobach: łemkowski. System osiągnął wynik oceny dwujęzycznej zastępczej BLEU na poziomie 6,28, kilka razy lepszy niż usługi Tłumacza Google z angielskiego na standardowy ukraiński (BLEU 2,17), rosyjski (BLEU 1,10) i polski (BLEU 1,70). Wreszcie, owoc tego eksperymentu, pierwsza na świecie usługa tłumaczenia z angielskiego na łemkowski, została udostępniona pod adresem www.LemkoTran.com, aby umożliwić nowym użytkownikom ożywienie ich języka.

Nowi mówcy są kluczem do rewitalizacji języka, a moc „mówienia dobrze” po łemkowsku jest teraz na wyciągnięcie ręki.

Preprint

Cytuj jako

Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko.  W: Degen, H., Ntoa, S. (red.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), t. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
@InProceedings{10.1007/978-3-031-05643-7_37,
author="Orynycz, Petro",
editor="Degen, Helmut
and Ntoa, Stavroula",
title="Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko",
booktitle="Artificial Intelligence in HCI",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="567--580",
abstract="Artificial-intelligence-powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world's most widely used languages, 98{\%} have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.",
isbn="978-3-031-05643-7"
}