Я є рецензованим автором і доповідачем на найбільшій у світі конференції з оборонного навчання (I/ITSEC), а також на міжнародних конференціях з взаємодії людини і комп’ютера (HCI), які публікуються Springer Nature, одним з найпрестижніших, найвпливовіших і найстаріших академічних видавництв, що постійно діють.
2023
BLEUкитне небо для відродження зникаючих мов: Точність нейронного ШІ перекладу лемківської та української мови зростає
Анотація
Прискорення втрати мов у світі, пов’язане з підвищеною частотою вживання заборонених речовин, діабету 2 типу, надмірного вживання алкоголю та нападів, а також у шість разів вищим рівнем самогубств серед молоді, створює зростаючу проблему для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де часто порушується міжпоколінна передача, системи нейронного машинного перекладу на основі штучного інтелекту мають потенціал відродити мови спадщини та надати можливості новим мовцям розуміти і бути зрозумілими через миттєвий переклад. Проте рішення на основі штучного інтелекту створюють проблеми, такі як заборонна вартість та проблеми з якістю результатів. Рішенням є поєднання нейронних двигунів з класичними, заснованими на правилах, які дозволяють інженерам очистити запозичені слова та нейтралізувати втручання домінуючих мов. Ця робота описує модернізацію двигуна, розгорнутого на LemkoTran.com, для забезпечення перекладу з лемківської мови та на неї – серйозно загроженої, міноритарної форми української мови, що є корінною для прикордонних територій між Польщею та Словаччиною (де її також називають русинською). Модулі перекладу на основі словників були оснащені морфологічно та синтаксично інформованими генераторами іменників, дієслів та прикметників, що працюють на основі 877 лем разом із 708 записами глосарію, і вся система була закріплена 9 518 автоматичними тестами контролю якості з посиланням на кодифікацію. Результатом цієї роботи є покращення якості перекладу на 23% з часу останньої публікації при перекладі англійською мовою та збільшення якості на 35% при перекладі з англійської на лемківську, що забезпечує переклади, які перевершують кожну службу Google Translate за всіма показниками та оцінюються на 396% вище, ніж українська служба Google при перекладі лемківською мовою.
Прошу цитувати як:
Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. У: Degen, H., Ntoa, S. (ред.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, т. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10
Завоювання сердець і язиків: тематичне дослідження з польської на лемківську
Анотація
Коли втрачаються мови меншин та місцеві мови, страждає національна безпека: не лише часто документуються значні збільшення випадків суїциду, депресії, діабету, нападів та зловживання речовинами, але створюється порожнеча, яку історично використовували противники. Наприклад, мільйони представників мовних меншин неісторично приймають російську мову та/або ідентичність як свою власну в Україні, Білорусі, країнах-союзниках НАТО і навіть у Сполучених Штатах. Якщо прогалини в спілкуванні рідною мовою залишаються лише в руках противників, які мають тривалий досвід роботи з цими мовами, НАТО залишається в значному невигідному становищі при спробі взаємодії з цими спільнотами. У Європі психічні рани, завдані частково втратою мови, не були загоєні асиміляцією. Натомість міста переживають спалахи ізолюючої напруженості на Заході, а східне населення переконують ворожі сили, що саме вони є їхніми справжніми союзниками, які розуміють і поважають їх. Освіта офіційною мовою також не є панацеєю: у випадку України (і навіть Іспанії) нетривіальні відмінності між місцевими діалектами та офіційною мовою створюють можливості для противників роздмухувати полум’я сепаратизму.
Використання систем машинного перекладу для посилення НАТО та його партнерів у навчанні новобранців або діяльності на місцях мовою, найближчою до їхніх сердець і розуму, може забезпечити негайне відчуття «своїх» і продемонструвати полікультурне бачення НАТО. Двигуни на основі штучного інтелекту та правил були зібрані для перекладу між офіційною мовою Польщі та мовою її корінної лемківської меншини, яка довгий час була мішенню іноземних держав. Двигуни оцінювалися при перекладі з лемківської на польську за допомогою метрик, розроблених за підтримки DARPA, отримавши оцінку двомовного оцінювання (BLEU) 31,13 та коефіцієнт редагування перекладу (TER) 54,10. Тим часом в іншому напрямку системи отримали TER 53,73 та BLEU 29,49, що в 6,5 разів краще, ніж у сервісу Google Translate для польсько-українського перекладу.
Прошу цитувати як:
Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. У: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?AbID=121223&CID=1001
2022
Скажи як треба: Нейронний машинний переклад на базі ШІ дає можливість новим мовцям відроджувати лемківську мову
Анотація
Нейронний машинний переклад на основі штучного інтелекту незабаром може відродити зникаючі мови, надаючи новим мовцям можливість спілкуватися в реальному часі, використовуючи речення, які кількісно ближчі до літературної норми, ніж у носіїв мови, починаючи з першого дня їхнього шляху відновлення мови. У той час як Кремнієва долина вкладає величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% мов залишилися поза увагою через відсутність корпусів: моделі нейронного машинного перекладу навчаються на мільйонах слів двомовного тексту, якого просто не існує для більшості мов, і створення якого коштує понад сто тисяч доларів США для кожної мови.
Для мов з обмеженими ресурсами існує більш раціональний підхід, якщо не ефективніший: трансферне навчання, яке дозволяє мовам з меншими ресурсами отримувати користь від досягнень мов з більшими ресурсами. У цьому експерименті англійсько-польська служба нейронного перекладу Google була поєднана з моїм класичним двигуном на основі правил для перекладу з англійської на загрожену, малоресурсну, східнослов’янську лемківську мову. Система досягла оцінки якості BLEU 6,28, що в кілька разів краще, ніж сервіси Google Translate для перекладу з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70). Нарешті, результат цього експерименту, перша у світі служба перекладу з англійської на лемківську, стала доступною за веб-адресою www.LemkoTran.com, щоб надати можливість новим мовцям відродити свою мову.
Нові мовці є ключовими для відродження мови, і тепер можливість “сказати як треба” лемківською мовою знаходиться на кінчиках їхніх пальців.
Прошу цитувати як:
Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. У: Degen, H., Ntoa, S. (ред.), Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, т. 13336. Cham: Springer. https://doi.org/10.1007/978-3-031-05643-7_37
