Рецензовані наукові публікації

Я є рецензованим автором і доповідачем на найбільшій у світі оборонній навчальній конференції (I/ITSEC), а також на міжнародних конференціях з питань взаємодії людини та комп’ютера (HCI), що публікуються Springer Nature, одним з найпрестижніших, найвпливовіших і найстаріших академічних видавництв, що безперервно функціонують.

Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростає (2023)

Анотація

Прискорена глобальна втрата мов, пов „язана зі збільшенням кількості випадків вживання заборонених речовин, діабету 2 типу, пияцтва та насильства, а також шестикратним зростанням рівня самогубств серед молоді, створює все більші проблеми для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де часто порушується передача знань від покоління до покоління, системи нейронного машинного перекладу зі штучним інтелектом мають потенціал для відродження мовної спадщини та розширення можливостей нових носіїв, дозволяючи їм розуміти і бути зрозумілими завдяки миттєвому перекладу. Однак рішення на основі штучного інтелекту створюють проблеми, такі як непомірно висока вартість і низька якість перекладу. Рішенням є поєднання нейронних двигунів із класичними, заснованими на правилах, що дає змогу інженерам вичищати запозичені слова та нейтралізувати перешкоди з боку домінуючих мов. У цій роботі описано модернізацію механізму, розгорнутого на LemkoTran.com, щоб уможливити переклад лемківською мовою, яка перебуває під загрозою зникнення і є меншиною української генетичної класифікації, що проживає на прикордонних територіях між Польщею та Словаччиною (де її також називають русинською), а також з неї. Модулі перекладу на основі словників були оснащені морфологічно та синтаксично обґрунтованими генераторами іменників, дієслів та прикметників, що спираються на 877 лем разом із 708 статтями глосарію, а вся система пройшла 9 518 автоматичних тестів контролю якості з кодифікацією та реферуванням, які є обов“ язковими. Результатом цієї праці є покращення якості перекладу англійською мовою на 23% з часу останньої публікації та підвищення якості перекладу з англійської на лемківську мову на 35%, що дає змогу отримати переклади, які перевершують усі сервіси Google Translate за всіма показниками, а при перекладі лемківською мовою на 396% вищі, ніж в українському сервісі від Google.

Препринт

Будь ласка, процитуйте

Оринич, П. (2023). Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов за допомогою нейронного штучного інтелекту зростає.  In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Конспект лекцій з інформатики(), том 14051.  Спрінгер, Чаме. https://doi.org/10.1007/978-3-031-35894-4_10
@inproceedings{orynycz2023bleu,
title={BLEU Небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української нейронного ШІ зростає},
author={Оринич, Петро},
booktitle={Міжнародна конференція з питань взаємодії людини та комп'ютера},
pages={135--149},
year={2023},
organization={Springer}
}

Завоювання сердець і язиків: Польсько-лемківський кейс (2023)

Анотація

Коли втрачаються мови меншин і місцеві мови, страждає національна безпека: не лише фіксується значне зростання самогубств, депресій, діабету, нападів і зловживання алкоголем та наркотичними речовинами, але й утворюється порожнеча, яку історично використовували вороги. Наприклад, мільйони представників мовних меншин історично сприймають російську мову та/або ідентичність як свою власну в Україні, Білорусі, країнах-членах НАТО і навіть у Сполучених Штатах. Якщо прогалини в комунікації рідною мовою залишатимуться лише в руках супротивників, які використовують свій багаторічний досвід роботи з цими мовами, НАТО опиниться в дуже невигідному становищі, намагаючись залучити ці спільноти до співпраці. В Європі душевні рани, завдані частково втратою мови, не були закриті асиміляцією. Натомість міста відчувають сплески ізоляційної напруженості на Заході, а населення Сходу переконане ворогуючими державами, що ці держави є їхніми справжніми союзниками, які їх розуміють і поважають. Освіта державною мовою також не є панацеєю: у випадку України (і навіть Іспанії) нетривіальні відмінності між місцевими лекціями та державною мовою створюють можливості для ворогів розпалювати полум’я сепаратизму.

Використання механізмів машинного перекладу для розширення можливостей НАТО і її партнерів навчати новобранців або діяти на місцях мовою, найближчою до їхніх сердець і розуму, може завоювати безпосередню „нашу“ приналежність і продемонструвати полікультурне бачення НАТО. Штучний інтелект і механізми, засновані на правилах, були зібрані для перекладу між офіційною мовою Польщі і мовою її корінної лемківської меншини, яка тривалий час була мішенню для іноземних держав. За допомогою метрик, розроблених за підтримки DARPA, системи оцінювали переклад з лемківської на польську мову, отримавши оцінку „двомовного дублера“ (BLEU) – 31,13 бала, а оцінку редагування перекладу (TER) – 54,10 бала. Тим часом у зворотному напрямку рушії набрали TER 53,73 і BLEU 29,49, що в 6,5 разів краще, ніж у польсько-українського сервісу Google Translate.

Препринт

Будь ласка, процитуйте

Оринич, П., & Добрий, Т. (2023). Завоювання сердець і язиків: Польський та лемківський приклади. У матеріалах Міжвідомчої/галузевої конференції з навчання, моделювання та освіти (I/ITSEC)  

Скажи це правильно: Нейронний машинний переклад AI дає можливість новим ораторам відродити лемківську мову (2022)

Анотація

Нейронний машинний переклад на основі штучного інтелекту може незабаром реанімувати мови, що перебувають під загрозою зникнення, надавши новим носіям можливість спілкуватися в режимі реального часу, використовуючи речення, які кількісно ближчі до літературної норми, ніж речення носіїв мови, і починаючи з першого дня їхньої подорожі до мовної меліорації. Хоча Кремнієва долина інвестує величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% з них залишилися позаду через брак корпусів: нейронні моделі машинного перекладу тренуються на мільйонах слів двомовного тексту, яких просто не існує для більшості мов, а їх збірка коштує понад сто тисяч доларів США за мову.

Для малоресурсних мов існує більш винахідливий підхід, якщо не ефективніший: трансферне навчання, яке дає змогу малоресурсним мовам скористатися здобутками більш ресурсних. У цьому експерименті англо-польський нейронний перекладач Google був поєднаний з моїм класичним механізмом, заснованим на правилах, для перекладу з англійської на зникаючу, малоресурсну східнослов’янську мову лемків, що перебуває під загрозою зникнення. Система отримала двомовну оцінку якості (BLEU) 6,28, що в кілька разів краще, ніж у сервісів Google Translate з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70) мови. Нарешті, плід цього експерименту – перший у світі сервіс перекладу з англійської на лемківську мову – став доступним за адресою www.LemkoTran.com, щоб дати можливість новим носіям мови відродити свою мову.

Нові носії є ключем до відродження мови, і сила „сказати це правильно“ лемківською мовою тепер у них на кінчиках їхніх пальців.

Препринт

Будь ласка, процитуйте

Оринич, П. (2022). Скажи це правильно: Нейронний машинний переклад AI дає можливість новим ораторам відродити лемківську мову.  In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Спрінгер, Чаме. https://doi.org/10.1007/978-3-031-05643-7_37
@InProceedings{10.1007/978-3-031-05643-7_37,
author=„Оринич, Петро“,
editor=„Деген, Гельмут
та Нтоа, Ставрула“,
title=„Скажи це правильно: Нейронний машинний переклад AI дає можливість новим ораторам відродити лемківську мову“,
booktitle=„Штучний інтелект в HCI“,
year=„2022“,
publisher=„Springer International Publishing“,
address=„Cham“,
pages=„567--580“,
abstract=„Нейронний машинний переклад на основі штучного інтелекту може незабаром реанімувати мови, що перебувають під загрозою зникнення, надавши новим носіям можливість спілкуватися в режимі реального часу, використовуючи речення, які кількісно ближчі до літературної норми, ніж речення носіїв мови, і починаючи з першого дня їхньої подорожі по відновленню мови. У той час як Кремнієва долина інвестує величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98{\%} мов залишилися позаду через брак корпусів: моделі нейронного машинного перекладу тренуються на мільйонах слів двомовного тексту, яких просто не існує для більшості мов, а їх збірка коштує понад сто тисяч доларів США за мову“,
isbn=„978-3-031-05643-7“
}