Петро Оринич

Рецензовані наукові публікації

Ось мої повні статті про ШІ для перекладу та відродження зникаючих мов, таких як лемківсько-русинська та українська, у текстовому та PDF-форматі. Гарного читання!

Я є рецензованим автором і доповідачем на найбільшій у світі оборонній навчальній конференції (I/ITSEC), а також на міжнародних конференціях з питань взаємодії людини та комп’ютера (HCI), що публікуються Springer Nature, одним з найпрестижніших, найвпливовіших і найстаріших академічних видавництв, що безперервно функціонують.

BLEUкитне небо для відродження зникаючих мов: Точність нейронного машинного перекладу на лемківсько-русинську та українську стрімко злітає (2023)

Анотація

Прискорена глобальна втрата мов, пов’язана зі зростанням уживання заборонених речовин, діабету 2 типу, пияцтва, насильства та шестикратним підвищенням рівня самогубств серед молоді, створює дедалі серйозніші проблеми для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де часто порушується передача знань від покоління до покоління, системи нейронного машинного перекладу зі штучним інтелектом мають потенціал для відродження мовної спадщини та розширення можливостей нових носіїв, дозволяючи їм розуміти і бути зрозумілими завдяки миттєвому перекладу. Однак рішення на основі штучного інтелекту створюють проблеми, такі як непомірно висока вартість і низька якість перекладу. Рішенням є поєднання нейронних двигунів із класичними, заснованими на правилах, що дає змогу інженерам вичищати запозичені слова та нейтралізувати перешкоди з боку домінуючих мов. У цій роботі описано модернізацію механізму, розгорнутого на LemkoTran.com, щоб уможливити переклад на та з лемківської — серйозно загроженої, міноритарної мови, яка підлягає українській генетичній класифікації та є автохтонною для прикордонних територій між Польщею та Словаччиною, де її також називають русинською. Модулі перекладу на основі словників були оснащені морфологічно та синтаксично обґрунтованими генераторами іменників, дієслів та прикметників, що спираються на 877 лем разом із 708 статтями глосарію, а вся система пройшла 9 518 автоматичних тестів контролю якості з кодифікацією та реферуванням, які є обов’язковими. Результатом цієї праці є покращення якості перекладу англійською мовою на 23% з часу останньої публікації та підвищення якості перекладу з англійської на лемківську мову на 35%, що дає змогу отримати переклади, які перевершують усі сервіси Google Translate за всіма показниками, а при перекладі лемківською мовою на 396% вищі, ніж в українському сервісі від Google.

Препринт

Read “BLEU Skies for Endangered Revitalization” in English

Прошу цитувати так:

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars.  In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051.  Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
@inproceedings{orynycz2023bleu,
title={BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars},
author={Orynycz, Petro},
booktitle={International Conference on Human-Computer Interaction},
pages={135--149},
year={2023},
organization={Springer}
}

Завоювання сердець і язиків: Польсько-лемківський випадок (2023)

Анотація

Коли втрачаються мови меншин і місцеві мови, страждає національна безпека: не лише фіксується значне зростання самогубств, депресій, діабету, нападів і зловживання алкоголем та наркотичними речовинами, але й утворюється порожнеча, яку історично використовували вороги. Наприклад, мільйони представників мовних меншин неісторично сприймають російську мову та/або ідентичність як свою власну — в Україні, Білорусі, країнах НАТО і навіть у Сполучених Штатах. Якщо прогалини в комунікації рідною мовою залишатимуться лише в руках супротивників, які використовують свій багаторічний досвід роботи з цими мовами, НАТО опиниться в дуже невигідному становищі, намагаючись залучити ці спільноти до співпраці. В Європі душевні рани, завдані частково втратою мови, не були закриті асиміляцією. Натомість міста відчувають сплески ізоляційної напруженості на Заході, а населення Сходу переконане ворогуючими державами, що ці держави є їхніми справжніми союзниками, які їх розуміють і поважають. Освіта державною мовою також не є панацеєю: у випадку України (і навіть Іспанії) нетривіальні відмінності між місцевими мовними різновидами та державною мовою створюють можливості для ворогів розпалювати полум’я сепаратизму.

Використання механізмів машинного перекладу для розширення можливостей НАТО та її партнерів у підготовці новобранців або діях на місцях мовою, найближчою до сердець і умів місцевого населення, може сприяти формуванню негайного відчуття «ми» та підкреслити полікультурне бачення, яке поділяє НАТО. Штучний інтелект і механізми, засновані на правилах, були зібрані для перекладу між офіційною мовою Польщі і мовою її корінної лемківської меншини, яка тривалий час була мішенню для іноземних держав. Рушії оцінювалися на перекладі з лемківської на польську мову за метриками, розробленими за підтримки Агентства перспективних оборонних дослідницьких проєктів США (DARPA): було досягнуто оцінки BLEU (двомовна система оцінювання якості перекладу, Bilingual Evaluation Understudy) — 31,13, а також коефіцієнта редагування перекладу (TER — Translation Edit Rate) — 54,10. У зворотному напрямку рушії показали TER 53,73 і BLEU 29,49 — що в 6,5 раза перевищує показник польсько-українського сервісу Google Translate.

Препринт

Прошу цитувати так:

Оринич, П., & Добри, Т. (2023). Завоювання сердець і язиків: польсько-лемківський випадок. // Матеріали Міжвідомчої/галузевої конференції з навчання, моделювання та освіти (I/ITSEC). США.  

Скажи це правильно: Нейронний машинний переклад на основі штучного інтелекту дає змогу новим мовцям відроджувати лемківську мову (2022)

Анотація

Нейронний машинний переклад на основі штучного інтелекту невдовзі може вдихнути нове життя у мови, що перебувають під загрозою зникнення, надаючи новим мовцям змогу спілкуватися в реальному часі реченнями, які кількісно ближчі до літературної норми, ніж висловлювання традиційних носіїв мови — вже з першого дня їхнього шляху до мовного відновлення. Хоча Кремнієва долина інвестує величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% з них залишилися позаду через брак корпусів: нейронні моделі машинного перекладу тренуються на мільйонах слів двомовного тексту, яких просто не існує для більшості мов, а їх збірка коштує понад сто тисяч доларів США за мову.

Для малоресурсних мов існує більш винахідливий підхід, якщо не ефективніший: трансферне навчання, яке дає змогу малоресурсним мовам скористатися здобутками більш ресурсних. У цьому експерименті англо-польський нейронний перекладач Google був поєднаний з моїм класичним механізмом, заснованим на правилах, для перекладу з англійської на зникаючу, малоресурсну східнослов’янську мову лемків, що перебуває під загрозою зникнення. Система досягла показника якості перекладу за метрикою BLEU (двомовна оцінка якості) на рівні 6,28 — у кілька разів вищого, ніж у сервісів Google Translate для перекладу з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70). Нарешті, плід цього експерименту – перший у світі сервіс перекладу з англійської на лемківську мову – став доступним за адресою www.LemkoTran.com, щоб дати можливість новим носіям мови відродити свою мову.

Нові мовці є ключем до відродження мови, а сила «сказати це правильно» лемківською тепер — у них на кінчиках пальців.

Препринт

Прошу цитувати так:

Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko.  In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
@InProceedings{10.1007/978-3-031-05643-7_37,
author="Orynycz, Petro",
editor="Degen, Helmut
and Ntoa, Stavroula",
title="Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko",
booktitle="Artificial Intelligence in HCI",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="567--580",
abstract="Artificial-intelligence-powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world's most widely used languages, 98{\%} have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.",
isbn="978-3-031-05643-7"
}