Ось мої повні статті про штучний інтелект для перекладу та відродження зникаючих мов, таких як лемківська русинська/українська, у текстовому та PDF форматі. Приємного ознайомлення!
Я є рецензованим автором та доповідачем на найбільшій у світі конференції з оборонної підготовки (I/ITSEC), а також на міжнародних конференціях з взаємодії людини з комп’ютером (HCI), опублікованих видавництвом Springer Nature, одним із найпрестижніших, найвпливовіших та найстаріших постійно діючих академічних видавництв.
Блакитні небеса для відродження зникаючих мов: точність нейронного ШІ-перекладу лемківської русинської та української мов стрімко зростає (2023)
Анотація
Прискорене глобальне зникнення мов, пов’язане з підвищеною частотою вживання заборонених речовин, діабету 2 типу, запійного пияцтва та нападів, а також у шість разів вищим рівнем самогубств серед молоді, становить зростаючу проблему для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де міжпоколіннєва передача часто порушена, системи нейронного машинного перекладу на основі штучного інтелекту мають потенціал для відродження мов спадщини та розширення можливостей нових мовців, дозволяючи їм розуміти та бути зрозумілими через миттєвий переклад. Проте рішення на основі штучного інтелекту створюють проблеми, такі як заборонна вартість та проблеми з якістю результатів. Рішенням є поєднання нейронних двигунів з класичними, заснованими на правилах, які дозволяють інженерам очищати запозичені слова та нейтралізувати втручання домінуючих мов. Ця робота описує модернізацію двигуна, розгорнутого на LemkoTran.com, для забезпечення перекладу з лемківської мови та на неї – серйозно загроженої мови меншин української генетичної класифікації, що є корінною для прикордонних територій між Польщею та Словаччиною (де її також називають русинською). Модулі перекладу на основі словників були оснащені морфологічно та синтаксично інформованими генераторами іменників, дієслів та прикметників, що працюють на основі 877 лем разом із 708 записами глосарію, а вся система була закріплена 9 518 автоматичними тестами контролю якості з посиланням на кодифікацію. Результатом цієї роботи є покращення якості перекладу англійською мовою на 23% порівняно з останньою публікацією та збільшення якості перекладу з англійської на лемківську на 35%, що забезпечує переклади, які перевершують кожну службу Google Translate за всіма показниками та оцінюються на 396% вище, ніж українська служба Google при перекладі лемківською мовою.
Препринт
Будь ласка, цитуйте
Orynycz, P. (2023). Блакитні небеса для відродження зникаючих мов: точність нейронного ШІ-перекладу лемківської русинської та української мов стрімко зростає. У: Degen, H., Ntoa, S. (ред.) Штучний інтелект в HCI. HCII 2023. Лекційні нотатки з комп'ютерних наук(), том 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
Завоювання сердець і мов: дослідження випадку перекладу з польської на лемківську (2023)
Анотація
Коли втрачаються мови меншин та місцеві мови, страждає національна безпека: не лише часто документуються значні збільшення випадків суїциду, депресії, діабету, нападів та зловживання речовинами, але створюється порожнеча, яку історично використовували противники. Наприклад, мільйони представників мовних меншин неісторично приймають російську мову та/або ідентичність як свою власну в Україні, Білорусі, країнах-союзниках НАТО і навіть у Сполучених Штатах. Якщо прогалини в спілкуванні рідною мовою залишаються лише в руках противників, які мають тривалий досвід роботи з цими мовами, НАТО залишається в значному невигідному становищі при спробі взаємодії з цими спільнотами. У Європі психічні рани, завдані частково втратою мови, не були загоєні асиміляцією. Натомість міста переживають спалахи ізолюючої напруженості на Заході, а східне населення переконують ворожі сили, що саме вони є їхніми справжніми союзниками, які розуміють і поважають їх. Освіта офіційною мовою також не є панацеєю: у випадку України (і навіть Іспанії) нетривіальні відмінності між місцевими діалектами та офіційною мовою створюють можливості для противників роздмухувати полум’я сепаратизму.
Використання систем машинного перекладу для посилення НАТО та його партнерів у навчанні новобранців або діяльності на місцях мовою, найближчою до їхніх сердець і розуму, може забезпечити негайне відчуття «своїх» і продемонструвати полікультурне бачення НАТО. Були створені системи штучного інтелекту та системи на основі правил для перекладу між офіційною мовою Польщі та мовою її корінної лемківської меншини, яка довгий час була мішенню іноземних держав. Системи оцінювалися при перекладі з лемківської на польську за допомогою метрик, розроблених за підтримки DARPA, отримавши оцінку BLEU 31,13 та коефіцієнт редагування перекладу (TER) 54,10. Тим часом в іншому напрямку системи отримали TER 53,73 та BLEU 29,49, що в 6,5 разів краще, ніж у сервісу Google Translate для польсько-українського перекладу.
Препринт
Читати повний текст англійською!
Будь ласка, цитуйте
Orynycz, P., & Dobry, T. (2023). Завоювання сердець і мов: дослідження випадку перекладу з польської на лемківську. У матеріалах Міжвідомчої/Промислової конференції з навчання, моделювання та освіти (I/ITSEC)
Скажи це правильно: нейронний машинний переклад на базі ШІ дає можливість новим мовцям відроджувати лемківську мову (2022)
Анотація
Нейронний машинний переклад на основі штучного інтелекту незабаром може відродити зникаючі мови, надаючи новим мовцям можливість спілкуватися в реальному часі, використовуючи речення, які кількісно ближчі до літературної норми, ніж у носіїв мови, починаючи з першого дня їхнього шляху відновлення мови. У той час як Кремнієва долина вкладає величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% мов залишилися поза увагою через відсутність корпусів: моделі нейронного машинного перекладу навчаються на мільйонах слів двомовного тексту, якого просто не існує для більшості мов, і створення якого коштує понад сто тисяч доларів США для кожної мови.
Для мов з обмеженими ресурсами існує більш раціональний підхід, якщо не ефективніший: трансферне навчання, яке дозволяє мовам з меншими ресурсами отримувати користь від досягнень мов з більшими ресурсами. У цьому експерименті сервіс нейронного перекладу Google з англійської на польську був поєднаний з моїм класичним механізмом на основі правил для перекладу з англійської на зникаючу, малоресурсну східнослов’янську лемківську мову. Система досягла оцінки якості BLEU 6,28, що в кілька разів краще, ніж сервіси Google Translate для перекладу з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70). Нарешті, результат цього експерименту, перший у світі сервіс перекладу з англійської на лемківську, став доступним за веб-адресою www.LemkoTran.com, щоб надати новим мовцям можливість відроджувати свою мову.
Нові мовці є ключовими для відродження мови, і тепер можливість «сказати це правильно» лемківською мовою знаходиться на кінчиках їхніх пальців.
Препринт
Читати повний текст англійською
Будь ласка, цитуйте
Orynycz, P. (2022). Скажи це правильно: нейронний машинний переклад на базі ШІ дає можливість новим мовцям відроджувати лемківську мову. У: Degen, H., Ntoa, S. (ред.) Штучний інтелект в HCI. HCII 2022. Лекційні нотатки з комп'ютерних наук(), том 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37