This site is undergoing a full revamp. Layout may be temporarily broken.

BLEUкитне небо для відродження мов, що перебувають під загрозою: точність штучного інтелекту нейронного перекладу лемківської та української мов злітає до висот (2023)

Портрет Петра Ориніча зі словами «BLEUкитне небо» та «лемківський нейронний ШІ» на білому фоні

Анотація

Прискорення втрати мов у світі, пов’язане з підвищеним рівнем вживання наркотичних речовин, цукровим діабетом 2 типу, зловживанням алкоголем та нападами, а також у шість разів вищими показниками самогубств серед молоді, становить зростаючу проблему для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де міжпоколіннєва передача часто порушується, системи штучного інтелекту нейронного машинного перекладу мають потенціал відродити успадковані мови та наділити новими силами нових мовців, дозволяючи їм розуміти та бути зрозумілими завдяки миттєвому перекладу. Проте рішення штучного інтелекту створюють проблеми, такі як заборонна вартість та проблеми якості результату. Рішенням є поєднання нейронних двигунів із класичними, заснованими на правилах, що дає інженерам змогу видаляти запозичення та нейтралізувати втручання домінуючих мов. Ця робота описує капітальний ремонт двигуна, розгорнутого на LemkoTran.com, щоб забезпечити переклад на лемківську мову та з неї, сильно загрожену, меншинну мову української генетичної класифікації, корінну для прикордонних територій між Польщею та Словаччиною (де її також називають русинською). Модулі перекладу на основі словника були оснащені морфологічно та синтаксично інформованими генераторами іменників, дієслів та прикметників, підкріпленими 877 лемами разом із 708 записами глосарію, і вся система була скріплена 9 518 автоматичними, референтними кодифікаційними тестами контролю якості, які обов’язково мають пройти. Плодами цієї праці є 23% покращення з часу останньої публікації якості перекладу англійською мовою та 35% підвищення якості перекладу з англійської на лемківську, забезпечуючи переклади, які перевершують кожен сервіс Google Translate за кожним показником та набирають на 396% вищі бали, ніж український сервіс Google при перекладі на лемківську.

Прошу цитувати як:

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. У: Degen, H., Ntoa, S. (ред.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, т. 14051. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10

1 Вступ

1.1 Проблема

Мови зникають зі швидкістю щонайменше одна на календарний квартал, причому таке зникнення має потроїтися до 2062 року та збільшитися в п’ять разів до 2100 року, що торкнеться понад 1500 мовних спільнот [1, с. 163 та 169]. Такі наслідки пов’язані з підвищеною частотою вживання заборонених речовин [2, с. 179], діабету 2 типу [3], запійного пияцтва та нападів [4], а також у шість разів вищим рівнем самогубств серед молоді, коли менше половини членів спільноти володіють мовою [5].

Нещодавнє дослідження в Сполучених Штатах виявило, що використання мов корінних народів має позитивний вплив на здоров’я, незалежно від рівня володіння [6]. Експеримент на мовцях у Польщі виявив, що використання лемківської мови пом’якшує емоційні, поведінкові та депресивні симптоми, що виникають через когнітивну доступність травми [7].

Машинний переклад на основі штучного інтелекту міг би допомогти поширити згадані захисні ефекти на носіїв мови спадщини шляхом відродження вмираючих та сплячих мов [8, с. 577]. Наприклад, нові мовці могли б миттєво створювати правильний текст і користуватися розумінням прочитаного за допомогою автоматичних пристроїв машинного перекладу як допоміжного засобу до досягнення повної, незалежної вільності мовлення.

1.2 Досліджувана система

Мова

Лемківська мова є безумовно сильно загроженою [9, с. 177–178] східнослов’янською мовою південно-української генетичної класифікації [10, с. 52; 11, с. 39], корінною для прикордонних територій між Республікою Польща та Словацькою Республікою; деякі називають її русинською [11, с. 39; 12].

Східні межі

Унікальна ізоглоса, що відрізняє лемківську на сході, це фіксований пароксітонний (передостанній склад) наголос, особливість, спільну з польськими та східнословацькими діалектами [10, с. 161–162 та 972–973; 11, с. 50; 13, с. 70–73], що робить її поширення в Східній Словаччині принаймні до річки Лаборець, з перехідною зоною після неї [13, с. 70; 11, с. 50]. Тим часом у Польщі історичне поширення лемківської сягає принаймні річок Ославіца або Вислок, з перехідною зоною за ними [11, с. 50].

Західні межі

Історичні західні кордони лемківської мови — це річки Попрад і Дунаєць [14, с. 459].

Місцевість

Родові села носіїв мови, чиї інтерв’ю складають корпус, знаходяться в межах сучасних адміністративних кордонів сьогоднішнього Малопольського воєводства, столицею якого є Краків.

Назва лемківськоїТранслітераціяПольська назваПовітовий центрЦентр гміни
ІзбиІзбыІзбиГорлиціУстя-Горлицьке
ҐладишівҐладишівҐладишівГорлиціУстя-Горлицьке
ЧорнеЧорнеЧарнеГорлиціСенкова
ДолгеДолгеДлуґєГорлиціСенкова
БільцареваБільцареваБінчароваНовий СончГрибів
ФлоринкаФлоринкаФлоринкаНовий СончГрибів
ЧирнаЧирнаЧирнаНовий СончКриниця-Здруй
Таблиця 1. Родові села носіїв мови, опитаних у корпусному матеріалі.

2 Сучасний стан

Минулого року були опубліковані перші у світі результати оцінки якості машинних перекладів на лемківську: BLEU 6,28, що було майже втричі вище, ніж у українського сервісу Google Translate[1] (BLEU 2,17) [15, с. 570]. Роком раніше мої колеги та я опублікували та представили перші у світі результати машинного перекладу з лемківської на англійську: BLEU 14,57 [16].


[1] Розкриття інформації: я працюю як оплачуваний спеціаліст з контролю якості перекладів українською, польською та російською мовами для проекту Google Translate. Штаб-квартира мого клієнта знаходиться в Сан-Франциско, Каліфорнія.

Двигун було розгорнуто і зроблено вільно доступним за універсальним локатором ресурсу https://www.LemkoTran.com, де двигун транслітерації працює з осені 2017 року. На двигун перекладу вперше натякнули в друкованому вигляді доктори Шеррер і Рабус у журналі Кембриджського університету Natural Language Engineering у 2019 році [17].

3 Матеріали та методи

3.1 Матеріали

Експеримент був проведений на двомовному корпусі, що включав лемківські кирилічні транскрипти та англійські переклади інтерв’ю з вижившими та дітьми примусових переселень з родинних земель у Польщі. Транскрипти та їх переклади[1] були вирівняні по 3 267 сегментах, при цьому Microsoft Word надав підрахунок лемківських слів-джерел 68 944 та англійських цільових слів 81 188.


[1] Мене найняв Фонд Джона і Гелен Тімо з Вілмінгтона, штат Делавер, для створення транскриптів та їх перекладу, після чого вони передали результати роботи для моїх наукових досліджень та розробок.

Джерелами істини були словники Ярослава Горощака [18], Петра Пиртея [19], Ігоря Дуди [20] та Януша Рігера [21], а також граматики Генрика Фонтанського та Мирослави Хом’як [22] і Петра Пиртея [23].

3.2 Методи

Вдосконалення двигуна

Для цього експерименту двигун, розгорнутий на LemkoTran.com, був оснащений новоствореними генераторами, інформованими частиною мови, граматичним відмінком та числом з метою створення граматично та синтаксично відповідних перекладів для 1 585 словникових записів, близько половини з яких не відмінюються в польській чи лемківській мовах, дозволяючи просту заміну.

Тести контролю якості

Якість забезпечувалась 9 518 тестами, перехресно посиланими, коли це було можливо, з лемківськими кодифікаціями, граматиками та словниками, перерахованими вище під Матеріалами. Самі тести стверджують, що система перекладає дані висловлювання бажаним чином.

ОписКількість
Основа іменника414
Основа дієслова296
Основа прикметника167
Займенник, особовий87
Займенник, інший178
Числівник86
Інші словникові записи357
Всього1,585
Таблиця 2. Словниковий запас системи.

Машинний переклад на основі правил (RMBT)

Тексту надавався лемківський або польський вигляд і відчуття шляхом заміни послідовностей символів, особливо флективних закінчень.

Польська послідовністьЛемківська послідовністьПозиція
уватиуватиКінцева
ямиямиКінцева
аютьаютьКінцева
жежоПочаткова
підпідПочаткова
Таблиця 3. Приклади замін послідовностей символів.

Оцінка якості перекладу

Якість перекладу вимірювалась за стандартними галузевими показниками з використанням налаштувань за замовчуванням інструменту SacreBLEU, винайденого в Amazon Research Меттом Постом [24]. Для порівнянності польська була подана лемківською кирилицею таким же чином, як і в останньому експерименті [15, с. 573].

Двомовна оцінка дослідження (BLEU)

Ця метрика на основі n-грам користується широкою популярністю протягом десятиліть. Вона була розроблена в Сполучених Штатах у Дослідницькому центрі IBM T. J. Watson за підтримки Агентства передових оборонних дослідницьких проектів (DARPA) та під наглядом Командування космічних та морських систем США (SPAWAR) [25].

Рівень редагування перекладу (TER)

Ця метрика відображає кількість правок, необхідних для того, щоб вихідний текст семантично наблизився до правильного перекладу, прагнучи бути більш толерантною до фразових зсувів, ніж BLEU та інші метрики на основі n-грам. Вона визначається шляхом ділення розрахунку відстані редагування між гіпотезою та еталоном на середню кількість слів еталону. Її розробка в Сполучених Штатах також підтримувалася DARPA [26].

F-оцінка символьних n-грам (chrF)

Ця європейська метрика показала дуже хорошу кореляцію з людськими оцінками і навіть перевершила як BLEU, так і TER [27].

4 Результати та обговорення

Експериментальна система LemkoTran.com перевершила кожний сервіс Google Translate за кожним показником. Оцінки якості BLEU перекладу з англійської на лемківську покращились на 35% порівняно з останніми опублікованими результатами [15], продукуючи результати в чотири рази кращі, ніж наступна найкраща пропозиція Google Translate — її український сервіс. Тим часом якість перекладу з лемківської на англійську покращилась на 23% з часу останніх опублікованих результатів [16], досягнувши оцінок BLEU на 16% вищих за найкращі, отримані Google Translate, який автоматично розпізнав лемківську як українську 76% часу, як російську 16% часу та як білоруську 6% часу.

4.1 Якість перекладу з англійської на лемківську

Оцінки

Двигун, розгорнутий на LemkoTran.com, переміг Google Translate за кожним показником при перекладі з англійської на лемківську. Наступною найвищою системою в експерименті був або результат українського сервісу Google Translate (використовуючи показники BLEU або chrF), або його польського сервісу (використовуючи показник TER).

BLEU

Якість перекладу системи, розгорнутої на LemkoTran.com, виміряна найпоширенішою метрикою BLEU, зросла до 8,48, що на 35% краще за результати, опубліковані в 2022 році [15], і тепер у чотири рази перевищує найвищий показник Google Translate.

Рис. 1. Якість перекладу з англійської на лемківську, виміряна оцінкою Bilingual Evaluation Understudy (BLEU), сервіси Google Cloud Neural Machine Translation (NMT) проти LemkoTran.com. Чим вище, тим краще.
chrF

Двигун LemkoTran.com досяг найкращого F-рахунку символьних n-грам з англійської на лемківську (chrF 37,30), що на 37% вище за наступний найкращий — український сервіс Google Translate. Тим часом російський сервіс Google Translate набрав вищі бали, ніж його польські та білоруські колеги при вимірі проти лемківського корпусу за цим показником.

Рис. 2. Якість перекладу з англійської на лемківську, виміряна оцінкою character n-gram F-score (chrF), Google Cloud Neural Machine Translation (NMT) проти експериментальної системи LemkoTran.com. Чим вище, тим краще.
TER

Двигун LemkoTran.com досяг найкращого показника Translation Edit Rate (TER) з англійської на лемківську, набравши 81,33. Польський сервіс Google Translate набрав друге місце, за ним тісно слідував український.

Рис. 3. Translation Edit Rate (TER) з англійської на лемківську, Google Cloud Neural Machine Translation (NMT) проти LemkoTran.com. Чим нижче, тим краще.

Зразки

Нижче наведено результати систем перекладу при введенні англійською мовою.

ВвідНаші діти теж були розумними. Але де вони мали навчатися?
ОписВихідТранслітераціяОцінки якості
Лемківський еталон
(носій мови)
У нас діти теж були розумні, але де вони мали вчитися?У нас діти теж були розумні, але де вони мали вчитися?BLEU 100
chrF2 100
TER 0
Переклад на лемківську
LemkoTran.com
Наші діти теж були розумні, але де вони мали вчитися? Наші діти теж були розумні, але де вони мали вчитися? BLEU 58,34
chrF2 79,03
TER 27,27
Google Translate (контрольний)Переклад українськоюНаші діти теж були розумними. Але де вони мали вчитися? Наші діти теж були розумними. Але де вони мали вчитися? BLEU 4,41
chrF2 25,80
TER 72,73
Переклад російськоюНаші діти теж були розумними. Але де їм було вчитися? Наші діти теж були розумними. Але де їм було вчитися? BLEU 3,71
chrF2 16,95
TER 90,91
Переклад польськоюНаші діти теж були розумні. Але де вони мали вчитися? Наші діти теж були розумні. Але де вони мали вчитися? BLEU 3,12
chrF2 13,84
TER 100
 Переклад білоруськоюРозумними були і наші діти. Але де вони мали вчитися? Розумними були і наші діти. Але де вони мали вчитися? BLEU 3,09
chrF2 12,83
TER 100
Таблиця 4. Порівняння гіпотез перекладу для англійського вводу.
ВвідІ загалом кажучи, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.
ОписПродуктТранслітераціяОцінки якості
Лемківський еталон (носій мови)А взагалі лемки в Польщі не мають такого, як би сказати, такого лідера, який би щось сказав.А взагалі лемки в Польщі не мають такого, як би сказати, такого лідера, який би щось сказав.BLEU 100
chrF2 100
TER 0
Переклад на лемківську LemkoTran.comІ загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.І загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.BLEU 55,58
chrF2 65,32
TER 29,41
Google Translate (контрольний)Переклад польськоюІ загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.І загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.BLEU 9,26
chrF2 29,29
TER 82,35

Переклад українськоюІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Переклад російськоюІ взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав.І взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав.BLEU 2,96
chrF2 25,87
TER 88,24
 Переклад білоруськоюІ взагалі лемки в Польщі не мають лідера, так би мовити, який би щось сказав.І взагалі лемки в Польщі не мають лідера, так би мовити, який би щось сказав.BLEU 2,72
chrF2 18,05
TER 94,12
Таблиця 5. Порівняння гіпотез перекладу для англійського вводу.

Переклад з лемківської на англійську

Оцінки

За кожним показником двигун, розгорнутий на LemkoTran.com, перевершив Google Translate, для якого переклад як зі стандартної української завжди був другим найкращим, за ним слідувало автоматичне виявлення мови джерела, потім переклад як з білоруської, а потім польської, з російською завжди на останньому місці. Google Translate розпізнав лемківську як українську 76% часу, як російську 16% часу, як білоруську 6% часу та як різні мови, що використовують кирилицю (наприклад, монгольську) решту часу.

BLEU

LemkoTran.com отримав оцінку BLEU 17,95 при перекладі англійською мовою, що на 23% краще за останні опубліковані результати BLEU 14,57, і на 16% вище за оцінку української служби Google Translate BLEU 15,43.

Рис. 4. Якість перекладу з лемківської на англійську, виміряна оцінкою Bilingual Evaluation Understudy (BLEU), сервіси Google Cloud Neural Machine Translation (NMT) проти експериментальної системи LemkoTran.com. Чим вище, тим краще.
chrF

Система, розгорнута на LemoTran.com, досягла оцінки символьних n-грам (chrF) 45,89 при перекладі англійською мовою, що на 5% краще за оцінку української служби Google Translate.

Рис. 5. Якість перекладу з лемківської на англійську, виміряна оцінкою character n-gram F-score (chrF), Google Cloud Neural Machine Translation (GNMT) проти експериментальної системи LemkoTran.com. Чим вище, тим краще.
TER

LemkoTran.com отримав показник Translation Edit Rate (TER) 70,38 при перекладі англійською мовою, що на 7% краще за оцінку української служби Google Translate.

Рис. 6. Translation Edit Rate (TER) з лемківської на англійську, Google Cloud Neural Machine Translation (GNMT) проти експериментальної системи LemkoTran.com. Чим нижче, тим краще.

Зразки

Нижче наведено результати систем перекладу при введенні англійською мовою.

 ОписПродуктПоказники
якості
Вхідна транскрипція лемківської, на якій говорить носій мовиЯкщо розділяємо мови, то я мала контакт з польською, то не було так, що я пішла до школи без польської, бо ми мали сусідів поляків.н/д
ТранслітераціяЯкщо розділяємо мови, то я мала контакт з польською, то не було так, що я пішла до школи без польської, бо ми мали сусідів поляків.н/д
Еталонний переклад професійного перекладача-білінгваКоли йдеться про розділення мов, я мала контакт з польською. Не було так, що я почала школу без знання польської, бо у нас були польські сусіди. BLEU 100
chrF2 100
TER 0
Переклад з лемківської системою на LemkoTran.comКоли ми розділяємо мови, я мала контакт з польською, не було так, що я пішла до школи без польської, бо у нас були польські сусіди.BLEU 45.84
chrF2 69.60
TER 32.00
Google Translate (контрольний)з української (автоматично визначено з впевненістю 92%)Коли ми розділяємо мови, то я мала контакт з польською, тоді не було так, що я пішла до школи без польської, бо у мене були сусіди поляки.BLEU 15.87
chrF2 54.38
TER 72.00
з білоруськоїКоли ми розділяємо мови, то я мала мало контакту з польською, тоді не було так, але я пішла до школи без польської, бо у нас було мало польських сусідів.BLEU 11.76
chrF2 58.92
TER 68.00
з російськоїAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6.87
chrF2 42.66
TER 92.00
з польськоїКоли я поширюю мову, я маю мало контакту з польською мовою, не було так, що я пішла до школи без польської, бо я зміню свою малу польську мову.BLEU 5.02
chrF2 45.35
TER 84.00
Таблиця 6. Порівняння гіпотез перекладу для лемківського вводу.

5 Висновок

Поєднання морфологічно та синтаксично інформованих генераторів з нейронними двигунами може покращити якість машинного перекладу принаймні на третину, а також має додатковий ефект надання інженерам можливості видаляти запозичення та протидіяти іншому втручанню домінуючих мов, а також забезпечувати дотримання стандартів, таких як кодифікації мов меншин. Стелі оцінки якості, нав’язані недосконалостями, властивими моделям штучного інтелекту, також можна зламати через якісну інженерію. Для лемківської, а також інших мов корінних меншин з обмеженими ресурсами, небо тепер є межею для якості перекладу, а також для революцій відродження, що вже на горизонті.

Подяки

Я хотів би подякувати д-ру Мінг Цянь з Charles River Analytics за натхнення провести цей експеримент, Майклу Десербо з Raytheon BBN Technologies та д-ру Джеймсу Джошуа Пеннінгтону за їхні проникливі зауваження, а також д-ру Іву Шерреру з Гельсінського університету за його зацікавленість у проекті та ідеї.

Список літератури

  1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Мова як фасилітатор культурного зв’язку. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Культурна безперервність, традиційна корінна мова та діабет у перших націях Альберти: дослідження змішаними методами. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. У: 4725.0 – Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. Australian Bureau of Statistics (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C.: Знання мови аборигенів та самогубства серед молоді. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Вплив використання та відродження корінних мов на здоров’я: реалістичний огляд. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: The Twofold Role of a Minority Language in Historical Trauma: The Case of Lemko Minority in Poland. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization. У: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 577–595. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (польською). У: Olko, J., Wicherkiewicz, T., Borges, R. (ред.) Integral Strategies for Language Revitalization, 1st edn., pp. 175–200. Faculty of «Artes Liberales», University of Warsaw, Warsaw (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Шевельов, Ю.: Історична фонологія української мови (український переклад). Вакуленко, С., Даниленко, А. (перекл.), Ушкалов, Л. (ред.). Наукове видавництво “АКТА”, Харків (2002, оригінальна робота опублікована 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja «rusynskŷx» dialektiv v Karpatax (русинською). У: Magosci, P. (ред.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 39–66. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (русинською). У: Magosci, P. (ред.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 67–84. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: The Rusyn language in Slovakia: between a rock and a hard place. У: Duchêne, A. (ред.) International Journal of the Sociology of Language, т. 2007, no. 183, pp. 75–96. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (українською). У: Skrypnyk, H. (ред.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, pp. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kyiv (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Оринич, P.: Скажи як треба: нейронний машинний переклад ШІ наділяє силою нових мовців відродити лемківську. У: Degen, H., Ntoa, S. (ред.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, т 13336, pp. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Оринич, P., Dobry, T., Jackson, A., Litzenberg, K.: Yes I Speak… AI neural machine translation in multi-lingual training. У: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. У: Mitkov, R., Tait, J., Boguraev, B. (ред.) Natural Language Engineering, т. 25, no. 5, pp. 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (польською мовою). Rutenika, Warsaw (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (українською мовою). Siversiya MV, Ivano-Frankivsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (українською мовою). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (польською мовою). Wydawnictwo naukowe Semper, Warsaw (1995).
  22. Fontański, H., Chomiak, M.: Граматика лемківської мови (польською мовою). Видавництво Наукове “Шльонск”, Катовіце (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (польською мовою). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: A Call for Clarity in Reporting BLEU Scores. У: Proceedings of the Third Conference on Machine Translation (WMT), т. 1, pp. 186–191. Association for Computational Linguistics, Brussels (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: a Method for Automatic Evaluation of Machine Translation. У: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), pp. 311–318. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of Translation Edit Rate with Targeted Human Annotation. У: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, pp. 223–231. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. У: Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392–395. Association for Computational Linguistics, Lisbon (2015). http://dx.doi.org/10.18653/v1/W15-3049

Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.