This site is undergoing a full revamp. Layout may be temporarily broken.

BLEU-перспективи для відродження зникаючих мов: Точність нейронного ШІ-перекладу лемківської русинської та української мов зростає

Анотація

Прискорене глобальне зникнення мов, пов’язане з підвищеною частотою вживання заборонених речовин, діабету 2 типу, запійного пияцтва та нападів, а також у шість разів вищим рівнем самогубств серед молоді, становить зростаючу проблему для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де міжпоколіннєва передача часто порушена, системи нейронного машинного перекладу на основі штучного інтелекту мають потенціал для відродження мов спадщини та розширення можливостей нових мовців, дозволяючи їм розуміти та бути зрозумілими через миттєвий переклад. Проте рішення на основі штучного інтелекту створюють проблеми, такі як заборонна вартість та проблеми з якістю результатів. Рішенням є поєднання нейронних двигунів з класичними, заснованими на правилах, які дозволяють інженерам очищати запозичені слова та нейтралізувати втручання домінуючих мов. Ця робота описує модернізацію двигуна, розгорнутого на LemkoTran.com, для забезпечення перекладу з лемківської мови та на неї – серйозно загроженої мови меншин української генетичної класифікації, що є корінною для прикордонних територій між Польщею та Словаччиною (де її також називають русинською). Модулі перекладу на основі словників були оснащені морфологічно та синтаксично інформованими генераторами іменників, дієслів та прикметників, що працюють на основі 877 лем разом із 708 записами глосарію, а вся система була закріплена 9 518 автоматичними тестами контролю якості з посиланням на кодифікацію. Результатом цієї роботи є покращення якості перекладу англійською мовою на 23% порівняно з останньою публікацією та збільшення якості перекладу з англійської на лемківську на 35%, що забезпечує переклади, які перевершують кожну службу Google Translate за всіма показниками та оцінюються на 396% вище, ніж українська служба Google при перекладі лемківською мовою.

Будь ласка, цитуйте як: Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

Читати далі: BLEU-перспективи для відродження зникаючих мов: Точність нейронного ШІ-перекладу лемківської русинської та української мов зростає

1 Вступ

1.1 Проблема

Мови зникають зі швидкістю щонайменше одна на календарний квартал, причому таке зникнення має потроїтися до 2062 року та збільшитися в п’ять разів до 2100 року, що торкнеться понад 1500 мовних спільнот [1, с. 163 та 169]. Такі наслідки пов’язані з підвищеною частотою вживання заборонених речовин [2, с. 179], діабету 2 типу [3], запійного пияцтва та нападів [4], а також у шість разів вищим рівнем самогубств серед молоді, коли менше половини членів спільноти володіють мовою [5].

Нещодавнє дослідження в Сполучених Штатах виявило, що використання корінних мов має позитивний вплив на здоров’я, незалежно від рівня володіння [6]. Експеримент над мовцями в Польщі показав, що використання лемківської мови зменшує емоційні, поведінкові та депресивні симптоми, що виникають через когнітивну доступність травми [7].

Машинний переклад на основі штучного інтелекту міг би допомогти поширити згадані захисні ефекти на носіїв мови спадщини шляхом відродження вмираючих та сплячих мов [8, с. 577]. Наприклад, нові мовці могли б миттєво створювати правильний текст і користуватися розумінням прочитаного за допомогою автоматичних пристроїв машинного перекладу як допоміжного засобу до досягнення повної, незалежної вільності мовлення.

1.2 Досліджувана система

Мова

Лемківська – це визначено до серйозно загрожена [9, с. 177-178] східнослов’янська мова південно-західної української генетичної класифікації [10, с. 52; 11, с. 39], що є корінною для прикордонних територій між Республікою Польща та Словацькою Республікою; деякі називають її русинською [11, с. 39; 12].

Східні межі

Унікальна ізоглоса, що відрізняє лемківську на сході, – це фіксований парокситонічний (передостанній склад) наголос, особливість, що поділяється з польськими та східнословацькими діалектами [10, с. 161-162 та 972-973; 11, с. 50; 13, с. 70-73], що визначає її поширення у Східній Словаччині принаймні до річки Лаборець, з перехідною зоною після неї [13, с. 70; 11, с. 50]. Тим часом у Польщі історичне поширення лемківської сягає принаймні річок Ославиця або Віслок, з перехідною зоною за ними [11, с. 50].

Західні межі

Історичні західні межі лемківської – це річки Попрад і Дунаєць [14, с. 459].

Місцевість

Родові села носіїв мови, чиї інтерв’ю складають корпус, знаходяться в межах сучасних адміністративних кордонів сьогоднішнього Малопольського воєводства, столицею якого є Краків.

Лемківська назваТранслітераціяПольська назваПовітовий центрЦентр гміни
ІзбиІзбыІзбиГорлиціУстя-Горлицьке
ҐладишівҐладишівҐладишівГорлиціУстя-Горлицьке
ЧорнеЧорнеЧарнеГорлиціСенкова
ДолгеДолгеДлуґєГорлиціСенкова
БільцареваБільцареваБінчароваНовий СончГрибів
ФлоринкаФлоринкаФлоринкаНовий СончГрибів
ЧирнаЧирнаЧирнаНовий СончКриниця-Здруй
Таблиця 1. Родові села носіїв мови, опитаних у корпусному матеріалі.

2 Сучасний стан

Минулого року були опубліковані перші у світі результати оцінки якості машинного перекладу лемківською мовою: BLEU 6,28, що майже втричі перевищує показник української служби Google Translate[1] (BLEU 2,17) [15, с. 570]. Роком раніше ми з колегами опублікували та представили перші у світі результати машинного перекладу з лемківської на англійську: BLEU 14,57 [16].


[1] Розкриття інформації: я працюю оплачуваним спеціалістом з контролю якості перекладу українською, польською та російською мовами для проекту Google Translate. Штаб-квартира мого клієнта знаходиться в Сан-Франциско, Каліфорнія.

Двигун було розгорнуто та зроблено вільно доступним за URL-адресою https://www.LemkoTran.com, де двигун транслітерації працює з осені 2017 року. Про двигун перекладу вперше згадали в друку доктори Шеррер і Рабус у журналі Кембриджського університету Natural Language Engineering у 2019 році [17].

3 Матеріали та методи

3.1 Матеріали

Експеримент проводився на двомовному корпусі, що включає лемківські кириличні транскрипти та англійські переклади інтерв’ю з тими, хто вижив, та дітьми примусових переселень з родових земель у Польщі. Транскрипти та їх переклади[1] були вирівняні по 3267 сегментах, з підрахунком слів у Microsoft Word: 68944 слів у лемківському джерелі та 81188 слів в англійському перекладі.


[1] Мене найняв Фонд Джона і Гелен Тімо з Вілмінгтона, штат Делавер, для створення транскриптів та їх перекладу, після чого вони передали результати роботи для моїх наукових досліджень та розробок.

Джерелами істини були словники Ярослава Горощака [18], Петра Пиртея [19], Ігоря Дуди [20] та Януша Рігера [21], а також граматики Генрика Фонтанського та Мирослави Хом’як [22] і Петра Пиртея [23].

3.2 Методи

Вдосконалення двигуна

Для цього експерименту двигун, розгорнутий на LemkoTran.com, було оснащено новозбудованими генераторами, що враховують частину мови, граматичний відмінок та число для створення граматично та синтаксично правильних перекладів для 1585 словникових записів, близько половини з яких не відмінюються в польській або лемківській мовах, що дозволяє просту заміну.

Тести контролю якості

Якість забезпечувалася 9518 тестами, перехресно посиланими, де це можливо, з лемківськими кодифікаціями, граматиками та словниками, переліченими вище в розділі Матеріали. Самі тести підтверджують, що система перекладає дані висловлювання бажаним чином.

ОписКількість
Основа іменника414
Основа дієслова296
Основа прикметника167
Займенник, особовий87
Займенник, інший178
Числівник86
Інші словникові записи357
Всього1,585
Таблиця 2. Словниковий запас системи.

Машинний переклад на основі правил (RMBT)

Тексту надавався лемківський або польський вигляд шляхом заміни послідовностей символів, особливо флективних закінчень.

Польська послідовністьЛемківська послідовністьПозиція
уватиуватиКінцева
ямиямиКінцева
аютьаютьКінцева
жежоПочаткова
підпідПочаткова
Таблиця 3. Приклади замін послідовностей символів.

Оцінка якості перекладу

Якість перекладу вимірювалася за стандартними галузевими метриками з використанням стандартних налаштувань інструменту SacreBLEU, винайденого Меттом Постом в Amazon Research [24]. Для порівнянності польська мова була передана лемківською кирилицею так само, як у попередньому експерименті [15, с. 573].

Двомовна оцінка дослідження (BLEU)

Ця метрика на основі n-грам користується широкою популярністю протягом десятиліть. Вона була розроблена в Сполучених Штатах у Дослідницькому центрі IBM T. J. Watson за підтримки Агентства передових оборонних дослідницьких проектів (DARPA) та під наглядом Командування космічних та морських систем США (SPAWAR) [25].

Рівень редагування перекладу (TER)

Ця метрика відображає кількість правок, необхідних для того, щоб вихідний текст семантично наблизився до правильного перекладу, прагнучи бути більш толерантною до фразових зсувів, ніж BLEU та інші метрики на основі n-грам. Вона визначається шляхом ділення розрахунку відстані редагування між гіпотезою та еталоном на середню кількість слів еталону. Її розробка в Сполучених Штатах також підтримувалася DARPA [26].

F-оцінка символьних n-грам (chrF)

Ця європейська метрика показала дуже хорошу кореляцію з людськими оцінками і навіть перевершила як BLEU, так і TER [27].

4 Результати та обговорення

Експериментальна система LemkoTran.com перевершила кожну службу Google Translate за кожною метрикою. Якість перекладу з англійської на лемківську за оцінкою BLEU покращилася на 35% порівняно з останніми опублікованими результатами [15], даючи результати в чотири рази кращі, ніж наступна найкраща пропозиція Google Translate, її українська служба. Тим часом якість перекладу з лемківської на англійську покращилася на 23% порівняно з останніми опублікованими результатами [16], досягнувши оцінок BLEU на 16% вищих, ніж найкращі результати Google Translate, який автоматично розпізнавав лемківську як українську у 76% випадків, як російську у 16% випадків і як білоруську у 6% випадків.

4.1 Якість перекладу з англійської на лемківську

Оцінки

Двигун, розгорнутий на LemkoTran.com, перевершив Google Translate за кожною метрикою при перекладі з англійської на лемківську. Наступною за показниками системою в експерименті був або вихід української служби Google Translate (за метриками BLEU або chrF), або його польської служби (за метрикою TER).

BLEU

Якість перекладу системи, розгорнутої на LemkoTran.com, виміряна найпоширенішою метрикою BLEU, зросла до 8,48, що на 35% краще за результати, опубліковані в 2022 році [15], і тепер у чотири рази перевищує найвищий показник Google Translate.

Рис. 1. Якість перекладу з англійської на лемківську, виміряна оцінкою двомовного оцінювання дослідження (BLEU), служби нейронного машинного перекладу Google Cloud (NMT) порівняно з LemkoTran.com. Чим вище, тим краще.
chrF

Двигун LemkoTran.com досяг найкращої F-оцінки символьних n-грам (chrF 37,30) для перекладу з англійської на лемківську, що на 37% вище, ніж наступний найкращий результат – українська служба Google Translate. Тим часом російська служба Google Translate показала кращі результати, ніж його польська та білоруська служби, коли вимірювалася проти лемківського корпусу за цією метрикою.

Рис. 2. Якість перекладу з англійської на лемківську, виміряна оцінкою F-score символьних n-грам (chrF), нейронний машинний переклад Google Cloud (NMT) порівняно з експериментальною системою LemkoTran.com. Чим вище, тим краще.
TER

Двигун LemkoTran.com досяг найкращого рівня редагування перекладу (TER) з англійської на лемківську, набравши 81,33. Польська служба Google Translate посіла друге місце, за нею тісно слідувала українська.

Рис. 3. Рівень редагування перекладу (TER) з англійської на лемківську, нейронний машинний переклад Google Cloud (NMT) порівняно з LemkoTran.com. Чим нижче, тим краще.

Зразки

Нижче наведено результати систем перекладу при введенні англійською мовою.

ВвідНаші діти теж були розумними. Але де вони мали навчатися?
ОписВихідТранслітераціяОцінки якості
Лемківський еталон
(носій мови)
У нас діти теж були розумні, але де вони мали вчитися?У нас діти теж були розумні, але де вони мали вчитися?BLEU 100
chrF2 100
TER 0
Переклад лемківською мовою
LemkoTran.com
Наші діти теж були розумні, але де вони мали вчитися? Наші діти теж були розумні, але де вони мали вчитися? BLEU 58,34
chrF2 79,03
TER 27,27
Google Translate (контрольний)Переклад українськоюНаші діти теж були розумними. Але де вони мали вчитися? Наші діти теж були розумними. Але де вони мали вчитися? BLEU 4,41
chrF2 25,80
TER 72,73
Переклад російськоюНаші діти теж були розумними. Але де їм було вчитися? Наші діти теж були розумними. Але де їм було вчитися? BLEU 3,71
chrF2 16,95
TER 90,91
Переклад польськоюНаші діти теж були розумні. Але де вони мали вчитися? Наші діти теж були розумні. Але де вони мали вчитися? BLEU 3,12
chrF2 13,84
TER 100
 Переклад білоруськоюРозумними були і наші діти. Але де вони мали вчитися? Розумними були і наші діти. Але де вони мали вчитися? BLEU 3,09
chrF2 12,83
TER 100
Таблиця 4. Порівняння гіпотез перекладу для англійського вводу.
ВвідІ загалом кажучи, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.
ОписПродуктТранслітераціяОцінки якості
Лемківський еталон (носій мови)А взагалі лемки в Польщі не мають такого, як би сказати, такого лідера, який би щось сказав.А взагалі лемки в Польщі не мають такого, як би сказати, такого лідера, який би щось сказав.BLEU 100
chrF2 100
TER 0
Переклад лемківською мовою LemkoTran.comІ загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.І загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.BLEU 55,58
chrF2 65,32
TER 29,41
Google Translate (контрольний)Переклад польськоюІ загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.І загалом лемки в Польщі не мають лідера, як би сказати, який би щось сказав.BLEU 9,26
chrF2 29,29
TER 82,35

Переклад українськоюІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5,15
chrF2 26,56
TER 82,35
Переклад російськоюІ взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав.І взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав.BLEU 2,96
chrF2 25,87
TER 88,24
 Переклад білоруськоюІ взагалі лемки в Польщі не мають лідера, так би мовити, який би щось сказав.І взагалі лемки в Польщі не мають лідера, так би мовити, який би щось сказав.BLEU 2,72
chrF2 18,05
TER 94,12
Таблиця 5. Порівняння гіпотез перекладу для англійського вводу.

Переклад з лемківської на англійську

Оцінки

За кожним показником система, розгорнута на LemkoTran.com, перевершила Google Translate, де переклад як зі стандартної української мови завжди був другим найкращим, за ним слідував автоматичне визначення мови оригіналу, потім переклад як з білоруської, а потім польської, причому російська завжди посідала останнє місце. Google Translate розпізнавав лемківську як українську у 76% випадків, як російську у 16% випадків, як білоруську у 6% випадків, і як різні мови, що використовують кирилицю (наприклад, монгольську) в решті випадків.

BLEU

LemkoTran.com отримав оцінку BLEU 17,95 при перекладі англійською мовою, що на 23% краще за останні опубліковані результати BLEU 14,57, і на 16% вище за оцінку української служби Google Translate BLEU 15,43.

Рис. 4. Якість перекладу з лемківської на англійську, виміряна оцінкою BLEU (Bilingual Evaluation Understudy), сервіси Google Cloud Neural Machine Translation (NMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще.
chrF

Система, розгорнута на LemoTran.com, досягла оцінки символьних n-грам (chrF) 45,89 при перекладі англійською мовою, що на 5% краще за оцінку української служби Google Translate.

Рис. 5. Якість перекладу з лемківської на англійську, виміряна оцінкою символьних n-грам F-score (chrF), Google Cloud Neural Machine Translation (GNMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще.
TER

LemkoTran.com отримав показник Translation Edit Rate (TER) 70,38 при перекладі англійською мовою, що на 7% краще за оцінку української служби Google Translate.

Рис. 6. Translation Edit Rate (TER) для перекладу з лемківської на англійську, Google Cloud Neural Machine Translation (GNMT) у порівнянні з експериментальною системою LemkoTran.com. Чим нижче, тим краще.

Зразки

Нижче наведено результати систем перекладу при введенні англійською мовою.

 ОписПродуктПоказники
якості
Вхідна транскрипція лемківської мови від носія мовиЯкщо розділяємо мови, то я мала контакт з польською, то не було так, що я пішла до школи без польської, бо ми мали сусідів поляків.н/д
ТранслітераціяЯкщо розділяємо мови, то я мала контакт з польською, то не було так, що я пішла до школи без польської, бо ми мали сусідів поляків.н/д
Еталонний переклад професійного перекладача-білінгваКоли йдеться про розділення мов, я мала контакт з польською. Не було так, що я почала школу без знання польської, бо у нас були польські сусіди. BLEU 100
chrF2 100
TER 0
Переклад з лемківської системою LemkoTran.comКоли ми розділяємо мови, я мала контакт з польською, не було так, що я пішла до школи без польської, бо у нас були польські сусіди.BLEU 45.84
chrF2 69.60
TER 32.00
Google Translate (контрольний)з української (автоматично визначено з впевненістю 92%)Коли ми розділяємо мови, то я мала контакт з польською, тоді не було так, що я пішла до школи без польської, бо у мене були сусіди поляки.BLEU 15.87
chrF2 54.38
TER 72.00
з білоруськоїКоли ми розділяємо мови, то я мала мало контакту з польською, тоді не було так, але я пішла до школи без польської, бо у нас було мало польських сусідів.BLEU 11.76
chrF2 58.92
TER 68.00
з російськоїAs we spread languages, then there was little contact with Polish, then it wasn’t like that, but I went to school without Polish, for the snakes were sucid in Polyakiv.BLEU 6.87
chrF2 42.66
TER 92.00
з польськоїКоли я поширюю мову, я маю мало контакту з польською мовою, не було так, що я пішла до школи без польської, бо я зміню свою малу польську мову.BLEU 5.02
chrF2 45.35
TER 84.00
Таблиця 6. Порівняння варіантів перекладу для лемківського вводу.

5 Висновок

Поєднання морфологічно та синтаксично інформованих генераторів з нейронними системами може покращити якість машинного перекладу щонайменше на третину, маючи також додаткову перевагу в тому, що дозволяє інженерам очищати запозичені слова та протидіяти іншому втручанню домінуючої мови, а також забезпечувати відповідність стандартам, таким як кодифікації мов меншин. Обмеження якісних показників, накладені недосконалостями, властивими моделям штучного інтелекту, також можуть бути подолані завдяки якісній інженерії. Для лемківської мови, як і для інших малоресурсних, корінних мов меншин, тепер немає меж для якості перекладу, а також для революцій у відродженні, які вже на горизонті.

Подяки

Я хотів би подякувати д-ру Мінг Цянь з Charles River Analytics за натхнення провести цей експеримент, Майклу Десербо з Raytheon BBN Technologies та д-ру Джеймсу Джошуа Пеннінгтону за їхні проникливі зауваження, а також д-ру Іву Шерреру з Гельсінського університету за його зацікавленість у проекті та ідеї.

Список літератури

  1. Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
  2. Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Мова як фасилітатор культурного зв’язку. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
  3. Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Культурна безперервність, традиційна корінна мова та діабет у перших націях Альберти: дослідження змішаними методами. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
  4. Культура, спадщина та дозвілля: Розмова мовами аборигенів та жителів островів Торресової протоки. У: 4725.0 – Добробут аборигенів та жителів островів Торресової протоки: Фокус на дітях та молоді. Австралійське бюро статистики (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
  5. Hallett, D., Chandler, M., Lalonde, C.: Знання мови аборигенів та самогубства серед молоді. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
  6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Вплив використання та відродження корінних мов на здоров’я: реалістичний огляд. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
  7. Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: Подвійна роль мови меншини в історичній травмі: Випадок лемківської меншини в Польщі. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
  8. Zhang, S., Frey, B., Bansal, M.: ChrEn: Машинний переклад з черокі на англійську для відродження зникаючої мови. У: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), стор. 577–595. Association for Computational Linguistics, Онлайн (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
  9. Duć-Fajfer, O.: Література та процес розвитку і ревіталізації мовної ідентичності на прикладі лемківської літератури (польською мовою). У: Olko, J., Wicherkiewicz, T., Borges, R. (ред.) Інтегральні стратегії відродження мови, 1-е вид., стор. 175–200. Факультет “Artes Liberales”, Варшавський університет, Варшава (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
  10. Шевельов, Ю.: Історична фонологія української мови (український переклад). Вакуленко, С., Даниленко, А. (перекл.), Ушкалов, Л. (ред.). Наукове видавництво “АКТА”, Харків (2002, оригінальна робота опублікована 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
  11. Rieger, J.: Stanovysko i zrižnycjuvanja “rusynskŷx” dialektiv v Karpatax (русинською мовою). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 39–66. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  12. Vaňko, J.: Klasifikacija i holovnŷ znakŷ Karpatʹskŷx Rusynʹskŷx dialektiv (русинською мовою). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Rusynʹskŷj jazŷk, pp. 67–84. 2nd edn. Uniwersytet Opolski — Instytut Filologii Polskiej, Opole (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
  13. Vaňko, J.: Русинська мова в Словаччині: між молотом і ковадлом. У: Duchêne, A. (ред.) International Journal of the Sociology of Language, том 2007, № 183, стор. 75–96. Walter de Gruyter GmbH, Берлін (2007). https://doi.org/10.1515/IJSL.2007.005
  14. Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (українською мовою). In: Skrypnyk, H. (ed.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, pp. 454–487. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kyiv (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
  15. Оринич, П.: Скажи це правильно: Нейронний машинний переклад на основі ШІ дає можливість новим мовцям відродити лемківську мову. У: Degen, H., Ntoa, S. (ред.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, том 13336, стор. 567–580. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
  16. Оринич, П., Добрий, Т., Джексон, А., Літценберг, К.: Так, я розмовляю… Нейронний машинний переклад на основі ШІ в багатомовному навчанні. У: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Стаття № 21176. National Training and Simulation Association, Орландо (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
  17. Scherrer, Y., Rabus, A.: Нейронне морфосинтаксичне тегування для русинської мови. У: Mitkov, R., Tait, J., Boguraev, B. (ред.) Natural Language Engineering, том 25, № 5, стор. 633–650. Cambridge University Press, Кембридж (2019). https://doi.org/10.1017/S1351324919000287
  18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (польською мовою). Rutenika, Warsaw (2004).
  19. Pyrtej, P.: Korotkyj slovnyk lemkivsʹkyx hovirok (українською мовою). Siversiya MV, Ivano-Frankivsk (2004).
  20. Duda, I.: Lemkivsʹkyj slovnyk (українською мовою). Aston, Ternopil (2011).
  21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (польською мовою). Wydawnictwo naukowe Semper, Warsaw (1995).
  22. Fontański, H., Chomiak, M.: Граматика лемківської мови (польською мовою). Видавництво Наукове “Шльонск”, Катовіце (2000).
  23. Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (польською мовою). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
  24. Post, M.: Заклик до ясності у звітуванні показників BLEU. У: Proceedings of the Third Conference on Machine Translation (WMT), том 1, стор. 186–191. Association for Computational Linguistics, Брюссель (2018). https://doi.org/10.48550/arXiv.1804.08771
  25. Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Метод автоматичної оцінки машинного перекладу. У: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), стор. 311–318. Association for Computational Linguistics, Філадельфія (2002). https://doi.org/10.3115/1073083.1073135
  26. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: Дослідження показника редагування перекладу з цільовою анотацією людини. У: Матеріали 7-ї Конференції Асоціації машинного перекладу в Америці: Технічні доповіді, стор. 223–231. Асоціація машинного перекладу в Америці, Кембридж (2006). https://aclanthology.org/2006.amta-papers.25
  27. Popović, M.: chrF: character n-gram F-score for automatic MT evaluation. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392–395. Association for Computational Linguistics, Lisbon (2015). http://dx.doi.org/10.18653/v1/W15-3049

Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.