Honored to have my peer-reviewed paper Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko cited in December 2023 by Alex Jones and Rolando Coto-Solano of Dartmouth College, as well as Guillermo González Campos of University of Costa Rica in their work TalaMT: Multilingual Machine Translation for Cabécar-Bribri-Spanish on Page 107 of the Proceedings of the 3rd Multilingual Representation Learning Workshop in Singapore.
Позначка: Відродження мови
-
Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростає
Анотація
Прискорена глобальна втрата мов, пов „язана зі збільшенням кількості випадків вживання заборонених речовин, діабету 2 типу, пияцтва та насильства, а також шестикратним зростанням рівня самогубств серед молоді, створює все більші проблеми для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де часто порушується передача знань від покоління до покоління, системи нейронного машинного перекладу зі штучним інтелектом мають потенціал для відродження мовної спадщини та розширення можливостей нових носіїв, дозволяючи їм розуміти і бути зрозумілими завдяки миттєвому перекладу. Однак рішення на основі штучного інтелекту створюють проблеми, такі як непомірно висока вартість і низька якість перекладу. Рішенням є поєднання нейронних двигунів із класичними, заснованими на правилах, що дає змогу інженерам вичищати запозичені слова та нейтралізувати перешкоди з боку домінуючих мов. У цій роботі описано модернізацію механізму, розгорнутого на LemkoTran.com, щоб уможливити переклад лемківською мовою, яка перебуває під загрозою зникнення і є меншиною української генетичної класифікації, що проживає на прикордонних територіях між Польщею та Словаччиною (де її також називають русинською), а також з неї. Модулі перекладу на основі словників були оснащені морфологічно та синтаксично обґрунтованими генераторами іменників, дієслів та прикметників, що спираються на 877 лем разом із 708 статтями глосарію, а вся система пройшла 9 518 автоматичних тестів контролю якості з кодифікацією та реферуванням, які є обов“ язковими. Результатом цієї праці є покращення якості перекладу англійською мовою на 23% з часу останньої публікації та підвищення якості перекладу з англійської на лемківську мову на 35%, що дає змогу отримати переклади, які перевершують усі сервіси Google Translate за всіма показниками, а при перекладі лемківською мовою на 396% вищі, ніж в українському сервісі від Google.
Будь ласка, цитуйте як: Оринич, П. (2023). Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов за допомогою нейронного штучного інтелекту зростає. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Конспект лекцій з інформатики(), том 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
Читати далі: Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростаєЦя версія доповіді була прийнята до публікації після рецензування, але не є офіційною версією і не відображає змін, внесених після прийняття, або будь-яких виправлень. Повна версія статті доступна на сайті https://doi.org/10.1007/978-3-031-35894-4_10. Використання цієї прийнятої версії регулюється Умовами використання прийнятого рукопису видавництва: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Зміст
1 Вступ
1.1 Проблема
Мови втрачаються зі швидкістю щонайменше одна за календарний квартал, причому до 2062 року ця втрата потроїться, а до 2100 року збільшиться в п „ять разів, що вплине на понад 1 500 мовних спільнот [1, с. 163 і 169]. Такі наслідки пов“ язані з підвищеним рівнем вживання заборонених речовин [2, с. 179], діабету 2 типу [3], пияцтва та насильства [4], а також із шестиразовим зростанням рівня самогубств серед молоді, коли менше половини членів громади володіють мовою [5].
Нещодавнє дослідження, проведене в США, показало, що використання мови корінних народів позитивно впливає на здоров „я, незалежно від рівня володіння нею [6]. Експеримент на носіях мови в Польщі показав, що використання лемківської мови пом“ якшує емоційні, поведінкові та депресивні симптоми, що виникають внаслідок когнітивної доступності травми [7].
Машинний переклад зі штучним інтелектом може бути корисним у поширенні вищезгаданих захисних ефектів на носіїв спадщини, відроджуючи вмираючі та „сплячі“ мови [8, с. 577]. Наприклад, нові носії мови можуть миттєво створювати правильний текст і насолоджуватися читанням, використовуючи автоматичний машинний переклад як допоміжний засіб, доки не буде досягнуто повного, незалежного володіння мовою.
1.2 Досліджувана система
Мова
Лемки – це східнослов’янська лемківська народність південно-західної України, що перебуває під загрозою зникнення [9, с. 177-178], яка проживає на прикордонних територіях між Республікою Польща та Словацькою Республікою [10, с. 52; 11, с. 39]; дехто називає її русинською [11, с. 39; 12].
Східні кордони
Унікальною ізоглосою, що диференціює лемків на схід, є фіксований парокситонічний (передостанній склад) наголос, спільний для польських і східнословацьких діалектів [10, с. 161-162 і 972-973; 11, с. 50; 13, с. 70-73], що робить його ареал у Східній Словаччині принаймні до річки Лаборець, з перехідною зоною, що простягається далі [13, с. 70; 11, с. 50]. Натомість у Польщі історичний ареал лемків сягає щонайменше до річок Ославиця або Віслок, а за ними – перехідна зона [11, с. 50].
Західні кордони
Історичними західними кордонами Лемківщини є річки Попрад і Дунаєць [14, с. 459].
Місцезнаходження
Села предків носіїв мови, інтерв’ю з якими складають корпус, знаходяться в межах сучасних адміністративних кордонів сучасного польського воєводства, столицею якого є Краків.
Лемківське ім’я Транслітерація Польська назва Окружний суд Гмінне сидіння Хати Izbŷ Ізбі. Горлиці Устьє Горлицьке Ґлaдишiв Gladŷšiv Гладишів Горлиці Устьє Горлицьке Чорне. Чорне Чарне Горлиці Сенкова Борг Доле! Długie Горлиці Сенкова Білцарьова Bilcarʹova Бінчарова Новий Сонч Грибів Фльорінка Флоринка Флоринка Новий Сонч Грибів Чірна. Čŷrna Чирна Новий Сонч Криниця-Здруй Таблиця 1. Села предків носіїв мови, опитаних у корпусному матеріалі. 2 Сучасний стан справ
Минулого року були опубліковані перші у світі результати оцінки якості машинного перекладу лемківською мовою: BLEU 6.28, що майже втричі перевищило показник українського сервісу Google Translate[1] (BLEU 2.17) [15, с. 570]. Роком раніше ми з колегами опублікували та презентували перші у світі результати машинного перекладу з лемківської на англійську мову: BLEU 14.57 [16].
[1] Розкриття інформації: Я працюю оплачуваним спеціалістом з контролю якості перекладу української, польської та російської мов у проекті Google Translate. Штаб-квартира мого клієнта знаходиться в Сан-Франциско, штат Каліфорнія.
Рушій розгорнуто та розміщено у вільному доступі на універсальному локаторі ресурсів https://www.LemkoTran.com, де з осені 2017 року функціонує механізм транслітерації. Вперше про механізм транслітерації згадується в друкованому вигляді докторами Шеррером і Рабусом у журналі Cambridge University Press „Natural Language Engineering“ у 2019 році [17].
3 Матеріали та методи
3.1 Матеріали
Експеримент проводився на двомовному корпусі, що складається з лемківських кириличних транскриптів та англійських перекладів інтерв’ю з тими, хто вижив, і дітьми примусових переселенців з прабатьківських земель у Польщі. Транскрипти та їхні переклади[1] були вирівняні по 3 267 сегментам, причому Microsoft Word забезпечив кількість слів лемківського оригіналу 68 944, а англійського перекладу – 81 188.
[1] Я був найнятий для створення стенограм і перекладу Фондом Джона і Хелен Тімо з Вілмінгтона, штат Делавер, який потім пожертвував результати роботи для моїх наукових досліджень і розробок.
Джерелами істини були словники Ярослава Горощака [18], Петра Пиртея [19], Ігоря Дуди [20] та Януша Ріґера [21], а також граматики Генрика Фонтанського і Мирослави Хом’як [22] та Петра Пиртея [23].
3.2 Методи
Модернізація двигуна
Для цього експерименту двигун, розгорнутий на LemkoTran.com, було оснащено новоствореними генераторами, що враховують частину мови, граматичний відмінок і число, з метою створення граматично і синтаксично відповідного перекладу для 1 585 словникових статей, близько половини з яких не відмінюються в польській або лемківській мовах, що дозволяє просту заміну.
Тести забезпечення якості
Якість було забезпечено 9 518 тестами, перехресними посиланнями, де це можливо, на лемківські кодифікації, граматики та словники, перелічені вище в розділі Матеріали. Самі тести засвідчують, що система перекладає задані висловлювання належним чином.
Опис Кількість Основа іменника 414 Основа дієслова 296 Основа прикметника 167 Займенник, особовий 87 Займенник, інший 178 Число 86 Інші словникові статті 357 Всього 1,585 Таблиця 2. Системний словник. Машинний переклад на основі правил (RMBT)
Тексту було надано лемківського або польського вигляду шляхом заміни послідовності символів, а особливо флексійних закінчень.
Польська послідовність Лемківська послідовність Посада ować uwaty Фінал Ямі Ямі. Фінал ają трохи Фінал Зе. зо Ініціал стручок pid Ініціал Таблиця 3. Приклад заміни послідовності символів. Оцінка якості перекладу
Якість перекладу оцінювали за стандартними галузевими показниками з використанням стандартних налаштувань інструменту SacreBLEU, винайденого в Amazon Research Меттом Постом [24]. Для порівняння польську мову було передано лемківською кирилицею так само, як і в попередньому експерименті [15, с. 573].
Двомовне навчання з оцінювання (BLEU)
Ця метрика, заснована на n-грамах, користується широким попитом протягом десятиліть. Вона була розроблена в США в Дослідницькому центрі IBM T. J. Watson за підтримки Агентства передових оборонних дослідницьких проектів (DARPA) та моніторингу Командування космічних і військово-морських бойових систем США (SPAWAR) [25].
Ставка редагування перекладу (TER)
Ця метрика відображає кількість редагувань, необхідних для того, щоб результат семантично наблизився до правильного перекладу, і є більш толерантною до фразових зсувів, ніж BLEU та інші метрики, що базуються на n-грамах. Він визначається шляхом ділення розрахованої відстані редагування між гіпотезою та джерелом на середній словниковий запас джерела. Його розробка в США також була підтримана DARPA [26].
Символ n-градусного F-рахунку (chrF)
Ця європейська метрика дуже добре корелює з людськими судженнями і навіть перевершує як BLEU, так і TER [27].
4 Результати та обговорення
Експериментальна система LemkoTran.com перевершила всі сервіси Google Translate за всіма показниками. Якість перекладу з англійської на лемківську мову за шкалою BLEU покращилася на 35% порівняно з останніми опублікованими результатами [15], що в чотири рази краще, ніж у наступного за якістю перекладу українського сервісу Google Translate. Тим часом якість перекладу лемківською мовою з англійської покращилася на 23% порівняно з останніми опублікованими результатами [16], отримавши оцінку BLEU на 16% вище, ніж найкращий результат Google Translate, який автоматично розпізнає лемківську мову як українську в 76% випадків, як російську в 16% випадків і як білоруську в 6% випадків.
4.1 Якість перекладу з англійської на лемківську
Оцінки
Движок, розгорнутий на LemkoTran.com, перевершив Google Translate за всіма показниками при перекладі з англійської на лемківську мову. Наступним за рейтингом в експерименті був висновок українського сервісу Google Translate (за метриками BLEU або chrF) або польського сервісу (за метрикою TER).
СИНІЙ
Якість перекладу системи, розгорнутої на LemkoTran.com, за найпоширенішою метрикою BLEU, зросла до 8,48, що на 35% краще за результати, опубліковані востаннє у 2022 році [15], і тепер вчетверо перевищує найвищий показник Google Translate.
Малюнок. 1. Якість перекладу з англійської на лемківську мову за оцінкою BLEU (Bilingual Evaluation Understudy), сервісів Google Cloud Neural Machine Translation (NMT) та LemkoTran.com. Чим вище, тим краще. chrF
Движок LemkoTran.com показав найкращий показник n-градусного f-рахунку англійської мови до лемківських символів (chrF 37.30), що на 37% вище, ніж у наступного найкращого, українського сервісу Google Translate. Тим часом, російськомовний сервіс Google Translate отримав вищий бал, ніж його польські та білоруські аналоги, коли порівнював його з лемківським корпусом за цією метрикою.
Малюнок. 2. Якість перекладу з англійської на лемківську мову, виміряна за допомогою символьного n-градусного F-рахунку (chrF), Google Cloud Neural Machine Translation (NMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще. TER
Движок LemkoTran.com показав найкращий коефіцієнт редагування перекладу з англійської на лемківську мову (TER), набравши 81,33. Польський сервіс Google Translate посів друге місце, а на третьому – український.
Малюнок. 3. Швидкість редагування перекладу з англійської на лемківську мову (TER), Google Cloud Neural Machine Translation (NMT) у порівнянні з LemkoTran.com. Чим нижче, тим краще. Зразки
Нижче наведено результати роботи систем перекладу, коли на вхід подано англійську мову.
Вхідні дані Наші діти теж були розумні. Але де вони мали вчитися? Опис Вихідні дані Транслітерація Оцінки якості Лемківська довідка
(носій мови)У нас діти теж були мудрі, але де мали вчитися? У нас є діти, які часто бувають брудними, але мало хто з них вчащає? BLEU 100
chrF2 100
TER 0Переклад лемківською мовою від
LemkoTran.comНаші діти теж були мудрі, але де мали вчитися? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58.34
chrF2 79.03
TER 27.27Google Translate (контроль) Переклад на українську мову Наші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4.41
chrF2 25.80
TER 72.73Переклад на російську мову Наші діти теж були розумними. Але де їм було вчитися? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3.71
chrF2 16.95
TER 90.91Переклад польською мовою Наше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3.12
chrF2 13.84
TER 100Переклад білоруською мовою Розумні були і наші дзеці. Але чи були дзе яни павінни вчитися? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3.09
chrF2 12.83
TER 100Таблиця 4. Порівняння гіпотез перекладу для англійського тексту. Вхідні дані І взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось говорив. Опис Продукт Транслітерація Оцінки якості Лемківський довідник (носій мови) А воґулі лемки в Польщі не мають такого, так би мовити, лідера, який би штоси повіл. A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil. BLEU 100
chrF2 100
TER 0Переклад лемківською мовою від LemkoTran.com І генеральні лемки в Польщі не мають лідера, же так повім, який би штоси повіл. I heneral „ni Lemkŷ v Pol“ ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil. BLEU 55.58
chrF2 65.32
TER 29.41Google Translate (контроль) Переклад польською мовою І ґенеральне Лемків’я в Польщі не має лідера, але так повєм, хто б це повєдзял. I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal. BLEU 9.26
chrF2 29.29
TER 82.35Переклад на українську мову І взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав. I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav. BLEU 5.15
chrF2 26.56
TER 82.35Переклад на російську мову І взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав. I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal. BLEU 2.96
chrF2 25.87
TER 88.24Переклад білоруською мовою І в волевиявленні поляків я не маю лідера, так би мови, яка б нешта сказала. I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, take by movic′, jaki b nešta skazaŭ. BLEU 2.72
chrF2 18.05
TER 94.12Таблиця 5. Порівняння гіпотез перекладу для англійського тексту. Переклад з лемківської на англійську
Оцінки
За всіма показниками движок, розгорнутий на LemkoTran.com, перевершив Google Translate, для якого переклад як зі стандартної української мови завжди був на другому місці, потім він автоматично визначав мову оригіналу, потім перекладав як з білоруської, а потім з польської, а російська завжди була на останньому місці. У 76% випадків Google Translate розпізнавав лемківську мову як українську, у 16% – як російську, у 6% – як білоруську, а в решті випадків – як різні мови, що використовують кирилицю (наприклад, монгольську).
СИНІЙ
При перекладі на англійську мову LemkoTran.com отримав 17,95 балів, що на 23% краще, ніж останній опублікований результат (14,57 балів), і на 16% вище, ніж оцінка українського сервісу Google Translate (15,43 бали).
Малюнок. 4. Якість перекладу з лемківської мови на англійську, виміряна за допомогою балів Bilingual Evaluation Understudy (BLEU), сервісу Google Cloud Neural Machine Translation (NMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще. chrF
При перекладі на англійську мову рушій, розгорнутий на LemoTran.com, досягнув символьного n-грамового f-рахунку (chrF) 45,89, що на 5% краще, ніж показник українського сервісу Google Translate.
Малюнок. 5. Якість перекладу з лемківської мови на англійську, виміряна за допомогою символьного n-градусного F-рахунку (chrF), Google Cloud Neural Machine Translation (GNMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще. TER
ЛемкоТран.ком отримав показник редагування перекладу (TER) 70,38 при перекладі англійською мовою, що на 7% краще, ніж показник українського сервісу Google Translate.
Малюнок. 6. Коефіцієнт редагування перекладу з лемківської на англійську мову (TER), хмарний нейронний машинний переклад Google (GNMT) та експериментальна система LemkoTran.com. Чим нижче, тим краще. Зразки
Нижче наведено результати роботи систем перекладу, коли на вхід подано англійську мову.
Опис Продукт Якість
ОцінкиВхідна транскрипція лемківської мови від носія мови Як розділяємо мови, то мала контакт з польською, то не було так, так само пішла до школи без польської, бо мали сусідів поляків. н/д Транслітерація Jak rozdiljame jazŷkŷ, to mala-m kontakt z polskŷm, to ne bŷlo tak, že pišla-m do školŷ bez polskoho, bo zme maly susidiv Poljakiv. н/д Довідковий переклад, виконаний двомовним професіоналом Якщо говорити про окремі мови, то у мене був контакт з польською. Я ж не пішов до школи, не знаючи польської, бо у нас були сусіди-поляки. BLEU 100
chrF2 100
TER 0Переклад з лемківської мови за допомогою системи на LemkoTran.com Коли ми розділили мови, я спілкувався польською, це не було так, що я ходив до школи без польської, бо у нас були сусіди-поляки. BLEU 45.84
chrF2 69.60
TER 32.00Google Translate (контроль) з української (визначено автоматично з достовірністю 92%) Оскільки ми розділяємо мови, то я спілкувався з польською, потім це було не так, і я ходив до школи без польської, тому що у мене були сусіди-поляки. BLEU 15.87
chrF2 54.38
TER 72.00з білоруської Оскільки ми розділяємо мови, то я мало контактував з польською, потім це було не так, але я ходив до школи без польської, тому що у нас було мало сусідів-поляків. BLEU 11.76
chrF2 58.92
TER 68.00з російської Коли ми поширювали мови, то з польською було мало контактів, потім вже не було, але до школи я ходив без польської, бо в Полякові змії кусалися. BLEU 6.87
chrF2 42.66
TER 92.00з польської Оскільки я поширюю мову, я мало контактую з польською мовою, це не було так, що я ходив до школи без польської мови, тому що я зміню свою маленьку польську мову. BLEU 5.02
chrF2 45.35
TER 84.00Таблиця 6. Порівняння гіпотез перекладу для лемківського вкладу. 5 Висновок
Поєднання морфологічно та синтаксично інформованих генераторів із нейронними двигунами може підвищити якість машинного перекладу щонайменше на третину, а також надати інженерам можливість вичищати запозичені слова та протидіяти іншим перешкодам, пов’язаним із домінуючою мовою, а також забезпечити дотримання стандартів, зокрема кодифікацій мов меншин. Скляні стелі якості, накладені недосконалостями, притаманними моделям штучного інтелекту, також можуть бути зруйновані за допомогою звукорежисури. Для лемківської мови, як і для інших малоресурсних мов корінних меншин, межею якості перекладу зараз є небо, а революції у сфері відродження – просто за горизонтом.
Подяки
Я хотів би подякувати доктору Мінгу Цяню з Charles River Analytics за натхнення провести цей експеримент, Майклу Десербо з Raytheon BBN Technologies та доктору Джеймсу Джошуа Пеннінгтону за їхні глибокі зауваження, а також доктору Іву Шерреру з Університету Гельсінкі за його інтерес до проекту та ідей.
Посилання
- Бромхем Л., Діннейдж Р., Скіргорд Х. Рітчі А., Карділло М., Мікінс Ф., Грінхілл С., Хуа X.: Глобальні предиктори загрози зникнення мов та майбутнє мовного розмаїття. Nature Ecology & Evolution 6, 163-173 (2022). https://doi.org/10.1038/s41559-021-01604-y
- Гонсалес, М., Аронсон, Б., Келлар, С., Воллс, М., Грінфілд, Б.: Мова як фасилітатор культурних зв’язків. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
- Остер Р., Грієр А., Лайтнінг Р., Майя М., Тот Е.: Культурна спадкоємність, традиційна мова корінних народів і діабет у корінних народів Альберти: дослідження змішаних методів. Міжнародний журнал справедливості в охороні здоров’я 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
- Культура, спадщина та дозвілля: розмовляючи мовами аборигенів та мешканців островів Торресової протоки. In: 4725.0 – Добробут аборигенів та мешканців островів Торресової протоки: У центрі уваги – діти та молодь. Австралійське бюро статистики (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
- Галлетт, Д., Чендлер, М., Лалонд, К.: Знання мови аборигенів та молодіжні самогубства. Когнітивний розвиток 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
- Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Вплив використання та відродження мов корінних народів на здоров „я: реалістичний огляд. Міжнародний журнал справедливості в охороні здоров“ я 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
- Скродзька, М., Гансен, К., Олько, Я., Білевич, М.: Подвійна роль мови меншини в історичній травмі: Випадок лемківської меншини в Польщі. Журнал мовної та соціальної психології. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629
- Чжан С., Фрей Б., Бансал М.: ChrEn: Машинний переклад з мови черокі на англійську для відродження зникаючих мов. В кн: Матеріали конференції 2020 року з емпіричних методів в обробці природної мови (EMNLP), с. 577-595. Асоціація комп’ютерної лінгвістики, онлайн (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
- Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Олько, Я., Вічеркевич, Т., Борхес, Р. (ред.) Інтегральні стратегії відродження мови, 1-е вид., с. 175-200. Факультет „Artes Liberales“, Варшавський університет, Варшава (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
- Шевельов, Г.: Історична фонологія української мови (український переклад). Вакуленко, С., Даниленко, А. (пер.), Ушкалов, Л. (ред.). Наукове видавництво „АКТА“, Харків (2002, оригінальна праця опублікована 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
- Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx“ dialektiv v Karpatax (in Rusyn). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Русинська мова, с. 39-66. 2nd edn. Опольський університет – Інститут польської філології, Ополе (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Ванько, Я.: Класифікація та основні знання карпатських русинських діалектів (русинською мовою). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Русинська мова, с. 67-84. 2nd edn. Опольський університет – Інститут польської філології, Ополе (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
- Ванько, Я.: Русинська мова в Словаччині: між молотом і ковадлом. В: Дюшен, А. (ред.) Міжнародний журнал соціології мови, т. 2007, № 183, с. 75-96. Walter de Gruyter GmbH, Берлін (2007). https://doi.org/10.1515/IJSL.2007.005
- Сополига, М.: Do pytanʹ etničnoï identifikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny. In: Скрипник, Г. (ред.) Українці-росіяни: етнонаціональні та етнокультурні процеси в історичному розвитку, с. 454-487. Національна академія наук України, Національна асоціація українознавців, Інститут мистецтвознавства, фольклористики та етнології ім. М. Т. Рильського, Київ (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
- Оринич, П.: Скажи це правильно: Нейронний машинний переклад AI дає можливість новим ораторам відродити лемківську мову. In: Деген, Х., Нтоа, С. (ред.) Штучний інтелект в HCI. HCII 2022. Конспект лекцій з інформатики, том 13336, с. 567-580. Спрінгер, Чам (2022). https://doi.org/10.1007/978-3-031-05643-7_37
- Оринич, П., Добрий, Т., Джексон, А., Літценберг, К.: Yes I Speak… Нейронний машинний переклад ШІ у багатомовному навчанні. В кн: Матеріали Міжвідомчої/галузевої конференції з навчання, моделювання та освіти (I/ITSEC) 2021, Paper no. 21176. Національна асоціація навчання та моделювання, Орландо (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
- Шеррер, Ю., Рабус, А.: Нейронне морфосинтаксичне тегування для русинської мови. In: Мітков, Р., Тайт, Я., Богураєв, Б. (ред.) Інженерія природної мови, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Кембридж (2019). https://doi.org/10.1017/S1351324919000287
- Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (польською мовою). Рутеніка, Варшава (2004).
- Пиртей, П.: Короткий словник лемківських говірок. Сіверя М.В., Івано-Франківськ (2004).
- Дуда, І.: Лемківський словник. Астон, Тернопіль (2011).
- Rieger, J.: Słownictwo i nazewnictwo łemkowskie (польською мовою). Wydawnictwo naukowe Semper, Варшава (1995).
- Фонтанський, Г., Хом’як, М.: Граматика лемківської мови (польською мовою). Wydawnictwo Naukowe “Śląsk”, Katowice (2000).
- Pyrtej, P.: Dialekt łemkowski. Фонетика і морфологія (польською мовою). Хойсак, В. (ред.). Zjednoczenie Łemków, Gorlice (2013).
- Пост, М.: Заклик до ясності у звітності за шкалою BLEU. In: Матеріали Третьої конференції з машинного перекладу (WMT), т. 1, с. 186-191. Асоціація комп’ютерної лінгвістики, Брюссель (2018). https://doi.org/10.48550/arXiv.1804.08771
- Папінені, К., Рукос, С., Уорд, Т., Вей-Цзин, З.: BLEU: метод автоматичного оцінювання машинного перекладу. В.: BLEU: метод автоматичного оцінювання машинного перекладу: Матеріали 40-ї щорічної зустрічі Асоціації комп „ютерної лінгвістики (ACL 02), с. 311-318. Асоціація комп“ ютерної лінгвістики, Філадельфія (2002). https://doi.org/10.3115/1073083.1073135
- Сновер, М., Дорр, Б., Шварц, Р., Міччулла, Л., Махул, Я.: Дослідження швидкості редагування перекладу з цільовою людською анотацією. В кн: Матеріали 7-ї конференції Асоціації машинного перекладу в Америці: Технічні доповіді, с. 223-231. Асоціація машинного перекладу в Америці, Кембридж (2006). https://aclanthology.org/2006.amta-papers.25
- Попович, М.: chrF: символьна n-грамова F- оцінка для автоматичного оцінювання МТ. В кн: Матеріали Десятого семінару зі статистичного машинного перекладу, с. 392-395. Асоціація комп’ютерної лінгвістики, Лісабон (2015). http://dx.doi.org/10.18653/v1/W15-3049
-
Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko
Abstract
Artificial-intelligence powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world’s most widely used languages, 98% have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.
For low-resource languages, there is a more resourceful approach, if not a more effective one: transfer learning, which enables lower-resource languages to benefit from achievements among higher-resource ones. In this experiment, Google’s English-Polish neural translation service was coupled with my classical, rule-based engine to translate from English into the endangered, low-resource, East Slavic language of Lemko. The system achieved a bilingual evaluation understudy (BLEU) quality score of 6.28, several times better than Google Translate’s English to Standard Ukrainian (BLEU 2.17), Russian (BLEU 1.10), and Polish (BLEU 1.70) services. Finally, the fruit of this experiment, the world’s first English to Lemko translation service, was made available at the web address
www.LemkoTran.com
to empower new speakers to revitalize their language.New speakers are key to language revitalization, and the power to “say it right” in Lemko is now at their fingertips.
Keywords: Human-Centered AI, Language Revitalization, Lemko.
Please cite as: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
This version of the contribution has been accepted for publication after peer review but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections. The Version of Record is available online at https://doi.org/10.1007/978-3-031-05643-7_37. Use of this Accepted Version is subject to the publisher’s Accepted Manuscript terms of use: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Table of contents
1 Introduction
1.1. Problems
This experiment aims to contribute at the local level to the global challenge of language loss, which may be occurring at the rate of one per day, with as few as one tongue in ten set to survive [1, p. 1329]. At press time, SIL International’s Ethnologue uses Lewis and Simons’ 2010 Expanded Graded Intergenerational Disruption Scale to estimate that 3,018 languages are endangered [2], which is 43% of the 7,001 individual living ones tallied at press time in International Organization for Standardization standard ISO 639-3 [3]. Meanwhile, Google Translate only serves 108 [4], and Facebook, 112 [5], which is a start. Nevertheless, one less language is now underserved, as the fruit of this experiment has been deployed to a web server as a public translation service.
New, artificial intelligence technologies beckon with the promise of an aid that instantly compensates for language loss via human-computer interaction. In my previous experiment, next-generation neural engines achieved higher quality scores translating from Russian and Polish into English than the human control [6, p. 9]. Meanwhile, Facebook and Google1 have invested enormous resources into delivering better-than-human automatic translation systems at zero cost to consumer.
1 Disclosure: I work as a paid Russian, Polish, and Ukrainian linguist and translation quality control specialist for the Google Translate project; headquarters are in San Francisco.
Superhuman artificial intelligence does not come cheap: training neural language models requires bilingual corpora with wordcounts in the hundreds of thousands, and ideally, millions, which would cost hundreds of thousands of dollars to translate, sums beyond the means of most low-resource language communities. Fortunately, this experiment shows that there are more resourceful and effective ways to respond to the challenge of creating translation aids for revitalizing endangered languages in low-resource settings.
1.2 Work So Far
I built the world’s first Lemko to English machine translation system and have made it available to the public. Its objective translation quality scores have been improving: the engine achieved a bilingual evaluation understudy (BLEU) score of 14.57 in the summer of 2021, as presented to professionals at the National Defense Industrial Association’s Interservice/Industry Training, Simulation and Education Conference and published in its proceedings [6]. For reference, I scored BLEU 28.66 as a human translator working in field conditions, cut off from the outside world. By the autumn of 2021, the engine had reached BLEU 15.74, as reported to linguists, academics, and the wider community at an unveiling event hosted by the University of Pittsburgh.2
2 Disclosure: the event was sponsored by the Carpatho-Rusyn Society (Pennsylvania), and I was paid by the University of Pittsburgh for my presentation.
1.3 System Under Study
Lemko is a definitively to severely endangered [6, p. 3, 7, pp. 177-178], low-resource [8], officially recognized minority language [9] presumably indigenous to transborder highlands south of the Cracow, Tarnów, and Rzeszów metropolitan areas; historical demarcating isoglosses will hopefully be the topic of a future paper. Poland’s census bureau tallied 6,279 residents for whom Lemko was a language “usually used at home” (even if in addition to Polish) in 2011 [10, p. 3], a 12% increase from the 5,605 for whom Lemko was a “language spoken most often at home” in 2002 [11, p. 6, 12, p. 7]. At press time, the results of a fresh count are being tabulated.
Lemko is classifiable as an East Slavic language as it fits the customary genetic structural feature criteria, the most significant of which is pleophony [13, p. 20], whereby a vowel is assumed to have arisen in proto-Slavic sequences of consonant
C
followed by mid or low vowelV
(*e
, or*o
, with which*a
had merged [14, p. 366]), followed by liquid R (that is,*l
or*r
), followed by another consonantC
, that is,CVRC > CVRVC
. To illustrate, compare the Old English word for “melt”, meltan (CVRC
) [15, p. 718] to its putative Lemko cognate mołódyj [16, p. 92, 17, p. 150] (CVRC
), meaning “young”. Other East Slavic cognates include Ukrainian mołodýj and Russian mołodój [17], both exhibiting a vowel after the liquid (CVRVC
). Meanwhile, West Slavic languages lack a vowel before the liquid; compare Polish młody and Slovak mladý (bothCRVC
) [17]. Further afield, kinship has been posited for other words translatable as “mild”, including Sanskrit mṛdú (CRC
) [18, p. 830] and Latin mollis (CVRC
if from *moldvis) [15, 17, 19, p. 323].How well Lemko meets customary, modern Ukrainian genetic structural feature criteria was not evaluated in this experiment. However, similarity between Lemko and Standard Ukrainian was quantified, for the first time in print of which I am aware. Below, my Lemko engine scored BLEU 6.28, nearly three times the score of Google Translate’s Ukrainian at BLEU 2.17. Further experiments could be performed for the purposes of quantification of similarity between Lemko, Standard Ukrainian, Polish, and Rusyn as codified in Slovakia, as well as a fresh take on the typological classification of Lemko.
The quantity and quality of resources have been improving, as has resourcefulness empowered by technology. All known bilingual corpora, comprising fewer than seventy thousand Lemko words, were mustered for this experiment. I have been cleaning a bilingual corpus of transcriptions of interviews conducted with native speakers in Poland and my translations into English, which a United States client paid me to perform and permitted me to use. I am also compiling monolingual corpora, which total 534,512 words at press time.
1.4 Hypothesis
Based on my subjective impression as a professional translator that Lemko native speakers interviewed in Poland were more likely to use words with obvious Polish cognates than Standard Ukrainian ones, I hypothesized that, all else being equal, a machine could be configured to translate into Lemko from English and achieve BLEU objective quality scores higher than those of Google Translate’s Ukrainian and Russian services.
1.5 Predictions
Lemko Translation System. I predicted that the aforementioned translation system would achieve a BLEU score of 15 translating into Lemko from English against the bilingual corpus.
Google Translate.
English to Ukrainian service. I predicted that Google Translate’s English to Ukrainian service would achieve a BLEU score of 10 against the bilingual corpus.
English to Russian service. I predicted that Google Translate’s English to Russian service would achieve a BLEU score of 1 against the bilingual corpus.
1.6 Methods and Justification
In the interest of speed, resource conversation, and ruggedizability, a laptop computer discarded as obsolete by my employer was configured to translate into Lemko and make calls to the Google Cloud Platform Google Translate service, as well as configured to evaluate said translations using the industry standard BLEU metric.
1.7 Principal Results
The English to Lemko translation system achieved a cumulative BLEU score of
6.28431824990417
. Meanwhile, Google Translate’s Ukrainian service scored BLEU2.16830846776652
, its Russian service BLEU1.10424105952048
, and the control of Polish transliterated into the Cyrillic alphabet BLEU1.70036447680114
.2 Materials and Methods
The above hypothesis was tested by calculating BLEU quality scores for each translation system set up in the manner detailed below.
2.1 Setup
Hardware. The experiment was conducted on an HP Elitebook 850 G2 laptop with a Core i7-5600U 2.6GHz processor, and 16 gigabytes of random-access memory. It had been discarded by my employer as obsolete and listed for sale at USD 450 at time of press.
Configuration. In the basic input/output system (BIOS) menu, the device was configured to enable Virtualization Technology (VTx).
Operating System. Windows 10 Professional 64 bit had been installed on bare metal. It was ensured that
Virtual Machine Platform
andWindows Subsystem for Linux
Windows features were enabled. Next, theWSL2 Linux kernel update for x64
machines (wsl_update_x64.msi) available from Microsoft athttps://aka.ms/wsl2kernel
was installed.Software. The Docker Desktop for Windows version 4.4.3 (73365) installer was downloaded from
https://www.docker.com/get-started
and run with the option toInstall required Windows components for WSL 2 selected
.Packages. The experiment depended on the below packages from the Python Package Index.
SacreBLEU. Version 2.0.0 was installed using the Python package documented at the following universal resource locator (URL):
https://pypi.org/project/sacrebleu/2.0.0/
Google Cloud Translation API client library. Version 2.0.1 was installed using the Python package documented at the universal resource locator (URL)
https://pypi.org/project/google-cloud-translate/2.0.1/
The above dependencies were specified in the requirements file as follows:
google-cloud-translate==2.0.1
sacrebleu==2.0.0
Container.
Build. The experiment was run in a Docker container featuring the latest version of the Python programming language, which was version 3.10.2 at the time, running on the Debian Bullseye 11 Linux operating system of AMD64 architecture, of Secure Hash Algorithm 2 shortened digest
bcb158d5ddb6
, obtainable via the following command:docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Runtime. The container was configured to save raw experiment data files to a local bind mounted volume.
Translation Quality Scoring.
Translation quality scores were calculated according to the BLEU metric using version 2.0.0 of the SacreBLEU tool invented by Post [20].Case sensitivity. The evaluation was performed in a case-sensitive manner.
Tokenization. Segments were tokenized using version 13a of the Workshop on Statistical Machine Translation standard scoring script metric internal tokenization procedure.
Smoothing Method. The smoothing technique developed at the National Institute of Standards and Technology by United States Federal Government employees for their Multimodal Information Group BLEU toolkit, being the third technique described by Chen and Cherry [21, p. 363], was employed by default.
Signature. The above settings produced the following signature:
nrefs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Calibration. Configured as above, the machine produces the following output:
Segment 1031.English source Everything was there.
Lemko reference and transliteration Вшытко там было.
Všŷtko tam bŷlo.
Lemkotran.com
hypothesis and transliterationВшытко там было.
Všŷtko tam bŷlo.
Score BLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)
Explanation. The hypothesis segment was identical to the reference one and the machine achieved a perfect score of BLEU 100.
Segment 179.English source I don't remember what year.
Lemko reference and transliteration Не памятам в котрым році.
Ne pamjatam v kotrŷm roci.
Lemkotran.com
hypothesis and transliterationНі памятам, в котрым році.
Ni pamjatam, v kotrŷm roci.
Score BLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)
Explanation. The hypothesis was different from the reference by two characters. The machine mistranslated the particle negating the verb, using the word for “no” (ni) instead of the expected word for “not” (ne). This has since been largely fixed. The machine also added a comma after pamjatam, which means “I remember”. That dropped the score from what would have been a perfect score of 100 to 43.47.
Control. As the corpus is based on interviews conducted in Poland, translations into Polish were used as a control. They were transliterated into the Cyrillic alphabet by reversing the rules for transliterating Lemko names established by Poland’s Ministry of the Interior and Administration [22, p. 6564]. Polish nasal vowels were decomposed into a vowel plus a nasal stop, except before approximants, where they were directly denasalized. Word finally, the front nasal vowel /ę/ was simply denasalized, and the back one /ą/ was transliterated as if followed by a dental stop.
3 Results
The engine available to the public at
www.LemkoTran.com
took first place with a cumulative translation quality score of BLEU 6.28, nearly three times that of the runner-up, Google Translate’s English-Ukrainian service (BLEU 2.17). Next was its English-Polish service (BLEU 1.70), with its English-Russian service in last place (BLEU 1.10).Table 1. English to Lemko Translation Quality: LemkoTran.com versus Google Translate 3.1 Results by machine translation service
Control. When transliterated into the Cyrillic alphabet, Google Translate’s translations into Standard Polish achieved a corpus-level BLEU score of 1.70. Samples of its performances are as follows:
Segment 2174.English source We had still been in Izby, right.
Lemko reference and transliteration То мы іщы были в Ізбах, так.
To mŷ iščŷ bŷly v Izbach, tak.
Polish hypothesis and transliteration Билісьми єще в Ізбах, так.
Byliśmy jeszcze w Izbach, tak.
Score BLEU = 46.20
Segment 854.English source And that's what it's all about.
Lemko reference and transliteration І о то ходит.
I o to chodyt.
Polish hypothesis and transliteration І о то власьнє ходзі.
I o to właśnie chodzi.
Score BLEU = 32.47
Segment 217.English source And that's what it's all about.
Lemko reference and transliteration Так мі повіл.
Tak mi povil.
Polish hypothesis and transliteration Так мі повєдзял.
Tak mi powiedział.
Score BLEU = 35.36
Hybrid English-Lemko Engine. The engine freely available to the public at the URL
www.LemkoTran.com
achieved a corpus-level BLEU score of 6.28.Segment 1031.English source Everything was there.
Lemko reference and transliteration Вшытко там было.
Všŷtko tam bŷlo.
Lemkotran.com
hypothesis and transliterationВшытко там было.
Všŷtko tam bŷlo.
Score BLEU = 100.00
Segment 1445.English source But that officer took that medal and said,
Lemko reference and transliteration Але тот офіцер взял тот медаль і повідат:
Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com
hypothesis and transliterationАле тот офіцер взял тот медаль і повіл:
Ale tot oficer vzial tot medal' i povil:
Score BLEU = 75.06
Segment 217.English source That's what he said to me.
Lemko reference and transliteration Так мі повіл.
Tak mi povil.
Lemkotran.com
hypothesis and transliterationТак мі повіл.
Tak mi povil.
Score BLEU = 100.00
Ukrainian. Google Translate’s translations into Standard Ukrainian achieved a corpus-level BLEU score of 2.35.
Segment 2419.English source Where and when?
Lemko reference and transliteration Де і коли?
De i koly?
Ukrainian hypothesis and transliteration Де і коли?
De i koly?
Score BLEU = 100.00
Segment 1096.English source We were there for three months.
Lemko reference and transliteration Там зме были три місяці.
Tam zme bŷly try misiaci.
Ukrainian hypothesis and transliteration Ми були там три місяці.
My buly tam try misjaci.
Score BLEU = 30.21
Segment 2513.English source Well, here to the west.
Lemko reference and transliteration Но то ту на захід.
No to tu na zachid.
Ukrainian hypothesis and transliteration Ну, тут на захід.
Nu, tut na zachid.
Score BLEU = 30.21
Russian. Google Translate’s English to Russian service achieved a corpus-level BLEU score of 1.10.
Segment 432.English source Nobody knew.
Lemko reference and transliteration Нихто не знал.
Nychto ne znal.
Russian hypothesis and transliteration Никто не знал.
Nikto ne znal.
Score BLEU = 59.46
Segment 2751.English source What did they expel us for?
Lemko reference and transliteration За што нас выгнали?
Za što nas vŷhnaly?
Russian hypothesis and transliteration За что нас выгнали?
Za čto nas vygnali?
Score BLEU = 42.73
Segment 2164.English source Brother went off to war.
Lemko reference and transliteration Брат пішол на войну.
Brat pišol na vojnu.
Russian hypothesis and transliteration Брат ушел на войну.
Brat ušel na vojnu.
Score BLEU = 42.73
4 Discussion
The Lemko translation system corpus-level BLEU score of 6.28 indicates that while there is much still to be done, things are on track. The Standard Russian score of BLEU 1.10 indicates that Lemko is less similar to Russian than Polish (BLEU 1.70). Perhaps using pre-revolutionary orthography could boost Russian’s score, but that would be an expensive experiment with little obvious benefit.
The transliterated Standard Polish control similarity score of BLEU 1.70 indicates less interference from the dominant language in Poland than might be expected. It would be interesting to redesign the experiment where a handful of computationally inexpensive and obvious sound correspondences (for example, denasalization of *ę to /ja/ and *ǫ to /u/, retraction of *i to /y/, and change of *g to /h/ [23]) were applied to Polish to see if it then scored higher than Standard Ukrainian.
In summary, Lemko has been synthesized in the lab and the power to produce it placed in the hands of speakers both new and native. After a thorough engine overhaul and glossary ramp-up, the next step is to objectively measure, and if feasible, have speakers subjectively rate, the quality of synthetic Lemko versus that produced by native speakers. The day when new speakers of low-resource languages can use machine translation to start communicating in their language overnight is closer, as is the day the Lemko language joins the ranks of those previously endangered, but now revitalized.
Acknowledgements. I would like to thank my colleague Ming Qian of Peraton Labs for inspiring me to conduct this experiment, and Brian Stensrud of Soar Technology, Inc. for introducing us, as well as his encouragement.
I would also like to thank my friend Corinna Caudill for her encouragement and personal interest in the project, as well as for introducing me to Carpatho-Rusyn Society President Maryann Sivak of the University of Pittsburgh, whom I would like to thank for the opportunity to present my work.
I would also like to thank Maria Silvestri of the John and Helen Timo Foundation for conducting interviews with Lemko native speakers and donating the transcripts and my translations of them to research and development.
I would like to Achim Rabus of the University of Freiburg and Yves Scherrer of the University of Helsinki for their interest in the project and ideas.
I would also like to thank Myhal’ Lŷžečko of the minority-language technology blog InterFyisa for his early interest in the project and community outreach.
I would also like to thank fellow son of Zahoczewie Marko Łyszyk for his interest in the project and community outreach.
Finally, I would like to thank my co-author and Antech Systems Inc. colleague Tom Dobry for his encouragement and guidance.
References
1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Online version: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, last accessed 2022/02/11.
3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, last accessed 2022/02/11.
4. ^ Language support, https://cloud.google.com/translate/docs/languages, last accessed 2022/02/11.
5. ^ Select language, https://m.facebook.com/language.php, last accessed 2022/02/11.
6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integral Strategies for Language Revitalization, pp. 175–200. First edition. Faculty of “Artes Liberales”, University of Warsaw, Warsaw (2016).
8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, last accessed 2022/02/11.
10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, last accessed 2022/02/11.
11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, last accessed 2022/02/11.
12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, last accessed 2022/02/11.
13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).
14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).
15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.
16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186–191. Association for Computational Linguistics, Brussels (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. In: Proceedings of the Ninth Workshop on Statistical Machine Translation, pp. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Warsaw (2005).
23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. In: Harvard Ukrainian Studies, vol. 1, no. 2, pp. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942