Позначка: Лемко

  • Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростає

    Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростає

    Анотація

    Прискорена глобальна втрата мов, пов „язана зі збільшенням кількості випадків вживання заборонених речовин, діабету 2 типу, пияцтва та насильства, а також шестикратним зростанням рівня самогубств серед молоді, створює все більші проблеми для меншин, корінних народів, біженців, колонізованих та іммігрантських спільнот. У середовищах, де часто порушується передача знань від покоління до покоління, системи нейронного машинного перекладу зі штучним інтелектом мають потенціал для відродження мовної спадщини та розширення можливостей нових носіїв, дозволяючи їм розуміти і бути зрозумілими завдяки миттєвому перекладу. Однак рішення на основі штучного інтелекту створюють проблеми, такі як непомірно висока вартість і низька якість перекладу. Рішенням є поєднання нейронних двигунів із класичними, заснованими на правилах, що дає змогу інженерам вичищати запозичені слова та нейтралізувати перешкоди з боку домінуючих мов. У цій роботі описано модернізацію механізму, розгорнутого на LemkoTran.com, щоб уможливити переклад лемківською мовою, яка перебуває під загрозою зникнення і є меншиною української генетичної класифікації, що проживає на прикордонних територіях між Польщею та Словаччиною (де її також називають русинською), а також з неї. Модулі перекладу на основі словників були оснащені морфологічно та синтаксично обґрунтованими генераторами іменників, дієслів та прикметників, що спираються на 877 лем разом із 708 статтями глосарію, а вся система пройшла 9 518 автоматичних тестів контролю якості з кодифікацією та реферуванням, які є обов“ язковими. Результатом цієї праці є покращення якості перекладу англійською мовою на 23% з часу останньої публікації та підвищення якості перекладу з англійської на лемківську мову на 35%, що дає змогу отримати переклади, які перевершують усі сервіси Google Translate за всіма показниками, а при перекладі лемківською мовою на 396% вищі, ніж в українському сервісі від Google.

    Будь ласка, цитуйте як: Оринич, П. (2023). Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов за допомогою нейронного штучного інтелекту зростає. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2023. Конспект лекцій з інформатики(), том 14051. Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10

    Читати далі: Блакитне небо для відродження зникаючих мов: Точність перекладу лемківської русинської та української мов нейронним штучним інтелектом зростає

    Ця версія доповіді була прийнята до публікації після рецензування, але не є офіційною версією і не відображає змін, внесених після прийняття, або будь-яких виправлень. Повна версія статті доступна на сайті https://doi.org/10.1007/978-3-031-35894-4_10. Використання цієї прийнятої версії регулюється Умовами використання прийнятого рукопису видавництва: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

    1 Вступ

    1.1 Проблема

    Мови втрачаються зі швидкістю щонайменше одна за календарний квартал, причому до 2062 року ця втрата потроїться, а до 2100 року збільшиться в п „ять разів, що вплине на понад 1 500 мовних спільнот [1, с. 163 і 169]. Такі наслідки пов“ язані з підвищеним рівнем вживання заборонених речовин [2, с. 179], діабету 2 типу [3], пияцтва та насильства [4], а також із шестиразовим зростанням рівня самогубств серед молоді, коли менше половини членів громади володіють мовою [5].

    Нещодавнє дослідження, проведене в США, показало, що використання мови корінних народів позитивно впливає на здоров „я, незалежно від рівня володіння нею [6]. Експеримент на носіях мови в Польщі показав, що використання лемківської мови пом“ якшує емоційні, поведінкові та депресивні симптоми, що виникають внаслідок когнітивної доступності травми [7].

    Машинний переклад зі штучним інтелектом може бути корисним у поширенні вищезгаданих захисних ефектів на носіїв спадщини, відроджуючи вмираючі та „сплячі“ мови [8, с. 577]. Наприклад, нові носії мови можуть миттєво створювати правильний текст і насолоджуватися читанням, використовуючи автоматичний машинний переклад як допоміжний засіб, доки не буде досягнуто повного, незалежного володіння мовою.

    1.2 Досліджувана система

    Мова

    Лемки – це східнослов’янська лемківська народність південно-західної України, що перебуває під загрозою зникнення [9, с. 177-178], яка проживає на прикордонних територіях між Республікою Польща та Словацькою Республікою [10, с. 52; 11, с. 39]; дехто називає її русинською [11, с. 39; 12].

    Східні кордони

    Унікальною ізоглосою, що диференціює лемків на схід, є фіксований парокситонічний (передостанній склад) наголос, спільний для польських і східнословацьких діалектів [10, с. 161-162 і 972-973; 11, с. 50; 13, с. 70-73], що робить його ареал у Східній Словаччині принаймні до річки Лаборець, з перехідною зоною, що простягається далі [13, с. 70; 11, с. 50]. Натомість у Польщі історичний ареал лемків сягає щонайменше до річок Ославиця або Віслок, а за ними – перехідна зона [11, с. 50].

    Західні кордони

    Історичними західними кордонами Лемківщини є річки Попрад і Дунаєць [14, с. 459].

    Місцезнаходження

    Села предків носіїв мови, інтерв’ю з якими складають корпус, знаходяться в межах сучасних адміністративних кордонів сучасного польського воєводства, столицею якого є Краків.

    Лемківське ім’яТранслітераціяПольська назваОкружний судГмінне сидіння
    ХатиIzbŷІзбі.ГорлиціУстьє Горлицьке
    ҐлaдишiвGladŷšivГладишівГорлиціУстьє Горлицьке
    Чорне.ЧорнеЧарнеГорлиціСенкова
    БоргДоле!DługieГорлиціСенкова
    БілцарьоваBilcarʹovaБінчароваНовий СончГрибів
    ФльорінкаФлоринкаФлоринкаНовий СончГрибів
    Чірна.ČŷrnaЧирнаНовий СончКриниця-Здруй
    Таблиця 1. Села предків носіїв мови, опитаних у корпусному матеріалі.

    2 Сучасний стан справ

    Минулого року були опубліковані перші у світі результати оцінки якості машинного перекладу лемківською мовою: BLEU 6.28, що майже втричі перевищило показник українського сервісу Google Translate[1] (BLEU 2.17) [15, с. 570]. Роком раніше ми з колегами опублікували та презентували перші у світі результати машинного перекладу з лемківської на англійську мову: BLEU 14.57 [16].


    [1] Розкриття інформації: Я працюю оплачуваним спеціалістом з контролю якості перекладу української, польської та російської мов у проекті Google Translate. Штаб-квартира мого клієнта знаходиться в Сан-Франциско, штат Каліфорнія.

    Рушій розгорнуто та розміщено у вільному доступі на універсальному локаторі ресурсів https://www.LemkoTran.com, де з осені 2017 року функціонує механізм транслітерації. Вперше про механізм транслітерації згадується в друкованому вигляді докторами Шеррером і Рабусом у журналі Cambridge University Press „Natural Language Engineering“ у 2019 році [17].

    3 Матеріали та методи

    3.1 Матеріали

    Експеримент проводився на двомовному корпусі, що складається з лемківських кириличних транскриптів та англійських перекладів інтерв’ю з тими, хто вижив, і дітьми примусових переселенців з прабатьківських земель у Польщі. Транскрипти та їхні переклади[1] були вирівняні по 3 267 сегментам, причому Microsoft Word забезпечив кількість слів лемківського оригіналу 68 944, а англійського перекладу – 81 188.


    [1] Я був найнятий для створення стенограм і перекладу Фондом Джона і Хелен Тімо з Вілмінгтона, штат Делавер, який потім пожертвував результати роботи для моїх наукових досліджень і розробок.

    Джерелами істини були словники Ярослава Горощака [18], Петра Пиртея [19], Ігоря Дуди [20] та Януша Ріґера [21], а також граматики Генрика Фонтанського і Мирослави Хом’як [22] та Петра Пиртея [23].

    3.2 Методи

    Модернізація двигуна

    Для цього експерименту двигун, розгорнутий на LemkoTran.com, було оснащено новоствореними генераторами, що враховують частину мови, граматичний відмінок і число, з метою створення граматично і синтаксично відповідного перекладу для 1 585 словникових статей, близько половини з яких не відмінюються в польській або лемківській мовах, що дозволяє просту заміну.

    Тести забезпечення якості

    Якість було забезпечено 9 518 тестами, перехресними посиланнями, де це можливо, на лемківські кодифікації, граматики та словники, перелічені вище в розділі Матеріали. Самі тести засвідчують, що система перекладає задані висловлювання належним чином.

    ОписКількість
    Основа іменника414
    Основа дієслова296
    Основа прикметника167
    Займенник, особовий87
    Займенник, інший178
    Число86
    Інші словникові статті357
    Всього1,585
    Таблиця 2. Системний словник.

    Машинний переклад на основі правил (RMBT)

    Тексту було надано лемківського або польського вигляду шляхом заміни послідовності символів, а особливо флексійних закінчень.

    Польська послідовністьЛемківська послідовністьПосада
    owaćuwatyФінал
    ЯміЯмі.Фінал
    ająтрохиФінал
    Зе.зоІніціал
    стручокpidІніціал
    Таблиця 3. Приклад заміни послідовності символів.

    Оцінка якості перекладу

    Якість перекладу оцінювали за стандартними галузевими показниками з використанням стандартних налаштувань інструменту SacreBLEU, винайденого в Amazon Research Меттом Постом [24]. Для порівняння польську мову було передано лемківською кирилицею так само, як і в попередньому експерименті [15, с. 573].

    Двомовне навчання з оцінювання (BLEU)

    Ця метрика, заснована на n-грамах, користується широким попитом протягом десятиліть. Вона була розроблена в США в Дослідницькому центрі IBM T. J. Watson за підтримки Агентства передових оборонних дослідницьких проектів (DARPA) та моніторингу Командування космічних і військово-морських бойових систем США (SPAWAR) [25].

    Ставка редагування перекладу (TER)

    Ця метрика відображає кількість редагувань, необхідних для того, щоб результат семантично наблизився до правильного перекладу, і є більш толерантною до фразових зсувів, ніж BLEU та інші метрики, що базуються на n-грамах. Він визначається шляхом ділення розрахованої відстані редагування між гіпотезою та джерелом на середній словниковий запас джерела. Його розробка в США також була підтримана DARPA [26].

    Символ n-градусного F-рахунку (chrF)

    Ця європейська метрика дуже добре корелює з людськими судженнями і навіть перевершує як BLEU, так і TER [27].

    4 Результати та обговорення

    Експериментальна система LemkoTran.com перевершила всі сервіси Google Translate за всіма показниками. Якість перекладу з англійської на лемківську мову за шкалою BLEU покращилася на 35% порівняно з останніми опублікованими результатами [15], що в чотири рази краще, ніж у наступного за якістю перекладу українського сервісу Google Translate. Тим часом якість перекладу лемківською мовою з англійської покращилася на 23% порівняно з останніми опублікованими результатами [16], отримавши оцінку BLEU на 16% вище, ніж найкращий результат Google Translate, який автоматично розпізнає лемківську мову як українську в 76% випадків, як російську в 16% випадків і як білоруську в 6% випадків.

    4.1 Якість перекладу з англійської на лемківську

    Оцінки

    Движок, розгорнутий на LemkoTran.com, перевершив Google Translate за всіма показниками при перекладі з англійської на лемківську мову. Наступним за рейтингом в експерименті був висновок українського сервісу Google Translate (за метриками BLEU або chrF) або польського сервісу (за метрикою TER).

    СИНІЙ

    Якість перекладу системи, розгорнутої на LemkoTran.com, за найпоширенішою метрикою BLEU, зросла до 8,48, що на 35% краще за результати, опубліковані востаннє у 2022 році [15], і тепер вчетверо перевищує найвищий показник Google Translate.

    Малюнок. 1. Якість перекладу з англійської на лемківську мову за оцінкою BLEU (Bilingual Evaluation Understudy), сервісів Google Cloud Neural Machine Translation (NMT) та LemkoTran.com. Чим вище, тим краще.
    chrF

    Движок LemkoTran.com показав найкращий показник n-градусного f-рахунку англійської мови до лемківських символів (chrF 37.30), що на 37% вище, ніж у наступного найкращого, українського сервісу Google Translate. Тим часом, російськомовний сервіс Google Translate отримав вищий бал, ніж його польські та білоруські аналоги, коли порівнював його з лемківським корпусом за цією метрикою.

    Малюнок. 2. Якість перекладу з англійської на лемківську мову, виміряна за допомогою символьного n-градусного F-рахунку (chrF), Google Cloud Neural Machine Translation (NMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще.
    TER

    Движок LemkoTran.com показав найкращий коефіцієнт редагування перекладу з англійської на лемківську мову (TER), набравши 81,33. Польський сервіс Google Translate посів друге місце, а на третьому – український.

    Малюнок. 3. Швидкість редагування перекладу з англійської на лемківську мову (TER), Google Cloud Neural Machine Translation (NMT) у порівнянні з LemkoTran.com. Чим нижче, тим краще.

    Зразки

    Нижче наведено результати роботи систем перекладу, коли на вхід подано англійську мову.

    Вхідні даніНаші діти теж були розумні. Але де вони мали вчитися?
    ОписВихідні даніТранслітераціяОцінки якості
    Лемківська довідка
    (носій мови)
    У нас діти теж були мудрі, але де мали вчитися?У нас є діти, які часто бувають брудними, але мало хто з них вчащає?BLEU 100
    chrF2 100
    TER 0
    Переклад лемківською мовою від
    LemkoTran.com
    Наші діти теж були мудрі, але де мали вчитися? Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty? BLEU 58.34
    chrF2 79.03
    TER 27.27
    Google Translate (контроль)Переклад на українську мовуНаші діти теж були розумними. Але де вони мали вчитися? Naši dity tež buly rozumnymy. Ale de vony maly včytysja? BLEU 4.41
    chrF2 25.80
    TER 72.73
    Переклад на російську мовуНаші діти теж були розумними. Але де їм було вчитися? Naši deti tože byli umnymi. No gde im bylo učitʹsja? BLEU 3.71
    chrF2 16.95
    TER 90.91
    Переклад польською мовоюНаше дзєці теж били мондре. Алє ґдзє мєлі сє учиць? Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ? BLEU 3.12
    chrF2 13.84
    TER 100
     Переклад білоруською мовоюРозумні були і наші дзеці. Але чи були дзе яни павінни вчитися? Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca? BLEU 3.09
    chrF2 12.83
    TER 100
    Таблиця 4. Порівняння гіпотез перекладу для англійського тексту.
    Вхідні даніІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось говорив.
    ОписПродуктТранслітераціяОцінки якості
    Лемківський довідник (носій мови)А воґулі лемки в Польщі не мають такого, так би мовити, лідера, який би штоси повіл.A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.BLEU 100
    chrF2 100
    TER 0
    Переклад лемківською мовою від LemkoTran.comІ генеральні лемки в Польщі не мають лідера, же так повім, який би штоси повіл.I heneral „ni Lemkŷ v Pol“ ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.BLEU 55.58
    chrF2 65.32
    TER 29.41
    Google Translate (контроль)Переклад польською мовоюІ ґенеральне Лемків’я в Польщі не має лідера, але так повєм, хто б це повєдзял.I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.BLEU 9.26
    chrF2 29.29
    TER 82.35

    Переклад на українську мовуІ взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.BLEU 5.15
    chrF2 26.56
    TER 82.35
    Переклад на російську мовуІ взагалі, у лемків у Польщі немає, так би мовити, лідера, який би щось сказав.I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.BLEU 2.96
    chrF2 25.87
    TER 88.24
     Переклад білоруською мовоюІ в волевиявленні поляків я не маю лідера, так би мови, яка б нешта сказала.I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, take by movic′, jaki b nešta skazaŭ.BLEU 2.72
    chrF2 18.05
    TER 94.12
    Таблиця 5. Порівняння гіпотез перекладу для англійського тексту.

    Переклад з лемківської на англійську

    Оцінки

    За всіма показниками движок, розгорнутий на LemkoTran.com, перевершив Google Translate, для якого переклад як зі стандартної української мови завжди був на другому місці, потім він автоматично визначав мову оригіналу, потім перекладав як з білоруської, а потім з польської, а російська завжди була на останньому місці. У 76% випадків Google Translate розпізнавав лемківську мову як українську, у 16% – як російську, у 6% – як білоруську, а в решті випадків – як різні мови, що використовують кирилицю (наприклад, монгольську).

    СИНІЙ

    При перекладі на англійську мову LemkoTran.com отримав 17,95 балів, що на 23% краще, ніж останній опублікований результат (14,57 балів), і на 16% вище, ніж оцінка українського сервісу Google Translate (15,43 бали).

    Малюнок. 4. Якість перекладу з лемківської мови на англійську, виміряна за допомогою балів Bilingual Evaluation Understudy (BLEU), сервісу Google Cloud Neural Machine Translation (NMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще.
    chrF

    При перекладі на англійську мову рушій, розгорнутий на LemoTran.com, досягнув символьного n-грамового f-рахунку (chrF) 45,89, що на 5% краще, ніж показник українського сервісу Google Translate.

    Малюнок. 5. Якість перекладу з лемківської мови на англійську, виміряна за допомогою символьного n-градусного F-рахунку (chrF), Google Cloud Neural Machine Translation (GNMT) у порівнянні з експериментальною системою LemkoTran.com. Чим вище, тим краще.
    TER

    ЛемкоТран.ком отримав показник редагування перекладу (TER) 70,38 при перекладі англійською мовою, що на 7% краще, ніж показник українського сервісу Google Translate.

    Малюнок. 6. Коефіцієнт редагування перекладу з лемківської на англійську мову (TER), хмарний нейронний машинний переклад Google (GNMT) та експериментальна система LemkoTran.com. Чим нижче, тим краще.

    Зразки

    Нижче наведено результати роботи систем перекладу, коли на вхід подано англійську мову.

     ОписПродуктЯкість
    Оцінки
    Вхідна транскрипція лемківської мови від носія мовиЯк розділяємо мови, то мала контакт з польською, то не було так, так само пішла до школи без польської, бо мали сусідів поляків.н/д
    ТранслітераціяJak rozdiljame jazŷkŷ, to mala-m kontakt z polskŷm, to ne bŷlo tak, že pišla-m do školŷ bez polskoho, bo zme maly susidiv Poljakiv.н/д
    Довідковий переклад, виконаний двомовним професіоналомЯкщо говорити про окремі мови, то у мене був контакт з польською. Я ж не пішов до школи, не знаючи польської, бо у нас були сусіди-поляки. BLEU 100
    chrF2 100
    TER 0
    Переклад з лемківської мови за допомогою системи на LemkoTran.comКоли ми розділили мови, я спілкувався польською, це не було так, що я ходив до школи без польської, бо у нас були сусіди-поляки.BLEU 45.84
    chrF2 69.60
    TER 32.00
    Google Translate (контроль)з української (визначено автоматично з достовірністю 92%)Оскільки ми розділяємо мови, то я спілкувався з польською, потім це було не так, і я ходив до школи без польської, тому що у мене були сусіди-поляки.BLEU 15.87
    chrF2 54.38
    TER 72.00
    з білоруськоїОскільки ми розділяємо мови, то я мало контактував з польською, потім це було не так, але я ходив до школи без польської, тому що у нас було мало сусідів-поляків.BLEU 11.76
    chrF2 58.92
    TER 68.00
    з російськоїКоли ми поширювали мови, то з польською було мало контактів, потім вже не було, але до школи я ходив без польської, бо в Полякові змії кусалися.BLEU 6.87
    chrF2 42.66
    TER 92.00
    з польськоїОскільки я поширюю мову, я мало контактую з польською мовою, це не було так, що я ходив до школи без польської мови, тому що я зміню свою маленьку польську мову.BLEU 5.02
    chrF2 45.35
    TER 84.00
    Таблиця 6. Порівняння гіпотез перекладу для лемківського вкладу.

    5 Висновок

    Поєднання морфологічно та синтаксично інформованих генераторів із нейронними двигунами може підвищити якість машинного перекладу щонайменше на третину, а також надати інженерам можливість вичищати запозичені слова та протидіяти іншим перешкодам, пов’язаним із домінуючою мовою, а також забезпечити дотримання стандартів, зокрема кодифікацій мов меншин. Скляні стелі якості, накладені недосконалостями, притаманними моделям штучного інтелекту, також можуть бути зруйновані за допомогою звукорежисури. Для лемківської мови, як і для інших малоресурсних мов корінних меншин, межею якості перекладу зараз є небо, а революції у сфері відродження – просто за горизонтом.

    Подяки

    Я хотів би подякувати доктору Мінгу Цяню з Charles River Analytics за натхнення провести цей експеримент, Майклу Десербо з Raytheon BBN Technologies та доктору Джеймсу Джошуа Пеннінгтону за їхні глибокі зауваження, а також доктору Іву Шерреру з Університету Гельсінкі за його інтерес до проекту та ідей.

    Посилання

    1. Бромхем Л., Діннейдж Р., Скіргорд Х. Рітчі А., Карділло М., Мікінс Ф., Грінхілл С., Хуа X.: Глобальні предиктори загрози зникнення мов та майбутнє мовного розмаїття. Nature Ecology & Evolution 6, 163-173 (2022). https://doi.org/10.1038/s41559-021-01604-y
    2. Гонсалес, М., Аронсон, Б., Келлар, С., Воллс, М., Грінфілд, Б.: Мова як фасилітатор культурних зв’язків. ab-Original 1(2), 176-194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
    3. Остер Р., Грієр А., Лайтнінг Р., Майя М., Тот Е.: Культурна спадкоємність, традиційна мова корінних народів і діабет у корінних народів Альберти: дослідження змішаних методів. Міжнародний журнал справедливості в охороні здоров’я 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
    4. Культура, спадщина та дозвілля: розмовляючи мовами аборигенів та мешканців островів Торресової протоки. In: 4725.0 – Добробут аборигенів та мешканців островів Торресової протоки: У центрі уваги – діти та молодь. Австралійське бюро статистики (2011). https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
    5. Галлетт, Д., Чендлер, М., Лалонд, К.: Знання мови аборигенів та молодіжні самогубства. Когнітивний розвиток 22(3), 392-399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
    6. Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Вплив використання та відродження мов корінних народів на здоров „я: реалістичний огляд. Міжнародний журнал справедливості в охороні здоров“ я 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
    7. Скродзька, М., Гансен, К., Олько, Я., Білевич, М.: Подвійна роль мови меншини в історичній травмі: Випадок лемківської меншини в Польщі. Журнал мовної та соціальної психології. 39(4) 551-566 (2020). https://doi.org/10.1177/0261927X20932629
    8. Чжан С., Фрей Б., Бансал М.: ChrEn: Машинний переклад з мови черокі на англійську для відродження зникаючих мов. В кн: Матеріали конференції 2020 року з емпіричних методів в обробці природної мови (EMNLP), с. 577-595. Асоціація комп’ютерної лінгвістики, онлайн (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
    9. Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Олько, Я., Вічеркевич, Т., Борхес, Р. (ред.) Інтегральні стратегії відродження мови, 1-е вид., с. 175-200. Факультет „Artes Liberales“, Варшавський університет, Варшава (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
    10. Шевельов, Г.: Історична фонологія української мови (український переклад). Вакуленко, С., Даниленко, А. (пер.), Ушкалов, Л. (ред.). Наукове видавництво „АКТА“, Харків (2002, оригінальна праця опублікована 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
    11. Rieger, J.: Stanovysko i zrižnycjuvanja „rusynskŷx“ dialektiv v Karpatax (in Rusyn). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Русинська мова, с. 39-66. 2nd edn. Опольський університет – Інститут польської філології, Ополе (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    12. Ванько, Я.: Класифікація та основні знання карпатських русинських діалектів (русинською мовою). In: Magosci, P. (ed.) Najnowsze dzieje języków słowiańskich. Русинська мова, с. 67-84. 2nd edn. Опольський університет – Інститут польської філології, Ополе (2007). https://www.unipo.sk/cjknm/hlavne-sekcie/urjk/vedecko-vyskumna-cinnost/publikacie/26405/
    13. Ванько, Я.: Русинська мова в Словаччині: між молотом і ковадлом. В: Дюшен, А. (ред.) Міжнародний журнал соціології мови, т. 2007, № 183, с. 75-96. Walter de Gruyter GmbH, Берлін (2007). https://doi.org/10.1515/IJSL.2007.005
    14. Сополига, М.: Do pytanʹ etničnoï identifikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny. In: Скрипник, Г. (ред.) Українці-росіяни: етнонаціональні та етнокультурні процеси в історичному розвитку, с. 454-487. Національна академія наук України, Національна асоціація українознавців, Інститут мистецтвознавства, фольклористики та етнології ім. М. Т. Рильського, Київ (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
    15. Оринич, П.: Скажи це правильно: Нейронний машинний переклад AI дає можливість новим ораторам відродити лемківську мову. In: Деген, Х., Нтоа, С. (ред.) Штучний інтелект в HCI. HCII 2022. Конспект лекцій з інформатики, том 13336, с. 567-580. Спрінгер, Чам (2022). https://doi.org/10.1007/978-3-031-05643-7_37
    16. Оринич, П., Добрий, Т., Джексон, А., Літценберг, К.: Yes I Speak… Нейронний машинний переклад ШІ у багатомовному навчанні. В кн: Матеріали Міжвідомчої/галузевої конференції з навчання, моделювання та освіти (I/ITSEC) 2021, Paper no. 21176. Національна асоціація навчання та моделювання, Орландо (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
    17. Шеррер, Ю., Рабус, А.: Нейронне морфосинтаксичне тегування для русинської мови. In: Мітков, Р., Тайт, Я., Богураєв, Б. (ред.) Інженерія природної мови, vol. 25, no. 5, pp. 633-650. Cambridge University Press, Кембридж (2019). https://doi.org/10.1017/S1351324919000287
    18. Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski (польською мовою). Рутеніка, Варшава (2004).
    19. Пиртей, П.: Короткий словник лемківських говірок. Сіверя М.В., Івано-Франківськ (2004).
    20. Дуда, І.: Лемківський словник. Астон, Тернопіль (2011).
    21. Rieger, J.: Słownictwo i nazewnictwo łemkowskie (польською мовою). Wydawnictwo naukowe Semper, Варшава (1995).
    22. Фонтанський, Г., Хом’як, М.: Граматика лемківської мови (польською мовою). Wydawnictwo Naukowe “Śląsk”, Katowice (2000).
    23. Pyrtej, P.: Dialekt łemkowski. Фонетика і морфологія (польською мовою). Хойсак, В. (ред.). Zjednoczenie Łemków, Gorlice (2013).
    24. Пост, М.: Заклик до ясності у звітності за шкалою BLEU. In: Матеріали Третьої конференції з машинного перекладу (WMT), т. 1, с. 186-191. Асоціація комп’ютерної лінгвістики, Брюссель (2018). https://doi.org/10.48550/arXiv.1804.08771
    25. Папінені, К., Рукос, С., Уорд, Т., Вей-Цзин, З.: BLEU: метод автоматичного оцінювання машинного перекладу. В.: BLEU: метод автоматичного оцінювання машинного перекладу: Матеріали 40-ї щорічної зустрічі Асоціації комп „ютерної лінгвістики (ACL 02), с. 311-318. Асоціація комп“ ютерної лінгвістики, Філадельфія (2002). https://doi.org/10.3115/1073083.1073135
    26. Сновер, М., Дорр, Б., Шварц, Р., Міччулла, Л., Махул, Я.: Дослідження швидкості редагування перекладу з цільовою людською анотацією. В кн: Матеріали 7-ї конференції Асоціації машинного перекладу в Америці: Технічні доповіді, с. 223-231. Асоціація машинного перекладу в Америці, Кембридж (2006). https://aclanthology.org/2006.amta-papers.25
    27. Попович, М.: chrF: символьна n-грамова F- оцінка для автоматичного оцінювання МТ. В кн: Матеріали Десятого семінару зі статистичного машинного перекладу, с. 392-395. Асоціація комп’ютерної лінгвістики, Лісабон (2015). http://dx.doi.org/10.18653/v1/W15-3049
  • Winning Hearts & Tongues: A Polish to Lemko Case Study

    Winning Hearts & Tongues: A Polish to Lemko Case Study

    Abstract

    When minority and local languages are lost, national security suffers: not only are significant increases in suicidality, depression, diabetes, assault, and substance abuse often documented, a void is created that has historically been exploited by adversaries. For example, millions from minority language communities ahistorically assume the Russian language and/or identity as their own in Ukraine, Belarus, NATO allies, and even the United States. If native language communication gaps remain in the hands of adversaries only, using their long experience with these languages, NATO remains at a major disadvantage attempting to engage these communities. In Europe, psychic wounds inflicted in part by language loss have not been closed by assimilation. Instead, cities experience bursts of isolating tensions in the West and eastern populations are convinced by adversarial powers that those powers are their true allies, who understand and respect them. Nor is education in the official language a panacea: in the case of Ukraine (and even Spain), non-trivial differences between local lects and the official language create openings for adversaries to fan the flames of separatism.

    Using machine translation engines to empower NATO and its partners in training recruits or acting on the ground in the language closest to their hearts and minds can win immediate ‘us’-ness and showcase NATO’s embraced polycultural vision. Artificial intelligence and rule-based engines were assembled to translate between the official language of Poland and that of its indigenous Lemko minority, which has long been targeted by foreign powers. Engines were scored translating from Lemko to Polish using metrics developed with support from DARPA, producing a bilingual evaluation understudy (BLEU) score of 31.13 and translation edit rate (TER) of 54.10. Meanwhile, in the other direction, the engines scored TER 53.73 and BLEU 29.49, a score 6.5 times better than that of Google Translate’s Polish-Ukrainian service.

    Please cite as: Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC).

    This version of the contribution has been accepted for publication after peer review but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections. The Version of Record is available online at this link. Use of this Accepted Version is subject to the publisher’s Accepted Manuscript terms of use.

    Introduction

    Training outcomes stand to benefit from the use of machine translation for Indigenous and minority languages and dialects, whose usage is increasingly and significantly (p ≤ 0.05) associated in scientific literature with sharper minds, more resilient psyches, and hardier health, not to mention sixfold lower suicide rates (Hallett et al., 2007, p. 398). Heritage language use may steel against foreign adversary influence, and in the North Atlantic theater, may prevent targeted populations from falling into Russian or other ahistorical ethnolinguistic identities when coping with the devastating aftermath of language loss. While the localization of materials into local dialects and languages may have previously been beyond the means of war-torn communities and governments, thanks to recent breakthroughs in artificial intelligence and computational linguistics, it is now possible to contemplate affordable devices that are cheaper, faster, and better than humans at translating into low-resource Indigenous and minority languages.

    The problem of language loss is not limited to Europe. While the global language endangerment situation may not be as dire as available data had suggested in the early nineties, available statistics still paint a grim picture. In an oft-cited work dubbed “the great linguistic call to arms” by Simmons and Lewis (2013), Krauss had warned in 1992 that from half to 90% of the world’s languages were set to become extinct this century. In addition, he had posited a “documented rate of destruction” of 90% of Indigenous languages in the Anglosphere, where English predominates, and an estimated 50% moribundity rate for the entire Soviet Union, where Russian was dominant (Krauss, 1992, p. 5). Twenty years later, Simmons and Lewis (2013) used updated data to estimate that 1,360 of 7,103 living languages (19%) are not being transmitted to the next generation (p. 12), a figure that rises to 30% in Eastern Europe (p. 13).

    Neuroscience and Learning Outcomes

    The latest research indicates that using a native language may mean more mental bandwidth is available for learning, and that test scores significantly improve. An investigation at the McGovern Institute for Brain Research headed by Massachusetts Institute of Technology (MIT) researchers earlier this year observed a relatively low brain response to native language stimuli when measured using the functional magnetic resonance imaging (fMRI) technique (Malik-Moraleda et al., 2023). As an explanation, the researchers suggested that expertise reduces the amount of brainpower required for a task (Mesa, 2023). In a recent study for the World Bank, Soh, Del Carpio and Wang (2021) found that using a non-native language of instruction may be detrimental, and to males especially. In the study, math and science test scores among students in Malaysia dropped significantly after the language of instruction was switched from Malay to English (Soh et al., 2021, pp. 4, 17, 18–19).

    National Security

    According to North Atlantic Treaty Organization (NATO) Special Operations School faculty members White and Overdeer, Russia may exploit ethnic cleavages in targeted societies as a lever of hybrid warfare in an attempt to achieve foreign policy objectives (2020, pp. 31–33), with ethnolinguistic differences being “readily available and easy to exacerbate” (p. 40). Below, the instigation and exploitation of ethnolinguistic strife in both western and eastern Europe is explored.

    Spain: Catalonia

    The public use of Catalan, a minority language spoken in Northeastern Spain, was prohibited by the Franco government until 1975 (Miller & Miller, 1996, p. 113). Rather than resolve strife, that policy may have caused it to fester. In a story for The New York Times, Schwirtz and Bautista (2021) cited a June 2020 European intelligence report asserting that the Russian Federation military intelligence system’s elite Unit 29155 had been on the ground in Catalonia around the time of a 2017 independence referendum when the “secretive protest group” Tsunami Democràtic occupied the Barcelona airport and cut off the main highway linking Spain to its northern neighbors. Three days later, a colonel in Russia’s Federal Protective Service and a close relative of a top presidential adviser deeply involved in Russia’s efforts to support separatists in Ukraine flew in from Moscow for a strategy session to discuss the Catalan independence movement (Schwirtz & Bautista, 2021).

    Russian Federation support for the Catalan independence movement reportedly even included an offer of 10,000 troops and 500 billion United States dollars in the event of independence (Baquero et al., 2022; see also Brunet, 2022, p. 74). Louise I. Shelley of the Terrorism, Transnational Crime and Corruption Center at George Mason University in Virginia called Russia reaching out to separatist leaders in Spain consistent with past behavior, and explained, “The linkages between the Catalonians and the Russians go back to the Soviet era. Before the collapse of the USSR, high-level meetings were held in Barcelona with distinguished Russians” (Baquero et al., 2022).

    Western Ukraine

    In Ukraine, non-trivial differences between local lects and the literary standard taught in schools create openings for adversaries to stoke the flames of separatism. According to a 2012 report by Rating, only 54% of ethnic Ukrainians used their heritage language, with 29% using Russian and 17% a mix of the two (p. 9). That year, nine books were printed in Russian for every one in Ukrainian, and only 13% of print media copies were written in Ukrainian (Moser, 2016a, p. 604).

    Two decades ago, the United States Department of State’s annual Country Reports on Human Rights Practices for 2002 reported as follows:

    Some pro-Russian organizations in the eastern part of the country complained about the increased use of Ukrainian in schools and in the media. They claimed that their children were disadvantaged when taking academic entrance examinations, since all applicants were required to take a Ukrainian language test.

    Department of State, 2003, p. 1758

    Rusyns (Ruthenians) continued to call for status as an official ethnic group in the country. Representatives of the Rusyn community have called for Rusyn-language schools, a Rusyn-language department at Uzhhorod University, and for Rusyn to be included as one of the country’s ethnic groups in the 2001 census. According to Rusyn leaders, more than 700,000 Rusyns live in the country.

    Department of State, 2003, p. 1759

    As a starting point for the wider issues mentioned by the Department of State, which are outside the scope of this paper, former Harvard Ukrainian Research Institute fellow Michael Moser explained:

    Rusyns can probably be best described as those remainders of Ruthenians/Rusyns who have not been willing to join the modern Ukrainian national and linguistic movement… initially this reluctance was not based on any Rusyn identity in the modern sense, but resulted from Russophile views that Ruthenians/Rusyns/Little Russians belong to one indivisible Russian people and there was no place for a Ukrainian nation and a Ukrainian language.

    Moser, 2016b, p.127

    In June 2007, the “Russian World Foundation” was founded in Moscow by presidential decree, and started funding “compatriots” in Ukraine, bestowing over 1,200,000 United States dollars by March 2011 (Moser, 2016a, p. 607).

    A gathering took place at the Russian Drama Theater in the far-western city of Mukachevo, Ukraine, on October 25, 2008 (Wiktorek, 2010, p. 100). There were even reports of a hundred-odd out-of-towner armed individuals outside (Ukrajinsʹke nacionalʹne objednannja, 2009; see also Wiktorek, 2010, p. 100). Whatever happened there, at 8:30pm that night, a proclamation of “restoration of Rusyn statehood” appeared in Russian on the online platform rusin.forum24.ru. It mentions among its grievances “the replacement of the Rusyn state language with Galician Ukrainian, the language of Polish Galicia, Rusyns’ northern neighbor.” (2-nd Europаn [sic] Сongress Subсarpathion [sic] Rusyns, 2008).

    In the run-up to ordering his army to overtly invade Ukraine to conduct a widescale “special military operation,” the president of the Russian Federation had devoted a full paragraph to the “fate of Subcarpathian Rus’” in his essay On the Historical Unity of Russians and Ukrainians:

    I will separately discuss the fate of Subcarpathian Rus’, which ended up in Czechoslovakia after the collapse of Austria-Hungary. A considerable portion of the local inhabitants comprised Rusyns. Although it is now rarely remembered, after the liberation of Transcarpathia by Soviet troops, a congress of the Orthodox population of the territory declared support for inclusion of Subcarpathian Rus’ into the Russian Soviet Federative Socialist Republic or directly into the Soviet Union as a separate, Carpatho-Russian republic.

    Putin, 2021

    In another incident in the region, two members of the Polish far-right organization Falanga, whose members had been on the ground among Russian separatists in Eastern Ukraine, set fire to a cultural center of the Hungarian indigenous ethnolinguistic minority in the regional capital of Uzhhorod in 2018 by dousing it with gasoline and throwing in a Molotov cocktail (Górzyński, 2018).

    Health and Safety

    Suicidality

    Sixfold higher suicide rates have been observed in communities where fewer than half report conversational knowledge of their heritage language (Hallett et al., 2007, p. 398). On a positive note, youth suicide rates dropped to zero in all cases but one where a majority reported ability to hold a conversation in their heritage language (p. 397). In a 2022 study by Pezzia and Hernandez, those who did not speak a heritage language fluently, but whose parents did (p. 95), were most likely to have suicidal thoughts (p. 98). As an explanation for the tie between language loss and suicidal ideation, Pezzia and Hernandez suggest “acculturative stress or social exclusion” resultant from acceptance as a full member of one’s ethnic group being prevented by lack of fluency in its language (p. 100).

    Depression

    After controlling for age, gender, education, financial situation, and ethnic group membership, researchers found that concealment of identity by avoiding use of a heritage language in public (termed language avoidance) is a statistically significant (p = 0.006) predictor of being categorizable as “depressed” owing to production of a score of 5 or higher on Kroenke and Spitzer’s Patient Health Questionnaire 9 (Olko et al., 2023, pp. 5–6). As a theorized mechanism, the researchers mentioned ethnic discrimination inducing chronic stress, leading to persistent hyperactivity of the hypothalamic-pituitary-adrenal axis and resultant heightened levels of corticotropin-releasing factor and cortisol, pointing to the work of Willner (2017), as well as Slavich and Irwin (2014).

    Diabetes

    After adjustment for socio-economic factors, diabetes mellitus was significantly (p = 0.005) less prevalent in communities with Indigenous language knowledge (Oster et al., 2014, p. 9).

    Tobacco use

    Being more English-language acculturated has been significantly associated with smoking among older Asian American adolescents in New York City (Rosario-Sim & O’Connell, 2009). In another study, use of English at home was associated with higher smoking prevalence rates among Asian American youth (p = 0.021), as was high English proficiency (p = 0.040) (Chen et al., 1999, p. 325). Among Hispanic girls, those who spoke English with their parents smoked more than those who spoke both English and Spanish with their parents (p < 0.0001), as well as girls who spoke Spanish with their parents (p < 0.01) (Epstein et al., 1998, p. 586).

    Substance use and assault

    According to the Australian Bureau of Statistics (2011/2012), Aboriginal youth between the ages of fifteen and twenty-four years who spoke an Indigenous language were less likely to have used illicit substances (16% vs 26%), less likely to report binge drinking in the previous two weeks (18% vs. 34%), and less likely to have been a victim of physical or threated violence in the previous year (25 vs 37%).

    Solutions So Far

    Neural Artificial Intelligence

    The neural machine translation breakthrough by an international team with Defense Advanced Research Projects Agency (DARPA) funding under the Broad Operational Language Translation (BOLT) project (Cho et al., 2014) as well as Google (Sutskever et al., 2014) gave rise to engines capable of achieving quality scores on par with those of humans. However, training neural engines requires more data than is generally available for low-resource languages.

    Rule-Based Machine Translation

    Rule-based translation engines of the past were generally considered to have been wastes of money (Hajič et al., 2000, p. 7) with the notable exception of the Prague-based RUSLAN system funded by the Soviet-founded Council for Mutual Economic Assistance (COMECON), which produced Czech to Russian translations of mainframe computer operating system documentation (p. 7), with translations of two in five sentences being correct, another two in five only containing minor errors, and only one in five requiring substantial editing or retranslation (p. 8).

    The main reasons given for the apparent disappointment in Prague over the results of Czech to Russian rule-based systems was that the task itself was too complex, and that Czech and Russian are not closely related enough to make such an approach viable. Unrealistic expectations and lack of objective evaluation metrics might be added to the list. Meanwhile, results translating from Czech into Slovak and Polish, all more closely related West Slavic languages, were quite encouraging (Hajič et al., 2000, p. 12).

    Hybrid Neural/Rule-Based Machine Translation

    In results presented at the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC), a rule-based Lemko to Polish engine was combined with a Polish to English rule-based engine to produce the world’s first published results for machine translations from Lemko to English (Orynycz et al., 2021). The next year, translations in the opposite direction were produced by modifying the system and running it in reverse (Orynycz, 2022). Improvements made to that engine by overhauling it and increasing its vocabulary later led to a 35% improvement in translation quality (Orynycz, 2023).

    New Solutions

    Rule-Based Machine Translation Expert System

    An inference engine was hand coded via test-driven development to reflect truths contained in a knowledge base assembled in consultation with the work of subject area experts. This approach also allows for manual elimination of foreign interference and purging of Russian and other loanwords. Dictionaries consulted included Horoszczak’s bidirectional Polish-Lemko dictionary (2004), Pyrtej’s Lemko-Ukrainian dictionary (2004), Duda’s Ukrainian-Lemko dictionary (2011), and Rieger’s Lemko-Polish glossary (1995), as well as his Lemko-Polish glossary based on recordings from the village of Bartne (2016). The grammars of Fontański and Chomiak (2000) as well as Pyrtej (2013) were consulted in coding rules to inflect words by grammatical categories such as number, case, and gender.

    Transformer Artificial Intelligence

    The neural machine translation breakthrough was followed closely by the introduction by scientists at Google Brain and Google Research of the Transformer architecture, which is based solely on attention mechanisms and dispenses with recurrence and convolutions entirely (Vaswani et al., 2017). For this experiment, we trained transformer based artificial intelligence models to translate from Polish into Lemko, and as far as we are aware, are first to publish results.

    Material and Methods

    Material

    Data

    Artificial intelligence models were created using a corpus comprising 1,611,352 source words (as counted by Microsoft Word 365) across 112,507 lines penned by Polish-born native speakers of Lemko, together with their translations into Polish by the Google Cloud Platform Translation Application Programming Interface (API) configured to translate as if from Standard Ukrainian using neural machine translation.

    Lemko (also known as Lemko Rusyn) genetically belongs to the southwestern Ukrainian dialect system, within which it is differentiated by fixed stress on the penultimate (next-to-last) syllable (Danylenko, 2020). Such dialects are indigenous to territories now under the governance of Poland and, since 1993, the Slovak Republic.

    In interwar Poland, the government fostered separate Lemko, Hutsul, and Boiko identities in an effort to counteract the Ukrainian movement, whose teachers had been dismissed (Moser, 2016b, p. 128). In 1935, Russophile teachers were replaced with Poles, and Lemko was finally removed from schools in 1937 (p. 128). About two-thirds of Lemko speakers in Poland were deported to Ukraine between 1945 and 1947, with the remaining 40,000 to 50,000 resettled primarily to newly annexed, formerly German territories of Communist Poland (p. 131). According to preliminary results for Poland’s 2021 census, 12,700 listed “Lemko” as an ethnicity (Główny Urząd Statystyczny, 2023, p. 3).

    Methods

    Preprocessing

    First, all text was lowercased. Next, a space was added before and after all non-alphanumeric characters. Initial and final whitespace was also stripped from each line. Then, the above corpus was processed using Moslem’s script (2023a) for cleaning and filtering parallel datasets (commit db6f441), leaving 33,612 lines comprising 610,990 source words as tallied by Microsoft Word 365.

    Subword tokenization

    Unigram subwording models were trained using Moslem’s script (2021a) (commit fbf2488). Next, those models were employed to tokenize both the source and target text using subwording script number two of the same commit (Moslem, 2021b).

    Data splitting

    2,000 lines from the above corpus were split off for evaluation using Moslem’s script (2023b) for that purpose (commit e6decb7).

    Training artificial intelligence models

    Artificial intelligence models were trained using the TensorFlow version of the OpenNMT toolkit for neural machine translation, which is the successor to Harvard’s seq2seq-attn sequence-to-sequence model with attention (Klein et al., 2017, p. 68). The command for starting the training and evaluation loop was launched with automatic configuration for the Transformer model. Automatic evaluation was also enabled, and set to run every 5,000 steps using the bilingual evaluation understudy (BLEU) metric and export a model when a new high score was achieved. Training was conducted on the Google Colabatory platform utilizing NVIDIA A100 graphical-processing units and a high random-access memory runtime state. Training was permitted to run overnight.

    Inference engine

    A translation inference engine was crafted on the basis of Klein’s Python serving client script (commit  2b196ff) (2021), which was modified to accommodate source and target subword tokenization models, as well as optimize spacing and capitalization to better conform to the expectations of artificial intelligence models and end users. Translation predictions were saved to file for subsequent quality evaluation.

    Quality evaluation

    The quality of translations was evaluated using metrics whose development was funded by DARPA: both BLEU (Papineni et al., 2002) and the Translation Edit Rate (TER) (Snover et al., 2006). The scores themselves were calculated using the industry-standard methods developed at Amazon Research by Post (2018).

    Results

    Translation Quality Scores

    The experimental rule-based expert system outperformed all others by every metric when translating from Polish to Lemko and vice versa.

    Polish to Lemko Translation Quality

    When translating from Polish to Lemko, the experimental expert rule-based system achieved a bilingual evaluation understudy quality score of BLEU 29.49, which is 6.50 times better than Google Translate’s Ukrainian service. Meanwhile, the experimental artificial intelligence Transformer neural machine translation system achieved a score of BLEU 15.90 after 30,000 training steps, which was 3.50 times better than Google Translate’s Ukrainian. When measured using the alternative TER metric, the experimental expert, rule-based system scored TER 53.73, which is 61% better than Google Translate’s Ukrainian service.

    Figure 1. Polish to Lemko Translation Quality: BLEU Scores
    Figure 2. Polish to Lemko Translation Quality: TER Scores

    Lemko to Polish Translation Quality

    The experimental, rule-based expert system outperformed all others by every metric when translating from Lemko to Polish, achieving a bilingual evaluation understudy quality score of BLEU 31.13, which was 1.4 times better than the performance of Google Translate’s Ukrainian service at BLEU 22.16.

    Samples

    English meaning (human translator)In texts for example, and I mainly study texts, I have this source, they wrote: the Austrians were murdering us, so what will those awful Muscovites they’re trying to scare us with do to us?
    Polish
    (human translator)
    Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą?
    Truth: Lemko reference (native speaker)І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат?I ony napryklad v tekstach, a ja holovni dosljidžam tekstŷ, to značŷt mam takie džerelo, pysaly: no Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ Moskalji, kotrŷma nas strašat?
    SystemTranslation HypothesesQuality Scores
    CyrillicTransliterationBLEUTER
    ExperimentalExpert System (Rule-Based)Наприклад они в текстах, а я головні бадам текстий, мам такы джерело, писали: Австриякы нас мордували, то што зроблят тоты страшны москале, котрыма нас страшом?Napryklad ony v tekstach, a ja holovni badam tekstyj, mam takŷ džerelo, pysaly: Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ moskale, kotrŷma nas strašom?46.3234.48
    Artificial Intelligence (Transformer)Примірово, в текстах, а я головні в заміріню тексту, маме джерело, писали: австриякы австриякы мордували, же то што зроблят стабілизацию тому, котрыма нас престрашыли?Prymirovo, v tekstax, a ja holovni v zamirinju tekstu, mame džerelo, pysaly: avstryjakŷ avstryjakŷ morduvaly, že to što zrobljat stabilyzacyju tomu, kotrŷma nas prestrašŷly?27.6555.17
    Google TranslatePolishНа прзиклад оні в текстах, а я ґлувнє бадам тексти, мам такє зьрудло, пісалі: Аустряци нас мордовалі, то цо зробьон ці страшні Москалє, ктуримі нас страшон?Na przyklad oni v tekstach, a ja gluvnje badam teksty, mam takje źrudlo, pisalji: Austriacy nas mordovalji, to co zrobjon ci strašni Moskalje, kturymi nas strašon?14.2168.97
    UkrainianНаприклад, у своїх текстах, а я в основному досліджую тексти, у мене є таке джерело, вони писали: Австрійці нас повбивали, що будуть робити ті страшні москалі, якими вони нам погрожують?Napryklad, u svojix tekstax, a ja v osnovnomu doslidžuju teksty, u mene je take džerelo, vony pysaly: Avstrijci nas povbyvaly, ščo budutʹ robyty ti strašni moskali, jakymy vony nam pohrožujutʹ?9.4382.76
    RussianНапример, в их текстах, а я в основном исследую тексты, у меня есть такой источник, они писали: Нас убили австрийцы, что будут делать те страшные москвичи, которыми они нам угрожают?Naprimer, v ix tekstax, a ja v osnovnom issleduju teksty, u menja estʹ takoj istočnik, oni pisali: Nas ubili avstrijcy, čto budut delatʹ te strašnye moskviči, kotorymi oni nam ugrožajut?9.4386.21
    BelarusianНапрыклад, у сваіх тэкстах, а я ў асноўным тэксты дасьледую, у мяне ёсьць такая крыніца, яны пісалі: Аўстрыйцы нас забілі, што будуць рабіць тыя страшныя маскалі, якімі яны нам пагражаюць?Napryklad, u svaix tèkstax, a ja ŭ asnoŭnym tèksty das′leduju, u mjane ës′c′ takaja krynica, jany pisali: Aŭstryjcy nas zabili, što buduc′ rabic′ tyja strašnyja maskali, jakimi jany nam pahražajuc′?4.9996.55
    Table 1. Example Polish to Lemko Translations

    Discussion

    Policy Implications

    Learning, public health, and security outcomes may improve if educational, training, community outreach, and other materials are localized into regional dialects and languages in addition to national standard ones. To avoid straining human resource capacities, linguists could be tasked with post-editing the output of expert and artificial intelligence machine translation systems, as opposed to translating by hand. More affordable access to translated materials could bring improvements to social services in underserved areas. Stonewall et al. list being multilingual, and thus inclusive, high on their list of best practices for engaging underserved populations (2017). The European Union has been funding research suggesting machine translation can be used to facilitate civic participation, as well as strengthen public health and safety among underserved communities (Nurminen & Koponen, 2020).

    Technological Implications

    Things are on track for commercially viable machine translation into Lemko at the press of a button to become a reality. Continued test-driven development of expert, rule-based systems seems poised to offer the quickest path to superhuman translation quality scores. Transformer-based artificial intelligence systems may win out in the long term.

    Some tweaks to the artificial intelligence training procedure merit experimentation. The corpus filtering script may have been overzealous for this task and overly shrunk the corpus size, hindering performance. The script might be omitted in a future experiment. Overfitting may be hampering scores, and perhaps the evaluation interval of 5,000 steps should be shortened. Using the expert rule-based system to translate corpora into Polish from Lemko as opposed to the Google Cloud Platform service might result in better results. Incorporating automatic spelling correction modules might also improve scores globally.

    Russian and other foreign linguistic interference might be countered programmatically by purging loanwords using find-replace algorithms. National language academies and other authorities might find such capabilities useful. It is possible that translation quality has already reached superhuman levels, a hypothesis that could be tested in future experiments.

    Declaration of Competing Interests

    The primary author serves as a quality control specialist for the Google Translate project out of San Francisco.

    References

    2-nd Europаn [sic] Сongress Subсarpathion [sic] Rusyns [rusin]. (2008, October 25).MEMORANDUM 2-go Evropejskogo Kongressa Podkarpatskix Rusinov o prinjatii AKTA PROVOZGLAŠENIJA vosstanovlenija rusinskoj gosudarstvennosti [Memorandum of the Second European Congress of Subcarpathian Rusyns on the Adoption of a Proclamation of Restoration of Rusyn Statehood] [Online forum post]. Informacionnoe Agenstvo Podkarpatskoj Rusi. IAPR. Forum podkarpatskix rusinov.
    http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832

    Australian Bureau of Statistics, (2012). Culture, Heritage and Leisure: Speaking Aboriginal and Torres Strait Islander Languages. Aboriginal and Torres Strait Islander Wellbeing: A focus on children and youth. (Original work published 2011) Retrieved May 1, 2023 from https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC

    Baquero, A., Hall, K.G., Tsogoeva, A., Albalat, J.G., Grozev, C., Bagnoli, L., IStories, & Vergine, S. (2022, May 8). Fueling Secession, Promising Bitcoins: How a Russian Operator Urged Catalonian Leaders to Break With Madrid. Organized Crime and Corruption Reporting Project (OCCRP). https://www.occrp.org/en/investigations/fueling-secession-promising-bitcoins-how-a-russian-operator-urged-catalonian-leaders-to-break-with-madrid

    Brunet, F. (2022). The Economics of Catalan Separatism. Cham: Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-14451-6

    Chen, X., Unger, J.B., Cruz, T.B., & Johnson, C.A. (1999). Smoking patterns of Asian-American youth in California and their relationship with acculturation. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9

    Cho, K., van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179

    Danylenko, A. (2020). “Carpatho-Rusyn”, in: Encyclopedia of Slavic Languages and Linguistics Online, Editor-in-Chief Marc L. Greenberg. Consulted online on 13 June 2023
    http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960

    Department of State (2003). S.Prt. 108-30, Volume I – COUNTRY REPORTS ON HUMAN RIGHTS PRACTICES FOR 2002 VOLUME I. Washington, D.C: U.S. Government Publishing Office. https://www.govinfo.gov/app/details/CPRT-108JPRT86917/CPRT-108JPRT86917

    Duda, I. (2011). Lemkivsʹkyj slovnyk [A Lemko Dictionary]. Ternopil: Aston.

    Epstein, J. A., Botvin, G.J., & Diaz, T. (1998). Linguistic acculturation and gender effects on smoking among Hispanic youth. Preventive medicine, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329

    Fontański, H., & Chomiak, M. (2000). Gramatyka języka łemkowskiego [A Grammar of the Lemko Language]. Katowice: „Śląsk” Sp. z o.o. Wydawnictwo Naukowe.

    Główny Urząd Statystyczny (2023). Wstępne wyniki NSP 2021 w zakresie struktury narodowo-etnicznej oraz języka kontaktów domowych [Preliminary Results of the 2021 Census in Terms of National and Ethnic Structure and Language Used at Home]. Retrieved June 11, 2023 from https://stat.gov.pl/spisy-powszechne/nsp-2021/nsp-2021-wyniki-wstepne/wstepne-wyniki-narodowego-spisu-powszechnego-ludnosci-i-mieszkan-2021-w-zakresie-struktury-narodowo-etnicznej-oraz-jezyka-kontaktow-domowych,10,1.html

    Górzyński, O. (2018, March 3). Russia’s Covert Campaign to Inflame East Europe. The Daily Beast. https://www.thedailybeast.com/russias-covert-campaign-inflaming-east-europe

    Hajič, J., Hric, J., & Kuboň, V. (2000, April). Machine translation of very close languages. In Sixth Applied Natural Language Processing Conference (pp. 7–12). http://dx.doi.org/10.3115/974147.974149

    Hallett, D., Chandler, M.J., & Lalonde C.E. (2007): Aboriginal language knowledge and youth suicide. Cognitive Development. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001

    Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemko-Polish and Polish-Lemko Dictionary], Warszawa: Rutenika.

    Klein, G. (2021). Inference with TensorFlow Serving. Retrieved June 5, 2023, from https://github.com/OpenNMT/OpenNMT-tf/blob/master/examples/serving/tensorflow_serving/ende_client.py

    Klein, G., Kim, Y., Deng, Y., Senellart, J., & Rush, A.M. (2017). OpenNMT: Open-Source Toolkit for Neural Machine Translation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics-System Demonstrations, pp. 67–72. https://doi.org/10.18653/v1/P17-4012

    Krauss, M. (1992). The world’s languages in crisis. Language, 68(1), 4–11. https://doi.org/10.1353/lan.1992.0075

    Malik-Moraleda, S., Jouravlev, O., Mineroff, Z., Cucu, T., Taliaferro, M., Mahowald, K., Blank, I., & Fedorenko, E. Functional characterization of the language network of polyglots and hyperpolyglots with precision fMRI. Cold Spring Harbor Laboratory. Advance online publication. https://doi.org/10.1101/2023.01.19.524657

    Mesa, N. (2023, February 3). Your native tongue holds a special place in your brain, even if you speak 10 languages. Science, https://doi.org/10.1126/science.adh0055

    Miller, H., & Miller, K. (1996). Language Policy and Identity: the case of Catalonia. International Studies in Sociology of Education, 6(1). https://doi.org/10.1080/0962021960060106

    Moser, M. (2016a). Language Politics in Contemporary Ukraine (25 February 2010–25 February 2011). In New Contributions to the History of the Ukrainian Language (pp. 601–619). Canadian Institute of Ukrainian Studies Press. https://www.ciuspress.com/product/new-contributions-to-the-history-of-the-ukrainian-language/

    Moser, M. (2016b). Rusyn: A New–Old Language In-between Nations and States. In: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (Eds.), The Palgrave Handbook of Slavic Languages, Identities and Borders, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7

    Moslem, Y. (2021a). Training SentencePiece models for the source and target. Retrieved June 4, 2023, from https://github.com/ymoslem/MT-Preparation/blob/main/subwording/1-train_unigram.py

    Moslem, Y. (2021b). Subwording the source and target files. Retrieved June 4, 2023, from https://github.com/ymoslem/MT-Preparation/blob/main/subwording/2-subword.py

    Moslem, Y. (2023a). Filtering/Cleaning parallel datasets for Machine Translation. Retrieved June 4, 2023, from https://github.com/ymoslem/MT-Preparation/blob/main/filtering/filter.py

    Moslem, Y. (2023b). Splitting the parallel dataset into train, development and test datasets for Machine Translation. Retrieved June 4, 2023, from
    https://github.com/ymoslem/MT-Preparation/blob/main/train_dev_split/train_dev_test_split.py

    Nurminen, M., & Koponen, M. (2020). Machine translation and fair access to information. Translation Spaces, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur

    Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): The spiral of disadvantage: Ethnolinguistic discrimination, acculturative stress and health in Nahua indigenous communities in Mexico. American Journal of Biological Anthropology, 1–15. https://doi.org/10.1002/ajpa.24745

    Orynycz, P. (2022, May). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In Artificial Intelligence in HCI: 3rd International Conference, AI-HCI 2022, Held as Part of the 24th HCI International Conference, HCII 2022, Virtual Event, June 26–July 1, 2022, Proceedings (pp. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37

    Orynycz, P. (2023, July). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In International Conference on Human-Computer Interaction (pp. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10

    Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4

    Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311–318). https://doi.org/10.3115/1073083.1073135

    Pezzia, C., & Hernandez, L.M. (2022). Suicidal ideation in an ethnically mixed, highland Guatemalan community. Transcultural Psychiatry. 59(1), 93–105. https://doi.org/10.1177/1363461520976930

    Post, M. (2018). A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation: Research Papers, pp. 186–191. Brussels: Association for Computational Linguistics http://dx.doi.org/10.18653/v1/W18-6319

    Putin, V. Ob istoričeskom edinstve russkix i ukraincev [On the Historical Unity of Russians and Ukrainians]. Retrieved May 15, 2023 from http://kremlin.ru/events/president/news/66181

    Pyrtej, P. (2004). Korotkyj slovnyk lemkivsʹkyx hovirok [A Brief Dictionary of Lemko Dialects]. Ivano-Frankivsʹk: Siversija MB.

    Pyrtej, P. (2013). Lemkivsʹki hovirky. Fonetyka i morfolohija [The Lemko Dialects. Phonetics and Morphology]. Gorlice: Zjednoczenie Łemków.

    Rating, (2012). Pytannja movy: rezulʹtaty ostannix doslidženʹ 2012 roku [The Language Question: Results of the Latest Research in 2012]. Retrieved August 26, 2023 from https://ratinggroup.ua/files/ratinggroup/reg_files/rg_mova_dynamika_052012.pdf

    Rieger, J. (1995). Słownictwo i nazewnictwo łemkowskie [Lemko Vocabulary and Nomenclature]. Warszawa: Wydawnictwo Naukowe Semper.

    Rieger, J. (2016). Mały słownik łemkowkiej wsi Bartne [A Small Dictionary of the Lemko Village of Bartne]. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego.

    Rosario-Sim, M.G., & O’Connell K.A. (2009). Depression and Language Acculturation Correlate With Smoking Among Older Asian American Adolescents in New York City. Public Health Nursing 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x

    Schwirtz, M., & Bautista, J. (2023, September 23) Married Kremlin Spies, a Shadowy Mission to Moscow and Unrest in Catalonia. The New York Times. Retrieved May 16, 2023 from https://www.nytimes.com/2021/09/03/world/europe/spain-catalonia-russia.html

    Simmons, G.F., & Lewis, M.P. (2013). The world’s languages in crisis: a 20-year update. In E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (Eds.), Responses to Language Endangerment: In honor of Mickey Noonan. New directions in language documentation and language revitalization (pp. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim

    Slavich, G.M., & Irwin, M.R. (2014). From stress to inflammation and major depressive disorder: a social signal transduction theory of depression. Psychological Bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302

    Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). A study of translation edit rate with targeted human annotation. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, (pp. 223–231). https://aclanthology.org/2006.amta-papers.25

    Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). The Impact of Language of Instruction in Schools on Student Achievement: Evidence from Malaysia Using the Synthetic Control Method. World Bank Group Policy Research Working Paper 9517. http://hdl.handle.net/10986/35031

    Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, September). Best practices for engaging underserved populations. In Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Vol. 61, No. 1, pp. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516

    Sutskever, I., Vinyals, O., & Le, Q.V. (2014). Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 27 (NIPS 2014). https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html

    Ukrajinsʹke nacionalʹne objednannja (2009). Zakarpatsʹke UNO obicjaje vlasnymy sylamy protydijaty separatystam [Transcarpathian Ukrainian National Organization Promises to Counter Separatists on May 1st with its Own Forces] Retrieved June 10, 2023, from https://zaxid.net/zakarpatske_uno_obitsyaye_vlasnimi_silami_protidiyati_separatistam_1_travnya_n1076607

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349

    White, D.J., & Overdeer, D. (2020). Exploiting Ethnicity in Russian Hybrid Threats. Strategos: Scientific journal of the Croatian Defence Academy 4(1), 31–49. https://hrcak.srce.hr/242087

    Wiktorek, A.C. (2010). Rusyns of the Carpathians: Competing agendas of identity. Washington, D.C.: Georgetown University. https://repository.library.georgetown.edu/handle/10822/552816

    Willner, P. (2017). The chronic mild stress (CMS) model of depression: History, evaluation and usage. Neurobiology of Stress, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002

  • Lemko черевікы ⟨čerevikŷ⟩ ‘shoes’

    Lemko черевікы ⟨čerevikŷ⟩ ‘shoes’

    The Lemko word черевікы ⟨čerevikŷ⟩ means shoes in English, черевики ⟨čerevyky⟩ in Standard Ukrainian, and buty in Polish. See Пиртей 339, Дуда 352, and Горощак 197.

  • Lemko авто ⟨avto⟩ ‘car’

    Lemko авто ⟨avto⟩ ‘car’

    The neuter Lemko noun авто ⟨avto⟩ means car or automobile in English and auto or samochód in Polish. The accent is on the first syllable in the nominative singular.

    References

    • Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. 2004 [Page 21]
    • Питрей, П.: Короткий словник лемківських говірок. 2004. [Page 16]
    • Дуда, І.: Лемківський словник. 2011 [Page 26]
  • Lemko земля ⟨zemlja⟩ ‘earth’

    Lemko земля ⟨zemlja⟩ ‘earth’

    Meaning

    The Lemko noun земля ⟨zemlja⟩ is translatable into English as “earth”, “ground”, or “floor”, depending on the context. It translates into Polish as ziemia.

    How to Pronounce and Memorize

    The first syllable is pronounced like English zen, but with an ⟨m⟩ sound at the end. The second syllable is pronounced as in “la la la”. To memorize, imagine a zen monk meditating in mud outside and saying “La la la, I can’t hear you!”

    Etymology

    The Lemko noun земля ⟨zemlja⟩ ‘earth’ comes from Proto-Slavic *zemļà (Derksen, 2008, p. 542). Cognates include Old Church Slavonic землꙗ (ⰸⰵⰿⰾⱑ) ⟨zemlja⟩ Avestan 𐬰𐬃‎ ⟨zā̊⟩ ‘earth’ (accusative form 𐬰𐬆𐬨‎ ⟨zəm⟩), Sanskrit क्ष ⟨kṣá⟩ ‘earth’, Persian زمین‎ ⟨zamin⟩ ‘earth’, Ancient Greek χθών ⟨khthṓn⟩ “earth”, Hittite 𒋼𒂊𒃷 ⟨tēkan⟩, (genitive 𒁖𒈾𒀸 ⟨taknas⟩), Latin humus ‘ground’, and Ancient Greek χαμαί ⟨khamaí⟩ ‘on the ground’ (Vasmer 1953, pp. 452–453, see also Derksen, 2008, p. 542 and Pokorny, 1959, p. 415).

    Declension

    Lemko земля ⟨zemlja⟩ is a soft, first-declension noun that declines as follows:

    Singular

    CaseLemkoPolishUkrainianRussian
    Nomзе́мля ⟨zémlja⟩ziemiaземля́земля́
    Genзе́млі ⟨zémli⟩ziemiземлі́земли́
    Datзе́мли ⟨zémly⟩aziemiземлі́земле́
    Accзе́млю ⟨zémlju⟩ziemięзе́млюзе́млю
    Insзе́мльом ⟨zémlʹom⟩ziemiąземле́юземлёй
    Locзе́мли ⟨zémly⟩aziemiземлі́земле́
    Vocзе́мльо ⟨zémlʹo⟩bziemioзе́мле
    The singular declension of the Lemko soft first declension noun земля ⟨zemlja⟩ ‘earth’ compared to its Polish, Ukrainian, and Russian cognates.

    a Pyrtej (2013, p. 38) gives зе́млі ⟨zémli⟩ as the dative and locative singular forms, yet Fontański and Chomiak (2000, p. 64) provide зе́мли ⟨zémly⟩.

    b Fontański and Chomiak (2000, p. 64) provide земле ⟨zemle⟩ as an alternative vocative singular form.

    Plural

    CaseLemkoPolishUkrainianRussian
    Nomзе́млі ⟨zémli⟩ziemieзе́млізе́мли
    Genзе́мель ⟨zémlʹ⟩ziemземе́льземе́ль
    Datзе́млям ⟨zémljam⟩ziemiomзе́млямзе́млям
    Accзе́млі ⟨zémli⟩ziemieзе́млізе́мли
    Insземля́ми ⟨zemljámy⟩ziemiamiзе́млямизе́млями
    Locзе́млях ⟨zémljax⟩ziemiachзе́мляхзе́млях
    Vocзе́млі ⟨zémli⟩ziemieзе́млі
    The plural declension of the Lemko soft first declension noun земля ⟨zemlja⟩ ‘earth’ compared to its Polish, Ukrainian, and Russian cognates.

    References

    ^ Derksen, Rick. (2008). In Lubotsky, A. (Ed.), Leiden Indo-European Etymological Dictionary Series: Vol. 4. Etymological Dictionary of the Slavic Inherited Lexicon. Koninklijke Brill NV. https://brill.com/view/title/12607

    ^ Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    ^ Pokorny, Julius. (1959). Indogermanisches Etymologisches Wörterbuch [Indo-Germanic Etymological Dictionary]. A. Francke AG Verlag Bern.

    ^ ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology]. Обʼєднання лемків [Lemko Union].

    ^ Vasmer, M. (1953). Russisches Etymologisches Wörterbuch, Erster Band: A – K [Russian Etymological Dictionary, Volume One: A – K]. Carl Winter Universitätsverlag.

  • Lemko рік ⟨rik⟩ ‘year’

    Lemko рік ⟨rik⟩ ‘year’

    Learn the meaning, origin, and morphology of the Lemko masculine noun рікrik⟩, as well as how to memorize it.

    Translation

    The forms of the Lemko word рікrik⟩ listed below are translatable into English as “year” or “years”.

    Mnemonic

    To memorize the Lemko word рікrik⟩, English speakers might imagine something reeking at a New Year’s Eve party (Lemko rik and English reek are pronounced practically the same).

    Etymology

    From Proto-Slavic *rokŭ ‘time’, itself a deverbal noun from *rekti ‘say’, whose cognates include Old Church Slavonic рокъ (ⱃⱁⰽⱏ) ⟨rokŭ⟩ ‘time, term’, as well as possibly English reckon, Sanskrit रचयति ⟨racáyati⟩ “construct, work”, Gothic 𐍂𐌰𐌷𐌽𐌾𐌰𐌽 ⟨rahnjan⟩ ‘reckon’ (Pokorny 1959, p. 863, see also Vasmer, 1955, p. 532) and Welsh rhegi ‘curse’ (Derksen, 2008, pp. 433, 438).

    The entry for the Proto-Slavic noun *rokъ on page 438 of Derksen’s Etymological Dictionary of the Slavic Inherited Lexicon.
    The entry for the Proto-Slavic verb *rekti on page 433 of Derksen’s Etymological Dictionary of the Slavic Inherited Lexicon.
    The entry rē̆k- on page 863 of Pokorny’s Indo-Germanic Etymological Dictionary (1959), which mentions Old Church Slavonic rokъ.
    The entry for the Muscovite Russian noun рок ⟨rok⟩ in Vasmer’s Russian Etymological Dictionary (1955, p. 532), which mentions Ukrainian rik.

    Declension

    Singular

    CaseLemkoPolishUkrainianRussian
    Nominativeрік ⟨rikarokрікго́д
    Genitiveро́ка ⟨rókabrokuро́куго́да
    Dativeроко́ви ⟨rókovybrokowiро́кові, ро́куго́ду
    Accusativeрік ⟨rikarokрікго́д
    Instrumentalро́ком ⟨rókomcrokiemро́комго́дом
    Locativeро́ці ⟨rócicrokuро́ціго́де
    Vocativeроку ⟨rókurokuро́куго́д

    a The nominative and accusative form of Lemko рік ⟨rik⟩ ‘year’ is the same as the genitive plural of ріка ⟨rika⟩ ‘river’. Horoszczak (2004, p. 330) provides the nominative and accusative singular as “рик ryk⟩, рікrik⟩”.

    b See Pyrtej (2013, p. 46) for the genitive and dative singular forms of Lemko рік ⟨rik⟩ ‘year’. Photograph below.

    Table on page 46 of Pyrtej’s Lemko Dialects. Phonetics and Morphology

    c See Pyrtej (2013, p. 47) for the instrumental and locative singular forms of Lemko рік ⟨rik⟩ ‘year’. Photograph below.

    Table on page 47 of Pyrtej’s Lemko Dialects. Phonetics and Morphology

    Plural

    CaseLemkoPolishUkrainianRussian
    Nominativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    Genitiveро́ків ⟨rókivlatро́кі́вгодо́в, ле́т
    Dativeро́кам ⟨rókamblatomро́ка́мгода́м, лета́м
    Accusativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    Instrumentalрока́ми ⟨rokámylatamiро́ка́мигода́ми, лета́ми
    Locativeро́ках ⟨rókachlatachро́ка́хгода́х, лета́х
    Vocativeро́кы ⟨rókŷlataро́ки́го́ды, года́, лета́
    SourceSource

    References

    ^ Derksen, Rick. (2008). In Lubotsky, A. (Ed.), Leiden Indo-European Etymological Dictionary Series: Vol. 4. Etymological Dictionary of the Slavic Inherited Lexicon. Koninklijke Brill NV. https://brill.com/view/title/12607

    Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    ^ Horoszczak, J. (2004). Słownik łemkowsko-polski, polsko-łemkowski [Lemko-Polish and Polish-Lemko Dictionary]. Rutenika.

    ^ Pokorny, Julius. (1959). Indogermanisches Etymologisches Wörterbuch [Indo-Germanic Etymological Dictionary]. A. Francke AG Verlag Bern.

    ^ ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology]. Обʼєднання лемків [Lemko Union].

    ^ Vasmer, M. (1955). Russisches Etymologisches Wörterbuch, Zweiter Band: L–Ssuda [Russian Etymological Dictionary, Volume Two: L–Ssuda]. Carl Winter Universitätsverlag.

  • Lemko Demonstrative Pronouns

    Lemko Demonstrative Pronouns

    Please find below the translation, etymology, full declension tables, and references for the Lemko demonstrative pronouns тотtot⟩ meaning “this” or “these”, and тамтотtamtot⟩ meaning “that” or “those”.

    Translation

    The Lemko demonstrative pronoun of dictionary (masculine singular) form тотtot⟩ is translatable into English as “this” in the singular and “these” in the plural. When prefixed with тамtam⟩, (for example, тамтотtamtot⟩), it is translatable as “that” in the singular and “those” in the plural.

    Etymology

    The Lemko demonstrative pronoun of dictionary (masculine singular) form тотtot⟩ derives from reconstructed proto-Slavic *. Further afield, it is related to the English word that and Sanskrit तत्tat⟩ (Vasmer, 1958, p. 128), translatable as “this” and appearing in the famous line तत्त्वमसिtat tvam asi⟩ meaning “That thou art”.

    The entry for the Muscovite Russian demonstrative pronoun тотtot⟩ in Vasmer’s Russisches Etymologisches Wörterbuch, Dritter Band: Sta–Ÿ (1958, p. 128).

    Nearby (“this” and “these”)

    Singular (“This”)

    All of the following forms are translatable into English as “this”.

    Masculine

    CaseLemkoPolishUkrainianRussian
    Nominativeтот ⟨totatenцейэ́тот
    Genitiveто́го ⟨tóhotegoцього́э́того
    Dativeто́му ⟨tómutemuцьому́э́тому
    Accusative (inanimate)тот ⟨tota
    tenцейэ́тот
    Accusative
    (animate)
    то́го ⟨tóhotegoцього́э́того
    Instrumentalтым ⟨tŷmbtymцимэ́тим
    Locativeтым ⟨tŷmctymцьо́му, цімэ́том

    a Pyrtej (2013) gives той ⟨toj⟩ as an alternative form of the Lemko masculine nominative (as well as accusative inanimate) singular demonstrative pronoun (p. 107). That form is absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the masculine instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the masculine locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    Feminine

    CaseLemkoPolishUkrainianRussian
    Nominativeто́та ⟨tóta⟩ataцяэ́та
    Genitiveтой ⟨toj⟩tejціє́їэ́той
    Dativeтій ⟨tij⟩tejційэ́той
    Accusativeто́ту ⟨tótu⟩bцюэ́ту
    Instrumentalтом ⟨tom⟩ціє́юэ́той, э́тою
    Locativeтій ⟨tij⟩tejційэ́той

    a Pyrtej (2013) gives та ⟨ta⟩ and та́я ⟨tája⟩ as alternative forms of the Lemko feminine nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives ту ⟨tu⟩ and ту́ю ⟨túju⟩ as alternative forms of the Lemko feminine accusative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    Neuter

    CaseLemkoPolishUkrainianRussian
    Nominativeто́то ⟨tóto⟩atoцеэ́то
    Genitiveто́го ⟨tóho⟩tegoцього́э́того
    Dativeто́му ⟨tómu⟩temuцьому́э́тому
    Accusativeто́то ⟨tóto⟩
    toцейэ́то
    Instrumentalтым ⟨tŷm⟩btymцимэ́тим
    Locativeтым ⟨tŷm⟩ctymцьо́му, цімэ́том

    a Pyrtej (2013) gives то ⟨to⟩ and то́є ⟨tóje⟩ as alternative forms of the Lemko neuter nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the neuter instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the neuter locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    References
    Fontański & Chomiak (2000, p. 97).
    Pyrtej (2013, p. 107).

    Plural (“These”)

    The following forms are used regardless of grammatical gender and are translatable into English as “these”.

    CaseLemkoPolishUkrainianRussian
    Nominativeто́ты ⟨tótŷte/ciціэ́ти
    Genitiveтых ⟨tŷch⟩tychцихэ́тих
    Dativeтым ⟨tŷm⟩tymцимэ́тим
    Accusative (inanimate)то́ты ⟨tótŷteціэ́ти
    Accusative (animate)тых ⟨tŷch
    tychцихэ́тих
    Instrumentalты́ма ⟨tŷma⟩tymiци́миэ́тими
    Locativeтых ⟨tŷch⟩tychцихэ́тих

    Distant (“that”, “those”)

    To communicate distance from the speaker, simply prefix all of the above pronouns with Lemko там ⟨tam⟩. This is equivalent to saying “that” instead of “this” or “those” instead of “these” in English.

    Singular (“That”)

    CaseMasculineFeminineNeuter
    Nominativeтамтот ⟨tamtotaтамто́та ⟨tamtóta⟩dтамто́то ⟨tamtóto⟩x
    Genitiveтамто́го ⟨tamtóhoтамтой ⟨tamtoj⟩тамто́го ⟨tamtóho⟩
    Dativeтамто́му ⟨tamtómuтамтій ⟨tamtij⟩тамто́му ⟨tamtómu⟩
    Accusative (inanimate)тамтот ⟨tamtota
    тамто́ту ⟨tamtótu⟩eтамто́то ⟨tamtóto
    Accusative
    (animate)
    тамто́го ⟨tamtóhoтамто́ту ⟨tamtótu⟩eтамто́то ⟨tamtóto
    Instrumentalтамтым ⟨tamtŷmbтамтом ⟨tamtom⟩тамтым ⟨tamtŷm⟩b
    Locativeтамтым ⟨tŷmcтамтій ⟨tamtij⟩тамтым ⟨tamtŷmc

    a Pyrtej (2013) gives той ⟨toj⟩ as an alternative form of the Lemko masculine nominative (as well as accusative inanimate) singular demonstrative pronoun (p. 107). That form is absent in Fontański & Chomiak (2000, p. 97).

    b Pyrtej (2013) gives тим ⟨tym⟩ as the Lemko form of the masculine and neuter instrumental singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    c Pyrtej (2013) gives тім ⟨tim⟩ as the Lemko form of the masculine and neuter locative singular demonstrative pronoun (p. 107), in contrast to the form тымtŷm⟩ appearing in Fontański & Chomiak (2000, p. 97).

    d Pyrtej (2013) gives та ⟨ta⟩ and та́я ⟨tája⟩ as alternative forms of the Lemko feminine nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    e Pyrtej (2013) gives ту ⟨tu⟩ and ту́ю ⟨túju⟩ as alternative forms of the Lemko feminine accusative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    f Pyrtej (2013) gives то ⟨to⟩ and то́є ⟨tóje⟩ as alternative forms of the Lemko neuter nominative singular demonstrative pronoun (p. 107). Those forms are absent in Fontański & Chomiak (2000, p. 97).

    Plural (“Those”)

    CaseLemkoPolishUkrainianRussian
    Nominativeтамто́ты ⟨tamtótŷtamte/tamciтіте
    Genitiveтамтых ⟨tamtŷch⟩tamtychтихтех
    Dativeтамтым ⟨tamtŷm⟩tamtymтимтем
    Accusative (inanimate)тамто́ты ⟨tamtótŷtamteтіте
    Accusative (animate)тамтых ⟨tamtŷch
    tamtychтихтех
    Instrumentalтамты́ма ⟨tamtŷma⟩tamtymiти́мите́ми
    Locativeтых ⟨tamtŷch⟩tamtychтихтех

    References

    1. ^ Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.

    2. ^ Pyrtej, P. (2013). Лемківські говірки. Фонетика і морфологія. Об’єднання лемків [Lemko Dialects. Phonetics and Morphology].

    3. Vasmer, M. (1958). Russisches Etymologisches Wörterbuch, Dritter Band: Sta–Ÿ [Russian Etymological Dictionary, Volume Three: Sta–Ÿ]. Carl Winter Universitätsverlag.

  • Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko

    Say It Right: AI Neural Machine Translation Empowers New Speakers To Revitalize Lemko

    Abstract

    Artificial-intelligence powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world’s most widely used languages, 98% have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.

    For low-resource languages, there is a more resourceful approach, if not a more effective one: transfer learning, which enables lower-resource languages to benefit from achievements among higher-resource ones. In this experiment, Google’s English-Polish neural translation service was coupled with my classical, rule-based engine to translate from English into the endangered, low-resource, East Slavic language of Lemko. The system achieved a bilingual evaluation understudy (BLEU) quality score of 6.28, several times better than Google Translate’s English to Standard Ukrainian (BLEU 2.17), Russian (BLEU 1.10), and Polish (BLEU 1.70) services. Finally, the fruit of this experiment, the world’s first English to Lemko translation service, was made available at the web address www.LemkoTran.com to empower new speakers to revitalize their language.

    New speakers are key to language revitalization, and the power to “say it right” in Lemko is now at their fingertips.

    Keywords: Human-Centered AI, Language Revitalization, Lemko.

    Please cite as: Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko. In: Degen, H., Ntoa, S. (eds) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), vol 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

    This version of the contribution has been accepted for publication after peer review but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections. The Version of Record is available online at https://doi.org/10.1007/978-3-031-05643-7_37. Use of this Accepted Version is subject to the publisher’s Accepted Manuscript terms of use: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.

    1 Introduction

    1.1. Problems

    This experiment aims to contribute at the local level to the global challenge of language loss, which may be occurring at the rate of one per day, with as few as one tongue in ten set to survive [1, p. 1329]. At press time, SIL International’s Ethnologue uses Lewis and Simons’ 2010 Expanded Graded Intergenerational Disruption Scale to estimate that 3,018 languages are endangered [2], which is 43% of the 7,001 individual living ones tallied at press time in International Organization for Standardization standard ISO 639-3 [3]. Meanwhile, Google Translate only serves 108 [4], and Facebook, 112 [5], which is a start. Nevertheless, one less language is now underserved, as the fruit of this experiment has been deployed to a web server as a public translation service.

    New, artificial intelligence technologies beckon with the promise of an aid that instantly compensates for language loss via human-computer interaction. In my previous experiment, next-generation neural engines achieved higher quality scores translating from Russian and Polish into English than the human control [6, p. 9]. Meanwhile, Facebook and Google1 have invested enormous resources into delivering better-than-human automatic translation systems at zero cost to consumer.

    1 Disclosure: I work as a paid Russian, Polish, and Ukrainian linguist and translation quality control specialist for the Google Translate project; headquarters are in San Francisco.

    Superhuman artificial intelligence does not come cheap: training neural language models requires bilingual corpora with wordcounts in the hundreds of thousands, and ideally, millions, which would cost hundreds of thousands of dollars to translate, sums beyond the means of most low-resource language communities. Fortunately, this experiment shows that there are more resourceful and effective ways to respond to the challenge of creating translation aids for revitalizing endangered languages in low-resource settings.

    1.2 Work So Far

    I built the world’s first Lemko to English machine translation system and have made it available to the public. Its objective translation quality scores have been improving: the engine achieved a bilingual evaluation understudy (BLEU) score of 14.57 in the summer of 2021, as presented to professionals at the National Defense Industrial Association’s Interservice/Industry Training, Simulation and Education Conference and published in its proceedings [6]. For reference, I scored BLEU 28.66 as a human translator working in field conditions, cut off from the outside world. By the autumn of 2021, the engine had reached BLEU 15.74, as reported to linguists, academics, and the wider community at an unveiling event hosted by the University of Pittsburgh.2

    2 Disclosure: the event was sponsored by the Carpatho-Rusyn Society (Pennsylvania), and I was paid by the University of Pittsburgh for my presentation.

    1.3 System Under Study

    Lemko is a definitively to severely endangered [6, p. 3, 7, pp. 177-178], low-resource [8], officially recognized minority language [9] presumably indigenous to transborder highlands south of the Cracow, Tarnów, and Rzeszów metropolitan areas; historical demarcating isoglosses will hopefully be the topic of a future paper. Poland’s census bureau tallied 6,279 residents for whom Lemko was a language “usually used at home” (even if in addition to Polish) in 2011 [10, p. 3], a 12% increase from the 5,605 for whom Lemko was a “language spoken most often at home” in 2002 [11, p. 6, 12, p. 7]. At press time, the results of a fresh count are being tabulated.

    Lemko is classifiable as an East Slavic language as it fits the customary genetic structural feature criteria, the most significant of which is pleophony [13, p. 20], whereby a vowel is assumed to have arisen in proto-Slavic sequences of consonant C followed by mid or low vowel V (*e, or *o, with which *a had merged [14, p. 366]), followed by liquid R (that is, *l or *r), followed by another consonant C, that is, CVRC > CVRVC. To illustrate, compare the Old English word for “melt”, meltan (CVRC) [15, p. 718] to its putative Lemko cognate mołódyj [16, p. 92, 17, p. 150] (CVRC), meaning “young”. Other East Slavic cognates include Ukrainian mołodýj and Russian mołodój [17], both exhibiting a vowel after the liquid (CVRVC). Meanwhile, West Slavic languages lack a vowel before the liquid; compare Polish młody and Slovak mladý (both CRVC) [17]. Further afield, kinship has been posited for other words translatable as “mild”, including Sanskrit mṛdú (CRC) [18, p. 830] and Latin mollis (CVRC if from *moldvis) [15, 17, 19, p. 323].

    How well Lemko meets customary, modern Ukrainian genetic structural feature criteria was not evaluated in this experiment. However, similarity between Lemko and Standard Ukrainian was quantified, for the first time in print of which I am aware. Below, my Lemko engine scored BLEU 6.28, nearly three times the score of Google Translate’s Ukrainian at BLEU 2.17. Further experiments could be performed for the purposes of quantification of similarity between Lemko, Standard Ukrainian, Polish, and Rusyn as codified in Slovakia, as well as a fresh take on the typological classification of Lemko.

    The quantity and quality of resources have been improving, as has resourcefulness empowered by technology. All known bilingual corpora, comprising fewer than seventy thousand Lemko words, were mustered for this experiment. I have been cleaning a bilingual corpus of transcriptions of interviews conducted with native speakers in Poland and my translations into English, which a United States client paid me to perform and permitted me to use. I am also compiling monolingual corpora, which total 534,512 words at press time.

    1.4 Hypothesis

    Based on my subjective impression as a professional translator that Lemko native speakers interviewed in Poland were more likely to use words with obvious Polish cognates than Standard Ukrainian ones, I hypothesized that, all else being equal, a machine could be configured to translate into Lemko from English and achieve BLEU objective quality scores higher than those of Google Translate’s Ukrainian and Russian services.

    1.5 Predictions

    Lemko Translation System. I predicted that the aforementioned translation system would achieve a BLEU score of 15 translating into Lemko from English against the bilingual corpus.

    Google Translate.

    English to Ukrainian service. I predicted that Google Translate’s English to Ukrainian service would achieve a BLEU score of 10 against the bilingual corpus.

    English to Russian service. I predicted that Google Translate’s English to Russian service would achieve a BLEU score of 1 against the bilingual corpus.

    1.6 Methods and Justification

    In the interest of speed, resource conversation, and ruggedizability, a laptop computer discarded as obsolete by my employer was configured to translate into Lemko and make calls to the Google Cloud Platform Google Translate service, as well as configured to evaluate said translations using the industry standard BLEU metric.

    1.7 Principal Results

    The English to Lemko translation system achieved a cumulative BLEU score of 6.28431824990417. Meanwhile, Google Translate’s Ukrainian service scored BLEU 2.16830846776652, its Russian service BLEU 1.10424105952048, and the control of Polish transliterated into the Cyrillic alphabet BLEU 1.70036447680114.

    2 Materials and Methods

    The above hypothesis was tested by calculating BLEU quality scores for each translation system set up in the manner detailed below.

    2.1 Setup

    Hardware. The experiment was conducted on an HP Elitebook 850 G2 laptop with a Core i7-5600U 2.6GHz processor, and 16 gigabytes of random-access memory. It had been discarded by my employer as obsolete and listed for sale at USD 450 at time of press.

    Configuration. In the basic input/output system (BIOS) menu, the device was configured to enable Virtualization Technology (VTx).

    Operating System. Windows 10 Professional 64 bit had been installed on bare metal. It was ensured that Virtual Machine Platform and Windows Subsystem for Linux Windows features were enabled. Next, the WSL2 Linux kernel update for x64 machines (wsl_update_x64.msi) available from Microsoft at https://aka.ms/wsl2kernel was installed.

    Software. The Docker Desktop for Windows version 4.4.3 (73365) installer was downloaded from https://www.docker.com/get-started and run with the option to Install required Windows components for WSL 2 selected.

    Packages. The experiment depended on the below packages from the Python Package Index.

    SacreBLEU. Version 2.0.0 was installed using the Python package documented at the following universal resource locator (URL):
    https://pypi.org/project/sacrebleu/2.0.0/

    Google Cloud Translation API client library. Version 2.0.1 was installed using the Python package documented at the universal resource locator (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

    The above dependencies were specified in the requirements file as follows:
    google-cloud-translate==2.0.1
    sacrebleu==2.0.0

    Container.

    Build. The experiment was run in a Docker container featuring the latest version of the Python programming language, which was version 3.10.2 at the time, running on the Debian Bullseye 11 Linux operating system of AMD64 architecture, of Secure Hash Algorithm 2 shortened digest bcb158d5ddb6, obtainable via the following command:
    docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

    Runtime. The container was configured to save raw experiment data files to a local bind mounted volume.

    Translation Quality Scoring.
    Translation quality scores were calculated according to the BLEU metric using version 2.0.0 of the SacreBLEU tool invented by Post [20].

    Case sensitivity. The evaluation was performed in a case-sensitive manner.

    Tokenization. Segments were tokenized using version 13a of the Workshop on Statistical Machine Translation standard scoring script metric internal tokenization procedure.

    Smoothing Method. The smoothing technique developed at the National Institute of Standards and Technology by United States Federal Government employees for their Multimodal Information Group BLEU toolkit, being the third technique described by Chen and Cherry [21, p. 363], was employed by default.

    Signature. The above settings produced the following signature:
    nrefs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

    Calibration. Configured as above, the machine produces the following output:

    Segment 1031.
    English sourceEverything was there.
    Lemko reference and transliterationВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypothesis and transliterationВшытко там было.Všŷtko tam bŷlo.
    ScoreBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

    Explanation. The hypothesis segment was identical to the reference one and the machine achieved a perfect score of BLEU 100.

    Segment 179.
    English sourceI don't remember what year.
    Lemko reference and transliterationНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
    Lemkotran.com hypothesis and transliterationНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
    ScoreBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

    Explanation. The hypothesis was different from the reference by two characters. The machine mistranslated the particle negating the verb, using the word for “no” (ni) instead of the expected word for “not” (ne). This has since been largely fixed. The machine also added a comma after pamjatam, which means “I remember”. That dropped the score from what would have been a perfect score of 100 to 43.47.

    Control. As the corpus is based on interviews conducted in Poland, translations into Polish were used as a control. They were transliterated into the Cyrillic alphabet by reversing the rules for transliterating Lemko names established by Poland’s Ministry of the Interior and Administration [22, p. 6564]. Polish nasal vowels were decomposed into a vowel plus a nasal stop, except before approximants, where they were directly denasalized. Word finally, the front nasal vowel /ę/ was simply denasalized, and the back one /ą/ was transliterated as if followed by a dental stop.

    3 Results

    The engine available to the public at www.LemkoTran.com took first place with a cumulative translation quality score of BLEU 6.28, nearly three times that of the runner-up, Google Translate’s English-Ukrainian service (BLEU 2.17). Next was its English-Polish service (BLEU 1.70), with its English-Russian service in last place (BLEU 1.10).

    Table 1. English to Lemko Translation Quality: LemkoTran.com versus Google Translate

    3.1 Results by machine translation service

    Control. When transliterated into the Cyrillic alphabet, Google Translate’s translations into Standard Polish achieved a corpus-level BLEU score of 1.70. Samples of its performances are as follows:

    Segment 2174.
    English sourceWe had still been in Izby, right.
    Lemko reference and transliterationТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
    Polish hypothesis and transliterationБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
    ScoreBLEU = 46.20
    Segment 854.
    English sourceAnd that's what it's all about.
    Lemko reference and transliterationІ о то ходит.I o to chodyt.
    Polish hypothesis and transliterationІ о то власьнє ходзі.I o to właśnie chodzi.
    ScoreBLEU = 32.47
    Segment 217.
    English sourceAnd that's what it's all about.
    Lemko reference and transliterationТак мі повіл.Tak mi povil.
    Polish hypothesis and transliterationТак мі повєдзял.Tak mi powiedział.
    ScoreBLEU = 35.36

    Hybrid English-Lemko Engine. The engine freely available to the public at the URL www.LemkoTran.com achieved a corpus-level BLEU score of 6.28.

    Segment 1031.
    English sourceEverything was there.
    Lemko reference and transliterationВшытко там было.Všŷtko tam bŷlo.
    Lemkotran.com hypothesis and transliterationВшытко там было.Všŷtko tam bŷlo.
    ScoreBLEU = 100.00
    Segment 1445.
    English sourceBut that officer took that medal and said,
    Lemko reference and transliterationАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
    Lemkotran.com hypothesis and transliterationАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
    ScoreBLEU = 75.06
    Segment 217.
    English sourceThat's what he said to me.
    Lemko reference and transliterationТак мі повіл.Tak mi povil.
    Lemkotran.com hypothesis and transliterationТак мі повіл.Tak mi povil.
    ScoreBLEU = 100.00

    Ukrainian. Google Translate’s translations into Standard Ukrainian achieved a corpus-level BLEU score of 2.35.

    Segment 2419.
    English sourceWhere and when?
    Lemko reference and transliterationДе і коли?De i koly?
    Ukrainian hypothesis and transliterationДе і коли?De i koly?
    ScoreBLEU = 100.00
    Segment 1096.
    English sourceWe were there for three months.
    Lemko reference and transliterationТам зме были три місяці.Tam zme bŷly try misiaci.
    Ukrainian hypothesis and transliterationМи були там три місяці.My buly tam try misjaci.
    ScoreBLEU = 30.21
    Segment 2513.
    English sourceWell, here to the west.
    Lemko reference and transliterationНо то ту на захід.No to tu na zachid.
    Ukrainian hypothesis and transliterationНу, тут на захід.Nu, tut na zachid.
    ScoreBLEU = 30.21

    Russian. Google Translate’s English to Russian service achieved a corpus-level BLEU score of 1.10.

    Segment 432.
    English sourceNobody knew.
    Lemko reference and transliterationНихто не знал.Nychto ne znal.
    Russian hypothesis and transliterationНикто не знал.Nikto ne znal.
    ScoreBLEU = 59.46
    Segment 2751.
    English sourceWhat did they expel us for?
    Lemko reference and transliterationЗа што нас выгнали?Za što nas vŷhnaly?
    Russian hypothesis and transliterationЗа что нас выгнали?Za čto nas vygnali?
    ScoreBLEU = 42.73
    Segment 2164.
    English sourceBrother went off to war.
    Lemko reference and transliterationБрат пішол на войну.Brat pišol na vojnu.
    Russian hypothesis and transliterationБрат ушел на войну.Brat ušel na vojnu.
    ScoreBLEU = 42.73

    4 Discussion

    The Lemko translation system corpus-level BLEU score of 6.28 indicates that while there is much still to be done, things are on track. The Standard Russian score of BLEU 1.10 indicates that Lemko is less similar to Russian than Polish (BLEU 1.70). Perhaps using pre-revolutionary orthography could boost Russian’s score, but that would be an expensive experiment with little obvious benefit.

    The transliterated Standard Polish control similarity score of BLEU 1.70 indicates less interference from the dominant language in Poland than might be expected. It would be interesting to redesign the experiment where a handful of computationally inexpensive and obvious sound correspondences (for example, denasalization of *ę to /ja/ and *ǫ to /u/, retraction of *i to /y/, and change of *g to /h/ [23]) were applied to Polish to see if it then scored higher than Standard Ukrainian.

    In summary, Lemko has been synthesized in the lab and the power to produce it placed in the hands of speakers both new and native. After a thorough engine overhaul and glossary ramp-up, the next step is to objectively measure, and if feasible, have speakers subjectively rate, the quality of synthetic Lemko versus that produced by native speakers. The day when new speakers of low-resource languages can use machine translation to start communicating in their language overnight is closer, as is the day the Lemko language joins the ranks of those previously endangered, but now revitalized.

    Acknowledgements. I would like to thank my colleague Ming Qian of Peraton Labs for inspiring me to conduct this experiment, and Brian Stensrud of Soar Technology, Inc. for introducing us, as well as his encouragement.

    I would also like to thank my friend Corinna Caudill for her encouragement and personal interest in the project, as well as for introducing me to Carpatho-Rusyn Society President Maryann Sivak of the University of Pittsburgh, whom I would like to thank for the opportunity to present my work.

    I would also like to thank Maria Silvestri of the John and Helen Timo Foundation for conducting interviews with Lemko native speakers and donating the transcripts and my translations of them to research and development.

    I would like to Achim Rabus of the University of Freiburg and Yves Scherrer of the University of Helsinki for their interest in the project and ideas.

    I would also like to thank Myhal’ Lŷžečko of the minority-language technology blog InterFyisa for his early interest in the project and community outreach.

    I would also like to thank fellow son of Zahoczewie Marko Łyszyk for his interest in the project and community outreach.

    Finally, I would like to thank my co-author and Antech Systems Inc. colleague Tom Dobry for his encouragement and guidance.

    References

    1. ^ Graddol, D.: The future of language. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

    2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Online version: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, last accessed 2022/02/11.

    3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, last accessed 2022/02/11.

    4. ^ Language support, https://cloud.google.com/translate/docs/languages, last accessed 2022/02/11.

    5. ^ Select language, https://m.facebook.com/language.php, last accessed 2022/02/11.

    6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

    7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (eds.), Integral Strategies for Language Revitalization, pp. 175–200. First edition. Faculty of “Artes Liberales”, University of Warsaw, Warsaw (2016).

    8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. In: Mitkov, R., Tait, J., Boguraev, B. (eds.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287

    9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, last accessed 2022/02/11.

    10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, last accessed 2022/02/11.

    11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, last accessed 2022/02/11.

    12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, last accessed 2022/02/11.

    13. ^ Vaňko, J.: The Language of Slovakia’s Rusyns. East European Monographs, New York (2000).

    14. ^ Forston, B., IV: Indo-European Language and Culture. Blackwell Publishing, Oxford (2004).

    15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.

    16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).

    17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).

    18. ^ Monier-Williams, M.: A Sanskrit-English Dictionary Etymologically and Philologically Arranged with Special Reference to Cognate Indo-European Languages, The Clarendon Press, Oxford (1899).

    19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. In: Lubotsky, A. (ed.) Leiden Indo-European Etymological Dictionary Series, vol. 4, Koninklijke Brill, Leiden (2008).

    20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. In: Proceedings of the Third Conference on Machine Translation (WMT), vol. 1, pp. 186–191. Association for Computational Linguistics, Brussels (2018). https://aclanthology.org/W18-63

    21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. In: Proceedings of the Ninth Workshop on Statistical Machine Translation, pp. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33

    22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Warsaw (2005).

    23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. In: Harvard Ukrainian Studies, vol. 1, no. 2, pp. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

  • Lemko быти ⟨bŷty⟩ ‘be’

    Lemko быти ⟨bŷty⟩ ‘be’

    To be or not to be? Быти або не быти? That is the question, and now you can conjugate the infinitives made famous by the opening line of Hamlet’s soliloquy in Lemko using the automatic translation service LemkoTran, or craft your own copulae using this handy DIY guide.

    Translations

    The Lemko verb быти (scientific transliteration: ⟨bŷty⟩) means”to be” in English, być in Polish, бути ⟨buty⟩ in Standard Ukrainian, and быть ⟨byt’⟩ in Muscovite Russian.

    EnglishLemkoPolishUkrainianRussian
    beбыти ⟨bŷty⟩byćбутибыть
    Translations of the Lemko verb быти into English, Polish, Ukrainian, and Russian.

    Etymology

    The Lemko infinitive быти ⟨bŷty⟩, meaning “to be”, comes from the Proto-Slavic athematic verb *byti, and is related to Sanskrit भूति ⟨bhūtíṣ⟩ “wellbeing” (Vasmer 1953, p. 159; Pokorny 1959 147), Persian بودن ⟨būdan⟩ “be” (Pokorny, p. 147), Latin futūrus “future” (Vasmer, p. 159, Pokorny, p. 149), and via Old English bēon, English be (Pokorny, p. 149).

    Attestation

    Hamlet’s famous opening line “To be or not to be, that is the question” is alluded to in the following published pieces found in the wild:

    Для дакотрых орґанізаций є то быти або не быти, значыт, без тых грошів не сут в силі нич зреализувати.” (LEM.fm 2021)

    Transcription
    dl'a dakotrŷch organizacyj je to bŷty abo ne bŷty, značŷt, bez tŷch hrošiv ne sut v syl'i nyč zrealyzuvaty.

    Translation
    For some organizations, it's to be or not to be, meaning they will not be able to achieve anything without those funds.

    От нашых діл и нашой віры буде рішатися вопрос: ци нам лемкам быти, ци не быти?….” (Цисляк 1964, p. 162)

    Transliteration
    Ot našŷch dil y našoj virŷ bude rišatysia vopros: cy nam lemkam bŷty, cy ne bŷty?…
    Translation
    Our affairs and our faith will be decide the question of whether we Lemkos are to be or not to be

    Inflection

    Future Tense

    Root: буд– ⟨bud-⟩

    The future tense of the Lemko verb for to be, быти ⟨bŷty⟩, is formed by adding personal endings to the root bud-, equivalent to will in English.

    Etymology

    Lemko bud- comes from the Proto-Slavic root *bǫd-. Compare the suffix -bund in English moribund from Latin moribundus (Pokorny, p. 150, Vasmer, p. 136).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I willбуду ⟨búdu⟩bęбудубуду
    you willбудеш⟨búdeš⟩będzieszбудешбудешь
    (s)he willбуде ⟨búdet⟩będzieбудебудет
    we willбудеме ⟨budéme⟩będziemyбудемобудем
    you all willбудете ⟨budéte⟩będziecieбудетебудете
    they willбудут ⟨búdut⟩bęбудутьбудут
    Forms of the future tense conjugation of Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    Present Tense

    Root: є– ⟨je-⟩, с– ⟨s-⟩

    In Lemko, the present tense of the verb to be is formed in the singular from the root є- ⟨je-⟩, and in the plural from the root с- ⟨s-⟩.

    Etymology

    All the below forms trace back to the ancestor of the Proto-Slavic root *es-, to which personal endings were affixed. Compare to English is, German ist, Latin est, Ancient Greek ἐστί ⟨estí⟩, Persian است ⟨ast⟩, and Sanskrit अस्ति ⟨ásti⟩ (Pokorny, pp. 340-341; Vasmer, p. 405).

    Conjugation Table

    EnglishLemkoPolishUkrainianRussian
    I amєм ⟨jem⟩jestemєесть
    you areєс ⟨jes⟩jesteśєесть
    (s)he isєст ⟨jest⟩ajestєесть
    we areсме ⟨sme⟩bjesteśmyєесть
    you all areсте ⟨ste⟩cjesteścieєесть
    they areсут ⟨sut⟩єесть
    Forms of the present tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a The Lemko third-person singular form єст ⟨jest⟩ is now being replaced by є ⟨je⟩, though this is still rare (Fontański & Chomiak 2000, p. 109).

    b Fontański & Chomiak (2000, p. 109) give the Lemko first-person plural form as (єсме)сме/зме ⟨(jesme)sme/zme⟩.

    c Fontański & Chomiak (2000, p. 109) give the Lemko second-person plural form as (єсте)сте ⟨(jeste)ste⟩.

    Reference
    Fontański & Chomiak (2000, p. 106).

    Past Tense

    Root: был- ⟨bŷl-⟩

    The past tense of the verb “to be” is formed in Lemko by adding any appropriate gender and plural markers to the stem был- ⟨bŷl-⟩, translatable into English as was or were.

    Etymology

    Lemko был ⟨bŷl⟩ is undoubtedly the continuation of Proto-Slavic resultative participle *bylŭ. Compare to Ancient Greek φῦλον ⟨phylon⟩ (Vasmer, p. 159), whence English phylum.

    Conjugation Tables

    Masculine

    Use the following to refer to males or mixed parties of males and females, as well as objects of grammatically masculine gender. Male virility is not a grammatical category in Lemko, unlike Polish.

    EnglishLemkoPolishUkrainianRussian
    I wasя былa
    ⟨ja bŷl⟩
    byłemя бувя был
    you wereты былb
    ⟨tý bŷl⟩
    byłeśти бувты был
    he wasвін был
    ⟨vin bŷl⟩
    byłвін бувон был
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byliśmyми булимы были
    you guys wereвы былиd
    ⟨vŷ bŷly⟩
    byliścieви буливы были
    those guys wereони были
    ⟨ony bŷly⟩
    byliвони булиони были
    Forms of the masculine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite был єм ⟨bŷl em⟩ as an alternative masculine first person singular form of the past of the verb “to be”.

    b Fontański & Chomiak (2000, p. 109) cite был єс ⟨bŷl es⟩ as an alternative masculine second person singular form of the past of the verb “to be”.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb “to be”.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb “to be”.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Feminine

    Use the below to refer to females and objects of grammatically feminine gender.

    EnglishLemkoPolishUkrainianRussian
    I wasя былаa
    ⟨ja bŷla⟩
    byłamя булая была
    you wereты былаb
    ⟨tý bŷla⟩
    byłaśти булаты была
    she wasона была
    ⟨ona bŷla⟩
    byłaвона булаон была
    we wereмы былиc
    ⟨mŷ bŷly⟩
    byłyśmyми булимы были
    you gals wereвы былиd
    ⟨wŷ bŷly⟩
    byłyścieви буливы были
    those gals wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the feminine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.

    a Fontański & Chomiak (2000, p. 109) cite была єм ⟨bŷla em⟩ and былам ⟨bŷlam⟩ as alternative feminine first person singular forms of the past of the verb “to be”.

    b Fontański & Chomiak (2000, p. 109) cite была єс ⟨bŷla es⟩ and былас ⟨bŷlas⟩ as alternative feminine second person singular forms of the past of the verb “to be”.

    c Fontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb “to be”.

    d Fontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb “to be”.

    Reference
    Fontański & Chomiak (2000, p. 106).
    Neuter

    Use the below to refer to objects of grammatically neuter gender.

    EnglishLemkoPolishUkrainianRussian
    it wasоно было
    ⟨ono bŷlo⟩
    byłoвоно булооно было
    they wereони были
    ⟨ony bŷly⟩
    byłyвони булиони были
    Forms of the neuter past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
    Reference
    Fontański & Chomiak (2000, p. 106).

    References

    1. Fontański, H., Chomiak, M.  (2000). Ґраматыка лемківского языка [Grammar of the Lemko Language]. Śląsk.
    2. Vasmer, M. (1953). Russisches Etymologisches Wörterbuch, Erster Band: A – K [Russian Etymological Dictionary, Volume One: A – K]. Carl Winter Universitätsverlag.
    3. Pokorny, J. (1959). Indogermanisches etymologisches Wörterbuch, I. Band [Indo-Germanic Etymological Dictionary, Volume One]. A. Francke AG Verlag.
    4. Цисляк, А. (1964). Нашы Родны Бескиды [Our Ancestral Beskid Mountains]. In: Карпаторусский Календарь Лемко-Союза На Год 1964. Типография Лемко-Союза.
    5. Lem.fm (2021). Хто робит, а хто… но власні, што? [He Who Does, and He Who… Well, What?], www.Lem.fm.
    Strona Główna » Лемко

  • New Experiment: Lab-Made Lemko?

    New Experiment: Lab-Made Lemko?

    I will be conducting an experiment this month to see if machines can be made to translate into Lemko better than Google Translate or humans.

    Hypothesis

    A machine can be configured to translate from English into the endangered Slavic language of Lemko and achieve quality scores higher than those of Google Translate’s Ukrainian service, but not yet higher than those of humans.

    Predictions

    • My English to Lemko rule-based machine translation (RBMT) engine will achieve a bilingual evaluation understudy (BLEU) score of 15 against a clean bilingual corpus.
    • The above engine will achieve a BLEU score that is a third higher (e.g. 20) when coupled with an improvised dictionary-based machine translation (DBMT) created from Lemko-Polish unit-test assertion pairs.
    • Google Translate’s English to Ukrainian translation service will achieve a BLEU score of 10 against the above corpus.
    • I, a human, will achieve a higher BLEU score than all the above machines against the above corpus.

    The experiments will be conducted over the next week or so, for subsequent publication.