This site is undergoing a full revamp. Layout may be temporarily broken.

Скажи це правильно: Нейронний машинний переклад на основі ШІ дає можливість новим мовцям відродити лемківську мову

Анотація

Нейронний машинний переклад на основі штучного інтелекту незабаром може відродити зникаючі мови, надаючи новим мовцям можливість спілкуватися в реальному часі, використовуючи речення, які кількісно ближчі до літературної норми, ніж у носіїв мови, починаючи з першого дня їхнього шляху відновлення мови. У той час як Кремнієва долина вкладає величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% мов залишилися поза увагою через відсутність корпусів: моделі нейронного машинного перекладу навчаються на мільйонах слів двомовного тексту, якого просто не існує для більшості мов, і створення якого коштує понад сто тисяч доларів США для кожної мови.

Для мов з обмеженими ресурсами існує більш раціональний підхід, якщо не ефективніший: трансферне навчання, яке дозволяє мовам з меншими ресурсами отримувати користь від досягнень мов з більшими ресурсами. У цьому експерименті сервіс нейронного перекладу Google з англійської на польську був поєднаний з моїм класичним механізмом на основі правил для перекладу з англійської на зникаючу, малоресурсну східнослов’янську лемківську мову. Система досягла оцінки якості BLEU 6,28, що в кілька разів краще, ніж сервіси Google Translate для перекладу з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70). Нарешті, результат цього експерименту, перший у світі сервіс перекладу з англійської на лемківську, став доступним за веб-адресою www.LemkoTran.com, щоб надати новим мовцям можливість відроджувати свою мову.

Нові мовці є ключовими для відродження мови, і тепер можливість «сказати це правильно» лемківською мовою знаходиться на кінчиках їхніх пальців.

Ключові слова: Штучний інтелект, орієнтований на людину, Відродження мови, Лемківська мова.

Будь ласка, цитуйте як: Orynycz, P. (2022). Скажи це правильно: нейронний машинний переклад на базі ШІ дає можливість новим мовцям відроджувати лемківську мову. У: Degen, H., Ntoa, S. (ред.) Штучний інтелект в HCI. HCII 2022. Лекційні нотатки з комп’ютерних наук, том 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37

1 Вступ

1.1. Проблеми

Цей експеримент має на меті зробити внесок на місцевому рівні у глобальну проблему втрати мов, яка може відбуватися зі швидкістю однієї мови на день, причому лише одна з десяти мов може вижити [1, с. 1329]. На момент публікації, SIL International’s Ethnologue використовує Розширену шкалу міжпоколінного порушення Льюїса і Саймонса 2010 року для оцінки того, що 3 018 мов знаходяться під загрозою зникнення [2], що становить 43% від 7 001 окремих живих мов, підрахованих на момент публікації в стандарті ISO 639-3 Міжнародної організації зі стандартизації [3]. Тим часом, Google Translate обслуговує лише 108 мов [4], а Facebook – 112 [5], що є початком. Тим не менш, одна мова тепер менше недообслуговується, оскільки результат цього експерименту був розгорнутий на веб-сервері як публічний сервіс перекладу.

Нові технології штучного інтелекту обіцяють допомогу, яка миттєво компенсує втрату мови через взаємодію людини з комп’ютером. У моєму попередньому експерименті нейронні двигуни нового покоління досягли вищих показників якості перекладу з російської та польської на англійську, ніж людський контроль [6, с. 9]. Тим часом, Facebook і Google1 інвестували величезні ресурси в створення автоматичних систем перекладу, кращих за людські, за нульову вартість для споживача.

1 Розкриття інформації: Я працюю як оплачуваний лінгвіст з російської, польської та української мов та спеціаліст з контролю якості перекладу для проекту Google Translate; штаб-квартира знаходиться в Сан-Франциско.

Надлюдський штучний інтелект не дешевий: навчання нейронних мовних моделей вимагає двомовних корпусів з кількістю слів у сотнях тисяч, а в ідеалі – мільйонах, що коштувало б сотні тисяч доларів для перекладу, суми, які перевищують можливості більшості мовних спільнот з обмеженими ресурсами. На щастя, цей експеримент показує, що існують більш винахідливі та ефективні способи відповісти на виклик створення засобів перекладу для відродження мов, що знаходяться під загрозою зникнення, в умовах обмежених ресурсів.

1.2 Робота на даний момент

Я створив першу у світі систему машинного перекладу з лемківської на англійську і зробив її доступною для громадськості. Її об’єктивні показники якості перекладу покращуються: влітку 2021 року двигун досяг оцінки BLEU 14,57, як було представлено професіоналам на Міжвідомчій/Промисловій конференції з навчання, моделювання та освіти Національної асоціації оборонної промисловості та опубліковано в її матеріалах [6]. Для довідки, я отримав оцінку BLEU 28,66 як перекладач-людина, працюючи в польових умовах, відрізаний від зовнішнього світу. До осені 2021 року двигун досяг BLEU 15,74, як було повідомлено лінгвістам, науковцям та широкій громадськості на презентації, організованій Університетом Піттсбурга.2

2 Розкриття інформації: захід був спонсорований Карпато-русинським товариством (Пенсильванія), і мені заплатив Університет Піттсбурга за мою презентацію.

1.3 Система, що вивчається

Лемківська мова є безумовно або серйозно загроженою [6, с. 3, 7, с. 177-178], малоресурсною [8], офіційно визнаною мовою меншин [9], ймовірно, корінною для транскордонних високогір’їв на південь від міських агломерацій Кракова, Тарнова та Жешува; історичні розмежувальні ізоглоси, сподіваємося, стануть темою майбутньої статті. Бюро перепису населення Польщі нарахувало 6 279 жителів, для яких лемківська була мовою “зазвичай використовуваною вдома” (навіть якщо на додаток до польської) у 2011 році [10, с. 3], що на 12% більше, ніж 5 605, для яких лемківська була “мовою, якою найчастіше розмовляють вдома” у 2002 році [11, с. 6, 12, с. 7]. На момент публікації результати нового підрахунку підсумовуються.

Лемківську мову можна класифікувати як східнослов’янську мову, оскільки вона відповідає звичайним генетичним структурним критеріям, найважливішим з яких є повноголосся [13, с. 20], згідно з яким вважається, що голосний виник у протослов’янських послідовностях приголосного C , за яким слідує середній або низький голосний V (*e, або *o, з яким *a злився [14, с. 366]), за яким слідує плавний R (тобто *l або *r), за яким слідує інший приголосний C, тобто CVRC > CVRVC. Для ілюстрації порівняйте давньоанглійське слово “плавити”, meltan (CVRC) [15, с. 718] з його передбачуваним лемківським когнатом mołódyj [16, с. 92, 17, с. 150] (CVRC), що означає “молодий”. Інші східнослов’янські когнати включають українське mołodýj та російське mołodój [17], обидва демонструють голосний після плавного (CVRVC). Тим часом, західнослов’янські мови не мають голосного перед плавним; порівняйте польське młody та словацьке mladý (обидва CRVC) [17]. Далі, спорідненість була припущена для інших слів, які можна перекласти як “м’який”, включаючи санскритське mṛdú (CRC) [18, с. 830] та латинське mollis (CVRC якщо від *moldvis) [15, 17, 19, с. 323].

Наскільки добре лемківська мова відповідає звичайним, сучасним українським генетичним структурним критеріям, не оцінювалося в цьому експерименті. Однак схожість між лемківською та стандартною українською мовами була кількісно визначена, вперше в друкованому вигляді, наскільки мені відомо. Нижче мій лемківський двигун отримав оцінку BLEU 6,28, майже втричі вищу за оцінку українського Google Translate з BLEU 2,17. Подальші експерименти можуть бути проведені з метою кількісного визначення схожості між лемківською, стандартною українською, польською та русинською мовами, кодифікованими в Словаччині, а також свіжого погляду на типологічну класифікацію лемківської мови.

Кількість та якість ресурсів покращуються, як і винахідливість, підкріплена технологіями. Всі відомі двомовні корпуси, що складаються з менш ніж сімдесяти тисяч лемківських слів, були зібрані для цього експерименту. Я очищаю двомовний корпус транскрипцій інтерв’ю, проведених з носіями мови в Польщі, та моїх перекладів англійською мовою, які мені оплатив клієнт із США і дозволив використовувати. Я також складаю одномовні корпуси, які на момент публікації налічують 534 512 слів.

1.4 Гіпотеза

Базуючись на моєму суб’єктивному враженні як професійного перекладача, що носії лемківської мови, опитані в Польщі, частіше використовували слова з очевидними польськими когнатами, ніж стандартні українські, я висунув гіпотезу, що за інших рівних умов машину можна налаштувати на переклад англійською на лемківську і досягти об’єктивних оцінок якості BLEU вищих, ніж у служб українського та російського перекладу Google Translate.

1.5 Прогнози

Система перекладу лемківською мовою. Я передбачив, що вищезгадана система перекладу досягне оцінки BLEU 15 при перекладі з англійської на лемківську порівняно з двомовним корпусом.

Google Translate.

Служба перекладу з англійської на українську. Я передбачив, що служба перекладу з англійської на українську Google Translate досягне оцінки BLEU 10 порівняно з двомовним корпусом.

Служба перекладу з англійської на російську. Я передбачив, що служба перекладу з англійської на російську Google Translate досягне оцінки BLEU 1 порівняно з двомовним корпусом.

1.6 Методи та обґрунтування

В інтересах швидкості, збереження ресурсів та надійності, ноутбук, списаний моїм роботодавцем як застарілий, був налаштований для перекладу лемківською мовою та здійснення викликів до служби Google Translate платформи Google Cloud, а також налаштований для оцінки зазначених перекладів за допомогою галузевого стандарту метрики BLEU.

1.7 Основні результати

Система перекладу з англійської на лемківську досягла сукупної оцінки BLEU 6.28431824990417. Тим часом українська служба Google Translate отримала BLEU 2.16830846776652, її російська служба BLEU 1.10424105952048, а контрольний переклад польською мовою, транслітерований кирилицею, BLEU 1.70036447680114.

2 Матеріали та методи

Вищезазначена гіпотеза була перевірена шляхом обчислення оцінок якості BLEU для кожної системи перекладу, налаштованої описаним нижче способом.

2.1 Налаштування

Апаратне забезпечення. Експеримент проводився на ноутбуці HP Elitebook 850 G2 з процесором Core i7-5600U 2.6GHz та 16 гігабайтами оперативної пам’яті. Він був списаний моїм роботодавцем як застарілий і виставлений на продаж за 450 доларів США на момент публікації.

Конфігурація. У меню базової системи введення/виведення (BIOS) пристрій був налаштований для увімкнення технології віртуалізації (VTx).

Операційна система. Windows 10 Professional 64 bit була встановлена на чисте обладнання. Було забезпечено, що функції Windows Virtual Machine Platform та Windows Subsystem for Linux увімкнені. Далі було встановлено WSL2 Linux kernel update for x64 машини (wsl_update_x64.msi), доступні від Microsoft за адресою https://aka.ms/wsl2kernel.

Програмне забезпечення. Інсталятор Docker Desktop для Windows версії 4.4.3 (73365) був завантажений з https://www.docker.com/get-started та запущений з опцією Install required Windows components for WSL 2 selected.

Пакети. Експеримент залежав від наведених нижче пакетів з Python Package Index.

SacreBLEU. Версія 2.0.0 була встановлена за допомогою пакета Python, задокументованого за наступною універсальною адресою ресурсу (URL):
https://pypi.org/project/sacrebleu/2.0.0/

Клієнтська бібліотека Google Cloud Translation API. Версія 2.0.1 була встановлена за допомогою пакета Python, задокументованого за універсальною адресою ресурсу (URL) https://pypi.org/project/google-cloud-translate/2.0.1/

Вищезазначені залежності були вказані у файлі вимог наступним чином:
google-cloud-translate==2.0.1
sacrebleu==2.0.0

Контейнер.

Збірка. Експеримент проводився в контейнері Docker з останньою версією мови програмування Python, яка на той момент була версією 3.10.2, що працює на операційній системі Linux Debian Bullseye 11 архітектури AMD64, зі скороченим дайджестом алгоритму безпечного хешування 2 bcb158d5ddb6, який можна отримати за допомогою наступної команди:
docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7

Середовище виконання. Контейнер був налаштований для збереження файлів необроблених даних експерименту в локальному томі з прив’язкою.

Оцінка якості перекладу.
Оцінки якості перекладу були обчислені відповідно до метрики BLEU з використанням версії 2.0.0 інструменту SacreBLEU, винайденого Постом [20].

Чутливість до регістру. Оцінка проводилася з урахуванням регістру.

Токенізація. Сегменти були токенізовані з використанням версії 13a стандартної процедури внутрішньої токенізації метрики скриптів оцінювання Семінару зі статистичного машинного перекладу.

Метод згладжування. За замовчуванням використовувалася техніка згладжування, розроблена в Національному інституті стандартів і технологій співробітниками федерального уряду США для їхнього інструментарію BLEU Мультимодальної інформаційної групи, що є третьою технікою, описаною Ченом і Черрі [21, с. 363].

Підпис. Вищезазначені налаштування створили наступний підпис:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0

Калібрування. Налаштована як описано вище, машина видає наступний результат:

Сегмент 1031.
Англійське джерелоEverything was there.
Лемківська референція та транслітераціяВшытко там было.Všŷtko tam bŷlo.
Lemkotran.com гіпотеза та транслітераціяВшытко там было.Všŷtko tam bŷlo.
ОцінкаBLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4)

Пояснення. Сегмент гіпотези був ідентичним еталонному, і машина досягла ідеальної оцінки BLEU 100.

Сегмент 179.
Англійське джерелоI don't remember what year.
Лемківська референція та транслітераціяНе памятам в котрым році.Ne pamjatam v kotrŷm roci.
Lemkotran.com гіпотеза та транслітераціяНі памятам, в котрым році.Ni pamjatam, v kotrŷm roci.
ОцінкаBLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6)

Пояснення. Гіпотеза відрізнялася від еталону двома символами. Машина неправильно переклала частку, що заперечує дієслово, використавши слово “ні” (ni) замість очікуваного слова “не” (ne). Це з тих пір було значною мірою виправлено. Машина також додала кому після pamjatam, що означає “я пам’ятаю”. Це знизило оцінку з того, що могло бути ідеальною оцінкою 100 до 43,47.

Контроль. Оскільки корпус базується на інтерв’ю, проведених у Польщі, переклади польською мовою використовувалися як контроль. Вони були транслітеровані кирилицею шляхом зворотного застосування правил транслітерації лемківських імен, встановлених Міністерством внутрішніх справ та адміністрації Польщі [22, с. 6564]. Польські носові голосні були розкладені на голосний плюс носовий приголосний, крім випадків перед апроксимантами, де вони були просто деназалізовані. У кінці слова передній носовий голосний /ę/ був просто деназалізований, а задній /ą/ транслітерувався як такий, що супроводжується зубним приголосним.

3 Результати

Двигун, доступний для громадськості за адресою www.LemkoTran.com, посів перше місце із сукупною оцінкою якості перекладу BLEU 6,28, що майже втричі перевищує показник другого місця – служби англійсько-українського перекладу Google Translate (BLEU 2,17). Далі йде його служба англійсько-польського перекладу (BLEU 1,70), а служба англійсько-російського перекладу посіла останнє місце (BLEU 1,10).

Таблиця 1. Якість перекладу з англійської на лемківську: LemkoTran.com проти Google Translate

3.1 Результати за сервісом машинного перекладу

Контроль. При транслітерації кирилицею переклади Google Translate стандартною польською мовою досягли оцінки BLEU 1,70 на рівні корпусу. Зразки його роботи наступні:

Сегмент 2174.
Англійське джерелоWe had still been in Izby, right.
Лемківська референція та транслітераціяТо мы іщы были в Ізбах, так.To mŷ iščŷ bŷly v Izbach, tak.
Польська гіпотеза та транслітераціяБилісьми єще в Ізбах, так.Byliśmy jeszcze w Izbach, tak.
ОцінкаBLEU = 46.20
Сегмент 854.
Англійське джерелоAnd that's what it's all about.
Лемківська референція та транслітераціяІ о то ходит.I o to chodyt.
Польська гіпотеза та транслітераціяІ о то власьнє ходзі.I o to właśnie chodzi.
ОцінкаBLEU = 32.47
Сегмент 217.
Англійське джерелоAnd that's what it's all about.
Лемківська референція та транслітераціяТак мі повіл.Tak mi povil.
Польська гіпотеза та транслітераціяТак мі повєдзял.Tak mi powiedział.
ОцінкаBLEU = 35.36

Гібридний англійсько-лемківський двигун. Двигун, вільно доступний для громадськості за URL-адресою www.LemkoTran.com, досяг оцінки BLEU 6,28 на рівні корпусу.

Сегмент 1031.
Англійське джерелоEverything was there.
Лемківська референція та транслітераціяВшытко там было.Všŷtko tam bŷlo.
Lemkotran.com гіпотеза та транслітераціяВшытко там было.Všŷtko tam bŷlo.
ОцінкаBLEU = 100.00
Сегмент 1445.
Англійське джерелоBut that officer took that medal and said,
Лемківська референція та транслітераціяАле тот офіцер взял тот медаль і повідат:Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com гіпотеза та транслітераціяАле тот офіцер взял тот медаль і повіл:Ale tot oficer vzial tot medal' i povil:
ОцінкаBLEU = 75.06
Сегмент 217.
Англійське джерелоThat's what he said to me.
Лемківська референція та транслітераціяТак мі повіл.Tak mi povil.
Lemkotran.com гіпотеза та транслітераціяТак мі повіл.Tak mi povil.
ОцінкаBLEU = 100.00

Українська. Переклади Google Translate на стандартну українську мову досягли оцінки BLEU на рівні корпусу 2,35.

Сегмент 2419.
Англійське джерелоWhere and when?
Лемківська референція та транслітераціяДе і коли?De i koly?
Українська гіпотеза та транслітераціяДе і коли?De i koly?
ОцінкаBLEU = 100.00
Сегмент 1096.
Англійське джерелоWe were there for three months.
Лемківська референція та транслітераціяТам зме были три місяці.Tam zme bŷly try misiaci.
Українська гіпотеза та транслітераціяМи були там три місяці.My buly tam try misjaci.
ОцінкаBLEU = 30.21
Сегмент 2513.
Англійське джерелоWell, here to the west.
Лемківська референція та транслітераціяНо то ту на захід.No to tu na zachid.
Українська гіпотеза та транслітераціяНу, тут на захід.Nu, tut na zachid.
ОцінкаBLEU = 30.21

Російська. Сервіс Google Translate з англійської на російську досяг оцінки BLEU на рівні корпусу 1,10.

Сегмент 432.
Англійське джерелоNobody knew.
Лемківська референція та транслітераціяНихто не знал.Nychto ne znal.
Російська гіпотеза та транслітераціяНикто не знал.Nikto ne znal.
ОцінкаBLEU = 59.46
Сегмент 2751.
Англійське джерелоWhat did they expel us for?
Лемківська референція та транслітераціяЗа што нас выгнали?Za što nas vŷhnaly?
Російська гіпотеза та транслітераціяЗа что нас выгнали?Za čto nas vygnali?
ОцінкаBLEU = 42.73
Сегмент 2164.
Англійське джерелоBrother went off to war.
Лемківська референція та транслітераціяБрат пішол на войну.Brat pišol na vojnu.
Російська гіпотеза та транслітераціяБрат ушел на войну.Brat ušel na vojnu.
ОцінкаBLEU = 42.73

4 Обговорення

Оцінка BLEU на рівні корпусу 6,28 для системи перекладу лемківської мови вказує на те, що хоча ще багато чого потрібно зробити, справи йдуть у правильному напрямку. Оцінка BLEU 1,10 для стандартної російської мови свідчить про те, що лемківська мова менш схожа на російську, ніж на польську (BLEU 1,70). Можливо, використання дореволюційної орфографії могло б підвищити оцінку російської мови, але це був би дорогий експеримент з малою очевидною користю.

Контрольна оцінка подібності транслітерованої стандартної польської мови BLEU 1,70 вказує на менше втручання домінуючої мови в Польщі, ніж можна було б очікувати. Було б цікаво переробити експеримент, де б застосовувалися кілька обчислювально недорогих і очевидних звукових відповідностей (наприклад, деназалізація *ę до /ja/ та *ǫ до /u/, ретракція *i до /y/ та зміна *g на /h/ [23]) до польської мови, щоб побачити, чи отримає вона тоді вищу оцінку, ніж стандартна українська.

Підсумовуючи, лемківська мова була синтезована в лабораторії, і можливість її створення передана в руки як нових, так і носіїв мови. Після ретельного оновлення двигуна та розширення глосарію, наступним кроком є об’єктивне вимірювання, і, якщо це можливо, суб’єктивна оцінка носіями мови якості синтетичної лемківської мови порівняно з тією, що створюється носіями мови. День, коли нові носії мов з обмеженими ресурсами зможуть використовувати машинний переклад, щоб почати спілкуватися своєю мовою за одну ніч, стає ближчим, як і день, коли лемківська мова приєднається до рангу тих, що раніше були під загрозою зникнення, але тепер відроджуються.

Подяки. Я хотів би подякувати моєму колезі Мінгу Цяню з Peraton Labs за те, що надихнув мене провести цей експеримент, а також Браяну Стенсруду з Soar Technology, Inc. за те, що познайомив нас, а також за його підтримку.

Я також хотів би подякувати моїй подрузі Коринні Коділ за її підтримку та особистий інтерес до проекту, а також за знайомство з президентом Карпато-русинського товариства Мар’янн Сівак з Університету Піттсбурга, якій я хотів би подякувати за можливість представити мою роботу.

Я також хотів би подякувати Марії Сільвестрі з Фонду Джона та Гелен Тімо за проведення інтерв’ю з носіями лемківської мови та передачу транскриптів і моїх перекладів для досліджень та розробок.

Я хотів би подякувати Ахіму Рабусу з Університету Фрайбурга та Іву Шерреру з Університету Гельсінкі за їхній інтерес до проекту та ідеї.

Я також хотів би подякувати Михалю Лижечку з блогу про технології для мов меншин InterFyisa за його ранній інтерес до проекту та роботу з громадою.

Я також хотів би подякувати земляку із Загочев’я Марку Лишику за його інтерес до проекту та роботу з громадою.

Нарешті, я хотів би подякувати моєму співавтору та колезі з Antech Systems Inc. Тому Добрі за його підтримку та керівництво.

Список літератури

1. ^ Греддол, Д.: Майбутнє мови. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546

2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Онлайн-версія: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, останній доступ 2022/02/11.

3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, останній доступ 2022/02/11.

4. ^ Language support, https://cloud.google.com/translate/docs/languages, останній доступ 2022/02/11.

5. ^ Select language, https://m.facebook.com/language.php, останній доступ 2022/02/11.

6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862

7. ^ Дуць-Файфер, О.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. В: Олько, Й., Віхеркевич, Т., Борхес, Р. (ред.), Інтегральні стратегії мовної ревіталізації, с. 175–200. Перше видання. Факультет “Artes Liberales”, Варшавський університет, Варшава (2016).

8. ^ Шеррер, Й., Рабус, А.: Нейронна морфосинтаксична розмітка для русинської мови. В: Мітков, Р., Тейт, Дж., Богураєв, Б. (ред.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Кембридж (2019). https://doi.org/10.1017/S1351324919000287

9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, останній доступ 2022/02/11.

10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, останній доступ 2022/02/11.

11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, останній доступ 2022/02/11.

12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, останній доступ 2022/02/11.

13. ^ Ванько, Й.: Мова русинів Словаччини. East European Monographs, Нью-Йорк (2000).

14. ^ Форстон, Б., IV: Індоєвропейська мова та культура. Blackwell Publishing, Оксфорд (2004).

15. ^ ^ Покорний, Й.: Індогерманський етимологічний словник, Берн, 1959.

16. ^ Горощак, Й.: Лемківсько-польський, польсько-лемківський словник. Rutenika, Варшава (2004).

17. ^ ^ ^ ^ Фасмер, М. Російський етимологічний словник. Другий том. Carl Winter, Universitätsverlag, Гейдельберг (1955).

18. ^ Моньє-Вільямс, М.: Санскритсько-англійський словник, етимологічно та філологічно впорядкований з особливим посиланням на споріднені індоєвропейські мови, The Clarendon Press, Оксфорд (1899).

19. ^ Деркзен, Р.: Етимологічний словник слов’янської успадкованої лексики. У: Люботський, А. (ред.) Серія лейденських індоєвропейських етимологічних словників, том 4, Koninklijke Brill, Лейден (2008).

20. ^ Пост, М.: Заклик до ясності у звітуванні показників BLEU. У: Матеріали Третьої конференції з машинного перекладу (WMT), том 1, стор. 186–191. Асоціація комп’ютерної лінгвістики, Брюссель (2018). https://aclanthology.org/W18-63

21. ^ Чен Б., Черрі, К.: Систематичне порівняння методів згладжування для BLEU на рівні речень. У: Матеріали Дев’ятого семінару зі статистичного машинного перекладу, стор. 362–367. Асоціація комп’ютерної лінгвістики, Балтимор (2014). http://dx.doi.org/10.3115/v1/W14-33

22. ^ Міністерство внутрішніх справ та адміністрації: Розпорядження Міністра внутрішніх справ та адміністрації від 30 травня 2005 року про спосіб транслітерації імен та прізвищ осіб, що належать до національних та етнічних меншин, записаних алфавітом, відмінним від латинського. У: Офіційний вісник № 102, стор. 6560–6573. Урядовий центр законодавства, Варшава (2005).

23. ^ Шевельов, Ю.: Про хронологію Г та нового Ґ в українській мові. У: Гарвардські українознавчі студії, том 1, № 2, стор. 137–152. Український науковий інститут Гарварду, Кембридж (1977). https://www.jstor.org/stable/40999942

Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.