Анотація
Нейронний машинний переклад на основі штучного інтелекту незабаром може відродити зникаючі мови, надаючи новим мовцям можливість спілкуватися в реальному часі, використовуючи речення, які кількісно ближчі до літературної норми, ніж у носіїв мови, починаючи з першого дня їхнього шляху відновлення мови. У той час як Кремнієва долина вкладає величезні ресурси в технологію нейронного перекладу, здатну забезпечити надлюдську швидкість і точність для найпоширеніших мов світу, 98% мов залишилися поза увагою через відсутність корпусів: моделі нейронного машинного перекладу навчаються на мільйонах слів двомовного тексту, якого просто не існує для більшості мов, і створення якого коштує понад сто тисяч доларів США для кожної мови.
Для мов з обмеженими ресурсами існує більш раціональний підхід, якщо не ефективніший: трансферне навчання, яке дозволяє мовам з меншими ресурсами отримувати користь від досягнень мов з більшими ресурсами. У цьому експерименті нейронний сервіс перекладу Google з англійської на польську було поєднано з моїм класичним механізмом на основі правил для перекладу з англійської на загрожену, малоресурсну східнослов’янську лемківську мову. Система досягла оцінки якості BLEU 6,28, що в кілька разів краще, ніж сервіси Google Translate для перекладу з англійської на стандартну українську (BLEU 2,17), російську (BLEU 1,10) та польську (BLEU 1,70). Зрештою, результат цього експерименту, перший у світі сервіс перекладу з англійської на лемківську мову, став доступним за веб-адресою www.LemkoTran.com, щоб допомогти новим мовцям відроджувати свою мову.
Нові мовці є ключовими для відродження мови, і тепер можливість «сказати як треба» лемківською мовою – на відстані одного дотику.
Ключові слова: Людиноцентричний ШІ, Відродження мови, Лемківська мова.
Прошу цитувати як: Оринич, P. (2022). Скажи як треба: Нейронний машинний переклад на базі ШІ дає можливість новим мовцям відроджувати лемківську мову. У: Degen, H., Ntoa, S. (ред.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, т. 13336. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
✅ Ця версія внеску була прийнята до публікації після рецензування, але не є Версією запису і не відображає покращень після прийняття або будь-яких виправлень. Версія запису доступна онлайн за адресою https://doi.org/10.1007/978-3-031-05643-7_37. Використання цієї Прийнятої версії підпадає під умови використання Прийнятого рукопису видавця: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Зміст
1 Вступ
1.1. Проблеми
Цей експеримент має на меті зробити внесок на місцевому рівні у глобальну проблему втрати мов, яка може відбуватися зі швидкістю однієї мови на день, причому лише одна з десяти мов може вижити [1, с. 1329]. На момент публікації, SIL International’s Ethnologue використовує Розширену шкалу міжпоколінного порушення Льюїса і Саймонса 2010 року для оцінки того, що 3 018 мов знаходяться під загрозою зникнення [2], що становить 43% від 7 001 окремих живих мов, підрахованих на момент публікації в стандарті ISO 639-3 Міжнародної організації зі стандартизації [3]. Тим часом, Google Translate обслуговує лише 108 мов
Нові технології штучного інтелекту обіцяють допомогу, яка миттєво компенсує втрату мови через взаємодію людини з комп’ютером. У моєму попередньому експерименті нейронні двигуни нового покоління досягли вищих показників якості перекладу з російської та польської на англійську, ніж людський контроль [6, с. 9]. Тим часом, Facebook і Google1 інвестували величезні ресурси в створення автоматичних систем перекладу, кращих за людські, за нульову вартість для споживача.
1 Розкриття інформації: Я працюю як оплачуваний лінгвіст з російської, польської та української мов та спеціаліст з контролю якості перекладу для проекту Google Translate; штаб-квартира знаходиться в Сан-Франциско.
Надлюдський штучний інтелект не дешевий: навчання нейронних мовних моделей вимагає двомовних корпусів з кількістю слів у сотнях тисяч, а в ідеалі – мільйонах, що коштувало б сотні тисяч доларів для перекладу, суми, які перевищують можливості більшості мовних спільнот з обмеженими ресурсами. На щастя, цей експеримент показує, що існують більш винахідливі та ефективні способи відповісти на виклик створення засобів перекладу для відродження мов, що знаходяться під загрозою зникнення, в умовах обмежених ресурсів.
1.2 Робота на даний момент
Я створив першу у світі систему машинного перекладу з лемківської на англійську і зробив її доступною для громадськості. Її об’єктивні показники якості перекладу покращуються: влітку 2021 року система досягла оцінки BLEU 14,57, як було представлено фахівцям на Міжвідомчій конференції з навчання, моделювання та освіти Національної оборонної промислової асоціації та опубліковано в її матеріалах [6]. Для порівняння, я отримав оцінку BLEU 28,66 як перекладач-людина, працюючи в польових умовах, відрізаний від зовнішнього світу. До осені 2021 року система досягла показника BLEU 15,74, про що було повідомлено лінгвістам, науковцям та широкій громадськості на презентації, організованій Університетом Піттсбурга.2
2 Розкриття інформації: захід був спонсорований Карпато-русинським товариством (Пенсильванія), і мені заплатив Університет Піттсбурга за мою презентацію.
1.3 Система, що вивчається
Лемківська мова знаходиться під серйозною загрозою зникнення [6, с. 3, 7, с. 177-178], є малоресурсною [8], офіційно визнаною мовою меншин [9], ймовірно корінною для транскордонних височин на південь від метрополійних територій Кракова, Тарнова та Жешува; історичні демаркаційні ізоглоси, сподіваємося, стануть темою майбутньої статті. За даними польського бюро перепису населення, у 2011 році налічувалося 6 279 жителів, для яких лемківська була мовою, «зазвичай використовуваною вдома» (навіть якщо додатково до польської) [10, с. 3], що на 12% більше порівняно з 5 605 особами, для яких лемківська була «мовою, якою найчастіше розмовляли вдома» у 2002 році [11, с. 6, 12, с. 7]. На момент публікації підраховуються результати нового перепису.
Лемківську можна класифікувати як східнослов’янську мову, оскільки вона відповідає звичайним генетичним структурним критеріям, найважливішим з яких є повноголосся [13, с. 20], при якому вважається, що голосний виник у протослов’янських послідовностях приголосних C , за яким слідує середній або низький голосний V (*e, або *o, з яким *a злився [14, с. 366]), за яким слідує плавний R (тобто *l або *r), за яким слідує інший приголосний C, тобто CVRC > CVRVC. Для ілюстрації порівняйте давньоанглійське слово «плавити», meltan (CVRC) [15, с. 718] з його передбачуваним лемківським когнатом mołódyj [16, с. 92, 17, с. 150] (CVRC), що означає «молодий». Інші східнослов’янські когнати включають українське mołodýj та російське mołodój [17], обидва демонструють голосний після плавного (CVRVC). Тим часом, західнослов’янські мови не мають голосного перед плавним; порівняйте польське młody та словацьке mladý (обидва CRVC) [17]. Далі, спорідненість була припущена для інших слів, які можна перекласти як “м’який”, включаючи санскритське mṛdú (CRC) [18, с. 830] та латинське mollis (CVRC якщо від *moldvis) [15, 17, 19, с. 323].
У цьому експерименті не оцінювалося, наскільки добре лемківська відповідає звичайним, сучасним українським генетичним структурним критеріям. Однак схожість між лемківською та стандартною українською мовами була вперше, наскільки мені відомо, кількісно визначена в друкованому вигляді. Нижче моя лемківська система отримала оцінку BLEU 6,28, що майже втричі перевищує оцінку українського перекладу Google Translate з BLEU 2,17. Можна провести подальші експерименти для кількісного визначення схожості між лемківською, стандартною українською, польською та русинською мовами, кодифікованими в Словаччині, а також новий погляд на типологічну класифікацію лемківської мови.
Кількість і якість ресурсів покращуються, як і винахідливість, підкріплена технологіями. Для цього експерименту були залучені всі відомі двомовні корпуси, що містять менше сімдесяти тисяч лемківських слів. Я очищаю двомовний корпус транскрипцій інтерв’ю, проведених з носіями мови в Польщі, та моїх перекладів англійською мовою, які мені оплатив американський клієнт і дозволив використовувати. Я також компілюю одномовні корпуси, які на момент публікації налічують 534 512 слів.
1.4 Гіпотеза
Базуючись на моєму суб’єктивному враженні як професійного перекладача, що носії лемківської мови, опитані в Польщі, частіше використовували слова з очевидними польськими когнатами, ніж стандартні українські, я висунув гіпотезу, що за інших рівних умов машину можна налаштувати на переклад з англійської на лемківську і досягти об’єктивних оцінок якості BLEU вищих, ніж у українських та російських сервісів Google Translate.
1.5 Прогнози
Система перекладу лемківською мовою. Я передбачив, що згадана система перекладу досягне оцінки BLEU 15 при перекладі з англійської на лемківську порівняно з двомовним корпусом.
Google Translate.
Служба перекладу з англійської на українську. Я передбачив, що служба перекладу з англійської на українську Google Translate досягне оцінки BLEU 10 порівняно з двомовним корпусом.
Служба перекладу з англійської на російську. Я передбачив, що служба перекладу з англійської на російську Google Translate досягне оцінки BLEU 1 порівняно з двомовним корпусом.
1.6 Методи та обґрунтування
З метою швидкості, збереження ресурсів та забезпечення надійності, ноутбук, списаний як застарілий моїм роботодавцем, був налаштований для перекладу лемківською мовою та здійснення викликів до сервісу Google Translate платформи Google Cloud, а також для оцінки цих перекладів за допомогою галузевого стандартного показника BLEU.
1.7 Основні результати
Система перекладу з англійської на лемківську досягла сукупної оцінки BLEU 6.28431824990417. Тим часом український сервіс Google Translate отримав оцінку BLEU 2.16830846776652, російський сервіс – BLEU 1.10424105952048, а контрольний польський, транслітерований кирилицею – BLEU 1.70036447680114.
2 Матеріали та методи
Вищезазначена гіпотеза була перевірена шляхом обчислення оцінок якості BLEU для кожної системи перекладу, налаштованої описаним нижче способом.
2.1 Налаштування
Апаратне забезпечення. Експеримент проводився на ноутбуці HP Elitebook 850 G2 з процесором Core i7-5600U 2.6GHz та 16 гігабайтами оперативної пам’яті. Він був списаний моїм роботодавцем як застарілий і виставлений на продаж за 450 доларів США на момент публікації.
Конфігурація. У меню базової системи введення/виведення (BIOS) пристрій був налаштований для увімкнення технології віртуалізації (VTx).
Операційна система. Windows 10 Professional 64 bit була встановлена на чисте обладнання. Було забезпечено, що функції Windows Virtual Machine Platform та Windows Subsystem for Linux увімкнені. Далі було встановлено WSL2 Linux kernel update for x64 машини (wsl_update_x64.msi), доступні від Microsoft за адресою https://aka.ms/wsl2kernel.
Програмне забезпечення. Інсталятор Docker Desktop для Windows версії 4.4.3 (73365) був завантажений з https://www.docker.com/get-started та запущений з опцією Install required Windows components for WSL 2 selected.
Пакети. Експеримент залежав від наведених нижче пакетів з Python Package Index.
SacreBLEU. Версія 2.0.0 була встановлена за допомогою пакета Python, задокументованого за наступною універсальною адресою ресурсу (URL):https://pypi.org/project/sacrebleu/2.0.0/
Клієнтська бібліотека Google Cloud Translation API. Версія 2.0.1 була встановлена за допомогою пакета Python, задокументованого за універсальною адресою ресурсу (URL) https://pypi.org/project/google-cloud-translate/2.0.1/
Вищезазначені залежності були вказані у файлі вимог наступним чином:google-cloud-translate==2.0.1sacrebleu==2.0.0
Контейнер.
Збірка. Експеримент проводився в контейнері Docker з останньою версією мови програмування Python, яка на той момент була версією 3.10.2, що працює на операційній системі Linux Debian Bullseye 11 архітектури AMD64, зі скороченим дайджестом алгоритму безпечного хешування 2 bcb158d5ddb6, який можна отримати за допомогою наступної команди: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Середовище виконання. Контейнер був налаштований для збереження файлів необроблених даних експерименту в локальному томі з прив’язкою.
Оцінка якості перекладу.
Оцінки якості перекладу були обчислені відповідно до метрики BLEU з використанням версії 2.0.0 інструменту SacreBLEU, винайденого Постом [20].
Чутливість до регістру. Оцінка проводилася з урахуванням регістру.
Токенізація. Сегменти були токенізовані з використанням версії 13a стандартної процедури внутрішньої токенізації метрики скриптів оцінювання Семінару зі статистичного машинного перекладу.
Метод згладжування. За замовчуванням використовувалася техніка згладжування, розроблена в Національному інституті стандартів і технологій співробітниками федерального уряду США для їхнього інструментарію BLEU Мультимодальної інформаційної групи, що є третьою технікою, описаною Ченом і Черрі [21, с. 363].
Підпис. Вищезазначені налаштування створили наступний підпис:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Калібрування. Налаштована як описано вище, машина видає наступний результат:
| Англійське джерело | Everything was there. | |
| Лемківська довідка та транслітерація | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com гіпотеза та транслітерація | Вшытко там было. | Všŷtko tam bŷlo. |
| Оцінка | BLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4) | |
Пояснення. Сегмент гіпотези був ідентичним еталонному, і машина досягла ідеальної оцінки BLEU 100.
| Англійське джерело | I don't remember what year. | |
| Лемківська довідка та транслітерація | Не памятам в котрым році. | Ne pamjatam v kotrŷm roci. |
Lemkotran.com гіпотеза та транслітерація | Ні памятам, в котрым році. | Ni pamjatam, v kotrŷm roci. |
| Оцінка | BLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6) | |
Пояснення. Гіпотеза відрізнялася від еталону двома символами. Машина неправильно переклала частку, що заперечує дієслово, використавши слово “ні” (ni) замість очікуваного слова “не” (ne). Це з тих пір було значною мірою виправлено. Машина також додала кому після pamjatam, що означає “я пам’ятаю”. Це знизило оцінку з того, що могло бути ідеальною оцінкою 100 до 43,47.
Контроль. Оскільки корпус базується на інтерв’ю, проведених у Польщі, переклади польською мовою використовувалися як контрольні. Вони були транслітеровані кирилицею шляхом зворотного застосування правил транслітерації лемківських імен, встановлених Міністерством внутрішніх справ та адміністрації Польщі [22, с. 6564]. Польські носові голосні були розкладені на голосний плюс носовий приголосний, крім випадків перед апроксимантами, де вони просто деназалізувалися. У кінці слова передній носовий голосний /ę/ просто деназалізувався, а задній /ą/ транслітерувався так, ніби за ним слідував зубний приголосний.
3 Результати
Двигун, доступний для громадськості за адресою www.LemkoTran.com, посів перше місце із сукупною оцінкою якості перекладу BLEU 6,28, що майже втричі перевищує показник другого місця – служби англійсько-українського перекладу Google Translate (BLEU 2,17). Далі йде його служба англійсько-польського перекладу (BLEU 1,70), а служба англійсько-російського перекладу посіла останнє місце (BLEU 1,10).

3.1 Результати за сервісом машинного перекладу
Контроль. При транслітерації кирилицею переклади Google Translate стандартною польською мовою досягли оцінки BLEU 1,70 на рівні корпусу. Зразки його роботи наступні:
| Англійське джерело | We had still been in Izby, right. | |
| Лемківська довідка та транслітерація | То мы іщы были в Ізбах, так. | To mŷ iščŷ bŷly v Izbach, tak. |
| Польська гіпотеза та транслітерація | Билісьми єще в Ізбах, так. | Byliśmy jeszcze w Izbach, tak. |
| Оцінка | BLEU = 46.20 | |
| Англійське джерело | And that's what it's all about. | |
| Лемківська довідка та транслітерація | І о то ходит. | I o to chodyt. |
| Польська гіпотеза та транслітерація | І о то власьнє ходзі. | I o to właśnie chodzi. |
| Оцінка | BLEU = 32.47 | |
| Англійське джерело | And that's what it's all about. | |
| Лемківська довідка та транслітерація | Так мі повіл. | Tak mi povil. |
| Польська гіпотеза та транслітерація | Так мі повєдзял. | Tak mi powiedział. |
| Оцінка | BLEU = 35.36 | |
Гібридний англійсько-лемківський двигун. Двигун, вільно доступний для громадськості за URL-адресою www.LemkoTran.com, досяг оцінки BLEU 6,28 на рівні корпусу.
| Англійське джерело | Everything was there. | |
| Лемківська довідка та транслітерація | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com гіпотеза та транслітерація | Вшытко там было. | Všŷtko tam bŷlo. |
| Оцінка | BLEU = 100.00 | |
| Англійське джерело | But that officer took that medal and said, | |
| Лемківська довідка та транслітерація | Але тот офіцер взял тот медаль і повідат: | Ale tot oficer vzial tot medal' i povidat: |
Lemkotran.com гіпотеза та транслітерація | Але тот офіцер взял тот медаль і повіл: | Ale tot oficer vzial tot medal' i povil: |
| Оцінка | BLEU = 75.06 | |
| Англійське джерело | That's what he said to me. | |
| Лемківська довідка та транслітерація | Так мі повіл. | Tak mi povil. |
Lemkotran.com гіпотеза та транслітерація | Так мі повіл. | Tak mi povil. |
| Оцінка | BLEU = 100.00 | |
Українська. Переклади Google Translate на стандартну українську мову досягли оцінки BLEU на рівні корпусу 2,35.
| Англійське джерело | Where and when? | |
| Лемківська довідка та транслітерація | Де і коли? | De i koly? |
| Українська гіпотеза та транслітерація | Де і коли? | De i koly? |
| Оцінка | BLEU = 100.00 | |
| Англійське джерело | We were there for three months. | |
| Лемківська довідка та транслітерація | Там зме были три місяці. | Tam zme bŷly try misiaci. |
| Українська гіпотеза та транслітерація | Ми були там три місяці. | My buly tam try misjaci. |
| Оцінка | BLEU = 30.21 | |
| Англійське джерело | Well, here to the west. | |
| Лемківська довідка та транслітерація | Но то ту на захід. | No to tu na zachid. |
| Українська гіпотеза та транслітерація | Ну, тут на захід. | Nu, tut na zachid. |
| Оцінка | BLEU = 30.21 | |
Російська. Сервіс Google Translate з англійської на російську досяг оцінки BLEU на рівні корпусу 1,10.
| Англійське джерело | Nobody knew. | |
| Лемківська довідка та транслітерація | Нихто не знал. | Nychto ne znal. |
| Російська гіпотеза та транслітерація | Никто не знал. | Nikto ne znal. |
| Оцінка | BLEU = 59.46 | |
| Англійське джерело | What did they expel us for? | |
| Лемківська довідка та транслітерація | За што нас выгнали? | Za što nas vŷhnaly? |
| Російська гіпотеза та транслітерація | За что нас выгнали? | Za čto nas vygnali? |
| Оцінка | BLEU = 42.73 | |
| Англійське джерело | Brother went off to war. | |
| Лемківська довідка та транслітерація | Брат пішол на войну. | Brat pišol na vojnu. |
| Російська гіпотеза та транслітерація | Брат ушел на войну. | Brat ušel na vojnu. |
| Оцінка | BLEU = 42.73 | |
4 Обговорення
Оцінка BLEU 6,28 для системи лемківського перекладу на рівні корпусу вказує на те, що хоча ще багато потрібно зробити, все рухається у правильному напрямку. Оцінка стандартної російської BLEU 1,10 вказує на те, що лемківська менш схожа на російську, ніж на польську (BLEU 1,70). Можливо, використання дореволюційної орфографії могло б підвищити оцінку російської, але це був би дорогий експеримент з незначною очевидною користю.
Контрольна оцінка подібності транслітерованої стандартної польської мови BLEU 1,70 вказує на менше втручання домінуючої мови в Польщі, ніж можна було б очікувати. Було б цікаво переробити експеримент, де б застосовувалися кілька обчислювально недорогих і очевидних звукових відповідностей (наприклад, деназалізація *ę до /ja/ та *ǫ до /u/, ретракція *i до /y/ та зміна *g на /h/ [23]) до польської мови, щоб побачити, чи отримає вона тоді вищу оцінку, ніж стандартна українська.
Підсумовуючи, лемківська мова була синтезована в лабораторії, і можливість її створення передана в руки як нових, так і рідних мовців. Після ретельного оновлення системи та розширення глосарію наступним кроком є об’єктивне вимірювання та, якщо можливо, суб’єктивна оцінка мовцями якості синтетичної лемківської мови порівняно з тією, що створюється носіями мови. День, коли нові мовці малоресурсних мов зможуть використовувати машинний переклад, щоб почати спілкуватися своєю мовою за одну ніч, стає ближчим, як і день, коли лемківська мова приєднається до рангу тих, що раніше були під загрозою зникнення, але тепер відроджені.
Подяки. Я хотів би подякувати моєму колезі Мінгу Цяню з Peraton Labs за те, що надихнув мене провести цей експеримент, а також Браяну Стенсруду з Soar Technology, Inc. за те, що познайомив нас, а також за його підтримку.
Я також хотів би подякувати моїй подрузі Коринні Коділ за її підтримку та особистий інтерес до проекту, а також за знайомство з президентом Карпато-русинського товариства Мар’янн Сівак з Університету Піттсбурга, якій я хотів би подякувати за можливість представити мою роботу.
Я також хотів би подякувати Марії Сільвестрі з Фонду Джона та Гелен Тімо за проведення інтерв’ю з носіями лемківської мови та передачу транскриптів та моїх перекладів для досліджень та розробок.
Я хотів би подякувати Ахіму Рабусу з Університету Фрайбурга та Іву Шерреру з Університету Гельсінкі за їхній інтерес до проекту та ідеї.
Я також хотів би подякувати Михалю Лижечку з блогу про технології для мов меншин InterFyisa за його ранній інтерес до проекту та роботу з громадою.
Я також хотів би подякувати земляку із Загочев’я Марку Лишику за його інтерес до проекту та роботу з громадою.
Нарешті, я хотів би подякувати моєму співавтору та колезі з Antech Systems Inc. Тому Добрі за його підтримку та керівництво.
Список літератури
1. ^ Греддол, Д.: Майбутнє мови. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: Languages of the World, SIL International. Twenty-fourth edition. SIL International, Dallas (2021). Онлайн-версія: How many languages are endangered?, https://www.ethnologue.com/guides/how-many-languages-endangered, останній доступ 2022/02/11.
3. ^ ISO 639 Code Tables, https://iso639-3.sil.org/code_tables/639/data, останній доступ 2022/02/11.
4. ^ Language support, https://cloud.google.com/translate/docs/languages, останній доступ 2022/02/11.
5. ^ Select language, https://m.facebook.com/language.php, останній доступ 2022/02/11.
6. ^ ^ Оринич, P., Dobry, T., Jackson, A., & Litzenberg, K.: Yes I Speak… AI Neural Machine Translation in Multi-Lingual Training. У: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, Paper no. 21176. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. У: Olko, J., Wicherkiewicz, T., Borges, R. (ред.), Integral Strategies for Language Revitalization, с. 175–200. Перше видання. Faculty of “Artes Liberales”, University of Warsaw, Warsaw (2016).
8. ^ Scherrer, Y., Rabus, A.: Neural morphosyntactic tagging for Rusyn. У: Mitkov, R., Tait, J., Boguraev, B. (ред.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
9. ^ Reservations and Declarations for Treaty No.148 – European Charter for Regional or Minority Languages (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, останній доступ 2022/02/11.
10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, останній доступ 2022/02/11.
11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, останній доступ 2022/02/11.
12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, останній доступ 2022/02/11.
13. ^ Ванько, Й.: Мова русинів Словаччини. East European Monographs, Нью-Йорк (2000).
14. ^ Форстон, Б., IV: Індоєвропейська мова та культура. Blackwell Publishing, Оксфорд (2004).
15. ^ ^ Покорний, Й.: Індогерманський етимологічний словник, Берн, 1959.
16. ^ Горощак, Й.: Лемківсько-польський, польсько-лемківський словник. Rutenika, Варшава (2004).
17. ^ ^ ^ ^ Фасмер, М. Російський етимологічний словник. Другий том. Carl Winter, Universitätsverlag, Гейдельберг (1955).
18. ^ Моньє-Вільямс, М.: Санскритсько-англійський словник, етимологічно та філологічно впорядкований з особливим посиланням на споріднені індоєвропейські мови, The Clarendon Press, Оксфорд (1899).
19. ^ Derksen, R.: Etymological Dictionary of the Slavic Inherited Lexicon. У: Lubotsky, A. (ред.) Leiden Indo-European Etymological Dictionary Series, т. 4, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: A Call for Clarity in Reporting BLEU Scores. У: Proceedings of the Third Conference on Machine Translation (WMT), т. 1, с. 186–191. Association for Computational Linguistics, Brussels (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. У: Proceedings of the Ninth Workshop on Statistical Machine Translation, с. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. У: Dziennik Ustaw Nr 102, с. 6560–6573. Rządowe Centrum Legislacji, Warsaw (2005).
23. ^ Shevelov, G.: On the Chronology of H and the New G in Ukrainian. У: Harvard Ukrainian Studies, т. 1, № 2, с. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

Залишити відповідь