Прошу цитувати як:
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. У: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
✅ Цю версію роботи було прийнято до публікації після рецензування, але це не є остаточною версією і не відображає покращень після прийняття чи будь-яких виправлень. Остаточна версія доступна онлайн за цим посиланням. Використання цієї прийнятої версії підлягає умовам використання прийнятого рукопису видавця.
Анотація
Швидко поширюване та спільно використовуване навчання між партнерами по коаліції потребує лінгвістичної та культурної адаптації (тобто локалізації) до мов неангломовних союзників, які представляють акторів на передовій з обмеженим або потенційно відсутнім знанням англійської мови. Традиційно локалізація була трудомістким процесом, що вимагав понад два місяці роботи експерта для перекладу книги середнього розміру. Тим часом, навчальні вправи мають відповідати загальним термінам розробки в днях і тижнях, а не місяцях і роках, щоб реагувати на реалії операційного світу, що розвиваються. У цьому контексті традиційна локалізація стає головним вузьким місцем для коаліційних зусиль. У ситуаціях, що швидко розгортаються, союзники просто не можуть чекати місяці й роки на навчання, яке потрібне сьогодні ввечері або для виконання місії наступного тижня мовами, які легко зрозумілі на передовій — тобто, щоб реалізувати давно омріяну мрію про локально адаптоване навчання для задоволення потреб безпосередньо на місцях.
Тут з’являється новітня технологія штучного інтелекту — нейронний машинний переклад, який може за лічені хвилини зробити те, що досвідченим органічним лінгвістам займає годину, роблячи можливим багатомовне розгортання в масштабах коаліції за дні та тижні, з урахуванням все більшої складності. Це стало можливим завдяки машинному навчанню, тобто навчанню штучних рекурентних нейронних мереж перекладати з однієї природної мови на іншу.
Ми створили двигуни на основі штучного інтелекту, виміряли час їхнього перекладу навчальних матеріалів НАТО та оцінили їхню точність за допомогою метрики двомовної оцінки (BLEU). Наш двигун перекладав з російської на 1169,51% швидше та на 58,37% точніше, ніж наш професійний людський лінгвіст, який використовувався як контроль. Наш польський нейронний двигун був на 17,29% точнішим і на 488,45% швидшим за людину. Наші двигуни перекладу лемківською мовою є першими у світі і отримали пристойний показник BLEU 14,57. Тим часом ми зробили все вищезазначене на недорогому ноутбуці в ізольованому, контрольованому середовищі, відрізаному від зовнішнього світу.
Зміст
Вступ
Проблема
Онлайн-сервіси перекладу працюють, доки не виникає потреба перекладати таємно або з мови, яка не входить до 2% найбільш ресурсних. Використання навіть найбезпечніших онлайн- або хмарних сервісів перекладу означає обмін інформацією з третьою стороною, що порушує більшість комерційних угод про нерозголошення, не кажучи вже про вимоги оборонної промисловості. Далі, провідна онлайн-платформа перекладу працює лише для 109 мов (Google, 2021), що становить менше 2% від 7139 мов, якими розмовляють у світі сьогодні (Eberhard, Simons, & Fennig, 2021). Зіткнувшись із властивим ризиком третьої сторони від постачальників хмарних послуг, багато хто звертається до перевірених людських лінгвістів, які в кращому випадку можуть обробити книгу за місяць, а в гіршому — становлять довічну загрозу несанкціонованого розголошення. Щоб надати багатомовним підприємствам та організаціям більше варіантів, ми поставили собі за мету вирішити проблему використання штучного інтелекту для швидкого, точного та прихованого перекладу матеріалів з мов з високим, середнім та низьким рівнем ресурсів на ізольованих, недорогих, середнього класу ноутбуках, відключених від інтернету та зовнішнього світу.
Рішення донині
Хоча основи машинного перекладу були закладені в Багдаді аль-Кінді понад тисячоліття тому (DuPont, 2018; див. також al-Kindī, 2002), майже весь вражаючий, видимий прогрес відбувся в Кремнієвій долині за останні п’ять років. Головний прорив стався в Google (Lewis-Kraus, 2016), а Facebook тепер приєднався до клубу нейронного машинного перекладу (Ott, et al., 2019). Ми спиралися на роботу їхнього двигуна FAIRseq, для якого Славомір Дадас зробив доступною чудову польсько-англійську модель (Dadas, 2019). Ми розвинули роботу пана Дадаса, щоб створити гібридні нейронні/на основі правил/на основі словників двигуни, які перекладають з лемківської на англійську і навпаки. Ідея застосування трансферного навчання для обробки природної мови (NLP) русинської мови обговорювалася з нашими шановними колегами Івом Шеррером та Ахімом Рабусом, які першими опублікували результати в рецензованому журналі і люб’язно скористалися можливістю згадати гібридний нейронний/на основі правил двигун машинного перекладу лемківської мови Петра Оринича (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), який працює і вільно доступний для публічного використання за веб-адресою www.lemkotran.com з березня 2019 року, а його модуль обробки природної мови для транслітерації став доступним для публічного використання там у вересні 2017 року.
Ширша система
Мови з високим, середнім та низьким рівнем ресурсів
Мовні пари класифікуються в науковій літературі як високоресурсні, середньоресурсні та низькоресурсні, залежно від кількості доступних технологій та наборів даних відносно їх міжнародного значення (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). До високоресурсних пар належать чесько-англійська (Kocmi, 2020, p. 171), російсько-англійська, німецько-англійська (Ng, et al., 2019, p. 314) та китайсько-англійська (Kocmi & Bojar, 2019, pp. 234–235). Польсько-англійська є середньоресурсною парою (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). До низькоресурсних пар належать гуджараті-англійська, казахсько-англійська (Kocmi & Bojar, p. 234), інуктитут-англійська (Kocmi, p. 171) та лемківсько-англійська (Scherrer & Rabus, 2019, p. 85). Оскільки навчання моделей штучного інтелекту для мов вимагає величезних обсягів двомовних даних, для мов з вищим рівнем ресурсів зазвичай доступні двигуни нейронного машинного перекладу. Тим часом, через відсутність даних для машинного навчання, нейронні двигуни рідше зустрічаються для мов з нижчим рівнем ресурсів, які часто краще обслуговуються двигунами попереднього покоління статистичного машинного перекладу (SMT).
Високоресурсна мова в експерименті: російська
Російською мовою як першою розмовляють понад 168 мільйонів, а як додатковою — ще 114 мільйонів (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Автоматизація її перекладу на англійську була святим Граалем післявоєнних зусиль у машинному перекладі. Як одна з офіційних мов Організації Об’єднаних Націй, величезні обсяги двомовного російсько-англійського тексту доступні за ліберальною ліцензією (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).
Середньоресурсна мова в експерименті: польська
Польська — це західнослов’янська мова, якою розмовляють близько 38 мільйонів людей у сучасній Польщі, і ця кількість, як очікується, зменшиться частково через пандемію, що триває на момент публікації (Associated Press, 2021). Ще 10 мільйонів у певній мірі розмовляють польською за межами країни (Jassem, 2003, p. 103). Як одна з офіційних мов Європейського Союзу, великі обсяги двомовного тексту доступні для навчання моделей штучного інтелекту для перекладу, включаючи 22 630 документів Європейського парламенту (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).
Низькоресурсна мова в експерименті: лемківська
Лемківська мова є малоресурсною мовою (Scherrer & Rabus, 2019, с. 85), яка відповідає традиційним критеріям класифікації як східнослов’янська. Наприклад, лемківська демонструє східнослов’янське повноголосся, тобто результат праслов’янських послідовностей «ToRT» є ToRoT (Fortson IV, 2004, с. 371-372), як у лемківському horodyty ‘огороджувати, обгороджувати’ (Horoszczak, 2004, с. 45), а також у стандартній українській городити, русинській городити та російській городить (Kerča, 2007, с. 176). Тим часом порівняйте польську (західнослов’янську мову) з -ro- в grodzić, але хорватську (південнослов’янську мову) з -ra- в graditi, ‘будувати’. Далі, в англійській мові є -ar- у словах yard та garden, в авестійській (давньоіранській) -ǝrǝ- у gǝrǝδō ‘печера’, а в санскриті (давньоіндійській) -ṛ- у gṛhás ‘дім’ (Vasmer, с. 1443).
Хоча точна класифікація лемківської мови та її статус відносно стандартної української та кодифікованої русинської є предметом суперечок (Rabus & Scherrer, 2017), високі показники нашого лемківсько-англійського двигуна без використання ресурсів стандартної української чи русинської, кодифікованої в Словаччині, можуть підтримати висновок Ватраля (2015) про те, що лемківська є повноцінною мовою сама по собі, а не діалектом будь-якої іншої мови. Підбадьорені зростанням об’єктивних показників якості, ми вирішили надати пріоритет трансферному навчанню з польської мови через її безпосередню віддачу з точки зору точності перекладу лемківською, що є нашою найвищою цінністю. Можливо, показники якості були підвищені через вплив спостережуваної гібридної мови, де лемківські граматичні закінчення приєднуються до стандартних польських слів (Watral, 2016, с. 242).
Бюро перепису населення Польщі нарахувало 6 279 осіб, які розмовляють лемківською вдома у 2011 році, що більше, ніж 5 605 у 2002 році (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, с. 7), і на момент публікації проводився новий підрахунок. Скільки з 24 539 жителів Польщі, які були зараховані як такі, що розмовляють українською вдома, або 626, які розмовляють «русинською» (język ruski) з іншими членами домогосподарства у 2011 році (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, с. 7), можуть бути носіями лемківської, виходить за рамки цієї статті. Державна служба статистики України нарахувала 672 лемків у межах своїх кордонів (Державна служба статистики України, 2001). За шкалою зникнення мов ООН від 0 до 5, де 0 означає вимерлу, а 5 – «безпечну» (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, с. 7-8), лемківська наближається до 2, тобто серйозно загрожена: природна міжпоколінна передача мови все більше відсутня, і молодших носіїв стає все менше (Duć-Fajfer, 2016, с. 178). Однак є паростки надії, оскільки закони, що захищають і сприяють використанню мов меншин в освіті, мовленні, видавництві, дорожніх знаках і науці, все частіше використовуються (Duć-Fajfer, 2016, с. 178-179).
Ситуація з ресурсами також покращується. Петро Оринич склав і вирівняв двомовний лемківсько-англійський корпус, що містить 68 599 вихідних слів разом з його перекладами англійською мовою (єдиний існуючий паралельний текст, про який нам відомо). Корпус був складений з використанням інтерв’ю, проведених лемківською мовою Фондом Джона і Гелен Тімо зі Сполучених Штатів, які доручили пану Ориничу їх транскрибувати та перекласти, а також дозволили йому використовувати цю роботу в його наукових дослідженнях і розробках. Він також збирає одномовний лемківський корпус обсягом понад мільйон слів. Хоча складні соціолінгвістичні відносини між лемківською, русинською, стандартною українською та словацькою мовними спільнотами виходять за рамки цієї статті, саме польські ресурси (зокрема, польські нейронні моделі) були інструментальними для гібридних лемківських двигунів пана Оринича.
Гіпотези та прогнози
Швидкість перекладу
Гіпотеза: ізольований штучний інтелект для машинного перекладу тепер такий же швидкий, як і люди
Ми висунули гіпотезу, що нейронні двигуни машинного перекладу, які працюють офлайн на ноутбуках середнього класу, тепер мають порівнянну швидкість з людськими перекладачами. Це базувалося на спостереженнях під час розробки двигуна, що нейронний машинний переклад, здавалося, займав від кількох секунд до менше хвилини для перекладу речення на ноутбуці середнього класу, що порівнянно з людською швидкістю, яку спостерігав Петро Оринич у своєму досвіді в індустрії локалізації.
Прогноз: двигуни машинного перекладу оброблятимуть більше слів за годину, ніж людські перекладачі
На основі нашої гіпотези про те, що ізольовані нейронні двигуни машинного перекладу, які працюють офлайн на ноутбуках середнього класу, будуть такими ж швидкими, як люди, ми передбачили, що їхня швидкість перевищить швидкість людських лінгвістів, і що вони перекладатимуть більше слів за секунду, ніж наш людський контрольний суб’єкт.
Точність перекладу
Гіпотеза: двигуни машинного перекладу на основі штучного інтелекту тепер майже такі ж точні, як і людські перекладачі
Ми висунули гіпотезу, що нейронні двигуни машинного перекладу тепер майже такі ж точні, як і людські перекладачі. Це базувалося на професійному спостереженні Петра Оринича як спеціаліста з контролю якості перекладу, що комерційні хмарні сервіси нейронного машинного перекладу не лише значно покращилися, але й часто виробляють результати, які неможливо відрізнити від результатів людських лінгвістів.
Прогноз: двигуни машинного перекладу на основі штучного інтелекту досягнуть щонайменше 75% оцінки якості BLEU професійних людських перекладачів
Хоча ми знали, що нейронні двигуни машинного перекладу могли бути кращими за двомовних аматорів, які вперше пробують свої сили в перекладі, ми не вірили, що наші двигуни переможуть досвідчених професійних лінгвістів у прямому змаганні. На щастя, наш сумнів можна було перевірити. Алгоритм двомовної оцінки (BLEU) є найбільш домінуючою метрикою для досліджень машинного перекладу, будучи незалежним від мови, дешевим і легким у обчисленні, а також розумно корелюючим з людськими судженнями (Post, 2018). Ми передбачили, що наші нейронні двигуни наберуть 75% балів якості, набраних людським лінгвістом. Наприклад, якщо людський лінгвіст набрав 40 балів, нейронний машинний переклад набере 30. Тим часом, ми передбачили, що наш гібридний лемківсько-англійський двигун досягне сукупної оцінки BLEU 15.
Безпека перекладу
Гіпотеза: машинний переклад на основі штучного інтелекту можна виконувати офлайн на ноутбуках у польових умовах високої безпеки
Ми висунули гіпотезу, що нейронний машинний переклад можна виконувати офлайн на ізольованому, портативному обладнанні, повністю відключеному від зовнішнього світу. Це базувалося на спостереженні, що всі компоненти нашого рішення не робили жодних викликів до інтернету після встановлення залежностей. Неявне припущення полягає в тому, що ізольовані системи перекладу з увімкненим Режимом польоту не можуть бути віддалено відстежені або зламані. Інше припущення полягає в тому, що не тільки оператори були належним чином перевірені, вони вжили відповідних заходів проти зовнішніх та внутрішніх загроз. Ще одне неявне припущення полягає в тому, що легше захистити лише одну мобільну робочу станцію протягом кількох годин, ніж запобігти несанкціонованому розголошенню інформації людськими лінгвістами, які в середньому заробляють 25,01 доларів США на годину (Bureau of Labor Statistics, United States Department of Labor, 2021) протягом усього життя, особливо з огляду на повідомлення про арешти лінгвістів за підозрою в витоку секретів (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Прогноз: машинний переклад на основі штучного інтелекту буде успішним на ізольованому ноутбуці Lenovo Legion Y730-17ICH, що працює офлайн у Режимі польоту
Ми передбачили, що наша система перекладу не буде несправною і виконає свої завдання, коли буде фізично відокремлена та відключена від будь-яких мереж або пристроїв шляхом активації функції Режиму польоту Windows 10 Pro на ноутбуці Lenovo Legion Y730-17ICH (Тип 81HG).
Гібридний двигун на основі правил/словників та нейронний двигун лемківсько-англійського перекладу
Гіпотеза: гібридні словникові/правилові двигуни покращують точність машинного перекладу
Ми висунули гіпотезу, що наш польсько-лемківський двигун машинного перекладу на основі правил (RBMT), польсько-лемківський двигун машинного перекладу на основі словника (DBMT), лемківсько-польський двигун DBMT, запущений у зворотному напрямку, та нейронний польсько-англійський двигун можуть бути синергетично об’єднані в гібридний двигун, який досягає вищих показників якості з кожною додатковою частиною. Ця гіпотеза базувалася на спостереженнях автора, який працював професійним лемківсько-англійським перекладачем, що відповідності між лемківською та польською мовами були достатньо частими, щоб зробити гібридний двигун життєздатною пропозицією.
Прогноз: кожен підмодуль, доданий до нашого гібридного лемківсько-англійського двигуна, збільшить показник BLEU на 5 пунктів
Ми прогнозували, що для кожного підмодуля на основі правил або словника лемківсько-польської мови, який ми додали до нашого гібридного лемківсько-англійського двигуна, загальний показник точності BLEU збільшиться на 5 пунктів.
Вступ до методів та обґрунтування
Ми протиставили людину машині, надавши обом ноутбук середнього класу без доступу до мережі, на якому працювала наша спеціальна програма комп’ютерного перекладу (детально описана нижче) в автономному режимі Windows. Ми записали швидкість і точність перекладу з російської на англійську (мовна пара з великими ресурсами), з польської на англійську (пара з середніми ресурсами) та з лемківської на англійську (пара з низькими ресурсами). Для вираження швидкості ми використовували метрику слів на годину, оскільки вона є основною для менеджерів локалізаційних проектів, а також використовується в науковій літературі (Macken, Prou, & Tezcan, 2020, с. 4). Для вимірювання точності ми використовували метрику BLEU, оскільки вона є найпоширенішою в галузі досліджень і розробок (Post, 2018).
Основні результати коротко
Ми не лише змогли застосувати проривну технологію нейронного машинного перекладу для використання штучного інтелекту на ізольованому, офлайн ноутбуці в режимі «Літак» для перекладу мови з великими ресурсами (російської) більш ніж у 10 разів швидше, ніж наш контрольний суб’єкт-лінгвіст, але й показник якості нашої машини був на 58 відсотків «кращим за людський». Більше того, ми є першою командою у світі, яка опублікувала результати для лемківських машинних перекладачів у науковому журналі.
Матеріали та методи
Вступ
Щоб перевірити наші прогнози, ми створили ряд двигунів перекладу на основі штучного інтелекту та гібридних двигунів, обчислили їхню швидкість і точність на ізольованому ноутбуці в режимі «Літак» Windows, і зробили те саме з професійним лінгвістом, щоб зробити наш експеримент контрольованим.
Налаштування лабораторії
Апаратне забезпечення
Ми використовували ноутбук Lenovo Legion Y730-17ICH (Тип 81HG) з операційною системою Windows 10 Pro (64-біт). Модель знята з виробництва і продається за приблизно 850 доларів США у вживаному стані на момент публікації.
Операційна система
Віртуалізованою операційною системою, використаною для експерименту, була підсистема Linux для Windows, а саме Ubuntu 18.04 LTS, встановлена через платформу цифрової дистрибуції Microsoft Store.
Залежності
Python 3.8 було встановлено за допомогою команди sudo apt install python3.8.
Команда sudo python3.8 -m pip install –upgrade була використана для встановлення основних залежностей, включаючи bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision.
Інструментарії
Ми встановили інструментарій Facebook AI Research Sequence-to-Sequence, виконавши наступні команди:
sudo git clone https://github.com/pytorch/fairseq
cd fairseq
sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./
Документація та технічна підтримка доступні за адресою https://github.com/pytorch/fairseq
Моделі нейронного машинного перекладу
Для наших нейронних польсько-англійських та гібридних лемківсько-англійських двигунів ми використовували польсько-англійську згорткову модель Славоміра Дадаса, доступну та задокументовану в його репозиторії ресурсів для обробки польської природної мови (NLP) (Dadas, 2019).
Документація: https://github.com/sdadas/polish-nlp-resources#machine-translation-models
Для нашого російсько-англійського двигуна ми використали попередньо навчену одиночну трансформерну модель Facebook AI Research Sequence-to-Sequence (FAIRseq) для перекладу з російської на англійську без додаткового налаштування, яка була представлена на Четвертій конференції з машинного перекладу (WMT19) 2019 року.
Модель: https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
Документація: https://github.com/pytorch/fairseq/tree/master/examples/wmt19
Електронні словники
Нашому професійному лінгвісту було дозволено офлайн-доступ до електронних версій Нового американсько-англійського словника Фонду Костюшка для польської мови (12,99 доларів США), а також Оксфордського російського словника (19,99 доларів США). Обидва були придбані через Microsoft Store. Лемківсько-польський та польсько-лемківський словник Ярослава Горощака (2004) також був доступний нашому лінгвісту для офлайн-використання.
Контроль експерименту
Експеримент контролювався шляхом посадження професійного лінгвіста за ізольований ноутбук у режимі «Літак», з вищезгаданими електронними словниками, доступними на машині. Лінгвіст натискав клавішу Enter, після чого запускався таймер і відображалося вихідне речення для перекладу. Лінгвісту було дозволено вводити свій переклад у Microsoft Word (щоб скористатися функцією перевірки правопису та іншими засобами обробки тексту), а потім вставляти його в нашу спеціальну програму комп’ютерного перекладу. Після повторного натискання клавіші Enter, переклад людини подавався і таймер зупинявся. Швидкість людини-лінгвіста в словах на годину та точність у балах BLEU обчислювалися для кожного перекладеного речення.
Петро Оринич, який має двадцятирічний досвід роботи як російський та польський лінгвіст, польський університетський ступінь з російської мови та понад 5 років досвіду як професійний лемківсько-англійський перекладач, виступав у ролі контрольного суб’єкта. Він виконував зворотні переклади російських та польських матеріалів, перелічених нижче, а також повторні переклади з лемківської на англійську.
Матеріал експерименту: еталонні переклади
Російсько-англійський та польсько-англійський текст для експерименту був отриманий з освітніх матеріалів, наданих громадськості та перекладених з англійської на російську та польську видання NATO Review Організації Північноатлантичного договору (НАТО). Цитуючи, «Відтворення частин, уривків або статей NATO Review дозволено для некомерційних цілей за умови дотримання наступної умови: джерело, NATO Review, має бути вказане». Як це прийнято в стандартній практиці (Post, 2018), дані корпусу були очищені та нормалізовані шляхом приведення тексту до нижнього регістру та токенізації. Було вжито заходів для забезпечення вирівнювання вихідного тексту та цільових перекладів на рівні речень.
Для цього експерименту ми використали лекцію, прочитану доктором Джеймі Шеа, тодішнім заступником помічника генерального секретаря НАТО з питань нових викликів безпеці. Її назва – Чого ми можемо навчитися сьогодні у «Трьох мудреців»? Оригінальний англійський текст лекції доктора Шеа та його переклади на російську та польську мови, замовлені НАТО, були отримані з наступних уніфікованих локаторів ресурсів:
Англійський оригінал: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html
Російський переклад: https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.html
Польський переклад: https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.html
Лемківсько-англійський матеріал для експерименту складався з особистих інтерв’ю, записаних Фондом Джона і Гелен Тімо зі Сполучених Штатів, які найняли Петра Оринича для транскрибування інтерв’ю та їх перекладу англійською мовою. Пізніше фонд люб’язно передав отримані двомовні корпуси для наукових досліджень та розробок. Для захисту конфіденційності осіб, згаданих в інтерв’ю, та з поваги до Загального регламенту про захист даних Європейського Союзу (GDPR), матеріали не були оприлюднені. Перед наданням зразків вживаються заходи для редагування будь-якої особистої інформації, що дозволяє ідентифікацію (PII), та особистої медичної інформації (PHI).
Метод оцінки точності перекладу: BLEU
Метрика двомовної оцінки підлеглих (BLEU) використовувалася для вимірювання подібності до еталонного перекладу і, таким чином, хоч і недосконало, точності. Хоча оцінка BLEU не є ідеальним показником точності чи якості, вона є найбільш широко використовуваною в галузі (Post, 2018). Модуль Python був отриманий з пакету Python bleu, документація до якого доступна за наступним уніфікованим локатором ресурсів: https://pypi.org/project/bleu/
Ми переконалися, що при наданні рядків еталонних речень “it is a white cat .” та “wow , this dog is huge .” разом з кандидатами гіпотез “it is a white kitten .” та “wowww , the dog is huge !”, наша система обчислила сукупну оцінку BLEU 34,99, відповідно до документації пакету Python bleu.
Метод нормалізації та очищення тексту
Весь текст був приведений до нижнього регістру, і перед усіма розділовими знаками та після них був доданий пробіл, щоб система не вважала, наприклад, що «Cat» і «cat.» – це різні слова. Таким чином, «It is a white cat.» було нормалізовано до «it is a white cat .» Кілька пробілів та інші послідовності пробілів були замінені одним пробілом за допомогою методів Python split() та join().
Метод підрахунку слів
Кількість слів у реченні визначалася шляхом розділення нормалізованого текстового рядка на масив, використовуючи пробіл як роздільник, а потім підрахунку елементів у цьому масиві.
Метод вимірювання швидкості перекладу
У момент, коли перекладач-людина натискав клавішу Enter, щоб почати переклад речення, ми викликали метод Python time.time() для отримання кількості секунд з півночі за Координованим всесвітнім часом (UTC) 1 січня 1970 року як число з плаваючою комою, яке зазвичай називають Unix-часом, і використовували це число як час початку для людини. Ми також отримували Unix-час, коли наші машинні перекладачі брали речення для перекладу.
Момент, коли лінгвіст-людина натискав клавішу Enter для подання свого перекладу речення або машина повертала свій переклад речення, використовувався як час закінчення. Віднімаючи час початку від часу закінчення, ми отримували загальну кількість секунд, яку зайняв переклад речення.
Ми обчислювали кількість слів на годину, ділячи різницю між Unix-часом закінчення та початку на кількість слів, як обчислено вище, і множачи цей результат на 3600 (що дорівнює 60 × 60, тобто кількості секунд у годині):
Швидкість = (Час_закінчення_перекладу − Час_початку_перекладу) / Загальна_кількість_перекладених_слів × 3600
Метод фізичної ізоляції та відключення обладнання від мережі
Обладнання, що використовувалося в експерименті, було відключене від зовнішнього світу не лише за допомогою фізичної ізоляції, але й за допомогою функції «Режим польоту» Microsoft Windows 10 Pro, яка, згідно з документацією, вимикає всі бездротові комунікації на пристрої, включаючи бездротове мережеве з’єднання IEEE 802.11b Direct Sequence, стільниковий зв’язок, Bluetooth, систему глобального позиціонування та зв’язок ближнього поля.
Результати
Швидкість перекладу: чим більше ресурсів має мовна пара, тим швидше працює двигун
Машина перевершила людину за швидкістю перекладу для високоресурсної пари російська-англійська та середньоресурсної пари польська-англійська, що відповідає нашій гіпотезі про те, що нейронний машинний переклад був швидшим за людський, і прогнозу, що наші нейронні системи перекладатимуть більше слів за годину. При перекладі з російської наша система в середньому обробляла понад 6 456 слів на годину, що було на 1 170% швидше за нашого лінгвіста. При перекладі з польської наша нейронна система була на 488% швидша за нашого перекладача, обробляючи в середньому 3 768 слів на годину. Для низькоресурсної пари лемківська-англійська наша гібридна нейронна та словниково-правильна система обробляла 707 слів на годину, майже зрівнявшись з нашим лінгвістом, який був на 13% швидшим з показником 798 слів на годину. Видалення ваги словникового компонента гібридної системи майже вчетверо збільшило швидкість до 3 137 слів на годину, що на 293% швидше за людину, ціною 13% падіння точності.
| Мовна пара | Метод | Слів/годину |
|---|---|---|
| Російська–англійська | Професійний перекладач | 509 |
| Російська–англійська | Лише НМП | 6456 |
| Польська–англійська | Професійний перекладач | 640 |
| Польська–англійська | Лише НМП | 3768 |
| Лемківська–англійська | Професійний перекладач | 798 |
| Лемківська–англійська | Романізація + гібридний словниково-правильний МП лемківська→польська + НМП польська→англійська | 707 |
| Лемківська–англійська | Романізація + словниковий МП лемківська→польська + НМП польська→англійська | 752 |
| Лемківська–англійська | Романізація + правильний МП лемківська→польська + НМП польська→англійська | 3137 |
Точність перекладу: чим більше ресурсів має мовна пара, тим точніше працює двигун
Точність перекладу наших систем штучного інтелекту перевершила професійних лінгвістів. Це перевершило нашу гіпотезу про те, що ізольований нейронний машинний переклад тепер лише трохи менш точний, ніж людські перекладачі. Наша система штучного інтелекту для російсько-англійського перекладу досягла 158% точності нашого людського перекладача, перевищивши прогнозовані 75%. Наша польсько-англійська нейронна система досягла 117% точності нашого лінгвіста, перевищивши наше очікування в 75%. Наша гібридна лемківсько-англійська система досягла показника BLEU 14,57 (51% від показника нашого професійного перекладача), що відповідає нашому прогнозу 15 при округленні вгору. Видалення нашої правильної підсистеми призвело до 2% приросту точності та 6% збільшення швидкості. Видалення словникової підсистеми призвело до 13% падіння точності, але 344% збільшення швидкості. Підсумовуючи, наші системи штучного інтелекту для мов з середнім та високим ресурсом були значно точнішими за нашого лінгвіста, тоді як наші гібридні системи для мов з низьким ресурсом були приблизно вдвічі менш точними за нашого лінгвіста.
| Мовна пара | Метод | BLEU |
|---|---|---|
| Російська–англійська | Лише нейронний машинний переклад штучного інтелекту | 39,37 |
| Російська–англійська | Професійний людський переклад | 24,86 |
| Польська–англійська | Лише нейронний машинний переклад штучного інтелекту | 35,81 |
| Польська–англійська | Професійний людський переклад | 30,53 |
| Лемківська–англійська | Романізація + гібридний словниково-правильний МП лемківська→польська + нейронний переклад польська→англійська | 14,57 |
| Лемківська–англійська | Романізація + словниковий МП лемківська→польська + нейронний переклад польська→англійська | 14,8 |
| Лемківська–англійська | Романізація + правильний МП лемківська→польська + нейронний переклад польська→англійська | 12,64 |
| Лемківська–англійська | Професійний людський переклад | 28,66 |
Безпека перекладу
Відповідно до нашої гіпотези про те, що рішення нейронного машинного перекладу може бути розроблене для роботи на ізольованому ноутбуці, наш експеримент успішно це підтвердив. Згідно з нашим прогнозом, наш експеримент працював із увімкненим режимом польоту Windows, і відключення від зовнішнього світу не спричинило жодних помилок.
Машинний переклад на основі правил між лемківською та польською мовами
Наша гіпотеза про те, що спорідненість між лемківською та польською мовами достатньо сильна, щоб лемківську можна було перекладати польською за допомогою правильної та словникової заміни, була підтверджена вражаючою роботою нашої лемківсько-англійської нейронної/правильної гібридної системи. Наша гіпотеза про те, що поєднання правильної підсистеми зі словниковою призведе до точнішої гібридної системи, наразі не підтверджується нашими даними. Додавання словникового модуля до правильного збільшило показник BLEU системи на 2,16 пункти, що менше за наш прогноз у 5 пунктів.
Обговорення
Нова ера
Ми довели, що не лише можливо доручити штучному інтелекту інтелектуальну роботу з перекладу з мов з високим, середнім та низьким ресурсом у середовищі з контрольованим доступом, але й нейронний машинний переклад може виконувати роботу швидше, безпечніше та в багатьох випадках краще. Наші результати не лише підтвердили наші гіпотези, але й продуктивність наших нейронних систем перевершила наші прогнози. Настала нова ера майже миттєвого машинного перекладу, що діє незалежно або у партнерстві з людьми.
Швидкість
Наш двигун перекладав з російської зі швидкістю 6 456 слів на годину. Для порівняння, ми проконсультувалися з експертом Марком Хакелем, лінгвістом оборонної промисловості з Вашингтона, округ Колумбія, та перекладачем з російської на англійську з десятиліттями досвіду, який сказав нам, що «за правилом великого пальця, дуже досвідчений перекладач повинен вміти перекласти принаймні 8 сторінок (тобто 8 сторінок по 500 слів, загалом 4 000 слів) за 8-годинний робочий день, за умови відсутності перешкод, таких як абревіатури та подібні речі. Для багатьох середній показник насправді становить 250 слів на годину, а не 500». Отже, нейронні двигуни можуть за менше ніж годину зробити те, що людям потрібні дні.
Точність
Наші двигуни штучного інтелекту досягли вищих показників BLEU, ніж наш професійний лінгвіст. За цим показником наші машини «краще» перекладають з російської та польської мов, ніж люди.1 Оскільки припущення, що машинний переклад на основі штучного інтелекту може бути на 50% точнішим, ніж досвідчені лінгвісти, є революційним, цей експеримент потрібно повторити з більшою кількістю лінгвістів та корпусів текстів, щоб виключити випадковості. Ми використовували винятково чисті, складні тексти з квітчастою мовою, на яких машинний переклад традиційно спотикається, а люди досягають успіху. Хоча ми прагнули до рівних умов, ми очікували, що будь-яка перевага буде на боці людини. Будь ласка, зв’яжіться з Петром Ориничем за вказаною вище адресою для доступу до наших необроблених даних та результатів.
Наступні кроки
Ми використовували старіше, застаріле обладнання. Новіше обладнання з швидшими графічними процесорами наступного покоління може призвести до значного покращення швидкості перекладу. Наша кодова база повинна бути оптимізована для максимального використання наявних ресурсів, таких як графічні процесори (GPU). Ми плануємо перетворити наш модуль машинного перекладу на основі словників у тестовий набір для використання в розробці на основі тестів (TDD) нашого модуля машинного перекладу на основі правил (RBMT), який можна буде використовувати для розробки паралельних текстів для навчання чисто нейронних двигунів машинного перекладу лемківська-англійська та англійська-лемківська. Потрібні додаткові дослідження для визначення точок зменшення віддачі. Петро Оринич планує застосувати свої гібридні нейронні системи та системи на основі правил для розробки двигунів перекладу для русинських та українських діалектів, корінних для сучасної Словаччини та України.
На завершення
Ми перебуваємо на світанку нової трансформаційної ери: ми довели, що штучний інтелект може виконувати інтелектуальну роботу так само добре, як люди, або в дедалі більшій кількості випадків на 50% краще, і за частку часу та майже без ризиків для безпеки. Достатньо обладнання вартістю кілька сотень доларів, яке поміщається в рюкзак, щоб завжди мати кращого за людину кремнієвого помічника-лінгвіста, який ніколи не розголошує секретів і не втомлюється. Джин випущений з пляшки і може здійснити наше бажання відродити мови, що зникають, якщо не мрію про воскресіння вимерлих. Масове вимирання мов, посеред якого ми перебуваємо, може зупинитися і навіть повернутися назад. Ми повинні бути обережні з нашими бажаннями — світи, ізольовані протягом століть своїм шифруванням у дорогих для перекладу мовах, готові зіткнутися. Зміна на краще, сподіваємося. Proščaj, мовний бар’єр. Привіт, новий світе.
Примітки
^ 1 Історично деякі спільноти виступають проти використання BLEU для порівняння людського та машинного перекладу, проте жодна інша система не є настільки широко прийнятою чи доступною з широкою, рецензованою валідацією у використанні. Фактично, винахідники оцінки BLEU Папінені, Рукос, Вард і Чжу передбачили саме цю точку напруги в роботі, спонсорованій Міністерством оборони США (фінансованій Агентством передових оборонних дослідницьких проектів [DARPA] та під наглядом Космічного та морського бойового командування систем [SPAWAR]) як частину їхньої основоположної публікації, написавши: «Крім того, вона [метрика] повинна розрізняти два людські переклади різної якості. Ця остання вимога забезпечує постійну дійсність метрики, оскільки MT [машинний переклад] наближається до якості людського перекладу». Порушуючи табу з самого початку, вони потім перейшли до обчислення оцінок BLEU для «Людини-1», що не є носієм ні китайської, ні англійської мови, та «Людини-2», носія англійської мови, і показали, як їхні оцінки BLEU тісно корелювали з оцінками, наданими людьми-суддями (Папінені, Рукос, Вард і Чжу, 2002).
Подяки
Ми хотіли б подякувати нашому консультанту, Тіму Квіраму, заступнику начальника Навчального відділу Командування готовності сил Берегової охорони США, за його заохочення продовжувати, раді директорів Antech Systems, Inc. та команді ePerformance Вебстерського віддаленого поля Центру авіаційної війни ВМС (NAWCAD WOLF), за створення середовища, де ми можемо переслідувати наші пристрасті, нашому виконавчому віце-президенту дивізіону Тому Добрі за його неоціненне керівництво, здоровий глузд та візіонерське лідерство, а також нашому керівнику команди Віллу Даффу за те, що змушував нас наполегливо працювати, виховував дух товариськості та моральну підтримку. Петро Оринич хотів би подякувати своїм менеджерам проектів зі штучного інтелекту Раффаеле Паскале та Міхалу Брнушаку з постачальника мовних послуг Silicon Valley Venga Global Inc., за їхній професіоналізм, щиру турботу про команду та непохитну відданість правильному виконанню роботи. Пан Оринич також хотів би подякувати своїм колегам-інженерам, колегам та старим друзям Майклу Лоуренсу Крамеру з BCT LLC та Майклу Десербо з Raytheon BBN Technologies за те, що вірили з самого початку. Також він хотів би подякувати своєму другу та колезі-обчислювальному лінгвісту Йоуні Пююсало, доктору філософії з Гельсінського університету за здійснення мрій. Нарешті, він хотів би подякувати Марії Сільвестрі з Фонду Джона та Гелен Тімо за її пожертву на наукові дослідження та розробки лемківських інтерв’ю, які вона провела, та переклади, які вона найняла його виконати, а також своїй дорогій подрузі Олені Дуць з Руської Бурси за її неоціненні переклади та транскрипції інтерв’ю.
Список літератури
аль-Кінді, Я. і. (2002). Відредагований трактат аль-Кінді. У M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (Ред.), Трактат аль-Кінді про криптоаналіз (т. 1) (S. M. al-Asaad, Перекл., т. 1, с. 117-204). Дамаск, Сирія: KFCRIS & KACST. (Оригінальна робота опублікована бл. 850).
Associated Press. (2021, 26 січня). Населення Польщі швидко скорочується під час пандемії. Отримано 19 червня 2021 з AP NEWS: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e
Бюро статистики праці, Міністерство праці США. (2021). Довідник з професійних перспектив, Перекладачі усні та письмові. Вашингтон, округ Колумбія. Отримано 1 червня 2021 з https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Критерії відбору для програм мов з обмеженими ресурсами. Матеріали Десятої міжнародної конференції з мовних ресурсів та оцінки (LREC’16) (с. 4543–4549). Порторож, Словенія: Європейська асоціація мовних ресурсів (ELRA). Отримано 27 червня 2021 з https://www.aclweb.org/anthology/L16-1720
Dadas, S. (2019). Репозиторій ресурсів NLP польської мови. Отримано 26 травня 2021 з https://github.com/sdadas/polish-nlp-resources/
Департамент релігійних конфесій та національних і етнічних меншин. (2013). IV Звіт про ситуацію національних та етнічних меншин та регіональної мови в Республіці Польща – 2013. Варшава, Польща: Міністерство внутрішніх справ та адміністрації. Отримано 13 червня 2021 з http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Відділ зв’язків з громадськістю Міністерства юстиції. (2009, 17 грудня). Колишній контрактний лінгвіст ФБР визнав себе винним у витоку секретної інформації блогеру. Отримано 9 червня 2021 з Міністерства юстиції США: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger
Відділ зв’язків з громадськістю Міністерства юстиції. (2018, 23 серпня). Підрядник федерального уряду засуджений за вилучення та передачу секретних матеріалів новинному виданню. Отримано 9 червня 2021 з Міністерства юстиції США: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news
Відділ зв’язків з громадськістю Міністерства юстиції. (2020, 17 серпня). Колишній офіцер ЦРУ заарештований і звинувачений у шпигунстві. Отримано 9 червня 2021 з Міністерства юстиції США: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage
Державна служба статистики України. (2001). Чисельність осіб окремих етнографічних груп українського етносу та їх рідна мова. Отримано 26 серпня 2021 з Всеукраїнський перепис населення 2001: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1
Duć-Fajfer, O. (2016). Література і процес розвитку та ревіталізації мовної ідентичності на прикладі лемківської літератури. У J. Olko, T. Wicherkiewicz, & R. Borges (Ред.), Інтегральні стратегії ревіталізації мов (с. 177-178). Варшава, Польща: Факультет «Artes Liberales», Варшавський університет. Отримано з http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177
DuPont, Q. (2018, травень). Криптологічні витоки машинного перекладу, від аль-Кінді до Вівера. (C. Mitchell, & R. Raley, Ред.) amodern(8), 1-20. Отримано 22 травня 2021 з http://amodern.net/article/cryptological-origins-machine-translation/
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Скільки мов існує у світі? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, Ред.) Отримано 13 червня 2021 з Ethnologue: Languages of the World: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Індоєвропейська мова та культура. Малден, Массачусетс, США: Blackwell Publishing.
Google. (2021, 8 червня). Підтримка мов | Cloud Translation. Отримано 13 червня 2021 з Google Cloud: https://cloud.google.com/translate/docs/languages
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Цифровий корпус Європейського парламенту. Конференція з мовних ресурсів та оцінки (LREC 2014), (с. 3164-3171). Рейк’явік, Ісландія. Отримано 19 червня 2021 з http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Horoszczak, J. (2004). Словник лемківсько-польський, польсько-лемківський. Варшава, Польща: Фундація підтримки лемківської меншини Рутеніка.
Jassem, W. (2003, червень). Польська. Журнал Міжнародної фонетичної асоціації, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Експерименти з різними моделями машинного перекладу в умовах середніх ресурсів. У P. Sojka, I. Kopeček, K. Pala, & A. Horák (Ред.), Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science. 12284, с. 2. Springer, Чаме. doi:10.1007/978-3-030-58323-1_10
Керча, І. (2007). Словник русинсько-руський (т. 1). Ужгород, Україна: PolyPrynt.
Kocmi, T. (2020). Подання CUNI для інуктитутської мови в WMT News 2020. Матеріали 5-ї конференції з машинного перекладу (WMT), (с. 171–174). Асоціація комп’ютерної лінгвістики. Отримано 19 червня 2021 з https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). Подання CUNI для мов з обмеженими ресурсами в WMT News 2019. Матеріали Четвертої конференції з машинного перекладу (WMT). Том 2: Матеріали спільного завдання (День 1), с. 234–240. Флоренція, Італія: Асоціація комп’ютерної лінгвістики. Отримано 13 червня 2021 з https://www.aclweb.org/anthology/W19-5322.pdf
Lewis-Kraus, G. (2016, 14 грудня). Велике пробудження штучного інтелекту (Going Neural).
Macken, L., Prou, D., & Tezcan, A. (2020, 23 квітня). Кількісна оцінка впливу машинного перекладу в процесі виробництва високоякісного людського перекладу. Informatics, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). Російськомовні в країнах СНД: міграційна активність та збереження російської мови. У P. Vladimirovich (Ред.), Міжнародна наукова конференція 2018 «Інвестиції, будівництво, нерухомість: нові технології та пріоритети спеціального призначення» (ICRE 2018), 212. Іркутськ, Росія. doi:10.1051/matecconf/201821210005
Microsoft. (н.д.). Увімкнення або вимкнення режиму «У літаку». Отримано 9 червня 2021 з Microsoft: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1
NATO Review. (н.д.). Про нас. Отримано 9 червня 2021 з Організації Північноатлантичного договору: https://www.nato.int/docu/review/about.html
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019, серпень). Подання Facebook FAIR для завдання перекладу новин WMT19. Матеріали Четвертої конференції з машинного перекладу (Том 2: Матеріали спільного завдання, День 1), 314-319. Флоренція, Італія: Асоціація комп’ютерної лінгвістики. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Швидкий, розширюваний інструментарій для моделювання послідовностей. Матеріали NAACL-HLT 2019: Демонстрації. Матеріали конференції 2019 року Північноамериканського відділення Асоціації комп’ютерної лінгвістики (Демонстрації), с. 48-53. Міннеаполіс, Міннесота: Асоціація комп’ютерної лінгвістики. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: метод автоматичної оцінки машинного перекладу. Матеріали 40-ї щорічної зустрічі Асоціації комп’ютерної лінгвістики (с. 311-318). Філадельфія, Пенсільванія: Щорічна зустріч Асоціації комп’ютерної лінгвістики.
Post, M. (2018, 12 вересня). Заклик до чіткості у звітності показників BLEU. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Індукція лексикону для розмовної русинської мови – виклики та результати. Матеріали 6-го семінару з балто-слов’янської обробки природної мови, (с. 27-32). Валенсія, Іспанія.
Scherrer, Y., & Rabus, A. (2017). Багатоджерельне морфосинтаксичне тегування для розмовної русинської мови. Матеріали Четвертого семінару з NLP для подібних мов, варіантів та діалектів (с. 84-92). Валенсія, Іспанія: Асоціація комп’ютерної лінгвістики. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019, вересень). Нейронне морфосинтаксичне тегування для русинської мови. (R. Mitkov, Ред.) Natural Language Engineering, 25(5), с. 633-650. doi:10.1017/S1351324919000287
Shea, J. (2016, 5 грудня). Чого ми можемо навчитися сьогодні у «трьох мудреців»? NATO Review. Отримано 26 травня 2021 з https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html
Спеціальна експертна група ЮНЕСКО з мов, що перебувають під загрозою зникнення. (2003). Життєздатність мов та загроза зникнення. Міжнародна експертна зустріч щодо програми ЮНЕСКО із захисту мов, що перебувають під загрозою зникнення. Париж: ЮНЕСКО. Отримано 19 червня 2021 з http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf
Фасмер, М. Ю. (н.д.). Етимологічний словник російської мови. (О. Н. Трубачов, Перекл.) Москва: АСТ (Оригінальна робота опублікована 1950).
Watral, M. (2015, лютий). Ревіталізація лемків. Znak(717), 38-44. Отримано 24 серпня 2021 з https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/
Watral, M. (2016). Ставлення до лемківської мови – модель та її реалізація. У J. Olko, T. Wicherkiewicz, & R. Borges (ред.), Інтегральні стратегії відродження мов (стор. 221-260). Варшава, Польща: Факультет «Artes Liberales», Варшавський університет. Отримано 24 серпня 2021 року з http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). The United Nations Parallel Corpus v1.0. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), (pp. 3530–3534). Portorož, Slovenia. Отримано з https://www.aclweb.org/anthology/L16-1561
Залишити відповідь