Анотація
Коли втрачаються мови меншин та місцеві мови, страждає національна безпека: не лише часто документуються значні збільшення випадків суїциду, депресії, діабету, нападів та зловживання речовинами, але створюється порожнеча, яку історично використовували противники. Наприклад, мільйони представників мовних меншин неісторично приймають російську мову та/або ідентичність як свою власну в Україні, Білорусі, країнах-союзниках НАТО і навіть у Сполучених Штатах. Якщо прогалини в спілкуванні рідною мовою залишаються лише в руках противників, які мають тривалий досвід роботи з цими мовами, НАТО залишається в значному невигідному становищі при спробі взаємодії з цими спільнотами. У Європі психічні рани, завдані частково втратою мови, не були загоєні асиміляцією. Натомість міста переживають спалахи ізолюючої напруженості на Заході, а східне населення переконують ворожі сили, що саме вони є їхніми справжніми союзниками, які розуміють і поважають їх. Освіта офіційною мовою також не є панацеєю: у випадку України (і навіть Іспанії) нетривіальні відмінності між місцевими діалектами та офіційною мовою створюють можливості для противників роздмухувати полум’я сепаратизму.
Використання систем машинного перекладу для посилення НАТО та його партнерів у навчанні новобранців або діяльності на місцях мовою, найближчою до їхніх сердець і розуму, може забезпечити негайне відчуття «своїх» і продемонструвати полікультурне бачення НАТО. Штучний інтелект та системи на основі правил були об’єднані для перекладу між офіційною мовою Польщі та мовою її корінної лемківської меншини, яка довгий час була мішенню іноземних держав. Системи оцінювалися при перекладі з лемківської на польську за допомогою метрик, розроблених за підтримки DARPA, досягнувши оцінки BLEU 31,13 та коефіцієнта редагування перекладу (TER) 54,10. Тим часом в іншому напрямку системи отримали TER 53,73 та BLEU 29,49, що в 6,5 разів краще, ніж у сервісу Google Translate для польсько-українського перекладу.
Прошу цитувати як: Оринич, П., і Добри, Т. (2023). Завоювання сердець і язиків: Польсько-лемківське дослідження. У Матеріалах Міжвідомчої/Промислової конференції з навчання, моделювання та освіти (I/ITSEC).
[icon name=”badge-check” prefix=”fad”] Ця версія праці була прийнята до публікації після рецензування, але не є остаточною версією і не відображає покращень після прийняття або будь-яких виправлень. Остаточна версія доступна онлайн за цим посиланням. Використання цієї прийнятої версії підпорядковується умовам використання прийнятого рукопису видавця.
Вступ
Результати навчання можуть значно покращитися від використання машинного перекладу для корінних мов та мов меншин і діалектів, використання яких все частіше та значуще (p ≤ 0,05) асоціюється в науковій літературі з гострішим розумом, стійкішою психікою та міцнішим здоров’ям, не кажучи вже про шестикратно нижчі показники самогубств (Hallett et al., 2007, p. 398). Використання спадкових мов може захистити від впливу іноземних противників, а в Північноатлантичному регіоні може запобігти потраплянню цільових груп населення в російську або інші неісторичні етнолінгвістичні ідентичності під час подолання руйнівних наслідків втрати мови. Хоча локалізація матеріалів у місцеві діалекти та мови раніше могла бути недосяжною для постраждалих від війни спільнот та урядів, завдяки недавнім проривам у штучному інтелекті та обчислювальній лінгвістиці тепер можливо розглядати доступні пристрої, які є дешевшими, швидшими та кращими за людей у перекладі на низькоресурсні корінні мови та мови меншин.
Проблема втрати мови не обмежується Європою. Хоча глобальна ситуація з загрозою мовам може бути не такою жахливою, як свідчили доступні дані на початку дев’яностих, наявна статистика все ще змальовує похмуру картину. У часто цитованій праці, названій Simmons та Lewis (2013) «великим лінгвістичним закликом до дії», Краус попереджав у 1992 році, що від половини до 90% мов світу мають зникнути цього століття. Крім того, він постулював «документовану швидкість знищення» 90% корінних мов в англомовному світі, де переважає англійська, та оціночну швидкість вмирання 50% для всього Радянського Союзу, де домінувала російська (Krauss, 1992, p. 5). Двадцять років потому Simmons та Lewis (2013) використали оновлені дані для оцінки, що 1 360 з 7 103 живих мов (19%) не передаються наступному поколінню (p. 12), цифра, яка зростає до 30% у Східній Європі (p. 13).
Нейронаука та результати навчання
Останні дослідження вказують, що використання рідної мови може означати наявність більшої ментальної пропускної здатності для навчання і що результати тестів значно покращуються. Дослідження в Інституті досліджень мозку МакГоверна під керівництвом дослідників Массачусетського технологічного інституту (MIT) цього року виявило відносно низьку реакцію мозку на стимули рідної мови при вимірюванні за допомогою функціональної магнітно-резонансної томографії (fMRI) (Malik-Moraleda et al., 2023). Як пояснення дослідники припустили, що експертиза зменшує кількість розумової потужності, необхідної для завдання (Mesa, 2023). У недавньому дослідженні для Світового банку Soh, Del Carpio та Wang (2021) виявили, що використання нерідної мови навчання може бути шкідливим, особливо для чоловіків. У дослідженні результати тестів з математики та природничих наук серед студентів у Малайзії значно впали після переходу мови навчання з малайської на англійську (Soh et al., 2021, pp. 4, 17, 18–19).
Національна безпека
Згідно з викладачами Школи спеціальних операцій НАТО White та Overdeer, Росія може експлуатувати етнічні розколи в цільових суспільствах як важіль гібридної війни в спробі досягти цілей зовнішньої політики (2020, pp. 31–33), при цьому етнолінгвістичні відмінності є «легко доступними та простими для загострення» (p. 40). Нижче досліджується підбурювання та експлуатація етнолінгвістичних конфліктів як у західній, так і у східній Європі.
Іспанія: Каталонія
Публічне використання каталанської мови, мови меншини, якою говорять у Північно-Східній Іспанії, було заборонене урядом Франко до 1975 року (Miller & Miller, 1996, p. 113). Замість вирішення конфлікту ця політика могла спричинити його загнивання. У статті для The New York Times Schwirtz та Bautista (2021) процитували звіт європейської розвідки від червня 2020 року, який стверджував, що елітне підрозділ 29155 системи військової розвідки Російської Федерації перебував на території Каталонії приблизно під час референдуму про незалежність 2017 року, коли «секретна група протестувальників» Tsunami Democràtic окупувала аеропорт Барселони та перекрила головну автомагістраль, що з’єднує Іспанію з її північними сусідами. Три дні потому полковник Федеральної служби охорони Росії та близький родич високопоставленого президентського радника, глибоко залученого в зусилля Росії підтримати сепаратистів в Україні, прилетіли з Москви на стратегічну сесію для обговорення каталонського руху за незалежність (Schwirtz & Bautista, 2021).
Підтримка Російської Федерації каталонського руху за незалежність, як повідомляється, навіть включала пропозицію 10 000 військовослужбовців та 500 мільярдів доларів США у випадку незалежності (Baquero et al., 2022; див. також Brunet, 2022, p. 74). Louise I. Shelley з Центру тероризму, транснаціональної злочинності та корупції університету George Mason у Вірджинії назвала звернення Росії до лідерів сепаратистів в Іспанії відповідним минулій поведінці та пояснила: «Зв’язки між каталонцями та росіянами сягають радянської епохи. До розпаду СРСР у Барселоні проводилися високорівневі зустрічі з видатними росіянами» (Baquero et al., 2022).
Західна Україна
В Україні нетривіальні відмінності між місцевими говірками та літературним стандартом, який викладають у школах, створюють можливості для противників розпалювати полум’я сепаратизму. Згідно зі звітом Rating 2012 року, лише 54% етнічних українців використовували свою спадкову мову, 29% використовували російську та 17% суміш цих двох (p. 9). Того року на кожну одну книгу українською друкувалося дев’ять книг російською, і лише 13% копій друкованих ЗМІ були написані українською (Moser, 2016a, p. 604).
Два десятиліття тому щорічні звіти Державного департаменту США про практику дотримання прав людини за 2002 рік повідомляли наступне:
Деякі проросійські організації у східній частині країни скаржилися на збільшене використання української мови в школах та ЗМІ. Вони стверджували, що їхні діти перебувають у невигідному становищі під час складання академічних вступних іспитів, оскільки всі абітурієнти повинні були складати тест з української мови.
Department of State, 2003, p. 1758
Русини (рутени) продовжували вимагати статусу офіційної етнічної групи в країні. Представники русинської спільноти закликали до створення шкіл з русинською мовою навчання, відкриття кафедри русинської мови в Ужгородському університеті та включення русинів як однієї з етнічних груп країни до перепису 2001 року. За словами русинських лідерів, у країні проживає понад 700 000 русинів.
Department of State, 2003, p. 1759
Як відправна точка для ширших питань, згаданих Державним департаментом, які виходять за межі цієї роботи, колишній співробітник Гарвардського українського науково-дослідного інституту Майкл Мозер пояснив:
Русинів, мабуть, найкраще можна описати як тих нащадків рутенів/русинів, які не бажали приєднатися до сучасного українського національного та мовного руху… спочатку це небажання не ґрунтувалося на жодній русинській ідентичності в сучасному розумінні, а випливало з русофільських поглядів про те, що рутени/русини/малороси належать до єдиного неподільного російського народу і що немає місця для української нації та української мови.
Moser, 2016b, p.127
У червні 2007 року в Москві президентським указом був заснований «Фонд Русский мир», який почав фінансувати «співвітчизників» в Україні, надавши понад 1 200 000 доларів США до березня 2011 року (Moser, 2016a, p. 607).
Зібрання відбулося в Російському драматичному театрі у західному місті Мукачево, Україна, 25 жовтня 2008 року (Wiktorek, 2010, с. 100). Були навіть повідомлення про сотню озброєних приїжджих осіб ззовні (Українське національне об’єднання, 2009; див. також Wiktorek, 2010, с. 100). Що б там не сталося, о 20:30 того вечора на онлайн-платформі rusin.forum24.ru з’явилася прокламація про “відновлення русинської державності” російською мовою. Серед своїх скарг вона згадує “заміну русинської державної мови на галицьку українську, мову польської Галичини, північного сусіда русинів”. (2-й Європейський sic Конгрес Підкарпатських sic Русинів, 2008).
Напередодні наказу своїй армії відкрито вторгнутися в Україну для проведення широкомасштабної «спеціальної військової операції» президент Російської Федерації присвятив цілий абзац «долі Підкарпатської Русі» у своєму есе Про історичну єдність росіян та українців:
Окремо розгляну долю Підкарпатської Русі, яка після розпаду Австро-Угорщини опинилася в Чехословаччині. Значну частину місцевих жителів складали русини. Хоча про це зараз рідко згадують, після визволення Закарпаття радянськими військами з’їзд православного населення території заявив про підтримку включення Підкарпатської Русі до складу Російської Радянської Федеративної Соціалістичної Республіки або безпосередньо до Радянського Союзу як окремої Карпато-Руської республіки.
Putin, 2021
В іншому інциденті в регіоні двоє членів польської ультраправої організації Фаланга, члени якої перебували на землі серед російських сепаратистів у Східній Україні, підпалили культурний центр угорської корінної етнолінгвістичної меншини в обласному центрі Ужгороді в 2018 році, облив його бензином і кинувши коктейль Молотова (Górzyński, 2018).
Здоров’я та безпека
Суїцидальність
Шестикратно вищі показники самогубств спостерігалися в спільнотах, де менше половини повідомляють про розмовні знання своєї спадкової мови (Hallett et al., 2007, p. 398). З позитивного боку, показники самогубств серед молоді впали до нуля у всіх випадках, окрім одного, де більшість повідомляла про здатність підтримувати розмову своєю спадковою мовою (p. 397). У дослідженні 2022 року Pezzia та Hernandez ті, хто не володів спадковою мовою вільно, але чиї батьки володіли (p. 95), найчастіше мали суїцидальні думки (p. 98). Як пояснення зв’язку між втратою мови та суїцидальними ідеями Pezzia та Hernandez припускають «акультураційний стрес або соціальне відчуження», що виникає від запобігання прийняттю як повноправного члена своєї етнічної групи через брак вільного володіння її мовою (p. 100).
Депресія
Після контролю за віком, статтю, освітою, фінансовим становищем та членством в етнічній групі дослідники виявили, що приховування ідентичності шляхом уникнення використання спадкової мови в публічних місцях (названо уникненням мови) є статистично значущим (p = 0,006) предиктором можливості бути категоризованим як «депресивний» через отримання балу 5 або вище за Опитувальником здоров’я пацієнта 9 Kroenke та Spitzer (Olko et al., 2023, pp. 5–6). Як теоретичний механізм дослідники згадали етнічну дискримінацію, що викликає хронічний стрес, що призводить до стійкої гіперактивності гіпоталамо-гіпофізарно-наднирникової осі та результуючих підвищених рівнів кортикотропін-рилізинг фактора та кортизолу, посилаючись на роботу Willner (2017), а також Slavich та Irwin (2014).
Діабет
Після коригування соціально-економічних факторів цукровий діабет був значуще (p = 0,005) менш поширеним у спільнотах із знанням корінних мов (Oster et al., 2014, p. 9).
Вживання тютюну
Більша акультурація до англійської мови була значуще пов’язана з курінням серед старших підлітків азіатсько-американського походження в Нью-Йорку (Rosario-Sim & O’Connell, 2009). В іншому дослідженні використання англійської вдома було пов’язане з вищими показниками поширеності куріння серед азіатсько-американської молоді (
Вживання речовин та напад
Згідно з Австралійським бюро статистики (2011/2012), молодь аборигенів віком від п’ятнадцяти до двадцяти чотирьох років, яка говорила корінною мовою, мала меншу ймовірність вживання заборонених речовин (16% проти 26%), меншу ймовірність повідомлення про запійне пиття протягом попередніх двох тижнів (18% проти 34%) та меншу ймовірність стати жертвою фізичного або погрозливого насильства протягом попереднього року (25 проти 37%).
Рішення донині
Нейронний штучний інтелект
Прорив у нейронному машинному перекладі міжнародною командою з фінансуванням Агентства перспективних оборонних дослідницьких проектів (DARPA) під проєктом широкого операційного мовного перекладу (BOLT) (Cho et al., 2014), а також Google (Sutskever et al., 2014) привів до створення систем, здатних досягати показників якості на рівні людей. Однак навчання нейронних систем потребує більше даних, ніж зазвичай доступно для низькоресурсних мов.
Машинний переклад на основі правил
Системи перекладу на основі правил минулого зазвичай вважалися марною витратою грошей (Hajič et al., 2000, p. 7) з помітним винятком празької системи RUSLAN, фінансованої заснованою Радянським Союзом Радою взаємної економічної допомоги (РЕВ), яка створювала переклади з чеської на російську документації операційних систем мейнфреймів (p. 7), при цьому переклади двох з п’яти речень були правильними, ще два з п’яти містили лише незначні помилки, і лише одне з п’яти потребувало суттєвого редагування або повторного перекладу (p. 8).
Основними причинами очевидного розчарування в Празі результатами чесько-російських систем на основі правил було те, що саме завдання було занадто складним, і що чеська та російська недостатньо близько споріднені, щоб зробити такий підхід життєздатним. До списку можна додати нереалістичні очікування та відсутність об’єктивних метрик оцінювання. Тим часом результати перекладу з чеської на словацьку та польську, всі більш близько споріднені західнослов’янські мови, були досить обнадійливими (Hajič et al., 2000, p. 12).
Гібридний нейронний/заснований на правилах машинний переклад
У результатах, представлених на Міжвідомчій конференції з навчання, моделювання та освіти (I/ITSEC), система перекладу з лемківської на польську на основі правил була поєднана з системою перекладу з польської на англійську, що дало перші у світі опубліковані результати машинного перекладу з лемківської на англійську (Оринич та ін., 2021). Наступного року переклади у зворотному напрямку були отримані шляхом модифікації системи та її реверсування (Оринич, 2022). Удосконалення цієї системи шляхом її повного перегляду та розширення словникового запасу згодом призвело до покращення якості перекладу на 35% (Оринич, 2023).
Нові рішення
Експертна система машинного перекладу на основі правил
Машина виведення була вручну закодована через розробку, керовану тестуванням, щоб відображати істини, що містяться в базі знань, зібраній у консультації з роботою експертів предметної галузі. Цей підхід також дозволяє ручне усунення іноземного втручання та очищення від російських та інших запозичень. Консультовані словники включали двонаправний польсько-лемківський словник Горощака (2004), лемківсько-український словник Піртея (2004), українсько-лемківський словник Дуди (2011) та лемківсько-польський глосарій Рігера (1995), а також його лемківсько-польський глосарій, заснований на записах із села Бартне (2016). Граматики Фонтанського та Хом’яка (2000), а також Піртея (2013) були проконсультовані під час кодування правил для відмінювання слів за граматичними категоріями, такими як число, відмінок та рід.
Трансформерний штучний інтелект
За проривом у нейронному машинному перекладі швидко послідувало впровадження вченими Google Brain та Google Research архітектури Transformer, яка базується виключно на механізмах уваги та повністю відмовляється від рекурентності та згорток (Васвані та ін., 2017). Для цього експерименту ми навчили моделі штучного інтелекту на основі трансформерів перекладати з польської на лемківську, і, наскільки нам відомо, ми перші, хто публікує результати.
Матеріали та методи
Матеріал
Дані
Моделі штучного інтелекту були створені з використанням корпусу, що містить 1 611 352 вихідних слів (за підрахунком Microsoft Word 365) у 112 507 рядках, написаних носіями лемківської мови, народженими в Польщі, разом з їхніми перекладами польською мовою за допомогою API перекладу Google Cloud Platform, налаштованого на переклад як зі стандартної української мови з використанням нейронного машинного перекладу.
Лемківська мова (також відома як лемківьска мова) генетично належить до південно-західної української діалектної системи, в межах якої вона відрізняється фіксованим наголосом на передостанньому складі (Даниленко, 2020). Такі діалекти є корінними для територій, що нині перебувають під управлінням Польщі та, з 1993 року, Словацької Республіки.
У міжвоєнній Польщі уряд сприяв формуванню окремих лемківських, гуцульських та бойківських ідентичностей, щоб протидіяти українському руху, вчителів якого було звільнено (Мозер, 2016б, с. 128). У 1935 році русофільських вчителів замінили поляками, а в 1937 році лемківську мову остаточно вилучили зі шкіл (с. 128). Близько двох третин носіїв лемківської мови в Польщі були депортовані в Україну між 1945 і 1947 роками, а решту 40 000-50 000 переселили переважно на нещодавно анексовані, колишні німецькі території комуністичної Польщі (с. 131). За попередніми результатами перепису населення Польщі 2021 року, 12 700 осіб вказали “лемківську” як етнічну приналежність (Головне статистичне управління, 2023, с. 3).
Методи
Попередня обробка
Спочатку весь текст був переведений у нижній регістр. Потім було додано пробіл перед і після всіх неалфавітно-цифрових символів. Також було видалено початкові та кінцеві пробіли з кожного рядка. Після цього вищезгаданий корпус був оброблений за допомогою скрипта Мослема (2023a) для очищення та фільтрації паралельних наборів даних (коміт db6f441), залишивши 33 612 рядків, що складаються з 610 990 вихідних слів, підрахованих за допомогою Microsoft Word 365.
Токенізація підслів
Моделі уніграмного підслова були навчені за допомогою скрипта Мослема (2021a) (коміт fbf2488). Потім ці моделі були використані для токенізації як вихідного, так і цільового тексту за допомогою скрипта підслова номер два того ж коміту (Moslem, 2021b).
Розділення даних
2000 рядків з вищезгаданого корпусу були відокремлені для оцінки за допомогою скрипта Мослема (2023b) для цієї мети (коміт e6decb7).
Навчання моделей штучного інтелекту
Моделі штучного інтелекту були навчені за допомогою версії TensorFlow інструментарію OpenNMT для нейронного машинного перекладу, який є наступником моделі послідовність-до-послідовності з увагою seq2seq-attn Гарварду (Klein et al., 2017, с. 68). Команда для запуску циклу навчання та оцінки була запущена з автоматичною конфігурацією для моделі Transformer. Також була увімкнена автоматична оцінка, яка запускалася кожні 5000 кроків, використовуючи метрику двомовного оцінювання (BLEU), і експортувала модель при досягненні нового високого балу. Навчання проводилося на платформі Google Colabatory з використанням графічних процесорів NVIDIA A100 та стану виконання з високою оперативною пам’яттю. Навчанню було дозволено працювати протягом ночі.
Механізм виведення
Механізм виведення перекладу був створений на основі скрипта клієнта Python Кляйна (коміт 2b196ff) (2021), який був модифікований для розміщення моделей токенізації підслів джерела та цілі, а також для оптимізації пробілів та капіталізації, щоб краще відповідати очікуванням моделей штучного інтелекту та кінцевих користувачів. Прогнози перекладу були збережені у файл для подальшої оцінки якості.
Оцінка якості
Якість перекладів оцінювалася за допомогою метрик, розробка яких фінансувалася DARPA: як BLEU (Papineni et al., 2002), так і Translation Edit Rate (TER) (Snover et al., 2006). Самі оцінки були розраховані за допомогою галузевих стандартних методів, розроблених в Amazon Research Постом (2018).
Результати
Оцінки якості перекладу
Експериментальна система на основі правил перевершила всі інші за всіма показниками при перекладі з польської на лемківську і навпаки.
Якість перекладу з польської на лемківську
При перекладі з польської на лемківську експериментальна експертна система на основі правил досягла оцінки якості BLEU 29,49, що в 6,50 разів краще, ніж український сервіс Google Translate. Тим часом експериментальна система нейронного машинного перекладу на основі Transformer досягла оцінки BLEU 15,90 після 30 000 кроків навчання, що в 3,50 рази краще, ніж український Google Translate. При вимірюванні за альтернативною метрикою TER експериментальна експертна система на основі правил отримала оцінку TER 53,73, що на 61% краще, ніж український сервіс Google Translate.


Якість перекладу з лемківської на польську
Експериментальна експертна система на основі правил перевершила всі інші за всіма показниками при перекладі з лемківської на польську, досягнувши оцінки якості BLEU 31,13, що в 1,4 рази краще, ніж показник українського сервісу Google Translate, який становив BLEU 22,16.
Зразки
| Значення англійською (людський перекладач) | У текстах, наприклад, а я в основному вивчаю тексти, у мене є це джерело, вони писали: австрійці нас вбивали, то що ж зроблять з нами ті жахливі москалі, якими нас лякають? | |||||
| Польською (людський перекладач) | Na przykład oni w tekstach, a ja głównie badam teksty, mam takie źródło, pisali: Austriacy nas mordowali, to co zrobią ci straszni Moskale, którymi nas straszą? | |||||
| Істина: Лемківський еталон (носій мови) | І они наприклад в текстах, а я головні досліджам тексты, то значыт мам такє джерело, писали: но Австриякы нас мордували, то што зроблят тоты страшны Москалі, котрыма нас страшат? | I ony napryklad v tekstach, a ja holovni dosljidžam tekstŷ, to značŷt mam takie džerelo, pysaly: no Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ Moskalji, kotrŷma nas strašat? | ||||
| Система | Гіпотези перекладу | Оцінки якості | ||||
| Кирилиця | Транслітерація | BLEU | TER | |||
| Експериментальна | Експертна система (на основі правил) | Наприклад они в текстах, а я головні бадам текстий, мам такы джерело, писали: Австриякы нас мордували, то што зроблят тоты страшны москале, котрыма нас страшом? | Napryklad ony v tekstach, a ja holovni badam tekstyj, mam takŷ džerelo, pysaly: Avstryjakŷ nas morduvaly, to što zrobljat totŷ strašnŷ moskale, kotrŷma nas strašom? | 46.32 | 34.48 | |
| Штучний інтелект (Transformer) | Примірово, в текстах, а я головні в заміріню тексту, маме джерело, писали: австриякы австриякы мордували, же то што зроблят стабілизацию тому, котрыма нас престрашыли? | Prymirovo, v tekstax, a ja holovni v zamirinju tekstu, mame džerelo, pysaly: avstryjakŷ avstryjakŷ morduvaly, že to što zrobljat stabilyzacyju tomu, kotrŷma nas prestrašŷly? | 27.65 | 55.17 | ||
| Google Translate | Польська | На прзиклад оні в текстах, а я ґлувнє бадам тексти, мам такє зьрудло, пісалі: Аустряци нас мордовалі, то цо зробьон ці страшні Москалє, ктуримі нас страшон? | Na przyklad oni v tekstach, a ja gluvnje badam teksty, mam takje źrudlo, pisalji: Austriacy nas mordovalji, to co zrobjon ci strašni Moskalje, kturymi nas strašon? | 14.21 | 68.97 | |
| Українська | Наприклад, у своїх текстах, а я в основному досліджую тексти, у мене є таке джерело, вони писали: Австрійці нас повбивали, що будуть робити ті страшні москалі, якими вони нам погрожують? | Napryklad, u svojix tekstax, a ja v osnovnomu doslidžuju teksty, u mene je take džerelo, vony pysaly: Avstrijci nas povbyvaly, ščo budutʹ robyty ti strašni moskali, jakymy vony nam pohrožujutʹ? | 9.43 | 82.76 | ||
| Російська | Например, в их текстах, а я в основном исследую тексты, у меня есть такой источник, они писали: Нас убили австрийцы, что будут делать те страшные москвичи, которыми они нам угрожают? | Naprimer, v ix tekstax, a ja v osnovnom issleduju teksty, u menja estʹ takoj istočnik, oni pisali: Nas ubili avstrijcy, čto budut delatʹ te strašnye moskviči, kotorymi oni nam ugrožajut? | 9.43 | 86.21 | ||
| Білоруська | Напрыклад, у сваіх тэкстах, а я ў асноўным тэксты дасьледую, у мяне ёсьць такая крыніца, яны пісалі: Аўстрыйцы нас забілі, што будуць рабіць тыя страшныя маскалі, якімі яны нам пагражаюць? | Napryklad, u svaix tèkstax, a ja ŭ asnoŭnym tèksty das′leduju, u mjane ës′c′ takaja krynica, jany pisali: Aŭstryjcy nas zabili, što buduc′ rabic′ tyja strašnyja maskali, jakimi jany nam pahražajuc′? | 4.99 | 96.55 | ||
Обговорення
Політичні наслідки
Результати навчання, охорони здоров’я та безпеки можуть покращитися, якщо освітні, навчальні, громадські та інші матеріали будуть локалізовані не лише державною мовою, а й регіональними діалектами та мовами. Щоб уникнути перевантаження людських ресурсів, лінгвістам можна доручити постредагування результатів експертних та систем машинного перекладу зі штучним інтелектом, замість ручного перекладу. Доступніший переклад матеріалів міг би покращити соціальні послуги в недостатньо обслуговуваних регіонах. Stonewall та інші вказують на багатомовність, а отже й інклюзивність, як одну з найкращих практик залучення недостатньо охоплених груп населення (2017). Європейський Союз фінансує дослідження, які свідчать, що машинний переклад можна використовувати для сприяння громадській участі, а також зміцнення громадського здоров’я та безпеки серед недостатньо охоплених спільнот (Nurminen & Koponen, 2020).
Технологічні наслідки
Все йде до того, що комерційно життєздатний машинний переклад лемківською мовою натисканням кнопки стане реальністю. Подальша розробка експертних систем на основі правил, керована тестуванням, здається, пропонує найшвидший шлях до досягнення надлюдської якості перекладу. Системи штучного інтелекту на основі трансформерів можуть виграти в довгостроковій перспективі.
Деякі корективи процедури навчання штучного інтелекту заслуговують на експериментування. Скрипт фільтрації корпусу міг бути надто ретельним для цього завдання і надмірно зменшити розмір корпусу, що перешкоджало продуктивності. У майбутньому експерименті цей скрипт можна було б пропустити. Перенавчання може перешкоджати оцінкам, і, можливо, інтервал оцінювання в 5 000 кроків слід скоротити. Використання експертної системи на основі правил для перекладу корпусів з лемківської на польську замість сервісу Google Cloud Platform може дати кращі результати. Включення модулів автоматичної корекції правопису також може глобально покращити оцінки.
Російське та інше іноземне мовне втручання можна програмно протидіяти, очищаючи запозичені слова за допомогою алгоритмів пошуку-заміни. Такі можливості можуть бути корисними для національних мовних академій та інших органів влади. Можливо, якість перекладу вже досягла надлюдського рівня – гіпотеза, яку можна перевірити в майбутніх експериментах.
Декларація про конфлікт інтересів
Основний автор працює спеціалістом з контролю якості проєкту Google Translate у Сан-Франциско.
Список літератури
2-й Європейський sic Конгрес Підкарпатських sic Русинів [русин]. (2008, 25 жовтня). МЕМОРАНДУМ 2-го Європейського Конгресу Підкарпатських Русинів про прийняття АКТА ПРОГОЛОШЕННЯ відновлення русинської державності [Онлайн форум пост]. Інформаційне Агентство Підкарпатської Русі. ІАПР. Форум підкарпатських русинів.
http://rusin.forum24.ru/?1-9-0-00000005-000-0-0-1224955832
Австралійське бюро статистики, (2012). Культура, спадщина та дозвілля: Мовлення мовами аборигенів та жителів островів Торресової протоки. Добробут аборигенів та жителів островів Торресової протоки: Фокус на дітях та молоді. (Оригінальна робота опублікована 2011) Отримано 1 травня 2023 року з https://www.abs.gov.au/ausstats/abs@.nsf/Latestproducts/1E6BE19175C1F8C3CA257A0600229ADC
Бакеро, А., Холл, К.Г., Цогоєва, А., Альбалат, Х.Г., Грозєв, С., Баньолі, Л., IStories, & Верджине, С. (2022, 8 травня). Підживлення сепаратизму, обіцянки біткоїнів: Як російський оператор спонукав каталонських лідерів розірвати зв’язки з Мадридом. Проєкт з розслідування організованої злочинності та корупції (OCCRP). https://www.occrp.org/en/investigations/fueling-secession-promising-bitcoins-how-a-russian-operator-urged-catalonian-leaders-to-break-with-madrid
Brunet, F. (2022). The Economics of Catalan Separatism. Cham: Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-14451-6
Чен, X., Унгер, Дж.Б., Круз, Т.Б., & Джонсон, К.А. (1999). Моделі куріння азіатсько-американської молоді в Каліфорнії та їх зв’язок з акультурацією. Journal of Adolescent Health, 24(5), 321-328. https://doi.org/10.1016/S1054-139X(98)00118-9
Чо, К., ван Мерріенбур, Б., Гюльчере, К., Бахданау, Д., Бугарес, Ф., Швенк, Х., & Бенджіо, Й. (2014). Вивчення фразових представлень за допомогою RNN кодувальника-декодувальника для статистичного машинного перекладу. Матеріали конференції 2014 року з емпіричних методів у обробці природної мови (EMNLP), 1724–1734 http://dx.doi.org/10.3115/v1/D14-1179
Даниленко, А. (2020). “Карпато-русинська”, в: Онлайн-енциклопедія слов’янських мов та лінгвістики, головний редактор Марк Л. Грінберг. Переглянуто онлайн 13 червня 2023
http://dx.doi.org/10.1163/2589-6229_ESLO_COM_031960
Державний департамент (2003). S.Prt. 108-30, Том I – ЗВІТИ ПРО СТАН ПРАВ ЛЮДИНИ ЗА 2002 РІК ТОМ I. Вашингтон, округ Колумбія: Видавництво уряду США. https://www.govinfo.gov/app/details/CPRT-108JPRT86917/CPRT-108JPRT86917
Дуда, І. (2011). Лемківський словник. Тернопіль: Астон.
Епштейн, Дж. А., Ботвін, Г.Дж., & Діаз, Т. (1998). Мовна акультурація та гендерні ефекти куріння серед іспаномовної молоді. Preventive medicine, 27(4), 583–589. https://doi.org/10.1006/pmed.1998.0329
Фонтанський, Г., & Хомяк, М. (2000). Граматика лемківської мови. Катовіце: “Шльонск” Sp. z o.o. Наукове видавництво.
Головне статистичне управління (2023). Попередні результати NSP 2021 щодо національно-етнічної структури та мови домашнього спілкування. Отримано 11 червня 2023 року з https://stat.gov.pl/spisy-powszechne/nsp-2021/nsp-2021-wyniki-wstepne/wstepne-wyniki-narodowego-spisu-powszechnego-ludnosci-i-mieszkan-2021-w-zakresie-struktury-narodowo-etnicznej-oraz-jezyka-kontaktow-domowych,10,1.html
Гожинський, О. (2018, 3 березня). Прихована кампанія Росії щодо розпалювання Східної Європи. The Daily Beast. https://www.thedailybeast.com/russias-covert-campaign-inflaming-east-europe
Гаїч, Й., Гріц, Й., & Кубонь, В. (2000, квітень). Машинний переклад дуже близьких мов. У Шоста конференція з прикладної обробки природної мови (стор. 7–12). http://dx.doi.org/10.3115/974147.974149
Галлетт, Д., Чендлер, М.Дж., & Лалонде К.Е. (2007): Знання мови аборигенів та самогубства серед молоді. Cognitive Development. 22(3), 392–399. https://doi.org/10.1016/j.cogdev.2007.02.001
Горощак, Й. (2004). Словник лемківсько-польський, польсько-лемківський, Варшава: Рутеніка.
Кляйн, Г. (2021). Висновки з TensorFlow Serving. Отримано 5 червня 2023 року з https://github.com/OpenNMT/OpenNMT-tf/blob/master/examples/serving/tensorflow_serving/ende_client.py
Кляйн, Г., Кім, Й., Денг, Й., Сенеллар, Й., & Раш, А.М. (2017). OpenNMT: Інструментарій з відкритим кодом для нейронного машинного перекладу. У Матеріалах 55-ї щорічної зустрічі Асоціації комп’ютерної лінгвістики-Системні демонстрації, стор. 67–72. https://doi.org/10.18653/v1/P17-4012
Краусс, М. (1992). Мови світу в кризі. Language, 68(1), 4–11. https://doi.org/10.1353/lan.1992.0075
Малік-Мораледа, С., Журавльов, О., Мінерофф, З., Куку, Т., Таліаферро, М., Магоуальд, К., Бланк, І., & Федоренко, Е. Функціональна характеристика мовної мережі поліглотів та гіперполіглотів за допомогою прецизійної фМРТ. Cold Spring Harbor Laboratory. Попередня онлайн-публікація. https://doi.org/10.1101/2023.01.19.524657
Меса, Н. (2023, 3 лютого). Ваша рідна мова займає особливе місце у вашому мозку, навіть якщо ви розмовляєте 10 мовами. Science, https://doi.org/10.1126/science.adh0055
Міллер, Г., & Міллер, К. (1996). Мовна політика та ідентичність: випадок Каталонії. International Studies in Sociology of Education, 6(1). https://doi.org/10.1080/0962021960060106
Мозер, М. (2016a). Мовна політика в сучасній Україні (25 лютого 2010–25 лютого 2011). У Нові внески до історії української мови (стор. 601–619). Канадський інститут українських студій. https://www.ciuspress.com/product/new-contributions-to-the-history-of-the-ukrainian-language/
Moser, M. (2016b). Rusyn: A New–Old Language In-between Nations and States. У: Tomasz Kamusella, Motoki Nomachi, Catherine Gibson (ред.), The Palgrave Handbook of Slavic Languages, Identities and Borders, 124–139. https://doi.org/10.1007/978-1-137-34839-5_7
Moslem, Y. (2021a). Навчання моделей SentencePiece для джерела та цілі. Отримано 4 червня 2023 року з https://github.com/ymoslem/MT-Preparation/blob/main/subwording/1-train_unigram.py
Moslem, Y. (2021b). Підсловне розбиття файлів джерела та цілі. Отримано 4 червня 2023 року з https://github.com/ymoslem/MT-Preparation/blob/main/subwording/2-subword.py
Moslem, Y. (2023a). Фільтрування/очищення паралельних наборів даних для машинного перекладу. Отримано 4 червня 2023 року з https://github.com/ymoslem/MT-Preparation/blob/main/filtering/filter.py
Moslem, Y. (2023b). Розділення паралельного набору даних на навчальні, розробницькі та тестові набори даних для машинного перекладу. Отримано 4 червня 2023 року з
https://github.com/ymoslem/MT-Preparation/blob/main/train_dev_split/train_dev_test_split.py
Nurminen, M., & Koponen, M. (2020). Машинний переклад та справедливий доступ до інформації. Translation Spaces, 9(1), 150–169. https://doi.org/10.1075/ts.00025.nur
Olko, J., Galbarczyk, A., Maryniak, J., Krzych-Miłkowska, K., Iglesias Tepec, H, de la Cruz, E., Dexter-Sobkowiak, E., & Jasienska, G. (2023): Спіраль неблагополуччя: етнолінгвістична дискримінація, акультураційний стрес та здоров’я в корінних общинах науа в Мексиці. American Journal of Biological Anthropology, 1–15. https://doi.org/10.1002/ajpa.24745
Оринич, П. (2022, травень). Скажи як треба: Нейронний машинний переклад на базі ШІ допомагає новим мовцям відроджувати лемківську мову. У Artificial Intelligence in HCI: 3rd International Conference, AI-HCI 2022, Held as Part of the 24th HCI International Conference, HCII 2022, Virtual Event, June 26–July 1, 2022, Proceedings (pp. 567–580). Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-05643-7_37
Оринич, П. (2023, липень). BLEUкитне небо для відродження зникаючих мов: Точність нейронного ШІ-перекладу лемківьска мова стрімко зростає. У International Conference on Human-Computer Interaction (pp. 135–149). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-35894-4_10
Оринич, П., Добри, Т., Jackson, A., і Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. У Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Oster, R.T., Grier, A., Lightning, R., Mayan, M.J., & Toth, E.L. (2014). Культурна спадкоємність, традиційна корінна мова та діабет у перших націях Альберти: дослідження змішаних методів. International Journal for Equity in Health, 13(92), 1–11. https://doi.org/10.1186/s12939-014-0092-4
Papineni, K., Roukos, S., Ward, T., & Zhu, W.J. (2002, липень). BLEU: метод автоматичного оцінювання машинного перекладу. У Proceedings of the 40th annual meeting of the Association for Computational Linguistics (сс. 311–318). https://doi.org/10.3115/1073083.1073135
Pezzia, C., & Hernandez, L.M. (2022). Суїцидальні думки в етнічно змішаній гірській гватемальській спільноті. Transcultural Psychiatry. 59(1), 93–105. https://doi.org/10.1177/1363461520976930
Post, M. (2018). Заклик до ясності у звітуванні показників BLEU. У Proceedings of the Third Conference on Machine Translation: Research Papers, сс. 186–191. Brussels: Association for Computational Linguistics http://dx.doi.org/10.18653/v1/W18-6319
Putin, V. Про історичну єдність росіян та українців [Про історичну єдність росіян та українців]. Отримано 15 травня 2023 року з http://kremlin.ru/events/president/news/66181
Пиртей, П. (2004). Короткий словник лемківських говірок. Івано-Франківськ: Сіверсія МБ.
Пиртей, П. (2013). Лемківські говірки. Фонетика і морфологія. Горлиці: Об’єднання лемків.
Rating, (2012). Питання мови: результати останніх досліджень 2012 року [Питання мови: результати останніх досліджень 2012 року]. Отримано 26 серпня 2023 року з https://ratinggroup.ua/files/ratinggroup/reg_files/rg_mova_dynamika_052012.pdf
Rieger, J. (1995). Лемківська лексика та номенклатура [Лемківська лексика та номенклатура]. Warszawa: Wydawnictwo Naukowe Semper.
Рігер, Я. (2016). Малий словник лемківського села Бартне. Варшава: Видавництво Варшавського університету.
Rosario-Sim, M.G., & O’Connell K.A. (2009). Депресія та мовна акультурація корелюють з курінням серед старших азіатсько-американських підлітків у Нью-Йорку. Public Health Nursing 26(6), 532–542. https://doi.org/10.1111/j.1525-1446.2009.00811.x
Schwirtz, M., & Bautista, J. (2023, 23 вересня) Одружені кремлівські шпигуни, таємнича місія до Москви та заворушення в Каталонії. The New York Times. Отримано 16 травня 2023 року з https://www.nytimes.com/2021/09/03/world/europe/spain-catalonia-russia.html
Simmons, G.F., & Lewis, M.P. (2013). Мови світу в кризі: 20-річне оновлення. У E. Mihas, B. Perley, G. Rei-Doval & K. Wheatley (ред.), Responses to Language Endangerment: In honor of Mickey Noonan. New directions in language documentation and language revitalization (сс. 3–20). John Benjamins Publishing Company. https://doi.org/10.1075/slcs.142.01sim
Slavich, G.M., & Irwin, M.R. (2014). Від стресу до запалення та великого депресивного розладу: теорія соціальної сигнальної трансдукції депресії. Psychological Bulletin, 140(3), 774–815. https://doi.org/10.1037/a0035302
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Дослідження коефіцієнта редагування перекладу з цільовою людською анотацією. У Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, (сс. 223–231). https://aclanthology.org/2006.amta-papers.25
Soh, Y.C., Del Carpio, X.V., & Wang, L.C. (2021). Вплив мови навчання в школах на успішність учнів: дані з Малайзії з використанням методу синтетичного контролю. World Bank Group Policy Research Working Paper 9517. http://hdl.handle.net/10986/35031
Stonewall, J., Fjelstad, K., Dorneich, M., Shenk, L., Krejci, C., & Passe, U. (2017, вересень). Найкращі практики залучення недостатньо обслуговуваних груп населення. У Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Том 61, № 1, сс. 130–134). Sage CA: Los Angeles, CA: SAGE Publications. https://doi.org/10.1177/1541931213601516
Sutskever, I., Vinyals, O., & Le, Q.V. (2014). Навчання послідовності до послідовності з нейронними мережами. Advances in Neural Information Processing Systems 27 (NIPS 2014). https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html
Українське національне об’єднання (2009). Закарпатське УНО обіцяє власними силами протидіяти сепаратистам [Закарпатське українське національне об’єднання обіцяє протидіяти сепаратистам 1-го травня власними силами] Отримано 10 червня 2023 року з https://zaxid.net/zakarpatske_uno_obitsyaye_vlasnimi_silami_protidiyati_separatistam_1_travnya_n1076607
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). Увага — це все, що потрібно. NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 6000–6010. https://dl.acm.org/doi/10.5555/3295222.3295349
White, D.J., & Overdeer, D. (2020). Експлуатація етнічності в російських гібридних загрозах. Strategos: Scientific journal of the Croatian Defence Academy 4(1), 31–49. https://hrcak.srce.hr/242087
Wiktorek, A.C. (2010). Русини Карпат: конкуруючі програми ідентичності. Washington, D.C.: Georgetown University. https://repository.library.georgetown.edu/handle/10822/552816
Willner, P. (2017). Модель хронічного помірного стресу (CMS) депресії: історія, оцінка та використання. Neurobiology of Stress, 6, 78–93. https://doi.org/10.1016/j.ynstr.2016.08.002

Залишити відповідь