MANHATTAN, Sept 25 (LEMKOTRAN.COM) – Breakthrough artificial intelligence (AI) neural machine translation (NMT) technology has delivered real-time translations at near-human quality, with Lemko to English engines deployed in Manhattan achieving a speed of 95,877 words per hour and corpus bilingual evaluation understudy (BLEU) score of 17.74 against a professional human linguist’s score of 28.
„These newly deployed AI translators empower new speakers of Lemko to read in their heritage language immediately, without undergoing the thousands of hours of instruction and immersion normally required,” said Petro Orynycz, the linguist and engineer behind the project.
The language revitalization „Manhattan project” is just ramping up, with sights set on delivering translations that are „more human than human”, that is, able to deliver real-time translations more accurate than those of professional field linguists.
The Lemko-English transliteration and translation service has been freely available to the public since 2017 at www.lemkotran.com
Tudományos folyóiratokban publikáló szerző és előadó vagyok a világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature által kiadott ember-számítógép interakció (HCI) nemzetközi konferenciáin, amely az egyik legrangosabb, legnagyobb hatású és legrégebben folyamatosan működő tudományos kiadó.
A nyelvi veszteség nem csupán kulturális – működési. Ez a tanulmány lengyel ↔ lemkó gépi fordítást épít és értékel (szakértői szabályalapú + Transformer NMT), és mindkét irányt DARPA által támogatott mérőszámokkal (BLEU, TER) hasonlítja össze, beleértve egy Google Fordító proxy alapvonalat is.
Főbb hozzájárulások
Épít egy lengyel ↔ lemkó fordítási rendszert, amely egy szakértői szabályalapú motort és Transformer NMT-t kombinál alacsony erőforrás-igényű környezethez.
Összekapcsolja a kisebbségi nyelvi gépi fordítást valós eredményekkel: képzési hatékonyság, hozzáférés és ellenálló képesség vitatott információs környezetekben.
Főbb eredmények
PL → lemkó: szakértői rendszer BLEU 29,49 / TER 53,73; jelentése szerint ~6,5-szerese egy Google Fordító lengyel→ukrán proxynak BLEU-ban.
lemkó → PL: szakértői rendszer BLEU 31,13 / TER 54,10.
Transformer (PL → lemkó):BLEU 15,90 (30 ezer lépés) – a proxy alapvonal felett, a szakértői rendszer alatt ebben a beállításban.
A kisebbségi nyelvek elvesztése nem csupán kulturális – mérhető kár. Ez a tanulmány a LemkoTran.com jelentős fejlesztéséről számol be, amely szabályalapú generálást kombinál neurális gépi fordítással, így a lemkó anyanyelvűek és az új tanulók azonnal olvashatnak és írhatnak. Morfológiailag tudatos főnév/ige/melléknév generátorokat adok hozzá, bővítem a lexikont, 9518 kötelezően átmenő minőségellenőrzési tesztet vezetek be, és összehasonlítom a fordítási minőséget BLEU, TER és chrF mérőszámokkal több Google Fordító szolgáltatással szemben.
Főbb hozzájárulások
Fejleszti a LemkoTran hibrid rendszerét (szabályalapú + neurális) a lemkó nyelvre és lemkó nyelvről történő fordításhoz morfológiailag tudatos generálással.
Megerősíti a pontosságot 9518 kodifikációra hivatkozó teszttel, a fordítási minőséget kikényszeríthető minőségellenőrzéssé alakítva.
Bővíti a nyelvi lefedettséget ~1585 szabályalapú szókincs elemmel, valamint 877 lemmával + 708 szószedet bejegyzéssel táplált generátorokkal.
Szigorúan összehasonlít a SacreBLEU alapértelmezett beállításait és három kiegészítő mérőszámot (BLEU / TER / chrF) használva reprodukálható összehasonlításokhoz.
Mérnöki utat mutat a zavarmentesítéshez: a szabályalapú modulok lehetővé teszik a jövevényszavak / domináns nyelv átszivárgásának tisztítását (ahol kívánatos).
Főbb eredmények
EN → lemkó: A BLEU 8,48-ra nő (+35% az előző publikációhoz képest), jelentése szerint ~4-szerese a Google Fordító legjobb szolgáltatásának BLEU-ban.
lemkó → EN: A BLEU eléri a 17,95-öt (+23% az előző munkához képest), jelentése szerint ~16%-kal magasabb, mint a Google Fordító ukrán szolgáltatása (legjobban teljesítő alapvonal).
Mérőszámok tekintetében: A LemkoTran felülmúlja a Google-t a BLEU + TER + chrF mérőszámokban, mivel a Google gyakran tévesen azonosítja a lemkó nyelvet (gyakori ukrán/orosz/fehérorosz felismerés).
A mesterséges intelligencia előnyhöz juttathatja a veszélyeztetett nyelveket: az új beszélők már az első naptól kezdve az irodalmi normához közelebb álló mondatokat alkothatnak. Mondd jól (2022) egy alacsony erőforrásigényű folyamatot (transzfertanulás + szabályalapú gépi fordítás) mutat be, kiad egy nyilvános angol→lemkó rendszert, és BLEU-val értékeli a minőséget.
Főbb hozzájárulások
Transzfertanulás + szabályalapú motor alacsony erőforrásigényű nyelvhez.
Mennyiségi értékelés (BLEU), nem érzések alapján.
Nyilvános eszközként telepítve (LemkoTran).
Főbb eredmények
Angol→lemkó rendszer: BLEU 6,28 (jelentett).
Összehasonlítva a Google ukrán/orosz/lengyel kimeneteivel (jelentett).
Erőforrás-korlátozott végrehajtásra tervezve (laptopon/offline is használható munkafolyamat).
Ez a tanulmány bemutatja, hogyan szüntetheti meg a neurális gépi fordítás (NMT) a lokalizációs szűk keresztmetszeteket a koalíciós képzésekhez: ahelyett, hogy hónapokat várnánk az emberi fordításra, napok/hetek alatt telepíthet többnyelvű tartalmat az NMT gyors lokalizációra való felhasználásával.
Főbb eredmények
Orosz: +1169,51%-kal gyorsabb és +58,37%-kal pontosabb egy professzionális emberi nyelvész alapértékéhez képest.
Lengyel: +17,29%-kal pontosabb és +488,45%-kal gyorsabb emberi fordításhoz képest.
lemkó: „a világ első” motorja, BLEU 14,57-es értéket jelentettek.
Főbb hozzájárulások
A lokalizációt működési szűk keresztmetszetként kezeli, és a „képzés ma este / jövő héten” időkereteket célozza meg.
NMT motorokat épít és értékel NATO képzési anyagokon, a BLEU-t használva értékelési metrikaként.
Gyakorlati munkafolyamatot mutat be egy olcsó, hálózattól elszigetelt laptopon (realisztikus telepítési korlátok mellett).
A globális nyelvvesztés felgyorsulása, amely az illegális szerhasználat, a 2-es típusú cukorbetegség, a mértéktelen alkoholfogyasztás és a támadások fokozott előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági rátával jár, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Azokban a környezetekben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek revitalizálni az örökségi nyelveket és felhatalmazni az új beszélőket azáltal, hogy lehetővé teszik számukra az azonnali fordítás révén történő megértést és megértetést. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, mint például a tiltó költségek és a kimeneti minőségi problémák. A megoldás az, hogy a neurális motorokat klasszikus, szabályalapú motorokkal párosítjuk, amelyek lehetővé teszik a mérnökök számára, hogy megtisztítsák a jövevényszavakat és semlegesítsék a domináns nyelvek interferenciáját. Ez a munka leírja a LemkoTran.com-on telepített motor átalakítását, hogy lehetővé tegye a fordítást a lemkó nyelvre és nyelvről, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású nyelv, amely Lengyelország és Szlovákia határvidékén őshonos (ahol ruszin néven is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag informált főnév-, ige- és melléknévgenerátorokkal szerelték fel, amelyeket 877 lemma és 708 szószedeti bejegyzés táplált, és az egész rendszert 9518 automatikus, kodifikációra hivatkozó, kötelezően átmenő minőségellenőrzési teszttel szegecselték. Ennek a munkának az eredménye 23%-os javulás az angolra fordítás minőségében az utolsó publikáció óta, és 35%-os minőségi növekedés az angolról lemkóra fordításban, olyan fordításokat biztosítva, amelyek minden Google Translate szolgáltatást felülmúlnak minden mérőszám szerint, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán szolgáltatása, amikor lemkóra fordítanak.
Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars. In: Degen, H., Ntoa, S. (szerk.), Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science, 14051. kötet. Cham: Springer. https://doi.org/10.1007/978-3-031-35894-4_10
Orynycz, P.BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars
@incollection{orynycz2023bleu,
author = {Petro Orynycz},
title = {BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars},
booktitle = {Artificial Intelligence in HCI},
series = {Lecture Notes in Computer Science},
volume = {14051},
publisher = {Springer},
address = {Cham},
year = {2023},
doi = {10.1007/978-3-031-35894-4_10}
}
✅ A hozzájárulás ezen verzióját szakértői értékelés után elfogadták publikálásra, de nem ez a végleges kiadott verzió (Version of Record), és nem tükrözi az elfogadás utáni fejlesztéseket vagy javításokat. A végleges kiadott verzió (Version of Record) online elérhető a https://doi.org/10.1007/978-3-031-35894-4_10 címen. Az elfogadott verzió (Accepted Version) használatára a kiadó elfogadott kézirat felhasználási feltételei vonatkoznak: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
A nyelvek legalább negyedévente egy nyelvet elveszítve tűnnek el, és ez a veszteség 2062-re megháromszorozódik, 2100-ra pedig ötszörösére nő, több mint 1500 beszélő közösséget érintve [1, 163. és 169. o.]. Ezek az eredmények összefüggésben állnak az illegális szerhasználat [2, 179. o.], a 2-es típusú cukorbetegség [3], a mértéktelen alkoholfogyasztás és a támadások [4] megnövekedett előfordulásával, valamint hatszor magasabb ifjúsági öngyilkossági arányokkal, ha a közösség tagjainak kevesebb mint fele rendelkezik nyelvtudással [5].
Egy friss amerikai tanulmány kimutatta, hogy az őslakos nyelvek használata pozitív hatással van az egészségre, függetlenül a nyelvtudás szintjétől [6]. Egy lengyelországi kísérlet kimutatta, hogy a lemkó nyelv használata mérsékli a trauma kognitív elérhetőségéből eredő érzelmi, viselkedési és depressziós tüneteket [7].
A mesterséges intelligencia gépi fordítás segíthet az említett védőhatások terjesztésében az örökölt nyelvek beszélői körében, a haldokló és alvó nyelvek újjáélesztésével [8, 577. o.]. Például az új beszélők azonnal helyes szöveget állíthatnak elő, és élvezhetik az olvasás megértését automatikus gépi fordítóeszközök segítségével, amíg el nem érik a teljes, független folyékonyságot.
1.2 Vizsgált rendszer
Nyelv
A lemkó egy határozottan súlyosan veszélyeztetett [9, 177–178. o.] kelet-szláv nyelvjárás, amely délnyugat-ukrán genetikai besorolású [10, 52. o.; 11, 39. o.], és a Lengyel Köztársaság és a Szlovák Köztársaság közötti határvidéken őshonos; egyesek ruszin néven is emlegetik [11, 39. o.; 12].
Keleti határok
A lemkót keletre megkülönböztető egyedi izoglossza a rögzített paroxiton (utolsó előtti szótag) hangsúly, amely a lengyel és a kelet-szlovák nyelvjárásokkal közös jellemző [10, 161–162. és 972–973. o.; 11, 50. o.; 13, 70–73. o.], így kiterjedése Kelet-Szlovákiában legalább a Laborc folyóig terjed, utána átmeneti zónával [13, 70. o.; 11, 50. o.]. Eközben Lengyelországban a lemkó történelmi kiterjedése legalább az Osławica vagy a Wisłok folyókig ér, azon túl átmeneti zónával [11, 50. o.].
Nyugati határok
A lemkó történelmi nyugati határai a Poprád és a Dunajec folyók [14, 459. o.].
Elhelyezkedés
Az anyanyelvi beszélők ősi falvai, akiknek interjúi alkotják a korpuszt, a mai Kis-Lengyelország tartomány jelenlegi közigazgatási határain belül találhatók, amelynek fővárosa Krakkó.
lemkó név
Átírás
Lengyel név
Megyeszékhely
Községi székhely
Ізбы
Izbŷ
Izby
Gorlice
Uście Gorlickie
Ґлaдышiв
Gladŷšiv
Gładyszów
Gorlice
Uście Gorlickie
Чорне
Čorne
Czarne
Gorlice
Sękowa
Долге
Dolhe
Długie
Gorlice
Sękowa
Білцарьова
Bilcarʹova
Binczarowa
Nowy Sącz
Grybów
Фльоринка
Flʹorynka
Florynka
Nowy Sącz
Grybów
Чырна
Čŷrna
Czyrna
Nowy Sącz
Krynica-Zdrój
1. táblázat. A korpusz anyagában megkérdezett anyanyelvi beszélők ősi falvai.
2 A technológia állása
Tavaly publikálták a világ első minőségi értékelési eredményeit a lemkó gépi fordításokra vonatkozóan: BLEU 6.28, ami közel háromszorosa volt a Google Translate ukrán szolgáltatásának[1] (BLEU 2.17) [15, 570. o.]. Az előző évben kollégáimmal publikáltuk és bemutattuk a világ első eredményeit a lemkó-angol gépi fordításra vonatkozóan: BLEU 14.57 [16].
[1] Nyilatkozat: Fizetett ukrán, lengyel és orosz fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben. Ügyfelem székhelye San Franciscóban, Kaliforniában található.
A motor telepítésre került, és ingyenesen elérhetővé vált az univerzális erőforrás-azonosítón https://www.LemkoTran.com, ahol egy átírási motor működik 2017 őszétől. A fordítómotorra először Dr. Scherrer és Dr. Rabus hivatkozott nyomtatásban a Cambridge University Press Natural Language Engineering című folyóiratában 2019-ben [17].
3 Anyagok és módszerek
3.1 Anyagok
A kísérletet egy kétnyelvű korpuszon végezték, amely lemkó cirill átiratokat és angol fordításokat tartalmazott a Lengyelországban őshonos földekről erőszakkal áttelepített túlélőkkel és gyermekeikkel készített interjúkból. Az átiratokat és fordításaikat[1] 3267 szegmensben igazították egymáshoz, a Microsoft Word szerint a lemkó forrásszavak száma 68 944, az angol célszavak száma pedig 81 188 volt.
[1] A John és Helen Timo Alapítvány, Wilmington, Delaware, bízott meg az átiratok elkészítésével és lefordításával, akik ezután a munkatermékeket tudományos kutatási és fejlesztési törekvéseimhez adományozták.
Az igazság forrásai közé tartoztak Jarosław Horoszczak [18], Petro Pyrtej [19], Ihor Duda [20] és Janusz Rieger [21] szótárai, valamint Henryk Fontański és Mirosława Chomiak [22], valamint Petro Pyrtej [23] nyelvtanai.
3.2 Módszerek
Motorfrissítések
Ehhez a kísérlethez a LemkoTran.com-on telepített motort újonnan épített generátorokkal szerelték fel, amelyek a szófaj, a nyelvtani eset és a szám alapján készültek, azzal a céllal, hogy nyelvtanilag és szintaktikailag megfelelő fordításokat készítsenek 1585 szótári bejegyzéshez, amelyeknek körülbelül fele nem ragozódik lengyelül vagy lemkóul, lehetővé téve az egyszerű helyettesítést.
Minőségbiztosítási tesztek
A minőséget 9518 teszt biztosította, amelyeket lehetőség szerint összevetettek a fentebb, az Anyagok alatt felsorolt lemkó kodifikációkkal, nyelvtani szabályokkal és szótárakkal. Maguk a tesztek azt állítják, hogy a rendszer a megadott mondatokat a kívánt módon fordítja.
Leírás
Mennyiség
Főnév tő
414
Ige tő
296
Melléknév tő
167
Névmás, személyes
87
Névmás, egyéb
178
Számnév
86
Egyéb szótárbejegyzések
357
Összesen
1,585
2. táblázat. Rendszerszókincs.
Szabályalapú gépi fordítás (RMBT)
A szöveg lemkó vagy lengyel hangulatot kapott a karaktersorozatok, és különösen a ragozási végződések cseréjével.
Lengyel szekvencia
Lemkó sorozat
Pozíció
ować
uwaty
Végződés
iami
iamy
Végződés
ają
ajut
Végződés
ze
zo
Kezdő
pod
pid
Kezdő
3. táblázat. Példa karakterlánc-cserékre.
Fordítási minőség pontozása
A fordítási minőséget ipari szabványok szerinti mérőszámokkal mérték a SacreBLEU eszköz alapértelmezett beállításait használva, amelyet Matt Post talált fel az Amazon Researchnél [24]. Az összehasonlíthatóság kedvéért a lengyel nyelvet lemkó cirill betűkkel adták vissza, ugyanúgy, mint az utolsó kísérletben [15, 573. o.].
Kétnyelvű értékelési tanulmány (BLEU)
Ez az n-gram alapú metrika évtizedek óta széles körben elterjedt. Az Egyesült Államokban fejlesztették ki az IBM T. J. Watson Kutatóközpontban, a Védelmi Fejlett Kutatási Projektek Ügynökségének (DARPA) támogatásával és az Egyesült Államok Űr- és Haditengerészeti Hadviselési Rendszerek Parancsnokságának (SPAWAR) felügyeletével [25].
Fordítási szerkesztési arány (TER)
Ez a metrika a kimenet szemantikailag helyes fordításhoz való közelítéséhez szükséges szerkesztések számát tükrözi, célja, hogy toleránsabb legyen a kifejezésbeli eltolódásokkal szemben, mint a BLEU és más n-gram alapú metrikák. Meghatározása egy hipotézis és egy referencia közötti szerkesztési távolság számításának elosztásával történik az átlagos referencia szószámával. Fejlesztését az Egyesült Államokban szintén a DARPA támogatta [26].
Karakter n-gram F-pontszám (chrF)
Ez az európai metrika bizonyítottan nagyon jól korrelál az emberi ítéletekkel, és még a BLEU-t és a TER-t is felülmúlja [27].
4 Eredmények és megbeszélés
A kísérleti rendszer, a LemkoTran.com, minden mérőszám szerint felülmúlta a Google Translate összes szolgáltatását. Az angol-lemkó fordítás BLEU minőségi pontszámai 35%-kal javultak az utoljára publikált eredményekhez képest [15], négyszer jobb eredményt produkálva, mint a Google Translate következő legjobb ajánlata, az ukrán szolgáltatása. Eközben a lemkó-angol fordítás minősége 23%-kal javult az utoljára publikált eredmények óta [16], 16%-kal magasabb BLEU pontszámot érve el, mint a Google Translate által elért legjobb, amely az esetek 76%-ában automatikusan ukránként, 16%-ában oroszként, és 6%-ában fehéroroszként ismerte fel a lemkót.
4.1 Angol-lemkó fordítási minőség
Pontszámok
A LemkoTran.com-on telepített motor minden mérőszám szerint felülmúlta a Google Translate-et, amikor angolról lemkóra fordított. A kísérletben a következő legmagasabb pontszámot elérő rendszer vagy a Google Translate ukrán szolgáltatásának kimenete volt (a BLEU vagy chrF metrikák használatával), vagy a lengyel szolgáltatásáé (a TER metrika használatával).
BLEU
A LemkoTran.com-on telepített rendszer fordítási minősége, a legelterjedtebb BLEU metrika szerint mérve, 8,48-ra emelkedett, ami 35%-os javulást jelent a 2022-ben utoljára publikált eredményekhez képest [15], és most négyszerese a Google Fordító legmagasabb pontszámának.
1. ábra. Angol-lemkó fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus LemkoTran.com. Minél magasabb, annál jobb.
chrF
A LemkoTran.com motorja érte el a legjobb angol-lemkó karakter n-gram F-pontszámot (chrF 37.30), ami 37%-kal magasabb, mint a következő legjobb, a Google Translate ukrán szolgáltatása. Eközben a Google Translate orosz szolgáltatása magasabb pontszámot ért el, mint a lengyel és fehérorosz megfelelői, amikor a lemkó korpuszhoz viszonyítva mérték ezt a metrikát.
2. ábra. Angol-lemkó fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (NMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER
A LemkoTran.com motorja érte el a legjobb angol-lemkó fordítási szerkesztési arányt (TER), 81.33 pontszámmal. A Google Translate lengyel szolgáltatása érte el a második legjobb eredményt, szorosan követve az ukrán szolgáltatását.
3. ábra. Angol-lemkó fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (NMT) versus LemkoTran.com. Minél alacsonyabb, annál jobb.
Példák
Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.
Bemenet
A gyermekeink is okosak voltak. De hol kellett volna tanulniuk?
Leírás
Kimenet
Átírás
Minőségi pontszámok
Lemkó referencia (anyanyelvi beszélő)
В нас діти тіж были мудры, але де мали ся вчыти?
V nas dity tiž bŷly mudrŷ, ale de maly sja včŷty?
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvre LemkoTran.com által
Нашы діти тіж были мудры. але де мали ся вчыти?
Našŷ dity tiž bŷly mudrŷ. ale de maly sja včŷty?
BLEU 58,34 chrF2 79,03 TER 27,27
Google Fordító (kontroll)
Fordítás ukrán nyelvre
Наші діти теж були розумними. Але де вони мали вчитися?
Naši dity tež buly rozumnymy. Ale de vony maly včytysja?
BLEU 4,41 chrF2 25,80 TER 72,73
Fordítás orosz nyelvre
Наши дети тоже были умными. Но где им было учиться?
Naši deti tože byli umnymi. No gde im bylo učitʹsja?
BLEU 3,71 chrF2 16,95 TER 90,91
Fordítás lengyel nyelvre
Наше дзєці теж били мондре. Алє ґдзє мєлі сє учиць?
Naše dzjeci tež byly mondre. Alje gdzje mjeli sje učycʹ?
BLEU 3,12 chrF2 13,84 TER 100
Fordítás fehérorosz nyelvre
Разумныя былі і нашы дзеці. Але дзе яны павінны былі вучыцца?
Razumnyja byli i našy dzeci. Ale dze jany pavinny byli vučycca?
BLEU 3,09 chrF2 12,83 TER 100
4. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
Bemenet
És általánosságban elmondható, hogy a lengyelországi lemkóknak nincs, úgymond, olyan vezetőjük, aki mondana valamit.
Leírás
Termék
Átírás
Minőségi pontszámok
Lemkó referencia (anyanyelvi beszélő)
А воґулі Лемкы в Польщы не мают такого, же так повім, такого лідера, котрий бы штоси повіл.
A voguli Lemkŷ v Pol’ščŷ ne majut takoho, že tak povim, takoho lidera, kotryj bŷ štosy povil.
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvre a LemkoTran.com által
І генеральні Лемкы в Польщы не мают лидера, же так повім, котрий бы штоси повіл.
I heneral’ni Lemkŷ v Pol’ščŷ ne majut lydera, že tak povim, kotryj bŷ štosy povil.
BLEU 55,58 chrF2 65,32 TER 29,41
Google Fordító (kontroll)
Fordítás lengyel nyelvre
І ґенеральнє Лемковє в Польсце нє майон лідера, же так повєм, ктури би цось повєдзял.
I general’nje Lemkovje v Pol’sce nie majon lidera, že tak povjem, ktury by cos’ povjedzjal.
BLEU 9,26 chrF2 29,29 TER 82,35
Fordítás ukrán nyelvre
І взагалі, лемки в Польщі не мають лідера, так би мовити, який би щось сказав.
I vzahali, lemky v Pol’shchi ne mayut’ lidera, tak by movyty, yakyj by shchos’ skazav.
BLEU 5,15 chrF2 26,56 TER 82,35
Fordítás orosz nyelvre
И вообще, у лемков в Польше нет, так сказать, лидера, который бы что-то сказал.
I voobšče, u lemkov v Polʹše net, tak skazatʹ, lidera, kotoryj by čto-to skazal.
BLEU 2,96 chrF2 25,87 TER 88,24
Fordítás fehérorosz nyelvre
І ўвогуле лэмкі ў Польшчы ня маюць лідэра, так бы мовіць, які б нешта сказаў.
I ŭvohule lèmki ŭ Pol′ščy nja majuc′ lidèra, tak by movic′, jaki b nešta skazaŭ.
BLEU 2,72 chrF2 18,05 TER 100
5. táblázat. Fordítási hipotézisek összehasonlítása angol bemenetre.
Lemkó-angol fordítás
Pontszámok
Minden mérőszám szerint a LemkoTran.com-on telepített motor felülmúlta a Google Translate-et, amelynél a standard ukrán nyelvről történő fordítás mindig a második legjobb volt, ezt követte a forrásnyelv automatikus felismerése, majd a fehéroroszról, aztán a lengyelről történő fordítás, az orosz pedig mindig az utolsó helyen végzett. A Google Translate az esetek 76%-ában ukránként, 16%-ában oroszként, 6%-ában fehéroroszként, a fennmaradó időben pedig egyéb cirill betűs nyelvekként (pl. mongol) ismerte fel a lemkót.
BLEU
A LemkoTran.com 17,95 BLEU pontszámot ért el angolra fordítva, ami 23%-os javulás az utoljára publikált 14,57 BLEU pontszámhoz képest, és 16%-kal magasabb, mint a Google Fordító ukrán szolgáltatásának 15,43 BLEU pontszáma.
4. ábra. Lemkó-angol fordítási minőség a Kétnyelvű Értékelés Tanulmány (BLEU) pontszám alapján, Google Cloud Neural Machine Translation (NMT) szolgáltatások versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
chrF
A LemoTran.com-on telepített motor 45,89 karakteres n-gram f-pontszámot (chrF) ért el angolra fordítva, ami 5%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.
5. ábra. Lemkó-angol fordítási minőség a karakter n-gram F-pontszám (chrF) alapján, Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél magasabb, annál jobb.
TER
A LemkoTran.com 70,38 Translation Edit Rate (TER) pontszámot ért el angolra fordítva, ami 7%-kal jobb volt, mint a Google Fordító ukrán szolgáltatásának pontszáma.
6. ábra. Lemkó-angol fordítási szerkesztési arány (TER), Google Cloud Neural Machine Translation (GNMT) versus a kísérleti rendszer LemkoTran.com. Minél alacsonyabb, annál jobb.
Példák
Az angol bemenetre adott fordítórendszerek kimenete az alábbiakban található.
Leírás
Termék
Minőségi pontszámok
Anyanyelvi beszélő által elmondott lemkó szöveg átirata
Як розділяме языкы, то мала-м контакт з польскым, то не было так, же пішла-м до школы без польского, бо зме мали сусідів Поляків.
n/a
Átírás
Jak rozdiljame jazŷkŷ, to mala-m kontakt z pol’skŷm, to ne bŷlo tak, že pišla-m do školŷ bez pol’skoho, bo zme maly susidiv Poljakiv.
n/a
Kétnyelvű szakember által készített referenciafordítás
Ami a nyelvek szétválasztását illeti, volt kapcsolatom a lengyellel. Nem úgy volt, hogy lengyel tudás nélkül kezdtem az iskolát, mert lengyel szomszédaink voltak.
BLEU 100 chrF2 100 TER 0
Fordítás lemkó nyelvről a LemkoTran.com rendszerével
Amikor szétválasztjuk a nyelveket, volt kapcsolatom a lengyellel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert lengyel szomszédaink voltak.
Ahogy felosztjuk a nyelveket, akkor volt kapcsolatom a lengyellel, akkor nem úgy volt, és lengyel tudás nélkül jártam iskolába, mert lengyelek voltak a szomszédaim.
BLEU 15.87 chrF2 54.38 TER 72.00
belaruszból
Ahogy szétválasztjuk a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert kevés lengyel szomszédunk volt.
BLEU 11.76 chrF2 58.92 TER 68.00
oroszból
Ahogy terjesztjük a nyelveket, akkor kevés kapcsolatom volt a lengyellel, akkor nem úgy volt, de lengyel tudás nélkül jártam iskolába, mert a kígyók öngyilkosok voltak Polyakivban.
BLEU 6.87 chrF2 42.66 TER 92.00
lengyelből
Ahogy terjesztem a nyelvet, kevés kapcsolatom van a lengyel nyelvvel, nem úgy volt, hogy lengyel tudás nélkül jártam iskolába, mert megváltoztatom a kis lengyel nyelvemet.
BLEU 5.02 chrF2 45.35 TER 84.00
6. táblázat. A lemkó bemenet fordítási hipotéziseinek összehasonlítása.
5. Összefoglalás
A morfológiailag és szintaktikailag informált generátorok neurális motorokkal való párosítása legalább egyharmaddal javíthatja a gépi fordítás minőségét, miközben azzal az előnnyel is jár, hogy a mérnökök megtisztíthatják a jövevényszavakat és ellensúlyozhatják a domináns nyelvi interferenciát, valamint biztosíthatják a szabványoknak való megfelelést, például a kisebbségi nyelvek kodifikációit. A mesterséges intelligencia modellekben rejlő tökéletlenségek által okozott minőségi pontszám-üvegplafonok is áttörhetők a megfelelő mérnöki munkával. A lemkó, valamint a hasonlóan alacsony erőforrású, őslakos kisebbségi nyelvek esetében a fordítási minőség, valamint a revitalizációs forradalmak tekintetében most már a határ a csillagos ég.
Köszönetnyilvánítás
Szeretném megköszönni Dr. Ming Qiannek (Charles River Analytics) a kísérlet elvégzéséhez nyújtott inspirációt, Michael Decerbónak (Raytheon BBN Technologies) és Dr. James Joshua Penningtonnak az éleslátó megjegyzéseiket, valamint Dr. Yves Scherrernek (Helsinki Egyetem) a projekt iránti érdeklődését és ötleteit.
Hivatkozások
Bromham, L., Dinnage, R., Skirgård, H. Ritchie, A., Cardillo, M., Meakins, F., Greenhill, S., Hua, X.: Global predictors of language endangerment and the future of linguistic diversity. Nature Ecology & Evolution 6, 163–173 (2022). https://doi.org/10.1038/s41559-021-01604-y
Gonzalez, M., Aronson, B., Kellar, S., Walls, M., Greenfield, B.: Language as a Facilitator of Cultural Connection. ab-Original 1(2), 176–194 (2017). https://doi.org/10.5325/aboriginal.1.2.0176
Oster, R., Grier, A., Lightning, R., Mayan, M., Toth, E.: Cultural continuity, traditional Indigenous language, and diabetes in Alberta First Nations: a mixed methods study. International Journal for Equity in Health 13, 92 (2014). https://doi.org/10.1186/s12939-014-0092-4
Hallett, D., Chandler, M., Lalonde, C.: Aboriginal language knowledge and youth suicide. Cognitive Development 22(3), 392–399 (2007). https://doi.org/10.1016/j.cogdev.2007.02.001
Whalen, D., Lewis, M., Gillson, S., McBeath, B., Alexander, B., Nyhan, K.: Health effects of Indigenous language use and revitalization: a realist review. International Journal for Equity in Health 21, 169 (2022). https://doi.org/10.1186/s12939-022-01782-6
Skrodzka, M., Hansen, K., Olko, J., Bilewicz, M.: A kisebbségi nyelv kettős szerepe a történelmi traumában: A lemkó kisebbség esete Lengyelországban. Journal of Language and Social Psychology. 39(4) 551–566 (2020). https://doi.org/10.1177/0261927X20932629
Zhang, S., Frey, B., Bansal, M.: ChrEn: Cherokee-angol gépi fordítás a veszélyeztetett nyelvek revitalizációjához. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 577–595. o. Association for Computational Linguistics, Online (2020). http://dx.doi.org/10.18653/v1/2020.emnlp-main.43
Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej (lengyelül). In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.) Integral Strategies for Language Revitalization, 1. kiadás, 175–200. o. Faculty of “Artes Liberales”, University of Warsaw, Varsó (2016). https://culturalcontinuity.al.uw.edu.pl/resource/integral-strategies-for-language-revitalization/
Shevelov, G.: A Historical Phonology of the Ukrainian Language (ukrán fordítás). Vakulenko, S., Danylenko, A. (trans.), Ushkalov, L. (ed.). Naukove vydavnyctvo “AKTA”, Kharkiv (2002, original work published 1979). http://irbis-nbuv.gov.ua/ulib/item/UKR0001641
Vaňko, J.: A ruszin nyelv Szlovákiában: két tűz között. In: Duchêne, A. (szerk.) International Journal of the Sociology of Language, 2007. kötet, 183. szám, 75–96. o. Walter de Gruyter GmbH, Berlin (2007). https://doi.org/10.1515/IJSL.2007.005
Sopolyha, M.: Do pytanʹ etničnoï identyfikaciï ta sučasnyx etničnyx procesiv ukraïnciv Prjašivščyny (ukránul). In: Skrypnyk, H. (szerk.) Ukraïnci-rusyny: etnolʹinhvistyčni ta etnokulʹturni procesy v istoryčnomu rozvytku, 454–487. o. National Academy of Sciences of Ukraine, National Association of Ukrainian Studies, Rylsky Institute of Art Studies, Folklore and Ethnology, Kijev (2013). http://irbis-nbuv.gov.ua/ulib/item/UKR0001502
Orynycz, P.: Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó revitalizálására. In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science, 13336. kötet, 567–580. o. Springer, Cham (2022). https://doi.org/10.1007/978-3-031-05643-7_37
Orynycz, P., Dobry, T., Jackson, A., Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021, 21176. számú cikk. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.) Natural Language Engineering, 25. kötet, 5. szám, 633–650. o. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
Rieger, J.: Słownictwo i nazewnictwo łemkowskie (lengyelül). Wydawnictwo naukowe Semper, Warsaw (1995).
Fontański, H., Chomiak, M.: Gramatyka języka łemkowskiego (lengyelül). Wydawnictwo Naukowe „Śląsk”, Katowice (2000).
Pyrtej, P.: Dialekt łemkowski. Fonetyka i morfologia (lengyelül). Hojsak, W. (ed.). Zjednoczenie Łemków, Gorlice (2013).
Post, M.: Felhívás a BLEU pontszámok jelentésének egyértelműségére. In: Proceedings of the Third Conference on Machine Translation (WMT), 1. kötet, 186–191. o. Association for Computational Linguistics, Brüsszel (2018). https://doi.org/10.48550/arXiv.1804.08771
Papineni, K., Roukos, S., Ward, T., Wei-Jing, Z.: BLEU: Módszer a gépi fordítás automatikus értékelésére. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 02), 311–318. o. Association for Computational Linguistics, Philadelphia (2002). https://doi.org/10.3115/1073083.1073135
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A fordítási szerkesztési arány vizsgálata célzott emberi annotációval. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, 223–231. o. Association for Machine Translation in the Americas, Cambridge (2006). https://aclanthology.org/2006.amta-papers.25
Popović, M.: chrF: karakter n-gram F-pontszám az automatikus MT értékeléshez. In: Proceedings of the Tenth Workshop on Statistical Machine Translation, 392–395. o. Association for Computational Linguistics, Lisszabon (2015). http://dx.doi.org/10.18653/v1/W15-3049
A mesterséges intelligencia által működtetett neurális gépi fordítás hamarosan újjáélesztheti a veszélyeztetett nyelveket azáltal, hogy felhatalmazza az új beszélőket a valós idejű kommunikációra, olyan mondatok használatával, amelyek számszerűsíthetően közelebb állnak az irodalmi normához, mint az anyanyelvi beszélőké, és a nyelvi visszaszerzésük első napjától kezdve. Míg a Szilícium-völgy hatalmas erőforrásokat fektetett a neurális fordítási technológiába, amely emberfeletti sebességre és pontosságra képes a világ legszélesebb körben használt nyelvei esetében, addig 98%-uk lemaradt, korpuszok hiánya miatt: a neurális gépi fordítási modellek több millió szavas kétnyelvű szövegen alapulnak, amelyek egyszerűen nem léteznek a legtöbb nyelv esetében, és nyelvénként több mint százezer amerikai dollárba kerül az összeállításuk.
Az alacsony erőforrású nyelvek esetében létezik egy leleményesebb, ha nem hatékonyabb megközelítés: az átviteli tanulás, amely lehetővé teszi az alacsonyabb erőforrású nyelvek számára, hogy profitáljanak a magasabb erőforrású nyelvek eredményeiből. Ebben a kísérletben a Google angol-lengyel neurális fordítási szolgáltatását párosították a klasszikus, szabályalapú motorommal, hogy angolról a veszélyeztetett, alacsony erőforrású, kelet-szláv lemkó nyelvre fordítsanak. A rendszer 6,28-as kétnyelvű értékelési alvizsgálati (BLEU) minőségi pontszámot ért el, ami többszörösen jobb, mint a Google Fordító angol-standard ukrán (BLEU 2,17), orosz (BLEU 1,10) és lengyel (BLEU 1,70) szolgáltatásai. Végül ennek a kísérletnek az eredménye, a világ első angol-lemkó fordítási szolgáltatása elérhetővé vált a www.LemkoTran.com webcímen, hogy felhatalmazza az új beszélőket nyelvük újjáélesztésére.
Az új beszélők kulcsfontosságúak a nyelv újjáélesztésében, és a lemkó nyelven való „Mondd jól” képessége most már a kezükben van.
Kérem, így hivatkozzon: Orynycz, P. (2022). Mondd jól: AI idegi gépi fordítás segíti az új beszélőket a lemkó nyelv újjáélesztésében. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia az HCI-ben. HCII 2022. Lecture Notes in Computer Science, 13336. kötet. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
Ez a kísérlet célja, hogy helyi szinten hozzájáruljon a nyelvi veszteség globális kihívásához, amely naponta egy nyelv eltűnésével járhat, és tízből mindössze egy nyelv marad fenn [1, p. 1329]. A sajtó idején az SIL International Ethnologue című kiadványa Lewis és Simons 2010-es kiterjesztett, fokozatos intergenerációs zavar skáláját használja annak becslésére, hogy 3018 nyelv veszélyeztetett [2], ami a sajtó idején a Nemzetközi Szabványügyi Szervezet ISO 639-3 szabványában [3] számon tartott 7001 egyedi élő nyelv 43%-a. Eközben a Google Fordító csak 108 [4], a Facebook pedig 112 [5] nyelvet támogat, ami már egy kezdet. Mindazonáltal egy nyelvvel kevesebb van most alulreprezentálva, mivel e kísérlet eredményét egy webszerverre telepítették nyilvános fordítási szolgáltatásként.
Új mesterséges intelligencia technológiák kecsegtetnek azzal az ígérettel, hogy ember-számítógép interakcióval azonnal kompenzálják a nyelvi veszteséget. Előző kísérletemben a következő generációs neurális motorok magasabb minőségi pontszámokat értek el orosz és lengyel nyelvről angolra fordítva, mint az emberi kontroll [6, p. 9]. Eközben a Facebook és a Google1 hatalmas erőforrásokat fektetett abba, hogy emberi teljesítményt felülmúló automatikus fordítási rendszereket biztosítson a fogyasztók számára nulla költséggel.
1 Nyilatkozat: Fizetett orosz, lengyel és ukrán nyelvészként, valamint fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben; a központ San Franciscóban található.
Az emberfeletti mesterséges intelligencia nem olcsó: a neurális nyelvi modellek képzéséhez kétnyelvű korpuszokra van szükség, amelyek szószámuk százezrekben, ideális esetben milliókban mérhető, ami több százezer dollárba kerülne lefordítani, olyan összegekbe, amelyek meghaladják a legtöbb alacsony erőforrású nyelvi közösség lehetőségeit. Szerencsére ez a kísérlet azt mutatja, hogy vannak találékonyabb és hatékonyabb módok a veszélyeztetett nyelvek újjáélesztését célzó fordítási segédeszközök létrehozásának kihívására.
1.2 Eddigi munka
Én építettem a világ első lemkó-angol gépi fordítási rendszerét, és nyilvánosan elérhetővé tettem. Objektív fordítási minőségi pontszámai javultak: a motor 2021 nyarán 14,57-es BLEU (bilingual evaluation understudy) pontszámot ért el, amelyet a Nemzeti Védelmi Ipari Szövetség Szolgálatközi/Ipari Képzési, Szimulációs és Oktatási Konferenciáján mutattak be szakembereknek, és közzétettek annak kiadványaiban [6]. Referenciaként én 28,66-os BLEU pontszámot értem el emberi fordítóként, terepi körülmények között dolgozva, elzárva a külvilágtól. 2021 őszére a motor elérte a 15,74-es BLEU pontszámot, amiről a Pittsburghi Egyetem által szervezett bemutató eseményen számoltak be nyelvészeknek, akadémikusoknak és a szélesebb közösségnek.2
2 Nyilatkozat: az eseményt a Kárpát-Ruszin Társaság (Pennsylvania) támogatta, és a Pittsburghi Egyetem fizetett a prezentációmért.
1.3 Vizsgált rendszer
A lemkó nyelv határozottan súlyosan veszélyeztetett [6, p. 3, 7, pp. 177-178], alacsony erőforrású [8], hivatalosan elismert kisebbségi nyelv [9], amely feltehetően a Krakkó, Tarnów és Rzeszów nagyvárosi területektől délre fekvő, határokon átnyúló hegyvidékek őshonos nyelve; a történelmi elhatároló izoglosszák remélhetőleg egy jövőbeli tanulmány témái lesznek. Lengyelország népszámlálási hivatala 2011-ben 6279 lakost számlált, akik számára a lemkó volt az „általában otthon használt” nyelv (még ha a lengyel mellett is) [10, p. 3], ami 12%-os növekedést jelent a 2002-es 5605 főhöz képest, akik számára a lemkó volt a „leggyakrabban otthon beszélt” nyelv [11, p. 6, 12, p. 7]. A sajtó idején egy új számlálás eredményeit dolgozzák fel.
A lemkó keleti szláv nyelvként osztályozható, mivel megfelel a szokásos genetikai szerkezeti jellemzők kritériumainak, amelyek közül a legjelentősebb a pleofónia [13, 20. o.], amely szerint egy magánhangzó keletkezett az ős-szláv mássalhangzó-sorozatokban C amelyet közép- vagy mély magánhangzó követ V (*e, vagy *o, amellyel *a összeolvadt [14, p. 366]), amelyet folyékony R követ (azaz, *l vagy *r), amelyet egy másik mássalhangzó követ C, azaz CVRC > CVRVC. Illusztrációként hasonlítsa össze az óangol „olvad” szót, a meltan (CVRC) [15, 718. o.] feltételezett lemkó rokonával, a mołódyj [16, 92. o., 17, 150. o.] (CVRC) szóval, ami „fiatal”-t jelent. Más keleti szláv rokon szavak közé tartozik az ukrán mołodýj és az orosz mołodój[17], mindkettő magánhangzót mutat a likvida után (CVRVC). Eközben a nyugati szláv nyelvekben hiányzik a magánhangzó a likvida előtt; hasonlítsa össze a lengyel młody és a szlovák mladý szavakat (mindkettő CRVC) [17]. Továbbá, rokonságot feltételeztek más, „enyhe” jelentésű szavak esetében is, beleértve a szanszkrit mṛdú (CRC) [18, p. 830] és a latin mollis (CVRC ha a *moldvis szóból ered) [15, 17, 19, p. 323].
Azt, hogy a lemkó mennyire felel meg a szokásos, modern ukrán genetikai szerkezeti jellemzők kritériumainak, ebben a kísérletben nem értékelték. Azonban a lemkó és a standard ukrán közötti hasonlóságot számszerűsítették, tudomásom szerint először nyomtatásban. Alább a lemkó motorom 6,28-as BLEU pontszámot ért el, ami közel háromszorosa a Google Translate ukrán szolgáltatásának 2,17-es BLEU pontszámának. További kísérleteket lehetne végezni a lemkó, a standard ukrán, a lengyel és a Szlovákiában kodifikált ruszin közötti hasonlóság számszerűsítésére, valamint a lemkó tipológiai osztályozásának új megközelítésére.
Az erőforrások mennyisége és minősége javult, ahogy a technológia által megerősített találékonyság is. Az összes ismert kétnyelvű korpuszt, amely kevesebb mint hetvenezer lemkó szót tartalmazott, összegyűjtötték ehhez a kísérlethez. Tisztítottam egy kétnyelvű korpuszt, amely Lengyelországban anyanyelvi beszélőkkel készített interjúk átiratait és az azokról készült angol fordításaimat tartalmazta, amelyeket egy amerikai ügyfél fizetett ki nekem, és engedélyezte a felhasználásukat. Monolingvális korpuszokat is összeállítok, amelyek a sajtó megjelenésekor összesen 534 512 szót tesznek ki.
1.4 Hipotézis
Az én szubjektív benyomásom alapján, mint professzionális fordító, hogy a Lengyelországban megkérdezett lemkó anyanyelvűek nagyobb valószínűséggel használtak nyilvánvaló lengyel rokon szavakat, mint standard ukránokat, azt feltételeztem, hogy minden más tényező egyenlő feltételezése mellett egy gép konfigurálható lenne angolról lemkóra történő fordításra, és magasabb BLEU objektív minőségi pontszámokat érhetne el, mint a Google Translate ukrán és orosz szolgáltatásai.
1.5 Előrejelzések
Lemkó Fordítási Rendszer. Azt jósoltam, hogy az említett fordítási rendszer 15-ös BLEU pontszámot ér el angolról lemkóra fordítva a kétnyelvű korpusz alapján.
Google Fordító.
Angol-ukrán szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-ukrán szolgáltatása 10-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
Angol-orosz szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-orosz szolgáltatása 1-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
1.6 Módszerek és indoklás
A sebesség, az erőforrás-megőrzés és a robusztusság érdekében egy, a munkáltatóm által elavultnak ítélt laptop számítógépet konfiguráltak lemkóra történő fordításra és hívások kezdeményezésére a Google Cloud Platform Google Translate szolgáltatásához, valamint konfigurálták az említett fordítások értékelésére az iparági szabvány BLEU metrika segítségével.
1.7 Fő eredmények
Az angol-lemkó fordítási rendszer kumulatív BLEU pontszáma 6.28431824990417 volt. Eközben a Google Translate ukrán szolgáltatása 2.16830846776652 BLEU pontszámot ért el, orosz szolgáltatása 1.10424105952048 BLEU pontszámot, és a cirill ábécére átírt lengyel kontroll 1.70036447680114 BLEU pontszámot.
2 Anyagok és módszerek
A fenti hipotézist úgy tesztelték, hogy kiszámították a BLEU minőségi pontszámokat az alább részletezett módon beállított fordítórendszerek mindegyikére.
2.1 Beállítás
Hardver. A kísérletet egy HP Elitebook 850 G2 laptopon végezték, amely Core i7-5600U 2.6GHz processzorral és 16 gigabájt véletlen hozzáférésű memóriával rendelkezett. A munkáltatóm elavultnak ítélte és a sajtó idején 450 USD-ért hirdették eladásra.
Konfiguráció. Az alapvető bemeneti/kimeneti rendszer (BIOS) menüjében az eszközt úgy konfigurálták, hogy engedélyezze a virtualizációs technológiát (VTx).
Operációs rendszer. Windows 10 Professional 64 bit volt telepítve csupasz fémre. Biztosították, hogy a Virtual Machine Platform és Windows Subsystem for Linux Windows funkciók engedélyezve legyenek. Ezután telepítették a WSL2 Linux kernel update for x64 gépeket (wsl_update_x64.msi), amelyek a Microsofttól https://aka.ms/wsl2kernel címen érhetők el.
Szoftver. A Docker Desktop for Windows 4.4.3 (73365) verziójú telepítőjét letöltötték a https://www.docker.com/get-started címről, és futtatták a Install required Windows components for WSL 2 selected opcióval.
Csomagok. A kísérlet az alábbi Python Package Index csomagokra támaszkodott.
SacreBLEU. A 2.0.0-s verziót a következő univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették: https://pypi.org/project/sacrebleu/2.0.0/
A fenti függőségeket a követelmények fájlban a következőképpen adták meg: google-cloud-translate==2.0.1 sacrebleu==2.0.0
Konténer.
Építés. A kísérletet egy Docker konténerben futtatták, amely a Python programozási nyelv legújabb verzióját (akkoriban 3.10.2-es verzió) tartalmazta, Debian Bullseye 11 Linux operációs rendszeren, AMD64 architektúrán, a Secure Hash Algorithm 2 rövidített kivonatával bcb158d5ddb6, amely a következő paranccsal szerezhető be: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Futtatás. A konténert úgy konfigurálták, hogy a nyers kísérleti adatfájlokat egy helyi, csatlakoztatott kötetre mentse.
Fordítási minőség pontozása. A fordítási minőségi pontszámokat a BLEU metrika szerint számították ki a SacreBLEU eszköz 2.0.0-s verziójával, amelyet Post [20] talált fel.
Kis- és nagybetű érzékenység. Az értékelést kis- és nagybetű érzékeny módon végezték.
Tokenizálás. A szegmenseket a Statisztikai Gépi Fordítás Műhely szabványos pontozási szkript metrika belső tokenizálási eljárásának 13a verziójával tokenizálták.
Simítási módszer. Az Egyesült Államok szövetségi kormányzati alkalmazottai által a National Institute of Standards and Technology-nál a Multimodális Információs Csoport BLEU eszközkészletéhez kifejlesztett simítási technikát, amely Chen és Cherry [21, p. 363] által leírt harmadik technika, alapértelmezés szerint alkalmazták.
Aláírás. A fenti beállítások a következő aláírást eredményezték: n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibrálás. A fentiek szerint konfigurálva a gép a következő kimenetet produkálja:
Magyarázat. A hipotézis két karakterrel különbözött a referenciától. A gép rosszul fordította a tagadó igekötőt, a „nem” (ni) szót használta a várt „nem” (ne) szó helyett. Ezt azóta nagyrészt kijavították. A gép vesszőt is tett a pamjatam után, ami azt jelenti, hogy „emlékszem”. Ez 100-ról 43,47-re csökkentette a pontszámot, ami egyébként tökéletes lett volna.
Kontroll. Mivel a korpusz Lengyelországban készített interjúkon alapul, a lengyel fordításokat használták kontrollként. Ezeket cirill ábécére írták át, megfordítva a lengyel Belügyminisztérium által a lemkó nevek átírására vonatkozó szabályokat [22, 6564. o.]. A lengyel nazális magánhangzókat magánhangzóra és nazális zárhangra bontották, kivéve az approximánsok előtt, ahol közvetlenül denazalizálták őket. Szó végén az elülső nazális magánhangzó /ę/ egyszerűen denazalizálódott, a hátsó /ą/ pedig úgy íródott át, mintha egy dentális zárhang követné.
3 Eredmények
A nyilvánosan elérhető motor a www.LemkoTran.com címen az első helyet szerezte meg 6,28-as kumulatív fordítási minőségi pontszámmal, ami közel háromszorosa a második helyezett, a Google Fordító angol-ukrán szolgáltatásának (BLEU 2,17) pontszámának. Ezután következett az angol-lengyel szolgáltatása (BLEU 1,70), az angol-orosz szolgáltatása pedig az utolsó helyen végzett (BLEU 1,10).
1. táblázat. Angol-lemkó fordítási minőség: LemkoTran.com kontra Google Translate
3.1 Eredmények gépi fordítási szolgáltatás szerint
Kontroll. Cirill betűkre átírva a Google Fordító standard lengyel fordításai 1,70-es korpuszszintű BLEU pontszámot értek el. Teljesítményének mintái a következők:
2174. szegmens.
Angol forrás
We had still been in Izby, right.
Lemkó hivatkozás és átírás
То мы іщы были в Ізбах, так.
To mŷ iščŷ bŷly v Izbach, tak.
Lengyel hipotézis és átírás
Билісьми єще в Ізбах, так.
Byliśmy jeszcze w Izbach, tak.
Pontszám
BLEU = 46.20
854. szegmens.
Angol forrás
And that's what it's all about.
Lemkó hivatkozás és átírás
І о то ходит.
I o to chodyt.
Lengyel hipotézis és átírás
І о то власьнє ходзі.
I o to właśnie chodzi.
Pontszám
BLEU = 32.47
217. szegmens.
Angol forrás
And that's what it's all about.
Lemkó hivatkozás és átírás
Так мі повіл.
Tak mi povil.
Lengyel hipotézis és átírás
Так мі повєдзял.
Tak mi powiedział.
Pontszám
BLEU = 35.36
Hibrid angol-lemkó motor. A nyilvánosan elérhető motor a www.LemkoTran.com URL-en 6,28-as korpuszszintű BLEU pontszámot ért el.
1031. szegmens.
Angol forrás
Everything was there.
Lemkó hivatkozás és átírás
Вшытко там было.
Všŷtko tam bŷlo.
Lemkotran.com hipotézis és átírás
Вшытко там было.
Všŷtko tam bŷlo.
Pontszám
BLEU = 100.00
1445. szegmens.
Angol forrás
But that officer took that medal and said,
Lemkó hivatkozás és átírás
Але тот офіцер взял тот медаль і повідат:
Ale tot oficer vzial tot medal' i povidat:
Lemkotran.com hipotézis és átírás
Але тот офіцер взял тот медаль і повіл:
Ale tot oficer vzial tot medal' i povil:
Pontszám
BLEU = 75.06
217. szegmens.
Angol forrás
That's what he said to me.
Lemkó hivatkozás és átírás
Так мі повіл.
Tak mi povil.
Lemkotran.com hipotézis és átírás
Так мі повіл.
Tak mi povil.
Pontszám
BLEU = 100.00
Ukrán. A Google Fordító standard ukrán nyelvre fordított szövegei korpuszszintű BLEU-pontszáma 2,35 volt.
2419. szegmens.
Angol forrás
Where and when?
Lemkó hivatkozás és átírás
Де і коли?
De i koly?
Ukrán hipotézis és átírás
Де і коли?
De i koly?
Pontszám
BLEU = 100.00
1096. szegmens.
Angol forrás
We were there for three months.
Lemkó hivatkozás és átírás
Там зме были три місяці.
Tam zme bŷly try misiaci.
Ukrán hipotézis és átírás
Ми були там три місяці.
My buly tam try misjaci.
Pontszám
BLEU = 30.21
2513. szegmens.
Angol forrás
Well, here to the west.
Lemkó hivatkozás és átírás
Но то ту на захід.
No to tu na zachid.
Ukrán hipotézis és átírás
Ну, тут на захід.
Nu, tut na zachid.
Pontszám
BLEU = 30.21
Orosz. A Google Fordító angolról oroszra fordító szolgáltatása korpuszszintű BLEU-pontszáma 1,10 volt.
432. szegmens.
Angol forrás
Nobody knew.
Lemkó hivatkozás és átírás
Нихто не знал.
Nychto ne znal.
Orosz hipotézis és átírás
Никто не знал.
Nikto ne znal.
Pontszám
BLEU = 59.46
2751. szegmens.
Angol forrás
What did they expel us for?
Lemkó hivatkozás és átírás
За што нас выгнали?
Za što nas vŷhnaly?
Orosz hipotézis és átírás
За что нас выгнали?
Za čto nas vygnali?
Pontszám
BLEU = 42.73
2164. szegmens.
Angol forrás
Brother went off to war.
Lemkó hivatkozás és átírás
Брат пішол на войну.
Brat pišol na vojnu.
Orosz hipotézis és átírás
Брат ушел на войну.
Brat ušel na vojnu.
Pontszám
BLEU = 42.73
4. Megbeszélés
A lemkó fordítási rendszer korpuszszintű 6,28-as BLEU pontszáma azt jelzi, hogy bár még sok a tennivaló, a dolgok jó úton haladnak. A standard orosz 1,10-es BLEU pontszáma azt jelzi, hogy a lemkó kevésbé hasonlít az oroszra, mint a lengyelre (BLEU 1,70). Talán a forradalom előtti helyesírás használata növelhetné az orosz pontszámát, de ez egy drága kísérlet lenne, kevés nyilvánvaló előnnyel.
A transzliterált standard lengyel kontroll hasonlósági BLEU-pontszám, 1,70, azt jelzi, hogy a domináns lengyel nyelv kevésbé zavaró, mint várható lenne. Érdekes lenne újratervezni a kísérletet, ahol néhány számítástechnikailag olcsó és nyilvánvaló hangmegfelelést (például az *ę denazalizációját /ja/-ra és az *ǫ denazalizációját /u/-ra, az *i visszahúzását /y/-ra, és a *g változását /h/-ra [23]) alkalmaznának a lengyel nyelvre, hogy lássák, akkor magasabb pontszámot érne-e el, mint a standard ukrán.
Összefoglalva, a lemkó nyelvet szintetizálták a laborban, és az előállításának képességét új és anyanyelvi beszélők kezébe adták. Egy alapos motorfelújítás és szószedet-bővítés után a következő lépés az, hogy objektíven mérjék, és ha lehetséges, a beszélők szubjektíven értékeljék a szintetikus lemkó minőségét az anyanyelvi beszélők által előállítottal szemben. Közelebb van az a nap, amikor az alacsony erőforrású nyelvek új beszélői gépi fordítást használhatnak nyelvükön való kommunikáció megkezdéséhez egyik napról a másikra, ahogy közelebb van az a nap is, amikor a lemkó nyelv csatlakozik a korábban veszélyeztetett, de most már újjáélesztett nyelvek sorához.
Köszönetnyilvánítás. Szeretném megköszönni kollégámnak, Ming Qiannek a Peraton Labs-tól, hogy inspirált engem e kísérlet elvégzésére, és Brian Stensrudnak a Soar Technology, Inc.-től, hogy bemutatott minket, valamint a bátorítását.
Szeretném megköszönni barátomnak, Corinna Caudillnak a bátorítását és személyes érdeklődését a projekt iránt, valamint azt, hogy bemutatott a Kárpát-Ruszin Társaság elnökének, Maryann Sivaknak a Pittsburghi Egyetemről, akinek szeretném megköszönni a lehetőséget, hogy bemutathattam a munkámat.
Szeretném megköszönni Maria Silvestrinek, a John és Helen Timo Alapítványtól, hogy interjúkat készített lemkó anyanyelvi beszélőkkel, és adományozta az átiratokat, valamint az azokról készült fordításaimat a kutatás és fejlesztés számára.
Szeretném megköszönni Achim Rabusnak a Freiburgi Egyetemről és Yves Scherrernek a Helsinki Egyetemről a projekt iránti érdeklődésüket és ötleteiket.
Szeretném megköszönni Myhal’ Lŷžečkónak az InterFyisa kisebbségi nyelvi technológiai blogtól a projekt iránti korai érdeklődését és a közösségi kapcsolattartást.
Szeretném megköszönni Zahoczewie-i társamnak, Marko Łyszyknek a projekt iránti érdeklődését és a közösségi kapcsolattartást.
Végül szeretném megköszönni társszerzőmnek és az Antech Systems Inc. kollégájának, Tom Dobrynak a bátorítását és útmutatását.
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: A világ nyelvei, SIL International. Huszonnegyedik kiadás. SIL International, Dallas (2021). Online verzió: Hány nyelv veszélyeztetett?, https://www.ethnologue.com/guides/how-many-languages-endangered, utolsó hozzáférés: 2022.02.11.
6. ^^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021 konferencia kiadványában, 21176. számú tanulmány. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.), Integral Strategies for Language Revitalization, pp. 175–200. Első kiadás. „Artes Liberales” Kar, Varsói Egyetem, Varsó (2016).
8. ^ Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
17. ^^^^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: Szanszkrit-angol szótár etimológiailag és filológiailag rendezve, különös tekintettel a rokon indoeurópai nyelvekre, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: A szláv örökölt lexikon etimológiai szótára. In: Lubotsky, A. (szerk.) Leiden Indo-European Etymological Dictionary Series, 4. kötet, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: Felszólítás a BLEU pontszámok jelentésének egyértelműségére. In: A Harmadik Gépi Fordítási Konferencia (WMT) kiadványában, 1. kötet, o. 186–191. Association for Computational Linguistics, Brüsszel (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: A mondatszintű BLEU simítási technikáinak szisztematikus összehasonlítása. In: A Kilencedik Statisztikai Gépi Fordítási Műhely kiadványában, o. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, pp. 6560–6573. Rządowe Centrum Legislacji, Varsó (2005).
23. ^ Shevelov, G.: Az H és az új G kronológiájáról az ukrán nyelvben. In: Harvard Ukrainian Studies, 1. kötet, 2. szám, o. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942
To be or not to be? Быти або не быти? That is the question, and now you can conjugate the infinitives made famous by the opening line of Hamlet’s soliloquy in Lemko using the automatic translation service LemkoTran, or craft your own copulae using this handy DIY guide.
The Lemko verb быти (scientific transliteration: ⟨bŷty⟩) means”to be” in English, być in Polish, бути ⟨buty⟩ in Standard Ukrainian, and быть ⟨byt’⟩ in Muscovite Russian.
English
Lemko
Polish
Ukrainian
Russian
be
быти ⟨bŷty⟩
być
бути
быть
Translations of the Lemko verb быти into English, Polish, Ukrainian, and Russian.
Etymology
The Lemko infinitive быти ⟨bŷty⟩, meaning „to be”, comes from the Proto-Slavic athematic verb *byti, and is related to Sanskrit भूति ⟨bhūtíṣ⟩ „wellbeing” (Vasmer 1953, p. 159; Pokorny 1959 147), Persian بودن ⟨būdan⟩ „be” (Pokorny, p. 147), Latin futūrus „future” (Vasmer, p. 159, Pokorny, p. 149), and via Old English bēon, English be (Pokorny, p. 149).
Attestation
Hamlet’s famous opening line „To be or not to be, that is the question” is alluded to in the following published pieces found in the wild:
Для дакотрых орґанізаций є то быти або не быти, значыт, без тых грошів не сут в силі нич зреализувати.” (LEM.fm 2021)
Transcription
dl'a dakotrŷch organizacyj je to bŷty abo ne bŷty, značŷt, bez tŷch hrošiv ne sut v syl'i nyč zrealyzuvaty.
Translation
For some organizations, it's to be or not to be, meaning they will not be able to achieve anything without those funds.
От нашых діл и нашой віры буде рішатися вопрос: ци нам лемкам быти, ци не быти?….” (Цисляк 1964, p. 162)
Transliteration
Ot našŷch dil y našoj virŷ bude rišatysia vopros: cy nam lemkam bŷty, cy ne bŷty?…
Translation
Our affairs and our faith will be decide the question of whether we Lemkos are to be or not to be…
Inflection
Future Tense
Root: буд– ⟨bud-⟩
The future tense of the Lemko verb for to be, быти ⟨bŷty⟩, is formed by adding personal endings to the root bud-, equivalent to will in English.
Etymology
Lemko bud- comes from the Proto-Slavic root *bǫd-. Compare the suffix -bund in English moribund from Latin moribundus (Pokorny, p. 150, Vasmer, p. 136).
Conjugation Table
English
Lemko
Polish
Ukrainian
Russian
I will
буду ⟨búdu⟩
będę
буду
буду
you will
будеш⟨búdeš⟩
będziesz
будеш
будешь
(s)he will
буде ⟨búdet⟩
będzie
буде
будет
we will
будеме ⟨budéme⟩
będziemy
будемо
будем
you all will
будете ⟨budéte⟩
będziecie
будете
будете
they will
будут ⟨búdut⟩
będą
будуть
будут
Forms of the future tense conjugation of Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
In Lemko, the present tense of the verb to be is formed in the singular from the root є- ⟨je-⟩, and in the plural from the root с- ⟨s-⟩.
Etymology
All the below forms trace back to the ancestor of the Proto-Slavic root *es-, to which personal endings were affixed. Compare to English is, German ist, Latin est, Ancient Greek ἐστί ⟨estí⟩, Persian است ⟨ast⟩, and Sanskrit अस्ति ⟨ásti⟩ (Pokorny, pp. 340-341; Vasmer, p. 405).
Conjugation Table
English
Lemko
Polish
Ukrainian
Russian
I am
єм ⟨jem⟩
jestem
є
есть
you are
єс ⟨jes⟩
jesteś
є
есть
(s)he is
єст ⟨jest⟩a
jest
є
есть
we are
сме ⟨sme⟩b
jesteśmy
є
есть
you all are
сте ⟨ste⟩c
jesteście
є
есть
they are
сут ⟨sut⟩
są
є
есть
Forms of the present tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
a The Lemko third-person singular form єст ⟨jest⟩ is now being replaced by є ⟨je⟩, though this is still rare (Fontański & Chomiak 2000, p. 109).
bFontański & Chomiak (2000, p. 109) give the Lemko first-person plural form as (єсме)сме/зме ⟨(jesme)sme/zme⟩.
cFontański & Chomiak (2000, p. 109) give the Lemko second-person plural form as (єсте)сте ⟨(jeste)ste⟩.
The past tense of the verb „to be” is formed in Lemko by adding any appropriate gender and plural markers to the stem был- ⟨bŷl-⟩, translatable into English as was or were.
Etymology
Lemko был⟨bŷl⟩ is undoubtedly the continuation of Proto-Slavic resultative participle *bylŭ. Compare to Ancient Greek φῦλον ⟨phylon⟩ (Vasmer, p. 159), whence English phylum.
Conjugation Tables
Masculine
Use the following to refer to males or mixed parties of males and females, as well as objects of grammatically masculine gender. Male virility is not a grammatical category in Lemko, unlike Polish.
English
Lemko
Polish
Ukrainian
Russian
I was
я былa ⟨ja bŷl⟩
byłem
я був
я был
you were
ты былb ⟨tý bŷl⟩
byłeś
ти був
ты был
he was
він был ⟨vin bŷl⟩
był
він був
он был
we were
мы былиc ⟨mŷ bŷly⟩
byliśmy
ми були
мы были
you guys were
вы былиd ⟨vŷ bŷly⟩
byliście
ви були
вы были
those guys were
они были ⟨ony bŷly⟩
byli
вони були
они были
Forms of the masculine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
aFontański & Chomiak (2000, p. 109) cite был єм ⟨bŷl em⟩ as an alternative masculine first person singular form of the past of the verb „to be”.
bFontański & Chomiak (2000, p. 109) cite был єс ⟨bŷl es⟩ as an alternative masculine second person singular form of the past of the verb „to be”.
cFontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be”.
dFontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be”.
Use the below to refer to females and objects of grammatically feminine gender.
English
Lemko
Polish
Ukrainian
Russian
I was
я былаa ⟨ja bŷla⟩
byłam
я була
я была
you were
ты былаb ⟨tý bŷla⟩
byłaś
ти була
ты была
she was
она была ⟨ona bŷla⟩
była
вона була
он была
we were
мы былиc ⟨mŷ bŷly⟩
byłyśmy
ми були
мы были
you gals were
вы былиd ⟨wŷ bŷly⟩
byłyście
ви були
вы были
those gals were
они были ⟨ony bŷly⟩
były
вони були
они были
Forms of the feminine past tense conjugation of the Lemko verb быти ⟨bŷty⟩ translated into English, Polish, Standard Ukrainian, and Russian.
aFontański & Chomiak (2000, p. 109) cite была єм ⟨bŷla em⟩ and былам ⟨bŷlam⟩ as alternative feminine first person singular forms of the past of the verb „to be”.
bFontański & Chomiak (2000, p. 109) cite была єс ⟨bŷla es⟩ and былас ⟨bŷlas⟩ as alternative feminine second person singular forms of the past of the verb „to be”.
cFontański & Chomiak (2000, p. 109) cite были сме ⟨bŷly sme⟩ as an alternative first person plural form of the past of the verb „to be”.
dFontański & Chomiak (2000, p. 109) cite были сте ⟨bŷly ste⟩ as an alternative second person plural form of the past of the verb „to be”.
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
Orynycz, P.; Dobry, T.; Jackson, A.; Litzenberg, K.Yes I Speak… AI neural machine translation in multi-lingual training
@inproceedings{orynycz2021yes,
author = {Petro Orynycz and T. Dobry and A. Jackson and K. Litzenberg},
title = {Yes I Speak… AI neural machine translation in multi-lingual training},
booktitle = {Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC)},
year = {2021},
url = {https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862}
}
✅ A hozzájárulás ezen verzióját szakértői felülvizsgálat után elfogadták publikálásra, de nem ez a végleges verzió, és nem tükrözi az elfogadás utáni fejlesztéseket vagy javításokat. A végleges verzió online elérhető ezen a linken. Az elfogadott verzió használatára a kiadó elfogadott kéziratának felhasználási feltételei vonatkoznak.
A koalíciós partnerek közötti gyorsan megosztható és közösen használható képzésnek nyelvi és kulturális szempontból alkalmazkodnia kell (azaz lokalizálnia kell) a nem angolszász szövetségesek nyelvéhez, akik frontvonalbeli szereplőket képviselnek korlátozott vagy potenciálisan nulla angol nyelvtudással. Hagyományosan a lokalizáció idő- és munkaigényes folyamat volt, egy szakértőnek több mint két hónapra volt szüksége egy közepes méretű könyv lefordításához. Eközben a képzési gyakorlatoknak napok és hetek, nem pedig hónapok és évek teljes fejlesztési időkeretére kell reagálniuk, hogy megfeleljenek az operatív világ változó valóságának. Ebben a keretben a hagyományos lokalizáció komoly szűk keresztmetszetté válik a koalíciós erőfeszítések számára. Gyorsan kibontakozó helyzetekben a szövetségesek egyszerűen nem várhatnak hónapokat és éveket a ma este szükséges képzésre, vagy a jövő heti küldetés megoldására olyan nyelveken, amelyeket a frontvonalon könnyen megértenek – azaz a régóta áhított álom megvalósítására, a helyi igényekre szabott képzésre.
Lépjen be a feltörekvő mesterséges intelligencia technológia, a neurális gépi fordítás, amely percek alatt elvégzi azt, ami egy tapasztalt organikus nyelvésznek egy órát vesz igénybe, lehetővé téve a koalíciós szintű, többnyelvű bevezetést napok és hetek alatt, egyre javuló komplexitással. Ezt a gépi tanulás teszi lehetővé, azaz mesterséges ismétlődő neurális hálózatok képzése az egyik természetes nyelvről a másikra történő fordításra.
Mesterséges intelligencia alapú motorokat építettünk, időzítettük az Észak-atlanti Szerződés Szervezete (NATO) képzési anyagainak fordítását, és pontosságukat a kétnyelvű alulértékelési (BLEU) metrika segítségével mértük. Motorunk oroszból 1169,51%-kal gyorsabban és 58,37%-kal pontosabban fordított, mint a kontrollként használt professzionális emberi nyelvészünk. Lengyel neurális motorunk 17,29%-kal pontosabb és 488,45%-kal gyorsabb volt, mint az emberi. lemkó fordító motorjaink a világon az elsők, és tisztességes BLEU pontszámot, 14,57-et értek el. Mindeközben mindezt egy olcsó laptop számítógépen végeztük egy légmentesen elzárt, hozzáférés-vezérelt környezetben, elvágva a külvilágtól.
Az online fordítási szolgáltatások addig működnek, amíg titokban nem kell fordítani, vagy olyan nyelvről, amely nem tartozik az erőforrások szempontjából a felső 2%-ba. Még a legbiztonságosabb online vagy felhőalapú fordítási szolgáltatások használata is azt jelenti, hogy információkat osztunk meg egy harmadik féllel, ami a legtöbb kereskedelmi titoktartási megállapodást sérti, nem is beszélve a védelmi ipar követelményeiről. Továbbá, a vezető online fordítási platform csak 109 nyelven működik (Google, 2021), ami kevesebb, mint a ma a világon beszélt 7139 nyelv 2%-a (Eberhard, Simons, & Fennig, 2021). A felhőszolgáltatók inherent harmadik fél kockázatával szembesülve sokan ellenőrzött emberi nyelvészekhez fordulnak, akik legjobb esetben havonta egy könyvet tudnak kezelni, legrosszabb esetben pedig életre szóló jogosulatlan nyilvánosságra hozatali fenyegetést jelentenek. Annak érdekében, hogy a többnyelvű vállalkozások és szervezetek több lehetőséget kapjanak, elhatároztuk, hogy megoldjuk azt a problémát, hogyan lehet mesterséges intelligenciát alkalmazni az anyagok gyors, pontos és titkos fordítására magas, közepes és alacsony erőforrású nyelvekről, légmentesen elzárt, olcsó, középkategóriás laptop számítógépeken, amelyek le vannak választva az internetről és a külvilágról.
Eddigi megoldások
Míg a gépi fordítás alapjait al-Kindī bagdadi műhelyében rakták le több mint egy évezreddel ezelőtt (DuPont, 2018; lásd még al-Kindī, 2002), addig a látványos, látható fejlődés szinte teljes egészében a Szilícium-völgyben zajlott az elmúlt öt évben. A fő áttörés a Google-nál történt (Lewis-Kraus, 2016), és a Facebook is csatlakozott a neurális gépi fordítás klubjához (Ott et al., 2019). Mi az ő FAIRseq motorjuk munkájára építettünk, amelyhez Sławomir Dadas kiváló lengyel-angol modellt tett elérhetővé (Dadas, 2019). Mr. Dadas munkájára építve hibrid neurális/szabályalapú/szótáralapú motorokat hoztunk létre, amelyek lemkó nyelvről angolra és fordítva fordítanak. A transzfer tanulás alkalmazásának ötletét a ruszin természetes nyelvi feldolgozásra (NLP) már megvitattuk tisztelt kollégáinkkal, Yves Scherrerrel és Achim Rabusszal, akik elsőként publikáltak eredményeket egy szakértői folyóiratban, és kedvesen megragadták az alkalmat, hogy megemlítsék Petro Orynycz hibrid neurális/szabályalapú lemkó gépi fordító motorját (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), amely 2019 márciusa óta működik és szabadon elérhető a www.lemkotran.com webcímen, transzliterációs természetes nyelvi feldolgozó modulja pedig 2017 szeptembere óta nyilvánosan elérhető ott.
A szélesebb rendszer
Magas, közepes és alacsony erőforrású nyelvek
A nyelvpárokat a tudományos irodalomban magas erőforrású, közepes erőforrású és alacsony erőforrású kategóriába sorolják, a rendelkezésre álló technológiák és adatkészletek mennyiségétől függően, nemzetközi jelentőségükhöz viszonyítva (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). A magas erőforrású párok közé tartozik a cseh-angol (Kocmi, 2020, p. 171), az orosz-angol, a német-angol (Ng, et al., 2019, p. 314) és a kínai-angol (Kocmi & Bojar, 2019, pp. 234–235). A lengyel-angol közepes erőforrású pár (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Az alacsony erőforrású párok közé tartozik a gudzsaráti-angol, a kazah-angol (Kocmi & Bojar, p. 234), az inuktitut-angol (Kocmi, p. 171) és a lemkó-angol (Scherrer & Rabus, 2019, p. 85). Mivel a mesterséges intelligencia nyelvi modelljeinek képzéséhez hatalmas mennyiségű kétnyelvű adatra van szükség, a magasabb erőforrású nyelvek általában élvezik a neurális gépi fordító motorok elérhetőségét. Eközben a gépi tanulási képzési adatok hiánya miatt a neurális motorok ritkábbak az alacsonyabb erőforrású nyelvek esetében, amelyeket gyakran jobban szolgálnak ki az előző generációs statisztikai gépi fordító (SMT) motorok.
Kísérlet alatt álló, magas erőforrású nyelv: orosz
Az oroszt több mint 168 millióan beszélik első nyelvként, és további 114 millióan kiegészítő nyelvként (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Az angolra fordítás automatizálása a háború utáni gépi fordítási erőfeszítések szent grálja volt. Az Egyesült Nemzetek hivatalos nyelveinek egyikeként hatalmas mennyiségű kétnyelvű orosz-angol szöveg áll rendelkezésre liberális licenc alatt (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).
Kísérlet alatt álló, közepes erőforrású nyelv: lengyel
A lengyel egy nyugati szláv nyelv, amelyet mintegy 38 millióan beszélnek a mai Lengyelországban, és ez a szám várhatóan csökkenni fog, részben a kiadás idején zajló világjárvány miatt (Associated Press, 2021). További 10 millióan beszélik a lengyelt valamilyen mértékben az ország határain kívül (Jassem, 2003, p. 103). Az Európai Unió egyik hivatalos nyelveként nagy mennyiségű kétnyelvű szöveg áll rendelkezésre a mesterséges intelligencia fordítási modelljeinek képzéséhez, beleértve 22 630 európai parlamenti dokumentumot (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).
Kísérlet alatt álló, alacsony erőforrású nyelv: lemkó
A lemkó egy alacsony erőforrású nyelv (Scherrer & Rabus, 2019, p. 85), amely megfelel a keleti szláv nyelvek osztályozásának hagyományos kritériumainak. Például a lemkó keleti szláv pleofóniát mutat, azaz a proto-szláv „ToRT” szekvenciák eredménye ToRoT (Fortson IV, 2004, pp. 371-372), mint a lemkó horodyty ’kerítést építeni, bekeríteni’ (Horoszczak, 2004, p. 45), valamint a standard ukrán horodyty, ruszin horodyty és orosz gorodit’ (Kerča, 2007, p. 176) szavakban. Eközben hasonlítsuk össze a lengyelt (egy nyugati szláv nyelv) a -ro--val a grodzić szóban, de a horvátot (egy déli szláv nyelv) a -ra--val a graditi ’építeni’ szóban. Távolabb, az angolban az -ar- a yard és a garden szavakban, az avesztai (óiráni) nyelvben a -ǝrǝ- a gǝrǝδō ’barlang’ szóban, és a szanszkrit (óindiai) nyelvben a -ṛ- a gṛhás ’otthon’ szóban (Vasmer, p. 1443).
Míg a lemkó pontos osztályozása és státusza a standard ukránhoz és a kodifikált ruszinhoz képest vitatott (Rabus & Scherrer, 2017), a lemkó-angol motorunk ilyen magas pontszáma a standard ukrán vagy a Szlovákiában kodifikált ruszin erőforrásainak igénybevétele nélkül alátámaszthatja Watral (2015) azon következtetését, hogy a lemkó önálló, teljes értékű nyelv, és nem más nyelvjárása. A növekvő objektív minőségi pontszámoktól felbuzdulva úgy döntöttünk, hogy a lengyel transzfer tanulást helyezzük előtérbe, mivel az azonnali megtérülést hoz a lemkó fordítási pontosság szempontjából, ami a legmagasabb értékünk. Lehetséges, hogy a minőségi pontszámokat a megfigyelt hibrid nyelv interferenciája növelte, amelynek során a lemkó nyelvtani végződéseket a standard lengyel szavakra illesztették (Watral, 2016, p. 242).
Lengyelország népszámlálási hivatala 2011-ben 6279 főt számlált, akik otthon lemkóul beszéltek, szemben a 2002-es 5605 fővel (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), és a kiadás idején új számlálás van folyamatban. Hányan lehetnek lemkóul beszélők a 2011-ben otthon ukránul beszélő 24 539 lengyel lakosból vagy a 626 „ruszin” (język ruski) nyelven beszélő háztartás tagjai közül (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), az meghaladja e tanulmány hatókörét. Ukrajna Állami Statisztikai Szolgálata 672 lemkót számlált határain belül (Deržavna služba statystyky Ukraïny, 2001). Az Egyesült Nemzetek nyelvi veszélyeztetettségi skáláján 0-tól 5-ig, ahol a 0 kihalt, az 5 pedig „biztonságos” (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, pp. 7-8), a lemkó a 2-eshez közelítene, azaz súlyosan veszélyeztetett: a természetes generációk közötti nyelvi átadás egyre inkább hiányzik, és a fiatalabb beszélők egyre inkább nem léteznek (Duć-Fajfer, 2016, p. 178). Vannak azonban zöld hajtások, a kisebbségi nyelvek oktatásban, műsorszórásban, kiadásban, útjelző táblákon és tudományban való használatát védő és támogató törvényeket egyre inkább kihasználják (Duć-Fajfer, 2016, pp. 178-179).
Az erőforrás-helyzet is javul. Petro Orynycz összeállított és összehangolt egy kétnyelvű lemkó-angol korpuszt, amely 68 599 forrásszót tartalmaz, valamint saját angol fordításait (az egyetlen létező párhuzamos szöveg, amiről tudomásunk van). A korpuszt az Egyesült Államok John és Helen Timo Alapítványa által lemkó nyelven készített interjúk felhasználásával állították össze, akik megbízták Orynycz urat, hogy írja át és fordítsa le őket, valamint engedélyezték számára, hogy a munkát tudományos kutatásában és fejlesztésében felhasználja. Emellett több mint egymillió szavas egynyelvű lemkó korpuszt is gyűjt. Bár a lemkó, a ruszin, a standard ukrán és a szlovák nyelvi közösségek közötti összetett szociolingvisztikai kapcsolatok meghaladják e tanulmány hatókörét, a lengyel erőforrások (különösen a lengyel neurális modellek) voltak kulcsfontosságúak Orynycz úr hibrid lemkó motorjaihoz.
Hipózisek és előrejelzések
Fordítási sebesség
Hipózis: a légmentesen elzárt mesterséges intelligencia gépi fordítás most már olyan gyors, mint az emberek
Azt feltételeztük, hogy a középkategóriás laptopokon offline futó neurális gépi fordító motorok sebessége most már összehasonlítható az emberi fordítók sebességével. Ez a motorfejlesztés során tett megfigyeléseken alapult, miszerint a neurális gépi fordítás egy mondat lefordításához egy középkategóriás laptopon néhány másodperctől egy percig tartott, ami összehasonlítható Petro Orynycz lokalizációs iparágban szerzett tapasztalatai alapján megfigyelt emberi sebességekkel.
Előrejelzés: a gépi fordító motorok több szót dolgoznak fel óránként, mint az emberi fordítók
Azon hipotézisünk alapján, miszerint a légmentesen elzárt neurális gépi fordító motorok, amelyek offline futnak középkategóriás laptopokon, olyan gyorsak lennének, mint az emberek, azt jósoltuk, hogy sebességük meghaladja az emberi nyelvészekét, és több szót fordítanak másodpercenként, mint az emberi kontroll alanyunk.
Fordítási pontosság
Hipózis: a mesterséges intelligencia gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók
Azt feltételeztük, hogy a neurális gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók. Ez Petro Orynycz fordítási minőségellenőrzési szakemberként szerzett szakmai megfigyelésein alapult, miszerint a kereskedelmi neurális gépi fordítási felhőszolgáltatások nemcsak drámaian javultak, hanem gyakran megkülönböztethetetlen eredményeket produkáltak az emberi nyelvészekétől.
Előrejelzés: a mesterséges intelligencia gépi fordító motorok legalább 75%-os BLEU minőségi pontszámot érnek el a professzionális emberi fordítókhoz képest
Bár tudtuk, hogy a neurális gépi fordító motorok felülmúlhatják a kétnyelvű amatőröket, akik először próbálkoznak a fordítással, nem hittük, hogy motorjaink legyőznék a tapasztalt, professzionális nyelvészeket egy közvetlen versenyben. Szerencsére kétségünket tesztelni lehetett. A kétnyelvű értékelési alulértékelési (BLEU) algoritmus a gépi fordítási kutatás legdominánsabb metrikája, mivel nyelvfüggetlen, olcsó és könnyen számítható, valamint ésszerűen korrelál az emberi ítéletekkel (Post, 2018). Azt jósoltuk, hogy neurális motorjaink az emberi nyelvész által elért minőségi pontok 75%-át érik el. Például, ha egy emberi nyelvész 40 pontot ért el, a neurális gépi fordítás 30 pontot ér el. Eközben azt jósoltuk, hogy hibrid lemkó-angol motorunk kumulatív BLEU pontszáma 15 lesz.
Fordítási biztonság
Hipózis: a mesterséges intelligencia gépi fordítás offline is elvégezhető laptopokon, magas biztonságú terepi körülmények között
Azt feltételeztük, hogy a neurális gépi fordítás offline is elvégezhető légmentesen elzárt, hordozható berendezéseken, teljesen elvágva a külvilágtól. Ez azon megfigyelésen alapult, hogy megoldásunk minden komponense nem hívta meg az internetet, miután a függőségeket telepítették. Implicit feltételezés, hogy a légmentesen elzárt fordítási rendszerek, amelyek Repülőgép üzemmódban vannak, nem monitorozhatók vagy hackelhetők távolról. Egy másik feltételezés, hogy az operátorokat megfelelően ellenőrizték, és megfelelő óvintézkedéseket tettek a külső és belső fenyegetések ellen. Egy másik implicit feltételezés, hogy könnyebb egyetlen mobil munkaállomást több órán keresztül védeni, mint megakadályozni, hogy az emberi nyelvészek, akik átlagosan 25,01 USD-t keresnek óránként (Bureau of Labor Statistics, United States Department of Labor, 2021), jogosulatlan nyilvánosságra hozatalt tegyenek életük során, különösen a nyelvészek letartóztatásáról szóló jelentések fényében, akik titkok kiszivárogtatásának gyanújával kerültek letartóztatásra (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Előrejelzés: a mesterséges intelligencia gépi fordítás sikeres lesz egy légmentesen elzárt Lenovo Legion Y730-17ICH laptop számítógépen, amely offline fut Repülőgép üzemmódban
Azt jósoltuk, hogy fordítási rendszerünk nem fog meghibásodni, és elvégzi feladatait, amikor fizikailag el van választva és le van választva minden hálózatról vagy eszközről a Windows 10 Pro Repülőgép üzemmód funkciójának aktiválásával egy Lenovo Legion Y730-17ICH laptop számítógépen (Type 81HG).
Hibrid szabály/szótár alapú és neurális lemkó-angol motor
Hipózis: a hibrid szótár/szabályalapú motorok javítják a gépi fordítás pontosságát
Azt feltételeztük, hogy lengyel-lemkó szabályalapú gépi fordító (RBMT) motorunk, lengyel-lemkó szótáralapú gépi fordító (DBMT) motorunk, fordított irányban futó lemkó-lengyel DBMT motorunk és neurális lengyel-angol motorunk szinergikusan összekapcsolható egy hibrid motorrá, amely minden további résszel magasabb minőségi pontszámokat ér el. Ez a hipotézis a szerzőnek a professzionális lemkó-angol fordítóként szerzett megfigyelésein alapult, miszerint a lemkó és a lengyel közötti megfelelések elég gyakoriak ahhoz, hogy a hibrid motor életképes javaslattá váljon.
Előrejelzés: a hibrid lemkó-angol motorunkhoz hozzáadott minden almotor 5 ponttal növeli a BLEU-t.
Azt jósoltuk, hogy minden egyes szabályalapú vagy szótáralapú lemkó-lengyel almotor esetében, amelyet a hibrid lemkó-angol motorunkhoz adtunk, az összesített BLEU pontosság 5 ponttal növekedne.
Módszerek bemutatása és indoklás
Embert állítottunk gép ellen azzal, hogy mindkettőnek egy középkategóriás, légmentesen elszigetelt laptopot adtunk, amely a saját fejlesztésű számítógéppel segített fordítóprogramunkat futtatta (részletek alább), offline állapotban, Windows Repülőgép üzemmódban. Rögzítettük a sebességet és a pontosságot az oroszról angolra (magas erőforrásigényű nyelvpár), a lengyelről angolra (közepes erőforrásigényű nyelvpár) és a lemkóról angolra (alacsony erőforrásigényű nyelvpár) történő fordítás során. A sebesség kifejezésére az óránkénti szavak metrikát használtuk, mivel ez a lokalizációs projektmenedzserek alapja, és a tudományos irodalomban is használatos (Macken, Prou, & Tezcan, 2020, 4. o.). A pontosság mérésére a BLEU metrikát használtuk, mivel ez a legelterjedtebb a kutatás és fejlesztés területén (Post, 2018).
Főbb eredmények röviden
Nemcsak azt sikerült elérnünk, hogy az áttörést jelentő neurális gépi fordítási technológiát alkalmazva mesterséges intelligenciát használjunk egy légmentesen elszigetelt, offline laptopon, Repülőgép üzemmódban, egy magas erőforrásigényű nyelv (orosz) fordítására, több mint 10-szer gyorsabban, mint az emberi nyelvész kontrollszemélyünk, hanem gépünk minőségi pontszáma több mint 58 százalékkal „jobb volt, mint az emberi”. Sőt, mi vagyunk az első csapat a világon, amely lemkó gépi fordító motorok eredményeit publikálta tudományos folyóiratban.
Anyagok és módszerek
Bevezetés
Előrejelzéseink tesztelésére számos mesterséges intelligencia alapú és hibrid fordítómotort építettünk, kiszámítottuk sebességüket és pontosságukat egy légmentesen elszigetelt laptopon, Windows Repülőgép üzemmódban, és ugyanezt tettük egy professzionális nyelvész bevonásával, hogy kísérletünk kontrollált legyen.
Laboratóriumi beállítás
Hardver
Egy Lenovo Legion Y730-17ICH laptop számítógépet (81HG típus) használtunk, amelyen Windows 10 Pro (64 bites) futott. A modell gyártását leállították, és a publikálás időpontjában körülbelül 850 USD-ért, használtan kapható.
Operációs rendszer
A kísérlethez használt virtualizált operációs rendszer a Linux alrendszer volt Windowsra, pontosabban az Ubuntu 18.04 LTS, amelyet a Microsoft Store digitális disztribúciós platformon keresztül telepítettek.
Függőségek
A Python 3.8 telepítése a következő paranccsal történt: sudo apt install python3.8.
A sudo python3.8 -m pip install –upgrade parancsot használtuk a főbb függőségek telepítésére, beleértve a bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision-t is.
Eszközkészletek
Telepítettük a Facebook AI Research Sequence-to-Sequence Eszközkészletet a következő parancsok futtatásával:
Neurális lengyel-angol és hibrid lemkó-angol motorjainkhoz Sławomir Dadas lengyel-angol konvolúciós modelljét használtuk, amely elérhető és dokumentált a Lengyel Természetes Nyelvfeldolgozási (NLP) Erőforrások tárhelyén (Dadas, 2019).
Orosz-angol motorunkhoz a Facebook AI Research Sequence-to-Sequence (FAIRseq) orosz-angol előre betanított egyetlen transzformátor modelljét használtuk finomhangolás nélkül, amelyet a 2019-es Negyedik Gépi Fordítási Konferenciára (WMT19) nyújtottak be.
Professzionális nyelvészünk offline hozzáférést kapott a New Kościuszko Foundation American English to Polish Dictionary (12,99 USD) elektronikus változatához, valamint az Oxford Russian Dictionary (19,99 USD) elektronikus változatához. Mindkettőt a Microsoft Store-on keresztül vásárolták. Jarosław Horoszczak lemkó-lengyel és lengyel-lemkó szótára (2004) szintén elérhetővé vált nyelvészünk számára offline használatra.
Kísérleti kontroll
A kísérletet úgy ellenőriztük, hogy egy professzionális emberi nyelvészt ültettünk a légmentesen elszigetelt laptop elé, miközben az Repülőgép üzemmódban volt, a fent említett elektronikus szótárakkal a gépen. A nyelvész megnyomta az Enter billentyűt, ekkor elindult az időzítő, és megjelent a fordítandó forrásmondat. A nyelvésznek megengedték, hogy a fordítását a Microsoft Wordben gépelje be (kihasználva annak helyesírás-ellenőrző funkcióját és egyéb szövegszerkesztési segédeszközeit), majd beillessze a saját fejlesztésű számítógéppel segített fordítóprogramunkba. Az Enter billentyű újbóli megnyomása után az emberi fordítás be lett küldve, és az időzítő leállt. Az emberi nyelvész sebességét (óránkénti szavakban) és pontosságát (BLEU pontszámban) minden lefordított mondat esetében kiszámítottuk.
Petro Orynycz, aki két évtizedes tapasztalattal rendelkezik orosz és lengyel nyelvészként, orosz nyelvből lengyel egyetemi diplomával, és több mint 5 éves tapasztalattal professzionális lemkó-angol fordítóként, szolgált kontrollszemélyként. Visszafordításokat végzett az alább felsorolt orosz és lengyel anyagokról, valamint angolra fordításokat lemkó nyelvről.
Kísérleti anyag: referenciafordítások
A kísérlethez használt orosz-angol és lengyel-angol szöveget a nyilvánossággal megosztott oktatási anyagokból szereztük be, amelyeket az Észak-atlanti Szerződés Szervezete (NATO) NATO Review kiadványa fordított angolról oroszra és lengyelre. Idézet: „A NATO Review részeinek, kivonatainak vagy cikkeinek reprodukálása nem kereskedelmi célokra engedélyezett, az alábbi feltétel mellett: a forrást, a NATO Review-t, fel kell tüntetni.” A szokásos gyakorlatnak megfelelően (Post, 2018) a korpusz adatokat megtisztítottuk és normalizáltuk a szöveg kisbetűsítésével és tokenizálásával. Gondoskodtunk arról, hogy a forrásszöveg és a célfordítások mondatszinten illeszkedjenek.
Ehhez a kísérlethez Dr. Jamie Shea, a NATO akkori főtitkárhelyettes-helyettesének (Emerging Security Challenges) előadását használtuk. Címe: Mit tanulhatunk ma a „Három Bölcs Férfitól”? Dr. Shea előadásának angol eredeti szövegét és a NATO által megrendelt orosz és lengyel fordításait a következő egységes erőforrás-azonosítókról szereztük be:
A kísérlethez használt lemkó-angol anyag a John & Helen Timo Alapítvány által rögzített személyes interjúkból állt, akik Petro Orynycz-t bízták meg az interjúk átírásával és angolra fordításával. Az alapítvány később szívesen adományozta az így kapott kétnyelvű korpuszokat tudományos kutatásra és fejlesztésre. Az interjúkban tárgyalt személyek magánéletének védelme, valamint az Európai Unió Általános Adatvédelmi Rendelete (GDPR) iránti tiszteletből az anyagokat nem tették nyilvánosan elérhetővé. Gondoskodunk arról, hogy a személyazonosításra alkalmas információkat (PII) és a személyes egészségügyi információkat (PHI) szerkesszük a minták megosztása előtt.
Módszer a fordítási pontosság értékelésére: BLEU
A kétnyelvű alulértékelési (BLEU) metrikát használtuk a referenciafordításhoz való hasonlóság, és így, bármennyire is tökéletlenül, a pontosság mérésére. Bár a BLEU pontszám nem tökéletes mérőszáma a pontosságnak vagy a minőségnek, ez az iparágban legszélesebb körben használt (Post, 2018). A Python modul a Python bleu csomagból származik, amely a következő egységes erőforrás-azonosítón dokumentált: https://pypi.org/project/bleu/
Gondoskodtunk arról, hogy a “it is a white cat .” és “wow , this dog is huge .” referencia mondatokat, valamint a “it is a white kitten .” és “wowww , the dog is huge !” jelölt hipotéziseket megadva, rendszerünk 34,99 kumulatív BLEU pontszámot számított, összhangban a Python bleu csomag dokumentációjával.
Módszer a szöveg normalizálására és tisztítására
Minden szöveget kisbetűsítettünk, és szóközt adtunk minden írásjel elé és után, hogy a rendszer ne feltételezze például, hogy a „Cat” és a „cat.” különböző szavak. Így a „It is a white cat.” normalizálva „it is a white cat .” lett. Több szóközt és egyéb szóközsorozatot egyetlen szóközzel helyettesítettünk a Python split() és join() metódusai segítségével.
Módszer a szavak számlálására
A mondatonkénti szavak számát a normalizált szöveges sztring szóköz alapú elválasztóval történő felosztásával határoztuk meg, majd megszámolva az elemeket abban a tömbben.
Módszer a fordítási sebesség mérésére
Abban a pillanatban, amikor az emberi fordító megnyomta az Enter billentyűt egy mondat fordításának megkezdéséhez, meghívtuk a Python time.time() metódusát, hogy megkapjuk az 1970. január 1-jei koordinált világidő (UTC) éjfél óta eltelt másodpercek számát lebegőpontos számként, amelyet általában Unix időnek neveznek, és ezt a számot használtuk emberi kezdési időként. Azt az Unix időt is rögzítettük, amikor gépi fordító motorjaink egy mondatot fordításra vettek.
Azt a pillanatot, amikor egy emberi nyelvész megnyomta az Enter billentyűt egy mondat fordításának beküldéséhez, vagy egy gép visszaadta egy mondat fordítását, használtuk végidőként. A kezdési idő kivonásával a végidőből megkaptuk a mondat fordításához szükséges másodpercek teljes számát.
Az óránkénti szavakat úgy számítottuk ki, hogy az Unix vég- és kezdési idők közötti különbséget elosztottuk a fent kiszámított szószámokkal, és az így kapott hányadost megszorozzuk 3600-zal (ami 60 60, azaz az egy órában lévő másodpercek száma):
Módszer a berendezések fizikai elszigetelésére és légmentesítésére
A kísérletben használt berendezéseket nemcsak fizikai elszigeteléssel vágtuk el a külvilágtól, hanem a Microsoft Windows 10 Pro Repülőgép üzemmódjának használatával is, amely a dokumentációja szerint kikapcsolja a gép összes vezeték nélküli kommunikációját, beleértve az IEEE 802.11b Direct Sequence vezeték nélküli hálózatot, a mobilhálózatot, a Bluetooth-t, a globális helymeghatározó rendszert és a közeli mezős kommunikációt.
Eredmények
Fordítási sebesség: Minél magasabb erőforrásigényű a nyelvpár, annál gyorsabb a motor
A gép felülmúlta az embert a fordítási sebesség tekintetében az orosz-angol (magas erőforrásigényű) és a lengyel-angol (közepes erőforrásigényű) nyelvpárok esetében, összhangban azzal a hipotézisünkkel, hogy a neurális gépi fordítás gyorsabb, mint az emberi, és azzal az előrejelzésünkkel, hogy neurális motorjaink több szót fordítanak óránként. Oroszról fordítva motorunk átlagosan több mint 6 456 szót fordított óránként, ami 1170%-kal gyorsabb volt, mint emberi nyelvészünk. Lengyelről fordítva neurális motorunk 488%-kal gyorsabb volt, mint emberi fordítónk, átlagosan 3 768 szót fordítva óránként. Az alacsony erőforrásigényű lemkó-angol nyelvpár esetében hibrid neurális és szótár/szabályalapú motorunk 707 szót fordított óránként, majdnem egyenlő eredményt elérve emberi nyelvészünkkel, aki 13%-kal gyorsabb volt 798 szó/óra sebességgel. A hibrid motor szótáralapú komponensének súlyának eltávolítása közel négyszeresére növelte a sebességet, 3 137 szó/órára, ami 293%-kal gyorsabb, mint az emberi, 13%-os pontosságcsökkenés árán.
1. ábra. Professzionális emberi versus gépi fordítási sebesség (szó/óra) egy légmentesen elszigetelt középkategóriás laptopon (repülőgép üzemmód): Orosz–angol (magas erőforrásigényű) vs. lengyel–angol (közepes erőforrásigényű) vs. lemkó–angol (alacsony erőforrásigényű).
Fordítási pontosság: Minél magasabb erőforrásigényű a nyelvpár, annál pontosabb a motor
Mesterséges intelligencia motorjaink fordítási pontossága felülmúlta a professzionális nyelvészekét. Ez meghaladta azt a hipotézisünket, miszerint a légmentesen elszigetelt neurális gépi fordítás már csak kissé kevésbé pontos, mint az emberi fordítók. Orosz-angol mesterséges intelligencia motorunk 158%-os pontosságot ért el emberi fordítónkhoz képest, túlszárnyalva az általunk előre jelzett 75%-ot. Lengyel-angol neurális motorunk 117%-os pontosságot ért el emberi nyelvészünkhöz képest, túlszárnyalva a 75%-os elvárásunkat. Hibrid lemkó-angol motorunk 14,57-es BLEU pontszámot ért el (ami professzionális fordítónk pontosságának 51%-a), összhangban a 15-ös előrejelzésünkkel, felfelé kerekítve. A szabályalapú almotor elhagyása 2%-os pontosságnövekedést és 6%-os sebességnövekedést eredményezett. A szótáralapú almotor elhagyása 13%-os pontosságcsökkenést, de 344%-os sebességnövekedést eredményezett. Összefoglalva, közepes és magas erőforrásigényű nyelvekhez készült mesterséges intelligencia motorjaink szignifikánsan pontosabbak voltak, mint emberi nyelvészünk, míg az alacsony erőforrásigényű nyelvekhez készült hibrid motorjaink körülbelül feleannyira voltak pontosak, mint emberi nyelvészünk.
2. ábra. Professzionális emberi versus gépi BLEU fordítási minőségi pontszám egy légmentesen elszigetelt középkategóriás laptopon, Repülőgép üzemmódban, Orosz-angol (magas erőforrásigényű nyelvpár) versus lengyel-angol (közepes erőforrásigényű nyelvpár) versus lemkó-angol (alacsony erőforrásigényű nyelvpár).
2. ábra adatai: BLEU pontszám
Nyelvpár
Módszer
BLEU
Orosz–angol
Csak mesterséges intelligencia neurális gépi fordítás
39,37
Orosz–angol
Professzionális emberi fordítás
24,86
Lengyel–angol
Csak mesterséges intelligencia neurális gépi fordítás
Összhangban azzal a hipotézisünkkel, hogy egy neurális gépi fordítási megoldás megtervezhető egy légmentesen elszigetelt laptopon való futtatásra, kísérletünk sikeres volt e tekintetben. Előrejelzésünknek megfelelően kísérletünk működött bekapcsolt Windows Repülőgép üzemmódban, és nem okozott hibát a külvilágtól elszigetelt működés.
Szabályalapú gépi fordítás lemkó és lengyel között
Azon hipotézisünk, miszerint a lemkó és a lengyel közötti affinitás elég erős ahhoz, hogy a lemkó szabályalapú és szótáralapú helyettesítéssel fordítható legyen lengyelre, bebizonyosodott a lemkó-angol neurális/szabályalapú hibrid motorunk lenyűgöző teljesítménye által. Azon hipotézisünket, miszerint egy szabályalapú almotor és egy szótáralapú almotor kombinálása pontosabb hibrid motort eredményezne, jelenleg nem támasztják alá adataink. Egy szótáralapú modul hozzáadása egy szabályalapúhoz 2,16 ponttal növelte a motor BLEU-ját, ami kevesebb, mint az 5-ös előrejelzésünk.
Megbeszélés
Új korszak
Bebizonyítottuk, hogy nemcsak lehetséges a mesterséges intelligenciát megbízni a magas, közepes és alacsony erőforrásigényű nyelvekről történő fordítás tudásalapú munkájával egy hozzáférés-ellenőrzött környezetben, hanem a neurális gépi fordítás gyorsabban, biztonságosabban és sok esetben jobban is el tudja végezni a munkát. Eredményeink nemcsak alátámasztották hipotéziseinket, hanem neurális motorjaink teljesítménye felülmúlta előrejelzéseinket is. Itt van a közel valós idejű gépi fordítás új korszaka, amely önállóan vagy emberekkel együttműködve működik.
Sebesség
Motorunk óránként 6456 szó sebességgel fordított oroszból. Ennek kontextusba helyezéséhez konzultáltunk Marc Hackel szakértővel, egy washingtoni, D.C.-beli védelmi ipari nyelvész és orosz-angol fordítóval, aki több évtizedes tapasztalattal rendelkezik, és aki elmondta nekünk, hogy „egyfajta ökölszabály szerint egy nagyon tapasztalt fordítónak legalább 8 oldalt (azaz 8 darab 500 szavas oldalt, összesen 4000 szót) kellene lefordítania egy 8 órás munkanap alatt, feltételezve, hogy nincsenek akadályok, mint például mozaikszavak és hasonló dolgok. Sokak átlaga valójában óránként 250 szó, nem 500.” Így a neurális motorok kevesebb mint egy óra alatt elvégezhetik azt, ami az embereknek napokba telik.
Pontosság
Mesterséges intelligencia motorjaink magasabb BLEU pontszámokat értek el, mint professzionális emberi nyelvészünk. Ezen mérőszám alapján gépeink „jobbak” az orosz és lengyel nyelvről való fordításban, mint az emberek.1 Mivel az a feltételezés, hogy a mesterséges intelligencia gépi fordítás több mint 50%-kal pontosabb lehet, mint a tapasztalt nyelvészeké, forradalmi, ezt a kísérletet még több emberi nyelvész és korpusz bevonásával meg kell ismételni, hogy kizárjuk a véletlen egybeeséseket. Kivételesen tiszta, kihívást jelentő, virágnyelvű szövegeket használtunk, amelyeken a gépi fordítórendszerek hagyományosan elakadnak, az emberek viszont kiválóan teljesítenek. Bár egyenlő feltételekre törekedtünk, azt vártuk, hogy bármilyen előny az emberi oldalon lesz. Kérjük, nyers adatainkhoz és eredményeinkhez való hozzáférésért vegye fel a kapcsolatot Orynycz Petroval a fent megadott címen.
Következő lépések
Régebbi, elavult berendezéseket használtunk. Újabb, gyorsabb, következő generációs grafikus feldolgozó egységekkel felszerelt berendezések drámai javulást eredményezhetnek a fordítási sebességben. Kódunkat optimalizálni kell a meglévő erőforrások, például a grafikus feldolgozó egységek (GPU-k) maximális kihasználására. Tervezzük, hogy szótár alapú gépi fordító modulunkat tesztsorrá alakítjuk át a szabályalapú gépi fordítás (RBMT) modulunk tesztvezérelt fejlesztéséhez (TDD), amely felhasználható lenne párhuzamos szövegek fejlesztésére tisztán neurális lemkó-angol és angol-lemkó mesterséges intelligencia neurális gépi fordítórendszerek képzéséhez. További kutatásokra van szükség a csökkenő hozamok pontjainak azonosításához. Orynycz Petro tervei szerint hibrid neurális és szabályalapú rendszereit alkalmazza majd a mai Szlovákiában és Ukrajnában őshonos ruszin és ukrán dialektusok fordítórendszereinek fejlesztésére.
Zárásul
Egy új, átalakító korszak hajnalán állunk: bebizonyítottuk, hogy a mesterséges intelligencia képes tudásalapú munkát végezni, akárcsak az emberek, sőt, egyre több esetben több mint 50%-kal jobban, a töredék idő alatt és szinte nulla biztonsági kockázattal. Néhány száz dollár értékű, hátizsákban elférő felszerelés elegendő ahhoz, hogy mindig legyen egy emberinél jobb, szilícium alapú terepnyelvész segítőnk, aki soha nem árul el titkokat és nem fárad el. A szellem kiszabadult a palackból, és talán teljesíti a kihalás szélén álló nyelvek újjáélesztésére vonatkozó kívánságunkat, ha nem is a kihaltak feltámasztásának álmát. A nyelvi tömeges kihalási esemény, amelynek közepén vagyunk, megállhat, sőt, megfordulhat. Óvatosnak kell lennünk, mit kívánunk – az évezredekig drágán fordítható nyelvek titkosításával elszigetelt világok összeütközni készülnek. Reméljük, hogy ez a változás jobb irányba mutat. Proščaj, nyelvi akadály. Helló, új világ.
Lábjegyzetek
^ 1 Történelmileg egyes közösségek ellenállnak a BLEU használatának az emberi és gépi fordítás összehasonlítására, mégis nincs más olyan rendszer, amely ilyen széles körben elfogadott vagy elérhető lenne széleskörű, szakmailag ellenőrzött validációval. Valójában a BLEU pontszám feltalálói, Papineni, Roukos, Ward és Zhu már előre jelezték ezt a feszültséget az Egyesült Államok Védelmi Minisztériuma (a Defense Advanced Research Projects Agency [DARPA] által finanszírozott és a Space and Naval Warfare Systems Command [SPAWAR] által felügyelt) által támogatott munkájukban, úttörő publikációjuk részeként, írva: „Továbbá, [a metrikának] különbséget kell tennie két különböző minőségű emberi fordítás között. Ez utóbbi követelmény biztosítja a metrika folyamatos érvényességét, ahogy a gépi fordítás (MT) megközelíti az emberi fordítás minőségét.” A tabu megtörésével kezdve, ezután kiszámították a BLEU pontszámokat a „Human-1” (sem kínai, sem angol anyanyelvű) és a „Human-2” (angol anyanyelvű) esetében, és feltérképezték, hogyan követték BLEU pontszámaik szorosan az emberi bírák által adott pontszámokat (Papineni, Roukos, Ward, & Zhu, 2002).
Köszönetnyilvánítás
Szeretnénk megköszönni tanácsadónknak, Tim Quiramnak, az Egyesült Államok Parti Őrség Készenléti Parancsnokság Kiképzési Osztályának helyettes vezetőjének, hogy bátorított minket a folytatásra, az Antech Systems, Inc. igazgatótanácsának és a Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) ePerformance csapatának, hogy olyan környezetet teremtettek, ahol szenvedélyeinket követhetjük, osztályunk ügyvezető alelnökének, Tom Dobrynak felbecsülhetetlen értékű útmutatásáért, megalapozott ítélőképességéért és látnoki vezetői képességéért, valamint csapatvezetőnknek, Will Duffnak, amiért arra ösztönzött minket, hogy keményen dolgozzunk, elősegítette a bajtársiasság szellemét és erkölcsi támogatást nyújtott. Orynycz Petro szeretné megköszönni mesterséges intelligencia űrprojekt menedzsereinek, Raffaele Pascalenak és Michal Brnušáknak a Szilícium-völgyi Venga Global Inc. nyelvi szolgáltatótól, professzionalizmusukat, a csapat iránti őszinte törődésüket és rendíthetetlen elkötelezettségüket a helyes eredmény elérésében. Orynycz úr szeretné megköszönni mérnöktársainak, kollégáinak és régi barátainak, Michael Lawrence Cramernek a BCT LLC-től és Michael Decerbónak a Raytheon BBN Technologies-től, hogy a kezdetektől fogva hittek benne. Továbbá szeretné megköszönni barátjának és kolléga számítógépes nyelvészének, Jouna Pyysalónak, Ph.D., a Helsinki Egyetemről, hogy valóra váltotta az álmokat. Végül szeretné megköszönni Maria Silvestrinek a John és Helen Timo Alapítványtól a tudományos kutatásra és fejlesztésre nyújtott adományát az általa készített lemkó interjúkhoz és az általa elvégzésre felkért fordításokhoz, valamint kedves barátjának, Ołena Dućnak a Ruska Bursától az interjúk felbecsülhetetlen értékű fordításaiért és átirataiért.
Hivatkozások
al-Kindī, Y. i. (2002). al-Kindi szerkesztett értekezése. M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (szerk.) művében, al-Kindi értekezése a kriptoanalízisről (1. kötet) (S. M. al-Asaad, ford., 1. kötet, 117-204. o.). Damaszkusz, Szíria: KFCRIS & KACST. (Eredeti mű kiadva kb. 850).
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kiválasztási kritériumok alacsony erőforrású nyelvi programokhoz. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai (4543–4549. o.). Portorož, Szlovénia: European Language Resources Association (ELRA). Letöltve 2021. június 27-én innen: https://www.aclweb.org/anthology/L16-1720
Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV. Jelentés a nemzeti és etnikai kisebbségek, valamint a regionális nyelvek helyzetéről a Lengyel Köztársaságban – 2013. Varsó, Lengyelország: Belügyminisztérium. Letöltve 2021. június 13-án innen: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Hány nyelv van a világon? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, szerk.) Letöltve 2021. június 13-án az Ethnologue: Languages of the World-ből: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Indoeurópai nyelv és kultúra. Malden, MA, USA: Blackwell Publishing.
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Az Európai Parlament digitális korpusza. Nyelvi Erőforrások és Értékelés Konferencia (LREC 2014), (3164-3171. o.). Reykjavik, Izland. Letöltve 2021. június 19-én innen: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Jassem, W. (2003. június). Lengyel. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Kísérletezés különböző gépi fordítási modellekkel közepes erőforrású környezetekben. P. Sojka, I. Kopeček, K. Pala, & A. Horák (szerk.) művében, Szöveg, beszéd és párbeszéd. TSD 2020. Lecture Notes in Computer Science.12284, 2. o. Springer, Cham. doi:10.1007/978-3-030-58323-1_10
Kerča, I. (2007). Ruszin-orosz szótár (1. kötet). Ungvár, Ukrajna: PolyPrynt.
Kocmi, T. (2020). CUNI beadvány az inuktitut nyelvről a WMT News 2020-ban. Az 5. Gépi Fordítási Konferencia (WMT) előadásai, (171–174. o.). Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 19-én innen: https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). CUNI beadvány alacsony erőforrású nyelvekről a WMT News 2019-ben. A Negyedik Gépi Fordítási Konferencia (WMT) előadásai.2. kötet: Megosztott feladatokról szóló tanulmányok (1. nap), 234–240. o. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 13-án innen: https://www.aclweb.org/anthology/W19-5322.pdf
Macken, L., Prou, D., & Tezcan, A. (2020. április 23.). A gépi fordítás hatásának számszerűsítése egy magas minőségű emberi fordítási gyártási folyamatban. Informatika, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). Az oroszul beszélők a FÁK-országokban: migrációs tevékenység és az orosz nyelv megőrzése. P. Vladimirovich (szerk.) művében, 2018 Nemzetközi Tudományos Konferencia „Befektetés, Építés, Ingatlan: Új technológiák és speciális fejlesztési prioritások” (ICRE 2018) , 212. Irkutszk, Oroszország. doi:10.1051/matecconf/201821210005
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019. augusztus). A Facebook FAIR WMT19 hírfodítási feladat beadványa. A Negyedik Gépi Fordítási Konferencia előadásai (2. kötet: Megosztott feladatokról szóló tanulmányok, 1. nap), 314-319. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Gyors, bővíthető eszköztár szekvenciamodellezéshez. A NAACL-HLT 2019 előadásai: Demonstrációk.A Számítógépes Nyelvészetért Egyesület Észak-amerikai Tagozatának 2019-es Konferenciájának előadásai (Demonstrációk), 48-53. o. Minneapolis, MN: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Módszer a gépi fordítás automatikus értékelésére. A Számítógépes Nyelvészetért Egyesület 40. éves ülésének előadásai (311-318. o.). Philadelphia, PA: A Számítógépes Nyelvészetért Egyesület éves ülése.
Post, M. (2018. szeptember 12.). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Lexikon indukció beszélt ruszin nyelvre – Kihívások és eredmények. A 6. Balti-szláv Természetes Nyelvfeldolgozási Műhely előadásai, (27-32. o.). Valencia, Spanyolország.
Scherrer, Y., & Rabus, A. (2017). Többforrású morfoszintaktikai címkézés beszélt ruszin nyelvre. A Negyedik Műhely előadásai a hasonló nyelvek, változatok és dialektusok NLP-jéről (84-92. o.). Valencia, Spanyolország: Számítógépes Nyelvészetért Egyesület. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019. szeptember). Neurális morfoszintaktikai címkézés ruszin nyelvre. (R. Mitkov, szerk.) Natural Language Engineering, 25(5), 633-650. o. doi:10.1017/S1351324919000287
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Az Egyesült Nemzetek Párhuzamos Korpusza v1.0. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai, (pp. 3530–3534). Portorož, Szlovénia. Elérhető innen: https://www.aclweb.org/anthology/L16-1561
A cf_use_ob süti tájékoztatja a Cloudflare-t, hogy a kért erőforrást az Always Online gyorsítótárból kérje le a megadott porton. Alkalmazható értékek: 0, 80 és 443. A cf_ob_info és cf_use_ob sütik tartós sütik, amelyek 30 másodperc után lejárnak.
munkamenet
__cfwaitingroom
A __cfwaitingroom süti csak a váróterem engedélyezett gazdagép és útvonal kombinációját elérő látogatók nyomon követésére szolgál egy zónában. Azok a látogatók, akik olyan böngészőt használnak, amely nem fogad el sütiket, nem látogathatják a gazdagép és útvonal kombinációt, amíg a váróterem aktív.
munkamenet
cf_chl_rc_i
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
cf_chl_rc_ni
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
cf_chl_rc_m
Ezek a sütik belső használatra szolgálnak, lehetővé téve a Cloudflare számára, hogy azonosítsa a termelési problémákat az ügyfeleknél.
munkamenet
__cfruid
A Cloudflare tartalomszolgáltató által használt, megbízható webforgalom azonosítására.
munkamenet
__cf_bm
A Cloudflare bottermékei azonosítják és mérséklik az automatizált forgalmat, hogy megvédjék az Ön webhelyét a rosszindulatú botoktól. A Cloudflare a __cf_bm sütit helyezi el az End User eszközein, amelyek hozzáférnek a Bot Management vagy Bot Fight Mode által védett ügyfél webhelyekhez. A __cf_bm süti szükséges ezen botmegoldások megfelelő működéséhez.
munkamenet
__cflb
A Cloudflare Load Balancer-rel való munkamenet-azonosítás engedélyezésekor a Cloudflare egy egyedi értékű __cflb sütit állít be az első válaszban a kérő kliens számára. A Cloudflare a jövőbeli kéréseket ugyanarra az eredetre irányítja, optimalizálva a hálózati erőforrások felhasználását. Hiba esetén a Cloudflare új __cflb sütit állít be, hogy a jövőbeli kéréseket a hibaelhárító medencéhez irányítsa.
munkamenet
_cfuvid
Az _cfuvid süti csak akkor kerül beállításra, amikor egy webhely ezt az opciót használja a Korlátozási Szabályban, és csak arra használják, hogy a Cloudflare WAF megkülönböztesse az egyes felhasználókat, akik ugyanazt az IP-címet osztják meg.
munkamenet
cf_clearance
Hogy egy CAPTCHA vagy Javascript kihívás megoldásra került-e.
munkamenet
__cfseq
A sorozatszabályok sütiket használnak a felhasználó által tett kérések sorrendjének és a kérések közötti idő nyomon követésére, és elérhetővé teszik azokat a Cloudflare Szabályok által. Ez lehetővé teszi, hogy olyan szabályokat írjon, amelyek érvényes vagy érvénytelen sorozatokat illeszkednek. A sorozatok érvényesítésére használt konkrét sütiket sorozat sütiknek nevezik.
munkamenet
cf_ob_info
A cf_ob_info süti információkat nyújt a következőkről: Az eredeti webkiszolgáló által visszaadott HTTP állapotkód. Az eredeti sikertelen kérés Ray ID-ja. Az adatközpont, amely a forgalmat szolgálja.
munkamenet
Ezek a sütik szükségesek a hozzászólások hozzáadásához ezen a weboldalon.
Név
Leírás
Időtartam
comment_author
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
comment_author_email
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
comment_author_url
A felhasználó nyomon követésére szolgál több munkamenet során.
Munkamenet
Ezek a sütik a bejelentkezési funkció kezelésére szolgálnak ezen a weboldalon.
Név
Leírás
Időtartam
wordpress_logged_in
A bejelentkezett felhasználók tárolására szolgál.
Tartós
wordpress_sec
A felhasználó nyomon követésére szolgál több munkamenet során.
15 nap
wordpress_test_cookie
A sütik engedélyezésének meghatározására szolgál.
Munkamenet
A WP Hozzájárulás API egy bővítmény, amely standardizálja az elfogadott hozzájárulási kategóriák kommunikációját a bővítmények között.
Név
Leírás
Időtartam
wp_consent_{category}
Tárolja az Ön hozzájárulási preferenciáját egy adott süti kategóriára vonatkozóan (pl. funkcionális, marketing). Biztosítja a következetes hozzájáruláskezelést a WP Hozzájárulás API-t támogató WordPress bővítmények között.
30 nap
WPForms is a user-friendly WordPress plugin for creating custom forms with drag-and-drop functionality.
Név
Leírás
Időtartam
wpfuuid
Used to track user interactions with forms.
11 years
A statisztikai sütik névtelenül gyűjtenek információt. Ez az információ segít megérteni, hogyan használják a látogatók a weboldalunkat.
A Google Analytics egy erőteljes eszköz, amely nyomon követi és elemzi a weboldal forgalmát, lehetővé téve a megalapozott marketingdöntéseket.
Tartalmazza a felhasználó marketingkampányaira vonatkozó információkat. Ezeket megosztják a Google AdWords / Google Ads szolgáltatással, amikor a Google Ads és a Google Analytics fiókok összekapcsolásra kerülnek.
90 nap
__utma
Azonosító, amelyet a felhasználók és ülések azonosítására használnak.
2 év az utolsó tevékenység után
__utmt
A Google Analytics szerver kérésének számának nyomon követésére szolgál.
10 perc
__utmb
Az új ülések és látogatások megkülönböztetésére használják. Ez a süti akkor kerül beállításra, amikor a GA.js javascript könyvtár betöltődik, és nincs meglévő __utmb süti. A süti frissül, amikor adatokat küldenek a Google Analytics szerverre.
30 perc az utolsó tevékenység után
__utmc
Csak a régi Urchin verziókkal használt Google Analytics esetén, nem a GA.js-sel. Az ülések és látogatások megkülönböztetésére használták az ülés végén.
Ülés vége (böngésző)
__utmz
Tartalmazza a forgalmi forrásra vagy kampányra vonatkozó információkat, amely a felhasználót a weboldalra irányította. Ez a süti akkor kerül beállításra, amikor a GA.js javascript betöltődik, és frissül, amikor adatokat küldenek a Google Analytics szerverre.
6 hónap az utolsó tevékenység után
__utmv
A webfejlesztő által a Google Analytics _setCustomVar módszerén keresztül beállított egyedi információkat tartalmaz. Ez a süti frissül, amikor új adatokat küldenek a Google Analytics szerverre.
2 év az utolsó tevékenység után
__utmx
A felhasználó A / B vagy Multivariate tesztbe való bevonásának meghatározására szolgál.
18 hónap
_ga
Azonosító, amelyet a felhasználók azonosítására használnak.
2 év
_gali
A Google Analytics által használt, hogy meghatározza, mely linkekre kattintanak egy oldalon.
30 másodperc
_ga_
Azonosító, amelyet a felhasználók azonosítására használnak.
2 év
_gid
Az ID, amelyet a felhasználók az utolsó aktivitás után 24 órán keresztül történő azonosítására használnak
24 óra
_gat
A Google Tag Manager használata során a Google Analytics szerver kérések számának figyelemmel kísérésére szolgál
1 perc
A marketing cookie-kat a weboldalak látogatóinak követésére használják. A cél az, hogy olyan hirdetéseket mutassanak, amelyek relevánsak és vonzóak az egyes felhasználók számára.
A video-sharing platform for users to upload, view, and share videos across various genres and topics.
Registers a unique ID on mobile devices to enable tracking based on geographical GPS location.
1 day
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos. Also used for marketing
179 days
PREF
This cookie stores your preferences and other information, in particular preferred language, how many search results you wish to be shown on your page, and whether or not you wish to have Google’s SafeSearch filter turned on.
10 years from set/ update
YSC
Registers a unique ID to keep statistics of what videos from YouTube the user has seen.
Session
DEVICE_INFO
Used to detect if the visitor has accepted the marketing category in the cookie banner. This cookie is necessary for GDPR-compliance of the website.
179 days
LOGIN_INFO
This cookie is used to play YouTube videos embedded on the website.
Vélemény, hozzászólás?