Kérem, hivatkozzon így:
Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K. (2021). Yes I Speak… AI neural machine translation in multi-lingual training. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
✅ A hozzájárulás ezen verzióját szakértői felülvizsgálat után elfogadták publikálásra, de nem ez a végleges verzió, és nem tükrözi az elfogadás utáni fejlesztéseket vagy javításokat. A végleges verzió online elérhető ezen a linken. Az elfogadott verzió használatára a kiadó elfogadott kéziratának felhasználási feltételei vonatkoznak.
Absztrakt
A koalíciós partnerek közötti gyorsan megosztható és közösen használható képzésnek nyelvi és kulturális szempontból alkalmazkodnia kell (azaz lokalizálnia kell) a nem angolszász szövetségesek nyelvéhez, akik frontvonalbeli szereplőket képviselnek korlátozott vagy potenciálisan nulla angol nyelvtudással. Hagyományosan a lokalizáció idő- és munkaigényes folyamat volt, egy szakértőnek több mint két hónapra volt szüksége egy közepes méretű könyv lefordításához. Eközben a képzési gyakorlatoknak napok és hetek, nem pedig hónapok és évek teljes fejlesztési időkeretére kell reagálniuk, hogy megfeleljenek az operatív világ változó valóságának. Ebben a keretben a hagyományos lokalizáció komoly szűk keresztmetszetté válik a koalíciós erőfeszítések számára. Gyorsan kibontakozó helyzetekben a szövetségesek egyszerűen nem várhatnak hónapokat és éveket a ma este szükséges képzésre, vagy a jövő heti küldetés megoldására olyan nyelveken, amelyeket a frontvonalon könnyen megértenek – azaz a régóta áhított álom megvalósítására, a helyi igényekre szabott képzésre.
Lépjen be a feltörekvő mesterséges intelligencia technológia, a neurális gépi fordítás, amely percek alatt elvégzi azt, ami egy tapasztalt organikus nyelvésznek egy órát vesz igénybe, lehetővé téve a koalíciós szintű, többnyelvű bevezetést napok és hetek alatt, egyre javuló komplexitással. Ezt a gépi tanulás teszi lehetővé, azaz mesterséges ismétlődő neurális hálózatok képzése az egyik természetes nyelvről a másikra történő fordításra.
Mesterséges intelligencia alapú motorokat építettünk, időzítettük az Észak-atlanti Szerződés Szervezete (NATO) képzési anyagainak fordítását, és pontosságukat a kétnyelvű alulértékelési (BLEU) metrika segítségével mértük. Motorunk oroszból 1169,51%-kal gyorsabban és 58,37%-kal pontosabban fordított, mint a kontrollként használt professzionális emberi nyelvészünk. Lengyel neurális motorunk 17,29%-kal pontosabb és 488,45%-kal gyorsabb volt, mint az emberi. lemkó fordító motorjaink a világon az elsők, és tisztességes BLEU pontszámot, 14,57-et értek el. Mindeközben mindezt egy olcsó laptop számítógépen végeztük egy légmentesen elzárt, hozzáférés-vezérelt környezetben, elvágva a külvilágtól.
Tartalomjegyzék
Bevezetés
A probléma
Az online fordítási szolgáltatások addig működnek, amíg titokban nem kell fordítani, vagy olyan nyelvről, amely nem tartozik az erőforrások szempontjából a felső 2%-ba. Még a legbiztonságosabb online vagy felhőalapú fordítási szolgáltatások használata is azt jelenti, hogy információkat osztunk meg egy harmadik féllel, ami a legtöbb kereskedelmi titoktartási megállapodást sérti, nem is beszélve a védelmi ipar követelményeiről. Továbbá, a vezető online fordítási platform csak 109 nyelven működik (Google, 2021), ami kevesebb, mint a ma a világon beszélt 7139 nyelv 2%-a (Eberhard, Simons, & Fennig, 2021). A felhőszolgáltatók inherent harmadik fél kockázatával szembesülve sokan ellenőrzött emberi nyelvészekhez fordulnak, akik legjobb esetben havonta egy könyvet tudnak kezelni, legrosszabb esetben pedig életre szóló jogosulatlan nyilvánosságra hozatali fenyegetést jelentenek. Annak érdekében, hogy a többnyelvű vállalkozások és szervezetek több lehetőséget kapjanak, elhatároztuk, hogy megoldjuk azt a problémát, hogyan lehet mesterséges intelligenciát alkalmazni az anyagok gyors, pontos és titkos fordítására magas, közepes és alacsony erőforrású nyelvekről, légmentesen elzárt, olcsó, középkategóriás laptop számítógépeken, amelyek le vannak választva az internetről és a külvilágról.
Eddigi megoldások
Míg a gépi fordítás alapjait al-Kindī bagdadi műhelyében rakták le több mint egy évezreddel ezelőtt (DuPont, 2018; lásd még al-Kindī, 2002), addig a látványos, látható fejlődés szinte teljes egészében a Szilícium-völgyben zajlott az elmúlt öt évben. A fő áttörés a Google-nál történt (Lewis-Kraus, 2016), és a Facebook is csatlakozott a neurális gépi fordítás klubjához (Ott et al., 2019). Mi az ő FAIRseq motorjuk munkájára építettünk, amelyhez Sławomir Dadas kiváló lengyel-angol modellt tett elérhetővé (Dadas, 2019). Mr. Dadas munkájára építve hibrid neurális/szabályalapú/szótáralapú motorokat hoztunk létre, amelyek lemkó nyelvről angolra és fordítva fordítanak. A transzfer tanulás alkalmazásának ötletét a ruszin természetes nyelvi feldolgozásra (NLP) már megvitattuk tisztelt kollégáinkkal, Yves Scherrerrel és Achim Rabusszal, akik elsőként publikáltak eredményeket egy szakértői folyóiratban, és kedvesen megragadták az alkalmat, hogy megemlítsék Petro Orynycz hibrid neurális/szabályalapú lemkó gépi fordító motorját (Scherrer & Rabus, Neural morphosyntactic tagging for Rusyn, 2019, p. 634), amely 2019 márciusa óta működik és szabadon elérhető a www.lemkotran.com webcímen, transzliterációs természetes nyelvi feldolgozó modulja pedig 2017 szeptembere óta nyilvánosan elérhető ott.
A szélesebb rendszer
Magas, közepes és alacsony erőforrású nyelvek
A nyelvpárokat a tudományos irodalomban magas erőforrású, közepes erőforrású és alacsony erőforrású kategóriába sorolják, a rendelkezésre álló technológiák és adatkészletek mennyiségétől függően, nemzetközi jelentőségükhöz viszonyítva (Cieri, Maxwell, Strassel, & Tracey, 2016, p. 4545). A magas erőforrású párok közé tartozik a cseh-angol (Kocmi, 2020, p. 171), az orosz-angol, a német-angol (Ng, et al., 2019, p. 314) és a kínai-angol (Kocmi & Bojar, 2019, pp. 234–235). A lengyel-angol közepes erőforrású pár (Jónsson, Símonarson, Snæbjarnarson, Steingrímsson, & Loftsson, 2020, p. 2). Az alacsony erőforrású párok közé tartozik a gudzsaráti-angol, a kazah-angol (Kocmi & Bojar, p. 234), az inuktitut-angol (Kocmi, p. 171) és a lemkó-angol (Scherrer & Rabus, 2019, p. 85). Mivel a mesterséges intelligencia nyelvi modelljeinek képzéséhez hatalmas mennyiségű kétnyelvű adatra van szükség, a magasabb erőforrású nyelvek általában élvezik a neurális gépi fordító motorok elérhetőségét. Eközben a gépi tanulási képzési adatok hiánya miatt a neurális motorok ritkábbak az alacsonyabb erőforrású nyelvek esetében, amelyeket gyakran jobban szolgálnak ki az előző generációs statisztikai gépi fordító (SMT) motorok.
Kísérlet alatt álló, magas erőforrású nyelv: orosz
Az oroszt több mint 168 millióan beszélik első nyelvként, és további 114 millióan kiegészítő nyelvként (Maximova, Noyanzina, Omelchenko, & Maximova, 2018, p. 2). Az angolra fordítás automatizálása a háború utáni gépi fordítási erőfeszítések szent grálja volt. Az Egyesült Nemzetek hivatalos nyelveinek egyikeként hatalmas mennyiségű kétnyelvű orosz-angol szöveg áll rendelkezésre liberális licenc alatt (Ziemski, Junczys-Dowmunt, & Pouliquen, 2016, p. 3530).
Kísérlet alatt álló, közepes erőforrású nyelv: lengyel
A lengyel egy nyugati szláv nyelv, amelyet mintegy 38 millióan beszélnek a mai Lengyelországban, és ez a szám várhatóan csökkenni fog, részben a kiadás idején zajló világjárvány miatt (Associated Press, 2021). További 10 millióan beszélik a lengyelt valamilyen mértékben az ország határain kívül (Jassem, 2003, p. 103). Az Európai Unió egyik hivatalos nyelveként nagy mennyiségű kétnyelvű szöveg áll rendelkezésre a mesterséges intelligencia fordítási modelljeinek képzéséhez, beleértve 22 630 európai parlamenti dokumentumot (Hajlaoui, Kolovratnik, Vaeyrynen, Steinberger, & Varga, 2014, p. 3165).
Kísérlet alatt álló, alacsony erőforrású nyelv: lemkó
A lemkó egy alacsony erőforrású nyelv (Scherrer & Rabus, 2019, p. 85), amely megfelel a keleti szláv nyelvek osztályozásának hagyományos kritériumainak. Például a lemkó keleti szláv pleofóniát mutat, azaz a proto-szláv „ToRT” szekvenciák eredménye ToRoT (Fortson IV, 2004, pp. 371-372), mint a lemkó horodyty ’kerítést építeni, bekeríteni’ (Horoszczak, 2004, p. 45), valamint a standard ukrán horodyty, ruszin horodyty és orosz gorodit’ (Kerča, 2007, p. 176) szavakban. Eközben hasonlítsuk össze a lengyelt (egy nyugati szláv nyelv) a -ro--val a grodzić szóban, de a horvátot (egy déli szláv nyelv) a -ra--val a graditi ’építeni’ szóban. Távolabb, az angolban az -ar- a yard és a garden szavakban, az avesztai (óiráni) nyelvben a -ǝrǝ- a gǝrǝδō ’barlang’ szóban, és a szanszkrit (óindiai) nyelvben a -ṛ- a gṛhás ’otthon’ szóban (Vasmer, p. 1443).
Míg a lemkó pontos osztályozása és státusza a standard ukránhoz és a kodifikált ruszinhoz képest vitatott (Rabus & Scherrer, 2017), a lemkó-angol motorunk ilyen magas pontszáma a standard ukrán vagy a Szlovákiában kodifikált ruszin erőforrásainak igénybevétele nélkül alátámaszthatja Watral (2015) azon következtetését, hogy a lemkó önálló, teljes értékű nyelv, és nem más nyelvjárása. A növekvő objektív minőségi pontszámoktól felbuzdulva úgy döntöttünk, hogy a lengyel transzfer tanulást helyezzük előtérbe, mivel az azonnali megtérülést hoz a lemkó fordítási pontosság szempontjából, ami a legmagasabb értékünk. Lehetséges, hogy a minőségi pontszámokat a megfigyelt hibrid nyelv interferenciája növelte, amelynek során a lemkó nyelvtani végződéseket a standard lengyel szavakra illesztették (Watral, 2016, p. 242).
Lengyelország népszámlálási hivatala 2011-ben 6279 főt számlált, akik otthon lemkóul beszéltek, szemben a 2002-es 5605 fővel (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), és a kiadás idején új számlálás van folyamatban. Hányan lehetnek lemkóul beszélők a 2011-ben otthon ukránul beszélő 24 539 lengyel lakosból vagy a 626 „ruszin” (język ruski) nyelven beszélő háztartás tagjai közül (Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych, 2013, p. 7), az meghaladja e tanulmány hatókörét. Ukrajna Állami Statisztikai Szolgálata 672 lemkót számlált határain belül (Deržavna služba statystyky Ukraïny, 2001). Az Egyesült Nemzetek nyelvi veszélyeztetettségi skáláján 0-tól 5-ig, ahol a 0 kihalt, az 5 pedig „biztonságos” (UNESCO Ad Hoc Expert Group on Endangered Languages, 2003, pp. 7-8), a lemkó a 2-eshez közelítene, azaz súlyosan veszélyeztetett: a természetes generációk közötti nyelvi átadás egyre inkább hiányzik, és a fiatalabb beszélők egyre inkább nem léteznek (Duć-Fajfer, 2016, p. 178). Vannak azonban zöld hajtások, a kisebbségi nyelvek oktatásban, műsorszórásban, kiadásban, útjelző táblákon és tudományban való használatát védő és támogató törvényeket egyre inkább kihasználják (Duć-Fajfer, 2016, pp. 178-179).
Az erőforrás-helyzet is javul. Petro Orynycz összeállított és összehangolt egy kétnyelvű lemkó-angol korpuszt, amely 68 599 forrásszót tartalmaz, valamint saját angol fordításait (az egyetlen létező párhuzamos szöveg, amiről tudomásunk van). A korpuszt az Egyesült Államok John és Helen Timo Alapítványa által lemkó nyelven készített interjúk felhasználásával állították össze, akik megbízták Orynycz urat, hogy írja át és fordítsa le őket, valamint engedélyezték számára, hogy a munkát tudományos kutatásában és fejlesztésében felhasználja. Emellett több mint egymillió szavas egynyelvű lemkó korpuszt is gyűjt. Bár a lemkó, a ruszin, a standard ukrán és a szlovák nyelvi közösségek közötti összetett szociolingvisztikai kapcsolatok meghaladják e tanulmány hatókörét, a lengyel erőforrások (különösen a lengyel neurális modellek) voltak kulcsfontosságúak Orynycz úr hibrid lemkó motorjaihoz.
Hipózisek és előrejelzések
Fordítási sebesség
Hipózis: a légmentesen elzárt mesterséges intelligencia gépi fordítás most már olyan gyors, mint az emberek
Azt feltételeztük, hogy a középkategóriás laptopokon offline futó neurális gépi fordító motorok sebessége most már összehasonlítható az emberi fordítók sebességével. Ez a motorfejlesztés során tett megfigyeléseken alapult, miszerint a neurális gépi fordítás egy mondat lefordításához egy középkategóriás laptopon néhány másodperctől egy percig tartott, ami összehasonlítható Petro Orynycz lokalizációs iparágban szerzett tapasztalatai alapján megfigyelt emberi sebességekkel.
Előrejelzés: a gépi fordító motorok több szót dolgoznak fel óránként, mint az emberi fordítók
Azon hipotézisünk alapján, miszerint a légmentesen elzárt neurális gépi fordító motorok, amelyek offline futnak középkategóriás laptopokon, olyan gyorsak lennének, mint az emberek, azt jósoltuk, hogy sebességük meghaladja az emberi nyelvészekét, és több szót fordítanak másodpercenként, mint az emberi kontroll alanyunk.
Fordítási pontosság
Hipózis: a mesterséges intelligencia gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók
Azt feltételeztük, hogy a neurális gépi fordító motorok most már majdnem olyan pontosak, mint az emberi fordítók. Ez Petro Orynycz fordítási minőségellenőrzési szakemberként szerzett szakmai megfigyelésein alapult, miszerint a kereskedelmi neurális gépi fordítási felhőszolgáltatások nemcsak drámaian javultak, hanem gyakran megkülönböztethetetlen eredményeket produkáltak az emberi nyelvészekétől.
Előrejelzés: a mesterséges intelligencia gépi fordító motorok legalább 75%-os BLEU minőségi pontszámot érnek el a professzionális emberi fordítókhoz képest
Bár tudtuk, hogy a neurális gépi fordító motorok felülmúlhatják a kétnyelvű amatőröket, akik először próbálkoznak a fordítással, nem hittük, hogy motorjaink legyőznék a tapasztalt, professzionális nyelvészeket egy közvetlen versenyben. Szerencsére kétségünket tesztelni lehetett. A kétnyelvű értékelési alulértékelési (BLEU) algoritmus a gépi fordítási kutatás legdominánsabb metrikája, mivel nyelvfüggetlen, olcsó és könnyen számítható, valamint ésszerűen korrelál az emberi ítéletekkel (Post, 2018). Azt jósoltuk, hogy neurális motorjaink az emberi nyelvész által elért minőségi pontok 75%-át érik el. Például, ha egy emberi nyelvész 40 pontot ért el, a neurális gépi fordítás 30 pontot ér el. Eközben azt jósoltuk, hogy hibrid lemkó-angol motorunk kumulatív BLEU pontszáma 15 lesz.
Fordítási biztonság
Hipózis: a mesterséges intelligencia gépi fordítás offline is elvégezhető laptopokon, magas biztonságú terepi körülmények között
Azt feltételeztük, hogy a neurális gépi fordítás offline is elvégezhető légmentesen elzárt, hordozható berendezéseken, teljesen elvágva a külvilágtól. Ez azon megfigyelésen alapult, hogy megoldásunk minden komponense nem hívta meg az internetet, miután a függőségeket telepítették. Implicit feltételezés, hogy a légmentesen elzárt fordítási rendszerek, amelyek Repülőgép üzemmódban vannak, nem monitorozhatók vagy hackelhetők távolról. Egy másik feltételezés, hogy az operátorokat megfelelően ellenőrizték, és megfelelő óvintézkedéseket tettek a külső és belső fenyegetések ellen. Egy másik implicit feltételezés, hogy könnyebb egyetlen mobil munkaállomást több órán keresztül védeni, mint megakadályozni, hogy az emberi nyelvészek, akik átlagosan 25,01 USD-t keresnek óránként (Bureau of Labor Statistics, United States Department of Labor, 2021), jogosulatlan nyilvánosságra hozatalt tegyenek életük során, különösen a nyelvészek letartóztatásáról szóló jelentések fényében, akik titkok kiszivárogtatásának gyanújával kerültek letartóztatásra (Department of Justice Office of Public Affairs, 2009, 2018, 2020).
Előrejelzés: a mesterséges intelligencia gépi fordítás sikeres lesz egy légmentesen elzárt Lenovo Legion Y730-17ICH laptop számítógépen, amely offline fut Repülőgép üzemmódban
Azt jósoltuk, hogy fordítási rendszerünk nem fog meghibásodni, és elvégzi feladatait, amikor fizikailag el van választva és le van választva minden hálózatról vagy eszközről a Windows 10 Pro Repülőgép üzemmód funkciójának aktiválásával egy Lenovo Legion Y730-17ICH laptop számítógépen (Type 81HG).
Hibrid szabály/szótár alapú és neurális lemkó-angol motor
Hipózis: a hibrid szótár/szabályalapú motorok javítják a gépi fordítás pontosságát
Azt feltételeztük, hogy lengyel-lemkó szabályalapú gépi fordító (RBMT) motorunk, lengyel-lemkó szótáralapú gépi fordító (DBMT) motorunk, fordított irányban futó lemkó-lengyel DBMT motorunk és neurális lengyel-angol motorunk szinergikusan összekapcsolható egy hibrid motorrá, amely minden további résszel magasabb minőségi pontszámokat ér el. Ez a hipotézis a szerzőnek a professzionális lemkó-angol fordítóként szerzett megfigyelésein alapult, miszerint a lemkó és a lengyel közötti megfelelések elég gyakoriak ahhoz, hogy a hibrid motor életképes javaslattá váljon.
Előrejelzés: a hibrid lemkó-angol motorunkhoz hozzáadott minden almotor 5 ponttal növeli a BLEU-t.
Azt jósoltuk, hogy minden egyes szabályalapú vagy szótáralapú lemkó-lengyel almotor esetében, amelyet a hibrid lemkó-angol motorunkhoz adtunk, az összesített BLEU pontosság 5 ponttal növekedne.
Módszerek bemutatása és indoklás
Embert állítottunk gép ellen azzal, hogy mindkettőnek egy középkategóriás, légmentesen elszigetelt laptopot adtunk, amely a saját fejlesztésű számítógéppel segített fordítóprogramunkat futtatta (részletek alább), offline állapotban, Windows Repülőgép üzemmódban. Rögzítettük a sebességet és a pontosságot az oroszról angolra (magas erőforrásigényű nyelvpár), a lengyelről angolra (közepes erőforrásigényű nyelvpár) és a lemkóról angolra (alacsony erőforrásigényű nyelvpár) történő fordítás során. A sebesség kifejezésére az óránkénti szavak metrikát használtuk, mivel ez a lokalizációs projektmenedzserek alapja, és a tudományos irodalomban is használatos (Macken, Prou, & Tezcan, 2020, 4. o.). A pontosság mérésére a BLEU metrikát használtuk, mivel ez a legelterjedtebb a kutatás és fejlesztés területén (Post, 2018).
Főbb eredmények röviden
Nemcsak azt sikerült elérnünk, hogy az áttörést jelentő neurális gépi fordítási technológiát alkalmazva mesterséges intelligenciát használjunk egy légmentesen elszigetelt, offline laptopon, Repülőgép üzemmódban, egy magas erőforrásigényű nyelv (orosz) fordítására, több mint 10-szer gyorsabban, mint az emberi nyelvész kontrollszemélyünk, hanem gépünk minőségi pontszáma több mint 58 százalékkal „jobb volt, mint az emberi”. Sőt, mi vagyunk az első csapat a világon, amely lemkó gépi fordító motorok eredményeit publikálta tudományos folyóiratban.
Anyagok és módszerek
Bevezetés
Előrejelzéseink tesztelésére számos mesterséges intelligencia alapú és hibrid fordítómotort építettünk, kiszámítottuk sebességüket és pontosságukat egy légmentesen elszigetelt laptopon, Windows Repülőgép üzemmódban, és ugyanezt tettük egy professzionális nyelvész bevonásával, hogy kísérletünk kontrollált legyen.
Laboratóriumi beállítás
Hardver
Egy Lenovo Legion Y730-17ICH laptop számítógépet (81HG típus) használtunk, amelyen Windows 10 Pro (64 bites) futott. A modell gyártását leállították, és a publikálás időpontjában körülbelül 850 USD-ért, használtan kapható.
Operációs rendszer
A kísérlethez használt virtualizált operációs rendszer a Linux alrendszer volt Windowsra, pontosabban az Ubuntu 18.04 LTS, amelyet a Microsoft Store digitális disztribúciós platformon keresztül telepítettek.
Függőségek
A Python 3.8 telepítése a következő paranccsal történt: sudo apt install python3.8.
A sudo python3.8 -m pip install –upgrade parancsot használtuk a főbb függőségek telepítésére, beleértve a bleu, fastBPE, hydra-core, python-dev-tools, PyYAML, omegaconf, pip, pytz, nltk, setuptools, sacremoses, subword-nmt, torch, and torchvision-t is.
Eszközkészletek
Telepítettük a Facebook AI Research Sequence-to-Sequence Eszközkészletet a következő parancsok futtatásával:
sudo git clone https://github.com/pytorch/fairseq
cd fairseq
sudo python3.8 -m pip install --upgrade --ignore-installed PyYAML --editable ./
Dokumentáció és technikai támogatás elérhető itt: https://github.com/pytorch/fairseq
Neurális gépi fordítási modellek
Neurális lengyel-angol és hibrid lemkó-angol motorjainkhoz Sławomir Dadas lengyel-angol konvolúciós modelljét használtuk, amely elérhető és dokumentált a Lengyel Természetes Nyelvfeldolgozási (NLP) Erőforrások tárhelyén (Dadas, 2019).
Dokumentáció: https://github.com/sdadas/polish-nlp-resources#machine-translation-models
Orosz-angol motorunkhoz a Facebook AI Research Sequence-to-Sequence (FAIRseq) orosz-angol előre betanított egyetlen transzformátor modelljét használtuk finomhangolás nélkül, amelyet a 2019-es Negyedik Gépi Fordítási Konferenciára (WMT19) nyújtottak be.
Modell: https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz
Dokumentáció: https://github.com/pytorch/fairseq/tree/master/examples/wmt19
Elektronikus szótárak
Professzionális nyelvészünk offline hozzáférést kapott a New Kościuszko Foundation American English to Polish Dictionary (12,99 USD) elektronikus változatához, valamint az Oxford Russian Dictionary (19,99 USD) elektronikus változatához. Mindkettőt a Microsoft Store-on keresztül vásárolták. Jarosław Horoszczak lemkó-lengyel és lengyel-lemkó szótára (2004) szintén elérhetővé vált nyelvészünk számára offline használatra.
Kísérleti kontroll
A kísérletet úgy ellenőriztük, hogy egy professzionális emberi nyelvészt ültettünk a légmentesen elszigetelt laptop elé, miközben az Repülőgép üzemmódban volt, a fent említett elektronikus szótárakkal a gépen. A nyelvész megnyomta az Enter billentyűt, ekkor elindult az időzítő, és megjelent a fordítandó forrásmondat. A nyelvésznek megengedték, hogy a fordítását a Microsoft Wordben gépelje be (kihasználva annak helyesírás-ellenőrző funkcióját és egyéb szövegszerkesztési segédeszközeit), majd beillessze a saját fejlesztésű számítógéppel segített fordítóprogramunkba. Az Enter billentyű újbóli megnyomása után az emberi fordítás be lett küldve, és az időzítő leállt. Az emberi nyelvész sebességét (óránkénti szavakban) és pontosságát (BLEU pontszámban) minden lefordított mondat esetében kiszámítottuk.
Petro Orynycz, aki két évtizedes tapasztalattal rendelkezik orosz és lengyel nyelvészként, orosz nyelvből lengyel egyetemi diplomával, és több mint 5 éves tapasztalattal professzionális lemkó-angol fordítóként, szolgált kontrollszemélyként. Visszafordításokat végzett az alább felsorolt orosz és lengyel anyagokról, valamint angolra fordításokat lemkó nyelvről.
Kísérleti anyag: referenciafordítások
A kísérlethez használt orosz-angol és lengyel-angol szöveget a nyilvánossággal megosztott oktatási anyagokból szereztük be, amelyeket az Észak-atlanti Szerződés Szervezete (NATO) NATO Review kiadványa fordított angolról oroszra és lengyelre. Idézet: „A NATO Review részeinek, kivonatainak vagy cikkeinek reprodukálása nem kereskedelmi célokra engedélyezett, az alábbi feltétel mellett: a forrást, a NATO Review-t, fel kell tüntetni.” A szokásos gyakorlatnak megfelelően (Post, 2018) a korpusz adatokat megtisztítottuk és normalizáltuk a szöveg kisbetűsítésével és tokenizálásával. Gondoskodtunk arról, hogy a forrásszöveg és a célfordítások mondatszinten illeszkedjenek.
Ehhez a kísérlethez Dr. Jamie Shea, a NATO akkori főtitkárhelyettes-helyettesének (Emerging Security Challenges) előadását használtuk. Címe: Mit tanulhatunk ma a „Három Bölcs Férfitól”? Dr. Shea előadásának angol eredeti szövegét és a NATO által megrendelt orosz és lengyel fordításait a következő egységes erőforrás-azonosítókról szereztük be:
Angol eredeti: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html
Orosz fordítás: https://www.nato.int/docu/review/ru/articles/2016/12/05/chemu-my-moyoem-nauchit-sya-segodnya-u-treh-mudretsov/index.html
Lengyel fordítás: https://www.nato.int/docu/review/pl/articles/2016/12/05/czego-mozemy-nauczyc-sie-dzisiaj-od-trzech-medrcow/index.html
A kísérlethez használt lemkó-angol anyag a John & Helen Timo Alapítvány által rögzített személyes interjúkból állt, akik Petro Orynycz-t bízták meg az interjúk átírásával és angolra fordításával. Az alapítvány később szívesen adományozta az így kapott kétnyelvű korpuszokat tudományos kutatásra és fejlesztésre. Az interjúkban tárgyalt személyek magánéletének védelme, valamint az Európai Unió Általános Adatvédelmi Rendelete (GDPR) iránti tiszteletből az anyagokat nem tették nyilvánosan elérhetővé. Gondoskodunk arról, hogy a személyazonosításra alkalmas információkat (PII) és a személyes egészségügyi információkat (PHI) szerkesszük a minták megosztása előtt.
Módszer a fordítási pontosság értékelésére: BLEU
A kétnyelvű alulértékelési (BLEU) metrikát használtuk a referenciafordításhoz való hasonlóság, és így, bármennyire is tökéletlenül, a pontosság mérésére. Bár a BLEU pontszám nem tökéletes mérőszáma a pontosságnak vagy a minőségnek, ez az iparágban legszélesebb körben használt (Post, 2018). A Python modul a Python bleu csomagból származik, amely a következő egységes erőforrás-azonosítón dokumentált: https://pypi.org/project/bleu/
Gondoskodtunk arról, hogy a “it is a white cat .” és “wow , this dog is huge .” referencia mondatokat, valamint a “it is a white kitten .” és “wowww , the dog is huge !” jelölt hipotéziseket megadva, rendszerünk 34,99 kumulatív BLEU pontszámot számított, összhangban a Python bleu csomag dokumentációjával.
Módszer a szöveg normalizálására és tisztítására
Minden szöveget kisbetűsítettünk, és szóközt adtunk minden írásjel elé és után, hogy a rendszer ne feltételezze például, hogy a „Cat” és a „cat.” különböző szavak. Így a „It is a white cat.” normalizálva „it is a white cat .” lett. Több szóközt és egyéb szóközsorozatot egyetlen szóközzel helyettesítettünk a Python split() és join() metódusai segítségével.
Módszer a szavak számlálására
A mondatonkénti szavak számát a normalizált szöveges sztring szóköz alapú elválasztóval történő felosztásával határoztuk meg, majd megszámolva az elemeket abban a tömbben.
Módszer a fordítási sebesség mérésére
Abban a pillanatban, amikor az emberi fordító megnyomta az Enter billentyűt egy mondat fordításának megkezdéséhez, meghívtuk a Python time.time() metódusát, hogy megkapjuk az 1970. január 1-jei koordinált világidő (UTC) éjfél óta eltelt másodpercek számát lebegőpontos számként, amelyet általában Unix időnek neveznek, és ezt a számot használtuk emberi kezdési időként. Azt az Unix időt is rögzítettük, amikor gépi fordító motorjaink egy mondatot fordításra vettek.
Azt a pillanatot, amikor egy emberi nyelvész megnyomta az Enter billentyűt egy mondat fordításának beküldéséhez, vagy egy gép visszaadta egy mondat fordítását, használtuk végidőként. A kezdési idő kivonásával a végidőből megkaptuk a mondat fordításához szükséges másodpercek teljes számát.
Az óránkénti szavakat úgy számítottuk ki, hogy az Unix vég- és kezdési idők közötti különbséget elosztottuk a fent kiszámított szószámokkal, és az így kapott hányadost megszorozzuk 3600-zal (ami 60 60, azaz az egy órában lévő másodpercek száma):
Sebesség = (Fordítás_vége_idő − Fordítás_kezdete_idő) / Összes_lefordított_szó_száma × 3600
Módszer a berendezések fizikai elszigetelésére és légmentesítésére
A kísérletben használt berendezéseket nemcsak fizikai elszigeteléssel vágtuk el a külvilágtól, hanem a Microsoft Windows 10 Pro Repülőgép üzemmódjának használatával is, amely a dokumentációja szerint kikapcsolja a gép összes vezeték nélküli kommunikációját, beleértve az IEEE 802.11b Direct Sequence vezeték nélküli hálózatot, a mobilhálózatot, a Bluetooth-t, a globális helymeghatározó rendszert és a közeli mezős kommunikációt.
Eredmények
Fordítási sebesség: Minél magasabb erőforrásigényű a nyelvpár, annál gyorsabb a motor
A gép felülmúlta az embert a fordítási sebesség tekintetében az orosz-angol (magas erőforrásigényű) és a lengyel-angol (közepes erőforrásigényű) nyelvpárok esetében, összhangban azzal a hipotézisünkkel, hogy a neurális gépi fordítás gyorsabb, mint az emberi, és azzal az előrejelzésünkkel, hogy neurális motorjaink több szót fordítanak óránként. Oroszról fordítva motorunk átlagosan több mint 6 456 szót fordított óránként, ami 1170%-kal gyorsabb volt, mint emberi nyelvészünk. Lengyelről fordítva neurális motorunk 488%-kal gyorsabb volt, mint emberi fordítónk, átlagosan 3 768 szót fordítva óránként. Az alacsony erőforrásigényű lemkó-angol nyelvpár esetében hibrid neurális és szótár/szabályalapú motorunk 707 szót fordított óránként, majdnem egyenlő eredményt elérve emberi nyelvészünkkel, aki 13%-kal gyorsabb volt 798 szó/óra sebességgel. A hibrid motor szótáralapú komponensének súlyának eltávolítása közel négyszeresére növelte a sebességet, 3 137 szó/órára, ami 293%-kal gyorsabb, mint az emberi, 13%-os pontosságcsökkenés árán.
| Nyelvpár | Módszer | Szó/óra |
|---|---|---|
| Orosz–angol | Professzionális emberi | 509 |
| Orosz–angol | Csak NMT | 6456 |
| Lengyel–angol | Professzionális emberi | 640 |
| Lengyel–angol | Csak NMT | 3768 |
| lemkó–angol | Professzionális emberi | 798 |
| lemkó–angol | Romanizáció + hibrid szótár/szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT | 707 |
| lemkó–angol | Romanizáció + szótáralapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT | 752 |
| lemkó–angol | Romanizáció + szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol NMT | 3137 |
Fordítási pontosság: Minél magasabb erőforrásigényű a nyelvpár, annál pontosabb a motor
Mesterséges intelligencia motorjaink fordítási pontossága felülmúlta a professzionális nyelvészekét. Ez meghaladta azt a hipotézisünket, miszerint a légmentesen elszigetelt neurális gépi fordítás már csak kissé kevésbé pontos, mint az emberi fordítók. Orosz-angol mesterséges intelligencia motorunk 158%-os pontosságot ért el emberi fordítónkhoz képest, túlszárnyalva az általunk előre jelzett 75%-ot. Lengyel-angol neurális motorunk 117%-os pontosságot ért el emberi nyelvészünkhöz képest, túlszárnyalva a 75%-os elvárásunkat. Hibrid lemkó-angol motorunk 14,57-es BLEU pontszámot ért el (ami professzionális fordítónk pontosságának 51%-a), összhangban a 15-ös előrejelzésünkkel, felfelé kerekítve. A szabályalapú almotor elhagyása 2%-os pontosságnövekedést és 6%-os sebességnövekedést eredményezett. A szótáralapú almotor elhagyása 13%-os pontosságcsökkenést, de 344%-os sebességnövekedést eredményezett. Összefoglalva, közepes és magas erőforrásigényű nyelvekhez készült mesterséges intelligencia motorjaink szignifikánsan pontosabbak voltak, mint emberi nyelvészünk, míg az alacsony erőforrásigényű nyelvekhez készült hibrid motorjaink körülbelül feleannyira voltak pontosak, mint emberi nyelvészünk.
| Nyelvpár | Módszer | BLEU |
|---|---|---|
| Orosz–angol | Csak mesterséges intelligencia neurális gépi fordítás | 39,37 |
| Orosz–angol | Professzionális emberi fordítás | 24,86 |
| Lengyel–angol | Csak mesterséges intelligencia neurális gépi fordítás | 35,81 |
| Lengyel–angol | Professzionális emberi fordítás | 30,53 |
| lemkó–angol | Romanizáció + hibrid szótár/szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás | 14,57 |
| lemkó–angol | Romanizáció + szótáralapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás | 14,8 |
| lemkó–angol | Romanizáció + szabályalapú lemkó→lengyel GÉPI FORDÍTÁS + lengyel→angol neurális fordítás | 12,64 |
| lemkó–angol | Professzionális emberi fordítás | 28,66 |
Fordítási biztonság
Összhangban azzal a hipotézisünkkel, hogy egy neurális gépi fordítási megoldás megtervezhető egy légmentesen elszigetelt laptopon való futtatásra, kísérletünk sikeres volt e tekintetben. Előrejelzésünknek megfelelően kísérletünk működött bekapcsolt Windows Repülőgép üzemmódban, és nem okozott hibát a külvilágtól elszigetelt működés.
Szabályalapú gépi fordítás lemkó és lengyel között
Azon hipotézisünk, miszerint a lemkó és a lengyel közötti affinitás elég erős ahhoz, hogy a lemkó szabályalapú és szótáralapú helyettesítéssel fordítható legyen lengyelre, bebizonyosodott a lemkó-angol neurális/szabályalapú hibrid motorunk lenyűgöző teljesítménye által. Azon hipotézisünket, miszerint egy szabályalapú almotor és egy szótáralapú almotor kombinálása pontosabb hibrid motort eredményezne, jelenleg nem támasztják alá adataink. Egy szótáralapú modul hozzáadása egy szabályalapúhoz 2,16 ponttal növelte a motor BLEU-ját, ami kevesebb, mint az 5-ös előrejelzésünk.
Megbeszélés
Új korszak
Bebizonyítottuk, hogy nemcsak lehetséges a mesterséges intelligenciát megbízni a magas, közepes és alacsony erőforrásigényű nyelvekről történő fordítás tudásalapú munkájával egy hozzáférés-ellenőrzött környezetben, hanem a neurális gépi fordítás gyorsabban, biztonságosabban és sok esetben jobban is el tudja végezni a munkát. Eredményeink nemcsak alátámasztották hipotéziseinket, hanem neurális motorjaink teljesítménye felülmúlta előrejelzéseinket is. Itt van a közel valós idejű gépi fordítás új korszaka, amely önállóan vagy emberekkel együttműködve működik.
Sebesség
Motorunk óránként 6456 szó sebességgel fordított oroszból. Ennek kontextusba helyezéséhez konzultáltunk Marc Hackel szakértővel, egy washingtoni, D.C.-beli védelmi ipari nyelvész és orosz-angol fordítóval, aki több évtizedes tapasztalattal rendelkezik, és aki elmondta nekünk, hogy „egyfajta ökölszabály szerint egy nagyon tapasztalt fordítónak legalább 8 oldalt (azaz 8 darab 500 szavas oldalt, összesen 4000 szót) kellene lefordítania egy 8 órás munkanap alatt, feltételezve, hogy nincsenek akadályok, mint például mozaikszavak és hasonló dolgok. Sokak átlaga valójában óránként 250 szó, nem 500.” Így a neurális motorok kevesebb mint egy óra alatt elvégezhetik azt, ami az embereknek napokba telik.
Pontosság
Mesterséges intelligencia motorjaink magasabb BLEU pontszámokat értek el, mint professzionális emberi nyelvészünk. Ezen mérőszám alapján gépeink „jobbak” az orosz és lengyel nyelvről való fordításban, mint az emberek.1 Mivel az a feltételezés, hogy a mesterséges intelligencia gépi fordítás több mint 50%-kal pontosabb lehet, mint a tapasztalt nyelvészeké, forradalmi, ezt a kísérletet még több emberi nyelvész és korpusz bevonásával meg kell ismételni, hogy kizárjuk a véletlen egybeeséseket. Kivételesen tiszta, kihívást jelentő, virágnyelvű szövegeket használtunk, amelyeken a gépi fordítórendszerek hagyományosan elakadnak, az emberek viszont kiválóan teljesítenek. Bár egyenlő feltételekre törekedtünk, azt vártuk, hogy bármilyen előny az emberi oldalon lesz. Kérjük, nyers adatainkhoz és eredményeinkhez való hozzáférésért vegye fel a kapcsolatot Orynycz Petroval a fent megadott címen.
Következő lépések
Régebbi, elavult berendezéseket használtunk. Újabb, gyorsabb, következő generációs grafikus feldolgozó egységekkel felszerelt berendezések drámai javulást eredményezhetnek a fordítási sebességben. Kódunkat optimalizálni kell a meglévő erőforrások, például a grafikus feldolgozó egységek (GPU-k) maximális kihasználására. Tervezzük, hogy szótár alapú gépi fordító modulunkat tesztsorrá alakítjuk át a szabályalapú gépi fordítás (RBMT) modulunk tesztvezérelt fejlesztéséhez (TDD), amely felhasználható lenne párhuzamos szövegek fejlesztésére tisztán neurális lemkó-angol és angol-lemkó mesterséges intelligencia neurális gépi fordítórendszerek képzéséhez. További kutatásokra van szükség a csökkenő hozamok pontjainak azonosításához. Orynycz Petro tervei szerint hibrid neurális és szabályalapú rendszereit alkalmazza majd a mai Szlovákiában és Ukrajnában őshonos ruszin és ukrán dialektusok fordítórendszereinek fejlesztésére.
Zárásul
Egy új, átalakító korszak hajnalán állunk: bebizonyítottuk, hogy a mesterséges intelligencia képes tudásalapú munkát végezni, akárcsak az emberek, sőt, egyre több esetben több mint 50%-kal jobban, a töredék idő alatt és szinte nulla biztonsági kockázattal. Néhány száz dollár értékű, hátizsákban elférő felszerelés elegendő ahhoz, hogy mindig legyen egy emberinél jobb, szilícium alapú terepnyelvész segítőnk, aki soha nem árul el titkokat és nem fárad el. A szellem kiszabadult a palackból, és talán teljesíti a kihalás szélén álló nyelvek újjáélesztésére vonatkozó kívánságunkat, ha nem is a kihaltak feltámasztásának álmát. A nyelvi tömeges kihalási esemény, amelynek közepén vagyunk, megállhat, sőt, megfordulhat. Óvatosnak kell lennünk, mit kívánunk – az évezredekig drágán fordítható nyelvek titkosításával elszigetelt világok összeütközni készülnek. Reméljük, hogy ez a változás jobb irányba mutat. Proščaj, nyelvi akadály. Helló, új világ.
Lábjegyzetek
^ 1 Történelmileg egyes közösségek ellenállnak a BLEU használatának az emberi és gépi fordítás összehasonlítására, mégis nincs más olyan rendszer, amely ilyen széles körben elfogadott vagy elérhető lenne széleskörű, szakmailag ellenőrzött validációval. Valójában a BLEU pontszám feltalálói, Papineni, Roukos, Ward és Zhu már előre jelezték ezt a feszültséget az Egyesült Államok Védelmi Minisztériuma (a Defense Advanced Research Projects Agency [DARPA] által finanszírozott és a Space and Naval Warfare Systems Command [SPAWAR] által felügyelt) által támogatott munkájukban, úttörő publikációjuk részeként, írva: „Továbbá, [a metrikának] különbséget kell tennie két különböző minőségű emberi fordítás között. Ez utóbbi követelmény biztosítja a metrika folyamatos érvényességét, ahogy a gépi fordítás (MT) megközelíti az emberi fordítás minőségét.” A tabu megtörésével kezdve, ezután kiszámították a BLEU pontszámokat a „Human-1” (sem kínai, sem angol anyanyelvű) és a „Human-2” (angol anyanyelvű) esetében, és feltérképezték, hogyan követték BLEU pontszámaik szorosan az emberi bírák által adott pontszámokat (Papineni, Roukos, Ward, & Zhu, 2002).
Köszönetnyilvánítás
Szeretnénk megköszönni tanácsadónknak, Tim Quiramnak, az Egyesült Államok Parti Őrség Készenléti Parancsnokság Kiképzési Osztályának helyettes vezetőjének, hogy bátorított minket a folytatásra, az Antech Systems, Inc. igazgatótanácsának és a Naval Air Warfare Center Aircraft Division Webster Outlying Field (NAWCAD WOLF) ePerformance csapatának, hogy olyan környezetet teremtettek, ahol szenvedélyeinket követhetjük, osztályunk ügyvezető alelnökének, Tom Dobrynak felbecsülhetetlen értékű útmutatásáért, megalapozott ítélőképességéért és látnoki vezetői képességéért, valamint csapatvezetőnknek, Will Duffnak, amiért arra ösztönzött minket, hogy keményen dolgozzunk, elősegítette a bajtársiasság szellemét és erkölcsi támogatást nyújtott. Orynycz Petro szeretné megköszönni mesterséges intelligencia űrprojekt menedzsereinek, Raffaele Pascalenak és Michal Brnušáknak a Szilícium-völgyi Venga Global Inc. nyelvi szolgáltatótól, professzionalizmusukat, a csapat iránti őszinte törődésüket és rendíthetetlen elkötelezettségüket a helyes eredmény elérésében. Orynycz úr szeretné megköszönni mérnöktársainak, kollégáinak és régi barátainak, Michael Lawrence Cramernek a BCT LLC-től és Michael Decerbónak a Raytheon BBN Technologies-től, hogy a kezdetektől fogva hittek benne. Továbbá szeretné megköszönni barátjának és kolléga számítógépes nyelvészének, Jouna Pyysalónak, Ph.D., a Helsinki Egyetemről, hogy valóra váltotta az álmokat. Végül szeretné megköszönni Maria Silvestrinek a John és Helen Timo Alapítványtól a tudományos kutatásra és fejlesztésre nyújtott adományát az általa készített lemkó interjúkhoz és az általa elvégzésre felkért fordításokhoz, valamint kedves barátjának, Ołena Dućnak a Ruska Bursától az interjúk felbecsülhetetlen értékű fordításaiért és átirataiért.
Hivatkozások
al-Kindī, Y. i. (2002). al-Kindi szerkesztett értekezése. M. I. AL-Suwaiyel, I. A. Kadi, & M. al-Bawab (szerk.) művében, al-Kindi értekezése a kriptoanalízisről (1. kötet) (S. M. al-Asaad, ford., 1. kötet, 117-204. o.). Damaszkusz, Szíria: KFCRIS & KACST. (Eredeti mű kiadva kb. 850).
Associated Press. (2021. január 26.). Lengyelország lakossága gyorsan zsugorodik a járvány idején. Letöltve 2021. június 19-én az AP NEWS-ről: https://apnews.com/article/pandemics-demographics-coronavirus-pandemic-birth-rates-covid-19-pandemic-5895d554be280b0ade9068c75872976e
Bureau of Labor Statistics, Egyesült Államok Munkaügyi Minisztériuma. (2021). Foglalkozási Kilátások Kézikönyve, Tolmácsok és Fordítók. Washington, DC. Letöltve 2021. június 1-jén innen: https://www.bls.gov/ooh/media-and-communication/interpreters-and-translators.htm
Cieri, C., Maxwell, M., Strassel, S., & Tracey, J. (2016). Kiválasztási kritériumok alacsony erőforrású nyelvi programokhoz. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai (4543–4549. o.). Portorož, Szlovénia: European Language Resources Association (ELRA). Letöltve 2021. június 27-én innen: https://www.aclweb.org/anthology/L16-1720
Dadas, S. (2019). Lengyel NLP erőforrások tárolója. Letöltve 2021. május 26-án innen: https://github.com/sdadas/polish-nlp-resources/
Departament Wyznań Religijnych oraz Mniejszości Narodowych i Etnicznych. (2013). IV. Jelentés a nemzeti és etnikai kisebbségek, valamint a regionális nyelvek helyzetéről a Lengyel Köztársaságban – 2013. Varsó, Lengyelország: Belügyminisztérium. Letöltve 2021. június 13-án innen: http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf
Igazságügyi Minisztérium Közügyek Hivatala. (2009. december 17.). Volt FBI szerződéses nyelvész bűnösnek vallja magát minősített információk bloggernek való kiszivárogtatásában. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/former-fbi-contract-linguist-pleads-guilty-leaking-classified-information-blogger
Igazságügyi Minisztérium Közügyek Hivatala. (2018. augusztus 23.). Szövetségi kormányzati vállalkozót ítéltek el minősített anyagok hírügynökségnek való eltávolításáért és továbbításáért. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/federal-government-contractor-sentenced-removing-and-transmitting-classified-materials-news
Igazságügyi Minisztérium Közügyek Hivatala. (2020. augusztus 17.). Volt CIA tisztet tartóztattak le és vádoltak meg kémkedéssel. Letöltve 2021. június 9-én az Egyesült Államok Igazságügyi Minisztériumától: https://www.justice.gov/opa/pr/former-cia-officer-arrested-and-charged-espionage
Ukrajna Állami Statisztikai Szolgálata. (2001). Az ukrán etnikum egyes etnográfiai csoportjainak létszáma és anyanyelvük. Letöltve 2021. augusztus 26-án az Összukrán Népesség-összeírás 2001-ből: http://2001.ukrcensus.gov.ua/results/nationality_population/nationality_popul2/select_5/?botton=cens_db&box=5.5W&k_t=00&p=0&rz=1_1&rz_b=2_1&n_page=1
Duć-Fajfer, O. (2016). Irodalom, fejlődési folyamat és nyelvi identitás revitalizációja a lemkó irodalom példáján. J. Olko, T. Wicherkiewicz, & R. Borges (szerk.) művében, Integrált stratégiák a nyelvi revitalizációhoz (177-178. o.). Varsó, Lengyelország: Varsói Egyetem, „Artes Liberales” Kar. Letöltve innen: http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=177
DuPont, Q. (2018. május). A gépi fordítás kriptológiai eredete, al-Kinditől Weaverig. (C. Mitchell, & R. Raley, szerk.)
Eberhard, D. M., Simons, G. F., & Fennig, C. D. (2021). Hány nyelv van a világon? (D. M. Eberhard, G. F. Simons, & C. D. Fennig, szerk.) Letöltve 2021. június 13-án az Ethnologue: Languages of the World-ből: https://www.ethnologue.com/guides/how-many-languages
Fortson IV, B. W. (2004). Indoeurópai nyelv és kultúra. Malden, MA, USA: Blackwell Publishing.
Google. (2021. június 8.). Nyelvi támogatás | Cloud Translation. Letöltve 2021. június 13-án a Google Cloud-ról: https://cloud.google.com/translate/docs/languages
Hajlaoui, N., Kolovratnik, D., Vaeyrynen, J., Steinberger, R., & Varga, D. (2014). DCEP – Az Európai Parlament digitális korpusza. Nyelvi Erőforrások és Értékelés Konferencia (LREC 2014), (3164-3171. o.). Reykjavik, Izland. Letöltve 2021. június 19-én innen: http://www.lrec-conf.org/proceedings/lrec2014/pdf/943_Paper.pdf
Horoszczak, J. (2004). Lemkó-lengyel, lengyel-lemkó szótár. Varsó, Lengyelország: Rutenika Lemkó Kisebbséget Támogató Alapítvány.
Jassem, W. (2003. június). Lengyel. Journal of the International Phonetic Association, 33(1), 103-107. doi:10.1017/S0025100303001191
Jónsson, H. P., Símonarson, H. B., Snæbjarnarson, V., Steingrímsson, S., & Loftsson, H. (2020). Kísérletezés különböző gépi fordítási modellekkel közepes erőforrású környezetekben. P. Sojka, I. Kopeček, K. Pala, & A. Horák (szerk.) művében, Szöveg, beszéd és párbeszéd. TSD 2020. Lecture Notes in Computer Science. 12284, 2. o. Springer, Cham. doi:10.1007/978-3-030-58323-1_10
Kerča, I. (2007). Ruszin-orosz szótár (1. kötet). Ungvár, Ukrajna: PolyPrynt.
Kocmi, T. (2020). CUNI beadvány az inuktitut nyelvről a WMT News 2020-ban. Az 5. Gépi Fordítási Konferencia (WMT) előadásai, (171–174. o.). Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 19-én innen: https://www.aclweb.org/anthology/2020.wmt-1.14
Kocmi, T., & Bojar, O. (2019). CUNI beadvány alacsony erőforrású nyelvekről a WMT News 2019-ben. A Negyedik Gépi Fordítási Konferencia (WMT) előadásai. 2. kötet: Megosztott feladatokról szóló tanulmányok (1. nap), 234–240. o. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. Letöltve 2021. június 13-án innen: https://www.aclweb.org/anthology/W19-5322.pdf
Lewis-Kraus, G. (2016. december 14.). A nagy mesterséges intelligencia ébredés (neurális irány). The New York Times, 40. o. Letöltve innen: https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html
Macken, L., Prou, D., & Tezcan, A. (2020. április 23.). A gépi fordítás hatásának számszerűsítése egy magas minőségű emberi fordítási gyártási folyamatban. Informatika, 7(2). doi:10.3390/informatics7020012
Maximova, S., Noyanzina, O., Omelchenko, D., & Maximova, M. (2018). Az oroszul beszélők a FÁK-országokban: migrációs tevékenység és az orosz nyelv megőrzése. P. Vladimirovich (szerk.) művében, 2018 Nemzetközi Tudományos Konferencia „Befektetés, Építés, Ingatlan: Új technológiák és speciális fejlesztési prioritások” (ICRE 2018) , 212. Irkutszk, Oroszország. doi:10.1051/matecconf/201821210005
Microsoft. (é.n.). Repülőgép üzemmód be- vagy kikapcsolása. Letöltve 2021. június 9-én a Microsofttól: https://support.microsoft.com/en-us/windows/turn-airplane-mode-on-or-off-f2c2e0a1-706f-ff26-c4b2-4a37f9796df1
NATO Review. (é.n.). Rólunk. Letöltve 2021. június 9-én az Észak-atlanti Szerződés Szervezetétől: https://www.nato.int/docu/review/about.html
Ng, N., Yee, K., Baevski, A., Ott, M., Auli, M., & Edunov, S. (2019. augusztus). A Facebook FAIR WMT19 hírfodítási feladat beadványa. A Negyedik Gépi Fordítási Konferencia előadásai (2. kötet: Megosztott feladatokról szóló tanulmányok, 1. nap), 314-319. Firenze, Olaszország: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/W19-5333
Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., . . . Auli, M. (2019). fairseq: Gyors, bővíthető eszköztár szekvenciamodellezéshez. A NAACL-HLT 2019 előadásai: Demonstrációk. A Számítógépes Nyelvészetért Egyesület Észak-amerikai Tagozatának 2019-es Konferenciájának előadásai (Demonstrációk), 48-53. o. Minneapolis, MN: Számítógépes Nyelvészetért Egyesület. doi:10.18653/v1/N19-4009
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: Módszer a gépi fordítás automatikus értékelésére. A Számítógépes Nyelvészetért Egyesület 40. éves ülésének előadásai (311-318. o.). Philadelphia, PA: A Számítógépes Nyelvészetért Egyesület éves ülése.
Post, M. (2018. szeptember 12.). Felszólítás a BLEU pontszámok jelentésének egyértelműsítésére. Amazon Research.
Rabus, A., & Scherrer, Y. (2017). Lexikon indukció beszélt ruszin nyelvre – Kihívások és eredmények. A 6. Balti-szláv Természetes Nyelvfeldolgozási Műhely előadásai, (27-32. o.). Valencia, Spanyolország.
Scherrer, Y., & Rabus, A. (2017). Többforrású morfoszintaktikai címkézés beszélt ruszin nyelvre. A Negyedik Műhely előadásai a hasonló nyelvek, változatok és dialektusok NLP-jéről (84-92. o.). Valencia, Spanyolország: Számítógépes Nyelvészetért Egyesület. doi:http://dx.doi.org/10.18653/v1/W17-1210
Scherrer, Y., & Rabus, A. (2019. szeptember). Neurális morfoszintaktikai címkézés ruszin nyelvre. (R. Mitkov, szerk.) Natural Language Engineering, 25(5), 633-650. o. doi:10.1017/S1351324919000287
Shea, J. (2016. december 5.). Mit tanulhatunk ma a „három bölcstől”? NATO Review. Letöltve 2021. május 26-án innen: https://www.nato.int/docu/review/articles/2016/12/05/what-can-we-learn-today-from-the-three-wise-men/index.html
UNESCO Ad Hoc Szakértői Csoport a Veszélyeztetett Nyelvekről. (2003). Nyelvi vitalitás és veszélyeztetettség. Nemzetközi Szakértői Találkozó az UNESCO Veszélyeztetett Nyelvek Megőrzési Programjáról. Párizs: UNESCO. Letöltve 2021. június 19-én innen: http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CLT/pdf/Language_vitality_and_endangerment_EN.pdf
Vasmer, M. J. (é.n.). Az orosz nyelv etimológiai szótára. (O. N. Trubačëv, ford.) Moszkva: AST (Eredeti mű kiadva 1950).
Watral, M. (2015. február). A lemkók revitalizációja. Znak(717), 38-44. Letöltve 2021. augusztus 24-én innen: https://www.miesiecznik.znak.com.pl/7172015marta-wartalrewitalizacja-lemkow/
Watral, M. (2016). Attitűdök a lemkó nyelvvel szemben – minta és megvalósítása. J. Olko, T. Wicherkiewicz, & R. Borges (szerk.) művében, Integrált stratégiák a nyelvi revitalizációhoz (221-260. o.). Varsó, Lengyelország: Varsói Egyetem, „Artes Liberales” Kar. Letöltve 2021. augusztus 24-én innen: http://revitalization.al.uw.edu.pl/Content/Uploaded/Documents/integral-strategies-a91f7f0d-ae2f-4977-8615-90e4b7678fcc.pdf#page=243
Ziemski, M., Junczys-Dowmunt, M., & Pouliquen, B. (2016). Az Egyesült Nemzetek Párhuzamos Korpusza v1.0. A Tizedik Nemzetközi Nyelvi Erőforrások és Értékelés Konferencia (LREC’16) előadásai, (pp. 3530–3534). Portorož, Szlovénia. Elérhető innen: https://www.aclweb.org/anthology/L16-1561
Vélemény, hozzászólás?