Absztrakt
A mesterséges intelligencia által működtetett neurális gépi fordítás hamarosan újjáélesztheti a veszélyeztetett nyelveket azáltal, hogy felhatalmazza az új beszélőket a valós idejű kommunikációra, olyan mondatok használatával, amelyek számszerűsíthetően közelebb állnak az irodalmi normához, mint az anyanyelvi beszélőké, és a nyelvi visszaszerzésük első napjától kezdve. Míg a Szilícium-völgy hatalmas erőforrásokat fektetett a neurális fordítási technológiába, amely emberfeletti sebességre és pontosságra képes a világ legszélesebb körben használt nyelvei esetében, addig 98%-uk lemaradt, korpuszok hiánya miatt: a neurális gépi fordítási modellek több millió szavas kétnyelvű szövegen alapulnak, amelyek egyszerűen nem léteznek a legtöbb nyelv esetében, és nyelvénként több mint százezer amerikai dollárba kerül az összeállításuk.
Az alacsony erőforrású nyelvek esetében létezik egy leleményesebb, ha nem hatékonyabb megközelítés: az átviteli tanulás, amely lehetővé teszi az alacsonyabb erőforrású nyelvek számára, hogy profitáljanak a magasabb erőforrású nyelvek eredményeiből. Ebben a kísérletben a Google angol-lengyel neurális fordítási szolgáltatása párosult a klasszikus, szabályalapú motorommal, hogy angolról a veszélyeztetett, alacsony erőforrású, keleti szláv lemkó nyelvre fordítson. A rendszer 6,28-as kétnyelvű értékelési alvizsgálati (BLEU) minőségi pontszámot ért el, ami többszörösen jobb, mint a Google Fordító angol-standard ukrán (BLEU 2,17), orosz (BLEU 1,10) és lengyel (BLEU 1,70) szolgáltatásai. Végül ennek a kísérletnek az eredménye, a világ első angol-lemkó fordítási szolgáltatása, elérhetővé vált a www.LemkoTran.com webcímen, hogy felhatalmazza az új beszélőket nyelvük újjáélesztésére.
Az új beszélők kulcsfontosságúak a nyelv újjáélesztésében, és a „Mondd jól” képessége lemkó nyelven most a kezükben van.
Kulcsszavak: Emberközpontú AI, Nyelvújraélesztés, Lemkó.
Kérem, így hivatkozzon: Orynycz, P. (2022). Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó nyelv újjáélesztésére. In: Degen, H., Ntoa, S. (szerk.) Mesterséges intelligencia az HCI-ben. HCII 2022. Lecture Notes in Computer Science, 13336. kötet. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
✅ A hozzájárulás ezen verzióját szakértői felülvizsgálat után elfogadták publikálásra, de nem a végleges kiadott verzió, és nem tükrözi az elfogadást követő javításokat vagy korrekciókat. A végleges kiadott verzió online elérhető itt: https://doi.org/10.1007/978-3-031-05643-7_37. Az elfogadott verzió használata a kiadó elfogadott kéziratának felhasználási feltételeihez kötött: https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms.
Tartalomjegyzék
1 Bevezetés
1.1. Problémák
Ez a kísérlet célja, hogy helyi szinten hozzájáruljon a nyelvi veszteség globális kihívásához, amely naponta egy nyelv elvesztésével járhat, és tízből mindössze egy nyelv marad fenn [1, p. 1329]. A sajtó idején az SIL International Ethnologue kiadványa Lewis és Simons 2010-es kiterjesztett, fokozatos intergenerációs megszakítási skáláját használja annak becslésére, hogy 3018 nyelv veszélyeztetett [2], ami a sajtó idején az International Organization for Standardization ISO 639-3 szabványában számon tartott 7001 egyedi élő nyelv 43%-a [3]. Eközben a Google Fordító csak 108 [4], a Facebook pedig 112 [5] nyelvet támogat, ami egy kezdet. Mindazonáltal egy nyelvvel kevesebb van most alulreprezentálva, mivel ennek a kísérletnek az eredményét nyilvános fordítási szolgáltatásként telepítették egy webszerverre.
Új mesterséges intelligencia technológiák kecsegtetnek azzal az ígérettel, hogy ember-számítógép interakcióval azonnal kompenzálják a nyelvi veszteséget. Előző kísérletemben a következő generációs neurális motorok magasabb minőségi pontszámokat értek el orosz és lengyel nyelvről angolra fordítva, mint az emberi kontroll [6, p. 9]. Eközben a Facebook és a Google1 hatalmas erőforrásokat fektetett abba, hogy emberi teljesítményt felülmúló automatikus fordítási rendszereket biztosítson a fogyasztók számára nulla költséggel.
1 Nyilatkozat: Fizetett orosz, lengyel és ukrán nyelvészként, valamint fordítási minőségellenőrzési specialistaként dolgozom a Google Fordító projektben; a központ San Franciscóban található.
Az emberfeletti mesterséges intelligencia nem olcsó: a neurális nyelvi modellek képzéséhez kétnyelvű korpuszokra van szükség, amelyek szószámuk százezrekben, ideális esetben milliókban mérhető, ami több százezer dollárba kerülne lefordítani, olyan összegekbe, amelyek meghaladják a legtöbb alacsony erőforrású nyelvi közösség lehetőségeit. Szerencsére ez a kísérlet azt mutatja, hogy vannak találékonyabb és hatékonyabb módok a veszélyeztetett nyelvek újjáélesztését célzó fordítási segédeszközök létrehozásának kihívására.
1.2 Eddigi munka
Én építettem a világ első lemkó-angol gépi fordítási rendszerét, és nyilvánosan elérhetővé tettem. Objektív fordítási minőségi pontszámai javultak: a motor 2021 nyarán 14,57-es BLEU (bilingual evaluation understudy) pontszámot ért el, amelyet a Nemzeti Védelmi Ipari Szövetség Szolgálatközi/Ipari Képzési, Szimulációs és Oktatási Konferenciáján mutattak be szakembereknek, és közzétettek annak kiadványaiban [6]. Referenciaként én 28,66-os BLEU pontszámot értem el emberi fordítóként, terepi körülmények között dolgozva, elzárva a külvilágtól. 2021 őszére a motor elérte a 15,74-es BLEU pontszámot, amiről a Pittsburghi Egyetem által szervezett bemutató eseményen számoltak be nyelvészeknek, akadémikusoknak és a szélesebb közösségnek.2
2 Nyilatkozat: az eseményt a Kárpát-Ruszin Társaság (Pennsylvania) támogatta, és a Pittsburghi Egyetem fizetett a prezentációmért.
1.3 Vizsgált rendszer
A lemkó egy határozottan súlyosan veszélyeztetett [6, 3. o., 7, 177-178. o.], alacsony erőforrású [8], hivatalosan elismert kisebbségi nyelv [9], amely feltehetően őshonos a Krakkó, Tarnów és Rzeszów nagyvárosi területektől délre fekvő határmenti hegyvidékeken; a történelmi elhatároló izoglosszák remélhetőleg egy jövőbeli tanulmány témái lesznek. Lengyelország népszámlálási hivatala 2011-ben 6279 lakost számlált, akik számára a lemkó volt az „általában otthon használt” nyelv (még ha a lengyel mellett is) [10, 3. o.], ami 12%-os növekedést jelent a 2002-es 5605 főhöz képest, akik számára a lemkó volt a „leggyakrabban otthon beszélt nyelv” [11, 6. o., 12, 7. o.]. A sajtó megjelenésekor egy új számlálás eredményeit összesítik.
A lemkó keleti szláv nyelvként osztályozható, mivel megfelel a szokásos genetikai szerkezeti jellemzők kritériumainak, amelyek közül a legjelentősebb a pleofónia [13, 20. o.], amely szerint egy magánhangzó keletkezett az ős-szláv mássalhangzó-sorozatokban C amelyet közép- vagy mély magánhangzó követ V (*e, vagy *o, amellyel *a összeolvadt [14, p. 366]), amelyet folyékony R követ (azaz, *l vagy *r), amelyet egy másik mássalhangzó követ C, azaz CVRC > CVRVC. Illusztrációként hasonlítsa össze az óangol „olvad” szót, a meltan (CVRC) [15, 718. o.] feltételezett lemkó rokonával, a mołódyj [16, 92. o., 17, 150. o.] (CVRC) szóval, ami „fiatal”-t jelent. Más keleti szláv rokon szavak közé tartozik az ukrán mołodýj és az orosz mołodój [17], mindkettő magánhangzót mutat a likvida után (CVRVC). Eközben a nyugat-szláv nyelvekben hiányzik a magánhangzó a folyékony hang előtt; hasonlítsa össze a lengyel młody és a szlovák mladý szavakat (mindkettő CRVC) [17]. Továbbá, rokonságot feltételeztek más, „enyhe” jelentésű szavak esetében is, beleértve a szanszkrit mṛdú (CRC) [18, p. 830] és a latin mollis (CVRC, ha a *moldvis szóból származik) [15, 17, 19, p. 323] szavakat.
Azt, hogy a lemkó mennyire felel meg a szokásos, modern ukrán genetikai szerkezeti jellemzők kritériumainak, ebben a kísérletben nem értékelték. Azonban a lemkó és a standard ukrán közötti hasonlóságot számszerűsítették, tudomásom szerint először nyomtatásban. Alább a lemkó motorom 6,28-as BLEU pontszámot ért el, ami közel háromszorosa a Google Translate ukrán szolgáltatásának 2,17-es BLEU pontszámának. További kísérleteket lehetne végezni a lemkó, a standard ukrán, a lengyel és a Szlovákiában kodifikált ruszin közötti hasonlóság számszerűsítésére, valamint a lemkó tipológiai osztályozásának új megközelítésére.
Az erőforrások mennyisége és minősége javult, ahogy a technológia által megerősített találékonyság is. Az összes ismert kétnyelvű korpuszt, amely kevesebb mint hetvenezer lemkó szót tartalmazott, összegyűjtötték ehhez a kísérlethez. Tisztítottam egy kétnyelvű korpuszt, amely Lengyelországban anyanyelvi beszélőkkel készített interjúk átiratait és az azokról készült angol fordításaimat tartalmazta, amelyeket egy amerikai ügyfél fizetett ki nekem, és engedélyezte a felhasználásukat. Monolingvális korpuszokat is összeállítok, amelyek a sajtó megjelenésekor összesen 534 512 szót tesznek ki.
1.4 Hipotézis
Az én szubjektív benyomásom alapján, mint professzionális fordító, hogy a Lengyelországban megkérdezett lemkó anyanyelvűek nagyobb valószínűséggel használtak nyilvánvaló lengyel rokon szavakat, mint standard ukránokat, azt feltételeztem, hogy minden más tényező egyenlő feltételezése mellett egy gép konfigurálható lenne angolról lemkóra történő fordításra, és magasabb BLEU objektív minőségi pontszámokat érhetne el, mint a Google Translate ukrán és orosz szolgáltatásai.
1.5 Előrejelzések
Lemkó Fordítási Rendszer. Azt jósoltam, hogy az említett fordítási rendszer 15-ös BLEU pontszámot ér el angolról lemkóra fordítva a kétnyelvű korpusz alapján.
Google Fordító.
Angol-ukrán szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-ukrán szolgáltatása 10-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
Angol-orosz szolgáltatás. Azt jósoltam, hogy a Google Fordító angol-orosz szolgáltatása 1-es BLEU pontszámot ér el a kétnyelvű korpusz ellenében.
1.6 Módszerek és indoklás
A sebesség, az erőforrás-megőrzés és a robusztusság érdekében egy, a munkáltatóm által elavultnak ítélt laptop számítógépet konfiguráltak lemkóra történő fordításra és hívások kezdeményezésére a Google Cloud Platform Google Translate szolgáltatásához, valamint konfigurálták az említett fordítások értékelésére az iparági szabvány BLEU metrika segítségével.
1.7 Fő eredmények
Az angol-lemkó fordítási rendszer kumulatív BLEU pontszáma 6.28431824990417 volt. Eközben a Google Translate ukrán szolgáltatása 2.16830846776652 BLEU pontszámot ért el, orosz szolgáltatása 1.10424105952048 BLEU pontszámot, és a cirill ábécére átírt lengyel kontroll 1.70036447680114 BLEU pontszámot.
2 Anyagok és módszerek
A fenti hipotézist úgy tesztelték, hogy kiszámították a BLEU minőségi pontszámokat az alább részletezett módon beállított fordítórendszerek mindegyikére.
2.1 Beállítás
Hardver. A kísérletet egy HP Elitebook 850 G2 laptopon végezték, amely Core i7-5600U 2.6GHz processzorral és 16 gigabájt véletlen hozzáférésű memóriával rendelkezett. A munkáltatóm elavultnak ítélte és a sajtó idején 450 USD-ért hirdették eladásra.
Konfiguráció. Az alapvető bemeneti/kimeneti rendszer (BIOS) menüjében az eszközt úgy konfigurálták, hogy engedélyezze a virtualizációs technológiát (VTx).
Operációs rendszer. Windows 10 Professional 64 bit volt telepítve csupasz fémre. Biztosították, hogy a WSL2 Linux kernel update for x64 gépeket (wsl_update_x64.msi), amelyek a Microsofttól https://aka.ms/wsl2kernel címen érhetők el.
Szoftver. A Docker Desktop for Windows 4.4.3 (73365) verziójú telepítőjét letöltötték a https://www.docker.com/get-started címről, és futtatták a Install required Windows components for WSL 2 selected opcióval.
Csomagok. A kísérlet az alábbi Python Package Index csomagokra támaszkodott.
SacreBLEU. A 2.0.0-s verziót a következő univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették:https://pypi.org/project/sacrebleu/2.0.0/
Google Cloud Translation API klienskönyvtár. A 2.0.1-es verziót az univerzális erőforrás-lokátoron (URL) dokumentált Python csomag segítségével telepítették https://pypi.org/project/google-cloud-translate/2.0.1/
A fenti függőségeket a követelmények fájlban a következőképpen adták meg:google-cloud-translate==2.0.1sacrebleu==2.0.0
Konténer.
Építés. A kísérletet egy Docker konténerben futtatták, amely a Python programozási nyelv legújabb verzióját (akkoriban 3.10.2-es verzió) tartalmazta, Debian Bullseye 11 Linux operációs rendszeren, AMD64 architektúrán, a Secure Hash Algorithm 2 rövidített kivonatával bcb158d5ddb6, amely a következő paranccsal szerezhető be: docker pull python@sha256:bcb158d5ddb636fa3aa567c987e7fcf61113307820d466813527ca90d60fedc7
Futtatás. A konténert úgy konfigurálták, hogy a nyers kísérleti adatfájlokat egy helyi, csatlakoztatott kötetre mentse.
Fordítási minőség pontozása.
A fordítási minőségi pontszámokat a BLEU metrika szerint számították ki a SacreBLEU eszköz 2.0.0-s verziójával, amelyet Post [20] talált fel.
Kis- és nagybetű érzékenység. Az értékelést kis- és nagybetű érzékeny módon végezték.
Tokenizálás. A szegmenseket a Statisztikai Gépi Fordítás Műhely szabványos pontozási szkript metrika belső tokenizálási eljárásának 13a verziójával tokenizálták.
Simítási módszer. Az Egyesült Államok szövetségi kormányzati alkalmazottai által a National Institute of Standards and Technology-nál a Multimodális Információs Csoport BLEU eszközkészletéhez kifejlesztett simítási technikát, amely Chen és Cherry [21, p. 363] által leírt harmadik technika, alapértelmezés szerint alkalmazták.
Aláírás. A fenti beállítások a következő aláírást eredményezték:
n refs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.0
Kalibrálás. A fentiek szerint konfigurálva a gép a következő kimenetet produkálja:
| Angol forrás | Everything was there. | |
| Lemkó hivatkozás és átírás | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hipotézis és átírás | Вшытко там было. | Všŷtko tam bŷlo. |
| Pontszám | BLEU = 100.00 100.0/100.0/100.0/100.0 (BP = 1.000 ratio = 1.000 hyp_len = 4 ref_len = 4) | |
Magyarázat. A hipotézis szegmens azonos volt a referencia szegmenssel, és a gép tökéletes, 100-as BLEU pontszámot ért el.
| Angol forrás | I don't remember what year. | |
| Lemkó hivatkozás és átírás | Не памятам в котрым році. | Ne pamjatam v kotrŷm roci. |
Lemkotran.com hipotézis és átírás | Ні памятам, в котрым році. | Ni pamjatam, v kotrŷm roci. |
| Pontszám | BLEU = 43.47 71.4/50.0/40.0/25.0 (BP = 1.000 ratio = 1.167 hyp_len = 7 ref_len = 6) | |
Magyarázat. A hipotézis két karakterrel különbözött a referenciától. A gép rosszul fordította a tagadó igekötőt, a „nem” (ni) szót használta a várt „nem” (ne) szó helyett. Ezt azóta nagyrészt kijavították. A gép vesszőt is tett a pamjatam után, ami azt jelenti, hogy „emlékszem”. Ez 100-ról 43,47-re csökkentette a pontszámot, ami egyébként tökéletes lett volna.
Kontroll. Mivel a korpusz Lengyelországban készített interjúkon alapul, a lengyel fordításokat használták kontrollként. Ezeket cirill ábécére írták át, megfordítva a lengyel Belügyminisztérium által a lemkó nevek átírására vonatkozó szabályokat [22, 6564. o.]. A lengyel nazális magánhangzókat magánhangzóra és nazális zárhangra bontották, kivéve az approximánsok előtt, ahol közvetlenül denazalizálták őket. Szó végén az elülső nazális magánhangzó /ę/ egyszerűen denazalizálódott, a hátsó /ą/ pedig úgy íródott át, mintha egy dentális zárhang követné.
3 Eredmények
A nyilvánosan elérhető motor a www.LemkoTran.com címen az első helyet szerezte meg 6,28-as kumulatív fordítási minőségi pontszámmal, ami közel háromszorosa a második helyezett, a Google Fordító angol-ukrán szolgáltatásának (BLEU 2,17) pontszámának. Ezután következett az angol-lengyel szolgáltatása (BLEU 1,70), az angol-orosz szolgáltatása pedig az utolsó helyen végzett (BLEU 1,10).

3.1 Eredmények gépi fordítási szolgáltatás szerint
Kontroll. Cirill betűkre átírva a Google Fordító standard lengyel fordításai 1,70-es korpuszszintű BLEU pontszámot értek el. Teljesítményének mintái a következők:
| Angol forrás | We had still been in Izby, right. | |
| Lemkó hivatkozás és átírás | То мы іщы были в Ізбах, так. | To mŷ iščŷ bŷly v Izbach, tak. |
| Lengyel hipotézis és átírás | Билісьми єще в Ізбах, так. | Byliśmy jeszcze w Izbach, tak. |
| Pontszám | BLEU = 46.20 | |
| Angol forrás | And that's what it's all about. | |
| Lemkó hivatkozás és átírás | І о то ходит. | I o to chodyt. |
| Lengyel hipotézis és átírás | І о то власьнє ходзі. | I o to właśnie chodzi. |
| Pontszám | BLEU = 32.47 | |
| Angol forrás | And that's what it's all about. | |
| Lemkó hivatkozás és átírás | Так мі повіл. | Tak mi povil. |
| Lengyel hipotézis és átírás | Так мі повєдзял. | Tak mi powiedział. |
| Pontszám | BLEU = 35.36 | |
Hibrid angol-lemkó motor. A nyilvánosan elérhető motor a www.LemkoTran.com URL-en 6,28-as korpuszszintű BLEU pontszámot ért el.
| Angol forrás | Everything was there. | |
| Lemkó hivatkozás és átírás | Вшытко там было. | Všŷtko tam bŷlo. |
Lemkotran.com hipotézis és átírás | Вшытко там было. | Všŷtko tam bŷlo. |
| Pontszám | BLEU = 100.00 | |
| Angol forrás | But that officer took that medal and said, | |
| Lemkó hivatkozás és átírás | Але тот офіцер взял тот медаль і повідат: | Ale tot oficer vzial tot medal' i povidat: |
Lemkotran.com hipotézis és átírás | Але тот офіцер взял тот медаль і повіл: | Ale tot oficer vzial tot medal' i povil: |
| Pontszám | BLEU = 75.06 | |
| Angol forrás | That's what he said to me. | |
| Lemkó hivatkozás és átírás | Так мі повіл. | Tak mi povil. |
Lemkotran.com hipotézis és átírás | Так мі повіл. | Tak mi povil. |
| Pontszám | BLEU = 100.00 | |
Ukrán. A Google Fordító standard ukrán nyelvre fordított szövegei korpuszszintű BLEU-pontszáma 2,35 volt.
| Angol forrás | Where and when? | |
| Lemkó hivatkozás és átírás | Де і коли? | De i koly? |
| Ukrán hipotézis és átírás | Де і коли? | De i koly? |
| Pontszám | BLEU = 100.00 | |
| Angol forrás | We were there for three months. | |
| Lemkó hivatkozás és átírás | Там зме были три місяці. | Tam zme bŷly try misiaci. |
| Ukrán hipotézis és átírás | Ми були там три місяці. | My buly tam try misjaci. |
| Pontszám | BLEU = 30.21 | |
| Angol forrás | Well, here to the west. | |
| Lemkó hivatkozás és átírás | Но то ту на захід. | No to tu na zachid. |
| Ukrán hipotézis és átírás | Ну, тут на захід. | Nu, tut na zachid. |
| Pontszám | BLEU = 30.21 | |
Orosz. A Google Fordító angolról oroszra fordító szolgáltatása korpuszszintű BLEU-pontszáma 1,10 volt.
| Angol forrás | Nobody knew. | |
| Lemkó hivatkozás és átírás | Нихто не знал. | Nychto ne znal. |
| Orosz hipotézis és átírás | Никто не знал. | Nikto ne znal. |
| Pontszám | BLEU = 59.46 | |
| Angol forrás | What did they expel us for? | |
| Lemkó hivatkozás és átírás | За што нас выгнали? | Za što nas vŷhnaly? |
| Orosz hipotézis és átírás | За что нас выгнали? | Za čto nas vygnali? |
| Pontszám | BLEU = 42.73 | |
| Angol forrás | Brother went off to war. | |
| Lemkó hivatkozás és átírás | Брат пішол на войну. | Brat pišol na vojnu. |
| Orosz hipotézis és átírás | Брат ушел на войну. | Brat ušel na vojnu. |
| Pontszám | BLEU = 42.73 | |
4. Megbeszélés
A lemkó fordítási rendszer korpuszszintű 6,28-as BLEU pontszáma azt jelzi, hogy bár még sok a tennivaló, a dolgok jó úton haladnak. A standard orosz 1,10-es BLEU pontszáma azt jelzi, hogy a lemkó kevésbé hasonlít az oroszra, mint a lengyelre (BLEU 1,70). Talán a forradalom előtti helyesírás használata növelhetné az orosz pontszámát, de ez egy drága kísérlet lenne, kevés nyilvánvaló előnnyel.
A transzliterált standard lengyel kontroll hasonlósági BLEU-pontszám, 1,70, azt jelzi, hogy a domináns lengyel nyelv kevésbé zavaró, mint várható lenne. Érdekes lenne újratervezni a kísérletet, ahol néhány számítástechnikailag olcsó és nyilvánvaló hangmegfelelést (például az *ę denazalizációját /ja/-ra és az *ǫ denazalizációját /u/-ra, az *i visszahúzását /y/-ra, és a *g változását /h/-ra [23]) alkalmaznának a lengyel nyelvre, hogy lássák, akkor magasabb pontszámot érne-e el, mint a standard ukrán.
Összefoglalva, a lemkó nyelvet szintetizálták a laborban, és az előállításának képességét új és anyanyelvi beszélők kezébe adták. Egy alapos motorfelújítás és szószedet-bővítés után a következő lépés az, hogy objektíven mérjék, és ha lehetséges, a beszélők szubjektíven értékeljék a szintetikus lemkó minőségét az anyanyelvi beszélők által előállítottal szemben. Közelebb van az a nap, amikor az alacsony erőforrású nyelvek új beszélői gépi fordítást használhatnak nyelvükön való kommunikáció megkezdéséhez egyik napról a másikra, ahogy közelebb van az a nap is, amikor a lemkó nyelv csatlakozik a korábban veszélyeztetett, de most már újjáélesztett nyelvek sorához.
Köszönetnyilvánítás. Szeretném megköszönni kollégámnak, Ming Qiannek a Peraton Labs-tól, hogy inspirált engem e kísérlet elvégzésére, és Brian Stensrudnak a Soar Technology, Inc.-től, hogy bemutatott minket, valamint a bátorítását.
Szeretném megköszönni barátomnak, Corinna Caudillnak a bátorítását és személyes érdeklődését a projekt iránt, valamint azt, hogy bemutatott a Kárpát-Ruszin Társaság elnökének, Maryann Sivaknak a Pittsburghi Egyetemről, akinek szeretném megköszönni a lehetőséget, hogy bemutathattam a munkámat.
Szeretném megköszönni Maria Silvestrinek, a John és Helen Timo Alapítványtól, hogy interjúkat készített lemkó anyanyelvi beszélőkkel, és adományozta az átiratokat, valamint az azokról készült fordításaimat a kutatás és fejlesztés számára.
Szeretném megköszönni Achim Rabusnak a Freiburgi Egyetemről és Yves Scherrernek a Helsinki Egyetemről a projekt iránti érdeklődésüket és ötleteiket.
Szeretném megköszönni Myhal’ Lŷžečkónak az InterFyisa kisebbségi nyelvi technológiai blogtól a projekt iránti korai érdeklődését és a közösségi kapcsolattartást.
Szeretném megköszönni Zahoczewie-i társamnak, Marko Łyszyknek a projekt iránti érdeklődését és a közösségi kapcsolattartást.
Végül szeretném megköszönni társszerzőmnek és az Antech Systems Inc. kollégájának, Tom Dobrynak a bátorítását és útmutatását.
Hivatkozások
1. ^ Graddol, D.: A nyelv jövője. Science, 303(5662), 1329-1331 (2004). https://doi.org/10.1126/science.1096546
2. ^ Eberhard, D. M., Simons, G. F., & Fennig, C. D.: Ethnologue: A világ nyelvei, SIL International. Huszonnegyedik kiadás. SIL International, Dallas (2021). Online verzió: Hány nyelv veszélyeztetett?, https://www.ethnologue.com/guides/how-many-languages-endangered, utolsó hozzáférés: 2022.02.11.
3. ^ ISO 639 Kódtáblázatok, https://iso639-3.sil.org/code_tables/639/data, utolsó hozzáférés: 2022.02.11.
4. ^ Nyelvi támogatás, https://cloud.google.com/translate/docs/languages, utolsó hozzáférés: 2022.02.11.
5. ^ Nyelv kiválasztása, https://m.facebook.com/language.php, utolsó hozzáférés: 2022.02.11.
6. ^ ^ Orynycz, P., Dobry, T., Jackson, A., & Litzenberg, K.: Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben. In: Az Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2021 konferencia kiadványában, 21176. számú tanulmány. National Training and Simulation Association, Orlando (2021). https://www.xcdsystem.com/iitsec/proceedings/index.cfm?Year=2021&AbID=96953&CID=862
7. ^ Duć-Fajfer, O.: Literatura a proces rozwoju i rewitalizacja tożsamości językowej na przykładzie literatury łemkowskiej. In: Olko, J., Wicherkiewicz, T., Borges, R. (szerk.), Integrált stratégiák a nyelvi revitalizációhoz, o. 175–200. Első kiadás. Faculty of „Artes Liberales”, University of Warsaw, Varsó (2016).
8. ^ Scherrer, Y., Rabus, A.: Neurális morfoszintaktikai címkézés ruszin nyelvre. In: Mitkov, R., Tait, J., Boguraev, B. (szerk.), Natural Language Engineering, 25(5), 633–650. Cambridge University Press, Cambridge (2019). https://doi.org/10.1017/S1351324919000287
9. ^ Fenntartások és nyilatkozatok a 148. sz. egyezményhez – Regionális vagy Kisebbségi Nyelvek Európai Chartája (ETS No. 148), https://www.coe.int/en/web/conventions/full-list?module=declarations-by-treaty&numSte=148&codeNature=1&codePays=POL, utolsó hozzáférés: 2022.02.11.
10. ^ Formularz indywidualny, https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultstronaopisowa/5781/1/1/nsp_2011_badanie__pelne_wykaz_pytan.pdf, utolsó hozzáférés: 2022.02.11.
11. ^ Narodowy Spis Powszechny Ludności i Mieszkań 2002 r. z 20 maja (formularz A) https://stat.gov.pl/gfx/portalinformacyjny/userfiles/_public/spisy_powszechne/nsp2002-form-a.pdf, utolsó hozzáférés: 2022.02.11.
12. ^ IV Raport dotyczący sytuacji mniejszości narodowych i etnicznych oraz języka regionalnego w Rzeczypospolitej Polskiej – 2013, http://mniejszosci.narodowe.mswia.gov.pl/download/86/14637/TekstIVRaportu.pdf, utolsó hozzáférés: 2022.02.11.
13. ^ Vaňko, J.: Szlovákia ruszinjainak nyelve. East European Monographs, New York (2000).
14. ^ Forston, B., IV: Indoeurópai nyelv és kultúra. Blackwell Publishing, Oxford (2004).
15. ^ ^ Pokorny, J.: Indogermanisches etymologisches Wörterbuch, Bern, 1959.
16. ^ Horoszczak, J.: Słownik łemkowsko-polski, polsko-łemkowski. Rutenika, Warsaw (2004).
17. ^ ^ ^ ^ Vasmer, M. Russisches etymologisches Wörterbuch. Zweiter Band. Carl Winter, Universitätsverlag, Heidelberg (1955).
18. ^ Monier-Williams, M.: Szanszkrit-angol szótár etimológiailag és filológiailag rendezve, különös tekintettel a rokon indoeurópai nyelvekre, The Clarendon Press, Oxford (1899).
19. ^ Derksen, R.: A szláv örökölt lexikon etimológiai szótára. In: Lubotsky, A. (szerk.) Leiden Indo-European Etymological Dictionary Series, 4. kötet, Koninklijke Brill, Leiden (2008).
20. ^ Post, M.: Felszólítás a BLEU pontszámok jelentésének egyértelműségére. In: A Harmadik Gépi Fordítási Konferencia (WMT) kiadványában, 1. kötet, o. 186–191. Association for Computational Linguistics, Brüsszel (2018). https://aclanthology.org/W18-63
21. ^ Chen B., Cherry, C.: A mondatszintű BLEU simítási technikáinak szisztematikus összehasonlítása. In: A Kilencedik Statisztikai Gépi Fordítási Műhely kiadványában, o. 362–367. Association for Computational Linguistics, Baltimore (2014). http://dx.doi.org/10.3115/v1/W14-33
22. ^ Ministerstwo Spraw Wewnętrznych i Administracji: Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 30 maja 2005 r. w sprawie sposobu transliteracji imion i nazwisk osób należących do mniejszości narodowych i etnicznych zapisanych w alfabecie innym niż alfabet łaciński. In: Dziennik Ustaw Nr 102, o. 6560–6573. Rządowe Centrum Legislacji, Varsó (2005).
23. ^ Shevelov, G.: Az H és az új G kronológiájáról az ukrán nyelvben. In: Harvard Ukrainian Studies, 1. kötet, 2. szám, o. 137–152. Harvard Ukrainian Research Institute, Cambridge (1977). https://www.jstor.org/stable/40999942

Vélemény, hozzászólás?