Tudományos folyóiratokban publikáló szerző és előadó vagyok a világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature által kiadott ember-számítógép interakció (HCI) nemzetközi konferenciáin, amely az egyik legrangosabb, legnagyobb hatású és legrégebben folyamatosan működő tudományos kiadó.
2023
Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány
A nyelvi veszteség nem csupán kulturális – működési. Ez a tanulmány lengyel ↔ lemkó gépi fordítást épít és értékel (szakértői szabályalapú + Transformer NMT), és mindkét irányt DARPA által támogatott mérőszámokkal (BLEU, TER) hasonlítja össze, beleértve egy Google Fordító proxy alapvonalat is.
Főbb hozzájárulások
- Épít egy lengyel ↔ lemkó fordítási rendszert, amely egy szakértői szabályalapú motort és Transformer NMT-t kombinál alacsony erőforrás-igényű környezethez.
- Értékel mindkét irányt (PL→lemkó, lemkó→PL) szabványosított, reprodukálható mérőszámokkal (BLEU + TER).
- Összekapcsolja a kisebbségi nyelvi gépi fordítást valós eredményekkel: képzési hatékonyság, hozzáférés és ellenálló képesség vitatott információs környezetekben.
Főbb eredmények
- PL → lemkó: szakértői rendszer BLEU 29,49 / TER 53,73; jelentése szerint ~6,5-szerese egy Google Fordító lengyel→ukrán proxynak BLEU-ban.
- lemkó → PL: szakértői rendszer BLEU 31,13 / TER 54,10.
- Transformer (PL → lemkó): BLEU 15,90 (30 ezer lépés) – a proxy alapvonal felett, a szakértői rendszer alatt ebben a beállításban.
BLEU kilátások a veszélyeztetett nyelvek revitalizációjáért: A lemkó-ruszin és ukrán neurális MI fordítási pontossága szárnyal
A kisebbségi nyelvek elvesztése nem csupán kulturális – mérhető kár. Ez a tanulmány a LemkoTran.com jelentős fejlesztéséről számol be, amely szabályalapú generálást kombinál neurális gépi fordítással, így a lemkó anyanyelvűek és az új tanulók azonnal olvashatnak és írhatnak. Morfológiailag tudatos főnév/ige/melléknév generátorokat adok hozzá, bővítem a lexikont, 9518 kötelezően átmenő minőségellenőrzési tesztet vezetek be, és összehasonlítom a fordítási minőséget BLEU, TER és chrF mérőszámokkal több Google Fordító szolgáltatással szemben.
Főbb hozzájárulások
- Fejleszti a LemkoTran hibrid rendszerét (szabályalapú + neurális) a lemkó nyelvre és lemkó nyelvről történő fordításhoz morfológiailag tudatos generálással.
- Megerősíti a pontosságot 9518 kodifikációra hivatkozó teszttel, a fordítási minőséget kikényszeríthető minőségellenőrzéssé alakítva.
- Bővíti a nyelvi lefedettséget ~1585 szabályalapú szókincs elemmel, valamint 877 lemmával + 708 szószedet bejegyzéssel táplált generátorokkal.
- Szigorúan összehasonlít a SacreBLEU alapértelmezett beállításait és három kiegészítő mérőszámot (BLEU / TER / chrF) használva reprodukálható összehasonlításokhoz.
- Mérnöki utat mutat a zavarmentesítéshez: a szabályalapú modulok lehetővé teszik a jövevényszavak / domináns nyelv átszivárgásának tisztítását (ahol kívánatos).
Főbb eredmények
- EN → lemkó: A BLEU 8,48-ra nő (+35% az előző publikációhoz képest), jelentése szerint ~4-szerese a Google Fordító legjobb szolgáltatásának BLEU-ban.
- lemkó → EN: A BLEU eléri a 17,95-öt (+23% az előző munkához képest), jelentése szerint ~16%-kal magasabb, mint a Google Fordító ukrán szolgáltatása (legjobban teljesítő alapvonal).
- Mérőszámok tekintetében: A LemkoTran felülmúlja a Google-t a BLEU + TER + chrF mérőszámokban, mivel a Google gyakran tévesen azonosítja a lemkó nyelvet (gyakori ukrán/orosz/fehérorosz felismerés).
2022
Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó nyelv újjáélesztésére
A mesterséges intelligencia előnyhöz juttathatja a veszélyeztetett nyelveket: az új beszélők már az első naptól kezdve az irodalmi normához közelebb álló mondatokat alkothatnak. Mondd jól (2022) egy alacsony erőforrásigényű folyamatot (transzfertanulás + szabályalapú gépi fordítás) mutat be, kiad egy nyilvános angol→lemkó rendszert, és BLEU-val értékeli a minőséget.
Főbb hozzájárulások
- Transzfertanulás + szabályalapú motor alacsony erőforrásigényű nyelvhez.
- Mennyiségi értékelés (BLEU), nem érzések alapján.
- Nyilvános eszközként telepítve (LemkoTran).
Főbb eredmények
- Angol→lemkó rendszer: BLEU 6,28 (jelentett).
- Összehasonlítva a Google ukrán/orosz/lengyel kimeneteivel (jelentett).
- Erőforrás-korlátozott végrehajtásra tervezve (laptopon/offline is használható munkafolyamat).
2021
Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben (2021)
Ez a tanulmány bemutatja, hogyan szüntetheti meg a neurális gépi fordítás (NMT) a lokalizációs szűk keresztmetszeteket a koalíciós képzésekhez: ahelyett, hogy hónapokat várnánk az emberi fordításra, napok/hetek alatt telepíthet többnyelvű tartalmat az NMT gyors lokalizációra való felhasználásával.
Főbb eredmények
- Orosz: +1169,51%-kal gyorsabb és +58,37%-kal pontosabb egy professzionális emberi nyelvész alapértékéhez képest.
- Lengyel: +17,29%-kal pontosabb és +488,45%-kal gyorsabb emberi fordításhoz képest.
- lemkó: „a világ első” motorja, BLEU 14,57-es értéket jelentettek.
Főbb hozzájárulások
- A lokalizációt működési szűk keresztmetszetként kezeli, és a „képzés ma este / jövő héten” időkereteket célozza meg.
- NMT motorokat épít és értékel NATO képzési anyagokon, a BLEU-t használva értékelési metrikaként.
- Gyakorlati munkafolyamatot mutat be egy olcsó, hálózattól elszigetelt laptopon (realisztikus telepítési korlátok mellett).
