This site is undergoing a full revamp. Layout may be temporarily broken.
Kezdőlap » Kiadványok

Lektorált tudományos publikációk

Tudományos folyóiratokban publikáló szerző és előadó vagyok a világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature által kiadott ember-számítógép interakció (HCI) nemzetközi konferenciáin, amely az egyik legrangosabb, legnagyobb hatású és legrégebben folyamatosan működő tudományos kiadó.


2023

Szívek és nyelvek megnyerése: Egy lengyel-lemkó esettanulmány

A nyelvi veszteség nem csupán kulturális – működési. Ez a tanulmány lengyel ↔ lemkó gépi fordítást épít és értékel (szakértői szabályalapú + Transformer NMT), és mindkét irányt DARPA által támogatott mérőszámokkal (BLEU, TER) hasonlítja össze, beleértve egy Google Fordító proxy alapvonalat is.

Főbb hozzájárulások

  • Épít egy lengyel ↔ lemkó fordítási rendszert, amely egy szakértői szabályalapú motort és Transformer NMT-t kombinál alacsony erőforrás-igényű környezethez.
  • Értékel mindkét irányt (PL→lemkó, lemkó→PL) szabványosított, reprodukálható mérőszámokkal (BLEU + TER).
  • Összekapcsolja a kisebbségi nyelvi gépi fordítást valós eredményekkel: képzési hatékonyság, hozzáférés és ellenálló képesség vitatott információs környezetekben.

Főbb eredmények

  • PL → lemkó: szakértői rendszer BLEU 29,49 / TER 53,73; jelentése szerint ~6,5-szerese egy Google Fordító lengyel→ukrán proxynak BLEU-ban.
  • lemkó → PL: szakértői rendszer BLEU 31,13 / TER 54,10.
  • Transformer (PL → lemkó): BLEU 15,90 (30 ezer lépés) – a proxy alapvonal felett, a szakértői rendszer alatt ebben a beállításban.

BLEU kilátások a veszélyeztetett nyelvek revitalizációjáért: A lemkó-ruszin és ukrán neurális MI fordítási pontossága szárnyal

A kisebbségi nyelvek elvesztése nem csupán kulturális – mérhető kár. Ez a tanulmány a LemkoTran.com jelentős fejlesztéséről számol be, amely szabályalapú generálást kombinál neurális gépi fordítással, így a lemkó anyanyelvűek és az új tanulók azonnal olvashatnak és írhatnak. Morfológiailag tudatos főnév/ige/melléknév generátorokat adok hozzá, bővítem a lexikont, 9518 kötelezően átmenő minőségellenőrzési tesztet vezetek be, és összehasonlítom a fordítási minőséget BLEU, TER és chrF mérőszámokkal több Google Fordító szolgáltatással szemben.

Főbb hozzájárulások

  • Fejleszti a LemkoTran hibrid rendszerét (szabályalapú + neurális) a lemkó nyelvre és lemkó nyelvről történő fordításhoz morfológiailag tudatos generálással.
  • Megerősíti a pontosságot 9518 kodifikációra hivatkozó teszttel, a fordítási minőséget kikényszeríthető minőségellenőrzéssé alakítva.
  • Bővíti a nyelvi lefedettséget ~1585 szabályalapú szókincs elemmel, valamint 877 lemmával + 708 szószedet bejegyzéssel táplált generátorokkal.
  • Szigorúan összehasonlít a SacreBLEU alapértelmezett beállításait és három kiegészítő mérőszámot (BLEU / TER / chrF) használva reprodukálható összehasonlításokhoz.
  • Mérnöki utat mutat a zavarmentesítéshez: a szabályalapú modulok lehetővé teszik a jövevényszavak / domináns nyelv átszivárgásának tisztítását (ahol kívánatos).

Főbb eredmények

  • EN → lemkó: A BLEU 8,48-ra nő (+35% az előző publikációhoz képest), jelentése szerint ~4-szerese a Google Fordító legjobb szolgáltatásának BLEU-ban.
  • lemkó → EN: A BLEU eléri a 17,95-öt (+23% az előző munkához képest), jelentése szerint ~16%-kal magasabb, mint a Google Fordító ukrán szolgáltatása (legjobban teljesítő alapvonal).
  • Mérőszámok tekintetében: A LemkoTran felülmúlja a Google-t a BLEU + TER + chrF mérőszámokban, mivel a Google gyakran tévesen azonosítja a lemkó nyelvet (gyakori ukrán/orosz/fehérorosz felismerés).

2022

Mondd jól: Az AI neurális gépi fordítás felhatalmazza az új beszélőket a lemkó nyelv újjáélesztésére

A mesterséges intelligencia előnyhöz juttathatja a veszélyeztetett nyelveket: az új beszélők már az első naptól kezdve az irodalmi normához közelebb álló mondatokat alkothatnak. Mondd jól (2022) egy alacsony erőforrásigényű folyamatot (transzfertanulás + szabályalapú gépi fordítás) mutat be, kiad egy nyilvános angol→lemkó rendszert, és BLEU-val értékeli a minőséget.

Főbb hozzájárulások

  • Transzfertanulás + szabályalapú motor alacsony erőforrásigényű nyelvhez.
  • Mennyiségi értékelés (BLEU), nem érzések alapján.
  • Nyilvános eszközként telepítve (LemkoTran).

Főbb eredmények

  • Angol→lemkó rendszer: BLEU 6,28 (jelentett).
  • Összehasonlítva a Google ukrán/orosz/lengyel kimeneteivel (jelentett).
  • Erőforrás-korlátozott végrehajtásra tervezve (laptopon/offline is használható munkafolyamat).

2021

Igen, beszélek… AI neurális gépi fordítás többnyelvű képzésben (2021)


Ez a tanulmány bemutatja, hogyan szüntetheti meg a neurális gépi fordítás (NMT) a lokalizációs szűk keresztmetszeteket a koalíciós képzésekhez: ahelyett, hogy hónapokat várnánk az emberi fordításra, napok/hetek alatt telepíthet többnyelvű tartalmat az NMT gyors lokalizációra való felhasználásával.

Főbb eredmények

  • Orosz: +1169,51%-kal gyorsabb és +58,37%-kal pontosabb egy professzionális emberi nyelvész alapértékéhez képest.
  • Lengyel: +17,29%-kal pontosabb és +488,45%-kal gyorsabb emberi fordításhoz képest.
  • lemkó: „a világ első” motorja, BLEU 14,57-es értéket jelentettek.

Főbb hozzájárulások

  • A lokalizációt működési szűk keresztmetszetként kezeli, és a „képzés ma este / jövő héten” időkereteket célozza meg.
  • NMT motorokat épít és értékel NATO képzési anyagokon, a BLEU-t használva értékelési metrikaként.
  • Gyakorlati munkafolyamatot mutat be egy olcsó, hálózattól elszigetelt laptopon (realisztikus telepítési korlátok mellett).