Orynycz Peti

Lektorált tudományos publikációk

Itt találja a teljes cikkeimet a mesterséges intelligencia alkalmazásáról veszélyeztetett nyelvek – például a lemkó ruszin és ukrán – fordítására és újraélesztésére szöveges és PDF formátumban. Jó olvasást!

A világ legnagyobb védelmi képzési konferenciáján (I/ITSEC), valamint a Springer Nature, az egyik legrangosabb, legnagyobb hatású és legrégebb óta folyamatosan működő tudományos kiadó által kiadott ember-számítógép interakcióval (HCI) foglalkozó nemzetközi konferenciák lektorált szerzője és előadója vagyok.

BLEU jövő a veszélyeztetett nyelvek újjáélesztésében: A lemkó ruszin és ukrán neurális fordítási pontosság szárnyal (2023)

Absztrakt

A felgyorsuló globális nyelvvesztés, amely a tiltott szerek használatának, a 2-es típusú cukorbetegségnek, a mértéktelen ivásnak és a testi sértéseknek az emelkedett gyakoriságával, valamint a fiatalok hatszoros öngyilkossági arányával jár együtt, egyre nagyobb kihívást jelent a kisebbségi, őslakos, menekült, gyarmatosított és bevándorló közösségek számára. Olyan környezetben, ahol a generációk közötti átadás gyakran megszakad, a mesterséges intelligencia neurális gépi fordítórendszerek képesek az örökölt nyelvek újjáélesztésére és az új beszélők képessé tételére, mivel lehetővé teszik számukra, hogy azonnali fordítással megértsék és megértsék őket. A mesterséges intelligencia megoldások azonban problémákat vetnek fel, például a megfizethetetlen költségeket és a kimenet minőségével kapcsolatos problémákat. Megoldást jelenthet a neurális motorok párosítása a klasszikus, szabályalapú motorokkal, amelyek lehetővé teszik a mérnökök számára a kölcsönszavak megtisztítását és a domináns nyelvek interferenciájának semlegesítését. Ez a munka a LemkoTran.com oldalon alkalmazott motor átalakítását írja le, hogy lehetővé tegye a lemkó nyelvre való fordítást és a lemkó nyelvből való fordítást, amely egy súlyosan veszélyeztetett, kisebbségi ukrán genetikai besorolású előadás, amely a Lengyelország és Szlovákia közötti határvidéken honos (ahol ruszin nyelvként is emlegetik). A szótáralapú fordítási modulokat morfológiailag és szintaktikailag megalapozott főnév-, ige- és melléknév-generátorokkal látták el, amelyeket 877 lemmával és 708 szószedettel együtt tápláltak, és az egész rendszert 9518 automatikus, kodifikációs hivatkozásokkal ellátott, átmenő minőségellenőrzési tesztekkel szegecselték le. Ennek a munkának a gyümölcse a legutóbbi publikáció óta 23%-os javulás az angol nyelvű fordítás minőségében, és 35%-os minőségi növekedés az angolról lemkói nyelvre történő fordításban, olyan fordításokat biztosítva, amelyek minden mérőszámban felülmúlják a Google Translate szolgáltatásait, és 396%-kal magasabb pontszámot érnek el, mint a Google ukrán nyelvű szolgáltatása, amikor lemkói nyelvre fordítanak.

Preprint

Read “BLEU Skies for Endangered Revitalization” in English

Idézet így:

Orynycz, P. (2023). BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars.  In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2023. Lecture Notes in Computer Science(), vol 14051.  Springer, Cham. https://doi.org/10.1007/978-3-031-35894-4_10
@inproceedings{orynycz2023bleu,
title={BLEU Skies for Endangered Language Revitalization: Lemko Rusyn and Ukrainian Neural AI Translation Accuracy Soars},
author={Orynycz, Petro},
booktitle={International Conference on Human-Computer Interaction},
pages={135--149},
year={2023},
organisation={Springer}
}

Szívek és nyelvek megnyerése: Lemkó-lengyel esettanulmány (2023)

Absztrakt

Ha a kisebbségi és helyi nyelvek elvesznek, a nemzetbiztonság is csorbát szenved: nemcsak az öngyilkosság, a depresszió, a cukorbetegség, a bántalmazás és a kábítószerrel való visszaélés jelentős növekedése dokumentálható, hanem olyan űr keletkezik, amelyet az ellenségek történelmileg kihasználnak. A kisebbségi nyelvi közösségek milliói például történelmileg az orosz nyelvet és/vagy identitást tekintik sajátjuknak Ukrajnában, Fehéroroszországban, a NATO-szövetséges országokban, sőt az Egyesült Államokban is. Ha az anyanyelvi kommunikációs hézagok csak az ellenfelek kezében maradnak, kihasználva az e nyelvekkel kapcsolatos hosszú tapasztalataikat, a NATO továbbra is jelentős hátrányban marad, amikor megpróbálja bevonni ezeket a közösségeket. Európában a részben a nyelvvesztés által okozott pszichés sebeket nem sikerült az asszimilációval bezárni. Ehelyett a városok a nyugati elszigetelő feszültségek kirobbanását tapasztalják, és a keleti lakosságot az ellenséges hatalmak meggyőzik arról, hogy ezek a hatalmak az igazi szövetségeseik, akik megértik és tisztelik őket. A hivatalos nyelven történő oktatás sem jelent csodaszert: Ukrajna (és még Spanyolország) esetében a helyi nyelvek és a hivatalos nyelv közötti nem triviális különbségek lehetőséget teremtenek az ellenfeleknek a szeparatizmus lángjának szítására.

A gépi fordítómotorok használata a NATO és partnerei számára az újoncok kiképzésében vagy a helyszínen való fellépésben a szívükhöz és elméjükhöz legközelebb álló nyelven történő felhatalmazás érdekében azonnali „mi”-séget nyerhet, és bemutathatja a NATO által felkarolt polikulturális jövőképet. A mesterséges intelligenciát és a szabályalapú motorokat úgy állították össze, hogy lefordítsák Lengyelország hivatalos nyelve és az őshonos lemkó kisebbség nyelve között, amely régóta a külföldi hatalmak célpontja. A motorokat a DARPA támogatásával kifejlesztett mérőszámok segítségével értékelték a lemkóról lengyelre történő fordítás során, és 31,13-as kétnyelvű értékelési pontszámot (BLEU) és 54,10-es fordítási szerkesztési arányt (TER) értek el. Eközben a másik irányban a motorok 53,73 TER és 29,49 BLEU pontszámot értek el, ami 6,5-szer jobb eredmény, mint a Google Translate lengyel-ukrán szolgáltatása.

Preprint

Idézet így:

Orynycz, P., & Dobry, T. (2023). Winning Hearts & Tongues: A Polish to Lemko Case Study. In: Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC).  

Mondd helyesen: A neurális fordítás révén új beszélők élesztik újjá a lemkó nyelvet (2022)

Absztrakt

A mesterséges intelligenciával működő neurális gépi fordítás hamarosan újraélesztheti a veszélyeztetett nyelveket, lehetővé téve az új beszélők számára, hogy valós időben kommunikáljanak olyan mondatokkal, amelyek számszerűsíthetően közelebb állnak az irodalmi normákhoz, mint az anyanyelvi beszélőké, és a nyelvújítási útjuk első napjától kezdve. Miközben a Szilícium-völgy hatalmas erőforrásokat fektetett be a világ legelterjedtebb nyelveinek emberfeletti sebességre és pontosságra képes neurális fordítási technológiájába, 98%-uk lemaradt, korpuszhiány miatt: a neurális gépi fordítási modellek több millió szavas kétnyelvű szövegeken tanulnak, amelyek a legtöbb nyelv esetében egyszerűen nem léteznek, és nyelvenként több mint százezer amerikai dollárba kerül az összeállításuk.

Az alacsony erőforrású nyelvek számára létezik egy találékonyabb, ha nem is hatékonyabb megközelítés: a transzfer-tanulás, amely lehetővé teszi, hogy az alacsonyabb erőforrású nyelvek profitáljanak a magasabb erőforrásúak eredményei közül. Ebben a kísérletben a Google angol-lengyel neurális fordítási szolgáltatását a klasszikus, szabályalapú motorommal párosítottam, hogy angolról a veszélyeztetett, alacsony erőforrású, kelet-szláv lemkó nyelvre fordítsak. A rendszer a kétnyelvű értékelési mutató (BLEU – Bilingual Evaluation Understudy) szerinti minőségpontszáma 6,28 lett – ez többszörösen jobb, mint a Google Translate angolról standard ukránra (BLEU: 2,17), oroszra (BLEU: 1,10) és lengyelre (BLEU: 1,70) fordított szolgáltatásainak eredménye. Végül a kísérlet gyümölcse, a világ első angolról lemkóra fordítási szolgáltatása elérhetővé vált a www.LemkoTran.com webcímen, hogy az új beszélők számára lehetővé tegye nyelvük újjáélesztését.

Az új beszélők kulcsfontosságúak a nyelvújításban, és a Lemkó nyelvben már az ő kezükben van a hatalom, hogy „jól mondják”.

Preprint

Idézet így:

Orynycz, P. (2022). Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko.  In: Degen, H., Ntoa, S. (szerk.) Artificial Intelligence in HCI. HCII 2022. Lecture Notes in Computer Science(), 13336. kötet. Springer, Cham. https://doi.org/10.1007/978-3-031-05643-7_37
@InProceedings{10.1007/978-3-031-05643-7_37,
author="Orynycz, Petro",
editor="Degen, Helmut
and Ntoa, Stavroula",
title="Say It Right: AI Neural Machine Translation Empowers New Speakers to Revitalize Lemko",
booktitle="Artificial Intelligence in HCI",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="567--580",
abstract="Artificial-intelligence-powered neural machine translation might soon resuscitate endangered languages by empowering new speakers to communicate in real time using sentences quantifiably closer to the literary norm than those of native speakers, and starting from day one of their language reclamation journey. While Silicon Valley has been investing enormous resources into neural translation technology capable of superhuman speed and accuracy for the world's most widely used languages, 98{\%} have been left behind, for want of corpora: neural machine translation models train on millions of words of bilingual text, which simply do not exist for most languages, and cost upwards of a hundred thousand United States dollars per tongue to assemble.",
isbn=„978-3-031-05643-7”
}