Megnyílt a szovjet táborok magyar foglyainak adatbázisa
Magyarország sok évtized után kapta meg Oroszországtól
a magyar hadifoglyok és civil elhurcoltak adatait.
Az adatok feldolgozását követően február 25-én
nyílt meg az erről szóló,
Magyar Nemzeti Levéltár által üzemeltetett kereshető adatbázis.
Az adatbázis teljesnek tekinthető,
így jelentős forrás a kutatás számára
és ugyanilyen fontos a nagyközönség számára is.
Az érdeklődők megismerhetik a rendelkezésre álló
információkat, rátalálhatnak benne
a szovjet táborokat megjárt
családtagokra, rokonokra.
A Nyelvtudományi Intézet munkatársai végezték
az anyag automatikus átültetését magyarra.
A Magyar Nemzeti Levéltár 2019-ben kapta meg
az Orosz Állami Hadilevéltártól
a 682000 magyar hadifogoly és civil elhurcolt alapvető
adatait tartalmazó kartonok digitalizált, szkennelt képét,
és az ebből készített adatbázist.
Ez a személyekhez köthető legfontosabb információkat tartalmazza:
a fogolyként nyilvántartott személy vezeték- és keresztnevét,
orosz szokásnak megfelelően az apai keresztnevet,
a rendfokozatot,
a születés helyét és idejét,
a fogságba esés helyét és idejét,
a távozás idejét és
az elbocsátó tábort,
illetve amennyiben az illető személy elhunyt,
az elhalálozásának időpontját.
A kartonokon természetesen minden cirill betűkkel szerepel.
Nemcsak az orosz nyelvű adatok, hanem a magyar nyelvűek is,
mint a vezetéknév, a keresztnév, illetve a földrajzi helyek
– születés és fogságba esés helye – egyes elemei.
A feldolgozás során a nyelvi problémát
az jelentette, hogy a magyar foglyok által bediktált
magyar nyelvű személyes adatok
cirill betűs formában állnak rendelkezésre,
ahogy azt az adatokat felvevő általában orosz katona
hallás után éppen leírta.
További torzulást szenvedett az adat,
mikor a 2010-es évek során az orosz kollégák
elkészítették a kartonok alapján az adatbázist úgy,
hogy 70 évvel korábbi kézírás alapján
rögzítették az általuk nem értett magyar nyelvű
de cirill betűkkel leírt szövegeket.
Az adatok automatikus orosz-magyar átírását, helyreállítását
a Nyelvtudományi Intézet munkatársai végezték
Sass Bálint vezetésével.
A feladat tehát
Ковач Йожеф → Kovács József
transzkripció megvalósítása volt.
A nehézséget az okozza, hogy a torzulások miatt
a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást.
Tömegesen találkozunk, olyan nehezen algoritmizálható
esetekkel, mint:
Цилбауер → Zielbauer
,
Дейло → Béla
,
Саотморской → Szatmár
,
Гонграмеде → Csongrád
vagy
Кишкупфьилстьгаза → Kiskunfélegyháza
.
Sok esetben több egyenrangú esetleges megoldás adódik,
melyek között automatikusan már
nem lehet vagy nem érdemes dönteni, például:
Эрин → Ernő;Ervin;Erik
.
A munkálatok részleteiről a 2021-es
Magyar Számítógépes Nyelvészeti Konferencián
konferencián elhangzott
előadásból
és a hozzá tartozó
publikációból,
valamint a 2020-as Magyar Tudomány Ünnepén elhangzott
előadásból
lehet tájékozódni.
Az automatikus átíró-helyreállító eszköz megtalálható a github
-on.
Érdemes megtekinteni az
Ez itt a kérdés, 2021. február 22-i adását
a 13. perctől.
Egy volt hadifogoly emlékezik vissza arra,
hogy mi múlik azon, hogy az ember Hegyi vagy esetleg Gegyi
– a h-g
csere az egyik tipikus elírás –
néven szerepel a névsorban.
Szemléletesen mutatja be ez rövid részlet
a nyelvi problémát, amelynek a kezelésére
a Nyelvtudományi Intézet munkatársai vállalkoztak.
A 2021. február 25-én,
a kommunizmus áldozatainak emléknapján megnyílt,
szabadon kereshető, nyilvános
adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.