Megnyílt a szovjet táborok magyar foglyainak adatbázisa

Magyarország sok évtized után kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait. Az adatok feldolgozását követően február 25-én nyílt meg az erről szóló, Magyar Nemzeti Levéltár által üzemeltetett kereshető adatbázis. Az adatbázis teljesnek tekinthető, így jelentős forrás a kutatás számára és ugyanilyen fontos a nagyközönség számára is. Az érdeklődők megismerhetik a rendelkezésre álló információkat, rátalálhatnak benne a szovjet táborokat megjárt családtagokra, rokonokra. A Nyelvtudományi Intézet munkatársai végezték az anyag automatikus átültetését magyarra.

A Magyar Nemzeti Levéltár 2019-ben kapta meg az Orosz Állami Hadilevéltártól a 682000 magyar hadifogoly és civil elhurcolt alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, és az ebből készített adatbázist. Ez a személyekhez köthető legfontosabb információkat tartalmazza: a fogolyként nyilvántartott személy vezeték- és keresztnevét, orosz szokásnak megfelelően az apai keresztnevet, a rendfokozatot, a születés helyét és idejét, a fogságba esés helyét és idejét, a távozás idejét és az elbocsátó tábort, illetve amennyiben az illető személy elhunyt, az elhalálozásának időpontját.

A kartonokon természetesen minden cirill betűkkel szerepel. Nemcsak az orosz nyelvű adatok, hanem a magyar nyelvűek is, mint a vezetéknév, a keresztnév, illetve a földrajzi helyek – születés és fogságba esés helye – egyes elemei. A feldolgozás során a nyelvi problémát az jelentette, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában állnak rendelkezésre, ahogy azt az adatokat felvevő általában orosz katona hallás után éppen leírta.

További torzulást szenvedett az adat, mikor a 2010-es évek során az orosz kollégák elkészítették a kartonok alapján az adatbázist úgy, hogy 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű de cirill betűkkel leírt szövegeket.

Az adatok automatikus orosz-magyar átírását, helyreállítását a Nyelvtudományi Intézet munkatársai végezték Sass Bálint vezetésével. A feladat tehát Ковач Йожеф → Kovács József transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen találkozunk, olyan nehezen algoritmizálható esetekkel, mint: Цилбауер → Zielbauer, Дейло → Béla, Саотморской → Szatmár, Гонграмеде → Csongrád vagy Кишкупфьилстьгаза → Kiskunfélegyháza. Sok esetben több egyenrangú esetleges megoldás adódik, melyek között automatikusan már nem lehet vagy nem érdemes dönteni, például: Эрин → Ernő;Ervin;Erik.

A munkálatok részleteiről a 2021-es Magyar Számítógépes Nyelvészeti Konferencián konferencián elhangzott előadásból és a hozzá tartozó publikációból, valamint a 2020-as Magyar Tudomány Ünnepén elhangzott előadásból lehet tájékozódni. Az automatikus átíró-helyreállító eszköz megtalálható a github-on.

Érdemes megtekinteni az Ez itt a kérdés, 2021. február 22-i adását a 13. perctől. Egy volt hadifogoly emlékezik vissza arra, hogy mi múlik azon, hogy az ember Hegyi vagy esetleg Gegyi – a h-g csere az egyik tipikus elírás – néven szerepel a névsorban. Szemléletesen mutatja be ez rövid részlet a nyelvi problémát, amelynek a kezelésére a Nyelvtudományi Intézet munkatársai vállalkoztak.

A 2021. február 25-én, a kommunizmus áldozatainak emléknapján megnyílt, szabadon kereshető, nyilvános adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.