A legmodernebb technikával fejtik meg a régi szövegeket

| Cikk eltávolítása
Cimkék:
A legmodernebb technikával fejtik meg a régi szövegeket

A kézírásos szöveg felismerése (handwritten text recognotion, HTR) egy számítógépes szoftverrel végrehajtott eljárás, melynek segítségével felismerhetők és értelmezhetők a kézzel írt karakterek.

Ez a metódus ma már a mindennapok részévé vált, anélkül, hogy tudnánk róla ? így működik például a nyomtatott betűvel, de kézzel írt űrlapok automatikus felismerése. Az azonban már régi vágya a kutatóknak, hogy a különböző, bonyolult kézírásos stílusokkal írt történelmi dokumentumok is olvashatók legyenek a HTR segítségével”

? fejtette ki a BBC Historynak Khal Rudin, az elsődleges források kiadására és online adatbázisára szakosodott tudományos kiadó, az Adam Matthew Digital igazgatója.

Időt spórol

A HTR a hagyományos kutatási módszerekhez viszonyítva rengeteg időt takarít meg a történészeknek. A kézzel írt dokumentumok elemzéséhez eddig a kutatóknak szükségük volt rá, hogy részletesen elolvassák az adott szöveget. Az archiváláshoz természetesen a továbbiakban is szükség lesz erre.

Ám a HTR képes arra, hogy több száz oldal elolvasását megspórolja, hiszen pontosan onnan kezdhetik el a szöveget elemezni a kutatók, ahonnan ? akár egy adott szóra való rákereséssel ? szeretnék.

Az Adam Matthew Digital adatbázisában jelenleg mintegy 2,5 millió oldalnyi kézirat kereshető. Ezek között vannak például a Kelet-indiai Társaság dokumentumai vagy Florence Nightingale, a modern nővérképzés megteremtőjének levelei ? mindkettő a British Library gyűjteményéből származik ?, továbbá a brit Országos Levéltárnak a gyarmatosítás kori Amerikára vonatkozó dokumentumai.

Magyarul is megtanítható

Rengeteg izgalmas eredményre vezet, ha az egyes szövegekben rákeresünk valamire. Példának okáért, ha A Florence Nightingale beszámolója a katonai ápolással és az indiai ügyekkel kapcsolatban szakértőkkel folytatott interjúiról, 1878?1898 dokumentumban a ?kolera? szóra keresünk, a korabeli indiai egészségügyi helyzetre vonatkozó bekezdésre lelünk, amelyben ott áll:

?két év alatt képesek lennénk elpusztítani a kolerát?.

Ha viszont a ?teás ládák? kifejezést próbáljuk megtalálni az amerikai függetlenségi háború előzményeire vonatkozó iratok között, kiderül, hogy a Dartmouth hajó 1773 végén érkezett meg Boston kikötőjébe azzal az utasítással, hogy ne rakodja ki a rakományát.

A hajó egyike volt a háromnak, amelyik érintett volt a ?bostoni teadélutánban?, s a szóban forgó dokumentum alig pár nappal azelőtt született, hogy megsemmisítették volna a szállítmányt az amerikai függetlenségi háború kitörése előtt.

Az HTR-eljárásban alkalmazott eszközök a mesterséges intelligenciára (AI) is támaszkodnak. Neurális hálózatokat tanítottak meg arra a szakértők, hogy ismerjék fel az egyes karaktereket a maguk nyelvi kontextusában. Ennek egy része, hogy a mesterséges intelligenciát nagy mennyiségű és változatos összetételű történelmi dokumentumra ?eresztették rá?, melyből a legkülönbözőbb kézírásos stílusokat tudta kiszűrni.

A technológia ugyanakkor nem eredményezi a dokumentum másolatát, átiratát. Kereséssel rá lehet lelni egy adott szóra, kifejezésre a szövegben, azokkal az algoritmusokkal, amelyek a keresőszóhoz a megfelelő karaktereket párosítják ? attól függően, hogy mennyire felismerhetők az egyes karakterek.

Komplex eljárásról van szó, amelyet igen nagy területen lehet alkalmazni. A tudományos szakkiadó a Planet AI dokumentumkezeléssel foglalkozó technológiai céggel is együttműködést alakított ki, amely a postai szolgáltatásoktól a rendszámfelismerésig sokféle alkalmazást fejlesztett ki az eljárás nyomán.

A jövőben természetesen még jelentősebb mérföldkövekhez érkezhetünk: a következő nagy lépés a régi dokumentumok nagy mennyiségben történő teljes transzkripciója lesz”

– hangsúlyozza Khal Rudin.

Jelenleg az angolon kívül a Nyugat-Európában használatos többi nyelvvel ismerkedik a szoftver, ám ennél is messzebb tekintenek a kutatók: a többi európai nyelv, valamint az arab és a mandarin ?elsajátítása? is a közeljövő tervei közé tartozik.

Kiemelt kép: Mohssen Assanimoghaddam/dpa

folytatás

Legkedveltebb hírek
Látványos reggelit szerveztek a gorilláknak a Budapesti Állatkertben
2019-05-22 21:29:58 | Hozzászólások: 0 | Tények TV2
Lemondott a holland migrációügyi államtitkár, mert kiderült: eltitkolták a migránsok súlyosabb bűncselekményeit
2019-05-22 21:27:20 | Hozzászólások: 0 | Tények TV2
Külföldön sikertermék, hazánkban azonban még mindig alig fogy a magyar spárga
2019-05-22 21:18:16 | Hozzászólások: 0 | Tények TV2
Másfél milliárdos üzletet kötött az MSZP-s Szabad Sajtó Alapítvány és Heinrich Pecina
2019-05-22 21:16:04 | Hozzászólások: 0 | Tények TV2
Két évvel ezelőtt este Európa legnagyobb fedett koncerttermében 21 ezer ember várta, hogy a színpadra lépjen Ariana Grande énekesnő
2019-05-22 21:12:49 | Hozzászólások: 0 | Tények TV2
Migrációs válság fenyegeti Európát és Magyarországot is - erre Kósa Lajos hívta fel a figyelmet
2019-05-22 21:10:10 | Hozzászólások: 0 | Tények TV2
Tipp: Kattints a képre a következő hír megtekintéséhez