Len napríklad Moravská zemská knihovna (MZK) má vo svojej digitálnej knižnici 4 511 periodík. Máme teda veľké množstvo zaujímavých zdrojov informácií dostupných pre verejnosť, ktorá sa zaujíma o minulosť, študentov, ktorí pracujú na svojich školských prácach a potrebujú relevantné informácie, alebo aj novinárov, ktorí píšu článok o tom, ako to bolo v časoch minulých. Mnoho z týchto periodík nie sú rozdelené na články. Nie je teda možné filtrovať tie, ktoré nás naozaj zaujímajú, a musíme prácne prechádzať číslo po čísle, aby sme našli to, čo potrebujeme.
Ideálne by bolo, keby každá knižnica si sadla k svojim starým periodikám a spravila analytický rozpis pre všetky čísla. Pre knižnice je ale nereálne, aby tieto obrovské dáta spracovali ručne. Správny analytický rozpis zahŕňa zdĺhavé identifikovanie nadpisu, rozdelenie na články a správne priradenie textov do článku.
Tiež je potrebné identifikovať autora a ideálne zaradiť článok do kategórie. V niektorých prípadoch je súčasťou článku aj obrázok, ktorý je potrebné správne priradiť. Výhodou dnešnej doby je, že máme technológie, ktoré takúto prácu uľahčujú a urýchľujú. Pre takýto prípad môžeme použiť strojové učenie na vytvorenie modelu pre generovanie článkov z periodík. Tento prístup sme použili pri vytvorení systému ASARP – Automatizovaný systém analytického rozpisu periodík. Ako vyplýva z názvu, ide o automatizovaný systém. Dokáže teda plne automaticky a sám vygenerovať články z periodík.
ASARP funguje vo dvoch fázach. Dáta sa importujú automaticky zo systému Kramerius, kde importujeme všetky potrebné dáta. Hlavnou podmienkou je mať v rámci týchto dát OCR XML najlepšie v štruktúre ALTO. Prvá fáza spracovania týchto dát je trénovacia.
Každé periodikum má svoje vlastné rozloženie. Nedá sa povedať, že by aspoň väčšina periodík dodržiavala nejaké štandardné rozloženie textu. Častokrát sa rozloženie mení aj podľa času, kedy bolo periodikum vydávané. Na všetky tieto prípady musí systém vedieť reagovať a správne priradiť text do článku.
Pre túto konzistentnosť potrebuje ASARP na začiatku trocha pomôcť s naučením sa, ako riešiť tieto prípady. Systém vygeneruje sám články, ktoré je ale potrebné v tejto fáze skontrolovať človekom, keďže ASARP si nie je dostatočne istý s výsledkom. Na to slúži webová aplikácia, v ktorej pracovník knižnice môže opraviť chyby pri generovaní článkov. Farebne sú rozlíšené jednotlivé články, takže už aj na prvý pohľad sú jasné niektoré chyby zaradenia do článkov. Po ručnej kontrole asi 5–10 čísiel sa model dostatočne naučí nove periodikum a už zvláda generovať články úplne sám. To sa deje v druhej, aplikačnej fáze. Natrénovaný model sa použije na generovanie článkov. Ak knižnica vyžaduje ručnú kontrolu, môže ju vykonať aj v tejto fáze.
Takto vytvorené nové dáta o článkoch systém vyexportuje v dvoch rôznych formátoch: JSON štruktúra pre Kramerius, alebo MARCxml. Vygenerované články teda môžete ľahko importovať do knižničného systému a tým obohatiť svoj katalóg. Výsledkom je zjednodušenie vyhľadávania informácií pre čitateľov.
Ing. JAKUB HAGARA je programátorem ve společnosti Cosmotron, která se zabývá vývojem informačních systémů pro paměťové instituce, především knihovny. Ve své práci se zaměřuje na zpracování přirozeného jazyka.