Přizpůsobte si předvolby souhlasu s cookies

Soubory cookie používáme k efektivní navigaci a k provádění některých funkcí. Podrobné informace o všech souborech cookie naleznete pod jednotlivými kategoriemi souhlasů níže.

Soubory cookie, které jsou zařazeny do kategorie „Nezbytné“, jsou uloženy ve vašem prohlížeči, protože jsou nezbytné pro umožnění základních funkcí webu.... 

Vždy aktivní

Nezbytné soubory cookie jsou nutné k umožnění základních funkcí těchto stránek, jako je bezpečné přihlášení nebo nastavení preferencí souhlasu. Tyto soubory cookie neukládají žádné osobní údaje.

Funkční soubory cookie pomáhají provádět určité funkce, jako je sdílení obsahu webových stránek na platformách sociálních médií, shromažďování zpětné vazby a další funkce třetích stran.

Analytické soubory cookie se používají k pochopení interakce návštěvníků s webovými stránkami. Tyto soubory cookie pomáhají poskytovat informace o metrikách, jako je počet návštěvníků, míra odskočení, zdroj návštěvnosti atd.

Výkonnostní soubory cookie se používají k pochopení a analýze klíčových výkonnostních ukazatelů webových stránek, které pomáhají poskytovat návštěvníkům lepší uživatelský zážitek.

Žádné soubory cookie k zobrazení.

Reklamní soubory cookie se používají k poskytování návštěvníkům přizpůsobených reklam na základě dříve navštívených stránek a k analýze účinnosti reklamních kampaní.

Žádné soubory cookie k zobrazení.

Ostatní soubory cookie jsou ty, které se teprve identifikují a zatím nebyly zařazeny do žádné kategorie.

Žádné soubory cookie k zobrazení.

Menu
Košík0

Košík

Článek

ASARP – Automatizovaný systém analytického rozpisu periodík

S nástupom nových technológií do knihovníctva a s povinnosťou digitalizácie starých titulov vzniklo množstvo nových dát, ktoré sú dostupné pre čitateľov. S množstvom dát ale prichádza aj problém. Ako vyhľadať relevantné informácie, ktoré potrebujeme?

Len napríklad Moravská zemská knihovna (MZK) má vo svojej digitálnej knižnici 4 511 periodík. Máme teda veľké množstvo zaujímavých zdrojov informácií dostupných pre verejnosť, ktorá sa zaujíma o minulosť, študentov, ktorí pracujú na svojich školských prácach a potrebujú relevantné informácie, alebo aj novinárov, ktorí píšu článok o tom, ako to bolo v časoch minulých. Mnoho z týchto periodík nie sú rozdelené na články. Nie je teda možné filtrovať tie, ktoré nás naozaj zaujímajú, a musíme prácne prechádzať číslo po čísle, aby sme našli to, čo potrebujeme.

Ideálne by bolo, keby každá knižnica si sadla k svojim starým periodikám a spravila analytický rozpis pre všetky čísla. Pre knižnice je ale nereálne, aby tieto obrovské dáta spracovali ručne. Správny analytický rozpis zahŕňa zdĺhavé identifikovanie nadpisu, rozdelenie na články a správne priradenie textov do článku.

Tiež je potrebné identifikovať autora a ideálne zaradiť článok do kategórie. V niektorých prípadoch je súčasťou článku aj obrázok, ktorý je potrebné správne priradiť. Výhodou dnešnej doby je, že máme technológie, ktoré takúto prácu uľahčujú a urýchľujú. Pre takýto prípad môžeme použiť strojové učenie na vytvorenie modelu pre generovanie článkov z periodík. Tento prístup sme použili pri vytvorení systému ASARP – Automatizovaný systém analytického rozpisu periodík. Ako vyplýva z názvu, ide o automatizovaný systém. Dokáže teda plne automaticky a sám vygenerovať články z periodík.

ASARP funguje vo dvoch fázach. Dáta sa importujú automaticky zo systému Kramerius, kde importujeme všetky potrebné dáta. Hlavnou podmienkou je mať v rámci týchto dát OCR XML najlepšie v štruktúre ALTO. Prvá fáza spracovania týchto dát je trénovacia.

Každé periodikum má svoje vlastné rozloženie. Nedá sa povedať, že by aspoň väčšina periodík dodržiavala nejaké štandardné rozloženie textu. Častokrát sa rozloženie mení aj podľa času, kedy bolo periodikum vydávané. Na všetky tieto prípady musí systém vedieť reagovať a správne priradiť text do článku.

Pre túto konzistentnosť potrebuje ASARP na začiatku trocha pomôcť s naučením sa, ako riešiť tieto prípady. Systém vygeneruje sám články, ktoré je ale potrebné v tejto fáze skontrolovať človekom, keďže ASARP si nie je dostatočne istý s výsledkom. Na to slúži webová aplikácia, v ktorej pracovník knižnice môže opraviť chyby pri generovaní článkov. Farebne sú rozlíšené jednotlivé články, takže už aj na prvý pohľad sú jasné niektoré chyby zaradenia do článkov. Po ručnej kontrole asi 5–10 čísiel sa model dostatočne naučí nove periodikum a už zvláda generovať články úplne sám. To sa deje v druhej, aplikačnej fáze. Natrénovaný model sa použije na generovanie článkov. Ak knižnica vyžaduje ručnú kontrolu, môže ju vykonať aj v tejto fáze.

Takto vytvorené nové dáta o článkoch systém vyexportuje v dvoch rôznych formátoch: JSON štruktúra pre Kramerius, alebo MARCxml. Vygenerované články teda môžete ľahko importovať do knižničného systému a tým obohatiť svoj katalóg. Výsledkom je zjednodušenie vyhľadávania informácií pre čitateľov.


Ing. JAKUB HAGARA je programátorem ve společnosti Cosmotron, která se zabývá vývojem informačních systémů pro paměťové instituce, především knihovny. Ve své práci se zaměřuje na zpracování přirozeného jazyka.

Reklama

Buďte v obraze

Výběr ze Čtenáře každých 14 dní do vaší e-mailové schránky.

Podcasty

Mladá generace knihovníků. Sledujte nejnovější podcasty Mladého SKIPu.

K nahlédnutí

Nové knihovny: podívejte se na fotogalerie.