Actueel: Studenten Information Sciences analyseren thesauri Rijksmuseum

Door Chris Dijkshoorn

Daan en Daan, studenten Information Sciences aan de VU, presenteerden gisteren de resultaten van het onderzoek voor hun bachelor thesis. Beiden gingen een half jaar geleden aan de gang met Rijksmuseum thesauri.

Daan Raven heeft een definitie van een gebeurtenis opgesteld en daarop gebaseerd een aanbeveling geschreven van welke informatie er over gebeurtenissen gestructureerd kan worden vastgelegd. Die structuur heeft hij vergeleken met de structuur in ons collection management system Adlib. De conclusie daarvan was dat we maar een fractie van de aanbevolen velden tot onze beschikking hebben. Hij heeft daarna gekeken welke informatie met behulp van “Named Entity Recognition” kon worden geëxtraheerd van de bestaande beschrijvingen opgeslagen in Adlib. Name Entity Recognition is een manier om met behulp van algoritmes automatisch entiteiten zoals data en plaatsen in ongestructureerde tekst te herkennen. Zijn conclusie was dat met niet geoptimaliseerde algoritmes er veel entiteiten foutief worden herkent, waardoor het raadzamer is het proces handmatig uit te voeren.

Daan Raven presenteert de resultaten van zijn onderzoek aan een groep medewerkers van Research Services

Daan de Ruijter presenteerde zijn onderzoek naar de Bibliotheek thesaurus. Hij converteerde eerst de 7826 termen uit het bibliotheek systeem Koha van het MARC21 formaat naar het SKOS formaat. Hij onderzocht de impact van de term gebaseerde aanpak (van tekst uitgaande) naar de concept gebaseerde aanpak (van een idee uitgaande). Deze conversie bleek eenduidig, al kon niet alle informatie uit MARC21 worden meegenomen omdat er door handmatige invoer een aantal fouten in de data waren ingeslopen. Daan heeft daarna software tools gebruikt om de kwaliteit van de bibliotheek thesaurus te analyseren. Daaruit bleek onder andere dat ongeveer één achtste van de termen in Koha geen onderdeel uitmaken van de hierarchy van de thesaurus (zogenaamde weesconcepten). Als laatste stap onderzocht hij hoeveel van de concepten het bibliotheek thesaurus konden worden aligned (als het zelfde concept beschouw) met het collectie thesaurus. Met een eenvoudige aanpak lukte het hem om 13% van de concepten aan elkaar te linken. Tijdens de daarop volgende discussie werd geopperd om te onderzoeken welke datasets waarschijnlijk meer overlap hebben, de namen van personen werd als kandidaat genoemd.

Het was leuk om zoveel mensen geïnteresseerd te zien in deze onderwerpen!

De presentaties zijn hier terug te kijken:

2019_VU_Presentation_Events_Daan_Raven

2019_VU_Presentation_Library_Thesaurus_Daan_de_Ruijter

 

 

Geef een reactie

Ontdek meer van The Art of Information

Abonneer je nu om meer te lezen en toegang te krijgen tot het volledige archief.

Lees verder