Het NBC+ Zoekplatform vanuit technisch perspectief

Wat is de Nationale Bibliotheek Catalogus (NBC) eigenlijk precies? In dit artikel wordt vanuit een technisch perspectief belicht wat er inmiddels is ontwikkeld voor de Nationale Bibliotheek Catalogus (NBC).

Nationale catalogus

De meerderheid van de Nederlandse openbare bibliotheken maakt gebruik van een centrale catalogus met publicaties en registreren alleen de lokale voorraad. Deze registraties hebben betrekking op de centrale catalogus. De beperkte informatie die uniek is voor de desbetreffende bibliotheek wordt toegevoegd.

Veel bibliotheken beschikken ook over extra uitgaven die niet zijn opgenomen in de nationale catalogus. Bijvoorbeeld muziek, albums, kranten, consumenten testrapporten etc. Het zoekplatform brengt hier verandering in.

Het zoekplatform

Het zoekplatform maakt de publicaties uit al deze bronnen beschikbaar via een Application Programming Interface (API). Hiermee is het mogelijk om de enorme hoeveelheid bibliotheek gerelateerde gegevens te gebruiken op elke denkbare manier en om applicaties voor de eindgebruiker te creëren.

Het zoekplatform maakt onderstaande toegankelijk:

  • Beknopte en uniforme metadatabeschrijving van alle publicaties.
  • Gedetailleerde informatie over organisaties (bibliotheken, uitgeverijen, musea, etc).
  • Eenduidige typologie van alle producten binnen het Platform: muziek, boeken, e-books, mensen, video, software, games, artikelen, etc.
  • Details van toonaangevende auteur thesauri, classificaties, etc.
  • Zowel de uniforme data en bron(meta)data.

De API beschikt over onderstaande functionaliteiten:

  • Geïntegreerd zoeken met autocomplete en zoeksuggesties.
  • Statische en dynamische ranking.
  • Object herleiden.
  • Gestructureerde queries.
  • Harvesten van data.
  • Pictogrammen en thumbnails.
  • Get-IT-diensten voor: lenen, downloaden, reserveren, enzovoort.

Semantische data

Het zoekplatform werkt met semantische data. In plaats van diep in te gaan op alle technische details van RDF en LOD, hebben we een opsomming gemaakt dat eenvoudig weergeeft wat er daadwerkelijk is bereikt voor API-gebruikers:

  • Uniforme datarepresentatie ongeacht hoe het wordt geopend.
  • Duidelijke en ondubbelzinnige relaties tussen objecten.
  • Open en gedetailleerde gegevens die rechtstreeks zijn gekoppeld aan de bron zonder verlies van informatie.
  • Multi-gestructureerd: kies je favorieten uit vele ontologieën.
  • Eenvoudige integratie met andere tools en technieken.

Innovatie

Het zoekplatform heeft twee belangrijke vernieuwingen:

  1. “Late Integration”. Bij deze methode worden er meerdere indexen separaat bijgehouden en worden de zoekresultaten bij het uitleveren geïntegreerd. Het onderhoud van de indexen kan sneller en specifieker, terwijl de integratie plaatsvindt in milliseconden. Dit vereist een technische innovatie. In het artikel “Reducing Index Maintenance Costs” kunt u hier meer over lezen.
  2. Het overbrugt de kloof tussen statistische “information retrieval” en “linked data” door deze technologieën op een slimme manier te koppelen in de API.

Status

Het zoekplatform is inmiddels in gebruik genomen door de Openbare Bibliotheek van Amsterdam. De nationale catalogus wordt gecombineerd met onder andere de muziekcollectie van Muziekweb.nl en met lokale evenementen van Uitburo.nl. Door de toepassing van ‘Late Integration’ is de index eenvoudig te beheren.

Andere kenmerken (al gereed of nog in ontwikkeling) zijn:

  • Statische en dynamische ranking; voor iedere zoekopdracht wordt een aparte ranking query uitgevoerd waarmee de zoekresultaten worden herwogen op basis van statische ranking gegevens, zoals leeftijd, holdings, bronnen en types. De statische ranking gegevens worden bijgehouden in een aparte index.
  • Door het uploaden van ontologieën is het mogelijk op op een andere manier door de data te navigeren.
  • Uitgebreide beschikbaarheidsdiensten bieden gedetailleerde informatie over hoe, waar en onder welke voorwaarden een object te verkrijgen is.

Vooral het laatste punt is een interessante toegevoegde waarde van het zoekplatform. In de bibliotheek- en het cultureel erfgoedsector is het aanbieden van een link te beperkt. De gebruiker wil vaak meer gegevens zoals beschikbaarheid en dergelijke.

Het platform maakt gebruik van een zowel algemene en gespecialiseerde uitvoering van de DAIA (Document Availability Information API). In een volgend artikel zullen we verder ingaan op de architectuur en de toepassing van DAIA.

Nationale Bibliotheekcatalogus op de B2D

Inmiddels hebben we de eerste fase in de ontwikkeling van NBC+ afgerond. Op 13 december vond de Bibliotheektweedaagse (B2D) plaats. Johan Stapel, information en innovation manager bij Stichting Bibliotheek.nl (BNL), presenteerde een conceptversie van het zoekplatform aan managers en medewerkers van bibliotheken in Nederland. We vroegen hem een terugblik te geven op de presentatie en het project.

Het doel van NBC+
“Het was de eerste keer dat we iets van NBC+ lieten zien aan de buitenwereld. Je begint dan met kort te vertellen waarom je iets doet om vervolgens te laten zien wat je hebt gedaan. Het doel van stichting BNL was en is om met NBC+ een centrale voorziening te creëren die als zoek- en vindportal gebruikt wordt door lokale bibliotheken. Het voordeel van een landelijk systeem is dat we de software maar één keer hoeven aan te sluiten en het daarmee direct beschikbaar is voor de lokale bibliotheek. Men kan bijvoorbeeld een nieuwe collectie e-boeken centraal inkopen en implementeren in NBC+. Deze komt dan direct beschikbaar voor alle bibliotheken.”

“Het moet mogelijk zijn om door filters en facetten specifieke data weer te geven die interessant zijn voor de individuele bibliotheek en daarnaast de gebruiker in staat te stellen uit te zoomen op nationaal niveau om te kijken of het object bijvoorbeeld elders vindbaar is. Hiervoor is een eerste versie gerealiseerd met een flexibele infrastructuur waarbinnen collecties van allerlei bronnen bij elkaar worden gebracht. Binnen deze infrastructuur kunnen steeds nieuwe relaties worden gelegd en verrijkingen toegepast. De index die zo wordt opgebouwd, wordt ontsloten door een API waarmee een User Interface kan worden gemaakt.”

Semantische technologie
“NBC+ is opgebouwd met semantische technologie. Op termijn moet dit de navigatie voor gebruikers gemakkelijker maken, omdat er meer verbindingen worden gelegd tussen de zoekresultaten. Als je op ‘Mozart’ zoekt krijg je misschien wel 1000 treffers die gaan over Wolfgang Amadeus Mozart in alle mogelijk schrijfwijzen, maar ook resultaten over zijn vader Leopold. Een zoekmachine weet namelijk zelf het verschil niet. In NBC+ werken we aan het integreren van een kennisbank die dit soort verschillen moet gaan herkennen (gebruikmakend van DBpedia). Een semantisch netwerk ordent de resultaten en geeft je keuzes. Op zoekonderwerp ‘Mozart’ worden bijvoorbeeld de vader, de zoon, de film en de cantates gevonden. De gebruiker krijgt dan de keuze welke zij bedoelde.”

Ontvangst
“De reactie van het publiek in de zaal was tweezijdig. Enerzijds was er bewondering voor de techniek, voornamelijk de techneuten in de zaal waren onder de indruk, maar ook was er een zekere mate van teleurstelling. Dat had waarschijnlijk te maken met de drie jaar wachttijd waarin bibliotheken is verteld over NBC+ tegenover de eerste kennismaking die niet de officiële versie maar een demo op een acceptatieserver bleek te zijn. Die traagheid zorgde enigszins voor gefronste wenkbrouwen.”

Toekomst
“Mijn uiteindelijke hoop voor NBC+ is dat we de gebruikers een zoekfunctie kunnen bieden die helpt kennis te vergaren en door semantische technologie verrassende resultaten oplevert. Ik hoop dat de kennissamenleving wordt versterkt door middel van de Nationale Bibliotheekcatalogus.”

Wetenschappelijke Etalage

De universiteitsbibliotheek van Maastricht bevat een hoeveelheid aan wetenschappelijke artikelen, lezingen, proefschriften etc. Regelmatig wordt de bibliotheek aangevuld door onderzoeksgroepen en faculteiten. Deze worden met behulp van OAI-PMH ontsloten uit METIS

De opdracht was om op een nette gestructureerde manier de faculteiten en vakgroepen “in de etalage” te zetten, met als doel om “Maastricht” op de kaart te zetten. Dit is bereikt door met semantische technologie alle medewerkers en publicaties te relateren aan faculteiten en doelgroepen en daarop de etalage te baseren. Het (technische) resultaat is opgenomen in de open source suite Meresco en daarmee voor iedereen beschikbaar.

DAI-code
Alle auteurs zijn geïndexeerd met hun DAI-code (Digital Author Identifier). Deze code wordt geresolved met behulp van RDF. Elke avond wordt de RDF ingelezen in de triple store. De DAI-code zorgt voor een eenduidige schrijfwijze, zodat er gedurende de harvesting uit meerdere bronnen de naam identiek wordt weergegeven.


Flexibel plan van aanpak
Maastricht ligt niet bepaald naast de deur. Maar de afstand heeft ons er niet van weerhouden om regelmatig met de klant om tafel te gaan. Ook bij een kortdurend en overzichtelijk project als dit is het belangrijk dat er gedurende het proces kan worden bijgestuurd en aangevuld. In een later stadium van het project hebben we een extra functionaliteit toegevoegd met betrekking tot weergave van brongegevens per zoekresultaat. Door middel van templating kan per type worden bepaald welke bronvermeldingen er moeten worden weergegeven. Een goede aanvulling wat in de toekomst moeiteloos kan worden uitgebreid.

Looptijd project
Van augustus 2010 tot november 2011.

Link
http://publications.maastrichtuniversity.nl