Het NBC+ Zoekplatform vanuit technisch perspectief

Wat is de Nationale Bibliotheek Catalogus (NBC) eigenlijk precies? In dit artikel wordt vanuit een technisch perspectief belicht wat er inmiddels is ontwikkeld voor de Nationale Bibliotheek Catalogus (NBC).

Nationale catalogus

De meerderheid van de Nederlandse openbare bibliotheken maakt gebruik van een centrale catalogus met publicaties en registreren alleen de lokale voorraad. Deze registraties hebben betrekking op de centrale catalogus. De beperkte informatie die uniek is voor de desbetreffende bibliotheek wordt toegevoegd.

Veel bibliotheken beschikken ook over extra uitgaven die niet zijn opgenomen in de nationale catalogus. Bijvoorbeeld muziek, albums, kranten, consumenten testrapporten etc. Het zoekplatform brengt hier verandering in.

Het zoekplatform

Het zoekplatform maakt de publicaties uit al deze bronnen beschikbaar via een Application Programming Interface (API). Hiermee is het mogelijk om de enorme hoeveelheid bibliotheek gerelateerde gegevens te gebruiken op elke denkbare manier en om applicaties voor de eindgebruiker te creëren.

Het zoekplatform maakt onderstaande toegankelijk:

  • Beknopte en uniforme metadatabeschrijving van alle publicaties.
  • Gedetailleerde informatie over organisaties (bibliotheken, uitgeverijen, musea, etc).
  • Eenduidige typologie van alle producten binnen het Platform: muziek, boeken, e-books, mensen, video, software, games, artikelen, etc.
  • Details van toonaangevende auteur thesauri, classificaties, etc.
  • Zowel de uniforme data en bron(meta)data.

De API beschikt over onderstaande functionaliteiten:

  • Geïntegreerd zoeken met autocomplete en zoeksuggesties.
  • Statische en dynamische ranking.
  • Object herleiden.
  • Gestructureerde queries.
  • Harvesten van data.
  • Pictogrammen en thumbnails.
  • Get-IT-diensten voor: lenen, downloaden, reserveren, enzovoort.

Semantische data

Het zoekplatform werkt met semantische data. In plaats van diep in te gaan op alle technische details van RDF en LOD, hebben we een opsomming gemaakt dat eenvoudig weergeeft wat er daadwerkelijk is bereikt voor API-gebruikers:

  • Uniforme datarepresentatie ongeacht hoe het wordt geopend.
  • Duidelijke en ondubbelzinnige relaties tussen objecten.
  • Open en gedetailleerde gegevens die rechtstreeks zijn gekoppeld aan de bron zonder verlies van informatie.
  • Multi-gestructureerd: kies je favorieten uit vele ontologieën.
  • Eenvoudige integratie met andere tools en technieken.

Innovatie

Het zoekplatform heeft twee belangrijke vernieuwingen:

  1. “Late Integration”. Bij deze methode worden er meerdere indexen separaat bijgehouden en worden de zoekresultaten bij het uitleveren geïntegreerd. Het onderhoud van de indexen kan sneller en specifieker, terwijl de integratie plaatsvindt in milliseconden. Dit vereist een technische innovatie. In het artikel “Reducing Index Maintenance Costs” kunt u hier meer over lezen.
  2. Het overbrugt de kloof tussen statistische “information retrieval” en “linked data” door deze technologieën op een slimme manier te koppelen in de API.

Status

Het zoekplatform is inmiddels in gebruik genomen door de Openbare Bibliotheek van Amsterdam. De nationale catalogus wordt gecombineerd met onder andere de muziekcollectie van Muziekweb.nl en met lokale evenementen van Uitburo.nl. Door de toepassing van ‘Late Integration’ is de index eenvoudig te beheren.

Andere kenmerken (al gereed of nog in ontwikkeling) zijn:

  • Statische en dynamische ranking; voor iedere zoekopdracht wordt een aparte ranking query uitgevoerd waarmee de zoekresultaten worden herwogen op basis van statische ranking gegevens, zoals leeftijd, holdings, bronnen en types. De statische ranking gegevens worden bijgehouden in een aparte index.
  • Door het uploaden van ontologieën is het mogelijk op op een andere manier door de data te navigeren.
  • Uitgebreide beschikbaarheidsdiensten bieden gedetailleerde informatie over hoe, waar en onder welke voorwaarden een object te verkrijgen is.

Vooral het laatste punt is een interessante toegevoegde waarde van het zoekplatform. In de bibliotheek- en het cultureel erfgoedsector is het aanbieden van een link te beperkt. De gebruiker wil vaak meer gegevens zoals beschikbaarheid en dergelijke.

Het platform maakt gebruik van een zowel algemene en gespecialiseerde uitvoering van de DAIA (Document Availability Information API). In een volgend artikel zullen we verder ingaan op de architectuur en de toepassing van DAIA.

The NBC+ Search Platform

As many wonder what the National Library’s Catalogue (NBC) actually is, I try to explain it here from a technical perspective.

National Catalogue

The majority of the Dutch public libraries use a central catalogue of publications and only register what they have in stock locally. These registrations refer to the central catalogue and only add limited information which is unique for that library.

But many libraries also offer extra publications not present in the national catalogue. For example music albums, newspapers, consumer test reports, event guides, special interest publications and so on. This is where the Search Platform comes in.

The Search Platform

The Search Platform makes all these publications from all these sources available through a unified Application Programming Interface (API). An API means: not for humans, but for computers.  So it is possible to use the vast amount of library related data in any conceivable way to create end-user applications.

Here is a short list of what Search Platform makes accessible:

  1. Concise and unified metadata description of all publications
  2. Detailed information about organizations (libraries, publishers, musea, etc)
  3. Unified typology of all things inside the Platform: music, books, e-books, people, video, software, games, articles, and so on.
  4. Details from leading Author thesauri, classifications etc.
  5. Both unified and Raw (meta) data of everything.

Here is a short list of what functionality the API has:

  1. Integrated topic search with autocomplete and term suggestions.
  2. Static and dynamic ranking.
  3. Object resolving.
  4. Structured queries.
  5. Harvesting.
  6. Icons and thumbnails.
  7. Get-It services for: loan, download, reserve, etc.

Semantic Data

The Search Platform works with Semantic Data.  Instead of boosting all the hyped technical details of RDF and LOD, we just list what it actually achieves for API users:

  1. Uniform data representation regardless of how you access it.
  2. Clear and unambiguous relations between objects.
  3. Open and detailed data directly linking to the source without information loss.
  4. Multi-structured: pick your favorites from many ontologies.
  5. Easy integration with other tools and techniques.

Innovation

The Search Platform features two key innovations:

  1. Late Integration. It keeps separate indexes and integrates results on the fly.  This allows for easier and more specific maintenance of the indexes while integration happens in milliseconds. This required a technical innovation. Read more about it in “Reducing Index Maintenance Costs…” and in the more technical post here.
  2. It crosses the chasm between statistical information retrieval and linked data by employing both technologies and combining them in a clever way in the API.  As for the reason and how, please bear with me, as the next post will be about this exact topic.

Status

The Search Platform is now in production. The Public Library of Amsterdam uses it for all its branches.  It combines the National Catalogue with, among others, the music collection of Muziekweb.nl and local events from Uitburo.nl.  Late Integration makes sure maintaining the indexes is very easy.

Other features (ready or under development) are:

  1. Dynamic static rank: a separate ranking query, reweighs results according to static ranks maintained in a separate index.  Such ranks include at this moment: age, , holdings, sources and types.
  2. Uploading and using more ontologies so that more content becomes navigable through them.
  3. Extensive availability services providing detailed information on how to get each object, how, where and under what conditions.

Especially the last point is an interesting added value of the Search Platform.  No matter what one finds, one always wants to click-through to see more. In the library and cultural heritage domain, that involves almost always more than just providing a link.  The platform uses a both generalized and specialized implementation of the Availability Information working draft (DAIA).  A next blog post will offer more details on the architecture and application of DAIA.

 

Zoekplatform versie 1.0 gelanceerd bij OBA

Vandaag hebben we een mooie mijlpaal bereikt binnen het NBC+ project. De nieuwe bibliotheek catalogus is gelanceerd bij de OBA. De Nationale Bibliotheek Catalogus (NBC+) is nu digitaal beschikbaar voor het publiek (www.oba.nl).

Uitgebreid zoekplatform
Het zoekplatform maakt het zoeken eenvoudiger door middel van semantische technieken. Er is een betere koppeling tussen vergelijkbare titels en de filtermogelijkheden zijn uitgebreider. Daarnaast is het eenvoudig zoeken tussen de verschillende lokale én landelijke bronnen. Zo kan de eindgebruiker precies de informatie vinden die aansluit bij de zoekvraag.

Vervolg
Er zit veel in wat betreft functionaliteit en data. De voorbereidende stappen zijn hiermee gezet voor de uitrol van een semantische search-engine. De verwachting is dat er de komende maanden meer bibliotheken worden aangesloten op de NBC+

We zijn trots op het resultaat!

Verlenging raamovereenkomst Stichting Bibliotheek.nl

Per 1 april 2012 heeft Stichting Bibliotheek.nl met Seecr, in het kader van de Europese aanbestedingsprocedure, de Raamovereenkomst ten behoeve van dienstverlening omtrent het Open Zoekplatform gesloten.

Deze overeenkomst was in eerste instantie voor 2 jaar afgesloten. Beide partijen hebben recent voor verlenging getekend, waarmee de contractduur loopt tot en met 31 maart 2015.

Een blijk van waardering waar wij als Seecr blij mee zijn. We zien uit naar een goede voortzetting van deze samenwerking.