Helderziend, of gewoon ‘smart’?

Sommigen van ons bezitten in de virtuele wereld diverse magische krachten, maar in de ‘echte’ wereld werken we gewoon ‘op de slimme manier’. Onze hokus-pokus bestaat uit de inzet van onze service ‘Continubeheer’ op de systemen van onze opdrachtgevers. Daarmee voeren we op allerlei plekken metingen uit, wat een reeks aan indicatoren en grafieken oplevert. Zodoende kunnen we tijdig, als we daar aanleiding voor zien, de performance beïnvloeden van de systemen die we voor onze opdrachtgevers in beheer hebben. We wachten bij wijze van spreken niet tot er rookpluimen uit de auto komen, maar grijpen veel eerder in, als we niet tevreden zijn over een tussentijds gemeten uitkomst.

Transparant

Is dat alles? Nee. Ons Continubeheer levert in de praktijk meer op. Deze manier van werken leidt tot transparantie van de performance van onze systemen voor onze klanten. Continubeheer is een uitnodiging voor een continu verbeterproces. En het is een reden voor een feestje, dan wel reden voor een ongestoorde nachtrust voor onze opdrachtgevers: het laat zien, dat we kwaliteit leveren, ruim binnen de marges van de afgesproken SLA’s.

Schermafbeelding 2016-01-25 om 10.39.40

Ja, het gaat goed. Zie onze blog van vorige maand over optimalisatie.

Relevante zoekresultaten door middel van ranking

Het is bijna traditie in de bibliotheekwereld dat er (eindeloos) wordt getweakt aan allerlei ranking-parameters. Dit is echter een doodlopende weg, daarom heeft de NBC+ een topic rank en een static rank geïntroduceerd.

Topic rank
Topic ranking heeft alles te maken met de functionele/technische integratie van verschillende types objecten in één search engine. De NBC+ beschikt over verschillende soorten objecten zoals boeken, muziek, krantenartikelen, evenementen e.d. De uitdaging is om het ene object niet dominanter te laten zijn dan het andere. Miljoenen krantenartikelen kunnen eenvoudig honderden events overschaduwen.

Dit is opgelost door te denken over objecten alsof ze een relevantie hebben ten opzichte van een onderwerp (de topic rank). Daarmee wordt afgestapt van de traditionele gedachte dat hoe vaker de zoekterm in een object voorkomt, hoe hoger de score (term frequentie) is. Dit geeft een goede basis voor de volgende stap, de static rank.

Met een topic rank ontstaat een ranking met een technische waarheid. De algoritmes vinden een bepaalde relevantie en hebben daarin op een bepaalde manier altijd gelijk. Zo vinden deze algoritmes bij de zoekopdracht “tirza” verschillende groepen resultaten die allemaal even relevant zijn (boek “Tirza” van Grunberg, serie jeugdboeken met Tirza in de hoofdrol, etc). Maar collectiebeheerders willen soms bepaalde resultaten meer onder de aandacht brengen.

Static rank
De oplossing hiervoor is een static rank. Dit is een aparte index met hierin een rank voor elk object. Deze rank wordt statisch bepaald aan de hand van verschillende eigenschappen van het object of simpelweg volgens de wens van de beheerder. Bij het zoeken kan deze ranking worden meegenomen om de resultaten, na de toepassingen van de topic rank, te herwegen.

Statisch maar wel dynamisch
De beheerder kan heel specifiek aan de hand van allerlei mogelijke wensen de ranking doorvoeren. Boeken scoren bijvoorbeeld iets hoger, net als recente objecten en alle Nederlandstalige dingen. Het is ook mogelijk om de hoeveelheid door bibliotheken aangeschafte exemplaren te laten meewegen of eenvoudigweg de bron. Ook de leeftijd (van de doelgroep) kan als rank worden meegenomen.

In de NBC+ is deze static rank voor aangesloten partijen afzonderlijk te configureren. Elke bibliotheek kan er zelf invulling aan geven. In die zin is ook de static rank dynamisch, het kan zonder meer worden aangepast en de resultaten zijn direct zichtbaar.

Deze twee-traps ranking draait nu proef en zal in oktober in productie gaan.

Geen verrassingen meer…

Vandaag vindt er een nieuwe release van het NBC+ Zoekplatform plaats. In deze release zit onder andere de nieuwe feature: verkrijgbaarheid. Deze feature is nog in testfase, maar we willen hier alvast graag meer over vertellen.

Verwijzing naar bron zoekresultaat
Een zinvolle search engine zal gebruikers altijd moeten leiden naar de bron van het zoekresultaat. Bij internet search engines is dat eenvoudigweg naar een webpagina. Bij de NBC+ kunnen dat ook verwijzingen zijn naar bijvoorbeeld onderstaande services:

  • reserveren (eigen bibliotheek)
  • aanvragen (landelijk)
  • downloaden e-book
  • inzien (betaald/online)
  • inzien op locatie
  • inzien online + abonnement
  • streaming (preview)

Als je bijvoorbeeld op zoek bent naar een boek zijn er vaak meerdere mogelijkheden om het boek te kunnen verkrijgen. Wij hebben een methode ontwikkeld die de verwijzingen naar alle services mogelijk maakt. Per zoekresultaat wordt op gestructureerde wijze aangegeven wat de opties zijn. Dit hebben we bereikt met (een uitbreiding op) de “Document Availability Information API” (DAIA), zoals ontwikkeld in het Gemeinsamen Bibliotheksverbund.

Geen verrassingen meer voor de gebruiker
Met deze feature is het in de zoekresultaten nu direct zichtbaar waar je naar toe wordt doorverwezen met daarbij de informatie wat die verwijzing inhoudt. Geen verrassingen meer voor de gebruiker wat er bij volgende stap kan worden verwacht. In één oogopslag zijn alle mogelijkheden tot verkrijgbaarheid zichtbaar per zoekresultaat.

 

 

Beheer NBC+ Zoekplatform

Sinds vandaag voert Seecr’s Continubeheer het volledige beheer, van applicatie tot hardware, van het Zoekplatform van de Nationale Bibliotheekcatalogus (NBC+) van Bibliotheek.nl.

Het NBC+ Zoekplatform bestaat uit een negental services, waarvan vier meervoudig uitgevoerd ten behoeve van fail-over en voldoende capaciteit.  De diensten worden geleverd aan alle openbare bibliotheken in Nederland en houden in:

  1. Vergaren van data, het combineren, opschonen, verrijken en dagelijks actueel houden hiervan.
  2. Toegang tot de catalogus en andere bronnen (18.000.000 titels) via verschillende supersnelle zoekfuncties.
  3. Zoeken in het bezit van eigen en andere bibliotheken en vestigingen (39.000.000 exemplaren).
  4. Het opbouwen en onderhouden van een kennisbank waarin relaties tussen titels worden vastgelegd.

Procesverbetering

Agile werken wordt meer en meer de norm. Beheerprocessen moeten daarbij aansluiten. Wat heb je aan supersnelle realisatie van nieuwe features als het maanden duurt om die live te zetten?  Continubeheer is Agile, maar dan voor beheer. Snel schakelen, zonder gedoe. Dat kan door een zeer geoliede beheerorganisatie die zich uitstrekt tot de toeleveranciers. Alleen een op vertrouwen gebaseerde hechte samenwerking leidt tot snelle actie zonder fouten. En dat bespaart ook nog eens kosten bij alle betrokken partijen.

Samen met andere grootschalige landelijke diensten die bij Continubeheer van Seecr zijn ondergebracht, zoals de Nationale Aggregator van de Digitale Collectie en de Educatieve Contentketen van Kennisnet (Edurep) is gebleken dat we in staat zijn om dagelijks grote hoeveelheden data op een efficiënte manier te verwerken en aan te bieden. Daar zijn we trots op!

Het NBC+ Zoekplatform vanuit technisch perspectief

Wat is de Nationale Bibliotheek Catalogus (NBC) eigenlijk precies? In dit artikel wordt vanuit een technisch perspectief belicht wat er inmiddels is ontwikkeld voor de Nationale Bibliotheek Catalogus (NBC).

Nationale catalogus

De meerderheid van de Nederlandse openbare bibliotheken maakt gebruik van een centrale catalogus met publicaties en registreren alleen de lokale voorraad. Deze registraties hebben betrekking op de centrale catalogus. De beperkte informatie die uniek is voor de desbetreffende bibliotheek wordt toegevoegd.

Veel bibliotheken beschikken ook over extra uitgaven die niet zijn opgenomen in de nationale catalogus. Bijvoorbeeld muziek, albums, kranten, consumenten testrapporten etc. Het zoekplatform brengt hier verandering in.

Het zoekplatform

Het zoekplatform maakt de publicaties uit al deze bronnen beschikbaar via een Application Programming Interface (API). Hiermee is het mogelijk om de enorme hoeveelheid bibliotheek gerelateerde gegevens te gebruiken op elke denkbare manier en om applicaties voor de eindgebruiker te creëren.

Het zoekplatform maakt onderstaande toegankelijk:

  • Beknopte en uniforme metadatabeschrijving van alle publicaties.
  • Gedetailleerde informatie over organisaties (bibliotheken, uitgeverijen, musea, etc).
  • Eenduidige typologie van alle producten binnen het Platform: muziek, boeken, e-books, mensen, video, software, games, artikelen, etc.
  • Details van toonaangevende auteur thesauri, classificaties, etc.
  • Zowel de uniforme data en bron(meta)data.

De API beschikt over onderstaande functionaliteiten:

  • Geïntegreerd zoeken met autocomplete en zoeksuggesties.
  • Statische en dynamische ranking.
  • Object herleiden.
  • Gestructureerde queries.
  • Harvesten van data.
  • Pictogrammen en thumbnails.
  • Get-IT-diensten voor: lenen, downloaden, reserveren, enzovoort.

Semantische data

Het zoekplatform werkt met semantische data. In plaats van diep in te gaan op alle technische details van RDF en LOD, hebben we een opsomming gemaakt dat eenvoudig weergeeft wat er daadwerkelijk is bereikt voor API-gebruikers:

  • Uniforme datarepresentatie ongeacht hoe het wordt geopend.
  • Duidelijke en ondubbelzinnige relaties tussen objecten.
  • Open en gedetailleerde gegevens die rechtstreeks zijn gekoppeld aan de bron zonder verlies van informatie.
  • Multi-gestructureerd: kies je favorieten uit vele ontologieën.
  • Eenvoudige integratie met andere tools en technieken.

Innovatie

Het zoekplatform heeft twee belangrijke vernieuwingen:

  1. “Late Integration”. Bij deze methode worden er meerdere indexen separaat bijgehouden en worden de zoekresultaten bij het uitleveren geïntegreerd. Het onderhoud van de indexen kan sneller en specifieker, terwijl de integratie plaatsvindt in milliseconden. Dit vereist een technische innovatie. In het artikel “Reducing Index Maintenance Costs” kunt u hier meer over lezen.
  2. Het overbrugt de kloof tussen statistische “information retrieval” en “linked data” door deze technologieën op een slimme manier te koppelen in de API.

Status

Het zoekplatform is inmiddels in gebruik genomen door de Openbare Bibliotheek van Amsterdam. De nationale catalogus wordt gecombineerd met onder andere de muziekcollectie van Muziekweb.nl en met lokale evenementen van Uitburo.nl. Door de toepassing van ‘Late Integration’ is de index eenvoudig te beheren.

Andere kenmerken (al gereed of nog in ontwikkeling) zijn:

  • Statische en dynamische ranking; voor iedere zoekopdracht wordt een aparte ranking query uitgevoerd waarmee de zoekresultaten worden herwogen op basis van statische ranking gegevens, zoals leeftijd, holdings, bronnen en types. De statische ranking gegevens worden bijgehouden in een aparte index.
  • Door het uploaden van ontologieën is het mogelijk op op een andere manier door de data te navigeren.
  • Uitgebreide beschikbaarheidsdiensten bieden gedetailleerde informatie over hoe, waar en onder welke voorwaarden een object te verkrijgen is.

Vooral het laatste punt is een interessante toegevoegde waarde van het zoekplatform. In de bibliotheek- en het cultureel erfgoedsector is het aanbieden van een link te beperkt. De gebruiker wil vaak meer gegevens zoals beschikbaarheid en dergelijke.

Het platform maakt gebruik van een zowel algemene en gespecialiseerde uitvoering van de DAIA (Document Availability Information API). In een volgend artikel zullen we verder ingaan op de architectuur en de toepassing van DAIA.

The NBC+ Search Platform

As many wonder what the National Library’s Catalogue (NBC) actually is, I try to explain it here from a technical perspective.

National Catalogue

The majority of the Dutch public libraries use a central catalogue of publications and only register what they have in stock locally. These registrations refer to the central catalogue and only add limited information which is unique for that library.

But many libraries also offer extra publications not present in the national catalogue. For example music albums, newspapers, consumer test reports, event guides, special interest publications and so on. This is where the Search Platform comes in.

The Search Platform

The Search Platform makes all these publications from all these sources available through a unified Application Programming Interface (API). An API means: not for humans, but for computers.  So it is possible to use the vast amount of library related data in any conceivable way to create end-user applications.

Here is a short list of what Search Platform makes accessible:

  1. Concise and unified metadata description of all publications
  2. Detailed information about organizations (libraries, publishers, musea, etc)
  3. Unified typology of all things inside the Platform: music, books, e-books, people, video, software, games, articles, and so on.
  4. Details from leading Author thesauri, classifications etc.
  5. Both unified and Raw (meta) data of everything.

Here is a short list of what functionality the API has:

  1. Integrated topic search with autocomplete and term suggestions.
  2. Static and dynamic ranking.
  3. Object resolving.
  4. Structured queries.
  5. Harvesting.
  6. Icons and thumbnails.
  7. Get-It services for: loan, download, reserve, etc.

Semantic Data

The Search Platform works with Semantic Data.  Instead of boosting all the hyped technical details of RDF and LOD, we just list what it actually achieves for API users:

  1. Uniform data representation regardless of how you access it.
  2. Clear and unambiguous relations between objects.
  3. Open and detailed data directly linking to the source without information loss.
  4. Multi-structured: pick your favorites from many ontologies.
  5. Easy integration with other tools and techniques.

Innovation

The Search Platform features two key innovations:

  1. Late Integration. It keeps separate indexes and integrates results on the fly.  This allows for easier and more specific maintenance of the indexes while integration happens in milliseconds. This required a technical innovation. Read more about it in “Reducing Index Maintenance Costs…” and in the more technical post here.
  2. It crosses the chasm between statistical information retrieval and linked data by employing both technologies and combining them in a clever way in the API.  As for the reason and how, please bear with me, as the next post will be about this exact topic.

Status

The Search Platform is now in production. The Public Library of Amsterdam uses it for all its branches.  It combines the National Catalogue with, among others, the music collection of Muziekweb.nl and local events from Uitburo.nl.  Late Integration makes sure maintaining the indexes is very easy.

Other features (ready or under development) are:

  1. Dynamic static rank: a separate ranking query, reweighs results according to static ranks maintained in a separate index.  Such ranks include at this moment: age, , holdings, sources and types.
  2. Uploading and using more ontologies so that more content becomes navigable through them.
  3. Extensive availability services providing detailed information on how to get each object, how, where and under what conditions.

Especially the last point is an interesting added value of the Search Platform.  No matter what one finds, one always wants to click-through to see more. In the library and cultural heritage domain, that involves almost always more than just providing a link.  The platform uses a both generalized and specialized implementation of the Availability Information working draft (DAIA).  A next blog post will offer more details on the architecture and application of DAIA.

 

Project NBC+ Zoekplatform

Onder de naam Nationale Bibliotheek Catalogus (NBC) hebben wij een nieuw en innovatief platform voor digitaal erfgoed ontwikkeld. Dit platform geeft toegang tot bibliografische content van alle bibliotheken in Nederland en op termijn ook van musea, archieven en Media Content Providers voor Muziek, televisie en films. Andere bronnen die nu al wel ontsloten zijn, zijn onder andere Krantenbank, Gutenberg, Wikipedia en de Consumentenbond.

Met behulp van dit platform hebben programmeurs snel toegang tot de enorme hoeveelheden digitale erfgoedinformatie die vandaag de dag aanwezig is in bibliotheken, archieven en musea. Alle inhoud is gestandaardiseerd, verrijkt en aan elkaar gerelateerd. Commerciële partijen alsook instellingen kunnen daardoor toegang krijgen tot deze content. Snel en eenvoudig.

Relateren
Het platform analyseert en verrijkt de verschillende bronnen zodat de silo’s van informatie aan elkaar worden gerelateerd, maar ook aan de wereld om ons heen, het Linked Open Data netwerk. Dit semantisch netwerk vertegenwoordigt niet alleen boeken, maar ook mensen, gebeurtenissen, organisaties, plaatsen en andere artefacten. Alles in een samenhangende en georganiseerde manier.

Geen informatie verloren
Eén van de onderscheidende eigenschappen van het platform is het gestructureerd aanbieden van zeer heterogene data, zodat hiermee eenvoudig betrouwbare diensten kunnen worden ontwikkeld. Het platform doet dit zonder dat er informatie verloren gaat. Programmeurs kunnen kiezen op welk abstractieniveau ze de data willen benaderen, bijvoorbeeld algemeen, bibliografisch, muziek, etc.

Open architectuur
De wereld van data analyse, linked open data e.d. ontwikkelt zich snel. Via R&D komen steeds nieuwe tools beschikbaar. Daarom hebben we gekozen voor een open architectuur waarin nieuwe technische ontwikkelingen snel kunnen worden omarmd. De initiële keuzes die we hebben gemaakt voor dataopslag, verrijken en zoeken, kunnen worden uitgebreid met nieuwe technologieën. Verschillende technieken kunnen ook naast elkaar worden toegepast.

In deze open architectuur kunnen databronnen eenvoudig worden toegevoegd, ongeacht de gebruikte techniek, communicatieprotocollen of standaarden.

Doorbraak
Het leuke van het project is dat op een paar cruciale punten echt een doorbraak aan het ontstaan is. Dat heeft er vooral mee te maken dat we tegen grenzen aanlopen van het verzamelen van data en het bouwen van indexen daarop. Met dit platform maken we radicaal een einde aan de eisen die een data-aggregator oplegt aan de data-toeleveranciers. Wij draaien de rollen om! Gebruik het specialisme van de data-toeleveranciers om die data goed doorzoekbaar te maken.

Het zoekplatform is het resultaat van een opdracht van het ministerie van OCW en SIOB om een nieuwe en innovatieve digitale infrastructuur voor openbare bibliotheken te creëren.

Looptijd
Vanaf april 2012.