HBO-Kennisbank met verbeterde links

De HBO-Kennisbank is een portal, gebouwd in opdracht van SURF door Seecr. Vanuit verschillende bronnen worden scripties en publicaties verzameld en doorzoekbaar gemaakt.Verschillende partijen willen een deel van de informatie beschikbaar stellen voor derden. Een goede link naar het record is duidelijk, kort en geschikt als permalink. Het oude formaat voldeed hier niet aan. Bij een aanpassing moeten links vanuit search-engines blijven werken.

Verandering

Kijk maar eens mee.

Geen bron identifier

De zichtbare veranderingen zijn hierboven goed te zien. Een belangrijk detail valt minder op: de bronidentifier komt in de nieuwe link niet terug. Van belang om te weten, is waar de originele informatie vandaan komt. Dit was ook altijd te zien aan de identifier die we gebruikten voor de records. Hiermee lekken we een interne abstractie, die niet nodig is omdat bijna alle bronnen van HBO-Kennisbank OAI identifiers gebruiken – die uniek zijn. Zonder bron-identifier is de link korter.

Oude links blijven werken!

HBO-Kennisbank wordt gecrawld door verschillende zoekmachines. Een aanpassing van links zou de vindbaarheid van de records kunnen schaden. De oude links zijn aangepast zodat ze redirecten naar de juiste link. Hoe we dat deden? Hiervoor gebruiken we http status 301, die staat voor “Moved Permanently”.  Search engines kunnen dit lezen en blijken dit snel op te pakken, om vervolgens de opgeslagen links aan te passen. Veel zoekresultaten in Google gebruiken al de nieuwe links!

Dependable OAI Repositories

With the rising popularity of Open Access, organizations expect their OAI repositories to be highly dependable. The repository must be able to deal with millions of records and respond quickly to frequent requests from Service Providers.

The Meresco community followed these developments by continuously improving Meresco’s OAI components. During this process, compliance to the OAI-PMH specification grew to near 100% and new specialized indexes were added to keep query response times well under one second.

History

Back in 2007 the first OAI-PMH repository components were implemented in the LOREnet project. The 16 components were reduced to 8 in the OpenER project for the Open University. These 8 components still exists but some of them were significantly refactored to keep up with load and volume requirements. End 2008, Berkely DB replaced Lucene, making it respond much faster in the presence of from and until request parameters. In 2009, huge amounts of sets in the LOREnet project required an even more specialized index to maintain query response times.

Present situation

Today, several multi-million repositories are in use by, among others, Sound & Vision (Beeld en Geluid) and the University of Tilburg (UvT). These two are examples of stand-alone repository implementations. LOREnet and EduRep are examples of repositories integrated in, respectively, a portal and a search engine.

Indexes and Storage

Initially, creating a repository was straightforward using Meresco’s existing storage and Lucene index components.  The new specialized indexes for OAI were also made available as reusable components.   This extends the range of available indexes, which are now: Full text (Lucene), Facets, Range and Dictionary (BerkelyDB and BurstTrie).

Repositories, Search Engines and Archives

Using the available index and storage components, a repository is just as easily created as a Search Engine or a complete Archive.  After all, these are quite similar things.  Any repository needs a storage, but also an index for maintaining it. Similarly every search engine needs a index but also a storage to obtain the result records from. And an archive is yet another combination of storage and index, but with different intentions.