Wat Botswana en Nederland gemeenschappelijk hebben…

Zo aan het eind van het jaar is het een goed moment om terug te kijken. Kijken we wat langer terug, dan zien we dat er verandering komt in een slepende situatie: in Nederland investeren overheid en non-profit organisaties jaarlijks voor miljoenen in kostbaar onderzoek. De research output is echter zelden beschikbaar voor het publieke domein, want het wordt gecopyright door uitgeverijen. U vindt de opgedolven wijsheid dus niet voor iedereen toegankelijk in de daarvoor bedoelde Universiteitsbibliotheken. Ze wordt daardoor onderbenut voor het algemeen belang. Ook in een land als Botswana, dat net zo goed kennis hard nodig heeft, speelt dit probleem. Maar er lijkt een doorbraak te zijn om deze ‘tragedy of the commons’ te doorbreken.

Subsidie onder voorwaarde

Sinds deze maand geeft NWO in Nederland alleen nog subsidies aan onderzoeken, die hun publicatie openbaar toegankelijk maken. Dat helpt. Wie de leiding in Botswana neemt om de tragedie te doorbreken, kan ik u zo even niet vertellen, behalve dat ook zij al heel lang behoefte aan toegang tot informatie hebben voor onderwijs en research, om een duurzame ontwikkeling te realiseren.

Narcis

In 2008 besloten wij om die reden onder andere dit land via de non-profit organisatie Eifl (Electronic Information for Libraries) aan een systeem te helpen, dat lijkt op Darenet. In Nederland werd dit de voorloper van Narcis. In Narcis is goed te zien welke publicaties ‘open access’ zijn.

Blog illustratie Botswana Nederland

December is een goede maand om te bedenken dat wij, terugkijkend, misschien een steentje bijdroegen aan de groei van de ‘open access’ beweging, in Nederland, èn in Botswana.

Even de koppen bij elkaar

collage_agile_openOp een Open Space Conferentie – die geen vooraf bepaalde invulling kent – mogen deelnemers werken aan wat aan de oppervlakte komt. Dit wordt aangedragen op post-it’s en op de muur geplakt, in tijdsloten. Of de behoeften al dan niet gedeeld zijn, blijkt vanzelf. Lijkt het aanbod elders toch relevanter, leuker of spannender? Dan vlinder je verder naar een ander groepje. Hier geldt immers ‘the Law of Two Feet’.

Op de Agile Open Space Conferentie in Lunteren hebben we een groepje deelnemers meegenomen op een queeste naar het Nederlandstalige equivalent van exotische vaktermen. Niet zozeer uit taalpurisme, maar vanwege de relatie tussen taal en persoonlijke ontwikkeling. We besloten in een tijdslot met een groepje ons boerenverstand los te laten op Agile, Kanban, XP en Scrum. Deze stoere, en voor buitenstaanders tevens nietszeggende termen, schuren aan bekendere begrippen uit de industrie: ‘produce to order’, ‘stock to order’ en ‘just-in-time management’. Wat ook weer ronkend Engels is. Het zoeken naar Nederlandstalige equivalenten leverde gedeelde momenten van verbazing en verwondering op. U kunt ze hier in een simpel overzichtje bekijken. Graag zouden we op het spoor komen van bijpassende oude spreekwoorden bij de materie. Waarom? Omdat die zoektocht helpt om de echte waarden en normen te vinden, die onder dit verbale laagje zitten. We dragen graag bij aan een gezonde en voor iedereen begrijpelijke samenwerkings-ecologie.

Van full naar para, of: parkeerlogica en ICT

We reizen vaker af naar onze klanten, dan andersom. En omdat we één parkeerplaats hebben voor bezoekers, delen we die plek soepel met de medehuurder van ons pand. Analoog aan die logica gingen we over van KVM, oftewel full-virtualisatie, naar para-virtualisatie met LXC, wat staat voor Linux Containers. Daarmee kunnen we verschillende Virtual Machines een kernel laten delen, en geheugenruimte beschikbaar stellen zonder vooraf een reservering te maken. Zodoende leggen we onszelf geen beperkingen op. Lekker light-weight nu we in tien minuten een Virtuele Machine erbij kunnen maken, snel kunnen omswitchen als er een update moet plaatsvinden, nieuwe releases willen doen, een demo maken, of meerdere versies tegelijk installeren. Bijkomend voordeel: hardware wordt efficiënter ingezet, en het bespaart energie, dus het milieu.

How to scale up Meresco

Recently Kennisnet asked me how to scale up Edurep with regard to:
– queries per second
– record updates per second
– total number of records

I suspect that this is of broader interest, so below are two approaches for scaling CPUs, memory or bandwidth.

Queries per second
A single machine Meresco system runs between 10 and 100 queries per second. Scaling this requires adding more machines so load can be distributed over CPUs and networks. There are two approaches.

Approach A
Replicate the entire server process and feed updates to them simultaneously.

Approach B
Extract the most demanding components from the server’s configuration and put these on separate machines. Reconnect them using the Inbox component.

Before After

Both approaches are based on standard Meresco functionality and therefore easily configured.

Record updates per second
Meresco is able to process 1 to 10 updates per second concurrently with querying. Scaling this up requires adding machines that can share the load of processing the records using approach B. These machines can feed into one or more query processing machines, effectively enabling scaling along both axes.

The main idea is to decompose a system into subsystems which can be distributed and replicated. This analysis must be done before a system can scale up using cloud-like environments. How Meresco’s configuration supports this will be outlined in a future blog.

Total number of records
Meresco can host 10 – 100 million records on one machine, mostly limited by what its indexes can do. Scaling up requires a closer look at these indexes to see how additional resources must be allocated. In this area Lucene, BerkeleyDB and OWLIM have earned great reputations. Meresco’s architecture helps to get the most out of these.

Meresco’s homegrown Facet Index and Sorted Dictionary Index (used for auto-complete) can be scaled following approach B. However, with a single-node limit of roughly one billion records most applications would not need more than one node.

Conclusion
I realize that I only scratched the surface of how to scale Meresco. There are many details to discuss and you probably wonder how your situation could be dealt with. I’d love to hear your responses!