Het conversieproject : van steekkaart tot webcatalogus

Twintig jaar na het ontstaan van de steekkaartencatalogus zet CaGeWeB de stap naar het World Wide Web. Een digitale opvolger van de catalogus wordt beoogd die aan de hedendaagse behoeften inzake ontsluiting van cultureel en wetenschappelijk patrimonium moet voldoen. Digitalisering moet de catalogus ook behoeden voor toekomstige slijtage, die mettertijd de mogelijkheid tot elektronische conversie zou hypothekeren.

Manuele invoer van de gedrukte informatie in een geautomatiseerd bestand is een duur en arbeidsintensief proces. Gezien de goede, evenwichtige kwaliteit van de steekkaarten en gezien het feit dat de specifieke catalogi van de verschillende instellingen in een centraal bestand in de Gentse universiteitsbibliotheek zijn samengebracht, kiest CaGeWeB voor een grootscheepse conversie door middel van scanning en optische karakterherkenning (OCR - Optical Character Recognition). Deze keuze wordt mee geïnspireerd door analoge projecten die met succes uitgevoerd zijn in de universiteitsbibliotheken van Princeton en Heidelberg, de Koninklijke Bibliotheek te Kopenhagen, de Österreichische Nationalbibliothek te Wenen en de Zentralbibliothek in Zürich.

In het najaar van 1999 zeggen de Provincie Oost-Vlaanderen en de Stad Gent op verzoek van CaGeWeB onontbeerlijke financiële steun toe voor het conversieproject. Sedert 2002 is ook Gent Cultuurstad vzw geregeld financieel tegemoet gekomen. De Centrale Bibliotheek van de Universiteit Gent, die mee aan de basis ligt van het project, biedt technische en logistieke steun aan. De Hogeschool Gent van haar kant, die zelf in 1999 een succesvolle retroconversie met behulp van scanning en OCR heeft uitgevoerd, laat CaGeWeB van 1999 tot einde 2006 gebruik maken van de diensten van haar coördinator bibliotheekautomatisering.

Na een grondig marktonderzoek worden offertes gestuurd naar verschillende firma's. De keuze valt op Océacility Services, dat samenwerkt met Arco Information en Sercu Microdata. Sercu staat in voor het transport en de scanning van de fiches, Arco voor de OCR en de markering van velden in de OCR output. In het najaar van 2000 wordt de eerste fase van het project, de digitalisering van de steekkaarten, afgesloten met de levering van meer dan 350.000 gescande images en evenveel ASCII tekstbestanden met veldmarkeringen. De overgrote meerderheid van de tekstbestanden vertoont een voor meer dan 90 % foutloos OCR resultaat. Een minderheid van de fiches is om diverse redenen (mindere kwaliteit, donkere achtergrond, lijntjes, ...) minder goed of helemaal niet herkend.

De tweede fase behelst de ontsluiting van de geconverteerde gegevens op het Web, de verbetering en optimalisering van de records en de integratie met bestaande elektronische bestanden van de leden van CaGeWeB. De ontsluiting gebeurt in een databank op de catalogusserver van de universiteitsbibliotheek, aanvankelijk op basis van het Aleph bibliotheeksysteem, nadien met behulp van de open source software Lucene. De records worden aanvankelijk in een vrij rudimentaire vorm met een beperkt aantal indexen aangeboden, maar naarmate de verbeteringen vorderen, wordt de structuur van de databank en de webinterface verder aangepast. Om de gebruiker de oorspronkelijke informatie te kunnen tonen, wordt de gescande fiche voorlopig als zoekresultaat gepresenteerd. De reeds volledig gecorrigeerde steekkaarten worden in geconverteerde vorm getoond.

In overleg met de dienst automatisering van de universiteitsbibliotheek en met de coördinator bibliotheekautomatisering van de Hogeschool Gent ontvangen de leden van CaGeWeB downloads van hun eigen records die zij lokaal kunnen verbeteren. Een stagiair creëert later een webgebaseerde verbeterinterface waarmee de titelbeschrijvingen "anywhere, anytime" gecorrigeerd kunnen worden. Het verbeterwerk zelf gebeurt door jobstudenten en een deeltijdse medewerker. De universiteitsbibliotheek zorgt voor periodieke uploads van de verbeteringen en werkt ook een oplossing uit voor de integratie met de lokale geautomatiseerde catalogi.

Op middellange termijn denkt CaGeWeB ook aan samenwerking met andere instellingen voor een verdere uitbreiding van de catalogus, mogelijk zelfs een collectieve catalogus van Gent of Oost-Vlaanderen, en aan koppeling van multimediaal primair materiaal (gescande voorbladen, inhoudstafels, partituren, ...) aan de catalogus.


Universiteit Gent