Begin 2021 is de Rijksuniversiteit Groningen (RUG) begonnen met een groot digitaliseringsproject, met als doel een deel van het academisch erfgoed openbaar te maken. In kader van het Spotlightproject zullen er uiteindelijk meer dan 100.000 objecten uit de universiteitsbibliotheek (UB) gedigitaliseerd worden. Eén van de deelprojecten is WoordWaark: Geschreven Gronings, waarbij zo’n 800 Groningstalige werken vanaf het begin van de 19de eeuw tot het heden toegankelijk gemaakt worden. Het digitaliseren van een werk is echter meer dan het maken van een foto: daarom wordt er gebruik gemaakt van een combinatie van slimme computerprogramma’s en de inzet van een enthousiaste groep vrijwilligers.

Door: Hedwig Sekeres

Toegankelijk corpus
Het uiteindelijke doel van WoordWaark: Geschreven Gronings is om een corpus te creëren waarin alle zinnen uit de Groningstalige werken worden opgenomen. Dit corpus wordt openbaar toegankelijk gemaakt op de website www.woordwaark.nl, waar nu ook al een aantal woordenboeken en een redelijke hoeveelheid spraakgegevens zijn opgenomen. Iedereen kan het corpus gebruiken om inzicht te krijgen in het gebruik van Groningse woorden en de variatie die het Gronings zowel regionaal als door de tijd heen kent. Ook kan het corpus goed gebruikt worden om de informatie uit het woordenboek te verrijken doordat woorden in het corpus ook in zinsverband te onderzoeken zijn. Ten slotte is het corpus een belangrijke bron voor de taalonderzoekers aan de RUG. Voor het ontwikkelen van digitale toepassingen zoals tekst-naar-spraak of vertaalmachines zijn namelijk grote hoeveelheden tekst nodig, die voorheen niet beschikbaar waren.

Scans maken
De eerste stap in het digitaliseringsproces is het maken van scans. Hiervoor maken vrijwilligers met de hulp van een speciale boekscanner foto’s van alle bladzijden van het boek. De boekscanner heeft een voetpedaal waardoor vrijwilligers snel kunnen werken en compenseert automatisch voor het omkrullen van pagina’s. …

Lees het volledige artikel in de nieuwe Erfgoednieuws-editie (juli 2021).