Foto: David Vroom/CGTC

In de serie Taalonderzoekers stellen we onderzoekers aan u voor die zich aan de Rijksuniversiteit Groningen met het Gronings en het Nedersaksisch bezighouden. Deze week: promovendus Martijn Bartelds.

Martijns achtergrond ligt niet in de taalkunde, maar in de informatiekunde. Zowel de bachelor als master van informatiekunde deed hij in Groningen, waarvan hij de laatste combineerde met de master Human Machine Communication. Martijn had al een tijd in zijn achterhoofd dat hij graag wou promoveren, en tijdens de master kwam hij in contact met Martijn Wieling. Het klikte goed, en toen er bij hem een positie voor een promovendus beschikbaar kwam heeft Martijn meteen de master informatiekunde afgemaakt om het jaar erop aan een PhD te beginnen.

Tijdens zijn studie informatiekunde vond Martijn het al erg leuk om processen te automatiseren en te kijken hoe hij dingen zo efficiënt mogelijk kon maken. Ook tijdens de PhD komt dit veel terug, maar dan toegepast op talen. Volgens Martijn zijn talen daar ook bij uitstek geschikt voor, omdat ze normaal zo moeilijk te begrijpen zijn voor computers.

Groningse spraak doorzoeken
Op dit moment werkt Martijn aan een computermodel om geluid mee te doorzoeken. Voor talen als het Gronings kan dit erg nuttig zijn, omdat er maar weinig spraakmateriaal uitgeschreven is. Het maken van zulke transcripties kost namelijk erg veel tijd, waardoor het ook duur is. Daarnaast wordt het Gronings vaker in gesproken vorm gebruikt dan in geschreven vorm, waardoor spraakmateriaal een belangrijke bron is die nog niet optimaal gebruikt wordt.

Met het nieuwe model dat Martijn ontwikkelt wordt het mogelijk om in geluidsbestanden naar een specifiek woord te zoeken door het woord in te spreken. De computer vergelijkt de patronen in het ingesproken geluid vervolgens met de patronen in al het materiaal dat er beschikbaar is, waarna die de audiofragmenten selecteert die er het meeste op lijken. Op dit moment kan je alleen nog zoeken door zelf iets in te spreken, maar misschien dat het later ook mogelijk wordt om zoekopdrachten in te typen.

Een deel van de bronnen die beschikbaar is in het Gronings wordt op deze manier beter toegankelijk. Dit geldt zowel voor taalkundigen die onderzoek willen doen naar het Gronings als voor sprekers van het Gronings. Ook voor algemenere, niet taalkundige informatie is het nuttig. Stel je bijvoorbeeld voor dat je een bepaald onderwerp uit een interview op wil zoeken, maar je niet meer precies weet op welk moment dat onderwerp besproken werd. Met dit model kan je in dat geval op kernwoorden zoeken zonder dat je uren aan audiomateriaal door moet spitten.

Het Engels als basis
Veel van Martijns onderzoek is gebaseerd op deep learning. Dat is een vorm van kunstmatige intelligentie waarbij het doel is om computers patronen te leren herkennen. Daarvoor worden zogeheten neurale netwerken aangelegd, die de manier waarop het menselijk brein werkt moeten simuleren. Het nadeel van deep learning is dat er gigantisch grote hoeveelheden data voor nodig zijn: de computer moet namelijk meerdere keren controleren of die een patroon goed herkend heeft, waarna het netwerk zichzelf aanpast om zo de volgende keer tot een betere inschatting te komen. Vooral bij het herkennen van taal is dat belangrijk, maar voor het Gronings is er bij lange na niet genoeg materiaal beschikbaar.

Vandaar dat Martijn en zijn collega’s modellen die voor het Engels gemaakt zijn aanpassen aan het Gronings. Dat doen ze door de verschillende ‘lagen’ in het model uit elkaar te pluizen en te kijken waar de informatie zit die het meest nuttig is voor het Gronings. De kleine hoeveelheid gegevens die er wél beschikbaar is voor het Gronings gebruiken ze vervolgens om het model te testen. Op dit moment is het model in staat om ongeveer driekwart van de zoekopdrachten te vinden, met als voorwaarde dat het tien keer een valse positief mag geven.

Flexibele modellen
Het is opvallend dat het model zo goed werkt voor het Gronings, omdat het tijdens het leren van spraakpatronen eigenlijk helemaal geen Gronings heeft gezien. Nu zijn Martijn en zijn collega’s bezig om te kijken of het model nog verbeterd kan worden, bijvoorbeeld door het Engelstalige model te vervangen door een meertalig model. Ze willen dan proberen om ook Nederlandse gegevens aan het model toe te voegen om te kijken of het model daardoor beter met het Gronings om kan gaan. Omdat het Gronings meer op het Nederlands lijkt dan op het Engels denken ze dat dit een positief effect kan hebben.

Daarnaast laat het project zien hoe flexibel en breed toepasbaar grote taalmodellen zijn. Het model dat Martijn heeft gebruikt voor dit project is namelijk eigenlijk ontwikkeld voor spraakherkenning, dus het omzetten van spraak naar tekst. Toch blijkt dat je uit die modellen dus ook gegevens kan halen die niet alleen toepasbaar zijn op andere talen, maar ook op andere taken (in dit geval dus op het doorzoeken van audio op basis van ingesproken zoekopdrachten). Dit roept natuurlijk vragen op over waar de modellen in de toekomst nog meer voor ingezet kunnen worden.

Andere projecten
Naast zijn werk aan de ingesproken zoekopdrachten is Martijn op dit moment bezig met het ontwikkelen van een akoestische methode voor het kwantificeren van uitspraakverschillen. Deze nieuwe methode meet uitspraakverschillen waar, net als bij het andere project, geen transcripties meer voor nodig zijn. Normaal worden geluidsfragmenten namelijk fonetisch uitgeschreven, waarna berekend kan worden hoeveel taalvarianten van elkaar verschillen (zie het artikel over het onderzoek van Raoul Buurke voor een uitleg van dit proces). Afhankelijk van het niveau van detail kost het maken van fonetische transcripties erg veel tijd, dus het ontwikkelen van deze akoestische methode zou taalonderzoekers veel tijd kunnen besparen.

Ook werkt Martijn met zijn collega-promovendus Wietse de Vries aan een systeem dat voor Groningse en Friese teksten automatisch de woordsoorten kan bepalen. Ook dit doen ze door aanpassingen te doen aan bestaande taalmodellen die eigenlijk voor andere talen zijn bedoeld. Over de manier waarop dit systeem nu al ingezet wordt de volgende keer meer!

Heb je vragen over dit onderzoek? Neem dan contact op met m.bartelds@rug.nl.