Spiegeltje, spiegeltje
Het gebruik van big data in de taalwetenschap is in opkomst. Met de rekenkracht van computers leggen we voorheen onbekende en ongeziene verbanden tussen teksten. Hoogleraar e-research for the Humanities prof. dr. Franciska de Jong (Universiteit Utrecht) is enthousiast over de mogelijkheden die digitale instrumenten bieden voor het analyseren van taal. Tegelijkertijd werpt ze kritische vragen op: in hoeverre kan taal sociale en culturele patronen blootleggen? Grootschalige taalanalyse kan leiden tot interessante inzichten, maar ook tot dwaalsporen. Hoe voorkom je dat je te snel conclusies trekt?
Taal als representatie van de werkelijkheid
Wat is de relatie tussen taal en werkelijkheid? Die vraag houdt taalwetenschappers al sinds oudsher bezig. Taal en werkelijkheid komen nooit één op één overeen. Het verschil hiertussen noemen wetenschappers de 'semantic gap'. Het woord 'appel' (A P P E L) bijvoorbeeld, is iets anders dan het ding 'appel' (een vrucht). In het dagelijks leven merk je daar niet veel van. Wanneer je het over een appel hebt, is het vrijwel zeker dat de ander begrijpt wat je bedoelt. “Taal is een behoorlijk efficiënt coderingssysteem,” volgens De Jong. Voor de wetenschapper is het gat tussen taal en werkelijkheid wel problematisch. Woorden zijn ambigu (denk aan de meerdere betekenissen van het woord 'bank') en hebben binnen verschillende contexten een andere betekenis (een bank om op te zitten of een bank om geld te halen). Met modellen en formules proberen (taal)wetenschappers zo precies mogelijk de werkelijkheid weer te geven.
The digital turn
De opmars van computers en digitale instrumenten verruimt het onderzoeksveld van de taalwetenschapper. De computer maakt het mogelijk om systematisch enorme hoeveelheden data te analyseren. Zo kan de taalwetenschapper bijvoorbeeld trends en verandering in taalgebruik vaststellen. Niet alleen de wetenschapper kan gebruik maken van deze digitale instrumenten, ook de leek kan met openbaar beschikbare tools aan de slag. Zo speur je met Ngram in enkele seconden woorden op in miljoenen boeken. Maar welke conclusies kan je verbinden aan deze data? Een snelle stijgende lijn voor het woord 'computer' is hoogstwaarschijnlijk een reflectie van technologische ontwikkelingen. Maar wat zegt de afname van het woord 'herfst'? Met Google Trends visualiseer je in een handomdraai veelgebruikte zoektermen. Zo leek er na de Brexit een piek te zijn in Britse zoekopdrachten op: “What is the EU?”. Het nieuws ging al viral op twitter toen bleek dat het hoge getal berustte op toeval: de statistieken op Google Trends zijn relatief. Wanneer er toevallig weinig andere zoekopdrachten zijn op een bepaald moment krijg je snel een hoge piek die feitelijk niet veelzeggend is. Het werken met big data vraagt dus om zorgvuldige reflectie.
Naast het schetsen van het grotere plaatje, geven digitale middelen ook de mogelijkheid de diepte in te gaan en teksten tot op het bot uit te pluizen. Zo lukte het wetenschappers van de Universiteit Utrecht om de schrijver van het Wilhelmus te achterhalen, door systematisch teksten te vergelijken op schrijfstijl. Wetenschappers hadden lange tijd Petrus Datheen als mogelijke auteur van het Wilhelmus verworpen omdat hij een slechte reputatie had. De Jong: “We wilden ons volkslied natuurlijk niet toeschrijven aan een krakkemikkige schrijver.” Data lieten het 'DNA' van de auteur in de tekst zien. Er kon pas echt een conclusie getrokken worden uit de data toen cultuurhistorici de data contextualiseerden en valideerden. Multidisciplinaire samenwerking is daarom onmisbaar om relevante conclusies te kunnen trekken.
Big data, big conclusions?
Achter het vertrouwen in big data schuilt de aanname dat je met taal als datatype culturele patronen kan blootleggen. Maar hoe hard zijn de conclusies die je daaraan kunt verbinden? En zijn er ook sociale fenomenen die geen sporen achterlaten in taal? De Jong: “De stap van big data-analyse naar big decisions is een thema in alle vakgebieden. Als je (beleids)beslissingen baseert op big data, dan moet je heel zeker weten dat de patronen die je vindt ook betekenisvol zijn voor het sociale of culturele fenomeen waar je de techniek op toepast.” Psychologen gebruiken soms taalgebruik als indicator voor Alzheimer of autisme. Begrijpen ze die aandoeningen zo beter of zet taalanalyse ons op het verkeerde spoor? Om tot goede conclusies te komen is samenwerking met onderzoekers uit het vakgebied waar de data over gaan essentieel. Zij hebben de theoretische kennis in huis om de uit big data aangetoonde trends te duiden en te analyseren. De Jong: “Anders zit je uiteindelijk met een lege huls.” Het kwantitatieve perspectief is een verrijking van kwalitatief onderzoek, zeker geen vervanging.
Kijk de lezing 'Rekenen aan taal' terug. Volgende week neemt experimenteel psycholoog dr. Chris Janssen (UU) ons mee in de wereld van kunstmatige intelligentie. Met de computer kunnen we simpel gedrag nabootsen en zelfs voorspellen. Hoe zit dat met complexer gedrag in de concrete situaties van alledag?