Het viel zelfverklaard technofoob stagiair Amber Striekwold op dat Big Data en algoritmes in toenemende mate een rol spelen in ons dagelijks leven. Een enge ontwikkeling? Of denken we dat alleen maar door onwetendheid? In deze serie komt ze haar angst onder ogen. In dit eerste blog: wat zijn de beloftes en de grenzen van Big Data?
De afgelopen twee jaar hebben we meer data geproduceerd dan in alle eeuwen daarvoor. Steeds meer geavanceerde hard- en software zorgen ervoor dat data makkelijker te verzamelen, te bewerken en te bewaren zijn. Big Data is een samenspel tussen computertechnologie en statistiek. Naast het feit dat steeds meer data wordt verzameld, nemen toepassingen van Big Data ook toe.
We hebben het vaak niet eens door, maar Big Data zijn niet meer weg te denken uit ons dagelijks leven. Grote winkelketens sturen klanten op basis van koopgedrag gepersonaliseerde reclames, zorgverzekeringen verzamelen gegevens over gezondheidsrisico's van klanten en terreuraanslagen worden in de kiem gesmoord met Big Data-analyses van Tweets. Verschillende datastromen worden met elkaar gecombineerd. Zo maakt de politie niet alleen gebruik van tweets, maar ook van persoonlijke en locatiegegevens van de twitteraar. Een dergelijke risicoanalyse wordt bij predictive policingvaak toegepast. Het is een soort buienradar voor boeven. Met meer data kan er aan de hand van statistiek en algoritmen naar steeds meer verbanden worden gezocht die binnen allerlei domeinen gebruikt kunnen worden.
Big Data zouden het wondermiddel zijn waarmee onze problemen als sneeuw voor de zon verdwijnen – wijken worden veiliger door predictive policing en het is gewoon handig om alleen reclames te krijgen die voor jou relevant zijn. De mogelijkheden voor toepassingen van Big Data-analyses lijken eindeloos. Big Data worden gezien als de olie van het digitale tijdperk en het goud van de éénentwintigste eeuw. Maar moeten we niet ergens grenzen stellen?
De toekomst staat in data beschreven
'People are more predictable than particles', stelde wis- en natuurkundige Stephan Wolfram. Maar heeft hij gelijk? Een van de grote beloftes van Big Data is dat er steeds meer real timemee geanalyseerd en voorspeld kan worden. Een goed voorbeeld hiervan is Google Now. Dat creëert een algoritme aan de hand van data die jij produceert: je routes, de inhoud van je berichtjes, welke filmpjes je kijkt op YouTube, enzovoorts. Op basis van deze informatie doet het suggesties, managet je agenda en geeft je advies. Dit algoritme kent een ingebouwd leercomponent. Hoe vaker je Google Now gebruikt, hoe beter het werkt. In het ideale geval functioneert Google Now als je personal assistant.Je hoeft dan niets zelf op te zoeken, Google Now reikt je het antwoord aan voordat je überhaupt de vraag hebt.
Een leven op de automatisch piloot. Het is efficiënter: je hoeft immers niet meer na te denken over je agenda of met welk vervoersmiddel je het snelst op je werk bent. Het algoritme is je altijd twee stappen voor. Opgeslagen data kunnen op deze manier ingezet worden om het leven makkelijker te maken, maar er zit ook een schaduwzijde aan het opslaan en gebruik maken van grote hoeveelheden data.
Grenzen aan Big Data
Hoogleraar Big Data prof. Sander Klous vergelijkt data met tandpasta: eenmaal uit de tube kan het niet meer terug. Persoonsgegevens die nu worden opgeslagen kunnen later op een negatieve manier worden gebruikt. De politie probeert met predictive policingmisdaad in de kiem te smoren. Aan de hand van risicoprofielen worden ex-gevangenen meer of minder in de gaten gehouden. Dit kan het aantal recidivisten verminderen en de veiligheid bevorderen, maar het individu wordt gedefinieerd door zijn verleden en kan hier niet aan ontsnappen. Een soort data-determinisme.
Daarnaast wordt bij het bouwen van datasets – een risicoprofiel bijvoorbeeld - altijd geselecteerd. Het is een simplificatie. Mediawetenschapper Mirko Schäfer van de Utrecht Data School waarschuwt voor de schijnbare objectiviteit die een datavisualisatie biedt. Data lijken op het eerste oog eenduidig, maar de manier waarop data wordt geframed kan gevolgen hebben.
In de woonsector worden vaak commerciële bedrijven ingehuurd om een data-analyse uit te voeren. Het verleden van een potentiële huurder wordt omgezet in data en geclassificeerd in termen van 'overlast' en 'geen overlast'. De binaire oppositie geeft echter geen ruimte voor nuance. Wanneer een alleenstaande moeder haar baan verliest en hierdoor de huur niet kan betalen, krijgt ze de stempel 'overlast'. Ook al trekt ze het een paar maanden later weer recht, wanneer ze weer een inkomen heeft. Deze classificaties kunnen een vertekend beeld geven van de werkelijkheid. Dit kan ook van invloed zijn op de publieke opinie: niemand wil immers in een buurt wonen waar volgens statistiek veel huurders wonen die overlast veroorzaken.
Schäfer wil meer bewustzijn voor de ethische dimensie van het werken met data in een interview zegt hij: “De technologie en ons gebruik ervan veranderen veel sneller dan de wet. Let ook op normen en waarden, op ethische kwesties waar nu nog geen wettelijke regels voor bestaan.” Met de Utrecht Data School ontwikkelde hij de Data Ethics Decision Aid. DEDA helpt data-analisten, projectmanagers en beleidsmakers om ethische problemen in dataprojecten, datamanagement en databeleid te herkennen. De ethische dimensie is van belang omdat onder andere gegevens over een persoon niet verdwijnen, terwijl wetgeving technologische vernieuwingen niet bij kan houden.
Big Data brengen een zee aan mogelijkheden, maar we moeten oppassen dat we ons niet mee te laten voeren in de datastromen en oeverloos data-optimisme. Het is van belang toepassingen te toetsen aan ethische maatstaven en kritisch te blijven.
In het volgende blog bespreek ik toepassingen van Big Data en algoritmes bij politiewerk: predictive policing.Het voorspellen van criminaliteit kan criminaliteitcijfers verlagen, maar weegt dat op tegen de nadelen? Lees het blog 'Een glazen bol vol criminelen'.