Uit de media rijst het beeld van grote bedrijven en overheden die zo goed als alles over ons weten. De activiteiten van dataverzamelaars als Google en Facebook, maar ook financiële instellingen, inlichtingendiensten, gemeentes en de Belastingdienst zijn omstreden. Er bestaan vooral grote zorgen over de privacy en de angst voor misbruik van gegevens.

Deze zorgen zijn tot op zekere hoogte terecht, maar het verzamelen van grote hoeveelheden data is ook verdedigbaar. Big data kunnen namelijk bijzonder nuttig zijn bij de uitvoering van de kerntaken van deze organisaties. Tegelijkertijd versterkt de aanwezigheid van enorme hoeveelheden data de machtspositie van deze organisaties nog meer. De vraag dringt zich op welk gebruik van deze databergen wenselijk en vooral onwenselijk is en of de machtsposities moeten worden beperkt.

Ik zal hier het gebruik van big data bij twee organisaties bespreken: Google en de Belastingdienst. Voor beide wil ik het nut laten zien en een aantal kritische vragen stellen. Vergelijkbare vragen kunnen worden gesteld voor de financiële sector, de zorg en het sociaal domein. Door een commercieel bedrijf en een overheidstaak naast elkaar te zetten kan ik een aantal verschillende afwegingen presenteren die ook voor andere sectoren relevant zijn.

Ruil

De kritiek op Google en Facebook dat zij inbreuk doen op de privacy is desondanks groot. Eric Schmidt, tot 2011 Googles voorman, had hier een duidelijk antwoord op: Google levert bepaalde, door velen gewaardeerde, diensten en in ruil daarvoor maakt Google gebruik van jouw gegevens voor het verbeteren van de diensten en met name het aanbieden van advertenties. Zo werkt het: gebruikers betalen met hun gegevens voor de diensten van bijvoorbeeld Google. Bij het kritiseren van Googles omgang met gegevens moet ook de andere kant van de medaille worden bekeken: is men bereid om in euro’s te betalen voor dergelijke diensten?

Er zijn andere voorbeelden te noemen waarbij eenzelfde ruil plaatsvindt. Verzekeraars bieden kortingen aan op de autoverzekering wanneer de rijgegevens mogen worden ingezameld en doorgestuurd naar de verzekeraar. Bij goed rijgedrag krijgt men een lagere premie. Dit gaat een stap verder dan de bekende no-claim-korting bij schadeloos rijden. Voor de verzekeraar wordt het risico van een bepaalde verzekerde lager. De verzekerde betaalt minder premie én gaat meer letten op zijn of haar rijgedrag. Er wordt privacy ingeleverd in ruil voor premieverlaging, risicoverlaging én een potentieel toegenomen verkeersveiligheid.

Journalistiek

Er is wel een belangrijk verschil tussen een autoverzekering en internetdiensten als Google en die gaat over de keuzevrijheid. Het is vrijwel onmogelijk om geen gebruik te maken van deze diensten en precies daar wringt de schoen: de dominantie van bedrijven als Facebook en Google in een samenleving die steeds meer afhankelijk is van informatiediensten.

Kijk bijvoorbeeld naar de nieuwsvoorziening: hoewel het overgrote gedeelte van het nieuws wordt geproduceerd door professionele journalisten, gaat een alsmaar groter deel van de distributie van dit nieuws via de diensten van Google en met name Facebook. Dat de laatste schakel veel geld verdient, terwijl de nieuwsproducenten met de handen in het haar zitten, geeft te denken. Google en Facebook hebben de advertentiemarkt ongetwijfeld vergroot, doordat het plaatsen van advertenties toegankelijk is geworden voor een grotere groep ondernemers. Tegelijkertijd lijkt een verband met de dalende advertentie-inkomsten van kranten en tijdschriften aannemelijk. De invoering van het idee dat informatiediensten gratis kunnen zijn, heeft de traditionele journalistiek in ieder geval geen goed gedaan.

Marktdominantie

De dominante rol van bijvoorbeeld Google heeft een enorm sterke informatiepositie als bijeffect. Met een paar miljard zoekopdrachten per dag kan een aardig beeld worden gekregen van hetgeen mensen bezighoudt. Dit maakt deze gegevens ook interessant voor wetenschappelijk onderzoek.

Het Google Flu-project is een goed voorbeeld van enthousiasme over de mogelijkheden van big data voor wetenschappelijk onderzoek. Op basis van het zoekgedrag werden griepuitbraken voorspeld. Het feit dat die niet houdbaar bleken door onterecht gelegde verbanden, doet niets af aan de enorme potentie voor wetenschappelijk onderzoek.

Een andere mogelijke toepassing is te vinden in de financiële wereld, waar data kunnen worden gebruikt voor het voorspellen van marktbewegingen, zoals veranderingen op de huizenmarkt. Deze gegevens zijn waardevol voor professionele beleggers. Of Google gegevens verkoopt die niet voor het algemene publiek beschikbaar zijn, is mij niet bekend.

Er is in ieder geval een grote markt voor deze gegevens en de verkoop ervan is niet in strijd met de gebruikersvoorwaarden van Google. Het gaat hier immers niet om persoonsgegevens. De vraag is veel meer of deze handelwijze van Google oneigenlijk gebruik van de verzamelde data is, omdat die voortkomt uit de marktdominantie van het bedrijf.

Een belangrijke vraag hierbij is: van wie zijn deze gegevens? Misschien behoren de observaties van het gedrag van een groep wel toe aan deze groep en moeten deze gegevens voor iedereen op dezelfde wijze beschikbaar zijn, in het publieke domein. Deze transparantie zou het gebruik van deze gegevens voor wetenschappelijk onderzoek bevorderen en de sterke informatiepositie van Google enigszins indammen. Het is niet ondenkbaar dat Google meer openheid over deze gegevens geeft dan ze nu doet, onder lichte druk van de publieke opinie.

Betalen

De kritiek op de marktdominantie van bedrijven als Google is niet nieuw. Vanuit de open source-wereld zijn voorstellen gedaan voor internetdiensten zonder dominante partij, iets wat ook goed bij de technische aard van het internet past: een heterogeen en open netwerk. De cultuur van het internet is met de opkomst van bedrijven als Google en Facebook veranderd.

Het is zeer de vraag of een open standaard als e-mail zou zijn uitgevonden door een bedrijf als Google of Facebook. De laatste partij zou e-mailen waarschijnlijk alleen maar mogelijk maken tussen gebruikers van Facebook. E-mail zou op WhatsApp lijken, de populaire gesloten berichtendienst die voor 21 miljoen dollar door Facebook is overgenomen.

“ 

Als niemand wil betalen voor informatie, is een heterogeen internet zonder dominante partijen slecht voorstelbaar

 ”

De diensten zoals die van Google en Facebook zouden kunnen worden aangeboden door een netwerk van verschillende partijen, waarbij er niet een paar zeer dominante partijen zijn. De grote vraag is: wie gaat dat betalen? Dat is helemaal niet vanzelfsprekend en ook erg lastig, vooral nu de bereidwilligheid om voor nieuws- en informatiediensten te betalen lijkt af te nemen. Maar als niemand wil betalen voor informatie, is een heterogeen internet zonder dominante partijen slecht voorstelbaar.

Het is kortom maar de vraag of Google de verzamelde gegevens op oneigenlijke wijze gebruikt. Vooral de marktdominantie is problematisch. Die leidt tot een gebrek aan keuzevrijheid om al dan niet van de diensten gebruik te maken en een afnemende heterogeniteit en openheid van het internet. De problemen in de betaalde journalistiek staan ook niet los van de positie van deze bedrijven.

In de Verenigde Staten zijn er in het verleden verschillende bedrijven opgeknipt op grond van het mededingingsrecht, omdat ze een te machtige marktpositie hadden. Of dit de beste manier is om de dominantie te beperken, weet ik niet. Het lijkt politiek gezien in ieder geval heel lastig. Misschien ligt de beperking van de macht van deze jonge bedrijven wel in de ontwikkeling van een meer open, heterogener internet.

Daarvoor lijkt het mij van belang om te benadrukken dat diensten als die van Google en Facebook uiteindelijk niet gratis zijn en dat betalen voor nieuws- en informatiediensten helemaal geen gek idee is.

Fraudebestrijding

Nu de beurt aan de dataverzamelingsactiviteiten van de overheid, waarbij ik met name de fraudebestrijding van de Belastingdienst bespreek. Hier spelen andere kwesties dan bij bedrijven als Google. Vragen over markten en mededinging komen hier niet aan de orde, maar vragen over de controle van het gerechtvaardigd gebruik van de informatiepositie des te meer.

De overheid beschikt vanuit verschillende functies over immense hoeveelheden gegevens en heeft grote bevoegdheden om nog meer gegevens te verzamelen. Van essentieel belang bij het verzamelen van dusdanig grote hoeveelheden persoonlijke gegevens is het voorkomen van oneigenlijk gebruik. Inlichtingendiensten, zo weten we sinds Edward Snowden, verzamelen enorme hoeveelheden gegevens.

Voor het voorkomen van een terroristische aanval lijkt het gebruik van al die gegevens misschien te verantwoorden, maar kunnen dezelfde gegevens ook worden gebruikt voor het opsporen van belastingfraude? Dat lijkt niet te gebeuren, maar de vraag is van wezenlijk belang. De rechtvaardiging van het verzamelen van data ligt bij de toepassing van die data.

Dat gegevens al beschikbaar zijn mag geen argument zijn om ze dan ook maar voor andere doeleinden in te zetten. Deze discussie moet meer worden gevoerd, maar dat is vanwege de geheimhouding van de inlichtingendiensten bijzonder lastig. Veel vergelijkbare kwesties komen naar voren bij de fraudebestrijding van bijvoorbeeld de Belastingdienst. Ook daar is niet alles over bekend, maar zeker meer dan over de inlichtingendiensten.

Het opsporen van btw-fraude, zwartspaarders of gecoördineerde toeslagenfraude hoort bij de taak van de Belastingdienst. Terecht, want zonder goed functionerende belastinginning is een deugdelijk en rechtvaardig overheidsapparaat onmogelijk. De Belastingdienst heeft om die reden ook verregaande bevoegdheden voor het controleren van belastingplichtigen en het opvragen van gegevens die nodig zijn voor het uitvoeren van haar taak.

Rechtmatig gebruik

De vraag is of deze bevoegdheden met de opkomst van big datatechnieken niet kritischer moeten worden bekeken. Het recent uitgebrachte WRR-rapport Big data in een vrije en veilige samenleving geeft een analyse van de opkomst van de nieuwe techniek en het huidige gebruik ervan binnen de overheid. Dit lezenswaardige rapport trekt de conclusie dat de mogelijkheden van big data vooral liggen bij toepassingen die niet vooraf zijn gedefinieerd.

Om deze reden is het beperken van het verzamelen van gegevens ook direct een beperking voor de mogelijke toepassingen. De wijze waarop inlichtingendiensten communicatiegegevens verzamelen is een goed voorbeeld: het is voor het verzamelen van de gegevens niet duidelijk over welke mensen meer inlichtingen worden gezocht. De discussie moet dus vooral gaan over analyse en het gebruik van de gegevens en niet zozeer de verzameling.

Dat lijkt een sterk argument, te meer omdat de verschillende diensten van de overheid al een enorme hoeveelheid data tot hun beschikking hebben. De dienstverlenende taken van de overheid produceren al een dusdanige hoeveelheid informatie dat vooral de vraag naar rechtmatig gebruik moet worden gesteld.

Schade

Als er geen restricties voor het verzamelen van gegevens zijn, dan is het belang van inzicht in de analyse en het gebruik van die gegevens groot. Het rapport stelt vast dat er te weinig inhoudelijke kennis aanwezig is bij de toezichthouders om zicht te hebben op de analysetechnieken. Inzicht in de analyse is op dit moment beperkt, maar het gebrek aan inzicht zorgt naar mijn idee juist voor een onredelijke voorzichtigheid die ook grotendeels weg kan worden genomen. Helaas hebben de auteurs van het WRR-rapport ook te weinig technische kennis betrokken bij het rapport.

Dit zorgt bijvoorbeeld voor een niet al te sterke discussie over het gevaar van discriminatie bij de analyse van big data, een onderwerp op zich. Relevanter voor dit stuk is de discussie over het gebruik van de verzamelde gegevens en juist daar mis ik in het WRR-rapport een grondige juridische uiteenzetting.

Fraudebestrijding is bijvoorbeeld van belang, maar welke middelen mogen worden ingezet voor welk doel? Het rapport merkt op dat het complex is om vast te stellen wat de schade is bij het schenden van privacy en dat daarmee afwegingen moeilijk te maken zijn. Dat klopt, maar een verdere analyse van precies deze complexiteit is geen overbodige luxe.

De urgentie van deze vraag komt mooi naar voren in een uitspraak van de Hoge Raad over parkeergegevens die door de Belastingdienst bij het bedrijf SMSParking zijn opgevraagd. Dit bedrijf heeft een kort geding aangespannen, omdat zij deze inbreuk op de persoonlijke levenssfeer van haar klanten niet in verhouding vond staan tot het aantal fraudeurs dat met behulp van deze gegevens kon worden opgespoord. De Hoge Raad komt tot de conclusie dat de Belastingdienst de mogelijkheid heeft om deze gegevens op te vragen en dat deze relevant zijn voor een groot aantal verschillende belastingen.

Interessanter is de uitspraak van de Hoge Raad dat de rechter het niet als zijn taak ziet om de afweging tussen de persoonlijke levenssfeer en de doelmatige uitvoering van de belastinginning te maken. Wat de inbreuk op de persoonlijke levenssfeer is en hoe dit moet worden afgewogen tegen het belang van fraudebestrijding, wordt dus niet duidelijk.

Sjoemelen

In een interview met De Correspondent (12.4.2015) geeft de Algemeen directeur van de Belastingdienst, Hans Blokspoel, openheid over de wijze waarop data worden gebruikt binnen de Belastingdienst. Dergelijke transparantie over de handelswijze van de overheid is belangrijk en prijzenswaardig. In het interview wordt duidelijk dat de afwegingen over rechtmatig gebruik door de Belastingdienst zelf worden gemaakt.

“ 

Dat de afwegingen over rechtmatig gebruik door de Belastingdienst zelf worden gemaakt, is merkwaardig

 ”

In het geval van de parkeergegevens is bijvoorbeeld afgezien van het gebruiken van deze gegevens. Zelfs met het grootst mogelijke vertrouwen in de integriteit van de Belastingdienst is dit een merkwaardige situatie. Als de Hoge Raad zich niet in staat acht om deze beslissingen te toetsen, zal er meer politieke discussie moeten worden gevoerd over wenselijk en onwenselijk gebruik van data.

Twee aspecten lijken mij hierbij van belang: de ernst en de frequentie van de fraude. Is het sjoemelen met de bijtelling van een leaseauto genoeg reden voor het gebruik van alle parkeergegevens, ook als verreweg de meeste gegevens niet relevant zijn voor het vaststellen van fraude?

Bij het opsporen van een mogelijke terroristische dreiging zal een andere afweging worden gemaakt, maar ook hier kunnen ernst en frequentie een goed startpunt zijn. Deze noties kunnen misschien een begin zijn van de politieke discussie over gerechtvaardigd gebruik van gegevens door de overheid.

Scherper

De komende tijd zullen er nieuwe ontwikkelingen rondom big data blijven komen, dus het belang van deze discussie zal alleen maar groter worden. Zij zou meer moeten gaan over positieve mogelijkheden van data-toepassingen, en de controle van de machtsposities. Een scherpere discussie over nut en gevaar kunnen sturend zijn voor verdere ontwikkelingen in zowel de private als de publieke sector, want beide zijn niet ongevoelig voor het publieke debat.

Bronnen

  • L. Wu, E. Brynjolfsson, The Future of Prediction: How Google Searches Foreshadow Housing Prices and Sales, SSRN Rochester, New York 30.8. 2013.
  • D. Lazier, R. Kennedy, ‘What We Can Learn From the Epic Failure of Google Flu Trends’, Wired Magazine 10.1.2015.
  • Big Data in een vrije en veilige samenleving, Wetenschappelijke Raad voor het Regeringsbeleid (WRR-rapport nr. 95), Den Haag 28.4.2016.
  • M. Martijn, ‘Baas Belastingdienst over Big Data: “Mijn missie is gedragsverandering”’, De Correspondent 21.4.2015.