MediaMessage

Detectie van subjectiviteit in nieuwsartikelen

We leven in een ‘infodemie’ waarin veel informatie vanuit verschillende bronnen en oogpunten ons bereikt. Maar hoe weet je welke informatie betrouwbaar is? Om dit te kunnen beoordelen is kennis en ervaring nodig in het herkennen van subjectiviteit in tekst.

Binnen dit project ontwikkelen we een tool om (nieuws)artikelen te checken op subjectiviteit in taal. De tool wordt getraind met historische data van tekstaanpassingen van Wikipedia artikelen. Dagelijks werken er namelijk duizenden editors aan het objectiever maken van Wikipedia artikelen, waardoor deze data goed bruikbaar is. De MediaMessage tool geeft hiermee inzicht in subjectiviteit in tekst en de mechanismen die hierin een rol spelen. 

Van Dale omschrijft desinformatie als ‘be­drieg­lij­ke schijn­in­for­ma­tie die fei­ten al dan niet moed­wil­lig ver­draait of ver­valst’

Desinformatie kan met de beste bedoelingen bias bevatten. Hebben we daarom niet meer verschillende ‘oogpunten’ nodig? 

Dagelijks komen we in aanraking met technologie. Die technologie heeft veel invloed op de manier waarop wij de wereld tot ons laten komen en hoe we de wereld zien. De mensen die de technologie maken en trainen hebben hierdoor een grote macht over onze blik op de wereld gekregen. Om meer te weten over hoe onze blik op de wereld wordt gevormd door technologie moeten we meer te weten komen over hoe die algoritmen gemaakt zijn en wie ze in wezen ‘opvoedt’. 

Een van de mediatheorieën die mij steeds het meest blijft fascineren is die van Marshall MacLuhan: The Medium is the Massage”. Hierin wordt beschreven dat een medium meer invloed heeft op de mens dan de boodschap die het medium brengt. Het medium “masseert” ons als het ware. 

Kijk maar  naar het medium internet, met zijn algoritmes zoals recommendation systems, filter bubbles en ‘best gelezen’ artikelen die in een oneindige stroom op ons afkomen, waarin worden we dan gemasseerd en wiens ideeën en beelden worden ons dan ingemasseerd? 

Daarnaast ook de vraag: Wie bezit de data, informatie en de algoritmen op het internet? 

Op belangrijke informatie-platforms als Wikipedia is het grootste deel van de artikelen geschreven door hoogopgeleide witte mannen. Wikipedia heeft miljoenen biografieën, maar slechts 20% daarvan gaan over vrouwen. Dit heeft niet alleen met het aanbod van vrouwelijke verdiensten te maken, maar ook met wie bepaalt welke onderwerpen relevant zijn en wie die artikelen mag en kan schrijven. 

Dit is een groot probleem, niet alleen voor de gebruiker van Wikipedia maar ook voor Wikipedia als platform. 

Wikipedia doet er namelijk alles aan om een zo ‘neutraal mogelijk oogpunt’ van informatievoorziening te creëren. De editors zijn zo ook gebonden aan strikte regels. Wikipedia heeft 19 miljoen pageview per maand in NL. Op deze manier worden de ideeën, wereldbeelden en zienswijzen van 90% mannelijke editors keer op keer bekrachtigd in de hoofden van de lezers.

Ja, we hebben meer gezichtspunten nodig, in de data, maar ook in de manier waarop we algoritmen trainen en evalueren. Deze beide zaken bepalen sterk hoe informatie tot ons komt en welke informatie überhaupt getoond wordt en als ‘de norm’ wordt gezien. 

Als we weten dat bias meespeelt in de blik op de wereld die wij ons vormen, en we weten hoe we dit beeld kunnen nuanceren, voldoet gender bias denk ik aan de omschrijving van Van Dale van desinformatie. 

Vanuit het onderzoek naar subjectiviteit versus objectiviteit in nieuwsberichten binnen MediaMessage liepen wij tegen de sterke gender bias in de Wikipedia artikelen aan (Wikipedia wordt maandelijks 149 miljoen pageviews per maand). Deze artikelen en hun edits gebruikten we om een algoritme te trainen dat subjectiviteit kan detecteren. Maar als je een algoritme op door mannen gecreëerde data traint, heb je alsnog een male-subjectivity bias in het algoritme. Deze mechanismen spelen sterk mee in onze informatievoorziening. 

Het in kaart brengen van dit soort mechanismen is belangrijk.

”Gemiddeld zoekt een Nederlander 8,8 keer per maand iets op op Wikipedia. Elke keer zou er een meer diverse blik mogelijk zijn. Maar zolang dezelfde mensen de teksten blijven schrijven en editen, blijft hetzelfde wereldbeeld in stand.”

Oplossing: De kip en het ei

We moeten kijken naar de manieren waarop we deze sterke gender en racial bias in algoritmen kunnen oplossen. Dit moet meerledig gebeuren: 

Toegang tot middelen:

  • Data: Data creatie moet diverser gemaakt worden. We moeten niet alleen van historische data leren, maar ook vooruit kijken naar welke data we in de toekomst willen gebruiken en hoe die data onze samenleving representeert. 
  • Bewustwording: Developers en andere tech-beslissers moeten van een meer pluriforme achtergrond komen, een weerspiegeling van onze maatschappijen worden. 
  • Beleid: Er moet betere en bredere wetgeving komen om algoritmen te gidsen en te handhaven. Dit is een kritiek punt dat we de komende tijd veel aandacht moeten geven. In Amerika zijn er al veel rechtszaken om discriminatie in algoritmen aan te pakken. 

Dit kunnen we actief beter doen. Door deze problemen actief en moedig te bespreken als we zien dat ze zich voordoen. Door mensen op te leiden, door mensen een spiegel voor te houden en door mensen niet uit maar in te sluiten. Ook als dat soms niet direct strookt met business cases en geldende structuren.