Selection bias is overal

Als ik op de snelweg rijd, vraag ik me wel eens af: waarom rijdt niemand met dezelfde snelheid als ik? Ik moet constant opletten en van baan wisselen, want bijna alle andere weggebruikers zijn op te delen in twee categorieën: zij die te snel rijden en zij die te langzaam rijden. Je kent het wel. En dus ben ik de hele tijd bezig met inhalen en ingehaald worden. Zou het niet veel beter, gemakkelijker en veiliger zijn als iedereen gewoon dezelfde snelheid reed?

Ik kan me hier vaak oprecht aan ergeren. Ik weet zeker dat sommige lezers dat ook hebben. Maar dan maken we samen een nare denkfout. Het lijkt op het eerste gezicht een degelijke steekproef: tel iedere auto op de weg en kijk of hij ook netjes 120 rijdt, zoals ik. En toch klopt er iets niet: het is niet willekeurig. Je telt dan namelijk niet alle auto’s, maar alleen alle auto’s die je ziet.

Als nu een paar honderd meter achter mij ook iemand 120 rijdt, dan zie ik dat niet. En dus neem ik hem niet mee in mijn steekproef. Het kan wel zijn dat 90% van alle auto’s 120 rijdt, maar de enige auto’s die ik opmerk zijn de andere 10%. Want die kom ik tegen bij het inhalen of ingehaald worden.

Dit lijkt wellicht triviaal, maar het is een mooi voorbeeld van een denkfout die we ook in veel andere contexten maken: de selection bias. Selection bias is het probleem dat ontstaat wanneer een steekproef niet willekeurig is, terwijl je dat niet door hebt. Als je daar vervolgens conclusies uit trekt, is er geen enkele garantie dat ze ook waar zijn. Sterker nog, er is een goede reden om de conclusies te wantrouwen.

Zo ook met mijn snelweghypothese. Als ik in de berm zou staan met een lasergun, dan zou ik een willekeurige steekproef kunnen afnemen. Ik meet dan immers alle auto’s die passeren. Goed, er kan alsnog een bias in zitten als ik bijvoorbeeld alleen tijdens de spits ga staan meten. Maar de steekproef is beter, en de conclusies betrouwbaarder, dan als ik vanuit de auto observeer. Want die methode is onwillekeurig en heeft de neiging om alleen auto’s met afwijkende snelheden te meten.

Als je goed oplet, zie je de selection bias ook vaak in de media. Neem bijvoorbeeld de peilingen van Maurice de Hond of het EenVandaag opiniepanel: alleen mensen die zich hiervoor opgeven wordt gevraagd naar hun mening. En wie geeft zich op voor wekelijkse peilingen? Mensen die bovengemiddeld het nieuws volgen en hun mening willen geven – niet een willekeurig deel van de bevolking.

Je ziet het ook terug op televisie, bij programma’s over mensen met het syndroom van Down. Op TV zie je alleen Downers die leuk zijn op TV. Dat zijn de mensen met wie je een gesprek kan voeren, die leren werken, die toewerken naar zelfstandigheid. Het is mooi om te zien, maar het is natuurlijk geen willekeurige steekproef. Volgens TNO kan slechts 40% op 18-jarige leeftijd zijn veters strikken.

Ook in discussies over vluchtelingen duikt de selection bias op. De criminaliteit onder asielzoekers is bijvoorbeeld hoger dan onder de autochtone bevolking. Maar hieruit kun je niet concluderen dat asielzoekers crimineler zijn. Vluchtelingen zijn namelijk een groep mensen waarin jongeren en mannen oververtegenwoordigd zijn. En we moeten wel appels met appels vergelijken. Als je de cijfers van jonge, mannelijke asielzoekers vergelijkt met die van jonge, mannelijke autochtonen, dan zie je maar weinig verschil in criminaliteit. Sterker nog: asielzoekers zijn dan zelfs iets minder crimineel dan hun Hollandse evenknieën. Maar omdat de steekproef niet willekeurig is, zijn we geneigd de verkeerde conclusie te trekken.

Een andere recente selection bias zat in het referendum over het associatieverdrag met Oekraïne. Een meerderheid (61%) van de kiezers stemde tegen, maar er stemde slechts 32% van de stemgerechtigde bevolking. Kun je hieruit concluderen dat een meerderheid van de Nederlanders het associatieverdrag niet ziet zitten? Nee. Want bijna 70% van de bevolking is niet gaan stemmen.

Ik weet weliswaar niet wat de mening is van de niet-stemmers, maar het ligt voor de hand dat de nee-stemmers veel meer geneigd zijn om naar de stembus te gaan. Er is namelijk een grote kans dat een ‘nee’ bij het referendum door de regering terzijde wordt geschoven, waarna de wet er alsnog komt en het associatieverdrag door ons land wordt ondertekend. Ja-stemmers hadden dus minder reden om moeite te doen dan nee-stemmers, want zij zouden waarschijnlijk hun zin toch wel krijgen.

Het is daarom logisch dat vooral de nee-stemmers zouden komen opdagen, en dat zij dus zijn oververtegenwoordigd in het referendum. Dit betekent niet dat we de uitslag van het referendum nu niet serieus moeten nemen. Maar we kunnen nu ook niet kunnen concluderen dat het een goede afspiegeling is van de wil van het volk. Want dan bega je wel degelijk een denkfout.

De selection bias is overal – overal waar je kijkt.