Respons bij onderzoek: hoeveel ingevulde vragenlijsten heb je nodig?
Om klantbeleving in kaart te brengen, wordt vaak gebruik gemaakt van kwantitatief onderzoek. Een online vragenlijst opstellen vergt de nodige aandacht (lees hier meer over het opstellen van een goede vragenlijst), maar is vervolgens snel verstuurd. Deze vorm van onderzoek maakt het mogelijk om in relatief korte tijd feedback op te halen bij je doelgroep over je producten of dienstverlening.
Regelmatig krijg ik de vraag: hoeveel respons (aantal ingevulde vragenlijsten) heb ik dan eigenlijk nodig? Wanneer is het genoeg om betrouwbare inzichten te verzamelen? Een hele goede en belangrijke vraag. In dit artikel beantwoord ik ‘m!
Betrouwbaarheid bij kwantitatieve onderzoeksresultaten
Voordat we ingaan op de ideale respons bij onderzoek, zoomen we eerst even in op het begrip betrouwbaarheid. Wat bedoelen we daar eigenlijk mee?
In kwantitatief onderzoek komen vaak de termen ‘validiteit’ en ‘betrouwbaarheid’ voorbij als het gaat om de kwaliteit van het onderzoek. Beiden belangrijke begrippen, die met elkaar te maken hebben, maar tegelijkertijd heel verschillend zijn.
Bij validiteit gaat het er om, of je met je onderzoek meet wat je beoogt te meten. Met andere woorden: leg je met de vragen die je stelt de juiste dingen vast om het concept te meten dat je wilt meten? Stel je voor dat je onderzoek doet naar de gemiddelde lengte van 400 studenten in een collegezaal. Als ik daartoe de studenten onder een meetlat zet, dan meet ik op een goede manier hetgeen wat ik wil meten. Maar als ik hun schoenmaat meet, dan is het onderzoek niet valide. Omdat ik niet de juiste indicatoren verzamel om te meten waar je naar op zoek bent.
Betrouwbaarheid gaat er om, of je onderzoek zo is opgezet dat je bij elke nieuwe meting dezelfde resultaten krijgt. Met andere woorden: is het onderzoek consistent? Als de meting betrouwbaar is, dan krijg je elke keer dat je het onderzoek doet dezelfde uitkomsten. Stel je voor: je wilt van een collegezaal van 400 studenten weten hoe lang ze gemiddeld zijn. Je kunt willekeurig een groep studenten uit de zaal onder een meetlat zetten, en daaruit leer je dat hun lengte gemiddeld 1.78 m is. Als je een week later wederom een groep willekeurige studenten meet (en je onderzoek is betrouwbaar), dan kom je op dezelfde gemiddelde lengte als de week ervoor. Een betrouwbare meting is dus stabiel en herhaalbaar. Als je elke keer tot een andere gemiddelde lengte komt, dan meet je misschien wel het juiste (dus je meting is valide), maar blijkbaar is de meting niet betrouwbaar want je komt steeds op een ander resultaat.
Onderstaand plaatje geeft goed weer waarom beide zaken belangrijk zijn in je onderzoek. De roos van het ‘dartboard’ geeft weer wat je wilt meten. Alleen bij het voorbeeld rechtsonder gaat dat goed en wordt er valide en betrouwbaar gemeten.
Betrouwbaarheid in relatie tot het aantal waarnemingen dat je doet.
Nu we weten wat betrouwbaarheid is, is het niet al te lastig om de stap naar het belang van voldoende waarnemingen (of ingevulde vragenlijsten) te maken.
Stel je weer de collegezaal met studenten voor. Als ik elke week 10 studenten opmeet, dan is het niet zo gek dat het gemiddelde dat eruit komt wekelijks flink kan verschillen. Ik hoef maar net toevallig 4 lange studenten in dat groepje van 10 te treffen, en mijn gemiddelde schiet flink omhoog. Het risico dat er door toeval of eenzijdigheid van de ‘respondenten’ een vertekend beeld ontstaat is groot. Als ik elke week wat meer studenten opmeet, dan is de kans kleiner dat ik door een paar uitschieters een meting doe die ver van het daadwerkelijke gemiddelde ligt.
Bij kwantitatief onderzoek hangt de betrouwbaarheid dus af van de grootte van de steekproef. Dus het aantal waarnemingen dat je verzamelt. Waarbij geldt: hoe meer waarnemingen, het betrouwbaarder je meting wordt.
Hoeveel respons moet je dan verzamelen in je onderzoek?
We weten nu dat een (te) kleine steekproef toevallige uitschieters kan bevatten, waardoor de resultaten minder representatief en dus minder betrouwbaar zijn. Een grotere steekproef verkleint de kans op dat soort toevalstreffers en geeft een nauwkeuriger beeld.
Je zou kunnen denken: ondervraag dan gewoon iedereen. Dan weet je zeker dat je resultaat exact spot-on is. Dat is leuk bedacht op papier, maar in praktijk is dat natuurlijk vaak niet mogelijk. Daarbij is het ook gewoon niet (kosten)efficiënt en ook echt niet nodig. Door een deel van je populatie te ondervragen, kun je prima een betrouwbare inschatting maken van de daadwerkelijke score/situatie van je populatie.
Maar hoeveel heb je er dan nodig? Er zijn slimme, statistische formules om dat te bepalen. Het gaat te ver om hier diep de statistiek in te duiken, maar het is wel goed om even uit te leggen waar in die formules rekening mee gehouden wordt:
- Hoe groot is je populatie? Dus hoeveel mensen bevat je doelgroep waarvan je iets wilt weten? In ons voorbeeld was de populatie 400 (de 400 studenten). Een lokale supermarkt heeft wellicht een paar duizend klanten. Terwijl een landelijke, grote organisatie honderdduizenden klanten heeft. Hoe groter je populatie, hoe groter het aantal waarnemingen en dus de respons is die je nodig hebt.
- De nauwkeurigheid waarop je de resultaten wilt hebben. Hoeveel marge accepteer je? Accepteer je in ons voorbeeld van de studenten een uitkomst die 2cm van het gemiddelde afwijkt? Of is het belangrijk dat je de gemiddelde lengte exact, tot op een cijfer achter de komma, weet? In bijv. medische studies is het belangrijk dat deze ‘foutmarge’ heel klein is. Vaak wordt in klantonderzoek een foutmarge van 5% gehanteerd.
- Hoe zeker wil je zijn dat elke meting representatief is? Wil je dat je bij (nagenoeg) alle herhaalde metingen hetzelfde juiste gemiddelde meet? Bij klantonderzoek is dat wat minder kritisch en accepteren we altijd een bepaalde ‘marge’ van afwijking. Een stelregel in onderzoek is om 95% betrouwbaarheid aan te houden. Dat betekent dat als je het onderzoek 100 keer zou herhalen, je 95 keer dezelfde resultaten krijgt.
- Hoeveel variatie bestaat er in antwoorden? Als iedereen in de collegezaal tussen de 1.70 en 1.75 is, dan heb je minder mensen nodig om het gemiddelde te benaderen, dan wanneer de mensen in de zaal tussen de 1.50 en 2.00m zijn. Met andere woorden: als je verwacht dat iedereen ongeveer hetzelfde antwoord geeft, kun je met een kleinere steekproef uit de voeten. Vaak weet je dat alleen niet, en ga je uit van een aanname.
Het is nogal een toer om met zo’n formule aan de slag te gaan, zeker als je niet persé smult van statistiek. Het goede nieuws is, dat er in marktonderzoek vaak gewerkt wordt met bepaalde ‘default’ waarden voor zaken als de nauwkeurigheid en zekerheid. Dat wil zeggen: we accepteren een kleine foutmarge, werken met de algemeen geaccepteerde 95% betrouwbaarheid en we gaan uit van een gemiddelde variatie/spreiding in antwoorden in de populatie. Bovenstaande punten 2, 3 en 4 kunnen we daarmee in die ingewikkelde formule invullen. En met die gegevens wordt de formule gelijk een stuk eenvoudiger. Het geeft ons de mogelijkheid om vuistregels te bepalen als het gaat om het aantal waarnemingen voor ons onderzoek. De enige variabele die we daar wel nog voor nodig hebben, staat in het eerste punt: de populatiegrootte.
Hoe definieer je je onderzoekspopulatie?
De populatie-omvang is dus eigenlijk het enige dat je moet bepalen. Maar wat verstaan we daar precies onder? De populatie is de groep mensen waar je een uitspraak over wilt doen. Het is belangrijk om dat duidelijk af te bakenen. Dus: gaat het om alle klanten van je bedrijf? Of gaat het om alle klanten die in de afgelopen 12 maanden een aankoop hebben gedaan? Doe je een onderzoek onder alle medewerkers van je bedrijf? Of alle medewerkers met een vast contract die minimaal 1 jaar in dienst zijn?
Mocht je in je uiteindelijke analyse van het onderzoek een vergelijking willen maken tussen subgroepen, bijvoorbeeld tussen mannen en vrouwen, dan zijn dat geen aparte populaties. De totale populatie blijft hetzelfde, maar het is wel belangrijk om in de gaten te houden dat je voldoende waarnemingen hebt voor beide groepen.
Rekenen maar!
Heb je je populatie scherp en weet je hoeveel mensen het ongeveer betreft, dan kun je berekenen hoe groot de steekproef is die je nodig hebt.
Daarmee zijn we heel snel klaar, als we het hebben over grote populaties. Er treedt vanaf een bepaald punt namelijk een soort ‘verzadiging’ op. Meer waarnemingen voegen dan niet veel meer toe. Dat betekent dat je bij een populatie van 10.000 of 100.000 of 1.000.000 in principe met hetzelfde aantal waarnemingen af kunt. Uitgaande van de eerdergenoemde standaardwaarden zijn dat er zo’n 400.
Is de populatie kleiner dan 10.000, dan hebben we wel een formule te vullen, waarbij de specifieke omvang van de populatie een rol speelt.
Deze formule is voor elke populatiegrootte in te vullen. Als we ‘m bijvoorbeeld voor onze populatie van 400 studenten berekenen, komen we op een gewenst aantal waarnemingen van 196. Gaan we uit van een populatie van 5.000 mensen, dan komen we uit op 357 benodigde waarnemingen.
Overigens rekenen we in deze formule met een heel ‘veilige’ aanname qua verwachte variatie in de antwoorden. Vaak is dat onnodig veilig en kun je met een wat kleine steekproef af.
Benodigde respons: een praktische richtlijn
Om niet steeds de rekenmachine erbij te hoeven pakken, heb ik deze rekensommen vertaald in een vuistregel voor de benodigde steekproefgrootte op basis van je populatiegrootte. Daarbij ben ik in de basis uitgegaan van de genoemde standaardwaarden voor betrouwbaarheid en foutmarge, en heb ik zowel een veilige (strenge) als ook een iets minder ‘veilige’ aanname qua variatie in antwoorden meegenomen.
En hierbij ga ik er natuurlijk vanuit dat de steekproef die je benadert voor het onderzoek volledig willekeurig wordt geselecteerd. Je kunt je voorstellen dat je er in het geval van de lengte-meting van de 400 studenten niet goed aan doet om alleen de mannen op te meten. Of alleen de mensen die op de voorste 3 rijen in de collegezaal zitten. De vuistregels gaan dus alleen op, als de steekproef (nagenoeg) willekeurig is.
- Zeer kleine populaties, tot 50 mensen: probeer (bijna) iedereen te bevragen
- Populatie tussen 50 en 200: ondervraag 60%-75%
- Populatie tussen 200 en 500: ondervraag 35%-50%
- Populatie tussen 500 en 1000: ondervraag 25% tot 40%
- Populatie tussen 1000 en 5000: ondervraag 10%-20%, met een minimum van 250
- Populaties groter dan 5000: ondervraag minimaal 400 respondenten
Zoals eerder genoemd is een aanvullende vuistregel, dat je voor het vergelijken van subgroepen binnen je onderzoek (bijvoorbeeld mannen en vrouwen) uit moet gaan van ongeveer n=100 per subgroep bij niet al te ingewikkelde statistische analyses. Hou daar rekening mee bij het bepalen van de benodigde respons.
Maar wat nou als je niet genoeg respons kunt verzamelen?
Het is goed om te weten hoeveel respons je nodig hebt voor betrouwbaar onderzoek, maar het daadwerkelijk verzamelen daarvan is natuurlijk stap 2.
In dit artikel lees je tips & trucs om zoveel mogelijk respons te verzamelen.
Het zal niet altijd lukken om de genoemde aantallen zoals die hierboven staan te realiseren. Lukt het toch niet om voldoende ingevulde vragenlijsten te verzamelen? Geen paniek! Je onderzoek is nog steeds waardevol. Een aantal tips:
- Focus je niet te veel op de exacte cijfers, maar kijk vooral naar trends in je data. Minder data maakt het toepassen van statistiek lastig, maar kan nog wel steeds patronen (doen we het steeds iets beter of lijkt er een dalende trend zichtbaar?) en verbeterpunten inzichtelijk maken.
- Werk met voortschrijdende resultaten. Het kan weliswaar niet mogelijk zijn om per meting goed te analyseren en rapporteren vanwege een te klein aantal waarnemingen, maar als je een paar metingen bij elkaar optelt kom je vaak een heel eind. Analyseer bijvoorbeeld bij een maandelijks onderzoek elk kwartaal over de voorgaande 3 maanden tezamen. Bouw dus je data op over de tijd en verzamel zo wel voldoende respons.
- Verzamel aanvullende kwalitatieve feedback, bijvoorbeeld via interviews, focusgroepen op klantarena’s. Dit geeft verdiepende context en duiding aan je kwantitatieve data.
Buro Improof helpt je om betrouwbare data te verzamelen!
Bij Buro Improof helpen we je graag met het opzetten en uitvoeren van valide en betrouwbaar kwantitatief onderzoek. Onze pragmatische aanpak zorgt ervoor dat je snel kunt schakelen en direct waardevolle inzichten krijgt.
Ben je op zoek naar advies of wil je aan de slag met het verzamelen van klantdata? Neem contact met ons op. Samen zorgen we ervoor dat jouw CX-data niet alleen betrouwbaar is, maar ook direct toepasbaar!