A/B-test statistiek voor beginners

Stel je wil weten of een nieuw element op je website beter werkt dan de oude. Dan doe je een A/B-test. Je laat sommige mensen de oude versie zien (A), en andere mensen de nieuwe versie (B). Daarna kijk je: wie klikt er vaker?
Maar soms lijkt het alsof B beter is, terwijl dat gewoon toeval is. Statistiek helpt je bij je CRO om te weten of het verschil écht is, of gewoon geluk. Oftewel: is het het resultaat betrouwbaar?
Er zijn twee veelgebruikte manieren om dat te meten:
- T-test, ook wel frequentistische test genoemd
- Bayesiaanse test (ook wel Bayesian test genoemd)
.. en beide hebben hun voor- en nadelen. Spoileralert: de laatste is mijn favoriet.
- Wat t-tests en Bayesiaanse tests zijn
- Hoe je bepaalt hoeveel bezoekers je nodig hebt
- Wanneer je wel en niet moet testen
- Hoe je resultaten correct interpreteert
- Veelgemaakte fouten en hoe je ze vermijdt
Is dit conversie-optimalisatie nieuw voor je? Lees dan dit artikel eerst.
Voorbeeld met een dobbelsteen
Je gooit 60 keer met een dobbelsteen:
- Een eerlijke dobbelsteen zou 10x een 6 gooien (1 op de 6)
- Maar jouw dobbelsteen gooit 20x een 6
- ...dus je vermoedt dat de dobbelsteen vals is
T-test vraagt: "Hoe vaak zou je 20 zessen zien als de dobbelsteen eerlijk is?"
Bayesiaans vraagt: "Wat is de kans dat deze dobbelsteen vals is, gezien dit resultaat?"
Zoals je ziet is dit een fundamentele andere vraag die deze methodes stellen.
Oke, dit klinkt misschien wat ingewikkeld in het begin, maar ik weet zeker dat je het straks begrijpt. Bear with me..
Optie 1: De t-test methode (frequentistisch)
Een t-test kijkt:
"Stel dat A en B eigenlijk precies gelijk zijn, hoe vaak zou je dan toch dit soort verschil zien?"
Dat idee heet de nulhypothese. Je doet alsof er geen verschil is. En kijkt dan of je resultaat bijzonder genoeg is om dat te betwijfelen.
Als de uitkomst bijzonder is, denken we: misschien is er toch wél verschil.
Nadat je de t-test hebt uitgevoerd krijgt je als uitkomst een p-waarde. Dit is een getal tussen 0 en 1. Hoe lager de p-waarde, hoe bijzonderder je resultaat als er geen verschil zou zijn.
Wanneer de p-waarde onder de 0.05 is, noemen we het statistisch significant.
→ Stel de p-waarde is 0.03. Dan is er 3% kans dat je dit verschil (of groter) ziet door puur toeval, als er in werkelijkheid géén verschil is.
T-tests zijn handig als je veel bezoekers hebt en je vooraf alles goed kunt plannen. Maar als je werkt in een webshop met weinig verkeer, of je wilt snel dingen proberen, dan is het lastiger.
Ik leg straks nog meer uit over de t-test, maar eerst de Bayesiaanse test.
Optie 2: Bayesiaanse methode
Bayesiaans denken werkt anders. Je begint met wat je al weet, en past dat aan op basis van nieuwe data.
De vraag die Bayesiaans stelt is:
"Wat is de kans dat B beter is dan A, gegeven de data die ik tot nu toe heb gezien?"
In plaats van een p-waarde, krijg je de waarschijnlijkheid dat B beter is dan A. Bijvoorbeeld: "Er is 96% kans dat B beter is dan A."
Dit getal heet PTBB (Probability To Beat Baseline). Het is de kans dat B beter is dan A, gezien wat je tot nu toe hebt gezien.
Wat is een goed streefgetal?
Dit hangt af van hoeveel risico je wilt nemen en hoe belangrijk je wijziging is. Voor de meeste website-optimalisatie is 90-95% een goede drempel.
- Kleine tests: 80-85% kan voldoende zijn
- Normale wijzigingen: 90-95% (aanbevolen voor beginners)
- Grote veranderingen: 95%+ voor extra zekerheid
Mijn advies: Begin met 90%. Te laag (70%) geeft te veel foute beslissingen, te hoog (99%) maakt je te langzaam. Als je merkt dat je te vaak verkeerde keuzes maakt, ga naar 95%. Als je te langzaam beslissingen neemt, probeer 85%.
Mijn persoonlijke voorkeur is >90% - dit geeft een goede balans tussen betrouwbaarheid en snelheid.
Je krijgt dus antwoorden zoals:
→ B heeft 91% kans om beter te zijn dan A
→ En je krijgt ook een interval waar het verschil waarschijnlijk tussenin ligt.
→ Als je een 8,8% stijging ziet, krijg je in de praktijk dit nooit exact, maar in een bandbreedte hierom heen, zoals ergens tussen de 7 - 9%. Dat heet een credible interval.
Dat maakt het makkelijker uit te leggen aan collega's of klanten.
Een credible interval geeft aan waar het echte verschil waarschijnlijk ligt.
Voorbeeld: Credible interval van +0,5% tot +2,1%
- ✅ Betekenis: Het verschil ligt met 95% zekerheid tussen +0,5% en +2,1%
- ✅ In mensentaal: "B is waarschijnlijk tussen de 0,5% en 2,1% beter dan A"
- ✅ Positief interval: Gaat niet door nul, dus B is zeer waarschijnlijk beter
- ❌ Probleem: Gaat door nul (-0,3% tot +1,8%)
- ❌ Betekenis: B kan ook 0,3% slechter zijn dan A
- ❌ Actie: Langer testen voor meer zekerheid
Spiekbriefje: de T-test vs Bayesiaans
Aspect | T-test | Bayesiaans |
---|---|---|
Vraag die het beantwoordt | Hoe zeldzaam is dit resultaat als er géén verschil is? | Kans dat B echt beter is dan A |
Uitkomst | p-waarde (bijv. 0,03) | PTBB (Probability To Beat Baseline), bijv. 94% |
Tussendoor kijken (peeking) | ❌ Zeer risicovol zonder aanpassingen | ⚠️ Mogelijk, maar niet risicovrij |
Vooraf plannen | ✅ Sample size berekenen aanbevolen | ⚠️ Minder strikt, maar planning helpt |
Uitleggen aan collega's | ❌ Moeilijk | ✅ Makkelijk |
Gebruikt bij | Wetenschap, medische studies | Websites, marketing, CRO |
Hoewel Bayesiaanse methoden flexibeler zijn, is vroeg stoppen ook hier niet helemaal risicovrij. Voor de meest betrouwbare resultaten is het beter om van tevoren te bepalen wanneer je stopt, ongeacht de methode.
Tip: in deze sectie lees je welke methode je moet kiezen voor een A/B test.
Voordat je gaat A/B testen, een paar belangrijke zaken:
Wanneer geen A/B test?
- Minder dan 75 conversies per week hebt
- Heel subtiele verschillen test (blauw vs donkerblauw knop)
- Test tijdens Black Friday, vakantie of andere bijzondere periodes
- Je eigenlijk al hebt besloten wat je gaat doen (ongeacht uitkomst)
Hoeveel bezoekers heb je nodig?
Dit hangt af van verschillende factoren: je baseline conversie, het verschil dat je wilt meten, en hoeveel zekerheid je wilt. Er zijn geen universele regels en het wisselt of je de t-test of Bayesiaanse methode gebruikt.
Hoeveel bezoekers bij t-test?
- Je moet vooraf berekenen hoeveel bezoekers je nodig hebt, de sample size.
- Je kunt dus niet een A/B test starten en dan random bepalen wanneer je de test stopt.
- Je mag de test pas stoppen als je de sample size bereikt hebt.
- MDE: Kleinste verschil dat je wilt meten (bijv. 1%)
- Power: Kans dat je een echt verschil vindt (meestal 80%)
- Alpha: Kans op vals positief resultaat (meestal 5%)
- Baseline conversie: Je huidige percentage
Tip: gebruik de Pre-Test Power Calculator om deze berekeningen te maken.
Hoeveel bezoekers bij Bayesiaans?
Bayesiaanse methoden zijn flexibeler, maar hebben nog steeds richtlijnen nodig. De vereiste sample size hangt af van je baseline conversie, het effect dat je wilt meten, en je gewenste zekerheid.
- Algemene vuistregel: 100-500 conversies per variant (afhankelijk van effect size)
- Bij lage baseline conversies (<2%): meer data nodig
- Bij hoge baseline conversies (>10%): minder data nodig
- Hoe kleiner het verschil dat je wilt meten, hoe meer data je nodig hebt
- Bij weinig verkeer kun je langer testen of grotere verschillen zoeken
Wanneer is een A/B test klaar, en mag je deze stoppen?
Dit is wederom afhankelijk van de methode die je kiest.
Wanneer stop je een t-test?
- Je mag niet tussendoor naar de test kijken en stoppen zodra het er goed uitziet (dat heet "peeking"). Dan maak je sneller fouten. Het lijkt dan alsof er een verschil is, terwijl dat door toeval komt.
- Je moet vooraf berekenen hoeveel bezoekers je nodig hebt. Dat hangt af van MDE en power.
- Je moet vaak de test afmaken, ook als het verschil er halverwege al mooi uitziet. Want anders vergroot je de kans op fouten. Je mag het niet halverwege stoppen.
- Test minimaal 1 complete week
- Stop pas als je vooraf bepaalde sample size bereikt is
T-tests worden veel gebruikt in de wetenschap. Ze zijn streng en precies. Maar daardoor ook minder flexibel.
Wanneer stop je een Bayesiaanse test?
- Laat de test minstens 7 dagen lopen (want gedrag is anders in het weekend)
- Bepaal je eigen grens voor PTBB op basis van risk appetite (meestal 90-95%)
- De credible interval moet positief zijn, dus niet een negatief getal bevatten.
- Zorg voor voldoende conversies (afhankelijk van baseline en gewenst effect)
- Let op de spreiding van het credible interval. Als dat heel breed is, weet je nog niet zo veel. Dan moet je langer testen.
- Ook bij Bayesiaans: wees voorzichtig met te vaak kijken en stoppen op gunstige momenten
Tip: gebruik mijn Bayesian Test Calculator om deze berekeningen te maken.
Veelgemaakte fouten tijdens een A/B test
1) Fouten bij t-tests:
- Peeking: Tussendoor kijken en stoppen bij een "mooi" resultaat. Dit verhoogt de kans op foute conclusies (type 1 fout).
- Te kleine sample size: Vooraf niet goed berekend hoeveel bezoekers je nodig hebt.
- Stoppen voor planned end: Test afbreken voordat je geplande aantal bezoekers bereikt is.
- Multiple testing: Meerdere doelen tegelijk testen zonder correctie.
2) Fouten bij Bayesiaans:
- Te vroeg stoppen: Bij 85% waarschijnlijkheid (PTBB) dat B beter is dan A, denken dat het genoeg is (hangt af van je risk appetite).
- Interval negeren: Alleen naar PTBB kijken, niet naar of het credible interval dat mogelijk te groot of te laag is.
- Te weinig data: Conclusies trekken met onvoldoende conversies voor betrouwbare resultaten.
3) Algemene timing fouten (beide methodes):
- Test stoppen na onvolledige week: Weekend-gedrag verschilt. Test altijd complete weken. Test maandag tot en met zondag, en niet maandag tot en met donderdag.
- Testen tijdens events: Black Friday, nieuws, campagnes verstoren resultaten.
- Te korte test: Minder dan 7 dagen geeft onbetrouwbare resultaten.
4) Sample Ratio Mismatch (SRM) (beide methodes)
Wat is SRM?
Je wilt je bezoekers eerlijk verdelen tussen A en B in een 50%/50% verhouding. Als je test klaar is, en de verhouding is niet meer 50/50, maar bijvoorbeeld 40/60, dan kan dat SRM zijn. Dit lijkt klein, maar kan je hele test verpesten.
Voorbeeld van SRM:
Variant | Verwacht | Werkelijk | Probleem? |
---|---|---|---|
A | 5.000 (50%) | 4.600 (46%) | 🚨 Ja! |
B | 5.000 (50%) | 5.400 (54%) | 🚨 Ja! |
- Je test is waarschijnlijk kapot - technische fout
- Resultaten zijn onbetrouwbaar
- Kan leiden tot verkeerde business beslissingen
Veelvoorkomende oorzaken SRM:
- Bot traffic: Bots zien alleen variant A
- Caching problemen: Variant B laadt niet altijd
- Redirect issues: Sommige users komen niet bij variant B
- JavaScript errors: Variant B crasht bij bepaalde browsers
- Cookie/tracking problemen: Gebruikers worden dubbel geteld
Hoe check je SRM?
- Kijk altijd eerst naar je traffic verdeling voordat je resultaten interpreteert
- Gebruik een chi-squared test om te bepalen of de afwijking statistisch significant is (niet gewoon een percentage-grens)
- Veel A/B tools doen dit automatisch, zoals mijn Bayesian Test Calculator
- Bij kleine samples kunnen grotere afwijkingen normaal zijn, bij grote samples zijn kleine afwijkingen al verdacht
Een "2-3% afwijking" regel klopt niet altijd. Bij kleine tests kan 5% afwijking normaal zijn, bij grote tests kan 1% afwijking al een probleem zijn. Gebruik statistische tests om SRM te detecteren.
Wat doe je bij SRM?
- Stop de test, gooi de data weg
- Los de technische problemen op
- Start een nieuwe test
Hoe interpreteer je resultaten van een A/B test?
Resultaten correct uitleggen
Bij t-tests, zeg NIET:
- "Het is significant" ❌
- "B is waarschijnlijk beter dan A" ❌ (p-waarden zeggen dit niet!)
Zeg WEL:
- "Het verschil is statistisch significant (p=0,03)"
- "Als er geen verschil is, zien we dit resultaat 3% van de tijd door toeval"
- "Het verschil is opvallend genoeg om verder te onderzoeken"
- "We hebben sterke aanwijzingen dat er een verschil is"
Bij Bayesiaans, zeg NIET:
- "B is 10% beter" ❌
- "Het verschil is statistisch significant (p=0,03)" ❌
Zeg WEL:
- "B heeft 94% kans om beter te zijn dan A"
- "Het verschil ligt waarschijnlijk tussen +0,5% en +2,1%"
- "Er is een kleine kans dat B slechter is, maar het verschil lijkt positief"
P-waarden betekenen NIET "de kans dat B beter is dan A." Dit is een van de meest gemaakte fouten in A/B testing. P-waarden vertellen alleen hoe zeldzaam je resultaat is als er geen verschil zou zijn.
Statistical vs Practical Significance
Dit wordt vaak vergeten maar is cruciaal:
Statistical significant = verschil waarschijnlijk niet door toeval
Practical significant = verschil groot genoeg om waarde te hebben
Scenario | Statistical | Practical | Actie |
---|---|---|---|
0,05% verbetering, p=0,001 | ✅ Significant | ❌ €250 extra per maand | Niet implementeren |
2% verbetering, p=0,04 | ✅ Significant | ✅ €10.000 extra per maand | Wel implementeren |
Vuistregel: Meet altijd de euro-impact, niet alleen percentages.
Als je meerdere dingen tegelijk test (verschillende metrics, of A/B/C tests), wordt de kans op foute conclusies groter. Dan heb je mogelijk correcties nodig. Vraag hierover advies aan een statisticus als je dit veel doet.

Ontvang als eerste mijn nieuwste blogs:
Voorbeelden uit de praktijk
T-test voorbeeld: nieuwe checkout knop
Je test een nieuwe checkout knop. Je wilt een verschil van 1% kunnen meten (van 8% naar 9%).
T-test planning fase:
- MDE: 1 percentage punt
- Power gewenst: 80%
- Alpha: 5%
- Sample size nodig: ±5.000 per variant
- Bij 500 bezoekers/dag duurt test: 20 dagen
- Regel: Niet tussendoor kijken!
Na exact 20 dagen (zoals gepland):
Variant | Bezoekers | Aankopen | Conversie % |
---|---|---|---|
A (oude knop) | 5.000 | 400 | 8,0% |
B (nieuwe knop) | 5.000 | 465 | 9,3% |
T-test resultaten:
- p-waarde: 0,019 (statistisch significant onder 0,05)
- Uitleg: "Als er geen verschil is, zouden we dit resultaat 1,9% van de tijd zien door toeval"
- Betrouwbaarheidsinterval: +0,4% tot +2,2%
- Conclusie: Statistisch significant verschil gevonden
Bayesiaans voorbeeld: dezelfde checkout knop
Bayesiaans planning fase:
- Doel: voldoende conversies voor betrouwbare resultaten
- Plan: kijken na 7 dagen, dan elke paar dagen
- Voorzichtigheid: Ook hier planning helpt voor betrouwbaarheid
Na 14 dagen (flexibel gestopt):
Variant | Bezoekers | Aankopen | Conversie % |
---|---|---|---|
A (oude knop) | 3.500 | 280 | 8,0% |
B (nieuwe knop) | 3.500 | 325 | 9,3% |
Bayesiaans resultaten:
- PTBB: 92% (kans dat B beter is dan A)
- Uitleg: "Er is 92% kans dat de nieuwe knop beter is"
- Credible interval: +0,2% tot +2,4%
- Interval betekenis: "Het verschil ligt met 95% zekerheid tussen +0,2% en +2,4%"
- Beslissing: 92% PTBB + positief interval = implementeren! (met jouw 90% grens)
Aspect | T-test | Bayesiaans |
---|---|---|
Planning | Uitgebreide voorberekening | Flexibeler, maar planning helpt |
Testduur | 20 dagen (vast) | 14 dagen (flexibel) |
Bezoekers gebruikt | 10.000 totaal | 7.000 totaal |
Conclusie | "Statistisch significant" | "92% kans dat B beter is" |
Uitleg aan collega's | Moeilijk (p-waarde concept) | Makkelijk (directe kans) |
Welke statistische A/B test methode kiezen?
Dit is afhankelijk van je doel en hoe je wilt testen. Maar over het algemeen is Bayesiaans makkelijker en flexibeler.
Kies t-test als je:
- Werkt in wetenschappelijke omgeving - Universiteiten, onderzoeksinstituten
- Resultaten moet publiceren - Peer-reviewed papers, rapporten
- Veel verkeer hebt - Duizenden bezoekers per dag
- Strikte protocollen moet volgen - Medische studies, regulatoire eisen
- Van tevoren alles kunt plannen - Vaste budgetten, lange doorlooptijden
- Conservatief wilt zijn - Liever geen fouten maken
Tools voor t-tests: Excel, SPSS, R, Python (SciPy), Stata
Kies Bayesiaans als je:
- Flexibel wilt kunnen stoppen - Snel kunnen bijsturen
- Resultaten makkelijk wilt uitleggen - Aan management, collega's
- Werkt aan websites/marketing - E-commerce, SaaS, advertising
- Beperkt verkeer hebt - Minder dan 1000 bezoekers/dag
- Snel wilt itereren - Veel kleine tests, agile werken
- Pragmatisch bent - Business results belangrijker dan academische precisie
Tools voor Bayesiaans: VWO, Convert, ABsmartly, Optimizely
Gebruik niet beide methodes op dezelfde data. Dat leidt tot verwarring en verkeerde conclusies. Bepaal vooraf welke methode je gebruikt en houd je daaraan.
Mijn advies: Voor 90% van de website-optimalisatie is Bayesiaans makkelijker en praktischer. Alleen als je écht academische strengheid nodig hebt, kies dan t-test.
Veelgestelde vragen
→ Wat als ik weinig verkeer heb?
Test dan grotere verschillen (makkelijker te meten), test langer, of gebruik Bayesiaans (flexibeler).
→ Mag ik meerdere varianten testen (A/B/C)?
Kan, maar bij t-tests moet je corrigeren voor multiple testing. Bij Bayesiaans is het soepeler, maar wees voorzichtig.
→ Wat betekent "underpowered"?
Te weinig data om betrouwbare conclusies te trekken. Je mist echte verschillen.
→ Waarom mag peeking niet bij t-tests?
Het verhoogt de kans op Type I fouten (ten onrechte concluderen dat er een verschil is), zie ook Wikipedia.
→ Kan ik beide methodes tegelijk gebruiken?
Technisch wel, maar verwarrend. Kies één methode en houd je daaraan.
Verdere leesstof
Dit is een eerste introductie in de statistiek achter A/B tests. Er zijn veel meer dingen te leren. Hier zijn enkele goede bronnen:
- Calculators: Sample Size Calculator (T-test), Bayesian Test Calculator
- Boeken: "Trustworthy Online Controlled Experiments" (Kohavi)
- Courses: A/B testing statistics course (CXL Institute)
- Blogs: CXL Institute, Nielsen Norman Group
Ga je zelf met CRO bezig? Dan vind je deze artikelen vast ook interessant:
- De ultieme heatmap gids
- Te weinig bezoekers om te kunnen A/B testen? Geen probleem
- Website redesign: radicale vs. evolutionair redesign methode
- Boost je conversie met slimme camerahoeken van je productfoto's
- De conversie-optimalisatie piramide
- Headlines schrijven: 10 tips voor een goede headline
Ben je een (marketing) manager en wil je meer weten over CRO?
Dan heb ik meerdere artikelen geschreven die vast verder op weg helpen.
- Conversie-optimalisatie: bureau, freelancer of zelf doen?
- 25 CRO-vragen die iedere marketing manager stelt (en de eerlijke antwoorden)
- Wat kost conversie-optimalisatie?
- Conversie-optimalisatie KPI's voor managers
Hulp nodig? Ik help CRO teams als coach of specialist met 'de voeten in de klei'
Gijs heeft meer dan 16 jaar ervaring in het verhogen van conversies als freelance CRO specialist.
Hij combineert zijn expertise in psychologie, statistiek, development, UX design en projectmanagement om alles uit CRO te halen.
Met een track record van meer dan 6.000 uitgevoerde A/B tests is hij een van Nederlands meest ervaren conversie specialisten.
Sinds 2013 is Gijs CXL Certified, een internationaal erkend certificaat voor conversie-optimalisatie.
Gijs is winnaar van de WhichTestWon Award, een internationaal erkend onderscheiding voor conversie-optimalisatie.
Dit is wat zijn klanten over hem zeggen, en dit is het verhaal van Gijs.
