Ongelijke groepen vergelijken met voorkennis

Het theorema van Bayes (Foto: Matt Buck, Wikimedia Commons)

Hoe kun je de ontwikkeling van een zeldzame groep vergelijken met die van de normgroep?

In de statistiek geldt: hoe complexer het model, hoe groter de steekproef moet zijn om goede schattingen te verkrijgen en statistisch significante resultaten te vinden. Een voorbeeld van een complex model is een latentgroeimodel (LGM): een model om ontwikkeling te schatten waarmee ook groepen vergeleken kunnen worden. Voor onderzoeksvragen die passen bij dit model is het niet altijd mogelijk om genoeg participanten te verzamelen. Soms is de populatie beperkt of zijn er ethische overwegingen die de steekproef beperken. Bijvoorbeeld: als je de ontwikkeling van mensen met een zeldzame ziekte wilt vergelijken met de ontwikkeling van mensen die die ziekte niet hebben. Of als je de ontwikkeling van minderjarige meisjes die een moord hebben begaan wilt vergelijken met meisjes die andere delicten hebben gepleegd.

Bayesiaanse statistiek

Uit onderzoek weten we dat een speciale tak van de statistiek, Bayesiaanse statistiek, soms meer mogelijkheden biedt dan de conventionele statistiek. In de Bayesiaanse statistiek betrekken onderzoekers voorkennis ('prior informatie') bij het onderzoek.

 

Als de steekproef klein is (bijvoorbeeld om ethische redenen), dan kan de Bayesiaanse statistiek uitkomst bieden.

Specifieke voorkennis

Maar wat zijn de grenzen van gewone statistiek voor vergelijkingen tussen ongelijke groepen? En hoe ver kun je gaan met Bayesiaanse statistiek?

Om deze vragen te beantwoorden hebben M&S-onderzoekers 1000 datasets aangemaakt. Die baseerden ze op vooraf ingestelde waarden, bijvoorbeeld een klein verschil in groei tussen de groepen. Vervolgens is gekeken hoe goed de verschillende statistische methoden de waarde en statistische significantie van dit effect konden terugvinden. Wat bleek?

  • De conventionele statistiek kwam regelmatig op onmogelijke waarden uit.
  • Beide statistische methoden hadden vooral moeite met het aantonen van significantie. Pas als er hele specifieke voorkennis werd betrokken in de Bayesiaanse statistiek, werd het kleine effect vaak genoeg statistisch significant gevonden. 

Voorkennis kan een belangrijke bijdrage leveren aan statistische analyses, maar toegepast onderzoek laat zien dat deze soms lastig vindbaar is. Bovendien is het belangrijk om een besef te hebben van het effect van de voorkennis op de resultaten. Een groot verschil in voorkennis en data kan aanleiding geven tot verder onderzoek. 

Onderzoeker
Onderzoeker
Sociale Wetenschappen - Maatschappijwetenschappen - Methoden en Statistiek