Zowaar weer eens een boekbespreking in mijn blog. De afgelopen weken en maanden verschenen er met enige regelmaat verontrustende berichten in de kranten over crisis in de wtenschap. Met de herhaalbaarheid van onderzoek schijnt het nogal slecht gesteld te zijn. Zo berichtte NRC op 9 april dat 40% van de resultaten op het gebied van de psychologie bij herhaling niet bevestigd worden. In andere wetenschapsgebieden schijnt het niet veel beter te zijn. Als oorzaken worden genoemd weinig interesse in het zorgvuldig herhalen van experimenten alvorens te publiceren ( publiek or perish) en gebrekkige kennis van statistiek. Je voelen -de titel van de blog lezend - al statistisch verantwoord aankomen dat ik het over deze tweede oorzaak wil hebben. In het eigenlijk nog best toegankelijke boek van Alex Reinhart Statistics done wrong wordt de lezer meegenomen op een reis langs een reeks veel voorkomende fouten in de toepassing van statistiek. Met stip op één is het fout interpreteren van P-waarden, op de voet gevolgd door de gevolgen van experimenten met een lage power. De auteur heeft het over het martelen van data tot ze bekennen. Iedere AIO heeft tegenwoordig statistische software pakketten beschikbaar waarbij je naar hartelust testen op je data los kan laten tot dat je er eentje vindt die een positief resultaat vindt. De gouden regel rond P-waarden is dat je ze eigenlijk niet zou moeten gebruiken omdat ze niets zeggen over de relevantie van de gevonden effecten. Het is veel beter om betrouwbaarheidsintervallen te rapporteren. In 97% van de gepubliceerde psychologische studies gebeurd dit echter niet. Als mogelijke (en misschien wel voornaamste) reden daarvoor noemt de auteur dat deze vaak beschamend groot zijn. De power van een studie is de kans dat je een effect dat er is ook daadwerkelijk aan kan tonen. Maar in 3% van de gepubliceerde studies in de prestigieuze tijdschriften Science en Nature wordt de power berekend voor de studie gestart wordt. Een bijkomend effect van een lage power als gevolgd van een kleine proefopzet is de grote kans op toevalstreffers waarbij het gevonden effect toevallig veel groter is dan het werkelijke effect. De auteur heeft het daarbij over chronische waarheidsinflatie. In hippe vakgebied als genomics, maar ook in farmacologische studies en epidemiologische studies ( en klaarblijkelijk ook in de experimentele psychologie ) komt dit vaak voor mede omdat tijdschriften graag spectaculaire effecten publiceren. Als een andere onderzoeker de studie nog eens overdoet lukt het niet hetzelfde spectaculaire effect te vinden en voila het is knudde met de herhaalbaarheid.
Geen opmerkingen:
Een reactie posten