Een ongezonde obsessie met p-waarden verpest de wetenschap

Lichtveer/Shutterstock

De afgelopen jaren hebben Stanford-meta-onderzoeker John Ioannidis en verschillende collega's gewerkt aan een paper dat elke nerd twee keer zou moeten laten nadenken over p-waarden, die tests van statistische significantie die nu algemeen worden gezien als een signaal van de waard.

Hun papier , vandaag gepubliceerd in JAMA , onderzoekt p-waarden over 25 jaar biomedisch onderzoek. Dat betekende een aantal indrukwekkende gegevensverwerking: de onderzoekers analyseerden meer dan 1,6 miljoen studie-samenvattingen en meer dan 385.000 full-text papers, die allemaal p-waarden bevatten.

Wat ze vonden was 'een epidemie' van statistische significantie: 96 procent van de kranten die een p-waarde in hun abstract hadden opgenomen, pochte statistisch significante resultaten (op een schaal van 0 tot 1, een p-waarde die statistisch significant is, meet 0,05 of lager ).



Bovendien, vertelde Ioannidis aan Vox, 'het aandeel kranten dat p-waarden gebruikt, neemt in de loop van de tijd toe, en de meest significante resultaten zijn in de loop van de tijd zelfs nog significanter geworden.' Slechts ongeveer 10 procent van de papieren die hij bekeek vermeldde effectgroottes in hun samenvattingen bijvoorbeeld, en nog minder genoemde maten van onzekerheid, zoals betrouwbaarheidsintervallen. Zo zeer zelden gaven onderzoekers enige context over het werkelijke belang van hun p-waardebevindingen.

Dit alles betekent dat naarmate p-waarden populairder zijn geworden, ze ook betekenislozer zijn geworden.

'Als je een pessimist bent,' voegde Ioannidis eraan toe, 'kan dit p-value prullenbak worden genoemd.'

Maar zelfs als je een optimist bent, suggereert de nieuwe studie het hele biomedischewereld-is geweestwoedend op zoek naar statistische significantie,mogelijk dubieuze resultaten de schijn van validiteit geven door ze te karnen via deze steeds populairder wordende statistische methode, of simpelweg belangrijke resultaten te onderdrukken die er niet significant genoeg uitzien.

In de biomedische context is deze bevinding zorgwekkend. Het betekent dat medicijnen en medische apparaten die niet zo goed werken, kunnen worden verkocht met p-waarden die suggereren dat ze dat wel doen.

'Dus het grote plaatje,' concludeerde Ioannidis, 'is dat er miljoenen en miljoenen kranten zijn met miljoenen en miljoenen p-waarden die rondzweven, en velen zijn misleidend.'

Veel succes met het vinden van een echt duidelijke definitie van een p-waarde

Als je moeite hebt om je hoofd rond de definitie van een p-waarde te wikkelen, ben je niet de enige.

In de breedste zin is het gewoon een van de vele manieren waarop onderzoekers een hypothese kunnen testen met behulp van statistieken.

Een meer gedetailleerde en nog steeds begrijpelijke definitie is: eigenlijk schokkend moeilijk langskomen.

Hier is een recente steek van de Amerikaanse statistische vereniging :

'Informeel is een p-waarde de kans onder een gespecificeerd statistisch model dat een statistische samenvatting van de gegevens (bijvoorbeeld het steekproefgemiddelde verschil tussen twee vergeleken groepen) gelijk zou zijn aan of extremer zou zijn dan de waargenomen waarde.'

Ik belde Rebecca Goldin, de regisseur van... Stats.org en een professor aan George Mason University , voor hulp bij het ontleden van die nog steeds verbijsterende definitie. Ze leidde me door een voorbeeld met behulp van medicijnonderzoeken, het soort dat Ioannidis en zijn collega's onderzochten.

Stel dat een onderzoeker een onderzoek heeft uitgevoerd naar het effect van een medicijn op een uitkomst zoals cholesterol, en ze probeert te zien of de mensen die het medicijn (groep A) gebruikten hun cholesterolwaarden meer verbeterden dan de mensen die het medicijn niet gebruikten (groep A) B). Laten we zeggen dat ze ontdekt dat patiënten in groep A (die het medicijn kregen) ook hun cholesterol meer verlaagden dan die in groep B (die het medicijn niet kregen).

De onderzoeker weet niet of dat verschil in cholesterolgehalte door het medicijn komt of door een ander verschil tussen de twee groepen. 'Ze kan met haar gegevens alleen niet 'zien' of God achter de schermen aan het dobbelen was of dat het medicijn het cholesterolgehalte beïnvloedde', zei Goldin. Met andere woorden, het verschil in cholesterolgehalte tussen de twee groepen kan zijn ontstaan ​​door toeval of door het medicijn - maar dat is een vraag die de onderzoeker niet kan beantwoorden met de gegevens die ze heeft.

Maar er is iets dat ze kan beantwoorden: als het puur toeval zou zijn ('God gooit de dobbelstenen'), hoe waarschijnlijk is het dan dat het cholesterolgehalte van mensen naar voren komt zoals in dit onderzoek? Hier komt de p-waarde om de hoek kijken.

Ze kan met een statistische methode (in dit geval resulterend in een p-waarde) nagaan hoe groot de kans is dat ze het verschil in cholesterol tussen de groepen (of extremere verschillen) zou zien in de veronderstelling dat het geneesmiddel niets te maken had met het verschil. Deze aanname wordt de 'nulhypothese' genoemd en het genereren van een p-waarde begint altijd met een nulhypothese.

Om de p-waarde daadwerkelijk te berekenen, zou de onderzoeker een aantal getallen over haar gegevens - het aantal mensen in het onderzoek, de gemiddelde verandering in cholesterol voor beide groepen, de standaarddeviatie voor elke groep, enz. - in een rekenmachine stoppen . Nogmaals, de p-waarde die de rekenmachine uitspuugt, is de kans om deze gegevens te zien (het verschil in cholesterolwaarden tussen de twee groepen) of extremere gegevens, gegeven de nulhypothese (het medicijn werkte niet). Een p-waarde van minder dan 0,05 wordt door velen in de medische wereld als 'statistisch significant' beschouwd???? — een indicatie dat de gegevens onwaarschijnlijk zijn, maar nog steeds mogelijk, als het geneesmiddel niet zou werken.

Voor alle duidelijkheid: de p-waarde zal niet vertel de onderzoeker hoe waarschijnlijk het is dat het geneesmiddel werkt (of niet werkt). Dus het zal haar niet vertellen of haar oorspronkelijke hypothese (over of het medicijn werkt) waar of onwaar is. In plaats daarvan vertelt de p-waarde haar de kans om haar gegevens te zien (het verschil tussen groep A en B) gegeven een nulhypothese. En nogmaals, als de p-waarde laag is (minder dan 0,05), is de kans dat deze gegevens zich voordoen klein, wat enig bewijs levert dat het medicijn effect heeft.

Waarom de p-waardecrisis belangrijk is

Het artikel van Ioannidis, dat vragen oproept over de betrouwbaarheid van p-waarden, staat niet op zichzelf.

Hoewel statistici al lang wijzen op problemen met 'aanzienlijke doping' en ' P -dolatory' (de 'aanbidding van valse betekenis' ) tijdschriften vertrouwen steeds vaker op p-waarden om te bepalen of een onderzoek moet worden gepubliceerd.

'We zijn bang dat de p-waarde wordt gebruikt als poortwachter om te bepalen wat publiceerbaar onderzoek is', zegt Ron Wasserstein, uitvoerend directeur van de American Statistical Association. Dit betekent dat goed onderzoek met hogere p-waarden wordt afgewezen, dat auteurs zich misschien afkeren van het indienen bij tijdschriften als ze een hoge p-waarde krijgen, of, erger nog, dat auteurs hun p-waarden spelen of selectief alleen rapporteren lage p-waarden ('p-value hacking' genoemd) om ze statistisch significant te laten lijken en daarom publiceerbaar.

'Ik ben bang dat belangrijk werk het daglicht niet ziet, omdat de p-waarden niet onder de 0,05 kwamen', zegt Wasserstein. 'Ik maak me zorgen dat gepubliceerd werk wordt gepubliceerd en als succesvol bewijsmateriaal wordt beschouwd op basis van lage p-waarden.'

Toen ik Wasserstein vroeg hoe we op dit moment kwamen, had hij een paar gissingen. Ten eerste maakt software het karnen van p-waarden gemakkelijker dan ooit. En ten tweede is een p-waarde een verleidelijk eenvoudig cijfer om op te vertrouwen bij het bepalen of onderzoek waardevol is. 'Het is dit aantal dat eruitziet alsof je het zou kunnen gebruiken om een ​​beslissing te nemen die anders moeilijk zou zijn of veel meer inspanning zou vergen om te nemen', zei hij. Helaas is dat niet waar.

as tot as stof tot kant kuikens lied

Het hoeft niet zo te zijn

Het meest ironische van deze gang van zaken is dat de p-waarde een veel bescheidener oorsprong had, zoals statisticus Regina Nuzzo in Natuur : Toen p-waarden in de jaren twintig door de Britse statisticus Ronald Fisher werden geïntroduceerd, wilde hij dat ze 'een onderdeel waren van een vloeiend, niet-numeriek proces dat gegevens en achtergrondkennis vermengde om tot wetenschappelijke conclusies te leiden'. Ze waren niet het allerbelangrijkste; nogmaals, ze waren bedoeld als slechts één hulpmiddel in de statistische toolbox.

Maar zelfs met al deze controverse, stellen weinigen voor om de p-waarde helemaal los te laten. In plaats daarvan heeft de American Statistical Association gewoon... vrijgegeven richtlijnen over p-waarde principes in een poging om de methode conservatiever en nauwkeuriger te gebruiken:

1. P-waarden kunnen aangeven hoe onverenigbaar de gegevens zijn met een bepaald statistisch model.

2. P-waarden meten niet de kans dat de bestudeerde hypothese waar is, of de kans dat de gegevens alleen door willekeurig toeval zijn geproduceerd.

3. Wetenschappelijke conclusies en zakelijke of beleidsbeslissingen mogen niet alleen gebaseerd zijn op het feit of een p-waarde een bepaalde drempel overschrijdt.

4. Een juiste gevolgtrekking vereist volledige rapportage en transparantie.

5. Een p-waarde, of statistische significantie, meet niet de omvang van een effect of het belang van een resultaat.

6. Op zichzelf is een p-waarde geen goede maatstaf voor het bewijs met betrekking tot een model of hypothese.

Zelfs Ioannidis vindt niet dat de p-waarde weggegooid moet worden. In plaats daarvan, zei hij, moeten tijdschriften hard optreden tegen hun gebruik van p-waarden. 'Ze moeten aandringen op meer [informatie] over wat de effectgrootte is, de onzekerheid rond de effectgrootte en hoe waarschijnlijk het is dat [de resultaten] waar zijn.'