800 wetenschappers zeggen dat het tijd is om statistische significantie op te geven

P-waarden en statistische significantie worden op grote schaal verkeerd begrepen. Dit is wat ze eigenlijk bedoelen.

Er is een sterk argument dat het najagen van p-waarden de wetenschap op een dwaalspoor heeft gebracht.

erhui1979 /Getty Creative-afbeeldingen

Veel te lang zijn de carrières van veel wetenschappers gebouwd rond het nastreven van één enkele statistiek: p<.05.



In veel wetenschappelijke disciplines is dat de drempel waarboven onderzoeksresultaten statistisch significant kunnen worden verklaard, wat vaak wordt geïnterpreteerd als dat het onwaarschijnlijk is dat de resultaten een toevalstreffer waren, een resultaat van willekeurig toeval.

Hoewel dit niet is wat het in de praktijk betekent. Statistische betekenis wordt te vaak verkeerd begrepen - en misbruikt. Dat is de reden waarom een ​​drietal wetenschappers schrijft: Natuur deze week roepen op tot het afschaffen van het hele concept van statistische significantie.

Hun grootste argument: statistisch significant of niet statistisch significant wordt te vaak verkeerd geïnterpreteerd om te betekenen dat de studie werkte of de studie niet werkte. Een echt effect kan soms een p-waarde van meer dan 0,05 opleveren. En we weten van de afgelopen jaren dat de wetenschap bol staat van fout-positieve onderzoeken die waarden van minder dan .05 bereikten (lees mijn uitleg op de replicatiecrisis in de sociale wetenschappen voor meer).

De Natuur commentaarschrijvers beweren dat de wiskunde niet het probleem is. In plaats daarvan is het menselijke psychologie. Resultaten indelen in statistisch significant en statistisch niet-significant, schrijven ze, leidt tot een te zwart-wit benadering van het onderzoeken van wetenschap.

Meer dan 800 andere wetenschappers en statistici over de hele wereld hebben dit manifest ondertekend. Voorlopig lijkt het meer een provocerend argument dan het begin van een echte ommekeer. Natuur, ten eerste probeert het op dit moment niet te veranderen hoe het statistische analyse beschouwt bij de evaluatie van artikelen, merkte het tijdschrift op.

Maar de getijden kunnen stijgen tegen de statistische significantie in. Dit is niet de eerste keer dat wetenschappers en statistici de status-quo ter discussie stellen. In 2016 heb ik schreef over hoe een grote groep van hen pleitte voor het verhogen van de drempel naar .005, waardoor het veel moeilijker werd om een ​​resultaat statistisch significant te noemen. (Tegelijkertijd met de Natuur commentaar, het tijdschrift De Amerikaanse statisticus wijdde een hele uitgave aan het probleem van statistische significantie.) Er is een brede erkenning dat p-waarden problematisch kunnen zijn.

Ik vermoed dat dit voorstel zwaar zal worden besproken (zoals alles in de wetenschap). Deze laatste oproep tot radicale verandering benadrukt tenminste een belangrijk feit dat de wetenschap plaagt: statistische significantie wordt algemeen verkeerd begrepen. Laat me je er doorheen leiden. Ik denk dat het je zal helpen dit debat beter te begrijpen, en je zal helpen inzien dat er veel meer manieren zijn om de verdiensten van een wetenschappelijke bevinding te beoordelen dan p-waarden.

Wacht, wat is een p-waarde? Wat is statistische significantie?

Mick Wiggins /Getty Creative-afbeeldingen

Zelfs de eenvoudigste definities van p-waarden worden vaak ingewikkeld, dus wees geduldig terwijl ik het opsplits.

Wanneer onderzoekers een p-waarde berekenen, testen ze de zogenaamde nulhypothese. Het eerste dat u moet weten: Dit is niet een test van de vraag die de onderzoeker het liefst wil beantwoorden.

Laten we zeggen dat de onderzoeker echt wil weten of het eten van één reep chocolade per dag leidt tot gewichtsverlies. Om dat te testen, laten ze 50 deelnemers één reep chocola per dag eten. Nog eens 50 wordt bevolen zich te onthouden van de heerlijke dingen. Beide groepen worden voor het experiment en daarna gewogen en hun gemiddelde gewichtsverandering wordt vergeleken.

hoe werken ouija-borden echt?

De nulhypothese is het argument van de advocaat van de duivel. Daarin staat dat er geen verschil is in het gewichtsverlies van de chocolade-eters versus de chocolade-onthouders.

Het verwerpen van de nul is een grote hindernis die wetenschappers moeten nemen om hun hypothese te bewijzen. Als de nul staat, betekent dit dat ze geen belangrijke alternatieve verklaring voor hun resultaten hebben geëlimineerd. En wat is wetenschap anders dan een proces om verklaringen te verfijnen?

Dus hoe sluiten ze de nul uit? Ze berekenen wat statistieken.

De onderzoeker vraagt ​​in feite: hoe belachelijk zou het zijn om te geloven dat de nulhypothese het ware antwoord is, gezien de resultaten die we zien?

Het afwijzen van de nul is een soort onschuldig totdat het tegendeel bewezen is in rechtszaken, legt Regina Nuzzo, een wiskundeprofessor aan de Gallaudet University, uit. In de rechtbank ga je ervan uit dat de verdachte onschuldig is. Dan ga je naar het bewijs kijken: het bebloede mes met zijn vingerafdrukken erop, zijn geschiedenis van geweld, ooggetuigenverslagen. Naarmate het bewijs toeneemt, begint dat vermoeden van onschuld naïef te lijken. Op een gegeven moment krijgen juryleden het gevoel, boven redelijke twijfel, dat de verdachte niet onschuldig is.

Het testen van de nulhypothese volgt een vergelijkbare logica: als er enorme en consistente gewichtsverschillen zijn tussen de chocolade-eters en de chocolade-onthouders, begint de nulhypothese - dat er geen gewichtsverschillen zijn - er dwaas uit te zien en kun je deze verwerpen.

Je denkt misschien: is dit niet een mooie omweg om te bewijzen dat een experiment heeft gewerkt?

Je hebt gelijk!

Het verwerpen van de nulhypothese is indirecte bewijs van een experimentele hypothese. Het zegt niets over de vraag of je wetenschappelijke conclusie juist is.

Natuurlijk kunnen de chocolade-eters wat gewicht verliezen. Maar komt het door de chocolade? Kan zijn. Of misschien voelden ze zich extra schuldig door elke dag snoep te eten, en wisten ze dat ze gewogen zouden worden door vreemden die laboratoriumjassen droegen (raar!), dus beknibbelden ze op andere maaltijden.

wat deed Hillary met de e-mails?

Het afwijzen van de nul zegt niets over het mechanisme waardoor chocolade gewichtsverlies veroorzaakt. Het vertelt je niet of het experiment goed is ontworpen, of goed gecontroleerd, of dat de resultaten zijn uitgekozen.

Het helpt je alleen te begrijpen hoe zeldzaam de resultaten zijn.

Maar - en dit is een lastig, lastig punt - het is niet hoe zeldzaam de resultaten van uw experiment zijn. Het is hoe zeldzaam de resultaten zouden zijn in de wereld waar de nulhypothese waar is. Dat wil zeggen, het is hoe zeldzaam de resultaten zouden zijn als niets in uw experiment zou werken en het verschil in gewicht alleen te wijten was aan willekeurig toeval.

Hier komt de p-waarde om de hoek kijken: de p-waarde kwantificeert deze zeldzaamheid. Het vertelt je hoe vaak je de numerieke resultaten van een experiment zou zien - of zelfs extremere resultaten - als de nulhypothese waar is en er geen verschil is tussen de groepen.

Als de p-waarde erg klein is, betekent dit dat de getallen zelden (maar niet nooit!) alleen bij toeval voorkomen. Dus als de p klein is, beginnen onderzoekers te denken dat de nulhypothese onwaarschijnlijk lijkt. En ze nemen een sprong om te concluderen dat hun [experimentele] gegevens waarschijnlijk niet te wijten zijn aan willekeurig toeval, legt Nuzzo uit.

Hier is nog een lastig punt: onderzoekers kunnen het nulpunt nooit helemaal uitsluiten (net zoals juryleden geen getuigen zijn van een misdaad uit de eerste hand). Dus wetenschappers kiezen in plaats daarvan een drempel waar ze er vrij zeker van zijn dat ze de nul kunnen verwerpen. Voor veel disciplines is dat nu vastgesteld op minder dan 0,05.

Idealiter betekent een p van 0,05 dat als je het experiment 100 keer zou uitvoeren - nogmaals, ervan uitgaande dat de nulhypothese waar is - je dezelfde getallen (of extremere resultaten) vijf keer zou zien.

En nog een laatste, super-netelig concept dat bijna iedereen fout heeft: A p<.05 does niet betekent dat er minder dan 5 procent kans is dat uw experimentele resultaten te wijten zijn aan willekeurige kans. Het betekent niet dat er slechts 5 procent kans is dat u op een vals positief resultaat bent beland. Nee. Helemaal niet.

Nogmaals: een p-waarde van minder dan 0,05 betekent dat er minder dan 5 procent kans is om deze resultaten (of extremere resultaten) te zien in de wereld waar de nulhypothese waar is. Dit klinkt nitpicky, maar het is van cruciaal belang. Het is het misverstand dat ertoe leidt dat mensen te veel vertrouwen hebben in p-waarden. Het fout-positieve percentage voor experimenten bij p=.05 kan veel hoger zijn dan 5 procent .

Laten we het herhalen: P-waarden vertellen u niet per se of een experiment heeft gewerkt of niet

Psychologie PhD student Kristoffer Magnusson ontwierp een best coole interactieve rekenmachine die de waarschijnlijkheid schat van het verkrijgen van een bereik van p-waarden voor een gegeven werkelijk verschil tussen groepen. Ik heb het gebruikt om het volgende scenario te maken.

Laten we zeggen dat er een onderzoek is waar het werkelijke verschil tussen twee groepen is gelijk aan een halve standaarddeviatie. (Ja, dit is een nerdy manier om het te zeggen. Maar denk er zo over: It betekent 69 procent van degenen in de experimentele groep laten resultaten zien die hoger zijn dan het gemiddelde van de controlegroep. Onderzoekers noemen dit een middelgroot effect.) En laten we zeggen dat er elk 50 mensen in de experimentele groep en de controlegroep zitten.

In dit scenario , zou u slechts ongeveer 7,62 procent van de tijd een p-waarde tussen 0,03 en 0,05 moeten kunnen krijgen.

Als je dit experiment keer op keer zou uitvoeren, zou je eigenlijk verwachten dat je veel meer p-waarden zou zien met een veel lager getal. Dat is wat de volgende grafiek laat zien. De x-as is de specifieke p-waarden, en de y-as is de frequentie waarmee ze dit experiment zouden herhalen. Kijk hoeveel p-waarden je onder de 0,001 zou vinden.

Dit is de reden waarom veel wetenschappers op hun hoede worden als ze te veel resultaten rond de 0,05 zien. Het zou niet zo vaak moeten gebeuren en roept rode vlaggen op dat de resultaten door de kers zijn geplukt, of, in wetenschappelijk opzicht, p-gehackt. In de wetenschap kan het veel zijn te gemakkelijk om te gamen en statistieken aan te passen betekenis te bereiken.

En uit deze grafiek zie je: Ja, je kunt een p-waarde van meer dan 0,05 krijgen als een experimentele hypothese waar is. Het zou gewoon niet zo vaak moeten gebeuren. In dit geval zou ongeveer 9,84 procent van alle p-waarden tussen 0,05 en 0,1 moeten vallen.

kwamen alle zwarte mensen uit afrika?

Er zijn betere, meer genuanceerde benaderingen voor het evalueren van wetenschap

Veel wetenschappers erkennen dat er robuustere manieren zijn om een ​​wetenschappelijke bevinding te evalueren. En daar zijn ze al mee bezig. Maar op de een of andere manier hebben ze momenteel niet zoveel macht als statistische significantie. Zij zijn:

  • Concentreren op effectgroottes (hoe groot is het verschil dat een interventie maakt, en is het praktisch zinvol?)
  • Betrouwbaarheidsintervallen (wat is het bereik van twijfel dat in een bepaald antwoord is ingebouwd?)
  • Of een resultaat een nieuwe studie of een replicatie is (zet wat meer gewicht in een theorie waar veel laboratoria naar hebben gekeken)
  • Of het ontwerp van een onderzoek vooraf is geregistreerd (zodat auteurs hun resultaten na de test niet kunnen manipuleren) en dat de onderliggende gegevens vrij toegankelijk zijn (zodat iedereen de wiskunde kan controleren)
  • Er zijn ook alternatieve statistische technieken - zoals Bayesiaanse analyse - die in sommige opzichten de resultaten van een onderzoek directer evalueren. (P-waarden stellen de vraag hoe zeldzaam mijn resultaten zijn? Bayes-factoren stellen de vraag wat de kans is dat mijn hypothese de beste verklaring is voor de resultaten die we hebben gevonden? Beide benaderingen hebben compromissen.)

Het echte probleem ligt niet bij statistische significantie; het is met de cultuur van de wetenschap

De auteurs van de nieuwste Natuur commentaar roept niet op tot het einde van p-waarden. Ze willen nog steeds dat wetenschappers ze waar nodig rapporteren, maar ze hoeven ze niet noodzakelijk significant te noemen of niet.

Er is waarschijnlijk ruzie over deze strategie. Sommigen denken misschien dat het handig is om eenvoudige vuistregels of drempels te hebben om wetenschap te evalueren. En we hebben nog steeds zinnen in onze taal nodig om wetenschappelijke resultaten te beschrijven. Het wissen van statistische significantie kan dingen alleen maar verwarren.

Hoe dan ook, het veranderen van de definitie van statistische significantie, of het volledig negeren ervan, lost het echte probleem niet op. En het echte probleem is de cultuur van de wetenschap.

in 2016, Vox verzonden een enquête uit onder meer dan 200 wetenschappers met de vraag: als je één ding zou kunnen veranderen aan hoe wetenschap tegenwoordig werkt, wat zou dat dan zijn en waarom? Een van de duidelijke thema's in de reacties: de wetenschappelijke instellingen moeten beter worden in het belonen van mislukkingen.

Een jonge wetenschapper vertelde ons dat ik me verscheurd voel tussen het stellen van vragen waarvan ik weet dat ze tot statistische significantie zullen leiden en het stellen van vragen die er toe doen.

Het grootste probleem in de wetenschap is niet de statistische significantie; het is de cultuur. Ze voelde zich verscheurd omdat jonge wetenschappers publicaties nodig hebben om een ​​baan te krijgen. Onder de status-quo heb je, om publicaties te krijgen, statistisch significante resultaten nodig. Statistische significantie alleen leidde niet tot de replicatiecrisis. De wetenschappelijke instellingen stimuleerden het gedrag waardoor het kon etteren.