Thursday Feb 03, 2022

Vad är makt?

Angela L.E. Walmsley och Michael C. Brown, Concordia University Wisconsin

För många lärare som undervisar i inledande statistik är makt ett begrepp som ofta inte används. I många fall undviks det helt och hållet. Faktum är att många lärare i Advanced Placement (AP) håller sig borta från ämnet när de undervisar i signifikanstester, enligt Floyd Bullard i ”Power in Tests of Significance”. Makt är dock ett viktigt begrepp att förstå som konsument av forskning, oavsett vilket område eller yrke en student kommer in i som vuxen. Därför bör en diskussion om styrka ingå i en introduktionskurs.

För att diskutera och förstå styrka måste man vara klar över begreppen typ I- och typ II-fel. Doug Rush ger en uppfräschning om typ I- och typ II-fel (inklusive effekt och effektstorlek) i vårnumret 2015 av Statistics Teacher Network, men kortfattat kan man säga att ett typ I-fel är att förkasta nollhypotesen till förmån för en falsk alternativ hypotes och att ett typ II-fel är att man misslyckas med att förkasta en falsk nollhypotes till förmån för en sann alternativ hypotes. Sannolikheten för ett typ I-fel brukar kallas Alpha, medan sannolikheten för ett typ II-fel brukar kallas Beta.

Nu går vi vidare till effekt. Många elever behöver få ta del av olika perspektiv på definitionen av makt. Bullard beskriver flera sätt att tolka power korrekt:

  • Power är sannolikheten att förkasta nollhypotesen när den i själva verket är falsk.
  • Power är sannolikheten att fatta ett korrekt beslut (att förkasta nollhypotesen) när nollhypotesen är falsk.
  • Power är sannolikheten för att ett signifikanstest ska fånga upp en effekt som är närvarande.
  • Power är sannolikheten för att ett signifikanstest ska upptäcka en avvikelse från nollhypotesen, om en sådan avvikelse finns.
  • Power är sannolikheten för att undvika ett typ II-fel.

Simpelt uttryckt är power sannolikheten för att inte göra ett typ II-fel, enligt Neil Weiss i Introductory Statistics.

Matematiskt sett är power 1 – beta. Styrkan hos ett hypotest ligger mellan 0 och 1. Om styrkan ligger nära 1 är hypotestet mycket bra på att upptäcka en falsk nollhypotes. Beta är vanligen satt till 0,2, men kan av forskarna sättas lägre.

Följaktligen kan effekten vara så låg som 0,8, men kan också vara högre. En styrka som är lägre än 0,8 är visserligen inte omöjlig, men den anses vanligtvis vara för låg för de flesta forskningsområden.

Bullard anger också att det finns följande fyra primära faktorer som påverkar effekten:

  1. Signifikansnivå (eller alfa)
  2. Sampelstorlek
  3. Variabilitet, eller varians, i den uppmätta svarsvariabeln
  4. Måttet på variabelens effekt

Effektstyrkan ökar när en forskare ökar urvalsstorleken, liksom när en forskare ökar effektstorlekar och signifikansnivåer. Det finns andra variabler som också påverkar styrkan, bland annat varians (σ2), men vi begränsar oss i den här diskussionen till sambanden mellan styrkan, urvalsstorlek, effektstorlek och alfa.

I verkligheten vill en forskare att både typ I- och typ II-felen ska vara små. När det gäller signifikansnivå och effekt säger Weiss att detta innebär att vi vill ha en liten signifikansnivå (nära 0) och en stor effekt (nära 1).

Efter att ha sagt lite om begreppet effekt har författarna funnit att det är viktigast för eleverna att förstå betydelsen av effekt i förhållande till urvalsstorlek när de analyserar en studie eller en forskningsartikel, jämfört med att faktiskt beräkna effekt. Vi har funnit att eleverna i allmänhet förstår begreppen provtagning, studiedesign och grundläggande statistiska tester, men att de ibland har svårt att förstå betydelsen av effekt och nödvändig urvalsstorlek. Därför är diagrammet i figur 1 ett verktyg som kan vara användbart när man introducerar begreppet effekt till en publik som lär sig statistik eller som behöver öka sin förståelse för forskningsmetodik.

Figur 1 Ett verktyg som kan vara användbart när man introducerar begreppet effekt till en publik som lär sig statistik eller som behöver öka sin förståelse för forskningsmetodik

Det här begreppet är viktigt att lärarna också utvecklar sin egen förståelse av statistik. Det här verktyget kan hjälpa en elev att kritiskt analysera om den forskningsstudie eller artikel de läser och tolkar har en acceptabel effekt och urvalsstorlek för att minimera fel. I stället för att bara koncentrera sig på resultatet av p-värdet, som så ofta traditionellt har varit i fokus, hjälper detta diagram (och exemplen nedan) eleverna att förstå hur man kan titta på styrka, urvalsstorlek och effektstorlek tillsammans med p-värdet när man analyserar resultaten av en studie. Vi rekommenderar att du använder detta diagram för att hjälpa dina elever att förstå och tolka resultat när de studerar olika forskningsstudier eller metoder.

Exempel på tillämpning av diagrammet

Föreställ dig sex fiktiva exempelstudier som var och en undersöker om en ny app som heter StatMaster kan hjälpa eleverna att lära sig statistiska begrepp bättre än traditionella metoder. Var och en av de sex studierna genomfördes med gymnasieelever och jämförde AP Statistics-klassen på förmiddagen (35 elever) som införlivade appen StatMaster med AP Statistics-klassen på eftermiddagen (35 elever) som inte använde appen StatMaster. Resultatet av var och en av dessa studier var en jämförelse av genomsnittliga provresultat mellan morgon- och eftermiddagsklasserna i slutet av terminen.

Statistisk information och de fiktiva resultaten visas för varje studie (A-F) i figur 2, med den viktigaste informationen i fet och kursiv stil. Även om dessa sex exempel har samma studiedesign ska du inte jämföra de påhittade resultaten mellan studierna. De är sex oberoende låtsasexempel för att illustrera diagrammets tillämpning.

Figur 2 Sex fiktiva exempelstudier som var och en undersöker om en ny app som heter StatMaster kan hjälpa eleverna att lära sig statistiska begrepp bättre än traditionella metoder (klicka för att se en större bild)

I studie A är nyckelelementet p-värdet på 0,034. Eftersom detta är mindre än alfa på 0,05 är resultaten statistiskt signifikanta och vi kan stanna vid den blå stoppskylten i rutan START. Även om studien fortfarande löper risk att göra ett typ I-fel, lämnar detta resultat inte möjligheten till ett typ II-fel öppen. Sagt på ett annat sätt är kraften tillräcklig för att upptäcka en skillnad eftersom de upptäckte en skillnad som var statistiskt signifikant. Det spelar ingen roll att det inte finns någon beräkning av styrka eller urvalsstorlek när p-värdet är mindre än alfa.

I studie B är sammanfattningarna desamma förutom p-värdet på 0,383. Eftersom detta är större än alfavärdet 0,05 flyttar vi oss i diagrammet till den stora rutan i mitten för att kontrollera om det finns eller inte finns ett acceptabelt typ II-fel. I detta fall är kriterierna i den övre vänstra rutan uppfyllda (att det inte finns någon urvalsstorlek eller effektberäkning) och därför kan avsaknaden av en statistiskt signifikant skillnad bero på otillräcklig effekt (eller en verklig avsaknad av skillnad, men vi kan inte utesluta otillräcklig effekt). Vi har träffat den övre vänstra röda STOP-knappen. Eftersom otillräcklig effekt – eller överdriven risk för typ II-fel – är en möjlighet är det inte statistiskt möjligt att dra en slutsats om StatMasters effektivitet.

I studie C är p-värdet återigen större än alfa, vilket för oss tillbaka till den andra huvudrutan. Till skillnad från studie B gör förekomsten av en önskad effekt och beräkning av urvalsstorlek det möjligt för oss att undvika det röda STOP:et i den övre vänstra kvadranten, men effekten på 70 % gör att vi stöter på kriterierna för det övre högra röda STOP:et. Med en effekt på 70 % är vårt tröskelvärde för potentiella typ II-fel 30 % (1-0,7), vilket ligger över de traditionellt godtagbara 20 %. Möjligheten att dra en statistisk slutsats om StatMaster hindras av den potentiella oacceptabelt höga risken för typ II-fel.

I studie D fortsätter p-värdet att vara större än alfa, men – till skillnad från studie B och studie C – har studie D en lämplig effekt som är satt till 80 %. Det är bra. Utmaningen blir den önskade urvalsstorleken för att uppnå denna 80-procentiga effekt. Studie D säger att den behöver 40 försökspersoner i varje klass för att vara säker på 80 % effekt, men studien har bara 35 försökspersoner, så vi träffar det röda STOP:et i den nedre vänstra kvadranten. Eftersom den önskade urvalsstorleken inte uppnåddes är den faktiska effekten mindre än 80 %, vilket gör att vi i praktiken befinner oss i samma situation som i studie C – med risk för ett alltför stort typ II-fel på över 20 %.

I studie E är utmaningarna mer komplexa. Med ett p-värde som är större än alfa flyttar vi återigen till den mellersta stora rutan för att undersöka risken för ett alltför stort eller obestämt typ II-fel. I det här fallet är effekt (80 %), alfa (0,05) och urvalsstorlek (35 i varje kohort) adekvata. Effektstorleken är dock satt till 50 %.

En 50-procentig förändring av poängen skulle vara intressant, men den har två problem. För det första är det troligt att tidigare kursutbud ger en viss uppskattning av prestationen i avsaknad av StatMaster, och – om man antar att den ligger ens tillnärmelsevis nära medelvärdet på 85 % som sågs i studie E – skulle en 50-procentig ökning inte vara matematiskt möjlig, vilket gör detta till en opraktisk effektstorlek. För det andra kommer en urvalsstorlek att ge tillräcklig effekt för att upptäcka en effektstorlek som är minst lika stor som den önskade effektstorleken eller större, men inte mindre. En genomgång av ekvationen tidigare i detta manuskript ger det matematiska beviset för detta koncept.

Så, även om en effektstorlek på 50 % skulle vara imponerande – i avsaknad av ett statistiskt signifikant resultat – skulle det inte vara säkert att studie E skulle ha tillräcklig effekt för att upptäcka en mindre effektstorlek, även om en mindre effektstorlek skulle kunna vara av intresse. Därför är vi kvar vid den röda STOP-skylten i det nedre högra hörnet.

Bemärk att till skillnad från de andra röda STOP-skyltarna kräver detta exempel en subjektiv bedömning och är mindre objektivt än de andra tre vägarna för att potentiellt överskrida ett acceptabelt typ II-fel. Som tidigare nämnts är detta ett komplext och utmanande scenario att tolka, men det är ganska troligt (till och med vanligt) och därför inkluderat för beaktande.

Vårt sista exempel är studie F, där vi kan gå vidare till rutan som beskriver provstorlek och styrka som acceptabla. Effektstyrkan (80 %), önskad effektstorlek (5 % förändring) och alfa (0,05) är alla lämpliga och den önskade urvalsstorleken (35 i varje kohort) uppnåddes, vilket leder oss till den statistiska slutsatsen att avsaknaden av ett statistiskt signifikant resultat visar att det inte finns någon skillnad. Inse att potentialen för typ II-fel fortfarande finns, men att den inte är större än 1 – styrka – eller i det här fallet 20 % (1 – 0,8) – vilket är anledningen till att den anses acceptabel.

Slutningsvis uppmuntrar vi lärare att introducera begreppet styrka och dess betydelse vid utvärdering av statistisk forskning. Vi hoppas att både provscenarierna och flödesschemat är användbara för både lärare och elever när de utforskar begreppet styrka och hur det förhåller sig till effektstorlek, urvalsstorlek och signifikansnivå i allmänhet.

Lämna ett svar

Din e-postadress kommer inte publiceras.

Back to Top