Hvad er power?

Angela L.E. Walmsley og Michael C. Brown, Concordia University Wisconsin

For mange lærere, der underviser i indledende statistik, er power et begreb, som ofte ikke bruges. I mange tilfælde undgås det helt og holdent. Faktisk holder mange lærere i Advanced Placement (AP) sig væk fra emnet, når de underviser i signifikanstests, ifølge Floyd Bullard i “Power in Tests of Significance”. Magt er imidlertid et vigtigt begreb at forstå som forbruger af forskning, uanset hvilket område eller erhverv en studerende måtte gå ind i som voksen. Derfor bør diskussionen om power indgå i et introduktionskursus.

For at diskutere og forstå power skal man være klar over begreberne type I- og type II-fejl. Doug Rush giver en genopfriskning af Type I- og Type II-fejl (herunder effekt og effektstørrelse) i forår 2015-udgaven af Statistics Teacher Network, men kort fortalt er en Type I-fejl at forkaste nulhypotesen til fordel for en falsk alternativ hypotese, og en Type II-fejl er at undlade at forkaste en falsk nulhypotese til fordel for en sand alternativ hypotese. Sandsynligheden for en type I-fejl er typisk kendt som Alpha, mens sandsynligheden for en type II-fejl typisk er kendt som Beta.

Nu går vi videre til effekt. Mange elever har brug for at blive udsat for en række forskellige perspektiver på definitionen af magt. Bullard beskriver flere måder at fortolke power korrekt på:

  • Power er sandsynligheden for at forkaste nulhypotesen, når den i virkeligheden er falsk.
  • Power er sandsynligheden for at træffe en korrekt beslutning (om at forkaste nulhypotesen), når nulhypotesen er falsk.
  • Power er sandsynligheden for, at en signifikanstest opfanger en effekt, der er til stede.
  • Power er sandsynligheden for, at en signifikanstest vil opdage en afvigelse fra nulhypotesen, hvis en sådan afvigelse findes.
  • Power er sandsynligheden for at undgå en type II-fejl.

Simpelt sagt er power sandsynligheden for ikke at begå en type II-fejl, ifølge Neil Weiss i Introductory Statistics.

Matematisk set er power lig med 1 – beta. Styrken af en hypotesetest ligger mellem 0 og 1. Hvis styrken er tæt på 1, er hypotesetesten meget god til at afsløre en falsk nulhypotese. Beta sættes almindeligvis til 0,2, men kan af forskerne sættes til at være mindre.

Som følge heraf kan potensen være så lav som 0,8, men kan også være højere. En styrke på under 0,8 er ganske vist ikke umulig, men vil typisk blive betragtet som for lav inden for de fleste forskningsområder.

Bullard anfører også, at der er følgende fire primære faktorer, der påvirker effekten:

  1. Signifikansniveau (eller alfa)
  2. Samplestørrelse
  3. Variabilitet, eller varians, i den målte responsvariabel
  4. Størrelsen af effekten af variablen

Power øges, når en forsker øger stikprøvestørrelsen, samt når en forsker øger effektstørrelser og signifikansniveauer. Der er andre variabler, der også har indflydelse på power, herunder varians (σ2), men vi vil i denne diskussion begrænse vores samtale til relationerne mellem power, stikprøvestørrelse, effektstørrelse og alfa.

I virkeligheden ønsker en forsker, at både Type I- og Type II-fejl skal være små. Med hensyn til signifikansniveau og power siger Weiss, at dette betyder, at vi ønsker et lille signifikansniveau (tæt på 0) og en stor power (tæt på 1).

Når vi har sagt lidt om begrebet power, har forfatterne fundet, at det er vigtigst for de studerende at forstå betydningen af power i forhold til stikprøvestørrelse, når de analyserer en undersøgelse eller forskningsartikel i forhold til faktisk at beregne power. Vi har fundet ud af, at eleverne generelt forstår begreberne stikprøveudtagning, undersøgelsesdesign og grundlæggende statistiske test, men nogle gange har de svært ved at forstå betydningen af effekt og den nødvendige stikprøvestørrelse. Derfor er skemaet i figur 1 et værktøj, der kan være nyttigt, når man introducerer begrebet effekt til et publikum, der lærer statistik, eller som har brug for at uddybe sin forståelse af forskningsmetodologi.

Figur 1 Et værktøj, der kan være nyttigt, når man introducerer begrebet effekt til et publikum, der lærer statistik, eller som har brug for at uddybe sin forståelse af forskningsmetodologi

Dette begreb er også vigtigt for lærerne at udvikle i deres egen forståelse af statistik. Dette værktøj kan hjælpe en studerende med at foretage en kritisk analyse af, om den forskningsundersøgelse eller artikel, de læser og fortolker, har en acceptabel effekt og stikprøvestørrelse for at minimere fejl. I stedet for kun at koncentrere sig om resultatet af p-værdien, som så ofte traditionelt har været i fokus, hjælper dette skema (og eksemplerne nedenfor) eleverne med at forstå, hvordan man kan se på styrke, stikprøvestørrelse og effektstørrelse sammen med p-værdien, når man analyserer resultaterne af en undersøgelse. Vi opfordrer til at bruge dette skema til at hjælpe dine elever med at forstå og fortolke resultater, når de studerer forskellige forskningsundersøgelser eller metodologier.

Eksempler på anvendelse af skemaet

Imaginer seks fiktive eksempelundersøgelser, der hver især undersøger, om en ny app kaldet StatMaster kan hjælpe eleverne med at lære statistiske begreber bedre end traditionelle metoder. Hver af de seks undersøgelser blev gennemført med gymnasieelever, hvor man sammenlignede AP Statistics-klassen om formiddagen (35 elever), der indarbejdede StatMaster-appen, med AP Statistics-klassen om eftermiddagen (35 elever), der ikke brugte StatMaster-appen. Resultatet af hver af disse undersøgelser var en sammenligning af de gennemsnitlige testresultater mellem morgen- og eftermiddagsklasserne ved semesterets afslutning.

Statistiske oplysninger og de fiktive resultater er vist for hver undersøgelse (A-F) i figur 2, med de vigtigste oplysninger vist med fed kursivskrift. Selv om disse seks eksempler er af samme undersøgelsesdesign, skal man ikke sammenligne de opdigtede resultater på tværs af undersøgelserne. De er seks uafhængige fiktive eksempler til illustration af skemaets anvendelse.

Figur 2 Seks fiktive eksempelundersøgelser, der hver især undersøger, om en ny app ved navn StatMaster kan hjælpe eleverne med at lære statistiske begreber bedre end traditionelle metoder (klik for at se større)

I undersøgelse A er nøgleelementet p-værdien på 0,034. Da dette er mindre end alfa på 0,05, er resultaterne statistisk signifikante, og vi kan stoppe ved det blå stopskilt i START-boksen. Selv om undersøgelsen stadig er i risiko for at begå en type I-fejl, giver dette resultat ikke mulighed for en type II-fejl. Sagt på en anden måde er styrken tilstrækkelig til at påvise en forskel, fordi de påviste en forskel, der var statistisk signifikant. Det betyder ikke noget, at der ikke er nogen beregning af styrke eller stikprøvestørrelse, når p-værdien er mindre end alfa.

I undersøgelse B er sammenfatningerne de samme bortset fra p-værdien på 0,383. Da dette er større end alfa på 0,05, flytter vi i diagrammet til den store midterste boks for at kontrollere, om der er tale om en acceptabel type II-fejl eller ej. I dette tilfælde er kriterierne i den øverste venstre boks opfyldt (at der ikke er nogen stikprøvestørrelse eller beregning af effekt), og derfor kan manglen på en statistisk signifikant forskel skyldes utilstrækkelig effekt (eller en sand mangel på forskel, men vi kan ikke udelukke utilstrækkelig effekt). Vi ramte det øverste venstre røde STOP. Da utilstrækkelig effekt – eller for stor risiko for type II-fejl – er en mulighed, er det statistisk set ikke muligt at drage en konklusion om StatMasters effektivitet.

I undersøgelse C er p-værdien igen større end alfa, hvilket bringer os tilbage til det andet hovedfelt. I modsætning til undersøgelse B gør tilstedeværelsen af en ønsket effekt og beregning af stikprøvestørrelse det muligt for os at undgå det røde STOP i øverste venstre kvadrant, men effekten på 70 % gør, at vi rammer kriterierne for det øverste højre røde STOP. Med en effekt på 70 % er vores tærskel for potentiel Type II-fejl 30 % (1-0,7), hvilket er over de traditionelt acceptable 20 %. Muligheden for at drage en statistisk konklusion vedrørende StatMaster hæmmes af den potentielle uacceptabelt høje risiko for Type II-fejl.

I undersøgelse D er p-værdien fortsat større end alfa, men – i modsætning til undersøgelse B og undersøgelse C – har undersøgelse D en passende effekt fastsat til 80 %. Det er en god ting. Udfordringen bliver den ønskede stikprøvestørrelse for at opfylde denne styrke på 80 %. Undersøgelse D siger, at den har brug for 40 forsøgspersoner i hver klasse for at være sikker på en effekt på 80 %, men undersøgelsen har kun 35 forsøgspersoner, så vi rammer det røde STOP i den nederste venstre kvadrant. Fordi den ønskede stikprøvestørrelse ikke blev opfyldt, er den faktiske effekt mindre end 80 %, og vi står i realiteten i samme situation som i undersøgelse C – med risiko for en for stor type II-fejl på over 20 %.

I undersøgelse E er udfordringerne mere komplekse. Med en p-værdi, der er større end alfa, går vi endnu en gang over til den midterste store boks for at undersøge potentialet for overdreven eller ubestemt Type II-fejl. I dette tilfælde er power (80 %), alpha (0,05) og stikprøvestørrelse (35 i hver kohorte) alle tilstrækkelige. Effektstørrelsen er imidlertid sat til 50 %.

Selv om en 50 % ændring i score ville være af interesse, har den to problemer. For det første er det sandsynligt, at tidligere kursustilbud giver et vist skøn over præstationen i fraværet af StatMaster, og – hvis man antager, at den er bare nogenlunde tæt på gennemsnittet på 85 %, der blev set i undersøgelse E – ville en stigning på 50 % ikke være matematisk mulig, hvilket gør dette til en upraktisk effektstørrelse. For det andet vil en stikprøvestørrelse give tilstrækkelig styrke til at påvise en effektstørrelse, der er mindst lige så stor som den ønskede effektstørrelse eller større, men ikke mindre. En gennemgang af ligningen tidligere i dette manuskript giver det matematiske bevis for dette koncept.

Så selv om en effektstørrelse på 50 % ville være imponerende – i mangel af et statistisk signifikant resultat – ville det ikke være sikkert, at undersøgelse E ville have tilstrækkelig styrke til at påvise en mindre effektstørrelse, selv om en mindre effektstørrelse kunne være af interesse. Derfor er vi tilbage ved det røde STOP-skilt i det nederste højre hjørne.

Bemærk, at i modsætning til de andre røde STOP-skilte kræver dette eksempel en subjektiv vurdering og er mindre objektivt end de tre andre veje til potentielt at overskride en acceptabel Type II-fejl. Som tidligere nævnt er dette et komplekst og udfordrende scenarie at fortolke, men det er ganske plausibelt (endda almindeligt), og derfor er det medtaget til overvejelse.

Vores sidste eksempel er undersøgelse F, hvor vi kan gå videre til den boks, der beskriver stikprøvestørrelse og styrke som acceptable. Styrken (80 %), den ønskede effektstørrelse (5 % ændring) og alfa (0,05) er alle passende, og den ønskede stikprøvestørrelse (35 i hver kohorte) blev opfyldt, hvilket fører os til den statistiske konklusion, at fraværet af et statistisk signifikant resultat viser, at der ikke findes nogen forskel. Anerkend, at potentialet for Type II-fejl stadig eksisterer, men det er ikke større end 1 – effekt – eller i dette tilfælde 20 % (1 – 0,8) – hvorfor det anses for acceptabelt.

Sammenfattende opfordrer vi lærerne til at introducere begrebet styrke og dets betydning for evaluering af statistisk forskning. Vi håber, at både stikprøvescenarierne og flowdiagrammet er nyttige for både lærere og elever, når de udforsker begrebet power, og hvordan det hænger sammen med effektstørrelse, stikprøvestørrelse og signifikansniveauet generelt.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Back to Top