Thursday Feb 03, 2022

Was ist Power?

Angela L.E. Walmsley und Michael C. Brown, Concordia University Wisconsin

Für viele Lehrer, die Einführungsstatistiken unterrichten, ist Power ein Begriff, der oft nicht verwendet wird. In vielen Fällen wird er sogar ganz vermieden. Viele Advanced Placement (AP)-Lehrer meiden das Thema sogar, wenn sie Signifikanztests unterrichten, so Floyd Bullard in „Power in Tests of Significance“. Macht ist jedoch ein wichtiges Konzept, das man als Konsument von Forschungsergebnissen verstehen muss, unabhängig davon, in welchem Bereich oder Beruf man als Erwachsener tätig sein wird. Daher sollte die Diskussion über die Potenz in einen Einführungskurs aufgenommen werden.

Um die Potenz zu diskutieren und zu verstehen, muss man sich über die Konzepte der Fehler vom Typ I und Typ II im Klaren sein. Doug Rush bietet in der Frühjahrsausgabe 2015 des Statistics Teacher Network eine Auffrischung zu Typ-I- und Typ-II-Fehlern (einschließlich Power und Effektgröße), aber kurz gesagt bedeutet ein Typ-I-Fehler die Ablehnung der Nullhypothese zugunsten einer falschen Alternativhypothese, und ein Typ-II-Fehler ist die Nichtablehnung einer falschen Nullhypothese zugunsten einer wahren Alternativhypothese. Die Wahrscheinlichkeit eines Fehlers vom Typ I wird üblicherweise als Alpha bezeichnet, während die Wahrscheinlichkeit eines Fehlers vom Typ II üblicherweise als Beta bezeichnet wird.

Nun zum Thema Leistung. Viele Lernende müssen eine Vielzahl von Perspektiven zur Definition von Macht kennen lernen. Bullard beschreibt mehrere Möglichkeiten, die Potenz richtig zu interpretieren:

  • Die Potenz ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie tatsächlich falsch ist.
  • Die Potenz ist die Wahrscheinlichkeit, eine richtige Entscheidung zu treffen (die Nullhypothese abzulehnen), wenn die Nullhypothese falsch ist.
  • Die Potenz ist die Wahrscheinlichkeit, dass ein Signifikanztest einen vorhandenen Effekt erfasst.
  • Power ist die Wahrscheinlichkeit, dass ein Signifikanztest eine Abweichung von der Nullhypothese aufdeckt, wenn eine solche Abweichung vorhanden ist.
  • Power ist die Wahrscheinlichkeit, einen Fehler vom Typ II zu vermeiden.

Einfach ausgedrückt, ist Power die Wahrscheinlichkeit, keinen Fehler vom Typ II zu machen, so Neil Weiss in Introductory Statistics.

Mathematisch ist die Aussagekraft 1 – Beta. Die Trennschärfe eines Hypothesentests liegt zwischen 0 und 1; wenn die Trennschärfe nahe bei 1 liegt, ist der Hypothesentest sehr gut in der Lage, eine falsche Nullhypothese aufzudecken. Beta wird in der Regel auf 0,2 festgelegt, kann aber auch von den Forschern auf einen kleineren Wert eingestellt werden.

Die Potenz kann also bis zu 0,8 betragen, aber auch höher sein. Potenzen unter 0,8 sind zwar nicht unmöglich, würden aber für die meisten Forschungsbereiche als zu niedrig angesehen werden.

Bullard nennt außerdem die folgenden vier Hauptfaktoren, die die Leistung beeinflussen:

  1. Signifikanzniveau (oder Alpha)
  2. Stichprobengröße
  3. Variabilität oder Varianz in der gemessenen Antwortvariablen
  4. Größe des Effekts der Variablen

Die Aussagekraft wird erhöht, wenn ein Forscher die Stichprobengröße erhöht, sowie wenn ein Forscher die Effektgrößen und Signifikanzniveaus erhöht. Es gibt noch andere Variablen, die die Aussagekraft beeinflussen, wie z. B. die Varianz (σ2), aber wir beschränken uns in dieser Diskussion auf die Beziehungen zwischen Aussagekraft, Stichprobengröße, Effektgröße und Alpha.

In Wirklichkeit möchte ein Forscher, dass sowohl Fehler vom Typ I als auch vom Typ II klein sind. In Bezug auf Signifikanzniveau und Potenz bedeutet dies laut Weiss, dass wir ein kleines Signifikanzniveau (nahe 0) und eine große Potenz (nahe 1) anstreben.

Nachdem wir das Konzept der Potenz ein wenig erläutert haben, haben die Autoren festgestellt, dass es für die Schüler am wichtigsten ist, die Bedeutung der Potenz im Zusammenhang mit dem Stichprobenumfang bei der Analyse einer Studie oder eines Forschungsartikels zu verstehen, anstatt die Potenz tatsächlich zu berechnen. Wir haben festgestellt, dass die Schüler im Allgemeinen die Konzepte der Stichprobenbildung, des Studiendesigns und der grundlegenden statistischen Tests verstehen, aber manchmal Schwierigkeiten haben, die Bedeutung der Aussagekraft und des erforderlichen Stichprobenumfangs zu verstehen. Daher ist das Diagramm in Abbildung 1 ein Hilfsmittel, das nützlich sein kann, wenn man einem Publikum, das Statistik lernt oder sein Verständnis von Forschungsmethodik vertiefen muss, das Konzept der Trennschärfe vorstellt.

Abbildung 1 Ein Hilfsmittel, das nützlich sein kann, wenn man einem Publikum, das Statistik lernt oder sein Verständnis von Forschungsmethodik vertiefen muss, das Konzept der Trennschärfe vorstellt

Dieses Konzept ist auch für Lehrer wichtig, um ihr eigenes Verständnis von Statistik zu entwickeln. Dieses Instrument kann den Schülern helfen, kritisch zu analysieren, ob die Forschungsstudie oder der Artikel, den sie lesen und interpretieren, eine akzeptable Aussagekraft und Stichprobengröße hat, um Fehler zu minimieren. Anstatt sich nur auf das Ergebnis des p-Wertes zu konzentrieren, der traditionell oft im Mittelpunkt steht, hilft dieses Diagramm (und die Beispiele unten) den Schülern zu verstehen, wie man bei der Analyse der Ergebnisse einer Studie die Aussagekraft, den Stichprobenumfang und die Effektgröße in Verbindung mit dem p-Wert betrachten kann. Wir empfehlen die Verwendung dieses Diagramms, um Ihren Schülern zu helfen, die Ergebnisse zu verstehen und zu interpretieren, wenn sie verschiedene Forschungsstudien oder Methoden studieren.

Beispiele für die Anwendung des Diagramms

Stellen Sie sich sechs fiktive Beispielstudien vor, in denen jeweils untersucht wird, ob eine neue App namens StatMaster Studenten dabei helfen kann, statistische Konzepte besser zu erlernen als traditionelle Methoden. Jede der sechs Studien wurde mit Highschool-Schülern durchgeführt, wobei die AP-Statistikklasse am Vormittag (35 Schüler), die die StatMaster-App verwendet hat, mit der AP-Statistikklasse am Nachmittag (35 Schüler) verglichen wurde, die die StatMaster-App nicht verwendet hat. Das Ergebnis jeder dieser Studien war der Vergleich der durchschnittlichen Testergebnisse zwischen der Vormittags- und der Nachmittagsklasse am Ende des Semesters.

Statistische Informationen und die fiktiven Ergebnisse sind für jede Studie (A-F) in Abbildung 2 dargestellt, wobei die wichtigsten Informationen fett und kursiv gedruckt sind. Obwohl es sich bei diesen sechs Beispielen um dasselbe Studiendesign handelt, sollten Sie die erfundenen Ergebnisse nicht mit anderen Studien vergleichen. Es handelt sich um sechs unabhängige vorgetäuschte Beispiele zur Veranschaulichung der Anwendung des Diagramms.

Abbildung 2 Sechs fiktive Beispielstudien, die jeweils untersuchen, ob eine neue App namens StatMaster den Schülern helfen kann, statistische Konzepte besser zu erlernen als herkömmliche Methoden (zum Vergrößern anklicken)

In Studie A ist das Schlüsselelement der p-Wert von 0,034. Da dieser Wert unter dem Alpha-Wert von 0,05 liegt, sind die Ergebnisse statistisch signifikant, und wir können beim blauen Stoppschild im START-Kasten anhalten. Zwar besteht bei der Studie immer noch die Gefahr eines Fehlers vom Typ I, aber dieses Ergebnis lässt die Möglichkeit eines Fehlers vom Typ II nicht offen. Anders ausgedrückt: Die Aussagekraft ist ausreichend, um einen Unterschied festzustellen, weil ein statistisch signifikanter Unterschied festgestellt wurde. Es spielt keine Rolle, dass es keine Berechnung der Mächtigkeit oder des Stichprobenumfangs gibt, wenn der p-Wert kleiner als alpha ist.

In Studie B sind die Zusammenfassungen bis auf den p-Wert von 0,383 gleich. Da dieser Wert über dem Alpha-Wert von 0,05 liegt, gehen wir im Diagramm in das große mittlere Feld, um zu prüfen, ob ein akzeptabler Fehler vom Typ II vorliegt oder nicht. In diesem Fall sind die Kriterien des oberen linken Kästchens erfüllt (dass es keine Stichprobengröße oder Leistungsberechnung gibt), und daher kann das Fehlen eines statistisch signifikanten Unterschieds auf eine unzureichende Leistung zurückzuführen sein (oder auf ein echtes Fehlen eines Unterschieds, aber wir können eine unzureichende Leistung nicht ausschließen). Wir haben den oberen linken roten STOPP getroffen. Da eine unzureichende Aussagekraft – oder ein übermäßiges Risiko eines Fehlers vom Typ II – eine Möglichkeit ist, ist eine Schlussfolgerung über die Wirksamkeit von StatMaster statistisch nicht möglich.

In Studie C ist der p-Wert wiederum größer als Alpha, was uns zum zweiten Hauptfeld zurückführt. Im Gegensatz zu Studie B ermöglicht es uns das Vorhandensein einer gewünschten Potenz- und Stichprobenberechnung, den roten STOPP im oberen linken Quadranten zu vermeiden, aber die Potenz von 70 % lässt uns das Kriterium des oberen rechten roten STOPPs treffen. Bei einer Trennschärfe von 70 % liegt der Schwellenwert für einen potenziellen Fehler vom Typ II bei 30 % (1-0,7) und damit über den traditionell akzeptablen 20 %. Die Fähigkeit, eine statistische Schlussfolgerung in Bezug auf StatMaster zu ziehen, wird durch das potenziell unannehmbar hohe Risiko eines Fehlers vom Typ II beeinträchtigt.

In Studie D ist der p-Wert weiterhin größer als Alpha, aber – im Gegensatz zu Studie B und Studie C – hat Studie D eine angemessene Power von 80 %. Das ist eine gute Sache. Die Herausforderung besteht in der gewünschten Stichprobengröße, um diese 80 % Power zu erreichen. In Studie D werden 40 Probanden in jeder Klasse benötigt, um eine Aussagekraft von 80 % zu erreichen, aber die Studie hat nur 35 Probanden, so dass wir auf den roten STOPP im unteren linken Quadranten stoßen. Da die gewünschte Stichprobengröße nicht erreicht wurde, beträgt die tatsächliche Aussagekraft weniger als 80 %, so dass wir uns praktisch in der gleichen Situation wie bei Studie C befinden – mit dem Risiko eines übermäßigen Typ-II-Fehlers von über 20 %.

In Studie E sind die Herausforderungen komplexer. Mit einem p-Wert größer als alpha gehen wir erneut in die mittlere große Box, um das Potenzial eines übermäßigen oder unbestimmten Fehlers vom Typ II zu untersuchen. In diesem Fall sind Power (80 %), Alpha (0,05) und Stichprobengröße (35 in jeder Kohorte) alle angemessen. Die Effektgröße wird jedoch auf 50 % festgelegt.

Eine Veränderung der Punktzahl um 50 % wäre zwar von Interesse, birgt jedoch zwei Probleme. Erstens ist es wahrscheinlich, dass frühere Kursangebote eine gewisse Schätzung der Leistung in Abwesenheit von StatMaster liefern, und – vorausgesetzt, sie liegt auch nur annähernd in der Nähe des in Studie E ermittelten Mittelwerts von 85 % – wäre eine Steigerung um 50 % mathematisch nicht möglich, so dass dies eine unpraktische Effektgröße ist. Zweitens bietet eine Stichprobengröße eine ausreichende Aussagekraft, um eine Effektgröße nachzuweisen, die mindestens so groß wie die gewünschte Effektgröße oder größer, aber nicht kleiner ist. Die Überprüfung der Gleichung weiter oben in diesem Manuskript liefert den mathematischen Beweis für dieses Konzept.

Während also eine Effektgröße von 50 % beeindruckend wäre – in Ermangelung eines statistisch signifikanten Ergebnisses – hätte die Studie E nicht mit Sicherheit eine ausreichende Aussagekraft, um eine kleinere Effektgröße nachzuweisen, auch wenn eine kleinere Effektgröße von Interesse sein könnte. Daher bleiben wir bei dem roten STOPP-Schild in der unteren rechten Ecke.

Im Gegensatz zu den anderen roten STOPP-Schildern erfordert dieses Beispiel eine subjektive Beurteilung und ist weniger objektiv als die anderen drei Pfade, um möglicherweise einen akzeptablen Fehler vom Typ II zu überschreiten. Wie bereits erwähnt, handelt es sich um ein komplexes und schwierig zu interpretierendes Szenario, das jedoch durchaus plausibel (und sogar häufig) ist und daher in die Betrachtung einbezogen wurde.

Unser letztes Beispiel ist die Studie F, bei der wir zum Kasten übergehen können, der Stichprobengröße und Power als akzeptabel beschreibt. Die Aussagekraft (80 %), die gewünschte Effektgröße (5 % Veränderung) und Alpha (0,05) sind alle angemessen, und die gewünschte Stichprobengröße (35 in jeder Kohorte) wurde erreicht, was uns zu der statistischen Schlussfolgerung führt, dass das Fehlen eines statistisch signifikanten Ergebnisses zeigt, dass kein Unterschied besteht. Es ist zu beachten, dass das Potenzial für einen Fehler vom Typ II immer noch vorhanden ist, aber es ist nicht größer als 1 – Potenz – oder in diesem Fall 20% (1 – 0,8) – weshalb es als akzeptabel angesehen wird.

Abschließend möchten wir die Lehrkräfte ermutigen, das Konzept der Trennschärfe und seine Bedeutung für die Bewertung statistischer Untersuchungen vorzustellen. Wir hoffen, dass sowohl die Beispielszenarien als auch das Flussdiagramm sowohl für Lehrer als auch für Schüler nützlich sind, wenn sie das Konzept der Power und seine Beziehung zu Effektgröße, Stichprobengröße und Signifikanzniveau im Allgemeinen erkunden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Back to Top