Thursday Feb 03, 2022

Qu’est-ce que la puissance ?

Angela L.E. Walmsley et Michael C. Brown, Université Concordia Wisconsin

Pour de nombreux enseignants de statistiques d’introduction, la puissance est un concept qui n’est souvent pas utilisé. Dans de nombreux cas, il est carrément évité. En fait, de nombreux professeurs de Advanced Placement (AP) évitent le sujet lorsqu’ils enseignent les tests de signification, selon Floyd Bullard dans « Power in Tests of Significance ». Pourtant, le pouvoir est un concept important à comprendre en tant que consommateur de recherche, quel que soit le domaine ou la profession dans lequel l’étudiant se lance à l’âge adulte. Par conséquent, la discussion de la puissance devrait être incluse dans un cours d’introduction.

Pour discuter et comprendre la puissance, il faut être clair sur les concepts d’erreurs de type I et de type II. Doug Rush fournit un rappel sur les erreurs de type I et de type II (y compris la puissance et la taille de l’effet) dans le numéro du printemps 2015 du Statistics Teacher Network, mais, brièvement, une erreur de type I consiste à rejeter l’hypothèse nulle en faveur d’une hypothèse alternative fausse, et une erreur de type II consiste à ne pas rejeter une hypothèse nulle fausse en faveur d’une hypothèse alternative vraie. La probabilité d’une erreur de type I est généralement connue sous le nom de Alpha, tandis que la probabilité d’une erreur de type II est généralement connue sous le nom de Bêta.

Passons maintenant à la puissance. De nombreux apprenants ont besoin d’être exposés à une variété de perspectives sur la définition du pouvoir. Bullard décrit plusieurs façons d’interpréter correctement la puissance :

  • La puissance est la probabilité de rejeter l’hypothèse nulle quand, en fait, elle est fausse.
  • La puissance est la probabilité de prendre une décision correcte (de rejeter l’hypothèse nulle) quand l’hypothèse nulle est fausse.
  • La puissance est la probabilité qu’un test de signification capte un effet qui est présent.
  • La puissance est la probabilité qu’un test de signification détecte une déviation de l’hypothèse nulle, si une telle déviation existe.
  • La puissance est la probabilité d’éviter une erreur de type II.

En termes simples, la puissance est la probabilité de ne pas faire d’erreur de type II, selon Neil Weiss dans Introductory Statistics.

Mathématiquement, la puissance est égale à 1 – bêta. La puissance d’un test d’hypothèse est comprise entre 0 et 1. Si la puissance est proche de 1, le test d’hypothèse est très bon pour détecter une fausse hypothèse nulle. Le bêta est généralement fixé à 0,2, mais peut être fixé par les chercheurs à une valeur inférieure.

En conséquence, la puissance peut être aussi faible que 0,8, mais peut être plus élevée. Des puissances inférieures à 0,8, sans être impossibles, seraient généralement considérées comme trop faibles pour la plupart des domaines de recherche.

Bullard déclare également qu’il y a les quatre facteurs principaux suivants qui affectent la puissance :

  1. Niveau de signification (ou alpha)
  2. Taille de l’échantillon
  3. Variabilité, ou variance, dans la variable de réponse mesurée
  4. Magnitude de l’effet de la variable

La puissance augmente lorsqu’un chercheur augmente la taille de l’échantillon, ainsi que lorsqu’il augmente les tailles d’effet et les niveaux de signification. Il existe d’autres variables qui influencent également la puissance, notamment la variance (σ2), mais nous limiterons notre conversation aux relations entre la puissance, la taille de l’échantillon, la taille de l’effet et l’alpha pour cette discussion.

En réalité, un chercheur souhaite que les erreurs de type I et de type II soient faibles. En termes de niveau de signification et de puissance, Weiss dit que cela signifie que nous voulons un petit niveau de signification (proche de 0) et une grande puissance (proche de 1).

Ayant énoncé un peu le concept de puissance, les auteurs ont trouvé qu’il est plus important pour les étudiants de comprendre l’importance de la puissance par rapport à la taille de l’échantillon lors de l’analyse d’une étude ou d’un article de recherche par rapport au calcul réel de la puissance. Nous avons constaté que les élèves comprennent généralement les concepts d’échantillonnage, de conception d’étude et de tests statistiques de base, mais qu’ils ont parfois du mal à comprendre l’importance de la puissance et de la taille d’échantillon nécessaire. Par conséquent, le tableau de la figure 1 est un outil qui peut être utile lors de l’introduction du concept de puissance à un public apprenant les statistiques ou ayant besoin d’approfondir sa compréhension de la méthodologie de recherche.

Figure 1 Un outil qui peut être utile lors de l’introduction du concept de puissance à un public apprenant les statistiques ou ayant besoin d’approfondir sa compréhension de la méthodologie de recherche

Ce concept est important pour les enseignants à développer dans leur propre compréhension des statistiques, ainsi. Cet outil peut aider un étudiant à analyser de manière critique si l’étude de recherche ou l’article qu’il lit et interprète a une puissance et une taille d’échantillon acceptables pour minimiser les erreurs. Plutôt que de se concentrer uniquement sur le résultat de la valeur p, qui a si souvent été le point central, ce tableau (et les exemples ci-dessous) aide les étudiants à comprendre comment examiner la puissance, la taille de l’échantillon et la taille de l’effet en conjonction avec la valeur p lors de l’analyse des résultats d’une étude. Nous encourageons l’utilisation de ce tableau pour aider vos élèves à comprendre et à interpréter les résultats lorsqu’ils étudient diverses études de recherche ou méthodologies.

Exemples d’application du tableau

Imaginez six exemples d’études fictives qui examinent chacune si une nouvelle application appelée StatMaster peut aider les étudiants à mieux apprendre les concepts statistiques que les méthodes traditionnelles. Chacune des six études a été menée auprès d’élèves du secondaire, en comparant la classe de statistiques AP du matin (35 élèves) qui a intégré l’appli StatMaster à la classe de statistiques AP de l’après-midi (35 élèves) qui n’a pas utilisé l’appli StatMaster. Le résultat de chacune de ces études était la comparaison des résultats moyens aux tests entre les classes du matin et de l’après-midi à la fin du semestre.

Les informations statistiques et les résultats fictifs sont présentés pour chaque étude (A-F) dans la figure 2, les informations clés étant indiquées en italique gras. Bien que ces six exemples portent sur le même plan d’étude, ne comparez pas les résultats fictifs entre les différentes études. Il s’agit de six exemples fictifs indépendants destinés à illustrer l’application du tableau.

Figure 2 Six exemples d’études fictives qui examinent chacune si une nouvelle application appelée StatMaster peut aider les étudiants à mieux apprendre les concepts statistiques que les méthodes traditionnelles (cliquez pour agrandir)

Dans l’étude A, l’élément clé est la valeur p de 0,034. Puisque cette valeur est inférieure à l’alpha de 0,05, les résultats sont statistiquement significatifs et nous pouvons nous arrêter au panneau d’arrêt bleu dans la case START. Si l’étude risque toujours de commettre une erreur de type I, ce résultat ne laisse pas la possibilité d’une erreur de type II. En d’autres termes, la puissance est suffisante pour détecter une différence parce qu’ils ont détecté une différence qui était statistiquement significative. Il importe peu qu’il n’y ait pas de calcul de puissance ou de taille d’échantillon lorsque la valeur p est inférieure à alpha.

Dans l’étude B, les résumés sont les mêmes, à l’exception de la valeur p de 0,383. Comme celle-ci est supérieure à l’alpha de 0,05, nous nous déplaçons dans le graphique vers la grande case du milieu pour vérifier la présence ou l’absence d’une erreur de type II acceptable. Dans ce cas, les critères de la case supérieure gauche sont remplis (il n’y a pas de calcul de la taille de l’échantillon ou de la puissance) et donc l’absence de différence statistiquement significative peut être due à une puissance inadéquate (ou à une véritable absence de différence, mais nous ne pouvons pas exclure une puissance inadéquate). Nous avons atteint le STOP rouge supérieur gauche. Puisqu’une puissance inadéquate – ou un risque excessif d’erreur de type II – est une possibilité, tirer une conclusion quant à l’efficacité de StatMaster n’est pas statistiquement possible.

Dans l’étude C, à nouveau la valeur p est supérieure à alpha, ce qui nous ramène à la deuxième case principale. Contrairement à l’étude B, la présence d’une puissance souhaitée et le calcul de la taille de l’échantillon nous permettent d’éviter le STOP rouge dans le quadrant supérieur gauche, mais la puissance de 70% nous laisse toucher le critère du STOP rouge supérieur droit. Avec une puissance de 70%, notre seuil d’erreur potentielle de type II est de 30% (1-0,7), ce qui est supérieur aux 20% traditionnellement acceptables. La capacité de tirer une conclusion statistique concernant StatMaster est entravée par le potentiel de risque inacceptable d’erreur de type II.

Dans l’étude D, la valeur p continue d’être supérieure à alpha, mais – contrairement aux études B et C – l’étude D a une puissance appropriée fixée à 80%. C’est une bonne chose. Le défi consiste à déterminer la taille d’échantillon souhaitée pour atteindre cette puissance de 80 %. L’étude D indique qu’elle a besoin de 40 sujets dans chaque classe pour être sûre d’avoir une puissance de 80 %, mais l’étude ne compte que 35 sujets, et nous avons donc atteint le STOP rouge dans le quadrant inférieur gauche. Comme la taille d’échantillon souhaitée n’a pas été atteinte, la puissance réelle est inférieure à 80 %, ce qui nous laisse effectivement dans la même situation que l’étude C – au risque d’une erreur de type II excessive au-delà de 20 %.

Dans l’étude E, les défis sont plus complexes. Avec une valeur p supérieure à alpha, nous passons une fois de plus à la grande case du milieu pour examiner le potentiel d’erreur de type II excessive ou indéterminée. Dans ce cas, la puissance (80 %), le coefficient alpha (0,05) et la taille de l’échantillon (35 dans chaque cohorte) sont tous adéquats. La taille de l’effet, cependant, est fixée à 50 %.

Bien qu’une variation de 50 % du score soit intéressante, elle pose deux problèmes. Tout d’abord, il est probable que les offres de cours antérieures fournissent une certaine estimation de la performance en l’absence de StatMaster, et – en supposant qu’elle soit même vaguement proche de la moyenne de 85% observée dans l’étude E – une augmentation de 50% ne serait pas mathématiquement possible, ce qui en fait une taille d’effet peu pratique. Deuxièmement, la taille de l’échantillon fournira une puissance adéquate pour détecter une taille d’effet au moins aussi importante que la taille d’effet souhaitée ou plus importante, mais pas plus petite. L’examen de l’équation présentée plus haut dans ce manuscrit fournit la preuve mathématique de ce concept.

Donc, alors qu’une taille d’effet de 50% serait impressionnante – en l’absence d’un résultat statistiquement significatif – l’étude E ne serait pas certaine d’avoir une puissance adéquate pour détecter une taille d’effet plus petite, même si une taille d’effet plus petite pourrait être intéressante. Par conséquent, nous nous retrouvons au panneau rouge STOP dans le coin inférieur droit.

Notez que, contrairement aux autres panneaux rouges STOP, cet exemple nécessite un jugement subjectif et est moins objectif que les trois autres voies pour dépasser potentiellement l’erreur de type II acceptable. Comme indiqué précédemment, il s’agit d’un scénario complexe et difficile à interpréter, mais il est tout à fait plausible (même commun), et donc inclus pour examen.

Notre dernier exemple est l’étude F, dans laquelle nous pouvons progresser vers la case décrivant la taille de l’échantillon et la puissance comme acceptables. La puissance (80 %), la taille d’effet souhaitée (5 % de changement) et l’alpha (0,05) sont tous appropriés et la taille d’échantillon souhaitée (35 dans chaque cohorte) a été respectée, ce qui nous amène à la conclusion statistique que l’absence de résultat statistiquement significatif démontre qu’il n’existe aucune différence. Reconnaissez que le potentiel d’erreur de type II existe toujours, mais qu’il n’est pas supérieur à 1 – la puissance – ou dans ce cas 20 % (1 – 0,8) – c’est pourquoi il est jugé acceptable.

En conclusion, nous encourageons les enseignants à introduire le concept de puissance et son importance dans l’évaluation de la recherche statistique. Nous espérons que les scénarios d’échantillonnage et l’organigramme seront utiles aux enseignants et aux élèves dans leur exploration du concept de puissance et de son lien avec la taille de l’effet, la taille de l’échantillon et le niveau de signification en général.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Back to Top