Thursday Feb 03, 2022

Ce este puterea?

Angela L.E. Walmsley și Michael C. Brown, Concordia University Wisconsin

Pentru mulți profesori de statistică introductivă, puterea este un concept care adesea nu este folosit. În multe cazuri, este evitat cu totul. De fapt, mulți profesori de Advanced Placement (AP) stau departe de acest subiect atunci când predau testele de semnificație, potrivit lui Floyd Bullard în „Power in Tests of Significance”. Cu toate acestea, puterea este un concept important de înțeles în calitate de consumator de cercetare, indiferent de domeniul sau de profesia în care un student poate intra ca adult. Prin urmare, discuția despre putere ar trebui să fie inclusă într-un curs introductiv.

Pentru a discuta și a înțelege puterea, trebuie să fie clare conceptele de erori de tip I și de tip II. Doug Rush oferă o reîmprospătare a erorilor de tip I și de tip II (inclusiv puterea și mărimea efectului) în numărul din primăvara anului 2015 al revistei Statistics Teacher Network, dar, pe scurt, o eroare de tip I este respingerea ipotezei nule în favoarea unei ipoteze alternative false, iar o eroare de tip II este eșecul de a respinge o ipoteză nulă falsă în favoarea unei ipoteze alternative adevărate. Probabilitatea unei erori de tip I este cunoscută în mod obișnuit sub numele de Alfa, în timp ce probabilitatea unei erori de tip II este cunoscută în mod obișnuit sub numele de Beta.

Acum trecem la putere. Mulți cursanți trebuie să fie expuși la o varietate de perspective privind definiția puterii. Bullard descrie mai multe moduri de a interpreta corect puterea:

  • Puterea este probabilitatea de a respinge ipoteza nulă atunci când, de fapt, aceasta este falsă.
  • Puterea este probabilitatea de a lua o decizie corectă (de a respinge ipoteza nulă) atunci când ipoteza nulă este falsă.
  • Puterea este probabilitatea ca un test de semnificație să sesizeze un efect care este prezent.
  • Puterea este probabilitatea ca un test de semnificație să detecteze o abatere de la ipoteza nulă, în cazul în care o astfel de abatere există.
  • Puterea este probabilitatea de a evita o eroare de tip II.

Simplu spus, puterea este probabilitatea de a nu face o eroare de tip II, conform lui Neil Weiss în Introducere în statistică.

Matematic, puterea este 1 – beta. Puterea unui test de ipoteză este cuprinsă între 0 și 1; dacă puterea este apropiată de 1, testul de ipoteză este foarte bun la detectarea unei ipoteze nule false. Beta este stabilit în mod obișnuit la 0,2, dar poate fi stabilit de cercetători să fie mai mic.

În consecință, puterea poate fi la fel de mică ca 0,8, dar poate fi mai mare. Puterile mai mici de 0,8, deși nu sunt imposibile, ar fi considerate de obicei prea mici pentru majoritatea domeniilor de cercetare.

Bullard afirmă, de asemenea, că există următorii patru factori principali care afectează puterea:

  1. Nivelul de semnificație (sau alfa)
  2. Dimensiunea eșantionului
  3. Variabilitatea, sau varianța, în variabila de răspuns măsurată
  4. Mărimea efectului variabilei

Puterea crește atunci când un cercetător mărește dimensiunea eșantionului, precum și atunci când un cercetător mărește dimensiunile efectului și nivelurile de semnificație. Există și alte variabile care influențează puterea, inclusiv varianța (σ2), dar pentru această discuție ne vom limita la relațiile dintre putere, mărimea eșantionului, mărimea efectului și alfa.

În realitate, un cercetător dorește ca atât erorile de tip I, cât și cele de tip II să fie mici. În ceea ce privește nivelul de semnificație și puterea, Weiss spune că acest lucru înseamnă că ne dorim un nivel de semnificație mic (aproape de 0) și o putere mare (aproape de 1).

După ce am afirmat puțin despre conceptul de putere, autorii au constatat că este cel mai important ca elevii să înțeleagă importanța puterii în legătură cu mărimea eșantionului atunci când analizează un studiu sau un articol de cercetare, față de calcularea efectivă a puterii. Am constatat că elevii înțeleg, în general, conceptele de eșantionare, designul studiului și testele statistice de bază, dar, uneori, au dificultăți în ceea ce privește importanța puterii și dimensiunea necesară a eșantionului. Prin urmare, graficul din figura 1 este un instrument care poate fi util atunci când se introduce conceptul de putere pentru un public care învață statistică sau care are nevoie să își aprofundeze înțelegerea metodologiei de cercetare.

Figura 1 Un instrument care poate fi util atunci când se introduce conceptul de putere pentru un public care învață statistică sau care are nevoie să își aprofundeze înțelegerea metodologiei de cercetare

Acest concept este important pentru profesori să îl dezvolte și în propria lor înțelegere a statisticii. Acest instrument poate ajuta un elev să analizeze în mod critic dacă studiul de cercetare sau articolul pe care îl citește și îl interpretează are o putere și o dimensiune a eșantionului acceptabile pentru a minimiza eroarea. În loc să se concentreze doar pe rezultatul valorii p, care a fost atât de des în mod tradițional în centrul atenției, acest grafic (și exemplele de mai jos) îi ajută pe elevi să înțeleagă cum să analizeze puterea, mărimea eșantionului și mărimea efectului împreună cu valoarea p atunci când analizează rezultatele unui studiu. Încurajăm utilizarea acestui grafic pentru a-i ajuta pe elevii dumneavoastră să înțeleagă și să interpreteze rezultatele pe măsură ce studiază diverse studii sau metodologii de cercetare.

Exemple de aplicare a graficului

Imaginați șase studii fictive de exemplu care examinează fiecare dacă o nouă aplicație numită StatMaster îi poate ajuta pe elevi să învețe conceptele statistice mai bine decât metodele tradiționale. Fiecare dintre cele șase studii a fost realizat cu elevi de liceu, comparând clasa de statistică AP de dimineață (35 de elevi) care a încorporat aplicația StatMaster cu clasa de statistică AP de după-amiază (35 de elevi) care nu a utilizat aplicația StatMaster. Rezultatul fiecăruia dintre aceste studii a fost compararea scorurilor medii la teste între clasele de dimineață și cele de după-amiază la sfârșitul semestrului.

Informațiile statistice și rezultatele fictive sunt prezentate pentru fiecare studiu (A-F) în Figura 2, cu informațiile cheie prezentate în caractere italice bold. Deși aceste șase exemple au același design de studiu, nu comparați rezultatele inventate între studii. Acestea sunt șase exemple fictive independente pentru a ilustra aplicarea graficului.

Figura 2 Șase exemple de studii fictive care examinează fiecare dacă o nouă aplicație numită StatMaster îi poate ajuta pe elevi să învețe conceptele statistice mai bine decât metodele tradiționale (faceți clic pentru mărire)

În studiul A, elementul cheie este valoarea p de 0,034. Deoarece aceasta este mai mică decât alfa de 0,05, rezultatele sunt semnificative din punct de vedere statistic și ne putem opri la semnul albastru de oprire din caseta START. În timp ce studiul încă riscă să comită o eroare de tip I, acest rezultat nu lasă deschisă posibilitatea unei erori de tip II. Altfel spus, puterea este adecvată pentru a detecta o diferență, deoarece au detectat o diferență care a fost semnificativă din punct de vedere statistic. Nu contează faptul că nu există un calcul al puterii sau al mărimii eșantionului atunci când valoarea p este mai mică decât alfa.

În studiul B, rezumatele sunt aceleași, cu excepția valorii p de 0,383. Deoarece aceasta este mai mare decât alfa de 0,05, ne mutăm în grafic în caseta mare din mijloc pentru a verifica prezența sau absența unei erori de tip II acceptabile. În acest caz, criteriile din căsuța din stânga sus sunt îndeplinite (faptul că nu există o dimensiune a eșantionului sau un calcul al puterii) și, prin urmare, lipsa unei diferențe semnificative din punct de vedere statistic se poate datora unei puteri inadecvate (sau unei lipse reale de diferență, dar nu putem exclude o putere inadecvată). Am atins STOP-ul roșu din stânga sus. Deoarece puterea inadecvată – sau riscul excesiv de eroare de tip II – este o posibilitate, tragerea unei concluzii cu privire la eficacitatea StatMaster nu este posibilă din punct de vedere statistic.

În Studiul C, din nou valoarea p este mai mare decât alfa, ceea ce ne duce înapoi la a doua casetă principală. Spre deosebire de Studiul B, prezența unei puteri dorite și a unui calcul al mărimii eșantionului ne permite să evităm STOP-ul roșu din cadranul din stânga sus, dar puterea de 70% ne lasă să ne lovim de criteriul STOP-ului roșu din dreapta sus. Cu o putere de 70 %, pragul nostru de eroare potențială de tip II este de 30 % (1-0,7), ceea ce este peste pragul tradițional acceptabil de 20 %. Capacitatea de a trage o concluzie statistică în ceea ce privește StatMaster este împiedicată de potențialul de risc inacceptabil de mare al erorii de tip II.

În Studiul D, valoarea p continuă să fie mai mare decât alfa, dar – spre deosebire de Studiul B și Studiul C – Studiul D are o putere adecvată stabilită la 80%. Acesta este un lucru bun. Provocarea devine dimensiunea dorită a eșantionului pentru a îndeplini această putere de 80%. Studiul D spune că are nevoie de 40 de subiecți în fiecare clasă pentru a fi sigur de o putere de 80%, dar studiul are doar 35 de subiecți, așa că ne lovim de STOP-ul roșu din cadranul din stânga jos. Deoarece dimensiunea dorită a eșantionului nu a fost îndeplinită, puterea reală este mai mică de 80%, lăsându-ne efectiv în aceeași situație ca și în cazul Studiului C – cu risc de eroare de tip II excesivă peste 20%.

În Studiul E, provocările sunt mai complexe. Cu o valoare p mai mare decât alfa, ne mutăm din nou în caseta mare din mijloc pentru a examina potențialul de eroare de tip II excesivă sau nedeterminată. În acest caz, puterea (80%), alfa (0,05) și dimensiunea eșantionului (35 în fiecare cohortă) sunt toate adecvate. Cu toate acestea, mărimea efectului este stabilită la 50%.

În timp ce o schimbare de 50% a scorului ar fi de interes, aceasta are două probleme. În primul rând, este probabil ca ofertele anterioare de cursuri să furnizeze o anumită estimare a performanței în absența StatMaster și – presupunând că este chiar și pe departe apropiată de media de 85% observată în Studiul E – o creștere de 50% nu ar fi posibilă din punct de vedere matematic, ceea ce face ca aceasta să fie o dimensiune a efectului nepractică. În al doilea rând, o dimensiune a eșantionului va oferi o putere adecvată pentru a detecta o dimensiune a efectului care este cel puțin la fel de mare ca dimensiunea efectului dorit sau mai mare, dar nu mai mică. Revizuirea ecuației de mai devreme în acest manuscris oferă dovezile matematice ale acestui concept.

Deci, în timp ce o dimensiune a efectului de 50% ar fi impresionantă – în absența unui rezultat semnificativ din punct de vedere statistic – studiul E nu ar fi sigur că ar avea o putere adecvată pentru a detecta o dimensiune a efectului mai mică, chiar dacă o dimensiune a efectului mai mică ar putea fi de interes. Prin urmare, am rămas la semnul roșu STOP din colțul din dreapta jos.

Rețineți că, spre deosebire de celelalte semne roșii STOP, acest exemplu necesită o judecată subiectivă și este mai puțin obiectiv decât celelalte trei căi pentru a depăși potențial eroarea de tip II acceptabilă. După cum s-a menționat anterior, acesta este un scenariu complex și dificil de interpretat, dar este destul de plauzibil (chiar comun) și, prin urmare, a fost inclus pentru a fi luat în considerare.

Exemplul nostru final este Studiul F, în care putem progresa până la caseta care descrie dimensiunea eșantionului și puterea ca fiind acceptabile. Puterea (80%), mărimea dorită a efectului (schimbare de 5%) și alfa (0,05) sunt toate adecvate, iar mărimea dorită a eșantionului (35 în fiecare cohortă) a fost îndeplinită, ceea ce ne conduce la concluzia statistică că absența unei constatări semnificative din punct de vedere statistic demonstrează că nu există nicio diferență. Recunoașteți că există încă un potențial de eroare de tip II, dar acesta nu este mai mare decât 1 – puterea – sau în acest caz 20% (1 – 0,8) – motiv pentru care este considerat acceptabil.

În concluzie, încurajăm profesorii să introducă conceptul de putere și importanța sa în evaluarea cercetării statistice. Sperăm că atât scenariile de eșantionare, cât și organigrama sunt utile atât pentru profesori, cât și pentru elevi, pe măsură ce aceștia explorează conceptul de putere și modul în care acesta se raportează la mărimea efectului, mărimea eșantionului și nivelul de semnificație în general.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.

Back to Top