Thursday Feb 03, 2022

Mitä on teho?

Angela L.E. Walmsley ja Michael C. Brown, Concordia University Wisconsin

Monille tilastotieteen alkeisopettajille teho on käsite, jota ei useinkaan käytetä. Monissa tapauksissa sitä vältetään kokonaan. Itse asiassa monet Advanced Placement (AP) -opettajat pysyvät poissa aiheesta, kun he opettavat merkitsevyystestejä, Floyd Bullardin kirjassa ”Power in Tests of Significance”. Valta on kuitenkin tärkeä käsite, joka on ymmärrettävä tutkimuksen kuluttajana riippumatta siitä, mille alalle tai ammattiin opiskelija siirtyy aikuisena. Näin ollen keskustelu tehosta tulisi sisällyttää johdantokurssiin.

Keskustellakseen ja ymmärtääkseen tehosta on oltava selvillä tyypin I ja tyypin II virheiden käsitteistä. Doug Rush antaa kertauksen tyypin I ja tyypin II virheistä (mukaan lukien teho ja efektikoko) Statistics Teacher Networkin kevään 2015 numerossa, mutta lyhyesti sanottuna tyypin I virhe on nollahypoteesin hylkääminen väärän vaihtoehtoisen hypoteesin hyväksi, ja tyypin II virhe on väärän nollahypoteesin hylkäämättä jättäminen oikean vaihtoehtoisen hypoteesin hyväksi. Tyypin I virheen todennäköisyys tunnetaan tyypillisesti nimellä Alpha, kun taas tyypin II virheen todennäköisyys tunnetaan tyypillisesti nimellä Beta.

Nyt siirrytään tehoon. Monet oppijat tarvitsevat erilaisia näkökulmia tehon määritelmään. Bullard kuvaa useita tapoja tulkita potenssia oikein:

  • Potenssi on todennäköisyys hylätä nollahypoteesi, kun se todellisuudessa on väärä.
  • Potenssi on todennäköisyys tehdä oikea päätös (hylätä nollahypoteesi), kun nollahypoteesi on väärä.
  • Potenssi on todennäköisyys sille, että merkitsevyystesti poimii vaikutuksen, joka on olemassa.
  • Power on todennäköisyys, että merkitsevyystesti havaitsee poikkeaman nollahypoteesista, jos sellainen poikkeama on olemassa.
  • Power on todennäköisyys välttää tyypin II virhe.

Yksinkertaisesti sanottuna power on todennäköisyys olla tekemättä tyypin II virhettä, Neil Weissin Introductory Statistics -kirjan mukaan.

Matemaattisesti teho on 1 – beta. Hypoteesitestin teho on 0:n ja 1:n välillä; jos teho on lähellä 1:tä, hypoteesitesti on erittäin hyvä havaitsemaan väärän nollahypoteesin. Betaksi asetetaan yleensä 0,2, mutta tutkijat voivat asettaa sen pienemmäksi.

Siten teho voi olla niinkin pieni kuin 0,8, mutta se voi olla suurempi. Alle 0,8:aa pienempiä tehoja, vaikka ne eivät olekaan mahdottomia, pidettäisiin yleensä liian alhaisina useimmilla tutkimusaloilla.

Bullard toteaa myös, että tehoon vaikuttavat seuraavat neljä päätekijää:

  1. Signifikaatiotaso (tai alfa)
  2. Otoksen koko
  3. Mittavan vastemuuttujan muuttuvuus eli varianssi
  4. Muuttujan vaikutuksen suuruus

Teho lisääntyy, kun tutkija kasvattaa otoskokoa sekä kun tutkija kasvattaa efektikokoja ja merkitsevyystasoja. On muitakin muuttujia, jotka vaikuttavat tehoon, kuten varianssi (σ2), mutta rajoitumme tässä keskustelussa tehon, otoskoon, vaikutuskoon ja alfan välisiin suhteisiin.

Todellisuudessa tutkija haluaa sekä tyypin I että tyypin II virheiden olevan pieniä. Merkitsevyystason ja tehon osalta Weissin mukaan tämä tarkoittaa, että haluamme pienen merkitsevyystason (lähellä 0:a) ja suuren tehon (lähellä 1:tä).

Koska olemme todenneet hieman tehon käsitteestä, kirjoittajat ovat todenneet, että opiskelijoiden on tärkeintä ymmärtää tehon merkitys suhteessa otoskokoon, kun he analysoivat tutkimusta tai tutkimusartikkelia, verrattuna varsinaiseen tehon laskemiseen. Olemme havainneet, että opiskelijat ymmärtävät yleensä otannan, tutkimussuunnittelun ja tilastollisten perustestien käsitteet, mutta joskus he kamppailevat tehon ja tarvittavan otoskoon merkityksen kanssa. Siksi kuvassa 1 oleva kaavio on työkalu, joka voi olla hyödyllinen esiteltäessä tehon käsitettä yleisölle, joka oppii tilastoja tai tarvitsee lisää ymmärrystä tutkimusmetodologiasta.

Kuva 1 Työkalu, joka voi olla hyödyllinen esiteltäessä tehon käsitettä yleisölle, joka oppii tilastoja tai tarvitsee lisää ymmärrystä tutkimusmetodologiasta

Käsitteestä on tärkeää, että opettajat kehittävät omaa ymmärrystään tilastotieteestä myös. Tämä työkalu voi auttaa opiskelijaa analysoimaan kriittisesti, onko hänen lukemassaan ja tulkitsemassaan tutkimuksessa tai artikkelissa hyväksyttävä teho ja otoskoko virheen minimoimiseksi. Sen sijaan, että keskityttäisiin vain p-arvotulokseen, johon niin usein perinteisesti on keskitytty, tämä kaavio (ja alla olevat esimerkit) auttavat oppilaita ymmärtämään, miten tutkimustuloksia analysoitaessa voidaan tarkastella tehoa, otoskokoa ja vaikutuskokoa yhdessä p-arvon kanssa. Kannustamme käyttämään tätä taulukkoa, jotta oppilaat ymmärtäisivät ja tulkitsisivat tuloksia, kun he tutkivat erilaisia tutkimuksia tai menetelmiä.

Esimerkkejä kaavion soveltamisesta

Kuvittele kuusi kuvitteellista esimerkkitutkimusta, joissa kussakin tutkitaan, voiko uusi StatMaster-niminen sovellus auttaa oppilaita oppimaan tilastollisia käsitteitä perinteisiä menetelmiä paremmin. Kukin kuudesta tutkimuksesta suoritettiin lukiolaisilla, ja niissä verrattiin aamupäivän AP Statistics -luokkaa (35 oppilasta), joka käytti StatMaster-sovellusta, iltapäivän AP Statistics -luokkaan (35 oppilasta), joka ei käyttänyt StatMaster-sovellusta. Kunkin tutkimuksen tuloksena oli aamu- ja iltapäiväluokkien keskimääräisten koetulosten vertailu lukukauden lopussa.

Statistiset tiedot ja kuvitteelliset tulokset on esitetty kunkin tutkimuksen (A-F) osalta kuvassa 2, ja keskeiset tiedot on lihavoitu kursiivilla. Vaikka nämä kuusi esimerkkiä ovat samaa tutkimusasetelmaa, älä vertaa keksittyjä tuloksia eri tutkimuksissa. Ne ovat kuusi toisistaan riippumatonta tekaistua esimerkkiä, joilla havainnollistetaan kaavion soveltamista.

Kuva 2 Kuusi fiktiivistä esimerkkitutkimusta, joissa kussakin tutkitaan, voiko uusi StatMaster-niminen sovellus auttaa opiskelijoita oppimaan tilastollisia käsitteitä paremmin kuin perinteiset menetelmät (klikkaamalla saat suuremman näkymän)

Tutkimuksessa A avaintekijä on p-arvo 0,034. Koska tämä on pienempi kuin alfa-arvo 0,05, tulokset ovat tilastollisesti merkitseviä ja voimme pysähtyä START-laatikon siniseen stop-merkkiin. Vaikka tutkimuksessa on edelleen riski tehdä tyypin I virhe, tämä tulos ei jätä avoimeksi tyypin II virheen mahdollisuutta. Toisin sanoen teho on riittävä eron havaitsemiseen, koska tilastollisesti merkitsevä ero havaittiin. Sillä ei ole merkitystä, että tehoa tai otoskokoa ei lasketa, kun p-arvo on pienempi kuin alfa.

Tutkimuksessa B yhteenvedot ovat samat lukuun ottamatta p-arvoa 0,383. Koska tämä on suurempi kuin alfa 0,05, siirrymme kaaviossa suureen keskimmäiseen ruutuun tarkistamaan hyväksyttävän tyypin II virheen olemassaoloa tai puuttumista. Tässä tapauksessa vasemman ylälaatikon kriteerit täyttyvät (että otoskokoa tai teholaskentaa ei ole tehty), joten tilastollisesti merkitsevän eron puuttuminen voi johtua riittämättömästä tehosta (tai eron todellisesta puuttumisesta, mutta emme voi sulkea pois riittämättömän tehon mahdollisuutta). Osuimme vasempaan yläkulmaan punaisella STOP. Koska riittämätön teho – tai liiallinen tyypin II virheen riski – on mahdollinen, johtopäätöksen tekeminen StatMasterin tehokkuudesta ei ole tilastollisesti mahdollista.

Tutkimuksessa C p-arvo on jälleen suurempi kuin alfa, mikä vie meidät takaisin toiseen päälaatikkoon. Toisin kuin tutkimuksessa B, halutun tehon ja otoskoon laskennan ansiosta voimme välttää vasemmassa yläneljänneksessä olevan punaisen STOPin, mutta 70 prosentin teho jättää meidät osumaan oikean yläkulman punaisen STOPin kriteereihin. Kun teho on 70 %, mahdollisen tyypin II virheen kynnysarvo on 30 % (1-0,7), mikä on perinteisesti hyväksyttävän 20 %:n yläpuolella. StatMasteria koskevien tilastollisten johtopäätösten tekemistä vaikeuttaa mahdollisten kohtuuttoman suurten tyypin II virheiden riski.

Tutkimuksessa D p-arvo on edelleen suurempi kuin alfa, mutta – toisin kuin tutkimuksissa B ja C – tutkimuksessa D tehoksi on asetettu 80 %. Se on hyvä asia. Haasteeksi muodostuu haluttu otoskoko, jolla saavutetaan tämä 80 prosentin teho. Tutkimuksessa D sanotaan, että tarvitaan 40 koehenkilöä kussakin luokassa, jotta voidaan olla varmoja 80 prosentin tehosta, mutta tutkimuksessa on vain 35 koehenkilöä, joten osumme punaiseen STOP-pisteeseen vasemmassa alaneljänneksessä. Koska toivottua otoskokoa ei saavutettu, todellinen teho on alle 80 %, jolloin olemme käytännössä samassa tilanteessa kuin tutkimuksessa C – riski liiallisesta tyypin II virheestä, joka ylittää 20 %.

Tutkimuksessa E haasteet ovat monimutkaisempia. Kun p-arvo on suurempi kuin alfa, siirrymme jälleen kerran keskimmäiseen suureen laatikkoon tarkastelemaan liiallisen tai epämääräisen tyypin II virheen mahdollisuutta. Tässä tapauksessa teho (80 %), alfa (0,05) ja otoskoko (35 kussakin kohortissa) ovat kaikki riittäviä. Vaikutuskooksi on kuitenkin asetettu 50 %.

Vaikka 50 %:n muutos pistemäärässä olisi kiinnostava, siihen liittyy kaksi ongelmaa. Ensinnäkin on todennäköistä, että aiemmat kurssitarjonnat antavat jonkinlaisen arvion suorituksesta ilman StatMasteria, ja – olettaen, että se on edes etäisesti lähellä tutkimuksessa E havaittua 85 %:n keskiarvoa – 50 %:n lisäys ei olisi matemaattisesti mahdollista, mikä tekee tästä epäkäytännöllisen vaikutuskoon. Toiseksi otoskoko tarjoaa riittävän tehon havaita vaikutuskoko, joka on vähintään yhtä suuri kuin haluttu vaikutuskoko tai suurempi, mutta ei pienempi. Tarkastelemalla aiemmin tässä käsikirjoituksessa esitettyä yhtälöä saadaan matemaattista näyttöä tästä käsitteestä.

Niinpä vaikka 50 %:n vaikutuskoko olisi vaikuttava – tilastollisesti merkitsevän lopputuloksen puuttuessa – tutkimuksessa E ei olisi varmuudella riittävää tehoa havaita pienempää vaikutuskokoa, vaikka pienempi vaikutuskoko saattaisikin olla kiinnostava. Siksi jäämme oikeassa alakulmassa olevaan punaiseen STOP-merkkiin.

Huomaa, että muista punaisista STOP-merkeistä poiketen tämä esimerkki edellyttää subjektiivista harkintaa ja on vähemmän objektiivinen kuin kolme muuta polkua mahdollisesti hyväksyttävän tyypin II virheen ylittämiseksi. Kuten aiemmin todettiin, tämä on monimutkainen ja haastava skenaario tulkita, mutta se on varsin uskottava (jopa yleinen), ja siksi se on otettu mukaan tarkasteluun.

Viimeinen esimerkkimme on tutkimus F, jossa voimme edetä laatikkoon, jossa kuvataan otoskoko ja teho hyväksyttäviksi. Teho (80 %), haluttu vaikutuskoko (5 %:n muutos) ja alfa (0,05) ovat kaikki asianmukaisia, ja haluttu otoskoko (35 kussakin kohortissa) saavutettiin, mikä johtaa tilastolliseen johtopäätökseen, jonka mukaan tilastollisesti merkitsevän löydöksen puuttuminen osoittaa, ettei eroa ole. On huomattava, että tyypin II virheen mahdollisuus on edelleen olemassa, mutta se ei ole suurempi kuin 1 – teho – tai tässä tapauksessa 20 % (1 – 0,8) – minkä vuoksi sitä pidetään hyväksyttävänä.

Johtopäätöksenä kehotamme opettajia esittelemään tehon käsitteen ja sen merkityksen tilastollisen tutkimuksen arvioinnissa. Toivomme, että sekä näyteskenaariot että vuokaavio ovat hyödyllisiä sekä opettajille että oppilaille, kun he tutkivat tehon käsitettä ja sitä, miten se liittyy efektikokoon, otoskokoon ja merkitsevyystasoon yleensä.

Vastaa

Sähköpostiosoitettasi ei julkaista.

Back to Top