Thursday Feb 03, 2022

O que é poder?

Angela L.E. Walmsley e Michael C. Brown, Concordia University Wisconsin

Para muitos professores de estatística introdutória, poder é um conceito que muitas vezes não é usado. Em muitos casos, ele é evitado por completo. Na verdade, muitos professores de Advanced Placement (AP) ficam longe do tópico quando ensinam testes de significância, segundo Floyd Bullard em “Power in Tests of Significance”. No entanto, poder é um conceito importante para entender como consumidor de pesquisa, não importa em que campo ou profissão um estudante possa entrar como um adulto. Portanto, a discussão sobre poder deve ser incluída num curso introdutório.

Para discutir e compreender o poder, é preciso ser claro sobre os conceitos de erros de Tipo I e Tipo II. Doug Rush fornece uma atualização sobre os erros Tipo I e Tipo II (incluindo poder e tamanho do efeito) na edição da Primavera de 2015 da Rede de Professores de Estatística, mas, brevemente, um Erro Tipo I é rejeitar a hipótese nula em favor de uma falsa hipótese alternativa, e um Erro Tipo II é falhar em rejeitar uma falsa hipótese nula em favor de uma hipótese alternativa verdadeira. A probabilidade de um erro Tipo I é tipicamente conhecida como Alfa, enquanto a probabilidade de um erro Tipo II é tipicamente conhecida como Beta.

Agora ao poder. Muitos alunos precisam ser expostos a uma variedade de perspectivas sobre a definição de poder. Bullard descreve várias maneiras de interpretar corretamente o poder:

  • Potência é a probabilidade de rejeitar a hipótese nula quando, de fato, ela é falsa.
  • Potência é a probabilidade de tomar uma decisão correta (rejeitar a hipótese nula) quando a hipótese nula é falsa.
  • Potência é a probabilidade de que um teste de significância irá pegar um efeito que está presente.
  • Potência é a probabilidade de um teste de significância detectar um desvio da hipótese nula, caso tal desvio exista.
  • Potência é a probabilidade de evitar um erro Tipo II.

Simplesmente colocado, potência é a probabilidade de não fazer um erro Tipo II, de acordo com Neil Weiss em Estatísticas Introdutórias.

Matematicamente, power é 1 – beta. O poder de um teste de hipóteses está entre 0 e 1; se o poder estiver próximo de 1, o teste de hipóteses é muito bom para detectar uma falsa hipótese nula. Beta é comumente fixado em 0,2, mas pode ser fixado pelos pesquisadores para ser menor.

Consequentemente, a potência pode ser tão baixa quanto 0,8, mas pode ser maior. Potências inferiores a 0,8, embora não impossíveis, seriam tipicamente consideradas muito baixas para a maioria das áreas de pesquisa.

Bullard também afirma que existem os seguintes quatro factores primários que afectam a potência:

  1. Nível de significância (ou alfa)
  2. Tamanho da amostra
  3. Variabilidade, ou variância, na variável de resposta medida
  4. Magnitude do efeito da variável

A potência é aumentada quando um pesquisador aumenta o tamanho da amostra, assim como quando um pesquisador aumenta o tamanho do efeito e os níveis de significância. Há outras variáveis que também influenciam o poder, incluindo a variância (σ2), mas limitaremos nossa conversa às relações entre poder, tamanho da amostra, tamanho do efeito e alfa para esta discussão.

Na realidade, um pesquisador quer que os erros do Tipo I e do Tipo II sejam pequenos. Em termos de nível de significância e poder, Weiss diz que isso significa que queremos um nível de significância pequeno (próximo de 0) e um grande poder (próximo de 1).

Aumento de poder disse um pouco sobre o conceito de poder, os autores descobriram que é mais importante que os alunos entendam a importância do poder como relacionado ao tamanho da amostra ao analisar um estudo ou artigo de pesquisa versus o poder efetivamente calculado. Descobrimos que os alunos geralmente entendem os conceitos de amostragem, desenho do estudo e testes estatísticos básicos, mas às vezes lutam com a importância do poder e do tamanho necessário da amostra. Portanto, o gráfico da Figura 1 é uma ferramenta que pode ser útil quando se introduz o conceito de poder em uma estatística de aprendizagem de audiência ou quando se necessita aprofundar o entendimento da metodologia de pesquisa.

Figura 1 Uma ferramenta que pode ser útil quando se introduz o conceito de poder em uma estatística de aprendizagem de audiência ou quando se necessita aprofundar o entendimento da metodologia de pesquisa

Este conceito é importante para que os professores também se desenvolvam em seu próprio entendimento de estatística. Esta ferramenta pode ajudar um estudante a analisar criticamente se o estudo de pesquisa ou artigo que está lendo e interpretando tem poder aceitável e tamanho de amostra para minimizar erros. Ao invés de se concentrar apenas no resultado do valor p, que tem sido o foco tradicional, este gráfico (e os exemplos abaixo) ajuda os alunos a entender como olhar para o poder, tamanho da amostra e tamanho do efeito em conjunto com o valor p ao analisar os resultados de um estudo. Encorajamos o uso deste gráfico para ajudar os seus alunos a compreender e interpretar os resultados à medida que estudam vários estudos de pesquisa ou metodologias.

Exemplos para aplicação do gráfico

Imagine seis exemplos de estudos fictícios que cada um examina se um novo aplicativo chamado StatMaster pode ajudar os alunos a aprender conceitos estatísticos melhor do que os métodos tradicionais. Cada um dos seis estudos foi executado com alunos do ensino médio, comparando a aula de estatística da manhã AP (35 alunos) que incorporaram o aplicativo StatMaster com a aula de estatística da tarde AP (35 alunos) que não usaram o aplicativo StatMaster. O resultado de cada um desses estudos foi a comparação das notas médias dos testes entre as aulas da manhã e da tarde no final do semestre.

Informação estatística e os resultados fictícios são mostrados para cada estudo (A-F) na Figura 2, com as principais informações mostradas em negrito em itálico. Embora estes seis exemplos sejam do mesmo desenho do estudo, não comparem os resultados inventariados entre os estudos. Eles são seis exemplos independentes para ilustrar a aplicação do gráfico.

Figura 2 Seis exemplos de estudos fictícios que cada um examina se uma nova aplicação chamada StatMaster pode ajudar os alunos a aprender conceitos estatísticos melhor do que os métodos tradicionais (clique para ver maior)

No Estudo A, o elemento chave é o valor p de 0,034. Como isto é menos que alfa de 0,05, os resultados são estatisticamente significativos e nós podemos parar no sinal de parada azul na caixa START. Embora o estudo ainda esteja em risco de cometer um erro de Tipo I, este resultado não deixa em aberto a possibilidade de um erro de Tipo II. Dito de outra forma, a potência é adequada para detectar uma diferença porque detectaram uma diferença que era estatisticamente significativa. Não importa que não haja cálculo de potência ou tamanho da amostra quando o valor p é menor que alfa.

No Estudo B, os resumos são os mesmos, exceto pelo valor p de 0,383. Como este é maior que o alfa de 0,05, passamos no gráfico para a caixa grande do meio para verificar a presença ou ausência de erro aceitável do Tipo II. Neste caso, o critério da caixa superior esquerda é cumprido (que não há tamanho da amostra ou cálculo de potência) e, portanto, a falta de uma diferença estatisticamente significativa pode ser devida a potência inadequada (ou uma verdadeira falta de diferença, mas não podemos excluir potência inadequada). Atingimos o STOP superior esquerdo vermelho. Como a potência inadequada – ou risco excessivo de erro de Tipo II – é uma possibilidade, tirar uma conclusão sobre a eficácia do StatMaster não é estatisticamente possível.

No Estudo C, novamente o valor de p é maior que alfa, levando-nos de volta à segunda caixa principal. Ao contrário do Estudo B, a presença de uma potência desejada e o cálculo do tamanho da amostra permite-nos evitar o STOP vermelho no quadrante superior esquerdo, mas a potência de 70% deixa-nos atingir o critério do STOP vermelho superior direito. Com uma potência de 70%, nosso limiar de erro potencial Tipo II é de 30% (1-0,7), o que está acima dos 20% tradicionalmente aceitáveis. A capacidade de tirar uma conclusão estatística em relação ao StatMaster é prejudicada pelo potencial de risco inaceitavelmente alto de erro Tipo II.

No Estudo D, o valor de p continua a ser maior do que alfa, mas -como no Estudo B e no Estudo C – o Estudo D tem uma potência apropriada fixada em 80%. Isso é uma coisa boa. O desafio se torna o tamanho de amostra desejado para atender a essa potência de 80%. O Estudo D diz que precisa de 40 sujeitos em cada classe para ter certeza de 80% de potência, mas o estudo tem apenas 35 sujeitos, então nós atingimos o STOP vermelho no quadrante inferior esquerdo. Como o tamanho de amostra desejado não foi atingido, a potência real é inferior a 80%, deixando-nos efetivamente na mesma situação do Estudo C com risco de erro excessivo do Tipo II além de 20%.

No Estudo E, os desafios são mais complexos. Com um p-valor maior que o alfa, nós nos movemos mais uma vez para a caixa grande do meio para examinar o potencial de erro excessivo ou indeterminado de Tipo II. Neste caso, potência (80%), alfa (0,05) e tamanho da amostra (35 em cada coorte) são todos adequados. O tamanho do efeito, no entanto, é definido em 50%.

Embora uma mudança de 50% na pontuação seja de interesse, tem dois problemas. Primeiro, é provável que as ofertas de cursos anteriores forneçam alguma estimativa de desempenho na ausência do StatMaster, e -presumindo que está mesmo remotamente perto da média de 85% vista no Estudo E – um aumento de 50% não seria matematicamente possível, tornando isto um tamanho de efeito impraticável. Em segundo lugar, um tamanho de amostra fornecerá o poder adequado para detectar um tamanho de efeito que seja pelo menos tão grande quanto o tamanho de efeito desejado ou maior, mas não menor. Revendo a equação anteriormente neste manuscrito fornece a evidência matemática deste conceito.

Então, enquanto um tamanho de efeito de 50% seria impressionante – na ausência de um resultado estatisticamente significativo – o estudo E não teria certeza de ter o poder adequado para detectar um tamanho de efeito menor, mesmo que um tamanho de efeito menor pudesse ser de interesse. Portanto, somos deixados no sinal vermelho STOP no canto inferior direito.

Nota que, ao contrário dos outros sinais vermelhos de STOP, este exemplo requer julgamento subjetivo e é menos objetivo do que os outros três caminhos para potencialmente exceder o erro aceitável do Tipo II. Como observado anteriormente, este é um cenário complexo e desafiador de interpretar, mas é bastante plausível (até mesmo comum), e portanto incluído para consideração.

O nosso exemplo final é o Estudo F, no qual podemos avançar para a caixa descrevendo o tamanho e a potência da amostra como aceitáveis. A potência (80%), o tamanho do efeito desejado (alteração de 5%) e o alfa (0,05) são todos apropriados e o tamanho de amostra desejado (35 em cada coorte) foi atingido, levando-nos à conclusão estatística de que a ausência de um achado estatisticamente significativo demonstra que não existe diferença. Reconhecer que o potencial de erro Tipo II ainda existe, mas não é maior que 1 – potência – ou neste caso 20% (1 – 0,8)- o que é considerado aceitável.

Em conclusão, encorajamos os professores a introduzir o conceito de poder e sua importância na avaliação da pesquisa estatística. Esperamos que tanto os cenários de amostra como o fluxograma sejam úteis para professores e alunos enquanto exploram o conceito de poder e como ele se relaciona com o tamanho do efeito, tamanho da amostra e nível de significância em geral.

Deixe uma resposta

O seu endereço de email não será publicado.

Back to Top