Thursday Feb 03, 2022

What Is Power?

Angela L.E. Walmsley and Michael C. Brown, Concordia University Wisconsin

入門統計学の多くの教師にとって、パワーはしばしば使われないコンセプトです。 多くの場合、それは完全に避けられています。 実際,アドバンスト・プレースメント(AP)の先生の多くは,有意性の検定を教えるときにこの話題から遠ざかると,Floyd Bullardは “Power in Tests of Significance” で言っています。 しかし、学生が大人になってからどのような分野や職業に就くとしても、研究の消費者として権力は理解すべき重要な概念である。 それゆえ、検出力の議論は入門コースに含まれるべきである。

検出力を議論し理解するためには、第1種の過誤と第2種の過誤の概念を明確にしておく必要がある。 Doug RushはStatistics Teacher Networkの2015年春号でType IエラーとType IIエラー(検出力と効果量を含む)について再確認していますが、簡単に言うと、Type Iエラーは偽の対立仮説を支持して帰無仮説を棄却すること、Type IIエラーは真の対立仮説を支持して偽帰無仮説を棄却しないこと、です。 タイプIエラーの確率は通常アルファとして知られ、タイプIIエラーの確率は通常ベータとして知られる。

次にパワーについて。 多くの学習者は、パワーの定義について様々な視点に触れる必要がある。 ブラードは、検出力を正しく解釈する複数の方法を説明しています:

  • Power is the probability of rejecting the null hypothesis when in fact, it is false.
  • Power is the probability of making a correct decision (to reject the null hypothesis) when the null hypothesis is false.
  • Power is the probability that an intensive pick up on the effect that are present.
  • 検出力とは、帰無仮説からのずれが存在する場合に、有意水準検定がそのずれを検出する確率である。
  • 検出力とは、第2種の過誤を回避する確率である。

簡単に言うと、入門統計学でニール・ワイスが述べているように、検出力は第2種過誤が起きない確率である。

数学的には、検出力は1-βである。 仮説検定の検出力は 0 から 1 の間にあり、検出力が 1 に近い場合、仮説検定は偽の帰無仮説を検出するのに非常に優れていることになる。 ベータは一般に0.2に設定されるが、研究者によってより小さく設定されることもある。

その結果、検出力は0.8と低くなることもありますが、高くなることもあります。 0.8より低い出力は不可能ではないが、ほとんどの研究分野では低すぎると考えられるのが普通である。

Bullard はまた、パワーに影響を与える主な要因として、次の 4 つがあると述べています。

  1. 有意水準(またはα)
  2. サンプルサイズ
  3. 測定した応答変数の変動性(分散)
  4. 変数の効果の大きさ

研究者がサンプルサイズを大きくすると同時に、効果量や有意水準が大きくなると、検出力も増加する。 分散(σ2)など、他にも力に影響する変数がありますが、今回は力、サンプルサイズ、効果量、αの関係に限定して話を進めます。

現実には、研究者は第1種過誤と第2種過誤の両方が小さくなることを望んでいます。 有意水準と検出力について、Weiss は、これは小さな有意水準 (0 に近い) と大きな検出力 (1 に近い) を望むことを意味すると述べています。

検出力の概念について少し述べましたが、著者は、学生が研究または研究論文を分析するときに、実際に検出力を計算するより、サンプル サイズに関する検出力の重要性を理解することが最も重要であるとわかりました。 私たちは、学生がサンプリング、研究デザイン、基本的な統計検定の概念は概ね理解しているが、検出力と必要なサンプルサイズの重要性については時々苦労していることを発見しました。 したがって、図1のチャートは、統計を学んでいる聴衆に検出力の概念を紹介するとき、あるいは研究方法論の理解を深める必要があるときに役立つツールである

図1 統計を学んでいる聴衆に検出力の概念を紹介するとき、あるいは研究方法論の理解を深める必要があるときに役立つツール

この概念は、教師にとっても、統計に関する自身の理解を深めるために重要である。 このツールは、生徒が読んで解釈している研究調査や論文が、誤差を最小にするために許容できる検出力とサンプルサイズを持っているかどうかを批判的に分析するのに役立ちます。 このチャート(および以下の例)は、従来しばしば焦点となっていたp値の結果だけに集中するのではなく、研究結果を分析する際にp値と併せて検出力、サンプルサイズ、効果の大きさを見る方法を学生に理解させるのに役立ちます。 生徒が様々な調査研究や方法論を学ぶ際に、結果を理解し解釈するために、このグラフを使用することをお勧めします。

チャートの適用例

StatMasterという新しいアプリが、従来の方法よりも学生の統計概念の学習を助けることができるかどうかをそれぞれ検証する、6つの架空の研究例を想像してください。 6つの研究はそれぞれ高校生を対象に行われ、StatMasterアプリを取り入れた午前中のAP Statisticsクラス(35名)とStatMasterアプリを使用しなかった午後のAP Statisticsクラス(35名)が比較されました。 これらの各研究の結果は、学期末の午前と午後のクラスの平均テスト スコアの比較でした。

統計情報と架空の結果は、図 2 の各研究 (A-F) に示されており、重要な情報は太字斜体で表示されています。 この6例は同じ研究デザインであるが、研究間で架空の結果を比較しないこと。

図2 StatMasterという新しいアプリが、従来の方法よりも学生の統計概念の学習を助けることができるかどうかをそれぞれ検証した6つの架空の研究例(クリックで拡大表示)

研究Aでは、重要な要素は0.034というp値である。 これはアルファ値の0.05より小さいので、結果は統計的に有意であり、STARTボックスの青い停止記号で停止することができます。 この研究はまだタイプIエラーのリスクがありますが、この結果はタイプIIエラーの可能性を残すものではありません。 別の言い方をすれば、統計的に有意な差を検出したのだから、差を検出するための検出力は十分である。 p値がαより小さい場合、検出力やサンプルサイズの計算がなくても問題ありません。

研究Bでは、p値が0.383である以外は要約が同じです。 これはαの0.05より大きいので、チャートで大きな真ん中のボックスに移動して、許容できる第二種過誤の有無をチェックします。 この場合、左上のボックスの基準(サンプルサイズや検出力の計算がないこと)を満たしているので、統計的に有意な差がないのは検出力が不十分なためかもしれません(あるいは、本当に差がないのだが、検出力が不十分であることを除外できない)。 左上の赤いSTOPにぶつかる。 検出力不足、つまりタイプIIエラーの過剰なリスクが考えられるため、StatMasterの有効性に関する結論を出すことは統計的に不可能であることがわかります。

研究Cでは、再びp値がアルファより大きくなり、2番目のメインボックスに戻されました。 研究Bとは異なり、望ましい検出力とサンプルサイズの計算があるため、左上の赤いSTOPを避けることができますが、70%の検出力では、右上の赤いSTOPの基準に当たってしまいます。 70%の検出力では、潜在的なType IIエラーの閾値は30% (1-0.7)で、これは従来から許容されている20%を超えています。 D試験では、p値は引き続きαより大きいですが、B試験やC試験とは異なり、D試験では適切な検出力が80%に設定されています。 これは良いことです。 課題は、この80%の検出力を満たすために必要なサンプルサイズです。 D試験は、80%の検出力を確信するために各クラスに40人の被験者が必要だと言っていますが、この試験には35人しかいないので、左下象限の赤いSTOPに当たっています。 希望するサンプルサイズを満たしていないため、実際の検出力は80%未満となり、事実上研究Cと同じ状況、つまり20%を超える過剰なタイプIIエラーのリスクにさらされることになります。 アルファより大きいp値で、我々は再び中央の大きなボックスに移動し、過剰または不確定なType IIエラーの可能性を検討します。 この場合、検出力(80%)、アルファ値(0.05)、サンプルサイズ(各コホートで35)はすべて適切です。 しかし、効果量は50%に設定されています。

スコアの50%の変化は興味深いものですが、2つの問題があります。 第一に、以前のコースがStatMasterを使用しない場合のパフォーマンスを推定している可能性があり、それが研究Eで見られた平均85%に少しでも近いと仮定すると、50%の増加は数学的に不可能で、これは非現実的な効果量となります。 第二に、サンプルサイズは、少なくとも目的の効果サイズと同じかそれ以上であり、小さくはない効果サイズを検出するのに十分な検出力を提供します。 この原稿の前の方程式を見直すと、この概念の数学的な証拠が得られます

ですから、50%の効果サイズは印象的ですが、統計的に有意な結果がない場合、より小さい効果サイズが興味深いかもしれませんが、研究Eはより小さい効果サイズを検出するのに十分な検出力を持つとは言えません。 したがって、右下の赤い停止記号が残されます。

他の赤い停止記号と異なり、この例は主観的な判断を必要とし、許容されるII型誤差を超える可能性がある他の3つの経路よりも客観的ではないことに注意してください。 先に述べたように、これは解釈するのが複雑で難しいシナリオですが、非常にもっともらしい(一般的でさえある)ので、検討対象に含まれています。

最後の例は研究Fで、サンプルサイズと検出力を許容範囲と記述するボックスまで進むことができます。 検出力(80%)、望ましい効果量(5%の変化)、α(0.05)はすべて適切で、望ましいサンプルサイズ(各コホートで35人)を満たしており、統計的に有意な発見がないことは差が存在しないことを示しているという統計的結論に至ったのです。 タイプIIエラーの可能性はまだありますが、1-検出力、この場合は20%(1-0.8)より大きくないので、許容範囲と判断されます。

結論として、我々は先生方に、検出力の概念と統計的研究の評価におけるその重要性を紹介することをお勧めします。 サンプルシナリオとフローチャートの両方が、先生と生徒の両方にとって、検出力の概念と、それが効果量、サンプルサイズ、有意水準と一般的にどのように関係しているかを探る際に役立つことを期待している

コメントを残す

メールアドレスが公開されることはありません。

Back to Top