WnioskowanieStatystyczne/Effect size: Różnice pomiędzy wersjami

Z Brain-wiki
Linia 7: Linia 7:
 
Głównym, spójnym i eleganckim celem omawiawianych dotychczas metod było przejście z różnorodności  mierzonych eksperymentalnie wielkości — milimetry, lata świetlne, tony, stopnie Celsjusza — do uniwersalnej i bezwymiarowej wielkości prawdopodobieństwa <math>p</math>. Jednak ogólnie wskazane jest utrzymywanie kontaktu z rzeczywistością fizyczną, z której pochodzą zarówno pomiary jak i hipotezy. Dla wyjaśnienia rozważmy prosty przykład: ''Na bardzo dużej grupie pacjentów udowadniamy, że nowy lek w stanach zapalnych zmniejsza temperaturę  silniej niż aspiryna. Efekt jest istotny statystycznie na poziomie 1%.'' Czy to wszystko?
 
Głównym, spójnym i eleganckim celem omawiawianych dotychczas metod było przejście z różnorodności  mierzonych eksperymentalnie wielkości — milimetry, lata świetlne, tony, stopnie Celsjusza — do uniwersalnej i bezwymiarowej wielkości prawdopodobieństwa <math>p</math>. Jednak ogólnie wskazane jest utrzymywanie kontaktu z rzeczywistością fizyczną, z której pochodzą zarówno pomiary jak i hipotezy. Dla wyjaśnienia rozważmy prosty przykład: ''Na bardzo dużej grupie pacjentów udowadniamy, że nowy lek w stanach zapalnych zmniejsza temperaturę  silniej niż aspiryna. Efekt jest istotny statystycznie na poziomie 1%.'' Czy to wszystko?
 
Może się okazać, że (istotna) różnica między średnim spadkiem temperatury w grupach przyjmujących aspirynę i placebo wyniosła 0,05 stopnia Celsjusza. W tym przypadku  intuicja podpowiada, że zmiana — pomimo, że istotna statystycznie — jest bardzo niewielka, i na pewno inaczej podchodzilibyśmy do leku, który daje rtóżnicę średnich np. 2 stopni Celsjusza przy tym samym <math>p</math>. W ogólnym przypadku taką intuicją nie dysponujemy, stąd rozmaitość różnych i niezbyt spójnych miar (według [https://en.wikipedia.org/wiki/Effect_size Wikipedii] jest ich kiladziesiąt), które mają ten efekt kwantyfikować w sposób możliwie uniwersalny. Przyjrzyjmy się krytycznie niektórym przykładom pamiętając, że raportowanie tego efektu jest coraz częściej wymagane w publikacjach wyników badawczych.
 
Może się okazać, że (istotna) różnica między średnim spadkiem temperatury w grupach przyjmujących aspirynę i placebo wyniosła 0,05 stopnia Celsjusza. W tym przypadku  intuicja podpowiada, że zmiana — pomimo, że istotna statystycznie — jest bardzo niewielka, i na pewno inaczej podchodzilibyśmy do leku, który daje rtóżnicę średnich np. 2 stopni Celsjusza przy tym samym <math>p</math>. W ogólnym przypadku taką intuicją nie dysponujemy, stąd rozmaitość różnych i niezbyt spójnych miar (według [https://en.wikipedia.org/wiki/Effect_size Wikipedii] jest ich kiladziesiąt), które mają ten efekt kwantyfikować w sposób możliwie uniwersalny. Przyjrzyjmy się krytycznie niektórym przykładom pamiętając, że raportowanie tego efektu jest coraz częściej wymagane w publikacjach wyników badawczych.
 +
 +
 +
====''d'' Cohena====
 +
''d'' Cohena jest zdefiniowane jako różnica pomiędzy średnimi podzielona przez odchylenie standardowe w próbie
 +
 +
<math>d=\frac{\bar{x}_1 - \bar{x}_2}{s}.</math>
 +
 +
Coż, można by mówić po prostu "różnica średnich podzielona przez wariancję". Jednak kwestia raportowania tego efektu pojawiłą się najpierw w psychologii — [https://pl.wikipedia.org/wiki/Jacob_Cohen Jacob Cohen], od którego nazwiska pochodzą nazwy niektórych zaproponowanych przez niego miar, był psychologiem i statystykiem.
 +
 +
 +
Ten artykuł <ref name="Sawilowsky2009">{{cite journal | last=Sawilowsky | first=S | year=2009 | title=New effect size rules of thumb| journal=Journal of Modern Applied Statistical Methods | volume=8 | pages=467–474 | doi= 10.22237/jmasm/1257035100| issue=2| doi-access=free }} http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/</ref>
 +
 +
 +
{| class="wikitable"
 +
!| ''Effect size''  ||  ''d''  || Reference
 +
|-
 +
| Very small ||  align="left"  |  0.01  || <ref name="Sawilowsky2009"/>
 +
|-
 +
| Small ||  align="left"  |  0.20  || <ref name="CohenJ1988Statistical"/>
 +
|-
 +
| Medium ||  align="left"  |  0.50  || <ref name="CohenJ1988Statistical"/>
 +
|-
 +
| Large ||  align="left"  |  0.80  || <ref name="CohenJ1988Statistical"/>
 +
|-
 +
| Very large ||  align="left"  |  1.20  || <ref name="Sawilowsky2009"/>
 +
|-
 +
| Huge ||  align="left"  |  2.0  || <ref name="Sawilowsky2009"/>
 +
|-
 +
|}
 +
 +
 +
 +
 +
 +
 +
 +
<blockquote>"The terms 'small,' 'medium,' and 'large' are relative, not only to each other, but to the area of behavioral science or even more particularly to the specific content and research method being employed in any given investigation....In the face of this relativity, there is a certain risk inherent in offering conventional operational definitions for these terms for use in power analysis in as diverse a field of inquiry as behavioral science. This risk is nevertheless accepted in the belief that more is to be gained than lost by supplying a common conventional frame of reference which is recommended for use only when no better basis for estimating the ES index is available."</blockquote>

Wersja z 15:32, 27 kwi 2023

Wnioskowanie_Statystyczne_-_wykład


Wielkość efektu (Effect size)

to ilościowa miara siły zjawiska.

Głównym, spójnym i eleganckim celem omawiawianych dotychczas metod było przejście z różnorodności mierzonych eksperymentalnie wielkości — milimetry, lata świetlne, tony, stopnie Celsjusza — do uniwersalnej i bezwymiarowej wielkości prawdopodobieństwa [math]p[/math]. Jednak ogólnie wskazane jest utrzymywanie kontaktu z rzeczywistością fizyczną, z której pochodzą zarówno pomiary jak i hipotezy. Dla wyjaśnienia rozważmy prosty przykład: Na bardzo dużej grupie pacjentów udowadniamy, że nowy lek w stanach zapalnych zmniejsza temperaturę silniej niż aspiryna. Efekt jest istotny statystycznie na poziomie 1%. Czy to wszystko? Może się okazać, że (istotna) różnica między średnim spadkiem temperatury w grupach przyjmujących aspirynę i placebo wyniosła 0,05 stopnia Celsjusza. W tym przypadku intuicja podpowiada, że zmiana — pomimo, że istotna statystycznie — jest bardzo niewielka, i na pewno inaczej podchodzilibyśmy do leku, który daje rtóżnicę średnich np. 2 stopni Celsjusza przy tym samym [math]p[/math]. W ogólnym przypadku taką intuicją nie dysponujemy, stąd rozmaitość różnych i niezbyt spójnych miar (według Wikipedii jest ich kiladziesiąt), które mają ten efekt kwantyfikować w sposób możliwie uniwersalny. Przyjrzyjmy się krytycznie niektórym przykładom pamiętając, że raportowanie tego efektu jest coraz częściej wymagane w publikacjach wyników badawczych.


d Cohena

d Cohena jest zdefiniowane jako różnica pomiędzy średnimi podzielona przez odchylenie standardowe w próbie

[math]d=\frac{\bar{x}_1 - \bar{x}_2}{s}.[/math]

Coż, można by mówić po prostu "różnica średnich podzielona przez wariancję". Jednak kwestia raportowania tego efektu pojawiłą się najpierw w psychologii — Jacob Cohen, od którego nazwiska pochodzą nazwy niektórych zaproponowanych przez niego miar, był psychologiem i statystykiem.


Ten artykuł [1]


Effect size d Reference
Very small 0.01 [1]
Small 0.20 [2]
Medium 0.50 [2]
Large 0.80 [2]
Very large 1.20 [1]
Huge 2.0 [1]




"The terms 'small,' 'medium,' and 'large' are relative, not only to each other, but to the area of behavioral science or even more particularly to the specific content and research method being employed in any given investigation....In the face of this relativity, there is a certain risk inherent in offering conventional operational definitions for these terms for use in power analysis in as diverse a field of inquiry as behavioral science. This risk is nevertheless accepted in the belief that more is to be gained than lost by supplying a common conventional frame of reference which is recommended for use only when no better basis for estimating the ES index is available."

  1. 1,0 1,1 1,2 1,3 Szablon:Cite journal http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
  2. 2,0 2,1 2,2 Błąd rozszerzenia cite: Błąd w składni elementu <ref>. Brak tekstu w przypisie o nazwie CohenJ1988Statistical