WnioskowanieStatystyczne/Bonferroni

Spis treści

1 Błędy I i II rodzaju
2 Wielokrotne porównania
- 2.1 Przykład
3 FWER: family-wise error rate
4 Evaluation of measurement data — Guide to the expression of uncertainty in measurement

Błędy I i II rodzaju

Przyjęcie poziomu istotności ([math]\alpha[/math]) na poziomie 5 procent oznacza, że średnio w jednym na dwadzieścia przypadków możemy odrzucić prawdziwą hipotezę, czyli popełnić błąd I rodzaju (false positive).

Dla kompletności przypomnijmy, że błąd II rodzaju polega na przyjęciu hipotezy fałszywej (false negative) i jest związany z poziomem istotności testu.

Pojęcia błędów I i II rodzaju, podobnie jak hipotezy zerowej (H₀) wprowadzili do statystyki Jerzy Spława-Neyman i Egon Pearson w latach 30. XX wieku.

		Prawdziwa	Fałszywa
		hipoteza H₀
decyzja	Odrzuć	błąd typu I (False Positive)	poprawna (True Positive)
decyzja	Przyjmij	poprawna (True Negative)	błąd typu II (False Negative)

Linią przerywaną jest oznaczony rozkład jednej z możliwych hipotez alternatywnych. Na górnym wykresie zacieniowany obszar (o polu [math]\beta[/math]) odpowiada prawdopodobieństwu błędnej akceptacji hipotezy alternatywnej (błąd II rodzaju, false nagative). Na dolnym zacieniowany obszar odpowiada prawdopodobieństwu odrzucenia hipotezy alternatywnej, czyli mocy testu ([math]1-\beta[/math]) względem tej konkretnej hipotezy alternatywnej.

Wielokrotne porównania

Problem wielokrotnych porównań (ang. multiple comparisons) pojawia się w eksploracyjnej (w odróżnieniu od konfirmacyjnej) analizie danych, por. np. http://en.wikipedia.org/wiki/Data_dredging zwane też p-hacking.

Przykład

[math]N[/math] obserwacji podzielonych na 7 grup. Testujemy hipotezę o różnicy między średnimi dowolnych 2 grup, wykonując wykonać [math]\binom{7}{2}=21[/math] testów różnic między grupami. Jeśli przyjmiemy poziom istotności [math]\alpha=0.05[/math], mamy dużą szansę na dokonanie fałszywego odkrycia. Jak dużą?

FWER: family-wise error rate

Poziom istotności zdefiniowany dla pojedynczych testów zastępujemy pojęciem FWER, czyli prawdopodobieństwem popełnienia przynajmniej jednego błędu I rodzaju w grupie (rodzinie) testów.

Poprawka Bonferroniego

gwarantuje, że jeśli każdy z m testów wykonamy na poziomie istotności [math]\frac{\alpha}{m}[/math], to [math]\mathrm{FWER}=\alpha[/math].

Rozważmy rodzinę m hipotez H_i (w powyższym przykładzie m = 21), przypisując każdej H_i p-wartość (ang. p-value) p_i. Niech m₀ z tych hipotez będzie prawdziwych. FWER, czyli prawdopodobieństwo popełnienia przynajmniej jednego błędu I rodzaju którymś z m testów hipotez H_i, będzie nie większy niż suma prawdopodobieństw popełnienia błędu I rodzaju [math] P\left(p_i\leq\frac \alpha m\right)[/math] w każdym testów z osobna. I to niezależnie od tego, czy testy są niezależne czy nie, ani od wartości m₀, czyli od tego jak wiele z hipotez H_i jest prawdziwych:

[math] \text{FWER} \leq\sum_{i=1}^{m_0}\left\{P\left(p_i\leq\frac \alpha m\right)\right\} \leq m_0 \frac{\alpha}{m} \leq m \frac{\alpha}{m} = \alpha.[/math]

Nierówność jest słuszna również w przypadku, kiedy tylko część z m hipotez jest prawdziwa --- FWER jest wtedy jeszcze mniejszy. Jak widać jest to poprawka bardzo konserwatywna, wymuszająca przeprowadzanie testów na potencjalnie zaniżonych poziomach istotności [math]\frac{\alpha}{m}[/math].

Poprawka Bonferroniego-Holma

P-wartości p_i odpowiadające hipotezom H_i sortujemy w kolejności od najmniejszej do największej

p₍₁₎ < p₍₂₎ < ... < p_(m)

Dla [math]\textrm{FWER}=\alpha[/math] znajdujemy najmniejsze k, dla którego

[math]p_k \gt \frac{\alpha}{m+1-k}[/math]

i odrzucamy hipotezy H₁ ... H_k-1, przyjmując H_k ... H_m.

dowód

Załóżmy, że wśród m testowanych H_i jest m₀ hipotez prawdziwych.

Musimy dowieść, że prawdopodobieństwo popełnienia błędu I rodzaju w tej procedurze jest nie większe niż [math]\alpha[/math].

Zaczynamy od H₁: niech pierwszą prawdziwą odrzuconą hipotezą (pierwszy błąd I rodzaju, false positive) będzie H_k. To znaczy, że H_k-1 była ostatnią hipotezą fałszywą, i

[math]k - 1 + m_0 \leq m \implies m_0 \leq m - k + 1[/math].

Skoro wśród H_k została odrzucona, to z definicji procedury

[math] p_k \leq \frac{\alpha}{m - k +1} \leq \frac{\alpha}{m_0}[/math]

bo skoro [math]m_0 \leq m - k + 1[/math], to [math]\frac{\alpha}{m - k +1} \leq \frac{\alpha}{m_0}[/math]. Odpowiada to poprawce Bonferroniego w zbiorze m₀ hipotez prawdziwych.

False Discovery Rate FDR

...w podobnej procedurze kontroluje oczekiwany stosunek liczby hipotez błędnie odrzuconych do liczby hipotez odrzuconych. Poniżej przykład zastosowania z artykułu On the statistical significance of event-related EEG desynchronization and synchronization in the time-frequency plane. PDF.

Calculating the high-resolution ERD/ERS from the MP decomposition in statistically significant regions. (a) Average time-frequency energy density approximated from the MP decomposition. Reference epoch marked by black vertical lines, movement onset in the fifth second marked by white dashed line. (b) Energy from (a) integrated in resels 0.25 s x 2 Hz. (c) Average values of ERD/ERS calculated for the time from the end of the reference epoch to the end of the recorded epoch (black dashed vertical lines in (a) and (b)). (d) ERD/ERS from (c) indicated as statistically different from the reference epoch by the pseudo- bootstrap procedure (Section II-D3) corrected by a 5% FDR. (e) High-resolution map of ERD/ERS calculated from (a). (f) High-resolution ERD/ERS in statistically significant regions from (d). A— [math]\mu[/math] desynchronization, B—desynchonization of the [math]\mu[/math] harmonic, C—postmovement [math]\beta[/math] synchronization, D—harmonic of [math]\beta[/math]. Horizontal scales in seconds, vertical in Hz.

Evaluation of measurement data — Guide to the expression of uncertainty in measurement

JCGM 100:2008 GUM 1995 with minor corrections http://www.iso.org/sites/JCGM/GUM-JCGM100.htm

3.4.8 Although this Guide provides a framework for assessing uncertainty, it cannot substitute for critical thinking, intellectual honesty and professional skill. The evaluation of uncertainty is neither a routine task nor a purely mathematical one; it depends on detailed knowledge of the nature of the measurand and of the measurement. The quality and utility of the uncertainty quoted for the result of a measurement therefore ultimately depend on the understanding, critical analysis, and integrity of those who contribute to the assignment of its value.

Anonimowy

Szukaj

WnioskowanieStatystyczne/Bonferroni

Przestrzenie nazw

Więcej

Działania na stronie

Spis treści

Błędy I i II rodzaju

Wielokrotne porównania

Przykład

FWER: family-wise error rate

Poprawka Bonferroniego

Poprawka Bonferroniego-Holma

dowód

False Discovery Rate FDR

Evaluation of measurement data — Guide to the expression of uncertainty in measurement

Nawigacja

Nawigacja

Narzędzia Wiki

Narzędzia Wiki

Anonimowy

Szukaj

WnioskowanieStatystyczne/Bonferroni

Spis treści

Błędy I i II rodzaju

Wielokrotne porównania

Przykład

FWER: family-wise error rate

Poprawka Bonferroniego

Poprawka Bonferroniego-Holma

dowód

False Discovery Rate FDR

Evaluation of measurement data — Guide to the expression of uncertainty in measurement

Nawigacja

Narzędzia Wiki

Narzędzia dla stron