Z Brain-wiki
Skocz do: nawigacja, szukaj

Rozkład \chi ^2

Próbując doprowadzić problem z poprzedniego rozdziału do rozkładu normalnego, doszliśmy do rozkładu Studenta. W tym rozdziale postąpimy odwrotnie: najpierw wprowadzimy nowy rozkład prawdopodobieństwa, a potem znajdziemy dla niego ciekawe zastosowania.

Rozważmy sumę kwadratów zmiennych z rozkładu Gaussa. Oznaczmy jako \left\{x_i\right\} niezależne zmienne losowe z rozkładu normalnego o zerowej średniej \mu=0 i jednostkowej wariancji \sigma ^{2}=1. Suma

\chi ^2=\sum\limits_{i=1}^N x_i^2

będzie podlegać[1] rozkładowi \chi^2 o gęstości prawdopodobieństwa danej następującym równaniem:

p(\chi ^{2})=\frac{1}{\Gamma \left(\frac{f}{2}\right)2^{\frac{f}{2}}}\left(\chi^{2}\right)^{\frac{f}{2}-1}e^{-\frac{\chi ^{2}}{2}} ,

gdzie f oznacza liczbę stopni swobody, a \Gamma funkcję Eulera.[2]

W przypadku, gdy zmienne w sumie (1) są niezależne, f=N, czyli liczba stopni swobody jest równa liczbie składników w sumie (1). W praktyce, jak zobaczymy w poniższych przykładach, do statystyki \chi^2 dochodzimy zwykle estymując potrzebne parametry z próby. Wtedy liczba stopni swobody jest równa liczbie elementów próby pomniejszonej o ilość więzów, czyli estymowanych z niej parametrów, wykorzystanych do obliczenia statystyki (1).

Wartość oczekiwana rozkładu \chi^2 jest równa liczbie stopni swobody f, a wariancja jest równa 2f. Również kształt rozkładu zależy od f: rysunek %i 1 przedstawia wykresy p(\chi^2) dla kilku wartości f.

Rozkład \chi^2 dla różnych liczb stopni swobody f. Pozioma linia o szerokości dwóch odchyleń standardowych wycentrowana na wartości oczekiwanej każdego z rozkładów.

Za dokładnie?

Wróćmy raz jeszcze do przykładu z rozdziału Weryfikacja hipotez statystycznych. Tym razem skoncentrujemy się na rozrzucie wyników:

Studenci wykonują ćwiczenie za pomocą znanego układu
doświadczalnego, dla którego prawidłowo przeprowadzane pomiary dają
wyniki z rozkładu normalnego o odchyleniu standardowym
\sigma=0,1. Jakie jest prawdopodobieństwo, że seria
wyników: 9,78, 9,81, 9,83, 9,86 i 9,79 pochodzi z pomiarów
przeprowadzanych na tym zestawie?

Przyjrzyjmy się tym danym w kontekście znanej wariancji. Lewy wykres na rysunku %i 2 przedstawia te liczby oraz ich średnią (linia przerywana) z zaznaczonym przedziałem \pm odchylenie standardowe. Przedział ten bywa zwany potocznie "korytarzem błędu", tak jak odchylenie standardowe bywa czasami nazywane "błędem". Czy słusznie?

Jeśli interpretować odchylenie standardowe jako "błąd", wszystko wydaje się w najlepszym porządku: wszystkie pomiary leżą "w granicach błędu". Ale czym tak naprawdę jest odchylenie standardowe? Definicja wariancji dana wzorem w rozdziale o momentach nie wyjaśnia dokładnie, jaka część zmiennych powinna się znaleźć w odległości mniejszej niż jej pierwiastek (czyli odchylenie standardowe) od wartości oczekiwanej.[3] Jednak w przypadku, gdy znamy (lub co najmniej zakładamy) postać rozkładu, możemy już te wielkości dokładnie obliczyć. Z zależności podanej w rozdziale o rozkładzie Gaussa wynika, że średnio ok. 36% przypadków losowanych z rozkładu Gaussa przyjmuje wartości oddalone o więcej niż jedno odchylenie standardowe od wartości średniej. A tu wszystkie pięć wypada bliżej... Trochę podejrzane, ale to jeszcze nie dowód, gdyż 36% powinniśmy otrzymać jako średnią wartość dopiero w odpowiednio długiej serii. Spróbujmy więc poszukać innej miary wiarygodności dla tego przypadku.

Lewy wykres: pięć wyników pomiarów (kółka), dla których zaznaczono (jednakowe dla wszystkich) odchylenie standardowe (0,1). Linia przerywana narysowana w wartości średniej, linie kropkowane zaznaczają przedział średnia \pm odchylenie standardowe (według hipotezy wynoszące 0,1). Prawy wykres: rozkład prawdopodobieństwa \chi^2 dla czterech stopni swobody i wartość \chi^2 według równania (3) dla przypadku przedstawionego na lewym wykresie.

Skoro mamy się koncentrować na wariancji, usuńmy z hipotezy wartość oczekiwaną — rozrzut lepiej liczyć względem wartości średniej próby. Można udowodnić, [4] że wielkość

\chi^2=\sum_{i=1}^N\left(\frac{x_i-\overline{x}}{\sigma}\right)^2

gdzie \overline{x}=\frac 1 N \sum\limits_{i=1}^N x_i , podlega rozkładowi \chi^2 o N-1 stopniach swobody.

Rozkład ten przedstawiony jest w prawej części rysunku %i 2. Zaznaczono na nim również (przerywaną linią pionową) wartość statystyki \chi^2, obliczoną dla dyskutowanego przypadku. Okazuje się, że wartość ta jest podejrzanie mała! Prawdopodobieństwo uzyskania tak niewielkiej (lub jeszcze mniejszej) wartości \chi^2 nie przekracza 2%, więc nawet test dwustronny na poziomie istotności 5% odrzuciłby hipotezę mówiącą, że zmienne pochodzą z rozkładu normalnego o odchyleniu standardowym równym 0,1!

Można to zjawisko uznać za model "naciągania" wyników — czujemy się lepiej, gdy przedstawiamy wyniki bliskie wartości uznawanej za prawidłową. Oczywiście jest to nieuczciwa praktyka, którą — jak widać — można wykryć, jeżeli dysponujemy informacją o wariancji. Co ciekawe, "wpadki" tego typu zdarzają się nawet w raportach z badań naukowych — w tym przypadku przyczyną bywa raczej (poza niezrozumieniem statystyki) tendencja do ostrożnego zawyżania oceny błędów.

Częściej spotykamy się z sytuacją, w której rozrzut jest "za duży" w stosunku do hipotezy o wariancji, jak na rysunku %i 3. Jeśli odchylenia od wartości średniej będą duże w stosunku do wariancji, otrzymamy dużą wartość statystyki \chi^2. W świetle rozkładu \chi^2 dla odpowiedniej liczby stopni swobody, taka wartość powinna sugerować odrzucenie hipotezy mówiącej, że zmienne pochodzą z rozkładu normalnego o wariancji \sigma.

W danych z rysunku %i 2 zmieniliśmy pierwszą i ostatnią liczbę, otrzymując serię: 10,1, 9,8, 9,83, 9,86 i 9,63. Tym razem rozrzut okazuje się "za duży" jak na hipotezę o pochodzeniu tych danych z rozkładu normalnego o wariancji 0,1.

Test \chi^2 Pearsona

Zdecydowana większość klasycznych testów opiera się na założeniu, że zmienne pochodzą z populacji o rozkładzie normalnym. Stosując taki test przyjmujemy za to założenie odpowiedzialność — jeśli nie było ono spełnione, wynik testu może okazać się nieprawdziwy.

Ale jak to sprawdzić, jeśli jedyną informacją o populacji jest próba złożona z N elementów? Dobrym zwyczajem jest oglądanie histogramów analizowanych danych. Na rysunku w rozdziale o Centralnym Twierdzeniu Granicznym używaliśmy histogramów i wykresu dopasowanych do nich funkcji Gaussa jako praktycznych argumentów za Centralnym Twierdzeniem Granicznym. Jak oceniamy "wzrokowo" podobieństwo histogramu do krzywej?

W każdym z przedziałów histogramu porównujemy ilość przypadków zliczonych z danych (np. na górnym wykresie rys. %i 4 określają je szerokie jasne słupki) z wykresem dopasowanej funkcji, określającej hipotezę o rozkładzie. Ilość przypadków określona przez hipotezę o rozkładzie wynosi Np_i, gdzie p_i jest całką rozkładu w granicach i-tego przedziału histogramu (wartości te reprezentują na górnym wykresie rys. 4 wąskie szare słupki). Jeśli ilość danych w i-tym binie[5] histogramu oznaczymy jako n_i, to wygodną miarą rozbieżności danych od hipotetycznego rozkładu może być suma kwadratów \sum(n_i-Np_i)^2. Wyrazy tej sumy warto podzielić przez wartość oczekiwaną w każdym binie, czyli Np_i, dzięki czemu zaproponowana przez Pearsona w roku 1900 statystyka

\chi ^{2}=\sum\limits_{i=1}^r \frac{\left( n_i-N p_i\right) ^{2}}{N p_i}

dla N\rightarrow\infty i odpowiednio dużych Np_i podlega[6] rozkładowi \chi^2. Za "odpowiednio duże" ilości przypadków w każdym z przedziałów Np_i przyjmuje się zwykle przynajmniej pięć. Dla mniejszych ilości zliczeń w binach, \chi^2 nie będzie dobrym przybliżeniem rozkładu powyższej statystyki.

Górny wykres: histogram 200 wartości (jasne, szerokie słupki); wąskie (ciemniejsze) słupki przedstawiają wartości oczekiwane Np_i, gdzie p_i są całkami dopasowanej krzywej (rozkładu Gaussa) w odpowiednim przedziale. Dolny wykres: rozkład statystyki \chi^2=\sum_{i=1}^{15} \frac{(n_i-Np_i)^2}{Np_i} dla 12 stopni swobody (15 binów minus więzy: wyznaczone z danych \mu, \sigma oraz \sum_{i=1}^{15}n_i=N) z zaznaczoną wartością \chi^2_d dla danych z lewego wykresu. Ponieważ \int_{\chi^2_d}^\infty p(\chi^2)=0,24, hipotezę o pochodzeniu danych z rozkładu normalnego możemy przyjąć na poziomie istotności nawet 48% (test dwustronny).

Test niezależności kolumn i wierszy w tabelach

Test \chi^2 Pearsona można wykorzystać do analizy tabel, w których, podobnie jak w binach histogramu, znajdują się zliczenia przypadków. Tabele takie zwane są w języku angielskim contingency tables ; słownik Międzynarodowego Instytutu Statystyki[7] podaje jako polskie tłumaczenie "tablica kontyngencyjna" lub "tablica wielodzielcza".

Przykład

klasa\rightarrow I II III razem\downarrow
uratowanych 203 118 178 499
zaginionych 122 167 528 817
razem\rightarrow 325 285 706 1316
Figure 5: Powyższa tabela sumuje liczby ofiar słynnej katastrofy statku pasażerskiego Titanic (zob. http://www.encyclopedia-titanica.org) w zależności od klasy, którą podróżowali pasażerowie. Czy wykupienie biletu w pierwszej zamiast trzeciej klasie zwiększało szanse przeżycia?

Okazuje się, że wśród uratowanych było więcej pasażerów III klasy (178), niż pasażerów II klasy (118). Ale być może wynika to po prostu z faktu, że trzecią klasą podróżowało w ogóle więcej pasażerów (706) niż drugą (285)? Trzeba te proporcje wziąć pod uwagę.

Załóżmy, że szansa przeżycia nie miała nic wspólnego z tym, którą klasą podróżował pasażer. W takim przypadku szanse przeżycia byłyby jednakowe dla wszystkich pasażerów niezależnie od klasy i ocenić je można jako stosunek ilości uratowanych (499) do wszystkich pasażerów (1316), czyli ok. 38%[8] W tej sytuacji spośród pasażerów III klasy powinno ocaleć 38% z 706, czyli prawie prawie 268[9], z drugiej klasy 38% z 285 czyli około 108, wreszcie z pierwszej klasy — 38% z 325, czyli około123 pasażerów. Przewidywane ilości zaginionych możemy obliczyć z analogicznych proporcji — w każdej klasie powinno zginąć średnio 817/1316 czyli ok. 62% pasażerów. W ten sposób możemy stworzyć tabelę:

klasa\rightarrow I II III razem\downarrow
uratowanych 123 108 268 499
zaginionych 202 177 438 817
razem\rightarrow 325 285 706 1316
Figure 6: Wartości oczekiwane dla tabeli z tabeli 6 5 (zaokrąglone do liczb całkowitych) w świetle hipotezy o niezależności kolumn i wierszy.

Zwróćmy uwagę, że obliczone w ten sposób wartości oczekiwane dają takie same wartości brzegowe (czyli sumy po wierszach i kolumnach) jak dane oryginalne. W ogólnym przypadku dla tabeli o wymiarach 3\times 2:

a b b
d e f

i wartości brzegowych:

a b b (a+b+c)
d e f (d+e+f)
(a+d) (b+e) (c+f) (a+b+c+d+e+f)

hipotezę o niezależności kolumn i wierszy wyrażać będą wartości oczekiwane przedstawione w tabeli %i 7.

\frac{(a+b+c)(a+d)}{a+b+c+d+e+f} \frac{(a+b+c)(b+e)}{a+b+c+d+e+f} \frac{(a+b+c)(c+f)}{a+b+c+d+e+f} (a+b+c)
\frac{(d+e+f)(a+d)}{a+b+c+d+e+f} \frac{(d+e+f)(b+e)}{a+b+c+d+e+f} \frac{(d+e+f)(c+f)}{a+b+c+d+e+f} (d+e+f)
(a+d) (b+e) (c+f) (a+b+c+d+e+f)
Figure 7: Wartości oczekiwane dla hipotezy o niezależności kolumn i wierszy tabeli 3\times 2.

Ale wróćmy do pytania postawionego w przykładzie %i 5. Porównując dane z tego przykładu z tabelą %i 6 widzimy, że w klasach pierwszej i drugiej ocalało więcej pasażerów, niż wynikałoby to z hipotezy o niezależności szans przeżycia od klasy. Czy są to różnice statystycznie istotne, czy mogą wynikać z przypadku?

Trzeba oczywiście wrócić do Schematu Weryfikacji Hipotez Statystycznych. Wartości oczekiwane w świetle hipotezy zerowej opisuje tabela %i 6, a za statystykę testową posłuży \chi^2 Pearsona. Analogicznie do równania %i 4 obliczymy ją jako:

\chi^2=\sum\limits_{i=1}^r\frac{(n_i^{\textrm{obserwowane}}-n_i^{\textrm{oczekiwane}})^2}{n_i^{\textrm{oczekiwane}}},

gdzie n_i^{\textrm{obserwowane}} pochodzić będą bezpośrednio z tabeli %i 5, a n_i^{\textrm{oczekiwane}} z tabeli %i 6. Liczba stopni swobody dla testu tabeli o wymiarach 3\times 2 wynosi (3-1)(2-1)=2. W ogólnym przypadku dla tabeli o wymiarach n\times m ilość stopni swobody dla testu \chi^2 wynosi[10] (n-1)(m-1).

Według wzoru (5) sumować będziemy następujące wartości:[11]

\frac{(203-123)^2}{123} \frac{(118-108)^2}{108} \frac{(178-268)^2}{268}
\frac{(122-202)^2}{202} \frac{(167-177)^2}{177} \frac{(528-438)^2}{438}

Suma tych wartości wynosi ponad 133. Prawdopodobieństwo przypadkowego uzyskania tak wielkiego \chi^2 dla dwóch stopni swobody jest bardzo bliskie zera, więc zależność szans na przeżycie w tej katastrofie od tego, którą klasą podróżował pasażer, możemy uznać za istotną.


  1. Dowód tego faktu można znaleźć np. w książce "Probabilistyka. Rachunek Prawdopodobieństwa. Statystyka matematyczna. Procesy stochastyczne" Agnieszki i Edmunda Plucińskich.
  2. \Gamma(x+1)=\int_0^\infty t^xe^{-t}dt; \Gamma(n+1)=n! dla n=1,2,\ldots
  3. Oszacowanie w ogólnym przypadku podaje nierówność Czebyszewa: P(\left| X-\overline{x}\right| >k\sigma )<k^{-2},\ \ k\in \mathbb{R}^{+}. Dowód: \sigma ^{2}=\underset{-\infty }{\overset{\infty }{\int }}(x-\overline{x})^{2}p(x)dx\geq \underset{\left| x-\overline{x}\right| \geqk\sigma }\int (x-\overline{x})^{2}p(x)dx\geq k^{2}\sigma ^{2}\underset{\left| x-\overline{x}\right| \geq k\sigma }{\int }p(x)dx=k^{2}\sigma^{2}p(\left| X-\overline{x}\right| >k\sigma) jednak dla jednego odchylenia standardowego nierówność ta nie niesie żadnej informacji.
  4. Dowód można znaleźć np. w książce Siegmunda Brandta "Analiza danych. Metody statystyczne i obliczeniowe".
  5. W literaturze polskojęzycznej bin określa się również jako "przedział stałych wartości histogramu".
  6. Dowód tego faktu można znaleźć np. w książce Romana Nowaka "Statystyka dla Fizyków". Argumentacją (nie zastępującą dowodu) będzie spostrzeżenie, że znajdujące się w mianowniku Np_i jest równe wartości oczekiwanej rozkładu Poissona dla prawdopodobieństwa p_i. Ze wzoru w rozdziale o rozkładzie Poissona wynika, że wariancja tego rozkładu wynosi Np_i, więc podstawiając \sigma_{n_i}=\sqrt{Np_i} wzór %i 4 można wyrazić w postaci: \sum\limits_{i=1}^r \frac{\left( n_i-N p_i\right)^{2}}{N p_i} = \sum\limits_{i=1}^r \frac{\left( n_i-\mu_{n_i}\right) ^{2}}{\sigma_{n_i}}. Przekształcenie x\rightarrow \frac{x-\mu}{\sigma} daje zmienne z rozkładu o zerowej średniej i jednostkowej wariancji; udowodnienie, że jest to rozkład Gaussa, wymaga zastosowania przybliżeń, uzasadnionych dla "odpowiednio dużych" Np_i.
  7. International Statistical Institute (ISI), http://www.cbs.nl/isi.
  8. dokładnie 37,9..., w tekście przytaczamy wartości bardziej zaokrąglone niż w faktycznych obliczeniach.
  9. Dokładniej 267,5. Nie oznacza to bynajmniej, że jeden pasażer powinien ocaleć ,,połowicznie, tylko że 267 i 268 są liczbami najbliższymi najbardziej prawdopodobnej.
  10. Zgodnie z przypisem z rozdziału o rozkładzie t Studenta będzie to liczba niezależnych zmiennych pomniejszona o liczbę obliczonych z nich parametrów — w tym wypadku sumy wierszy i kolumn (z pominięciem całkowitej sumy, którą można z nich obliczyć).
  11. W poniższej tabeli zamieszczono wartości oczekiwane zaokrąglone do liczb całkowitych; w obliczeniach wykorzystujemy dokładne wartości n_i^{\textrm{oczekiwane}}, które nie muszą wyrażać się liczbami całkowitymi.