Z Brain-wiki
Skocz do: nawigacja, szukaj

Wnioskowanie_Statystyczne_-_wykład


Test rang Wilcoxona–Manna–Whitneya

W przykładzie sprawdzającym skuteczność remontu linii produkcyjnej w fabryce zetknęliśmy się z jedną z sytuacji najczęściej spotykanych w praktycznym stosowaniu statystyki, mianowicie pytaniem o istotność różnic między dwoma grupami. Bardzo często zdarza się, że nie mamy wystarczających informacji o rozkładach, z których pochodzą analizowane dane. Jeśli pomimo to zastosujemy np. test t oparty na założeniu normalności populacji, to popełniamy poważny błąd metodologiczny, przez co możemy uzyskać nieprawdziwy wynik.

Dlatego od wielu lat ogromną popularnością — szczególnie w naukach biomedycznych — cieszą się odpowiedniki testu t, nie wymagające założeń normalności. Najpopularniejszym z nich jest test zwany czasami testem Wilcoxona, innym znów razem testem Manna–Whitneya. Niejasności wynikają z faktu, że statystyki testowe zaproponowane przez Wilcoxona w roku 1945 oraz przez Manna i Whitneya w roku 1947 są równoważne, czyli zastosowanie dowolnej z nich daje de facto ten sam test.

Statystyka Wilcoxona

Mamy dwie próby o liczebnościach odpowiednio m i n elementów. Elementy pierwszej grupy oznaczymy \{x_i\}_{i=1\dots m}, a drugiej — \{y_j\}_{j=1\dots n}. Hipoteza zerowa zakłada ich pochodzenie z tej samej populacji.

Liczby z obydwu prób "wrzucamy do jednego worka", a następnie porządkujemy rosnąco. Każdej liczbie przypisujemy jej pozycję (rangę) R(x). Statystyką testową jest suma rang liczb pochodzących z pierwszej próby. Wartość statystyki Wilcoxona możemy zapisać jako

W_{m,n}=\sum\limits_{i=1}^{m} R(x_i).

Dla ilustracji użyjemy raz jeszcze danych z przykładu:

pierwsza próba (a) 12, 9, 21, 14, 7, 17;
druga próba (b) 5, 9, 3, 11, 8, 19, 7, 5, 9, 12, 5, 11, 9, 6, 8, 17, 9, 12

połączone próby:

liczba 3 5 7 8 9 9 11 12 14 17 19 21
grupa b b a b a b b a a a b a
ranga 1 2 3 4 5,5 5,5 7 8 9 10 11 12

W tym przypadku suma rang dla pierwszej grupy (a) wyniesie 47,5.[1]

Statystyka Manna–Whitneya

Ponownie porządkujemy elementy obu prób w jeden rosnący ciąg. Jako inwersję definiujemy taką parę liczb z tego ciągu, w której liczba z próby drugiej poprzedza (czyli jest od niej mniejsza) liczbę z próby pierwszej. Wartość statystyki Manna–Whitneya jest ilością takich inwersji w ciągu utworzonym z badanych prób.

Ilość inwersji zliczamy kolejno dla każdego elementu pierwszej grupy i sumujemy. Możemy to zapisać jako

M_{m,n}=\sum\limits_{i=1}^{m} \#\{j: y_j<x_i\} ,

gdzie symbol \# oznacza liczebność.

Równoważność statystyk W_{m,n} i M_{m,n}

Dla każdego elementu drugiej próby x_i jego ranga jest równa liczbie poprzedzających go elementów (z obu prób) powiększonej o jeden. Z kolei w i-tym składniku sumy (2) zliczamy wyłącznie poprzedzające x_i elementy drugiej próby (y_j) — do pełnej sumy rang brakuje ilości poprzedzających x_i elementów tej samej próby. Aby uzyskać "pełną" rangę, musimy je dodać: dla x_i będzie ich i-1.[2] Ostatecznie w (2) do pełnej sumy rang brakuje \sum\limits_{i=1}^ni. Ponieważ  \sum\limits_{i=1}^m i = \frac{m(m+1)}{2} , dostajemy

 W_{m,n} =M_{m,n}+\frac{m(m+1)}{2}.

Ponieważ dla ustalonych liczebności grup wartości tych statystyk różnią się o czynnik zależny wyłącznie od liczebności jednej z grup, ich rozkłady będą jednakowe z dokładnością do przesunięcia o ten czynnik, czyli oparte na nich testy będą równoważne.

Oznacza to, że testy oparte na tych statystykach będą dawać dokładnie takie same wyniki, czyli nie ma sensu ich rozróżnianie. Pozostaje więc znaleźć postać rozkładu prawdopodobieństwa dla jednej z tych statystyk...

-/

No tak, może faktycznie po ciężkich doświadczeniach z wyprowadzaniem postaci rozkładu z poprzedniego rozdziału byłoby to mało rozwijające. W dodatku w tym wypadku nie da się znaleźć tak "spójnej" postaci jak w poprzednim rozdziale,[3] więc zadowoliwszy się znajomością ogólnych reguł możemy spokojnie skorzystać z tablic lub odpowiednich programów komputerowych.


Dane z przykładu.


Spróbujmy zastosować ten test do danych z przykładu sprawdzającego skuteczność remontu linii produkcyjnej w fabryce. Po obliczeniu wartości statystyki (1) i porównaniu ze stablicowanymi wartościami[4] okazuje się, że hipotezę o pochodzeniu wyników przed i po remoncie z tej samej populacji można przyjąć na poziomie 5% (graniczne prawdopodobieństwo wynosi 7,4%). Z kolei stosowany przy pierwszej dyskusji tego przykładu test permutacyjny odrzucił hipotezę o braku zmian przy poziomie istotności ok. 3,8%[5] Zgodnie z oczekiwaniami sugeruje to mniejszą moc testu Wilcoxona–Manna–Whitneya, jako opartego jedynie na względnych wartościach. Zauważmy, że np. zastąpienie największej z wartości (21) wartością dowolnie większą (np. 21000) nie zmieni wartości statystyki (1)! Tak więc test ten nie wykorzystuje całej informacji zawartej w analizowanych danych — jest to cena za niezależność od rozkładu.

Na koniec powinniśmy wziąć pod uwagę jeszcze jeden czynnik. Ponieważ rozkład statystyki (1) jest symetryczny względem zamiany grupy "pierwszej" i "drugiej", czyli P(W_{m, n})=P(W_{n,m}), implementacje tego testu w programach komputerowych podają zwykle wynik dla testu dwustronnego. Graniczne prawdopodobieństwo dla testu jednostronnego byłoby dwukrotnie mniejsze od podanego, co daje dowód hipotezy o wpływie remontu linii na ilość braków, podobnie jak w teście permutacyjnym i t. Jednak fakt ten nie podważa ogólnej wartości rozważań poprzedniego akapitu.



  1. W przypadku występowania jednakowych wartości przypisujemy odpowiednie rangi ułamkowe.
  2. Przyjmujemy w tym miejscu, że x_i są uporządkowane rosnąco.
  3. Za to rozkład statystyki (1) jest szybko zbieżny do rozkładu normalnego (por. z książką Probabilistyka. Rachunek Prawdopodobieństwa. Statystyka matematyczna. Procesy stochastyczne" Agnieszki i Edmunda Plucińskich) i zwykle korzysta się z tego przybliżenia.
  4. Tablice statystyk (1) czy dla testu serii można znaleźć praktycznie w każdym podręczniku statystyki, choć w praktyce korzystamy z programów komputerowych, zawierających te informacje. Tak naprawdę dla większych prób programy te korzystają z postaci asymptotycznych tych rozkładów, wyznaczonych analitycznie.
  5. Test Studenta dla tych samych danych dał wynik podobny do uzyskanego w teście permutacyjnym, jednak w tym przypadku nie mamy gwarancji spełnienia założeń.