WnioskowanieStatystyczne/Test serii: Różnice pomiędzy wersjami

Z Brain-wiki
(Utworzono nową stronę " __NOTOC__ ==Test serii Walda-Wolfowitza== Serią nazywamy ciąg jednakowych elementów. W poniższym przykładzie mamy sześć serii (po trzy serie zer i jedynek): <c...")
 
 
(Nie pokazano 27 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
  
__NOTOC__
+
[[Wnioskowanie_Statystyczne_-_wykład]]
==Test serii Walda-Wolfowitza==
+
 
 +
 
 +
=Test serii Walda-Wolfowitza=
  
 
Serią nazywamy ciąg jednakowych elementów.  W poniższym przykładzie
 
Serią nazywamy ciąg jednakowych elementów.  W poniższym przykładzie
Linia 9: Linia 11:
 
         \overline{0}</math>.
 
         \overline{0}</math>.
 
</center>
 
</center>
Nie jest to oczywiście jedyna kombinacja kolejności pięciu zer i jedynek,
+
Nie jest to oczywiście jedyna kombinacja kolejności pięciu zer i pięciu jedynek,
 
dająca w wyniku sześć serii. Ponieważ każda pojedyncza kombinacja jest jednakowo
 
dająca w wyniku sześć serii. Ponieważ każda pojedyncza kombinacja jest jednakowo
 
prawdopodobna (jeśli jest wynikiem niezależnych losowań), to prawdopodobieństwo
 
prawdopodobna (jeśli jest wynikiem niezależnych losowań), to prawdopodobieństwo
Linia 20: Linia 22:
 
</blockquote>
 
</blockquote>
  
Na przedstawiony powyżej przykład, zawierający pięć jedynek i pięć zer,
+
{| role="presentation" class="wikitable mw-collapsible mw-collapsed"
możemy patrzeć jak na przypisanie liczbom od jeden do dziesięciu  
+
| <strong>kod </strong>
 +
|-
 +
| <pre>
 +
import matplotlib.pyplot as plt
 +
import numpy
 +
 
 +
n1=25 # zera
 +
n2=30 # jedynki
 +
ile_losowan=100000
 +
wynik=numpy.zeros(ile_losowan, dtype=numpy.int)
 +
n=n1+n2
 +
 
 +
for i in range(0, ile_losowan):
 +
losowanie=numpy.zeros(n, dtype=numpy.int)
 +
while numpy.sum(losowanie) < n2:
 +
losowanie[numpy.random.randint(0,n)]=1
 +
#s=numpy.array_str(losowanie).replace(" ",""); print s
 +
zmiany=1
 +
for j in range(1, n):
 +
if(losowanie[j] != losowanie[j-1]):
 +
zmiany += 1
 +
wynik[i]=zmiany
 +
 
 +
plt.hist(wynik, bins=range(0,n))
 +
plt.xlabel("$k$")
 +
plt.ylabel("$P(k)$")
 +
plt.title("$n_1 = 30, n_2 = 25$")
 +
plt.show()
 +
</pre>
 +
|}
 +
 
 +
 
 +
[[Plik:Testserii.png|center|thumb|600px|<figure id="fig:132"></figure>Histogram liczby serii <math>k</math> w <math>10^5</math> niezależnych losowaniach 30 zer i 25 jedynek.]]
 +
[[Plik:Testserii_10.9.png|center|thumb|600px|<figure id="fig:132"></figure>Histogram liczby serii <math>k</math> w <math>10^9</math> niezależnych losowaniach 30 zer i 25 jedynek.]]
 +
[[Plik:Testserii_10.9.log.png|center|thumb|600px|<figure id="fig:132"></figure>Histogram liczby serii <math>k</math> w <math>10^9</math> niezależnych losowaniach 30 zer i 25 jedynek (skala logarytmiczna).]]
 +
 
 +
<!--
 +
[[Plik:Testserii6.png|center|thumb|600px|<figure id="fig:132"></figure>Histogram liczby serii <math>k</math> w <math>10^6</math> niezależnych losowaniach 30 zer i 25 jedynek.]]
 +
-->
 +
 
 +
 
 +
 
 +
Wróćmy do prostszego przykładu, zawierającego pięć jedynek i pięć zer.
 +
Podział na serie możemy interpretować jak przypisanie liczbom od jeden do dziesięciu  
 
(pozycje w ciągu) zera lub jedynki:
 
(pozycje w ciągu) zera lub jedynki:
 
<center>
 
<center>
Linia 55: Linia 100:
 
zera &mdash; lub odwrotnie). Czyli wszystkich możliwych ciągów
 
zera &mdash; lub odwrotnie). Czyli wszystkich możliwych ciągów
 
<math>n_1</math> zer i <math>n_2</math> jedynek będzie tyle, na ile
 
<math>n_1</math> zer i <math>n_2</math> jedynek będzie tyle, na ile
sposobów można wylosować <math>n_1</math> elenentów spośród
+
sposobów można wylosować <math>n_1</math> elementów spośród
 
<math>N</math>.  Policzmy: pozycję (czyli numer, wypisany w dolnym
 
<math>N</math>.  Policzmy: pozycję (czyli numer, wypisany w dolnym
 
rzędzie powyższej tabeli) pierwszego elementu losujemy spośród
 
rzędzie powyższej tabeli) pierwszego elementu losujemy spośród
Linia 61: Linia 106:
 
pozostałych możliwości (jedna pozycja jest już zajęta), i tak dalej,
 
pozostałych możliwości (jedna pozycja jest już zajęta), i tak dalej,
 
aż pozycję ostatniego z <math>n_1</math> elementów losujemy spośród
 
aż pozycję ostatniego z <math>n_1</math> elementów losujemy spośród
<math>N-n_1</math> pozostałych możliwości.  Ilość możliwych wyników
+
<math>N-n_1</math> pozostałych możliwości.  Liczba możliwych wyników
 
będzie iloczynem tych wszystkich liczb, czyli wyniesie
 
będzie iloczynem tych wszystkich liczb, czyli wyniesie
 
<math>N\cdot(N-1)\cdot(N-2)\cdot\ \dots\ \cdot (N-n_1) =
 
<math>N\cdot(N-1)\cdot(N-2)\cdot\ \dots\ \cdot (N-n_1) =
 
N!/(N-n_1)!</math> Skoro wszystkie jedynki są jednakowe i nie
 
N!/(N-n_1)!</math> Skoro wszystkie jedynki są jednakowe i nie
 
rozróżniamy wyników różniących się ich kolejnością, to wynik ten
 
rozróżniamy wyników różniących się ich kolejnością, to wynik ten
musimy podzielić przez ilość różnych ustawień kolejności elementów
+
musimy podzielić przez liczbę różnych ustawień kolejności elementów
 
(liczbę permutacji) zbioru <math>n_1</math>-elementowego. Wyniesie ona
 
(liczbę permutacji) zbioru <math>n_1</math>-elementowego. Wyniesie ona
 
<math>n_1\cdot(n_1-1)\cdot\ \dots\ \cdot 1</math>, czyli
 
<math>n_1\cdot(n_1-1)\cdot\ \dots\ \cdot 1</math>, czyli
<math>n_1!</math> Ostatecznie jako ilość różnych ustawień
+
<math>n_1!</math> Ostatecznie jako liczbę różnych ustawień
 
<math>n_1</math> zer i <math>N-n_1</math> jedynek dostajemy:
 
<math>n_1</math> zer i <math>N-n_1</math> jedynek dostajemy:
 
<center>
 
<center>
Linia 76: Linia 121:
 
</math>
 
</math>
 
</center>
 
</center>
Jest to znany z [[STAT:Przykładowe rozkłady#Rozkład dwumianowy|rozdziału o rozkładzie dwumianowym]] symbol Newtona <math>\binom{N}{n_1}</math>. Jego własności
+
Jest to znany z [[WnioskowanieStatystyczne/Rozklady-przyklady#Rozkład dwumianowy|rozdziału o rozkładzie dwumianowym]] symbol Newtona <math>\binom{N}{n_1}</math>. Jego własności
 
symetrii zgadzają się z sytuacją, w ktorej "wybierać" możemy albo <math>n_1</math> zer
 
symetrii zgadzają się z sytuacją, w ktorej "wybierać" możemy albo <math>n_1</math> zer
 
albo <math>n_2</math> jedynek:
 
albo <math>n_2</math> jedynek:
Linia 84: Linia 129:
 
</math></center>
 
</math></center>
  
Pozostaje policzyć, ile z tych możliwości (przy ustalonych ilościach
+
Pozostaje policzyć, ile z tych możliwości (przy ustalonych liczbach
 
<math>n_1</math> jedynek i <math>n_2</math> zer) wygeneruje ciąg
 
<math>n_1</math> jedynek i <math>n_2</math> zer) wygeneruje ciąg
 
wyników, w którym będzie dokładnie <math>k</math> serii?
 
wyników, w którym będzie dokładnie <math>k</math> serii?
  
#'''Jeśli ilość serii <math>k</math> jest parzysta''', to będziemy mieć tyle samo serii jedynek i zer (po <math>k/2</math>). Aby rozmieścić <math>n_1</math> jedynek w <math>k/2</math> seriach musimy wyznaczyć <math>k/2-1</math> punktów podziału na serie; w powyższym przykładzie będą to (kropki) '''1.1.111.''' &mdash; było 6 serii, więc mamy 2 punkty podziału. Inaczej losujemy spośród <math>n_1-1</math> możliwych punktów podziału <math>k/2-1</math> podziałów, jak wynika z liczby serii <math>k</math>. Daje to <math>\binom{n_1-1}{k/2-1}</math> możliwości. W miejsca podziału (oznaczone kropkami) wstawiamy serie zer; analogicznie możemy to zrobić na <math>\binom{n_2-1}{k/2-1}</math> możliwości (w przykładzie: '''00.00.0'''). Liczbę tę należy pomnożyć przez dwa ze względu na możliwość zamiany miejscami zer i jedynek. Prawdopodobieństwo danej ilości serii dostaniemy &mdash; zgodnie z klasyczną definicją prawdopodobieństwa &mdash; dzieląc ilość wszystkich tych kombinacji <math>n_1</math> jedynek i <math>n_2</math> zer, które generują dokładnie <math>k</math> serii, przez ilość wszystkich możliwych kombinacji: <math> P=\frac{ 2\binom{n_1-1}{k/2-1} \binom{n_2-1}{k/2-1}} { \binom{N}{n_1}} \qquad\textrm{dla }\ k\ \textrm{parzystych.} </math>
 
#'''Jeśli ilość serii <math>k</math> jest nieparzysta,''' to którychś serii &mdash; zer lub jedynek &mdash; będzie dokładnie o jeden więcej. <equation id="eq:127"></equation>
 
#'''jeśli więcej jest serii jedynek''', mamy <math>(k-1)/2</math> serii zer i <math>(k-1)/2+1</math> serii jedynek. <math>n_1</math> jedynek dzielimy na <math>(k-1)/2+1</math> serii, czyli wyznaczamy <math>(k-1)/2</math> punktów podziału spośród <math>n_1-1</math> możliwych &mdash; daje to <math>\binom{n_1-1}{(k-1)/2}</math> możliwości. Z kolei <math>n_2</math> zer dzielimy na <math>(k-1)/2</math> serii, co daje <math>\binom{n_2-1}{(k-1)/2-1}</math> możliwości. Iloczyn tych dwóch wielkości określa liczbę możliwości dających <math>k</math> serii, jeśli więcej jest serii jedynek: <equation id="eq:128"><math> \binom{n_1-1}{(k-1)/2} \binom{n_2-1}{(k-1)/2-1} </math></equation>
 
#'''jeśli więcej jest serii zer''', to na drodze analogicznego rozumowania dostajemy <equation id="eq:129"><math> \binom{n_1-1}{(k-1)/2-1} \binom{n_2-1}{(k-1)/2}. </math></equation>
 
  
Prawdopodobieństwo dla przypadku nieparzystej liczby serii będzie sumą tych
+
<center>
dwóch wielkości podzieloną, jak w przypadku parzystego <math>k</math>,  
+
<math>\underline{1}\overline{00}\underline{1}\overline{00}\underline{111}
przez ilość wszystkich możliwości:
+
        \overline{0}</math>.
 +
</center>
 +
 
 +
 
 +
#'''Jeśli liczba serii <math>k</math> jest parzysta''', to będziemy mieć tyle samo serii jedynek i zer (po <math>k/2</math>). Aby rozmieścić <math>n_1</math> jedynek w <math>k/2</math> seriach musimy wyznaczyć <math>k/2-1</math> punktów podziału na serie; w powyższym przykładzie będą to (kropki) '''1.1.111''' &mdash; było 6 serii, więc mamy 2 punkty podziału. Inaczej losujemy spośród <math>n_1-1</math> możliwych punktów podziału <math>k/2-1</math> podziałów, jak wynika z liczby serii <math>k</math>. Daje to <math>\binom{n_1-1}{k/2-1}</math> możliwości. W miejsca podziału (oznaczone kropkami) wstawiamy serie zer; analogicznie możemy to zrobić na <math>\binom{n_2-1}{k/2-1}</math> możliwości (w przykładzie: '''00.00.0'''). Liczbę tę należy pomnożyć przez dwa ze względu na możliwość zamiany miejscami zer i jedynek. Prawdopodobieństwo danej liczby serii dostaniemy &mdash; zgodnie z klasyczną definicją prawdopodobieństwa &mdash; dzieląc liczbę wszystkich tych kombinacji <math>n_1</math> jedynek i <math>n_2</math> zer, które generują dokładnie <math>k</math> serii, przez liczbę wszystkich możliwych kombinacji: <math> P=\frac{ 2\binom{n_1-1}{k/2-1} \binom{n_2-1}{k/2-1}} { \binom{N}{n_1}} \qquad\textrm{dla }\ k\ \textrm{parzystych.} </math>
 +
#'''Jeśli liczba serii <math>k</math> jest nieparzysta,''' to którychś serii &mdash; zer lub jedynek &mdash; będzie dokładnie o jeden więcej. <equation id="eq:127"></equation>
 +
 
 +
 
 +
<center>
 +
<math>\underline{1}\overline{00}\underline{1}\overline{000}\underline{111}
 +
        </math>.
 +
</center>
 +
 
 +
 
 +
##'''jeśli więcej jest serii jedynek''', mamy <math>(k-1)/2</math> serii zer i <math>(k-1)/2+1</math> serii jedynek. <math>n_1</math> jedynek dzielimy na <math>(k-1)/2+1</math> serii, czyli wyznaczamy <math>(k-1)/2</math> punktów podziału spośród <math>n_1-1</math> możliwych &mdash; daje to <math>\binom{n_1-1}{(k-1)/2}</math> możliwości. Z kolei <math>n_2</math> zer dzielimy na <math>(k-1)/2</math> serii, co daje <math>\binom{n_2-1}{(k-1)/2-1}</math> możliwości. Iloczyn tych dwóch wielkości określa liczbę możliwości dających <math>k</math> serii, jeśli więcej jest serii jedynek: <equation id="eq:128"><math> \binom{n_1-1}{(k-1)/2} \binom{n_2-1}{(k-1)/2-1} </math></equation>
 +
##'''jeśli więcej jest serii zer''', to na drodze analogicznego rozumowania dostajemy <equation id="eq:129"><math> \binom{n_1-1}{(k-1)/2-1} \binom{n_2-1}{(k-1)/2}. </math></equation>
 +
 
 +
Prawdopodobieństwo dla przypadku nieparzystej liczby serii będzie sumą tych dwóch wielkości, podzieloną, jak w przypadku parzystego <math>k</math>, przez liczbę wszystkich możliwości:
 
<equation id="eq:130">
 
<equation id="eq:130">
 
<math>\begin{matrix}
 
<math>\begin{matrix}
Linia 106: Linia 164:
 
\end{matrix}</math></equation>
 
\end{matrix}</math></equation>
  
'''Pozostaje jeszcze rozważyć sytuację''', w której ilość serii jest
+
'''Pozostaje jeszcze rozważyć sytuację''', w której liczba serii jest
nieparzysta, jak w punkcie <xr id="eq:127"> %i</xr>, ale mniej liczne
+
nieparzysta, jak w punkcie 2., ale mniej liczne
 
elementy rozłożone są wyłącznie w serie jednoelementowe, na przykład
 
elementy rozłożone są wyłącznie w serie jednoelementowe, na przykład
001010010100, czyli ilość serii wynosi <math>2n+1</math>, gdzie
+
001010010100, czyli liczba serii wynosi <math>2n+1</math>, gdzie
<math>n</math> jest ilością mniej licznych elementów (w tym
+
<math>n</math> jest liczbą mniej licznych elementów (w tym
 
przykładzie jedynek). Wtedy znika jeden ze składników sumy z licznika
 
przykładzie jedynek). Wtedy znika jeden ze składników sumy z licznika
równania <xr id="eq:130">(%i)</xr>, gdyż zachodzić może wyłącznie
+
powyższego równania, gdyż zachodzić może wyłącznie
przypadek <xr id="eq:128"> %i</xr> lub <xr id="eq:129">
+
przypadek 2.1 lub 2.2.
%i</xr>.<ref>Przypadek ten trzeba rozważać osobno, gdyż bezpośrednie
 
zastosowanie wzoru <xr id="eq:130">(%i)</xr> dałoby tutaj silnię
 
liczby ujemnej.</ref>
 
  
Ostatecznie dostajemy następujący wzór<!--<ref>Tekst programu (w
+
Ostatecznie dostajemy następujący wzór na
języku "Matlab") obliczającego prawdopodobieństwo według tego wzoru
 
znajduje się na stronie \pageref{prog:rozklad_serii}.}--> na
 
 
prawdopodobieństwo wystąpienia <math>k</math> serii w próbie, w której
 
prawdopodobieństwo wystąpienia <math>k</math> serii w próbie, w której
 
drogą niezależnych losowań wylosowano <math>n_1</math> zer i
 
drogą niezależnych losowań wylosowano <math>n_1</math> zer i
Linia 143: Linia 196:
 
}
 
}
 
{{ \binom{N}{(k-1)/2}}}
 
{{ \binom{N}{(k-1)/2}}}
\ \quad\qquad\qquad\textrm{dla }\ k\ \textrm{ nieparzystych \ i \ }   
+
\ \quad\qquad\qquad\textrm{dla }\ k\ \textrm{ nieparzystych i }   
 
n_\textrm{min}=\frac{k-1}{2},  
 
n_\textrm{min}=\frac{k-1}{2},  
 
\end{cases}
 
\end{cases}
Linia 150: Linia 203:
 
<math>n_\textrm{max}=\max(n_1, n_2)</math>.
 
<math>n_\textrm{max}=\max(n_1, n_2)</math>.
  
Wzór ten określa rozkład statystyki, będącej ilością serii w próbie złożonej  
+
Wzór ten określa rozkład statystyki, będącej liczbą serii w próbie złożonej  
 
z dowolnych dwóch rodzajów elementów (oznaczanych powyżej jako '''0''' i '''1'''). Dzięki niemu możemy wreszcie skonstruować kompletny test hipotezy
 
z dowolnych dwóch rodzajów elementów (oznaczanych powyżej jako '''0''' i '''1'''). Dzięki niemu możemy wreszcie skonstruować kompletny test hipotezy
 
mówiącej, że dany ciąg jest wynikiem niezależnych losowań. Przypomnijmy dane  
 
mówiącej, że dany ciąg jest wynikiem niezależnych losowań. Przypomnijmy dane  
z [[STAT:Testy_nieprametryczne|przykładu o nieuczciwym ankieterze]]:
+
z [[WnioskowanieStatystyczne/Testy_nieprametryczne|przykładu o nieuczciwym ankieterze]]:
  
 
<center>
 
<center>
Linia 164: Linia 217:
 
którym będzie <math>k</math> serii. Możliwe wartości <math>k</math>
 
którym będzie <math>k</math> serii. Możliwe wartości <math>k</math>
 
będą w tym przypadku zawierać się między 2 (jedna seria zer i jedna
 
będą w tym przypadku zawierać się między 2 (jedna seria zer i jedna
jedynek) a 51 (ponieważ mniej jest zer, największa ilość serii
+
jedynek) a 51 (ponieważ mniej jest zer, największa liczba serii
 
odpowiada przypadkowi, w którym wszystkie zera układają się w serie
 
odpowiada przypadkowi, w którym wszystkie zera układają się w serie
 
jednoelementowe). Rozkład prawdopodobieństwa dla tego przypadku
 
jednoelementowe). Rozkład prawdopodobieństwa dla tego przypadku
 
przedstawia rysunek <xr id="fig:132"> %i</xr>.
 
przedstawia rysunek <xr id="fig:132"> %i</xr>.
  
[[Plik:serie.png|center|thumb|600px|<figure id="fig:132"></figure>Rozkład prawdopodobieństw <math>P(k)</math> ilości serii <math>k</math> w niezależnym losowaniu 30 zer i 25 jedynek.]]
+
[[Plik:serie.png|center|thumb|600px|<figure id="fig:132"></figure>Rozkład prawdopodobieństw <math>P(k)</math> liczby serii <math>k</math> w niezależnym losowaniu 30 zer i 25 jedynek.]]
 
 
[[Załączony program]] oblicza według wzoru <xr id="eq:131">(%i)</xr>
 
rozkład prawdpodobieństwa oraz poziom istotności dla hipotezy
 
mówiącej, że wpisany ciąg jest wynikiem niezależnych losowań. Pozwala
 
on na "zabawę w oszukiwanie": możemy próbować wpisać taki ciąg dwóch
 
symboli, który przejdzie test na niezależność losowań. Okazuje się, że
 
najczęściej wpisujemy ciągi, w których występuje za dużo serii, czyli
 
wpisujemy za krótkie serie jednakowych elementów.
 
  
 
Zastosowania testów opartych na tej statystyce nie ograniczają się do
 
Zastosowania testów opartych na tej statystyce nie ograniczają się do
Linia 188: Linia 233:
 
Podobny problem &mdash; pytanie, czy elementy próby są wynikiem
 
Podobny problem &mdash; pytanie, czy elementy próby są wynikiem
 
niezależnych losowań &mdash; występuje np. przy testowaniu generatorów
 
niezależnych losowań &mdash; występuje np. przy testowaniu generatorów
liczb losowych ([[STAT:Z_komputerem#cite_note-0|będących kluczowym
+
liczb losowych ([[WnioskowanieStatystyczne/Z_komputerem#cite_note-0|będących kluczowym
 
elementem metod opisywanych w pierwszej części książki]]). Jednak w
 
elementem metod opisywanych w pierwszej części książki]]). Jednak w
 
tej sytuacji mamy do czynienia z ciągiem dowolnych liczb, a nie dwóch
 
tej sytuacji mamy do czynienia z ciągiem dowolnych liczb, a nie dwóch
Linia 197: Linia 242:
 
i przypisując wynikom większym od <math>M</math> jedynkę, a mniejszym
 
i przypisując wynikom większym od <math>M</math> jedynkę, a mniejszym
 
&mdash; zero. Jeśli chcemy mieć tyle samo zer i jedynek, jako
 
&mdash; zero. Jeśli chcemy mieć tyle samo zer i jedynek, jako
<math>M</math> możemy wziąć [[STAT:Momenty#Mediana|medianę]] próby. Do
+
<math>M</math> możemy wziąć [[WnioskowanieStatystyczne/Momenty#Mediana|medianę]] próby. Do
 
takiej serii możemy już z powodzeniem stosować opisany w poprzednim
 
takiej serii możemy już z powodzeniem stosować opisany w poprzednim
 
rozdziale test oparty na statystyce <xr id="eq:131">(%i)</xr> &mdash;
 
rozdziale test oparty na statystyce <xr id="eq:131">(%i)</xr> &mdash;
Linia 214: Linia 259:
 
pierwszej próby przypisujemy jedynki, a drugiej &mdash; zera.
 
pierwszej próby przypisujemy jedynki, a drugiej &mdash; zera.
  
Jeśli obie próby losowano z tej samej populacji, to ilość serii w tak określonym
+
Jeśli obie próby losowano z tej samej populacji, to liczba serii w tak określonym
 
ciągu podlega statystyce <xr
 
ciągu podlega statystyce <xr
 
id="eq:131">(%i)</xr>, czyli ponownie możemy
 
id="eq:131">(%i)</xr>, czyli ponownie możemy

Aktualna wersja na dzień 20:11, 11 kwi 2024

Wnioskowanie_Statystyczne_-_wykład


Test serii Walda-Wolfowitza

Serią nazywamy ciąg jednakowych elementów. W poniższym przykładzie mamy sześć serii (po trzy serie zer i jedynek):

[math]\underline{1}\overline{00}\underline{1}\overline{00}\underline{111} \overline{0}[/math].

Nie jest to oczywiście jedyna kombinacja kolejności pięciu zer i pięciu jedynek, dająca w wyniku sześć serii. Ponieważ każda pojedyncza kombinacja jest jednakowo prawdopodobna (jeśli jest wynikiem niezależnych losowań), to prawdopodobieństwo uzyskania danej liczby serii będzie tym większe, im więcej różnych kombinacji będzie dawać w wyniku tę liczbę serii. Sformułujmy więc problem ogólnie:

Mamy [math]N=n_1+n_2[/math] elementów, w tym [math]n_1[/math] zer i [math]n_2[/math] jedynek. Na ile sposobów możemy je rozłożyć, aby uzyskać [math]k[/math] serii?


Histogram liczby serii [math]k[/math] w [math]10^5[/math] niezależnych losowaniach 30 zer i 25 jedynek.
Histogram liczby serii [math]k[/math] w [math]10^9[/math] niezależnych losowaniach 30 zer i 25 jedynek.
Histogram liczby serii [math]k[/math] w [math]10^9[/math] niezależnych losowaniach 30 zer i 25 jedynek (skala logarytmiczna).



Wróćmy do prostszego przykładu, zawierającego pięć jedynek i pięć zer. Podział na serie możemy interpretować jak przypisanie liczbom od jeden do dziesięciu (pozycje w ciągu) zera lub jedynki:

1 0 0 1 0 0 1 1 1 0
1 2 3 4 5 6 7 8 9 10

Inaczej mówiąc, konkretny ciąg [math]N[/math] zer i jedynek wyznaczony jest przez wylosowanie spośród liczb od jednego do [math]N[/math] tych liczb, którym mają być przypisane jedynki (pozostałym będą przypisane zera — lub odwrotnie). Czyli wszystkich możliwych ciągów [math]n_1[/math] zer i [math]n_2[/math] jedynek będzie tyle, na ile sposobów można wylosować [math]n_1[/math] elementów spośród [math]N[/math]. Policzmy: pozycję (czyli numer, wypisany w dolnym rzędzie powyższej tabeli) pierwszego elementu losujemy spośród [math]N[/math] możliwości, drugiego — spośród [math]N-1[/math] pozostałych możliwości (jedna pozycja jest już zajęta), i tak dalej, aż pozycję ostatniego z [math]n_1[/math] elementów losujemy spośród [math]N-n_1[/math] pozostałych możliwości. Liczba możliwych wyników będzie iloczynem tych wszystkich liczb, czyli wyniesie [math]N\cdot(N-1)\cdot(N-2)\cdot\ \dots\ \cdot (N-n_1) = N!/(N-n_1)![/math] Skoro wszystkie jedynki są jednakowe i nie rozróżniamy wyników różniących się ich kolejnością, to wynik ten musimy podzielić przez liczbę różnych ustawień kolejności elementów (liczbę permutacji) zbioru [math]n_1[/math]-elementowego. Wyniesie ona [math]n_1\cdot(n_1-1)\cdot\ \dots\ \cdot 1[/math], czyli [math]n_1![/math] Ostatecznie jako liczbę różnych ustawień [math]n_1[/math] zer i [math]N-n_1[/math] jedynek dostajemy:

[math] \frac{N!}{(N-n_1)!\ n_1!} = \binom{N}{n_1}. [/math]

Jest to znany z rozdziału o rozkładzie dwumianowym symbol Newtona [math]\binom{N}{n_1}[/math]. Jego własności symetrii zgadzają się z sytuacją, w ktorej "wybierać" możemy albo [math]n_1[/math] zer albo [math]n_2[/math] jedynek:

[math] \binom{N}{n_1}=\binom{n_1+n_2}{n_1}=\frac{(n_1+n_2)!}{n_1! n_2!}=\binom{n_1+n_2}{n_2}=\binom{N}{n_2}. [/math]

Pozostaje policzyć, ile z tych możliwości (przy ustalonych liczbach [math]n_1[/math] jedynek i [math]n_2[/math] zer) wygeneruje ciąg wyników, w którym będzie dokładnie [math]k[/math] serii?


[math]\underline{1}\overline{00}\underline{1}\overline{00}\underline{111} \overline{0}[/math].


  1. Jeśli liczba serii [math]k[/math] jest parzysta, to będziemy mieć tyle samo serii jedynek i zer (po [math]k/2[/math]). Aby rozmieścić [math]n_1[/math] jedynek w [math]k/2[/math] seriach musimy wyznaczyć [math]k/2-1[/math] punktów podziału na serie; w powyższym przykładzie będą to (kropki) 1.1.111 — było 6 serii, więc mamy 2 punkty podziału. Inaczej losujemy spośród [math]n_1-1[/math] możliwych punktów podziału [math]k/2-1[/math] podziałów, jak wynika z liczby serii [math]k[/math]. Daje to [math]\binom{n_1-1}{k/2-1}[/math] możliwości. W miejsca podziału (oznaczone kropkami) wstawiamy serie zer; analogicznie możemy to zrobić na [math]\binom{n_2-1}{k/2-1}[/math] możliwości (w przykładzie: 00.00.0). Liczbę tę należy pomnożyć przez dwa ze względu na możliwość zamiany miejscami zer i jedynek. Prawdopodobieństwo danej liczby serii dostaniemy — zgodnie z klasyczną definicją prawdopodobieństwa — dzieląc liczbę wszystkich tych kombinacji [math]n_1[/math] jedynek i [math]n_2[/math] zer, które generują dokładnie [math]k[/math] serii, przez liczbę wszystkich możliwych kombinacji: [math] P=\frac{ 2\binom{n_1-1}{k/2-1} \binom{n_2-1}{k/2-1}} { \binom{N}{n_1}} \qquad\textrm{dla }\ k\ \textrm{parzystych.} [/math]
  2. Jeśli liczba serii [math]k[/math] jest nieparzysta, to którychś serii — zer lub jedynek — będzie dokładnie o jeden więcej.


[math]\underline{1}\overline{00}\underline{1}\overline{000}\underline{111} [/math].


    1. jeśli więcej jest serii jedynek, mamy [math](k-1)/2[/math] serii zer i [math](k-1)/2+1[/math] serii jedynek. [math]n_1[/math] jedynek dzielimy na [math](k-1)/2+1[/math] serii, czyli wyznaczamy [math](k-1)/2[/math] punktów podziału spośród [math]n_1-1[/math] możliwych — daje to [math]\binom{n_1-1}{(k-1)/2}[/math] możliwości. Z kolei [math]n_2[/math] zer dzielimy na [math](k-1)/2[/math] serii, co daje [math]\binom{n_2-1}{(k-1)/2-1}[/math] możliwości. Iloczyn tych dwóch wielkości określa liczbę możliwości dających [math]k[/math] serii, jeśli więcej jest serii jedynek:
      [math] \binom{n_1-1}{(k-1)/2} \binom{n_2-1}{(k-1)/2-1} [/math]
    2. jeśli więcej jest serii zer, to na drodze analogicznego rozumowania dostajemy
      [math] \binom{n_1-1}{(k-1)/2-1} \binom{n_2-1}{(k-1)/2}. [/math]

Prawdopodobieństwo dla przypadku nieparzystej liczby serii będzie sumą tych dwóch wielkości, podzieloną, jak w przypadku parzystego [math]k[/math], przez liczbę wszystkich możliwości:

[math]\begin{matrix} P&\!\!\!\!=&\!\!\!\!\frac{ \binom{n_1-1}{(k-1)/2} \binom{n_2-1}{(k-1)/2-1} + \binom{n_1-1}{(k-1)/2-1} \binom{n_2-1}{(k-1)/2} } {{ \binom{N}{n_1}}} \\ &&\textrm{dla }\ k\ \textrm{ nieparzystych.} \end{matrix}[/math]

Pozostaje jeszcze rozważyć sytuację, w której liczba serii jest nieparzysta, jak w punkcie 2., ale mniej liczne elementy rozłożone są wyłącznie w serie jednoelementowe, na przykład 001010010100, czyli liczba serii wynosi [math]2n+1[/math], gdzie [math]n[/math] jest liczbą mniej licznych elementów (w tym przykładzie jedynek). Wtedy znika jeden ze składników sumy z licznika powyższego równania, gdyż zachodzić może wyłącznie przypadek 2.1 lub 2.2.

Ostatecznie dostajemy następujący wzór na prawdopodobieństwo wystąpienia [math]k[/math] serii w próbie, w której drogą niezależnych losowań wylosowano [math]n_1[/math] zer i [math]n_2[/math] jedynek:

[math] P(k\mid n_1, n_2)=\begin{cases} \frac{ 2\binom{n_1-1}{k/2-1} \binom{n_2-1}{k/2-1}} { \binom{N}{n_1}} \quad \textrm{dla }\ k\ \textrm{ parzystych} \\ \frac{ \binom{n_1-1}{(k-1)/2} \binom{n_2-1}{(k-1)/2-1} + \binom{n_1-1}{(k-1)/2-1} \binom{n_2-1}{(k-1)/2} } {{ \binom{N}{n_1}}} \\ \quad\qquad\qquad\qquad\qquad\qquad \textrm{dla }\ k\ \textrm{ nieparzystych} \\ \frac{ \binom{n_\textrm{max}-1}{(k-1)/2} } {{ \binom{N}{(k-1)/2}}} \ \quad\qquad\qquad\textrm{dla }\ k\ \textrm{ nieparzystych i } n_\textrm{min}=\frac{k-1}{2}, \end{cases} [/math]

gdzie [math]n_\textrm{min}=\min(n_1, n_2)[/math] i [math]n_\textrm{max}=\max(n_1, n_2)[/math].

Wzór ten określa rozkład statystyki, będącej liczbą serii w próbie złożonej z dowolnych dwóch rodzajów elementów (oznaczanych powyżej jako 0 i 1). Dzięki niemu możemy wreszcie skonstruować kompletny test hipotezy mówiącej, że dany ciąg jest wynikiem niezależnych losowań. Przypomnijmy dane z przykładu o nieuczciwym ankieterze:

1101101000101001011101101111010110010101001010100011101

W ciągu tym występuje 25 zer i 30 jedynek, układających się w 37 serii. Na podstawie wzoru (5) możemy obliczyć rozkład prawdopodobieństwa wylosowania ciągu 25 zer i 30 jedynek, w którym będzie [math]k[/math] serii. Możliwe wartości [math]k[/math] będą w tym przypadku zawierać się między 2 (jedna seria zer i jedna jedynek) a 51 (ponieważ mniej jest zer, największa liczba serii odpowiada przypadkowi, w którym wszystkie zera układają się w serie jednoelementowe). Rozkład prawdopodobieństwa dla tego przypadku przedstawia rysunek %i 4.

Rozkład prawdopodobieństw [math]P(k)[/math] liczby serii [math]k[/math] w niezależnym losowaniu 30 zer i 25 jedynek.

Zastosowania testów opartych na tej statystyce nie ograniczają się do analizy ciągów zer i jedynek (lub innych dwóch elementów). Poniżej przedstawiamy jeszcze dwa testy korzystające ze statystyki (5).

Testowanie, czy próba jest wynikiem niezależnych losowań

Podobny problem — pytanie, czy elementy próby są wynikiem niezależnych losowań — występuje np. przy testowaniu generatorów liczb losowych (będących kluczowym elementem metod opisywanych w pierwszej części książki). Jednak w tej sytuacji mamy do czynienia z ciągiem dowolnych liczb, a nie dwóch symboli.

Pomysł jest prosty: ciąg wyników wyrażających się dowolnymi liczbami możemy zamienić na ciąg zer i jedynek, wybierając próg [math]M[/math] i przypisując wynikom większym od [math]M[/math] jedynkę, a mniejszym — zero. Jeśli chcemy mieć tyle samo zer i jedynek, jako [math]M[/math] możemy wziąć medianę próby. Do takiej serii możemy już z powodzeniem stosować opisany w poprzednim rozdziale test oparty na statystyce (5) — oczywiście zachowując kolejność elementów w próbie.

Test zgodności rozkładów w dwóch populacjach

Mamy dwie próby. Hipoteza zerowa mówi, że zostały wylosowane z tego samego rozkładu. Ciąg zer i jedynek tworzymy w następujący sposób:

Elementy obu prób ustawiamy w jeden ciąg w kolejności od najmniejszej do największej[1]. Elementom pierwszej próby przypisujemy jedynki, a drugiej — zera.

Jeśli obie próby losowano z tej samej populacji, to liczba serii w tak określonym ciągu podlega statystyce (5), czyli ponownie możemy stosować test Walda-Wolfowitza.



<references>

  1. Jeśli wartości losowane są z rozkładów ciągłych, to wystąpienie jednakowych wartości jest teoretycznie niemożliwe. W praktyce wartości zapisujemy ze skończoną dokładnością; zwykle przyjmuje się, że jednakowe wartości można pominąć.