Z Brain-wiki
Skocz do: nawigacja, szukaj

Wnioskowanie_Statystyczne_-_wykład


Wariancja, korelacja, mediana

Jak widać, własności rozkładów ciągłych i dyskretnych będą opisywać nieco odmienne wzory; poniżej przytaczamy najczęściej wykorzystywane w praktyce definicje i zależności.

Wartość oczekiwana

Zgodnie z nazwą i intuicją, wartość oczekiwana określa środek rozkładu, czyli okolicę, w którą najczęściej powinny "trafiać" wyniki.[1] Dla rozkładów dyskretnych będzie się ona wyrażać wzorem:

\mu=E(x)=\overset{n}{\underset{i=1}{\sum }}x_{i}P(X=x_{i})

a dla rozkładów ciągłych:

\mu=E(x)=\underset{-\infty }{\overset{\infty }{\int }}x p(x)dx.

Na podstawie tych wzorów łatwo dowieść liniowości wartości oczekiwanej; dla zmiennych losowych x i y oraz stałych c_1 i c_2

E(c_1 x+c_2 y)=c_1 E(x)+c_2 E(y).

Mediana

Mediana to inna od wartości oczekiwanej miara położenia środka rozkładu. Określamy ją jako taką wartość zmiennej losowej x_{\frac{1}{2}}, która dzieli rozkład gęstości prawdopodobieństwa na dwie równe części — wartościom zmiennych losowych mniejszym niż x_{\frac{1}{2}} odpowiada tyle samo przypadków, co wartościom większym:

\int\limits_{-\infty}^{x_{\frac{1}{2}}} p(x) dx  = \int\limits_{x_{\frac{1}{2}}}^\infty p(x) dx= \ \frac{1}{2}.

Dla rozkładów symetrycznych mediana i wartość oczekiwana są sobie równe, w ogólnym przypadku rozkładów niesymetrycznych -- NIE, por. np. ilustracja różnic z Wikipedii

Wariancja

Wariancja jest miarą rozrzutu zmiennej losowej wokół wartości oczekiwanej, czyli "szerokości" rozkładu prawdopodobieństwa. Mała wariancja oznacza, że zmienne (np. wyniki losowań) będą gromadzić się ("wypadać") blisko wartości oczekiwanej (i blisko siebie).

Wariancję określamy jako wartość oczekiwaną kwadratu różnicy zmiennej i jej wartości oczekiwanej; dla rozkładów dyskretnych:

\sigma ^{2}(x)=E((x-\mu)^{2})=\overset{n}{\underset{i=1}{\sum }}P(X=x_{i})(x_{i}-\mu)^{2}.

Dla rozkładów ciągłych:

\sigma ^2(x)=E((x-\mu)^{2})=\underset{-\infty }{\overset{\infty }{\int }}(x-\mu)^{2} p(x)dx.

Pierwiastek wariancji \left( \sigma=\sqrt{\sigma^2}\right) nosi nazwę odchylenia standardowego.

Wyprowadzimy jeszcze jeden ogólny wzór na obliczanie wariancji, użyteczny w wielu przypadkach:

\sigma ^{2}(x)= \sigma^2_x = E(x^{2})-\left\{ E(x)\right\} ^{2}.

Dowód

\sigma^{2}(x)=E((x-\mu)^{2})=E(x^{2}-2x\mu+\mu ^{2})=E(x^{2})-2\mu E(x)+\mu^{2}=E(x^{2})-\mu^{2}=E(x^{2})-\left\{ E(x)\right\} ^{2}

Czyli wariancja zmiennej losowej jest równa różnicy wartości oczekiwanej kwadratu tej zmiennej i kwadratu jej wartości oczekiwanej.

Kowariancja i współczynnik korelacji

Przykładowe wartości współczynnika korelacji dla 300 par (x, y) o różnych stopniach współzależności.

Miarą związku między zmiennymi x i y jest kowariancja

\sigma_{x, y} = E\left( (x-\mu_{x})(y-\mu_{y})\right)

lub unormowany do jedności współczynnik korelacji zmiennych x i y:

\rho_{x, y}= \frac{\sigma_{x, y}}{\sigma_x \sigma_y}=\frac{E\left(	\left(x-\mu_{x})(y-\mu_{y}\right)\right)}{\sqrt{E\left( (x-\mu_{x})^2\right) E\left( (y-\mu_{y})^2\right)}},

gdzie \mu_x i \mu_y to odpowiednio wartości oczekiwane zmiennych x i y. Jeśli zmienne x i y związane są deterministyczną zależnością liniową (typu y=c_1 x+c_2), to ich korelacja wynosi 1 (lub -1, jeśli c_1<0). Jeśli wzrostowi zmiennej x towarzyszy statystycznie wzrost zmiennej y, to ich korelacja jest dodatnia (pomiędzy 0 a 1). Dla zmiennych niezależnych korelacja wynosi 0.

Por. także ilustracje z Wikipedii.


  1. Nie musi być równa wartości zmiennej losowej, dla której prawdopodobieństwo jest największe.