Z Brain-wiki
Skocz do: nawigacja, szukaj

Wnioskowanie_Statystyczne_-_wykład


Elementy statystyki wielowymiarowej

Przypomnijmy najpierw pojęcia

Kowariancja i współczynnik korelacji

Przykładowe wartości współczynnika korelacji dla 300 par (x, y) o różnych stopniach współzależności.

Miarą związku między zmiennymi x i y jest kowariancja

\sigma_{x, y} = E\left( (x-\mu_{x})(y-\mu_{y})\right)

lub unormowany do jedności współczynnik korelacji zmiennych x i y:

\rho_{x, y}= \frac{\sigma_{x, y}}{\sigma_x \sigma_y}=\frac{E\left(	\left(x-\mu_{x})(y-\mu_{y}\right)\right)}{\sqrt{E\left( (x-\mu_{x})^2\right) E\left( (y-\mu_{y})^2\right)}},

gdzie \mu_x i \mu_y to odpowiednio wartości oczekiwane zmiennych x i y. Jeśli zmienne x i y związane są deterministyczną zależnością liniową (typu y=c_1 x+c_2), to ich korelacja wynosi 1 (lub -1, jeśli c_1<0). Jeśli wzrostowi zmiennej x towarzyszy statystycznie wzrost zmiennej y, to ich korelacja jest dodatnia (pomiędzy 0 a 1). Dla zmiennych niezależnych korelacja wynosi 0.

Macierz kowariancji

C=E[(x-\mu )(x-\mu )^{T}], \qquad \\c_{ij}=E[(x_{i}-\mu_{i})(x_{j}-\mu _{j})]


dla x=(x_{1,}x_{2}) i \mu =(\mu _{1}, \mu _{2})


C=E\left[ \left(\begin{matrix}{x_{1}-\mu _{1}}\\ {x_{2}-\mu _{2}}\end{matrix} \right) \left( x_{1}-\mu_{1},x_{2}-\mu _{2}\right) \right] =

\left[ \begin{matrix}E\left[ \left( x_{1}-\mu _{1}\right) ^{2}\right] & E\left[ \left( x_{1}-\mu_{1}\right) \left( x_{2}-\mu _{2}\right) \right] \\ E\left[ \left( x_{2}-\mu _{2}\right) \left( x_{1}-\mu _{1}\right) \right] & E \left[ \left( x_{2}-\mu _{2}\right) ^{2}\right]\end{matrix}\right] =


\left[ \begin{matrix}\sigma _{1}^{2} & \sigma _{12} \\ \sigma _{21} & \sigma _{2}^{2}\end{matrix}\right]\end{matrix}


Interpretacja współczynnika korelacji znajduje się pod hasłem Regresja liniowa.

Dwumianowy rozkład normalny

f(t)=ke^{-\frac{1}{2}(t-\mu )A(t-\mu )^{T}}

Dwumianowy rozkład normalny, wartość prawdopodobieństwa jako wysokość nad płaszczyzną

t=(x,y)- wektor zmiennej losowej

\mu =(\mu _{1},\mu _{2})- wektor wartości oczekiwanych

k- stała normalizjąca

A- odwrotność macierzy kowariancji C

A=\left[ \begin{matrix}\sigma _{x}^{2} & \sigma _{xy} \\ \sigma _{xy} & \sigma _{y}^{2}\end{matrix}\right] ^{-1}=\frac{1}{\sigma _{x}^{2}\sigma _{y}^{2}-\left( \sigma_{xy}\right) ^{2}}\left[ \begin{matrix}\sigma _{y}^{2} & -\sigma _{xy} \\ -\sigma _{xy} & \sigma _{x}^{2}\end{matrix}\right]


Analiza składowych głównych (Principal Components Analysis, PCA)

Macierz kowariancji


S=\left[ \begin{matrix}\upsilon ar(x_{1}) & co\upsilon (x_{1},x_{2}) & ... & co\upsilon(x_{1},x_{k}) \\ co\upsilon (x_{2},x_{1}) & \upsilon ar(x_{2}) & ... & co\upsilon(x_{2},x_{k}) \\ ... & ... & ... & ... \\ co\upsilon \left( x_{k},x_{1}\right) & co\upsilon (x_{k},x_{2}) & ... & \upsilon ar(x_{k})\end{matrix}\right]

przedstawiamy w postaci diagonalnej

S=\left[ \begin{matrix}r_{11} & r_{12} & ... & r_{1k} \\ r_{21} & r_{22} & ... & r_{2k} \\ ... & ... & ... & ... \\ r_{k1} & r_{k2} & ... & r_{kk}\end{matrix}\right] \left[ \begin{matrix}\lambda _{1} & 0 & ... & 0 \\ 0 & \lambda _{2} & ... & 0 \\ ... & ... & ... & ... \\ 0 & 0 & ... & \lambda _{k}\end{matrix}\right] \left[ \begin{matrix}r_{11} & r_{21} & ... & r_{k1} \\ r_{12} & r_{22} & ... & r_{k2} \\ ... & ... & ... & ... \\ r_{1k} & r_{2k} & ... & r_{kk}\end{matrix}\right]

Wielkości \lambda _{i} są rozwiązaniami równania \left| S-\lambda I\right| =0, a wektor r_{i} osiami nowego układu współrzędnych. Składowe PCA są liniowymi kombinacjami obserwowanych zmiennych.

Kierunki składowych głównych (PCA) w dwóch wymiarach



Analiza wariancji wielu zmiennych (Multivariate ANalysis of VAriance — MANOVA)

Zmienna losowa X opisywana wektorem (x_{1},...,x_{k}), podobnie wartość średnia staje się wektorem o tym samym wymiarze: ( \mu _{1},...,\mu _{k}). Macierz kowariancji zmiennej losowej

S=\left[ \begin{matrix}\upsilon ar(x_{1}) & co\upsilon (x_{1},x_{2}) & ... & co\upsilon(x_{1},x_{k}) \\ co\upsilon (x_{2},x_{1}) & \upsilon ar(x_{2}) & ... & co\upsilon(x_{2},x_{k}) \\ ... & ... & ... & ... \\ co\upsilon \left( x_{k},x_{1}\right) & co\upsilon (x_{k},x_{2}) & ... & \upsilon ar(x_{k})\end{matrix}\right]

gdzie:

\upsilon ar(x_{i})=\sigma _{x_{i}}=E((x_{i}-\mu _{i})^{2})

co\upsilon (x_{i},x_{k})=\sigma _{x_{i},x_{k}}=E((x_{i}-\mu _{i})(x_{k}-\mu_{k}))

Zakladamy, że dane pochodzą z wielowymiarowego rozkładu normalnego, opisanego macierzą kowariancji S

\Phi (X)=\frac{1}{\sqrt{(2\pi )^{k}}\sqrt{\left| S\right| }}e^{-\frac{(X-\mu)^{\prime }S^{-1}(X-\mu )}{2}}

Jeśli X pochodzą z próby podzielonej na grupy, to podobnie jak w ANOVA możemy skonstruować macierze wariancji wewnątrzgrupowych i międzygrupowych i dowieść, że S=S_{wew}+S_{pom}.

Testujemy hipotezę o równości średnich w grupach

 H_0: \mu_1 = \mu_2 = \cdots = \mu_k

Jako statystykę testową możemy wtbrać np. iloraz wyznaczników macierzy S_{wew} i S, który podlega rozkładowi \Lambda Wilksa:

\Lambda =\frac{\left| S_{wew}\right| }{\left| S\right| }=\frac{\left| S_{wew}\right| }{\left| S_{wew}+S_{pom}\right| }



Analiza dyskryminacyjna (Discriminant Analysis )

Wielowymiarowe wektory próby X mamy podzielone na grupy, szukamy funkcji najlepiej je rozdzielającej, która umożliwi zaklasyfikowanie nowej obserwacji. Rozdzielenie grup odpowiada w przypadku jednowymiarowym maksymalizacji stosunku wariancji międzygrupowej do wariancji wewnątrzgrupowej

F=\frac{\left( n-k\right) s_\mathrm{pom}}{\left( k-1\right) s_\mathrm{wew}}

W przypadku wielowymiarowym mamy do czynienia z macierzami kowariancji; możemy rozpatrywać wielkość

F_{a}=\frac{a^{\prime }S_\mathrm{pom}a}{a^{\prime }S_\mathrm{wew}a}

Maksymalizacja tej wielkości względem a daje wektor własny macierzy S_{wew}^{-1}S_{pom} odpowiadający największej wartości własnej. Wektory własne odpowiadające kolejnym wartościom własnym zwiemy współrzędnymi dyskryminacyjnymi, tworzącymi przestrzeń dyskryminacyjną.


Analiza skupień — Cluster Analysis

Wejściem dla tej procedury jest zestaw danych, a wyjściem ich podział na grupy. Można go zrealizować na wiele sposobów: N punktów x^{1}...x^{N}, z których każdy opisany jest przez k cech x_{1}...x_{k}.

Metody polegające na kolejnym łączeniu punktów

Startujemy z N klastrów jednopunktowych, w każdym kroku łączymy najbliższe. Wynikiem działania jest drzewo łączenia, na którym sami musimy wybrać ilość klastrów. Wynik zależy silnie od przyjętych definicji odległości między klastrami oraz definicji odległości między punktami.

Odległości między punktami:

  • Odległość Euklidesowa d(x,y)=\sqrt{\underset{i=1}{\overset{k}{\sum }}(x_{i}-y_{i})^{2}} (czuła na różne skale cech).
  • Odległość korelacyjna d(x,y)=1-\rho (x,y), gdzie \rho (x,y)=\frac{\underset{i=1}{\overset{k}{\sum }}(x-\overline{x})(y- \overline{y})}{\sigma _{x}\sigma _{y}}  (znormalizowana do przedziału (0,2), mniejsza im lepiej skorelowane punkty).

Odległości między klastrami:

  • Najbliższego sąsiada (single linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: d(A,B)=\min_{x,y}d(x,y),\ \ \ \ \ x\in A,\ y\in B
  • (complete linkage ) - odległość między dwoma najbliższymi elementami klastrów A i B: d(A,B)=\max_{x,y}d(x,y),\ \ \ \ \ x\in A,\ y\in B
  • (centroid) - odległość między środkami klastrów,
  • (average) - średnia odległości, itd...

Metoda K–średnich (K – means )

Wybieramy ilość klastrów, podział dokonywany jest w iteracyjnej procedurze dążącej do minimalizacji stosunku wariancji pomiędzy klastrami do wariancji wewnątrz klastrów - niejako ANOVA bez ustalonego wstępnie przyporządkowania, maksimum  F poszukiwane drogą przemieszczania elementów między klastrami.