Z Brain-wiki
Skocz do: nawigacja, szukaj

AS/ Model autoregresyjny (AR)

Model autoregresyjny (rzędu M) opisuje procesy dyskretne, w których wartość sygnału w danej chwili jest sumą liniowej kombinacji M wartości poprzednich i nieskorelowanego szumu \epsilon

s[n] = \sum_{i=1}^M a_i s[n-i] + \epsilon[n]

W każdej realizacji tego samego procesu (dla tych samych współczynników a_i i wartości początkowych sygnału), \epsilon_t są niezależnymi liczbami losowymi, więc o wartości s(t) w konkretnej chwili t możemy mówić tylko językiem prawdopodobieństwa.

Trzy przykładowe realizacje procesu AR 3-go rzędu (M=3) o tych samych współczynnikach i wartościach początkowych.

Mimo tego, na podstawie współczynników AR możemy określić wiele ogólnych własności sygnału, np. wartość oczekiwaną \bar{s} (w praktyce estymowaną przez wartość średnią) i wariancję (jej estymatorem jest suma kwadratów odchyleń wartości sygnału od wartości oczekiwanej), a nawet widmo mocy. Można również rozważać szersze klasy modeli tego typu, jak np. model MA (ruchomej średniej, ang. moving average), gdzie uśredniamy \epsilon_t zamiast s(t), czy proces mieszany ARMA, opisany między innymi w klasycznych pozycjach „Analizie szeregów czasowych”, autorstwa Boxa i Jenkinsa oraz w „Metodach analizy szeregów czasowych” autorstwa Piersola i Bendata.


AR(1)

Najprostszym przykładem jest proces AR pierwszego rzędu (nazywany liniowym procesem Markowa), w którym wartość w danej chwili zależy wyłącznie od wartości w chwili poprzedniej i szumu: s[n] = a s[n-1] + \epsilon_n

podstawiając trzy kolejne wyrazy

s[n] =  \epsilon_n + a s[n-1]

s[n-1] =  \epsilon_{n-1} + a s[n-2]

s[n-2] =  \epsilon_{n-2} + a s[n-3]

dostaniemy

s[n] =

\epsilon_n + a s[n-1] =

\epsilon_n + a \left( \epsilon_{n-1} + a s[n-2] \right) =

\epsilon_n + a \left( \epsilon_{n-1} + a (\epsilon_{n-2} + a s[n-3]) \right) =

 \epsilon_n + a \epsilon_{n-1} + a^2 \epsilon_{n-2} + a^3 s[n-3]


W ogólnym przypadku N wyrazów będzie to suma

s[n] = \sum_{i=0}^{N-1} a^i \epsilon_{n-i} + a^N s[n-N]

Dla N \rightarrow \infty zależność od pierwszego elementu s[n-N] zanika i dostajemy asymptotyczną reprezentację

 s[n] = \epsilon_n + a\epsilon_{n-1} + a^2\epsilon_{n-2} +\ldots = \sum_{i=0}^{\infty} a^i \epsilon_{n-i}

Jeśli wartość oczekiwana \epsilon_i wynosi 0 (E(\epsilon_i)=0) a wariancja \sigma^2(\epsilon_i)=\sigma_\epsilon^2, to wariancja s[n] w punkcie n

\begin{matrix}\sigma^2_{s[n]} = E\left( (\epsilon_n + a\epsilon_{n-1} + a^2\epsilon_{n-2}+\ldots+a^{n-1}\epsilon_1)^2\right) =\\= \sigma_\epsilon^2 \left(1+a^2+a^4+\ldots+a^{2n-2} \right)   =\left\{\begin{matrix}\sigma_\epsilon^2 \left(\frac{1-a^{2n}}{1-a^2} \right) & |a|\ne 1\\n \sigma_\epsilon^2 & |a|=1\end{matrix}\right.\end{matrix}

Autokowariancja E(s[n] s[n+\tau])

\begin{matrix}E\left( (\epsilon_n + a\epsilon_{n-1} + a^2\epsilon_{n-2}+\ldots+a^{n-1}\epsilon_1)(\epsilon_{n+\tau} + a\epsilon_{n+\tau-1} +\ldots+a^{n+\tau-1}\epsilon_1)\right) =\\= \sigma_\epsilon^2 \left(a^\tau+a^{\tau+2}+\ldots+a^{\tau+2(n-1)} \right)   =\left\{\begin{matrix}\sigma_\epsilon^2 a^\tau \left(\frac{1-a^{2n}}{1-a^2} \right) & |a|\ne 1\\n \sigma_\epsilon^2  & |a|=1\end{matrix}\right.\end{matrix}

Dla |a|\ne 1 przy n\rightarrow\infty \sigma^2_{x[n]} \stackrel{n\rightarrow\infty}{\longrightarrow}  \frac{\sigma^2_\epsilon}{1-a^2} \;\;\; ; \;\;\;\sigma_{x[n], x[n+\tau]} \stackrel{n\rightarrow\infty}{\longrightarrow}  \frac{\sigma^2_\epsilon a^\tau}{1-a^2}

Autokowariancja \rho(\tau) = \frac{ \sigma_{x[n], x[n+\tau]} }{ \sigma^2_{x[n]} }  \stackrel{n\rightarrow\infty}{\longrightarrow} a^{|\tau|}

Proces jest asymptotycznie stacjonarny do rzędu 2, czyli wariancja i średnia nie zależą od czasu.

Dla a=1 proces ten obrazuje tzw. błądzenie przypadkowe.

Na podstawie znajomości samego współczynnika a modelu AR(1) policzyliśmy np. funkcję autokorelacji modelu, co daje już znajomość widma procesu (z przytoczonego poniżej twierdzenia Wienera-Chinczyna). Podobnie w procesach wyższych rzędów (1) znajomość współczynników \{a_i\}_{i=1..M} daje nam dokładną wiedzę o własnościach generowanych przez nie procesów, bez znajomości sygnału s[n], którego wartości mogą różnić się w kolejnych realizacjach ze względu na element stochastyczny — szum \epsilon.

W praktyce analizy sygnału postępujemy odwrotnie — do konkretnej realizacji dopasowujemy model AR. Głównym problemem jest wybór rzędu modelu, estymacja współczynników a_i najlepiej pasujących do danego sygnału posiada stabilne rozwiązania.


Twierdzenie Wienera-Chinczyna

Transformata Fouriera funkcji autokorelacji jest równa kwadratowi modułu transformaty Fouriera.

Dowód Kładąc f = g we wzorze na funkcję korelacji sygnałów f i g, dostajemy

 \mathcal{F} \left( \int_{-\infty}^{\infty} f(t) f(t+\tau) dt \right) =  \int_{-\infty}^{\infty} e^{-i\omega \tau} \left( \int_{-\infty}^{\infty} f(t) f(t+\tau) dt \right) d\tau  =  \int_{-\infty}^{\infty} e^{-i\omega(t+\tau)}  e^{i\omega t} \int_{-\infty}^{\infty} f(t) f(t+\tau) dt d\tau =  \int_{-\infty}^{\infty} e^{-i\omega(t+\tau)}  f(t+\tau) d\tau \int_{-\infty}^{\infty} e^{i\omega t} f(t)  dt =  \hat{f}(\omega) \overline{\hat{f}(\omega)} = |\hat{f}(\omega)|^2


Kryterium Akaike (AIC)

\mathrm{AIC}(M)= \frac{2M}{N} -\ln(\sigma^2_{\eps})

N - liczba próbek sygnału

Kryterium to karze za zwiększanie liczby parametrów i nagradza za zmniejszanie niewytłumaczonej wariancji.

Parametryczna estymacja widma mocy sygnałów

Pokazaliśmy powyżej (na przykładzie błądzenia przypadkowego), że znając współczynniki (parametry) modelu AR możemy z nich wyliczyć funkcję autokorelacji odpowiadającego im procesu, bez znajomości konkretnej realizacji sygnału. Z kolei z funkcji autokorelacji możemy z pomocą powyższego twierdzenia obliczyć widmo. To widmo będzie wyliczone a nie estymowane, ale nie odnosi się bezpośrednio do sygnału, od którego zaczynaliśmy, tylko do procesu opisanego wyestymowanymi parametrami modelu AR.

Ogólnie w statystyce mówimy o:

  • estymacji parametrycznej jako znajdowaniu nieznanych wartości parametrów rozkładu, oraz
  • estymacji nieparametrycznej jako metodzie znajdowania postaci rozkładu populacji (analogicznie do testów nieparametrycznych).

Na przykład dla stu obserwacji, co do których zakładamy, że pochodzą z rozkładu normalnego, możemy znaleźć średnią i wariancję (parametry rozkładu) i na tej podstawie estymować prawdopodobieństwo w dowolnym przedziale. Jeśli nie chcemy zakładać postaci rozkładu, nieparametryczną estymatą n-tego percentyla będzie największy z pierwszych n wyników (dla próby o liczności 100).