Analiza szeregu czasowego

Rodzaje szeregów czasowych

Szeregiem czasowym nazywamy ciąg wartości zmiennej uporządkowanej zgodnie z następstwem momentu lub wartości czasu , których tego dotyczą. Jest to zbiór obserwacji statystycznych charakteryzujących zmiany poziomu zjawiska w czasie. Poszczególne obserwacje nazywamy wyrazami tego szeregu. Szereg czasowy zapisujemy za pomocą symbolu, gdzie t reprezentuje kolejne momenty lub okresy czasu.
Wyróżnia się dwa rodzaje szeregu czasowego: szeregi momentów i okresów.


1
2
3

Czas jest zmienną niezależną – odkładamy go na osi OX.

Punkty empiryczne to zaobserwowane przez nas poziomy danego zjawiska w rzeczywistości

Średnie w szeregach czasowych

Przeciętny poziom zjawiska przedstawionego w postaci szeregu czasowego (przy założeniu równości przedziałów czasowych) oblicza się:

- w przypadku szeregów okresów za pomocą średniej arytmetycznej

- w przypadku szeregów momentów za pomocą średniej chronologicznej

Średnia chronologiczna:

Jedną z metod wygładzania szeregu czasowego jest metoda mechaniczna wykorzystująca średnie ruchome. Stosując metodę średnich ruchomych, doprowadzamy do wygładzenia szeregu czasowego przez częściowe eliminowanie wahań okresowych i przypadkowych.

Średnią ruchomą:

z nieparzystej liczby okresów np. z trzech okresów (k = 3) wyznacza się:
z parzystej liczby okresów (k = 4) tzw. średnią scentrowaną

Metody wyrównywania szeregów czasowych

Pierwsza czynność w dekompresji szeregu czasowego to tzw. „wyłagodzenie” szeregu czasowego, czyli odkrywanie głównej tendencji rozwojowej zjawiska.
W statystyce wyróżnia się dwie metody wyłagodzenia szeregów czasowych: mechaniczną i analityczną.

Metoda mechaniczna, czyli średnik ruchomy
średnia ruchoma k – elementowa.

Przyporządkowujemy ją środkowemu wyrazowi.
Średnie ruchome maja na celu wyeliminowanie w znacznym stopniu wahań o charakterze okresowym i przypadkowym. Może być parzysta (scentrowana) lub nie.

Metoda analityczna
polega na znalezieniu odpowiedniej funkcji matematycznej, która możliwie najlepiej odzwierciedliłaby główną tendencję rozwojową zjawiska eliminując przy tym wpływ wahań okresowych i przypadkowych.

- empiryczne

- teoretyczne

Równanie linii trendu:
Wybieramy linie, która przebiega najbliżej punktów empirycznych.
Badamy różnice między , a , aby stwierdzić jak blisko leżą siebie te krzywe. - jest to kryterium metody najmniejszych kwadratów – MNK.

Ta metoda może znaleźć zastosowanie wyłącznie w przypadku funkcji liniowych oraz takich nie liniowych, które dają się sprowadzić do postaci liniowej względem parametrów!!.

Podstawiając do równania:
, gdzie
a – współczynnik trendu
b – wyraz wolny.
Możemy więc otrzymać następujące wyniki:
- trend malejący
- trend stały
- trend rosnący.

Rozwiązując to równanie względem niewiadomych a i b (obliczamy pochodne cząstkowe po a i po b i przyrównujemy do zera) otrzymujemy tzw. układ równań normalnych z którego b możemy wyznaczyć jako:

uwaga: w przypadku nieparzystej liczby obserwacji warto jest przyjąć takie wartości porządkowe t, żeby (np.: -2, -1, 0, 1, 2) wtedy układ znacznie się upraszcza.
, gdzie , reasumując
W ten sposób znaleźliśmy trend liniowy :]

Przykład

Dane roczne:

, gdzie:

- produkcja w tysiącach ton

- średnioroczna zmiana

- wartość produkcji w roku bazowym

Interpretacja: średnioroczny wzrost produkcji wynosi 441 ton.

Zadanie

Na podstawie informacji zbadać tendencje rozwojową sprzedaży zegarków pewnej marki. Zinterpretuj parametry linii trendu. Oszacować wielkość sprzedaży zegarków dla roku 2003.

Lata	Sprzedaż w tyś sztuk
1998	23
1999	21
2000	20
2001	18
2002	18
Σ	100

Wyznaczmy równanie linii trendu postaci , gdzie

Zauważmy, że ponieważ n – liczba obserwacji jest nieparzysta, to możemy tak dobrać „t” aby były to takie kolejne liczby całkowite, żeby

Wtedy wzory te przyjmą o wiele prostszą formę i o wiele łatwiejszą do stosowania

Uzupełnijmy naszą tabele o dodatkowe obliczenia:

Lata		t
1998	23	-2	-46	4	22,6
1999	21	-1	-23	1	21,3
2000	20	0	0	0	20
2001	18	1	18	1	18,7
2002	18	2	36	4	17,4
Σ	100	0	-13	10

, więc

W latach 1998 – 2002 sprzedaż zegarków pewnej marki spadała przeciętnie z roku na rok o 1,3 tyś sztuk.

a = 20 – średnia roczna sprzedaż zegarków, wynosi ona 20tyś sztuk.

Wracając do tabeli możemy zauważyć, że dla t = 0 y = 20 – rok 2000.

Jaka będzie wielkość produkcji w 2003?

tyś sztuk

Dekompozycja szeregu czasowego; główna tendencja rozwojowa, wahania okresowe i wahania przypadkowe

Na zmienność zjawiska w czasie maja wpływ trzy grupy czynników:

1) czynniki główne
powodują one powstanie trendu – czyli głównej tendencji rozwojowej zjawiska

2) wahania (czynniki o charakterze sezonowym)

3) wahania lub czynniki przypadkowe, losowe

Zapiszmy to za pomocą modelu – czyli w sposób formalny:

Model addywny – daje się przedstawić w postaci sumy wielkości wywołujących działanie modelu.

W próbie czasowej n – elementowej

Model Multiplikatywny – polega na przedstawieniu jako iloczynu dwóch czynników.

, gdzie:

- wielkość absolutna (czynniki główne) – w jednostkach

- wielkość względna (% lub ułamki dziesiętne) – szacowany błąd

Zarówno jedno podejście jak i drugie wymaga wyodrębnienia wpływu działania tych trzech czynników. W tym celu stosujemy specjalną procedurę zwaną dekompresją szeregu czasowego Pierwsza czynność w dekompresji szeregu czasowego to tzw. „wyłagodzenie” szeregu czasowego, czyli odnalezienie głównej tendencji rozwojowej zjawiska (patrz punkt wyżej). Ze względu na dalszą przydatność lepiej jest wyznaczyć równanie linii trendu. W tej sposób znajdziemy już wpływ trendu na rozwój zjawiska w czasie.

Zajmijmy się teraz wyznaczeniem wskaźników wahań okresowych (sezonowych).

Warunkiem ich wyznaczenia jest jednak dysponowanie szeregiem zdezagregatowanym bardziej niż rocznie.

Ogólna zasada ich konstrukcji wskaźników wahań okresowych wygląda następująco:

1) Wygładzamy szereg czasowy metodą mechaniczną lub analityczną

2) Uwalniamy szereg czasowy od trendu
W tym celu w szeregu czasowym wyznaczamy obok wartości empirycznych wartości teoretyczne.


1
2

Dla średnich ruchomych zakładamy, że , dla równania trendu wyznaczamy prognozy ex post.
Następnie dzielimy wyrazy szeregu empirycznego przez odpowiadające im wyrazy szeregu wygładzonego , .
Uzyskane w ten sposób wartości są niezależne od trendu ale zawierają wahania okresowe i przypadkowe.

3) Eliminujemy wahania przypadkowe z wielkości .
Wyznaczamy w tym celu średnie arytmetyczne z wyrazów dla jednoimiennych okresów (tj. okresów pochodzących z tej samej fazy wahań), otrzymane w ten sposób wartości oznaczamy symbolem i nazywamy surowymi wskaźnikami wahań okresowych (załóżmy, że mamy dane kwartalne dla kolejnych pięciu lat, liczymy kolejno średnie arytmetyczne z wyrazów odpowiadających kolejno pierwszym, drugim, trzecim i czwartym kwartałom)

Surowe wskaźniki informują nas o ile procent poziom zjawiska w danej fazie cyklu jest wyższy lub niższy od poziomu, jaki byłby osiągnięty gdyby nie było wahań, a rozwój następował zgodnie z trendem.

4)      Obliczmy teraz czyste (oczyszczone) wskaźniki wahań okresowych.
Surowe wskaźniki wahań okresowych dzieli się przez ich średnią arytmetyczną.

Suma tak otrzymanych wskaźników jest równa liczbie faz wahań, jest to podstawowa zależność w analizie badań okresowych
        k – liczba faz wahań

Interpretacja wskaźników sezonowości:

Mówią one nam o ile procent poziom zjawiska w danej fazie cyklu jest wyższy lub niższy od poziomu jaki byłby osiągnięty gdyby nie było wahań, a rozwój następowałby zgodnie z trendem (model multiplikatywny) lub od poziomu średniookresowego (np. średniej kwartalnej w skali rocznej) (model addywny)

Zgodnie z założonymi modelami pozostają nam do wyznaczenia wahania i czynniki przypadkowe.

W celu wyodrębnienia wahań przypadkowych (losowych) wyznaczamy tzw składnik resztowy

W oparciu o równanie linii trendu możemy prognozować przyszłe wartości y (exante), ale i prognozować przeszłe wartość cechy y (expost).

W celu określenia trafności prognoz wyznaczamy prognozy (ex post), czyli obliczamy wartości y dla


1
2
3

n

i - powinny być sobie równe

Dzięki różnicom możemy wyznaczyć tzw. składnik losowy lub , jest to składnik resztowy, a następnie policzyć odchylenie standardowe tego składnika resztowego.

- poziom zjawiska (w wielkościach absolutnych) będący wynikiem wpływu wahań okresowych z modelu addywnego.

oczywiście

Załóżmy, że , wariancja składnika resztowego

Przy braku sezonowości:

Pierwiastek z wariancji jest zwany błędem prognozy (szacunku).

W naszych przypadkach (z i bez uwzględnienia sezonowości) wzory wyglądają następująco:

oraz

Zadanie

Na podstawie danych z tabeli oszacować wielkość produkcji tego artykułu w pierwszym kwartale 2004 roku.

Trzeba uwzględnić trend i sezonować (wskaźnik sezonowości), potem średni błąd prognozy.

C – wskaźnik sezonowości mówi nam o ile odchyla się od trendu.

Lata	Kwartały	Produkcja w tyś sztuk
1998	I	11,8
	II	9,4
	III	18,5
	IV	11,5
1999	I	12,4
	II	9,7
	III	19,0
	IV	10,6
2000	I	13,1
	II	10,8
	III	2-,3
	IV	11,8
2001	I	12,4
	II	12,2
	III	21,9
	IV	11,0
2002	I	13,5
	II	12,8
	III	23,5
	IV	12,7

Uzupełnimy tabelę o dodatkowe obliczenia

lata / kwartały
1		2	3	4	5	6	7	8
1998	I	1	11,80	1,00	11,8	12,03	0,98	0,05
	II	2	9,40	4,00	18,8	12,23	0,77	8,00
	III	3	18,50	9,00	55,5	12,43	1,49	36,85
	IV	4	11,50	16,00	46	12,63	0,91	1,28
1999	I	5	12,40	25,00	62	12,83	0,97	0,19
	II	6	9,70	36,00	58,2	13,04	0,74	11,13
	III	7	19,00	49,00	133	13,24	1,44	33,20
	IV	8	10,60	64,00	84,8	13,44	0,79	8,07
2000	I	9	13,10	81,00	117,9	13,64	0,96	0,29
	II	10	10,80	100,00	108	13,84	0,78	9,27
	III	11	20,30	121,00	223,3	14,05	1,45	39,11
	IV	12	11,80	144,00	141,6	14,25	0,83	5,99
2001	I	13	12,40	169,00	161,2	14,45	0,86	4,20
	II	14	12,20	196,00	170,8	14,65	0,83	6,01
	III	15	21,90	225,00	328,5	14,85	1,47	49,64
	IV	16	11,00	256,00	176	15,06	0,73	16,45
2002	I	17	13,50	289,00	229,5	15,26	0,88	3,09
	II	18	12,80	324,00	230,4	15,46	0,83	7,08
	III	19	23,50	361,00	446,5	15,66	1,50	61,43
	IV	20	12,70	400,00	254	15,86	0,80	10,01
suma		210	278,90	2870,00	3062,8			319,35
średnia		10,5	21,96

Tak więc równanie linii trendu przybierze następującą postać:

Przystąpmy do dalszej części dekompozycji szeregu czasowego i wyznaczmy wskaźniki wahań okresowych.

1) wyznaczyliśmy już równanie linii trendu

2) uwolniliśmy szereg czasowy od trendu

3) eliminujemy wahania przypadkowe:

4) oczyszczamy wskaźniki wahań okresowych

Na dowód słuszność naszych obliczeń:

Wariancja składnika resztowego:

Średni błąd prognozy:

Oszacujmy wielkość produkcji w I kwartale 2004

lata\kwart
2003	I	21
	II	22
	III	23
	IV	24
2004	I	25	16,87

Produkcja w I kwartale 2004 wyniesie szacunkowo (przy założeniu modelu multiplikatywnego)tyś sztuk tyś sztuk (średni błąd prognozy)

Szeregi czasowe jako podstawa przewidywań rozwoju zjawiska

Wiemy, że na zmienność zjawiska w czasie maja wpływ trzy grupy czynników:

1) czynniki główne
powodują one powstanie trendu – czyli głównej tendencji rozwojowej zjawiska

2) wahania (czynniki) o charakterze sezonowym

3) wahania lub czynniki przypadkowe, losowe

Chcąc prognozować rozwój danego zjawiska w przyszłości musimy uwzględnić wpływ tych czynników. Problem lepiej zilustrują przykłady.

Przykładowo:

Dane kwartalne za lata 2000 – 2002, więc t = 1, 2, 3, ..., 12

kwartały	wyznaczony metodą analityczną
I	0,694
II	0,947
III	1,508
IV	0,851

Znając równanie trendu postaci: oblicz jakiej produkcji piwa w tysiącach hektolitrów można się spodziewać w IV kwartale 2003r. przy założeniu modelu multiplikatywnego.

Będziemy rozpatrywać ostatni kwartał 2003r więc będzie to 16 kolejny kwartał od początku 2000r. Podstawmy do równania linii trendu.

Zgodnie z założeniem modelu multiplikatywnego uwzględnijmy sezonowość w IV kwartale:

W IV kwartale 2003r można spodziewać się produkcji piwa na poziomie 9,1 tyś hektolitrów przy założeniu utrzymania tendencji.