Zeitreihenanalyse WS 2003/2004
description
Transcript of Zeitreihenanalyse WS 2003/2004
ZeitreihenanalyseWS 2003/2004
http://www.bitoek.uni-bayreuth.de/mod/html/ws0204/geooekologie/zeitreihenanalyse/
• Definition einer Zeitreihe, Eigenschaften
• Tests und Trenderkennung bei Zeitreihen
• Fouriertransformationen, Powerspektrum, Lomb-Scargle Methode
• Zeitreihenmodellierung der ARMA-Klasse
• Modellierung von Zeitreihen mit langem Gedächtnis
• Kausalität, Transferfunktionen, multivariate Methoden
• Skalierung, (Multi-)Fraktale
• Komplexität und Information von Zeitreihen
• Wavelets
Michael Hauhs/ Holger Lange
Ökosystem
Wissenschaften einfacher Systeme
•Physik•Chemie•Mathematik
Kontexte der Veranstaltung
Wissenschaften komplexer Systeme•Biologie•Ökologie•Sozial-•Wirtschaftswissenschaften
Ingenieur-Wissenschaften
•Informatik•Umwelttechnik•Kreislaufwirtschaft
Nutzungstraditionen
•Land-•Forstwirtschaft•Wasserwirtschaft•Naturschutz
Spezial-Wissenschaften:
• Biogeografie• Bodenkunde• Geologie• Hydrologie• Meteorologie• Toxikologie• ...
Wissenschaften einfacher Systeme
Kontexte der VeranstaltungDas Lehrangebot der Ökologischen Modellbildung
Wissenschaften komplexer Systeme
Ingenieur-Wissenschaften
Nutzungstraditionen
Einführung Ökologie G5
Modellbildung in der Geoökologie G5
Ökologische ModellbildungM103
Entwicklung von Simulations-ModellenM103
Zeitreihenanalyse
M103, 409, 509
Lehrveranstaltungen im WS 04/05
• Zeitreihenanalyse (Do 11-13):
– Methoden Auswertung von Monitoringdaten, die internen Prozesse der zugehörigen Systeme sind unbekannt.
– Praktikum am Ende des Semesters• Umweltinformationssysteme (Mi 8-10)
– Methoden zu Organisation und Bewertung von Daten und Abläufen im Umweltbereich
• Simulation von sozialen und ökologischen Systemen (28-30.1.05 Wallenfels)
– Agentensimulationen, zusammen mit P&E (Hegselmann)
• Mustererkennung in der Fernerkundung terrestrischer Ökosysteme (Lange/Lischeid)
– Blockseminar, nach Vereinbarung• Entwicklung von Simulationsmodellen (M103) (Knauft) (Di 12-13, Mi 14-
17)
– Vorlesung (1) mit Praktikum (3) zum Erlernen einer Simulationssprache (Vensim)
Literatur zum Thema
• K.W. Hipel und A.I. McLeod: Time Series Modelling
of Water Resources and Environmental Systems, Elsevier 1994
• H. Tong: Non-linear Time Series, Oxford Science Publ. 1990
• R. Schlittgen: Angewandte Zeitreihenanalyse, Oldenbourg 2001
• Brillinger, D.R. (1981): Time Series. Data Analysis and Theory.
• J. Honerkamp: Stochastic Dynamical Systems, VCH 1994
Wozu Zeitreihenanalyse ?
• Direkteste Verbindung zur experimentellen Beschreibung
von Systemen (Datenerhebung)
• kommt (i.d.R.) ohne Annahme von Prozessen aus
• kommt mit gar keinem bis wenigen Parametern aus
• konkrete empirische Beschreibung des zeitlich variablen
(dynamischen) Verhaltens
• Vorhersage oft erfolgreicher als bei Prozessmodellen
• Klassifikation von Modellen nach ihrer Erklärungsleistung
• Sensibler Test von Modellen ("mehr als r2")
Zugänge• aus der Physik:
- Suche nach der Dynamik des erzeugenden
Systems (z.B. Geophysik, Meteorologie)
- der typische Zugang in den Geowissenschaften
• aus der Mathematik:
- als Beispiel für geordnete (oder partiell geordnete)
Mengen
• aus den Ingenieurwissenschaften (z.B. Hydrologie):
- als Ausdruck des empirischen Wissens (Abflüsse)
• aus der Modellbildung:
- als wichtiges Beispiel zur Demonstration der
heutigen
technischen Möglichkeiten
- gibt es einen typischen Zugang für Ökosysteme ?
Was ist eine Zeitreihe?Definition: Eine Zeitreihe ist eine Menge von Werten, die in einer festgelegten (und bekannten!) Reihenfolge vorliegen:
NixX i ,...,1
• Die Zuordnung der Werteposition zum Referenzzeitpunkt ist eine monotone Funktion
jii ttjiti :• Ist der zeitliche Abstand zweier Messungen konstant:
ifttt ii 1
heißt die Zeitreihe äquidistant. Es gilt dann titti 0
• Fehlt ein i in dieser Liste, hat die Zeitreihe eine Lücke.
Wie behandelt man Lücken? Was ist eine Lücke bei Nicht-Äquidistanz?
Eigenschaften und Bezeichnungen bei Zeitreihen
• Univariate Zeitreihe: Eine (reellwertige) Variable an einem Ort gemessen
• Multivariate Zeitreihe: mehrere Variablen am selben Ort
• Mehrdimensionale Zeitreihe: eine Variable an verschiedenen Orten zu jeweils gleichen Zeitpunkten
• Äquidistante Zeitreihe
• Lückenfreiheit
• Homogenität: pdf ändert sich nicht mit der Zeit
• Generelles Problem: viele Eigenschaften beziehen sich auf / sind nur definiert für unendlich lange Zeitreihen
• In der Mathematik werden Zeitreihen oft als Realisation eines stochastischen Prozesses definiert (oft unbrauchbar...)
Zeitreihen
(ein Wettbewerb)
Zeitreihen: Eigenschaften
Grundlegende Definitionen I
Eine Datenreihe Nitx i ,...,1),( liegt vor.
• Mittelwert:
N
iitxN 1
)(1
• Varianz
N
iitxN 1
22
1
1
(Standardabweichung: )
• q-tes zentrales Moment:
N
i
qiq tx
NM
1
1
• Variationskoeffizient:
v
Faustregel :Zur Berechnungdes q-ten Momentsbenötig man mind.2q Datenpunkte
Grundlegende Definitionen II
Häufigkeitsverteilung: Histogramme
• Binbreite:bins
minmax )(
N
xxx
• Median: 50% der Werte sind kleiner
Faustregel : 95% der Bins sollten je mind. 5 Datenpunkte enthalten
Häufigkeitsverteilungen Wahrscheinlichkeitsverteilungen (pdf´s)
• Modus/Modalwert: Position des Maximums der pdf
• x%-Quantil: x % der Werte sind kleiner
Grundlegende Definitionen III
Autokorrelationsfunktion:
N
ii
kN
ikii txtxtxk
1
2
1
/)(
• Nur Lags k < N/4 (Puristen) bzw. k < N/2 (Pragmatiker) vertrauen
Faustregeln: • Mindestens 30 Datenpunkte
• Daten müssen „im Prinzip“ äquidistant vorliegen; Lücken sind ein echtes Problem!
kN
ikii txtx
Nk
11
1)( Autokovarianz:
Wann ist eine Zeitreihe eine Zeitreihe?
Gibt es signifikante Autokorrelationen, ist die zeitliche Reihenfolgewichtig. Die einzelnen Werte sind dann nicht unabhängig.
Unabhängigkeit erreicht man durch
• Aggregation• Wahl einer gröberen Messauflösung
Falls unabhängig: Zeitreihen als Realisationen eines stochastischen Prozesses
I.a. liegen Mischtypen vor (z.B. additives Rauschen)
Test für (lineare) Unkorreliertheit
Liegen weniger als 5% der Werte ausserhalb des Intervalls, liegenkeine signifikanten Korrelationen vor Autokorrelationslänge
)1
,0(~n
Nk
nSL
96.195,0
Berechnung der Autokorrelation. Für unkorrelierte Daten gilt:
Daher sind die 95%-Signifikanzlinien
(evtl. Verbesserungen für kleine n)
(normalverteilt)
• Partielle Autokorrelation (PACF) später (AR-Modellierung)
0
200
400
600
800
1000
1200
1400
1600
1740 1760 1780 1800 1820 1840 1860 1880 1900 1920 1940
So
nn
en
fle
ck
en
Beispiel: Wolfers Sonnenfleckenrelativzahlen
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Lag (Jahre)
AC
F
Autokorrelation der Sonnenflecken
Lang- und Kurzzeitgedächtnis
Definition: Gedächtnis einer Zeitreihe
k
kM )(
Eine Zeitreihe hat kurzes Gedächtnis
M
Autokovarianzmatrix
TN zz 11
TNtxtxz )(),...,( 1
• symmetrisch
• positiv definit für stationäre Zufallsprozesse
• für multivariates Gaußsches Rauschen ausreichend
zur vollständigen Charakterisierung
(Mittel über alle Fenster)
Kreuzkorrelation zweier Zeitreihen
kn
t
n
t
n
tttktt
ttkttuv
vuvu
vuvuk
1 1 1
2/122
2/122
)/(
)/()(
ytt
xtt
yv
xu
Eigenschaften der Kreuzkorrelation
1)(1 kuv
)(kuv ist nicht symmetrisch: )(),()( kkk uvuvuv
95% Signifikanz:2/1|)|/(96.1)( knkuv
Lag-Beschränkung: 4/4/ nkn
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
-20 -15 -10 -5 0 5 10 15 20
CC
F
Abstand (Jahre)
Kreuzkorrelation: RP Trend gegen Sonnenflecken
Arten von Kausalitätsbeziehungen
Beziehung Eigenschaften der Kreuzkorrelation
X verursacht Y
Y verursacht X
Instantane Kausalität
Rückkopplung
Y verursacht nicht X
X und Y sind unabhängig
00 kkuv manchefür 00 kkuv manchefür
00 uv
0
00
k
kkuv
manche und
manchefür
00 kkuv allefür
kkuv allefür 0
Kausalität für Zeitreihen nach Granger
analog
~,,
~,
~,
tttt
stst
YYXX
tsAAtsAA
Gegeben zwei Zeitreihen und eine Informationsmenge ,tA
die mindestens tY enthält.
tt YX ,
tY)( tt AYP Ein-Schritt-Vorwärts-Prädiktor für
mit minimalem mittleren quadratischen Fehler )(2tAY
Def.: X verursacht Y
)(),( 22ttt AYXAY
X beeinflusst Y instantan )()~
,( 22ttt AYXAY
X und Y sind rückgekoppelt X verursacht Y und Y verursacht X
Spezialfall: Korrelationskoeffizient
vu
n
iii
uv
vvuur
1)0(
• mindestens 4 gemeinsame Datenpunkte (evtl. Ausdünnen)
• 11 r )1( 222 rvuv •
• 21
2
r
nrt
ist t-verteilt mit n-2 Freiheitsgraden
Bei 95% Signifikanz:n rmin
5 0,878
10 0,632
50 0,279
1000 0,062
• sehr robust gegen Nicht-Normalität
Tests und Trenderkennung bei ZeitreihenProblem vieler Zeitreihen-Modelle und Analysemethoden: u.a. Stationarität vorausgesetzt
Zwei Auswege:
• Geeignete Modellklasse wählen
• Vorbehandlung der Zeitreihen
(Ggf. wünschenswerte) Eigenschaften von Zeitreihen:
• Ergodizität• Stationarität• Linearität• Homoskedastizität• Normalität• Trendfreiheit (deterministisch/stochastisch)• Unkorreliertheit (Identically Independently Distributed, IID)