Funktionale Regressionsmodelle für skalare Zielgrößenduerre/Vortrag9b.pdf · CV(K) = 1 N XN i=1...
Transcript of Funktionale Regressionsmodelle für skalare Zielgrößenduerre/Vortrag9b.pdf · CV(K) = 1 N XN i=1...
Funktionale Regressionsmodelle fur skalare Zielgroßen
Gerrit Toenges
Fakultat StatistikTechnische Universitat Dortmund
15. Dezember 2014
G.Toenges (TU Dortmund) 15.12.14 1 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 2 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 3 / 47
Motivation
Temperaturverlauf von 35 kanadischen Wetterstationen
Zeit t
Tem
pera
tur
in °
C
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
−30
−20
−10
010
20
35 Wetterstationen, tagliche TemperaturmessungRegressionsglattung mit 65 Fourier-Basisfunktionen
G.Toenges (TU Dortmund) 15.12.14 4 / 47
Motivation
iTemperaturverlauf log. Niederschlag (p.a. in L
m2 )χi yi
1
Temperaturverlauf Station Arvida
Zeit t
Tem
pera
tur
in °
C
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
−20
−10
010
20
2.952599
......
...
35
Temperaturverlauf Station Quebec
Zeit t
Tem
pera
tur
in °
C
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
−20
−10
010
20
3.082283
G.Toenges (TU Dortmund) 15.12.14 5 / 47
Motivation
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
NIR−Spektrum von 215 Fleischproben
Wellenlänge
Abs
orba
nz
215 Fleischproben, Absorbanzmessung bei 100 versch. WellenlangenRegressionsglattung mit 40 B-Spline-Basisfunktionen der Ordnung 4
G.Toenges (TU Dortmund) 15.12.14 6 / 47
Motivation
i Spektrum χi Fettgehalt yi (in %)
1
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
NIR−Spektrum Probe 1
Wellenlänge
Abs
orba
nz22.5
......
...
215
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
NIR−Spektrum Probe 215
Wellenlänge
Abs
orba
nz
19.9
G.Toenges (TU Dortmund) 15.12.14 7 / 47
Motivation
Situation:Stichprobe (χ1, y1), (χ2, y2), . . . , (χN , yN) aus gemeinsamer VerteilungP(X ,Y ), wobei
X funktionale Zufallsvariable mit Stichprobenrealisationenχi = {χi (t), t ∈ [a, b]} ∈ L2[a, b] fur i = 1, . . . ,N
Y reellwertige Zufallsvariable mit Stichprobenrealisationenyi ∈ R fur i = 1, . . . ,N
Ziel:Abhangigkeitsstruktur zwischen X und Y aufdecken
G.Toenges (TU Dortmund) 15.12.14 8 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 9 / 47
Lineare funktionale Regression
Das allgemeine funktionale Regressionsmodell fur skalare Zielgroßen
Yi = m(χi ) + εi , i = 1, . . . ,N
Dabei gilt:
χi Realisation der funktionalen, L2[a, b]-wertigen Zufallsvariablen X i
X 1, . . . ,XN stochastisch unabhangig
Die Abbildung m ist ein Funktional:
m : L2[a, b] −→ Rχi 7−→ E (Y |X i = χi )
ε1, . . . , εN reellwertige, u.i.v. Zufallsfehler mit E (εi ) = 0
ε1, . . . , εN ,X 1, . . . ,XN stochastisch unabhangig
G.Toenges (TU Dortmund) 15.12.14 10 / 47
Lineare funktionale Regression
Annahme: Das Funktional m : L2[a, b]→ R ist linear,d.h fur χ1, χ2 ∈ L2[a, b] und λ1, λ2 ∈ R gilt:m(λ1χ1 + λ2χ2) = λ1m(χ1) + λ2m(χ1)
⇓Riesz-Theorem fur L2[a, b]
Der Raum L2[a, b] mit dem inneren Produkt < f , g >=∫ ba f (t)g(t) dt ist
ein Hilbertraum. Sei m : L2[a, b]→ R ein beschranktes lineares Funktional.Dann existiert genau eine Funktion β ∈ L2[a, b] sodass gilt:
m(χ) =
∫ b
aβ(t)χ(t) dt ∀ χ ∈ L2[a, b]
G.Toenges (TU Dortmund) 15.12.14 11 / 47
Lineare funktionale Regression
Riesz-Theorem: Jedes lineare, beschrankte Funktional kann durch eineGewichtsfunktion β ∈ L2[a, b] identifiziert werden
⇓Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
Yi = α +
∫ b
aβ(t)χi (t) dt + εi , i = 1, . . . ,N
α ∈ R, β ∈ L2[a, b], χi ∈ L2[a, b], i = 1, . . . ,N
ε1, . . . , εN uiv. mit E (εi ) = 0, Var(εi ) = σ2, i = 1, . . . ,N
Ziel: Schatzung von α und β = {β(t), t ∈ [a, b]} anhand der Stichprobe(χ1, y1), (χ2, y2), . . . , (χN , yN)
G.Toenges (TU Dortmund) 15.12.14 13 / 47
Lineare funktionale Regression
Beispiel zur Interpretation der Gewichtsfunktion β
Hypothetische Gewichtsfunktion β(t)
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
0.0
0.5
1.0
1.5
Temperaturverlauf Station Arvida
Zeit t
Tem
pera
tur
in °
C
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
−20
−10
010
20
G.Toenges (TU Dortmund) 15.12.14 14 / 47
Lineare funktionale Regression
Problem: Unterbestimmtes Gleichungssystem
y1 = α +
∫ b
aβ(t)χ1(t) dt
......
...
yN = α +
∫ b
aβ(t)χN(t)dt
Sei (α∗, β∗) eine Losung des Gleichungssystems und υ ∈ L2[a, b] mitυ ⊥ χi ∀ i = 1, . . . ,N. Dann ist auch (α∗, β∗ + υ) eine Losung, weil:
α∗+
∫ b
a(β∗(t) + υ(t))χi (t)dt = α∗+
∫ b
aβ∗(t)χi (t) dt = yi i = 1, . . . ,N
G.Toenges (TU Dortmund) 15.12.14 15 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 16 / 47
Schatzung durch Basisdarstellung von β(t)
Ansatz I: Regularisierung durch Basisdarstellung von β(t)
Erinnerung: Das Minimierungsproblem hat keine eindeutige Losung
minα∈R, β∈L2[a,b]
N∑i=1
(yi − α−
∫ b
aβ(t)χi (t) dt
)2
⇓Annahme (um Minimierungsproblem eindeutig zu machen):β darstellbar als Linearkombination endlich vieler Basisfunktionen
θ1(t), . . . , θK (t):
β(t) =K∑
k=1
bkθk(t) = b′Θ(t)
G.Toenges (TU Dortmund) 15.12.14 17 / 47
Schatzung durch Basisdarstellung von β(t)
Modell fur Beobachtungen i = 1, . . . ,N :
Yi = α +
∫ b
aχi (t)Θ(t)′b dt + εi
= α + b1
∫ b
aχi (t)θ1(t) dt + . . .+ bK
∫ b
aχi (t)θK (t) dt + εi
Modell im Matrixform:Y1
Y2
...YN
=
1
∫ b
aχ1(t)θ1(t) dt . . .
∫ b
aχ1(t)θK (t)dt
1∫ b
aχ2(t)θ1(t) dt . . .
∫ b
aχ2(t)θK (t)dt
......
. . ....
1∫ b
aχN(t)θ1(t) dt . . .
∫ b
aχN(t)θK (t) dt
αb1
...bK
+
ε1
ε2
...εN
Y = Zξ + ε
G.Toenges (TU Dortmund) 15.12.14 18 / 47
Schatzung durch Basisdarstellung von β(t)
Da Z ∼ (N,K + 1) gilt (falls Z vollen Rang besitzt):
N < (K + 1) −→ Es gibt unendliche viele Losungen ξ die
RSS = ‖y − Zξ‖2 minimieren
N ≥ (K + 1) −→ Es gibt genau eine Losung ξ die
RSS = ‖y − Zξ‖2 minimiert
Schatzung der Basis-Koeffizienten
Im Falle N ≥ (K + 1)⇔ K ≤ (N − 1) wird die Residuenquadratsumme‖y − Zξ‖2 durch die eindeutige Losung
ξ = (α, b1, . . . , bK )′ = (Z ′Z )−1Z ′y
minimiert.
G.Toenges (TU Dortmund) 15.12.14 19 / 47
Schatzung durch Basisdarstellung von β(t)
Beispiel Wetterdaten: Verwendung eines Fourier-Basissystems
K= 33 Basisfunktionen
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−0.
06−
0.02
0.02
0.06
K= 21 Basisfunktionen
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−0.
020.
000.
010.
02
K= 11 Basisfunktionen
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−0.
006
−0.
002
0.00
2
K= 3 Basisfunktionen
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−4e
−04
0e+
004e
−04
G.Toenges (TU Dortmund) 15.12.14 20 / 47
Schatzung durch Basisdarstellung von β(t)
Bestimmung von K durch eine Leave-one-out-Kreuzvalidierung:
CV (K ) =1
N
N∑i=1
(yi − y
(−i)i ,K
)2
0 5 10 15 20 25 30
24
68
10
Anzahl Basisfunktionen K
Kre
uzva
lidie
rung
ssco
re C
V(K
)
●
●●
●
●● ●
●
●●
●
●
●
●
●
●
●
Kopt = 3
G.Toenges (TU Dortmund) 15.12.14 21 / 47
Schatzung durch Basisdarstellung von β(t)
Wetterdaten: Modellanpassung mit K = 3 Fourier-Basisfunktionen
●● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.2 2.4 2.6 2.8 3.0 3.2 3.4
2.2
2.4
2.6
2.8
3.0
3.2
3.4
Vorhersage yi
Beo
bach
tung
yi
R2 = 0.717
G.Toenges (TU Dortmund) 15.12.14 22 / 47
Schatzung durch Verwendung von Straftermen
Ansatz II: Regularisierung durch Strafterme
Basisdarstellung von β(t) wie zuvor: β(t) = b′Θ(t) =∑K
k=1 bkθk(t)
Wahle K ≈ N
Gutekriterium der Straftermregularisierung
Minimiere die penalisierte Residuenquadratsumme
PENSSE =N∑i=1
(yi − α−
∫ b
aχi (t) β(t)︸︷︷︸
b′Θ(t)
dt)2
︸ ︷︷ ︸Residuenquadratsumme
+λ
∫ b
a
(L β(t)︸︷︷︸b′Θ(t)
)2dt
︸ ︷︷ ︸Strafterm
L ist ein Differentialoperator, z.B. L = D2 oder L = ( 2πT )2D + D3
G.Toenges (TU Dortmund) 15.12.14 23 / 47
Schatzung durch Verwendung von Straftermen
λ ∈ R+ ist ein Glattungsparameter:
1. Betrachte λ → ∞:
Gewichtsfunktion β(t) erfullt die DGL Lβ(t) = 0:
D2β(t) = 0⇐⇒ β(t) = c1 + c2t
(2π
T)2Dβ(t) + D3β(t) = 0⇐⇒ β(t) = c1 + c2sin
(2π
Tt + c3
)β(t) von einfacher Gestalt
Gefahr der Uberglattung
2. Betrachte λ → 0:
Gewichtsfunktion β(t) erfullt RSS = 0
β(t) von komplexer Gestalt
Gefahr der Uberanpassung
G.Toenges (TU Dortmund) 15.12.14 24 / 47
Schatzung durch Verwendung von Straftermen
Gutekriterium in Matrixschreibweise:
PENSSE = ‖y − Zξ‖2 + λξ′Rξ
wobei
R =
0 0 . . . 0
0∫ ba Lθ1(t)Lθ1(t)dt . . .
∫ ba Lθ1(t)LθK (t) dt
......
. . ....
0∫ ba LθK (t)Lθ1(t) dt . . .
∫ ba LθK (t)LθK (t) dt
Schatzung der Basis-Koeffizienten
Minimiere ‖y − Zξ‖2 + λξ′Rξ durch
ξ = (α, b1, . . . , bK )′ = (Z ′Z + λR)−1Z ′y
G.Toenges (TU Dortmund) 15.12.14 25 / 47
Schatzung durch Verwendung von Straftermen
Wetterdaten: Straftermregularisierung(mit K = 33 Fourier-Basisfunktionen und Differentialoperator L = ( 2π
365 )2D + D3)λ = 0
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−0.0
6−0
.02
0.02
0.06
λ = 103
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−0.0
4−0
.02
0.00
0.02
0.04
λ = 1012.5
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−2e−
042e
−04
6e−0
4
λ = 1015
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Mar May Jul Sep Nov
−4e−
040e
+00
4e−0
4
G.Toenges (TU Dortmund) 15.12.14 26 / 47
Schatzung durch Verwendung von Straftermen
Bestimmung von λ durch eine Leave-one-out-Kreuzvalidierung:
CV (λ) =1
N
N∑i=1
(yi − y
(−i)i ,λ
)2
0 5 10 15
0.5
1.0
1.5
2.0
log10(λ)
Kre
uzva
lidie
rung
ssco
re
CV
(λ)
● ● ●●
●
●
●
●●
●
●
●●
●
●
●
●
●
● ● ●● ●
●
●
●
●
●
●
●
● ●●
● ● ● ●
λopt = 1012.5
G.Toenges (TU Dortmund) 15.12.14 27 / 47
Schatzung durch Verwendung von Straftermen
Wetterdaten: Modellanpassung(K = 33, λ = 1012.5, L = ( 2π
365 )2D + D3)
●● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.2 2.4 2.6 2.8 3.0 3.2 3.4
2.2
2.4
2.6
2.8
3.0
3.2
3.4
Vorhersage yi
Beo
bach
tung
yi
R2 = 0.754
G.Toenges (TU Dortmund) 15.12.14 28 / 47
Punktweise Konfidenzintervalle fur β(t)
Varianz von ξ = (α, b1, . . . , bK )′:
Var(ξ) = Var((Z ′Z + λR
)−1Z ′y
)= (Z ′Z + λR)−1Z ′ Var(y) Z (Z ′Z + λR)−1
= σ2 (Z ′Z + λR)−1Z ′ Z (Z ′Z + λR)−1
⇓Varianz von β(t) =
∑Ki=1 θi (t)bi :
Mit v(t) := (0, θ1(t), . . . , θK (t))′ gilt, dass
Var(β(t)) = Var(v ′(t)ξ
)= v ′(t)Var(ξ)v(t)
G.Toenges (TU Dortmund) 15.12.14 29 / 47
Punktweise Konfidenzintervalle fur β(t)
Schatzer fur σ2:
σ2 =
∑Ni1
(yi − yi )2
N − tr(Z (Z ′Z + λR)−1Z ′
)Approximatives 0.95-Konfidenzintervall fur β(t)
[β(t)− 1.96 ·
√
Var(β(t)), β(t) + 1.96 ·√
Var(β(t))
]
G.Toenges (TU Dortmund) 15.12.14 30 / 47
Punktweise Konfidenzintervalle fur β(t)
Wetterdaten: Punktweise 0.95-Konfidenzintervalle fur β(t)(K = 33, λ = 1012.5, L = ( 2π
365 )2D + D3)
Zeit t
Gew
icht
sfun
ktio
n β
(t)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
−5e
−04
0e+
005e
−04
1e−
03
G.Toenges (TU Dortmund) 15.12.14 31 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 32 / 47
Nichtparametrische funktionale Regression
Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
Yi = m(χi ) + εi , i = 1, . . . ,N
wobei das Funktional m stetig ist, d.h.
m ∈ C := {f : L2[a, b]→ R, limd(χ,χ′)→0
f (χ) = f (χ′)}
Dabei ist d eine (Semi-)Metrik, z.B. die vom Skalarprodukt induzierteL2-Metrik
d(χ1, χ2) =
√∫ b
a(χ1(t)− χ2(t))2 dt
G.Toenges (TU Dortmund) 15.12.14 33 / 47
Nichtparametrische funktionale Regression
Erweiterung des Nadaraya-Watson-Schatzers fur funktionaleRegression
Ein Schatzer fur den Wert des stetigen Funktionals m an der Stelleχ ∈ L2[a, b] ist gegeben durch
m(χ) =
N∑i=1
K(d(χ,χi )
h
)∑N
j=1 K(d(χ,χj )
h
)︸ ︷︷ ︸
Gewicht wi (χ)
Yi
wobei d (Semi-)Metrik auf L2[a, b], K : R→ R (asymmetrische)Kernfunktion und h > 0 Bandbreite.
⇒ Es gilt∑N
i=1 wi (χ) = 1
G.Toenges (TU Dortmund) 15.12.14 34 / 47
Nichtparametrische funktionale Regression
Asymmetrische Kernfunktionen
−1.5 −0.5 0.0 0.5 1.0 1.5
0.0
0.5
1.0
1.5
Asymmetrischer Rechteck−Kern
u
K(u
)
−1.5 −0.5 0.0 0.5 1.0 1.5
0.0
0.5
1.0
1.5
2.0
2.5
Asymmetrischer Dreiecks−Kern
u
K(u
)
−1.5 −0.5 0.0 0.5 1.0 1.5
0.0
0.5
1.0
1.5
2.0
Asymmetrischer Epanechnikov−Kern
u
K(u
)
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
Asymmetrischer Gauss−Kern
u
K(u
)
G.Toenges (TU Dortmund) 15.12.14 35 / 47
Nichtparametrische funktionale Regression
h ∈ R+ ist ein Glattungsparameter:
Betrachte h → ∞:
d(χ, χi )
h≈ 0 ∀i = 1, . . . ,N =⇒ m(χ) ≈ Y
Betrachte h → 0:
m(χ) ≈ Yi mit i = argmini∈{1,...,N}
d(χ, χi )
G.Toenges (TU Dortmund) 15.12.14 36 / 47
Nichtparametrische funktionale Regression
Wetterdaten: Bestimmung von h durch L.o.o.-Kreuzvalidierung(K : asymmetrischer Gauss-Kern, d : L2-Metrik)
CV (h) =1
N
N∑i=1
(yi − y
(−i)i,h
)2
0 10 20 30 40 50 60
0.05
0.10
0.15
0.20
0.25
0.30
h
Kre
uzva
lidie
rung
ssco
re C
V(h
)
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 10 20 30 40 50 60
0.03
00.
035
0.04
00.
045
0.05
0
h
Kre
uzva
lidie
rung
ssco
re C
V(h
)
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
hopt = 18
G.Toenges (TU Dortmund) 15.12.14 37 / 47
Nichtparametrische funktionale Regression
Wetterdaten: Modellanpassung mit verschiedenen Bandbreiten(K : Asymmetrischer Gauss-Kern, d : L2-Metrik)
●● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.2 2.4 2.6 2.8 3.0 3.2 3.4
2.2
2.4
2.6
2.8
3.0
3.2
3.4
Vorhersage yi
Beo
bach
tung
yi
R2 = 0.981
● Bandbreite h=18
G.Toenges (TU Dortmund) 15.12.14 38 / 47
Nichtparametrische funktionale Regression
Wetterdaten: Modellanpassung mit verschiedenen Bandbreiten(K : Asymmetrischer Gauss-Kern, d : L2-Metrik)
●● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.2 2.4 2.6 2.8 3.0 3.2 3.4
2.2
2.4
2.6
2.8
3.0
3.2
3.4
Vorhersage yi
Beo
bach
tung
yi
R2 = 0.981
●●●
●●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
R2 = 0.015
●
●
Bandbreite h=18Bandbreite h=1000
G.Toenges (TU Dortmund) 15.12.14 39 / 47
Nichtparametrische funktionale Regression
Wetterdaten: Modellanpassung mit verschiedenen Bandbreiten(K : Asymmetrischer Gauss-Kern, d : L2-Metrik)
●● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.2 2.4 2.6 2.8 3.0 3.2 3.4
2.2
2.4
2.6
2.8
3.0
3.2
3.4
Vorhersage yi
Beo
bach
tung
yi
R2 = 0.981
●●●
●●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
R2 = 0.015
●●●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●R2 = 0.999
●
●
●
Bandbreite h=18Bandbreite h=1000Bandbreite h=3
G.Toenges (TU Dortmund) 15.12.14 40 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 41 / 47
Zusammenfassung
Funktionales Regressionsmodell fur skalare Zielgroßen
Yi = m(χi ) + εi , i = 1, . . . ,N
↙ ↘
m linear:
Yi = α +
∫ b
a
β(t)χi (t)dt + εi
⇓
Schatzung von α, β durch:
Basisdarstellung von β(t)
Basisdarstellung von β(t) undVerwendung von Straftermen
m stetig:
Yi = m(χi )+εi mit limd(χ,χ′)→0
f (χ) = f (χ′)
⇓
Schatzung von m(χ) durch:
ErweiterterNadaraya-Watson-Schatzer
(abhangig von Kernfunktion K ,Bandbreite h, (Semi-)Metrik d)
G.Toenges (TU Dortmund) 15.12.14 42 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 43 / 47
Aufgabe
Aufgabe Teil I:Installieren und laden Sie die Pakete fda und fda.usc. Im Paket fda.uscbefindet sich der Datensatz tecator, der das Absorptionsspektrum(tecator[[1]]$data) und den Fettgehalt (tecator[[2]]$Fat) von 215Fleischproben enthalt. Nutzen Sie fur fur die folgenden Arbeitsschritte dieFunktionen aus dem Paket fda:
Fuhren Sie mit dem Absorptionsspektren eine Regressionsglattung mit40 B-Spline-Basisfunktionen der Ordnung 4 durch.
Passen Sie ein funktionales lineares Regressionsmodell an, welches denFettgehalt in Abhangigkeit vom Absorptionsspektrum beschreibt(Funktion fRegress). Die Schatzung der Gewichtsfunktion β(t) solldurch Straftermregularisierung erfolgen: Nutzen Sie 214B-Spline-Basisfunktionen der Ordnung 4 zur Darstellung von β(t), alsGlattungsparameter λ = 0.324 und als Differentialoperator L = D2.
Plotten Sie sowohl die geschatzte Gewichtsfunktion β(t) als auch dieBeobachtungen yi gegen die Prognosen yi
G.Toenges (TU Dortmund) 15.12.14 44 / 47
Aufgabe
Aufgabe Teil II:Passen Sie ein nichtparametrisches funktionales Regressionsmodell (mitGauss-Kern, L2-Metrik) an, welches den Fettgehalt in Abhangigkeit vomAbsorptionsspektrum beschreibt. Nutzen Sie dazu die Funktionen aus demPaket fda.usc, insbesondere die Funktion fregre.np.cv:
Suchen Sie durch eine Kreuzvalidierung im Intervall [0,1] nach deroptimalen Bandbreite h
Plotten Sie (fur das optimale h) die Beobachtungen yi gegen diePrognosen yi
G.Toenges (TU Dortmund) 15.12.14 45 / 47
Inhaltsverzeichnis
1 Motivation
2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen
3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle
4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen
5 Zusammenfassung
6 Aufgabe
7 Literatur
G.Toenges (TU Dortmund) 15.12.14 46 / 47
Literatur
Febrero-Bande, M., Oviedo de la Fuente, M. (2012). Statistical Computing in Functional DataAnalysis: The R Package fda.usc. Journal of Statistical Software, 51(4), 1-28. URLhttp://www.jstatsoft.org/v51/i04/.
Ferraty, F. und Romain, Y. (2011). The Oxford handbook of functional data analysis. OxfordUniversity Press Verlag, New York.
Ferraty, F. und Vieu, P. (2006). Nonparametric functional data analysis - Theory and practice.Springer Verlag, New York.
R Development Core Team (2014). R: A language and environment for statistical computing. RFoundation for Statistical Computing, Wien.
Ramsay, J.O., Hooker, G. und Graves, S. (2009). Functional data analysis with R and Matlab.Springer Verlag, New York.
Ramsay, J.O. und Silverman, B.W. (2005). Functional data analysis. 2. Auflage, SpringerVerlag, New York.
Ramsay, J.O., Wickham H., Graves, S. und Hooker, G. (2014). fda: Functional Data Analysis. Rpackage version 2.4.3. http://CRAN.R-project.org/package=fda.
G.Toenges (TU Dortmund) 15.12.14 47 / 47