Funktionale Regressionsmodelle für skalare Zielgrößenduerre/Vortrag9b.pdf · CV(K) = 1 N XN i=1...

Funktionale Regressionsmodelle fur skalare Zielgroßen

Gerrit Toenges

Fakultat StatistikTechnische Universitat Dortmund

15. Dezember 2014

G.Toenges (TU Dortmund) 15.12.14 1 / 47

Inhaltsverzeichnis

1 Motivation

2 Das funktionale lineare Regressionsmodell fur skalare Zielgroßen

3 Schatzung im funktionalen linearen RegressionsmodellRegularisierung durch endlich viele BasisfunktionenRegularisierung durch StraftermePunktweise Konfidenzintervalle

4 Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen

5 Zusammenfassung

6 Aufgabe

7 Literatur


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Motivation

Temperaturverlauf von 35 kanadischen Wetterstationen

Zeit t

Tem

pera

tur

in °

C

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

−30

−20

−10

010

20

35 Wetterstationen, tagliche TemperaturmessungRegressionsglattung mit 65 Fourier-Basisfunktionen


Motivation

iTemperaturverlauf log. Niederschlag (p.a. in L

m2 )χi yi

1

Temperaturverlauf Station Arvida

Zeit t

Tem

pera

tur

in °

C


−20

−10

010

20

2.952599

......

...

35

Temperaturverlauf Station Quebec

Zeit t

Tem

pera

tur

in °

C


−20

−10

010

20

3.082283


Motivation

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

NIR−Spektrum von 215 Fleischproben

Wellenlänge

Abs

orba

nz

215 Fleischproben, Absorbanzmessung bei 100 versch. WellenlangenRegressionsglattung mit 40 B-Spline-Basisfunktionen der Ordnung 4


Motivation

i Spektrum χi Fettgehalt yi (in %)

1

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

NIR−Spektrum Probe 1

Wellenlänge

Abs

orba

nz22.5

......

...

215

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

NIR−Spektrum Probe 215

Wellenlänge

Abs

orba

nz

19.9


Motivation

Situation:Stichprobe (χ1, y1), (χ2, y2), . . . , (χN , yN) aus gemeinsamer VerteilungP(X ,Y ), wobei

X funktionale Zufallsvariable mit Stichprobenrealisationenχi = {χi (t), t ∈ [a, b]} ∈ L2[a, b] fur i = 1, . . . ,N

Y reellwertige Zufallsvariable mit Stichprobenrealisationenyi ∈ R fur i = 1, . . . ,N

Ziel:Abhangigkeitsstruktur zwischen X und Y aufdecken


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Lineare funktionale Regression

Das allgemeine funktionale Regressionsmodell fur skalare Zielgroßen

Yi = m(χi ) + εi , i = 1, . . . ,N

Dabei gilt:

χi Realisation der funktionalen, L2[a, b]-wertigen Zufallsvariablen X i

X 1, . . . ,XN stochastisch unabhangig

Die Abbildung m ist ein Funktional:

m : L2[a, b] −→ Rχi 7−→ E (Y |X i = χi )

ε1, . . . , εN reellwertige, u.i.v. Zufallsfehler mit E (εi ) = 0

ε1, . . . , εN ,X 1, . . . ,XN stochastisch unabhangig



Annahme: Das Funktional m : L2[a, b]→ R ist linear,d.h fur χ1, χ2 ∈ L2[a, b] und λ1, λ2 ∈ R gilt:m(λ1χ1 + λ2χ2) = λ1m(χ1) + λ2m(χ1)

⇓Riesz-Theorem fur L2[a, b]

Der Raum L2[a, b] mit dem inneren Produkt < f , g >=∫ ba f (t)g(t) dt ist

ein Hilbertraum. Sei m : L2[a, b]→ R ein beschranktes lineares Funktional.Dann existiert genau eine Funktion β ∈ L2[a, b] sodass gilt:

m(χ) =

∫ b

aβ(t)χ(t) dt ∀ χ ∈ L2[a, b]



Riesz-Theorem: Jedes lineare, beschrankte Funktional kann durch eineGewichtsfunktion β ∈ L2[a, b] identifiziert werden

⇓Das funktionale lineare Regressionsmodell fur skalare Zielgroßen

Yi = α +

∫ b

aβ(t)χi (t) dt + εi , i = 1, . . . ,N

α ∈ R, β ∈ L2[a, b], χi ∈ L2[a, b], i = 1, . . . ,N

ε1, . . . , εN uiv. mit E (εi ) = 0, Var(εi ) = σ2, i = 1, . . . ,N

Ziel: Schatzung von α und β = {β(t), t ∈ [a, b]} anhand der Stichprobe(χ1, y1), (χ2, y2), . . . , (χN , yN)



Beispiel zur Interpretation der Gewichtsfunktion β

Hypothetische Gewichtsfunktion β(t)

Zeit t

Gew

icht

sfun

ktio

n β

(t)


0.0

0.5

1.0

1.5

Temperaturverlauf Station Arvida

Zeit t

Tem

pera

tur

in °

C


−20

−10

010

20



Problem: Unterbestimmtes Gleichungssystem

y1 = α +

∫ b

aβ(t)χ1(t) dt

......

...

yN = α +

∫ b

aβ(t)χN(t)dt

Sei (α∗, β∗) eine Losung des Gleichungssystems und υ ∈ L2[a, b] mitυ ⊥ χi ∀ i = 1, . . . ,N. Dann ist auch (α∗, β∗ + υ) eine Losung, weil:

α∗+

∫ b

a(β∗(t) + υ(t))χi (t)dt = α∗+

∫ b

aβ∗(t)χi (t) dt = yi i = 1, . . . ,N


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Schatzung durch Basisdarstellung von β(t)

Ansatz I: Regularisierung durch Basisdarstellung von β(t)

Erinnerung: Das Minimierungsproblem hat keine eindeutige Losung

minα∈R, β∈L2[a,b]

N∑i=1

(yi − α−

∫ b

aβ(t)χi (t) dt

)2

⇓Annahme (um Minimierungsproblem eindeutig zu machen):β darstellbar als Linearkombination endlich vieler Basisfunktionen

θ1(t), . . . , θK (t):

β(t) =K∑

k=1

bkθk(t) = b′Θ(t)



Modell fur Beobachtungen i = 1, . . . ,N :

Yi = α +

∫ b

aχi (t)Θ(t)′b dt + εi

= α + b1

∫ b

aχi (t)θ1(t) dt + . . .+ bK

∫ b

aχi (t)θK (t) dt + εi

Modell im Matrixform:Y1

Y2

...YN

=

1

∫ b

aχ1(t)θ1(t) dt . . .

∫ b

aχ1(t)θK (t)dt

1∫ b

aχ2(t)θ1(t) dt . . .

∫ b

aχ2(t)θK (t)dt

......

. . ....

1∫ b

aχN(t)θ1(t) dt . . .

∫ b

aχN(t)θK (t) dt

αb1

...bK

+

ε1

ε2

...εN

Y = Zξ + ε



Da Z ∼ (N,K + 1) gilt (falls Z vollen Rang besitzt):

N < (K + 1) −→ Es gibt unendliche viele Losungen ξ die

RSS = ‖y − Zξ‖2 minimieren

N ≥ (K + 1) −→ Es gibt genau eine Losung ξ die

RSS = ‖y − Zξ‖2 minimiert

Schatzung der Basis-Koeffizienten

Im Falle N ≥ (K + 1)⇔ K ≤ (N − 1) wird die Residuenquadratsumme‖y − Zξ‖2 durch die eindeutige Losung

ξ = (α, b1, . . . , bK )′ = (Z ′Z )−1Z ′y

minimiert.



Beispiel Wetterdaten: Verwendung eines Fourier-Basissystems

K= 33 Basisfunktionen

Zeit t

Gew

icht

sfun

ktio

n β

(t)

Jan Mar May Jul Sep Nov

−0.

06−

0.02

0.02

0.06


Zeit t

Gew

icht

sfun

ktio

n β

(t)


−0.

020.

000.

010.

02


Zeit t

Gew

icht

sfun

ktio

n β

(t)


−0.

006

−0.

002

0.00

2


Zeit t

Gew

icht

sfun

ktio

n β

(t)


−4e

−04

0e+

004e

−04



Bestimmung von K durch eine Leave-one-out-Kreuzvalidierung:

CV (K ) =1

N

N∑i=1

(yi − y

(−i)i ,K

)2

0 5 10 15 20 25 30

24

68

10

Anzahl Basisfunktionen K

Kre

uzva

lidie

rung

ssco

re C

V(K

)

●

●●

●

●● ●

●

●●

●

●

●

●

●

●

●

Kopt = 3



Wetterdaten: Modellanpassung mit K = 3 Fourier-Basisfunktionen

●● ●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

2.2 2.4 2.6 2.8 3.0 3.2 3.4

2.2

2.4

2.6

2.8

3.0

3.2

3.4

Vorhersage yi

Beo

bach

tung

yi

R2 = 0.717


Schatzung durch Verwendung von Straftermen

Ansatz II: Regularisierung durch Strafterme

Basisdarstellung von β(t) wie zuvor: β(t) = b′Θ(t) =∑K

k=1 bkθk(t)

Wahle K ≈ N

Gutekriterium der Straftermregularisierung

Minimiere die penalisierte Residuenquadratsumme

PENSSE =N∑i=1

(yi − α−

∫ b

aχi (t) β(t)︸︷︷︸

b′Θ(t)

dt)2

︸︷︷︸Residuenquadratsumme

+λ

∫ b

a

(L β(t)︸︷︷︸b′Θ(t)

)2dt

︸︷︷︸Strafterm

L ist ein Differentialoperator, z.B. L = D2 oder L = ( 2πT )2D + D3



λ ∈ R+ ist ein Glattungsparameter:

1. Betrachte λ → ∞:

Gewichtsfunktion β(t) erfullt die DGL Lβ(t) = 0:

D2β(t) = 0⇐⇒ β(t) = c1 + c2t

(2π

T)2Dβ(t) + D3β(t) = 0⇐⇒ β(t) = c1 + c2sin

(2π

Tt + c3

)β(t) von einfacher Gestalt

Gefahr der Uberglattung

2. Betrachte λ → 0:

Gewichtsfunktion β(t) erfullt RSS = 0

β(t) von komplexer Gestalt

Gefahr der Uberanpassung



Gutekriterium in Matrixschreibweise:

PENSSE = ‖y − Zξ‖2 + λξ′Rξ

wobei

R =

0 0 . . . 0

0∫ ba Lθ1(t)Lθ1(t)dt . . .

∫ ba Lθ1(t)LθK (t) dt

......

. . ....

0∫ ba LθK (t)Lθ1(t) dt . . .

∫ ba LθK (t)LθK (t) dt

Schatzung der Basis-Koeffizienten

Minimiere ‖y − Zξ‖2 + λξ′Rξ durch

ξ = (α, b1, . . . , bK )′ = (Z ′Z + λR)−1Z ′y



Wetterdaten: Straftermregularisierung(mit K = 33 Fourier-Basisfunktionen und Differentialoperator L = ( 2π

365 )2D + D3)λ = 0

Zeit t

Gew

icht

sfun

ktio

n β

(t)


−0.0

6−0

.02

0.02

0.06

λ = 103

Zeit t

Gew

icht

sfun

ktio

n β

(t)


−0.0

4−0

.02

0.00

0.02

0.04

λ = 1012.5

Zeit t

Gew

icht

sfun

ktio

n β

(t)


−2e−

042e

−04

6e−0

4

λ = 1015

Zeit t

Gew

icht

sfun

ktio

n β

(t)


−4e−

040e

+00

4e−0

4



Bestimmung von λ durch eine Leave-one-out-Kreuzvalidierung:

CV (λ) =1

N

N∑i=1

(yi − y

(−i)i ,λ

)2

0 5 10 15

0.5

1.0

1.5

2.0

log10(λ)

Kre

uzva

lidie

rung

ssco

re

CV

(λ)

● ● ●●

●

●

●

●●

●

●

●●

●

●

●

●

●

● ● ●● ●

●

●

●

●

●

●

●

● ●●

● ● ● ●

λopt = 1012.5



Wetterdaten: Modellanpassung(K = 33, λ = 1012.5, L = ( 2π

365 )2D + D3)

●● ●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

2.2 2.4 2.6 2.8 3.0 3.2 3.4

2.2

2.4

2.6

2.8

3.0

3.2

3.4

Vorhersage yi

Beo

bach

tung

yi

R2 = 0.754


Punktweise Konfidenzintervalle fur β(t)

Varianz von ξ = (α, b1, . . . , bK )′:

Var(ξ) = Var((Z ′Z + λR

)−1Z ′y

)= (Z ′Z + λR)−1Z ′ Var(y) Z (Z ′Z + λR)−1

= σ2 (Z ′Z + λR)−1Z ′ Z (Z ′Z + λR)−1

⇓Varianz von β(t) =

∑Ki=1 θi (t)bi :

Mit v(t) := (0, θ1(t), . . . , θK (t))′ gilt, dass

Var(β(t)) = Var(v ′(t)ξ

)= v ′(t)Var(ξ)v(t)



Schatzer fur σ2:

σ2 =

∑Ni1

(yi − yi )2

N − tr(Z (Z ′Z + λR)−1Z ′

)Approximatives 0.95-Konfidenzintervall fur β(t)

[β(t)− 1.96 ·

√

Var(β(t)), β(t) + 1.96 ·√

Var(β(t))

]



Wetterdaten: Punktweise 0.95-Konfidenzintervalle fur β(t)(K = 33, λ = 1012.5, L = ( 2π

365 )2D + D3)

Zeit t

Gew

icht

sfun

ktio

n β

(t)


−5e

−04

0e+

005e

−04

1e−

03


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Nichtparametrische funktionale Regression

Das nichtparametrische funktionale Regressionsmodell fur skalareZielgroßen

Yi = m(χi ) + εi , i = 1, . . . ,N

wobei das Funktional m stetig ist, d.h.

m ∈ C := {f : L2[a, b]→ R, limd(χ,χ′)→0

f (χ) = f (χ′)}

Dabei ist d eine (Semi-)Metrik, z.B. die vom Skalarprodukt induzierteL2-Metrik

d(χ1, χ2) =

√∫ b

a(χ1(t)− χ2(t))2 dt



Erweiterung des Nadaraya-Watson-Schatzers fur funktionaleRegression

Ein Schatzer fur den Wert des stetigen Funktionals m an der Stelleχ ∈ L2[a, b] ist gegeben durch

m(χ) =

N∑i=1

K(d(χ,χi )

h

)∑N

j=1 K(d(χ,χj )

h

)︸︷︷︸

Gewicht wi (χ)

Yi

wobei d (Semi-)Metrik auf L2[a, b], K : R→ R (asymmetrische)Kernfunktion und h > 0 Bandbreite.

⇒ Es gilt∑N

i=1 wi (χ) = 1



Asymmetrische Kernfunktionen

−1.5 −0.5 0.0 0.5 1.0 1.5

0.0

0.5

1.0

1.5

Asymmetrischer Rechteck−Kern

u

K(u

)

−1.5 −0.5 0.0 0.5 1.0 1.5

0.0

0.5

1.0

1.5

2.0

2.5

Asymmetrischer Dreiecks−Kern

u

K(u

)

−1.5 −0.5 0.0 0.5 1.0 1.5

0.0

0.5

1.0

1.5

2.0

Asymmetrischer Epanechnikov−Kern

u

K(u

)

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

Asymmetrischer Gauss−Kern

u

K(u

)



h ∈ R+ ist ein Glattungsparameter:

Betrachte h → ∞:

d(χ, χi )

h≈ 0 ∀i = 1, . . . ,N =⇒ m(χ) ≈ Y

Betrachte h → 0:

m(χ) ≈ Yi mit i = argmini∈{1,...,N}

d(χ, χi )



Wetterdaten: Bestimmung von h durch L.o.o.-Kreuzvalidierung(K : asymmetrischer Gauss-Kern, d : L2-Metrik)

CV (h) =1

N

N∑i=1

(yi − y

(−i)i,h

)2

0 10 20 30 40 50 60

0.05

0.10

0.15

0.20

0.25

0.30

h

Kre

uzva

lidie

rung

ssco

re C

V(h

)

●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40 50 60

0.03

00.

035

0.04

00.

045

0.05

0

h

Kre

uzva

lidie

rung

ssco

re C

V(h

)

●

●

●

●

●

●

● ● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

hopt = 18



Wetterdaten: Modellanpassung mit verschiedenen Bandbreiten(K : Asymmetrischer Gauss-Kern, d : L2-Metrik)

●● ●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

2.2 2.4 2.6 2.8 3.0 3.2 3.4

2.2

2.4

2.6

2.8

3.0

3.2

3.4

Vorhersage yi

Beo

bach

tung

yi

R2 = 0.981

● Bandbreite h=18




●● ●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

2.2 2.4 2.6 2.8 3.0 3.2 3.4

2.2

2.4

2.6

2.8

3.0

3.2

3.4

Vorhersage yi

Beo

bach

tung

yi

R2 = 0.981

●●●

●●●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

R2 = 0.015

●

●

Bandbreite h=18Bandbreite h=1000




●● ●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

2.2 2.4 2.6 2.8 3.0 3.2 3.4

2.2

2.4

2.6

2.8

3.0

3.2

3.4

Vorhersage yi

Beo

bach

tung

yi

R2 = 0.981

●●●

●●●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

R2 = 0.015

●●●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●R2 = 0.999

●

●

●

Bandbreite h=18Bandbreite h=1000Bandbreite h=3


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Zusammenfassung

Funktionales Regressionsmodell fur skalare Zielgroßen

Yi = m(χi ) + εi , i = 1, . . . ,N

↙ ↘

m linear:

Yi = α +

∫ b

a

β(t)χi (t)dt + εi

⇓

Schatzung von α, β durch:

Basisdarstellung von β(t)

Basisdarstellung von β(t) undVerwendung von Straftermen

m stetig:

Yi = m(χi )+εi mit limd(χ,χ′)→0

f (χ) = f (χ′)

⇓

Schatzung von m(χ) durch:

ErweiterterNadaraya-Watson-Schatzer

(abhangig von Kernfunktion K ,Bandbreite h, (Semi-)Metrik d)


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Aufgabe

Aufgabe Teil I:Installieren und laden Sie die Pakete fda und fda.usc. Im Paket fda.uscbefindet sich der Datensatz tecator, der das Absorptionsspektrum(tecator[[1]]$data) und den Fettgehalt (tecator[[2]]$Fat) von 215Fleischproben enthalt. Nutzen Sie fur fur die folgenden Arbeitsschritte dieFunktionen aus dem Paket fda:

Fuhren Sie mit dem Absorptionsspektren eine Regressionsglattung mit40 B-Spline-Basisfunktionen der Ordnung 4 durch.

Passen Sie ein funktionales lineares Regressionsmodell an, welches denFettgehalt in Abhangigkeit vom Absorptionsspektrum beschreibt(Funktion fRegress). Die Schatzung der Gewichtsfunktion β(t) solldurch Straftermregularisierung erfolgen: Nutzen Sie 214B-Spline-Basisfunktionen der Ordnung 4 zur Darstellung von β(t), alsGlattungsparameter λ = 0.324 und als Differentialoperator L = D2.

Plotten Sie sowohl die geschatzte Gewichtsfunktion β(t) als auch dieBeobachtungen yi gegen die Prognosen yi


Aufgabe

Aufgabe Teil II:Passen Sie ein nichtparametrisches funktionales Regressionsmodell (mitGauss-Kern, L2-Metrik) an, welches den Fettgehalt in Abhangigkeit vomAbsorptionsspektrum beschreibt. Nutzen Sie dazu die Funktionen aus demPaket fda.usc, insbesondere die Funktion fregre.np.cv:

Suchen Sie durch eine Kreuzvalidierung im Intervall [0,1] nach deroptimalen Bandbreite h

Plotten Sie (fur das optimale h) die Beobachtungen yi gegen diePrognosen yi


Inhaltsverzeichnis

1 Motivation




5 Zusammenfassung

6 Aufgabe

7 Literatur


Literatur

Febrero-Bande, M., Oviedo de la Fuente, M. (2012). Statistical Computing in Functional DataAnalysis: The R Package fda.usc. Journal of Statistical Software, 51(4), 1-28. URLhttp://www.jstatsoft.org/v51/i04/.

Ferraty, F. und Romain, Y. (2011). The Oxford handbook of functional data analysis. OxfordUniversity Press Verlag, New York.

Ferraty, F. und Vieu, P. (2006). Nonparametric functional data analysis - Theory and practice.Springer Verlag, New York.

R Development Core Team (2014). R: A language and environment for statistical computing. RFoundation for Statistical Computing, Wien.

Ramsay, J.O., Hooker, G. und Graves, S. (2009). Functional data analysis with R and Matlab.Springer Verlag, New York.

Ramsay, J.O. und Silverman, B.W. (2005). Functional data analysis. 2. Auflage, SpringerVerlag, New York.

Ramsay, J.O., Wickham H., Graves, S. und Hooker, G. (2014). fda: Functional Data Analysis. Rpackage version 2.4.3. http://CRAN.R-project.org/package=fda.


Funktionale Regressionsmodelle für skalare Zielgrößenduerre/Vortrag9b.pdf · CV(K) = 1 N XN i=1...

Documents

Transcript of Funktionale Regressionsmodelle für skalare Zielgrößenduerre/Vortrag9b.pdf · CV(K) = 1 N XN i=1...