Multivariate Statistische Verfahren
description
Transcript of Multivariate Statistische Verfahren
1
Multivariate Statistische Verfahren
Logistische Funktion, Logistische Regression und KlassifikationPoisson-Regression
Psychologisches Institut der Universität Mainz
SS 2012
U. Mortensen
2
Überblick
Grundbegriffe der Dynamik
Logistische Funktionen, logistische Regression und Klassifikation
Zeitliche Entwicklungen: Ereignisanalyse (Analyse von ‚Wartezeiten‘)
Weitere Analysen von Häufigkeiten: Poisson-Regression, loglineare Analysen
3
Vorbemerkungen: Exponentielles und logistisches Wachstum
Funktionen und ihre Ableitungen
2
2
sin( )
( ) sei irgendeine Funktion von . Etwa
( ) , eine Konstante( ) ,( )
( ) sin( ) cos( ) ,x cx
f x x
f x k kf x ax bf x ax
f x ax e bx eetc
( ) , eine KonstanteDie Funktion hat überall den gleichen Wert , dh sie verändert nirgends ihren Wert - die Veränderung hat überall den Wert Null.
f x k kk
( )Die Funktion ist linear - sie verändert sich für alle im gleichen Ausmaß ( Ort, Zeit - Bewegung mit konstanter Geschwindigkeit).
f x ax bx a
f x t
2( )Die Funktion wächst immer schneller - Veränderung des Wachsens mit .f x ax
x
4
Wie kann man die Veränderung einer Funktion beschreiben?
( ) ( ) : Veränderung von zwischen und f x h f x f
x x h
( ) ( ) ( )
Rate der Veränderung an derStelle (Steigung der Sekante)
f x h f xf x
h
x
0
( ) ( ) ( )lim '( )
Infinitesimale Rate der Veränderung an derStelle (Steigung der Tangente) =Differentialquotient(Maß der Veränderung von an der Stelle x)
h
f x h f x df xf x
h dx
x
f
5
Beispiele
( )
( ) ( ) ( )
für alle
f x ax b
f x h f x a x h ax
h hax ah ax
a hh
Die Rate der Veränderung istkonstant für alle .x
2
2 2 2 2 2
2 2 2
0
( )
( ) ( 2 )
22
lim 2 2 .h
f x ax
a x h ax a x h hx ax
h hax ah ahx ax
ah axh
ah ax ax
Die Rate der Veränderung istproportional zu .x
6
Differential und Integral
Die Umkehrung der Differentiation ist die Integration:
Unbestimmtes Integral:
'( ) ( )f x dx f x c Bestimmtes Integral:
'( ) ( ) ( )b
af x dx f b f a
2
Beispiel:
axdx ax c 2 2 2 2
Beispiel:
( )b
axdx b a b a
( ) ( ) ( )xf u du F x P X x
Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsfunktion :f F
7
Differentialgleichungen
Ausgangspunkt: ist die Funktion f(x) gegeben, so liegt die Ableitung f‘(x) fest, und umgekehrt: ist f‘(x) gegeben, so ist auch f(x) bestimmt (bis auf additive Konstante beim unbestimmten Integral)
Oft sucht man eine Funktion, von der man nur weiß, wie sie sich mit xVerändert, d.h. man hat eine Differentialgleichung, deren Lösung die gesuchte Funktion ist:
Beispiel:( )
( )df x
af xdx
Das Differential (die Ableitung) der gesuchten Funktion sei proportional zur Funktion.
8
Auf diese Differentialgleichung wird man geführt, wenn man den Fall betrachtet, dass eine Größe stets um einen bestimmten Anteil ihres Wertes wächst:
Differentialgleichungen
Nach der Zeiteinheit 1 gelte
( 1) ( ) ( ) (1 ) ( ), d.h.
( 1)1 .
( )
h
f t f t f t f t
f t
f t
Es läßt sich zeigen, dass dann( )
gilt, d.h. ist die Exponentialfunktion, und ist die einzige Funktion, die der Gleichung
( )'( ) ( )
genügt.
atf t cef
f
df tf t af t
dt
Exponentielles Wachstum einer Population: Zeiten mit Quadraten sind „Verdoppelungszeiten“, dh Zeiten, zu denen sich die Population jeweils verdoppelt hat.
Außerdem
( 1) ( ) ( ) (1 ) ( ), d.h.
( 1) ( )( ).
1
f t f t f t f t
f t f tf t
9
Differentialgleichungen
Gilt
( 1) ( ) ( ) (1 ) ( ),
bzw.
( )
so ist die Verdoppelungszeit durch
log 2 .7
log(1 )
gegeben.
d
at
f t f t f t f t
f t ce
t
Verdoppelungszeiten:
0
0
Verzinsung:
Das Anfangskapital sei , die jährliche Ver-
zinsung betrage 5%. Die Verdoppelungs-
zeit ist 14 Jahre, nach Verdoppelungs-
zeiten hat sich um 2 vervielfacht.k
x
k
x
0 0
Ölverbrauch:
Im Jahr hat man Barrel Öl verbraucht,
jährlich wird 1.5% ( =.015) mehr Öl verbraucht.
Dann hat sich nach 70 / 1.5 47 Jahren der
jährliche Verbrauch verdoppelt, d.h. in den letzten
Ja
d
t x
t
0
hren hat die Welt so viel Öl verbraucht wie in
der gesamten Zeit bis !t
Allgemein: benötigt man zum Verbrauch
einer Ressource Verdoppelungszeiten,
so hat man nach 1 Zeiten die Hälfte
verbraucht, und während der letzten Ver-
doppelungszeit verbraucht man den Rest!
n
n
10
Differentialgleichungen
Exponentielles Wachstum der Weltbevölkerung
11
Differentialgleichungen
Logistisches Wachstum
Pierre Verhulst (1804- 1849), belgischer Mathematiker
Ist die Wachstumsrate konstant, so ist das Wachstum exponentiell. Wie istDas Wachstum, wenn die Rate nicht konstant ist, es zB Sättigung im Wachstum gibt?
Verhulst bekam 1838 den Auftrag, das Wachstum der Stadt Paris vorherzusagen – die Vorhersage wurde für die Planung neuer Wohnungen (frz logis), Strassen, zugehöriger Kanalisation benötigt.
Verhulst nahm an, dass es für eine Stadt eine maximale Größe K (Trägerkonstante) geben müsse, da die Stadt aus dem Umland mit Wasser und Nahrung versorgt werden muß.
12
Differentialgleichungen
Ist ( ) die Anzahl der Bewohner zur Zeit( )
, so muß 1 für alle sein.
N tN t
t tK
( )( ) setzt Verhulst nun
( )( )( ( )), mit ( ) .
ist maximale Population ("Trägerkonstante" )
Statt dN t
rN tdt
dN tN t K N t N t K
dtK
Offenbar folgt
0, ( ) ( )
, ( ) 0
N t Kt
r N t
( )( ) ( ).
Mit ( )
(zeitabhängige Proportionalitätskonstante)
( )1 hat man
dN tt N t
dt
t KN t
K
Die Veränderung ist einerseits
proportional zu ( ), andererseits
zur noch verbleibenden Ressource
( ). Je weniger von der Ressouce
noch vorhanden ist, desto kleiner die
Veränderung.
N t
N N t
13
Differentialgleichungen
( ) ( ) ( ) ( )( ) ( ) ( ) 1 ( )
dN t N t N t N tt N t rN t rN t r
dt K K
( ) für ( ) klein (exponentielles Wachstum)( )
(1 ( ) / ) für ( ) groß (negativ expon. Wachstum)
rN t N tdN t
dt r N t K N t
Logistisches Wachstum der Lebenserwartung in Norwegen
14
Differentialgleichungen
Das klassische Modell der Epidemiologie
Annahmen:1. Gegeben sei eine Population mit Umfang 2. Ein Element der Population hat das Merkmal oder hat es nicht3. Das Merkmal (Gerücht, Krankheit) wird durch Kontakt weitergegeben4. Alle Element
NA
e der Population sind gleich infizierbar.
Das "triviale" Modell:1. 2. ( ) Anzahl Infizierter zur Zeit , ( ) Zahl Infizierter zur Zeit durchschnittliche Anzahl von Kontakten noch nicht Infizierter.
Dann soll gelten
( ) ( )
NX t t X t h t h
X t h X t
( )hX t
15
0
Es folgt
( ) ( ) ( ) ( )( ), so dass lim '( ) ( ),
d.h. ( ) wächst exponentiell!
h
x t h X t x t h X tX t X t X t
h h
X t
Differentialgleichungen
Das klassische Modell:, ( ) Infizierte, ( ) ( ) noch nicht Infizierte, und( ) ( ) konstant.
N X t S t N X tN X t S t
Jeder der ( ) Infizierten kann mit jedem nicht Infizierten Kontakt haben; die Anzahl der möglichen Kontakte ist dann ( ) ( ). Mithin
( ) ( ) ( ) ( ), d.h.
( ) ( ) ( ) ( ) ( ( )) ( ).
X tS t X t
X t h X t hS t X t
X t h X t S t X t N X t X th
( ) ( ( )) ( ). (logistische Gleichung)dX t N X t X tdt
16
( )( ( )) ( ).
( ) ( ) / 0, d.h. kleiner werdende Veränderung der Anzahl Infizierter
X(t) 0 ( ) / 0, d.h. nur langsam wachsende Anzahl Infizierter
dX tN X t X t
dt
X t N dX t dt
dX t dt
Differentialgleichungen
Lösung der Differentialgleichung:
(0)( ) , ,
(0)1 )(Logistische Funktion)
t
N N XX t A N
XAe
Wachstumsverläufe für =.1 und .075, 100N
17
Differentialgleichungen – Interaktion von Emotionen
1 2
111 1 12 2 1
212 1 22 2 2
1 2
Frustration, Aggression
gekoppelte Differentialgleichungen,, Störungen (etwa: ''Impulse'')
x xdx
a x a x udtdx
a x a x udt
u u
Dollard & Miller 1939: Frustration erzeugt Aggression
Einmal so…
Und das nächste Mal so:
Existiert ein überhaupt ein Zusammenhang?
18
1 2 sind Konstante bzw. im Vergleich zu . langsam variierende
Funktionen, die durch andere Emotionen/Zuständlichkeiten beein-flußt werden.
ija x x
Differentialgleichungen – Interaktion von Emotionen
Keine Regression im üblichen Sinn!
Keine Regression im üblichen Sinn – Oszillation bis zur Gleichgewichtslage!
Reaktionen auf einen frustrierenden „Stoß“:
19
Differentialgleichungen – Interaktion von Emotionen
Keine Regression im üblichen Sinn – eher eine Explosion!
Keine Regression im üblichen Sinn – eher ein permanentes Pendeln!
Untersuchungen im Rahmen des Allgemeinen Linearen Modells (ANOVA, Regressionsanalyse etc) erfassen die Dynamik grundsätzlich nicht!
20
Logistische Verteilung, Regression und Klassifikation
Die logistische Verteilung
Es sei ( ) ( ), und es gelte
( )( ) ( )(1 ( ))
F x P X x
dF xf x F x F x
dx
1( )
( )1 exp
3
F xx
( ) , ( )E X Var X
Der Faktor / 3 resultiert aus der Normierung: es muß 0 ( ) 1 gelten.
F x
sei ein zufälliges Ereignis, sei eine Indikatorvariable:
0, wenn nicht eingetreten ist,1 sonst:
A Y
Y AY
( ) 1 ( )1
( )
1 exp3
P X x F x
x
trete ein, wenn , und tretenicht ein, wenn , so dass
( 0 | ) ( ),( 1 | ) 1 ( ).
A X x AX x
P Y x F xP Y x F x
Regression:Beispiel (stark vereinfacht): stehe für Herzinfarkt.
sei Ausmaß der Verkalkung der Herzkranzgefäße, x sei ein kritisches Ausmaß. Für folgt ein Infarkt,für nicht.
AX
X xX x
Klassifikation:Beispiel: bedeute, dass eine Person einer bestimmten Klasse angehört (zB für Job geeignet, oder "ist depressiv"), repräsentiert komplexes Merkmal ("Symptom"). signalisiert Zugeh
A
XX x örigkeit
zur Klasse.
21
Logistische Verteilung, Regression und Klassifikation
Die Wahrscheinlichkeiten ( 1 | ) und ( 0 | ) hängen von den Parametern
und der Verteilung ( ) ab.
P Y x P Y x
F x
0 1
0 1
Um diese Abhängigkeit zu modellieren, schreibt man ( ) in reparametrisierter Form an:
1 1( ) ,
( ) 1 exp( )1 exp
3
mit , a3 3
F x
F xx a a
xa
1
2
1 1 2 2
kann von unabhängigen Variablen abhängen: die Anzahl Zigaretten, die eine Person täglich raucht, das Alter der Person, etcso dass .
xx
x x
22
Logistische Verteilung, Regression und Klassifikation
Vergleich logistische Verteilung – Gauss-Verteilung
23
1 2
1 20 1 1 1 2 2
0 1 1 2 2
0 0 1 1 1 2 1 2
( 1 | ) ( 1 | , ) ( 1 | , , ) und
1( 1| , , )
1 exp( ( ( )))1
1 exp( )
(erneute Reparametrisierung, b = - , b - , b - ).
P Y x P Y x P Y x x x
P Y x x xa a x x
b b x b x
a a a
Logistische Verteilung, Regression und Klassifikation
1 20 1 1 2 2
Dies ist die logistische Regression oder Klassifikation:1
( 1| , )1 exp( )
Frage: Impliziert dieser "Ansatz" die Annahme der logistischen Verteilung?
P Y x xb b x b x
24
Logistische Verteilung, Regression und Klassifikation
1
2 1
1 11
Es soll entschieden werden, ob ein Objekt oder eine Person in die Kategorie ( 1)
oder in die Kategorie ( 0) gehört. ( , , ) seien Prädiktoren.
Dann gilt (Bayes)
( | ) ( ) (( | )
( )
n
C Y
C Y x x x
P x C P C P xP C x
P x
1 1
1 1 2 2
( )2 2
1 1
2 2
1 1
| ) ( )
( | ) ( ) ( | ) ( )
1 1 , logistische Funktion?
( | ) ( ) 11
( | ) ( )
mit
( | ) ( )( ) log .
( | ) ( )
a x
C P C
P x C P C P x C P C
P x C P C e
P x C P C
P x C P Ca x
P x C P C
log(Hier wird von Gebrauch gemacht!)aa e
1
1/ 2
sei multivariatGauss-verteilt:
1 1( | ) exp ( ) ' ( , 1, 2
2(2 ) | |i i in
x
f x C x x i
10 1 1
1( | )
1 exp( )
Nach ein wenig Algebra ergibt sich dann
n n
P C xb b x b x
Gauss-Verteilungen mit identischen Varianz-Kovarianz-Matrizen führen auf die logistische Funktion!
25
Logistische Regression
1
0 1 1
1( | )
1 exp( )n n
P C xb b x b x
Wahrscheinlich-keit Wie multiple Regression –
Kein Fehlerterm!
Nichtlineare Beziehung zwischen den unabhängigen Variablen und der Wahrscheinlichkeit!
1
0 1 1
10 1 1
1
1
1
( | )1 exp( )
1 ( | ) exp( )
( | )
( ( ))
1
n n
n n
P C xb b x b x
P C xb b x b x
P C x
p P C x
p
p
Wettchance
0 1 1
1log Logit
n nb b x b x
p
p
Lineare Beziehung zwischen Prädiktoren und Logit!
26
Logistische Verteilung, Regression und Klassifikation
Wahrscheinlichkeit einer Koronarerkrankung in Abhängigkeit vom Blutdruck
27
Logistische Regression
• Wie werden die Koeffizienten geschätzt?• Wie werden sie interpretiert?
0 1 1
1log Logit
n nb x b x
p
pb
Schätzung:
2Da kein Fehler existiert, kann auch keine Summe
minimalisiert werden, d.h. die Methode der Kleinsten Quadrate
ist nicht anwendbar. Daher Schätzung nach der Maximim-
Likelihood-Methode.
ii
e e
28
Logistische Regression -- Interpretation
Wettchance (Odds) und Wahrscheinlichkeit
Wahrscheinlichkeit als Funktion der Odds wird auf (0, 1) abgebildet
Odds als Funktion der Wahrscheinlichkeit wird auf (0, unendlich) abgebildet.
29
Logistische Regression -- Interpretation
0 1 10 1 1
1exp( )
- die Prädiktoren gehen in die Odds ein!
n nb b xb xn n
pb b x b x e e e
pmultiplikativ
001 2
0
0
10
- definiert die Wahrscheinlichkeit des Ereignisses für "neutrale" Werte
der Prädiktoren.
b
n
px x x e
p
p
0 1 2 2
1
1 1reflektiert das Gewicht
11
von für gegebene Werte der übrigen Prädiktoren
n nb b xb b xx
b
pe e e e
px
30
Logistische Regression – Odds, relatives Risiko, etc
Einige grundlegende Begriffe lassen sich anhand eines dichotomen Merkmals erläutern.
1 1 1 2
2 1 2 2
1 2
Die Quotienten
( | ) ( | ) und heißen Wettchancen (Odds)
( | ( | )
P B A P B A
P B A P B A
11 1 21 21 2
12 1 22 2
Die Odds lassen sich aus den Häufigkeiten der Tabelle errechnen:
und / /
/ /
n n n n
n n n n
31
Logistische Regression – Odds, relatives Risiko, etc
1 1 2 2
2 1 1 2
11 22
12 21
Das Verhältnis
( | ) ( | )
( | ) ( | )
heißt Kreuzproduktverhältnis
P B A P B A
P B A P B A
n n
n n 1
2
Der Quotient
( | )
( | )
heißt relatives Risiko.
, 1, 2j
j
P B AR
P B Aj
1 1
1 2
Das relative Risiko für einen Herzinfarkt ist
demnach
( | )
( | )
104 /11037.5501
189 /11034HI
P B AR
P B A 2 1
2 2
Das relative "Risiko",
Herzinfarkt zu bekommen ist dann
( | ) 10933 / 110271.0078
( | ) 10875 / 11034
Die Risiken sind nicht komplementär!
keinHI
keinen
P B AR
P B A
32
Logistische Regression – Odds, relatives Risiko, etc
1 11
2 1
Die Chance (Odds), einen Herzinfarkt zu bekommen, wenn man Aspirin nimmt, sind
( | ) 104 /11037.00951,
( | ) 10875 /11034
die Chance, einen Herzinfakrt zu bekommen, wenn man kein Aspirin
nimmt, sin
P B A
P B A
1 22
2 2
1 11 22
2 12 21
d
( | ) 189 /11034.01743
( | ) 10845 /11034
und das Kreuzproduktverhältnis ist
.00951.546
.01743
P B A
P B A
n n
n n
33
Logistische Regression – Schätzung der Parameter
0 1
0 1 0 1 0 1
1
Es sei 1, wenn Aspirin gegeben wird, 0, wenn Placebo verabreicht wird.HI = Herzinfarkt
exp( )1 1(HI ja| Aspirin) ( 1), (HI nein|Aspirin) 1
1 exp( ) 1 exp( ) 1 exp( )
(HI ja|
x x
b bP x P
b b b b b b
P
0 1 0 1 0 10 1
exp( ) / (1 exp( ))(1 exp( ))Aspirin)exp( )
(HI nein|Aspirin) 1
b b b b b bb b
P
2 0
(HI ja| Placebo)Analog: dazu exp( )
(HI nein|Placebo)
Pb
P
0 1
0 1 0 1
0
11
2
Kreuzprod'verhältnis: log .606b b
b b b bb
ee e b
e
110 1
12
log log .017n
bn
34
Logistische Regression – Zusammenfassung
2 1 1 1 2 2 1 2
1 1 1 1 1 2 2
1 21
1 1 2
Wettchancen (Odds)
Eine allgemeine Definition ist
( | ) 1 ( | ) ( | ) 1 ( | ) =
( | ( | ( | ) ( | )
= das interessierende Ereignis,
1:
= ,) )
und verschiedene Bedingu
P B A P B A P B A P B A
P B A P B A P B A P B A
B A
p
p
A
ngen.
1 1 2 1
1 2 2 2
1 2
Relatives Risiko:
( | ) ( | )
( | ) ( | ),
Vergleich der Wirkung verschiedener Bedingungen in Bezugauf jeweils ein (zufälliges) Ereignis.
P B A P B AR R
P B A P B A
!
2
Kreuzproduktverhältnis
liefert Parameterschätzung.
35
Logistische Regression – Infektionsrisiko
Infektionsrisiko bei Kaiserschnittgeburten
1 2 3 1 2 3
1, nicht geplant 1, RF 1, AB, , , ( , , )
0, geplant 0, kein RF 0, kein ABx x x x x x x
0 1 1 2 2 3 3
(Infektion| )Logit = log (Haupteffektmodell)
(keine Infektion| )
P xb b x b x b x
P x
36
Logistische Regression – Infektionsrisiko
0 3 31 1 2 2(Infektion| )
(keine Infektion| )b b xb x b xP xe e e e
P x
(Infektion| )Für spezielle Vektoren lassen sich Schätzungen der
(keine Infektion| )Parameter gewinnen:
ii
ii
P xx
P x
Ein nicht geplanter Kaiserschnitt erhöht die Chance einer Infektion um den Faktor exp(1.07) 2.92,
Ein vorhandener Risikofaktor erhöht die Chance einer Infektion um den Faktor exp(2.03) 7.6,
Ein Antibiotikum erniedrigt die Chance einer Infektion um den Faktor exp( 3.25) .039
37
Logistische Regression – Infektionsrisiko
(Infektion)kein Antibiotikum Chance = 1
(keine Infektion)
(Infektion)mit Antibiotikum Chance = .0388
(keine Infektion)
P
P
P
P
0 1 1 2 2 3 3 4 1 2
Modelle mit Wechselwirkungen:
(Infektion| )log
(keine Infektion| )
(Wechselwirkung 'Planung des Kaiserschnitts - Risikofaktor)
P xb b x b x b x b x x
P x
38
Logistische Regression – Infektionsrisiko
39
Poisson-Regression
Man hat eine Stichprobe von Fällen, davon haben das interessierende Merkmal, haben es nicht. Der Anteil der Fälle in der Population mit dem Merkmal sei ,
und die Fälle werden unabhängig voneina
n kn k p
nder erhoben.
Bernoulli-Versuche mit "Erfolgs"wahrscheinlichkeit :
( | , ) (1 ) , ( ) , ( ) (1 )k n k
n p
nP K k n p p p E K np Var K np p
k
1 2Generell gilt , {0,1}
Approximationen: (1) Grenzwertsatz von deMoivre-Laplace :für großen Wert von :
(0,1) (Standardnormalverteilung)(1 )
(2) Grenzwertsatz von Poi
n ik x x x x
nn np
z Nnp p
sson: n und eine Konstante:
( | ) , 0,1,2,3!
( ) , Var( )
k
np
P K k e kk
E K K
40
Poisson-Regression
Anmerkungen:
(1) muß nicht klein sein,(2) Man muß nicht von der Annahme ausgehen, dass unendlich groß ist. Man kann die Poisson-Verteilung einfach als eine eigene Verteilung definier
n
en, ohne auf die Herleitung als Approximation der Binomialverteilung auffassen.
heißt auch der "'Intensitätsparameter" der Verteilung.
Man kann zB die Häufigkeit bestimmter Ereignisse während eines Zeitintervallsder Dauer betrachten. Die Wahrscheinlichkeit von ist dann
(
t K k
P K
( )| , ) .
!
Wird das Ereignis (Unfall, Aktionspotential ("Feuern" eines Neurons), etc) unteridentischen Bedingungen betrachtet, hängt die beobachtete Anzahl von derDauer der Beobachtung bzw de
kt t
k t ek
s Zählvorgangs ab!
41
Poisson-Verteilungen (lb = lambda)
lb = 3
lb = 10
lb = 5
42
Poisson-Verteilungen - Beispiele
Generell: „Kleine“ Anzahlen
Poisson-verteilte Häufigkeiten zeigen „Cluster“ – das sind Anhäufungen von Ereignissen. Diese Anhäufungen resultieren aus der Zufälligkeit der Ereignisse und sind nicht notwendig Ausdruck irgendwelcher systematischer Tendenzen.
Systematische Tendenzen kann es ebenfalls geben – aber man muß prüfen, ob die Clusterings solche Tendenzen enthalten.
Beispiele: • Verletzungen von Kindern in einem Distrikt (http://www.ij-healthgeographics.com/content/7/1/51 )• Trauma-Forschung – domestic violence (Gagnon et al 2008)• Häufung von Galaxien (Saslaw, W. C. "Some Properties of a Statistical Distribution Function for Galaxy Clustering." Astrophys.
J. 341, 588-598, 1989. )• Häufigkeit epileptischer Anfälle in einer Gruppe von Patienten im Laufe eines Jahres• Häufigkeit von Arrythmien in 24-Stunden EEGs• Häufigkeiten von Infektionen in einer Stadt (existiert „infective agent“?)
43
Poisson-Regression
Der Wert von reflektiert bestimmte Randbedingungen, = Konstantebedeutet, dass die Randbedingungen konstant sind.
Die Randbedingungen können durch bestimmte unabhängige Variablencharakterisiert sei
n. Wie läßt sich der Einfluß der einzelnen Variablen abschätzen?
0 1 1Ansatz 1:
Es muß notwendig 0 gelten ( ) Verzerrung der
n n
i
b b x b x
np b
0 1 1
Ansatz 2: log-lineares Modell:
exp( )
Keine Einschränkung bezüglich der
n n
i
b b x b x
b
44
Poisson-Regression
0 1 1 1 1 2
Log-lineares Modell mit Wechselwirkungen
exp( )
_
n n nb b x b x b x x
Beispiel: (nach Frome 1983, Analysis of rates using Poisson Regression Models, Reanalyse der Daten von Doll Hill (1966): Lungenkrebs und Rauchen)
exp( ) exp( )exp( ) geschätzte Anzahljk j k j k
Lungenkrebstoter per
100 000 Mann-Jahre, Effekt der -ten Altersgruppe, Effekt -ter Effekt des Rauchensj kj k
Age Fit: exp( ), Smoking Effekt: exp( ) j k
45
Poisson-Regression
Alternatives Modell (Whittemore & Keller 1978):
( , ) ( )
Betrag des Karzinogens per Zeiteinheit (konstante Rate) Zeitpunkt, von dem an dem Karzinogen ausgesetzt (time from f
t d ad t
dt
irst exposure) Hintergrund (= Nichtraucher) Inzidenzrate. ( 1) Todesrate für
Lungenkrebs. ( , ) liefert Hazard-Rate, wie sie in der (noch zu behandelnden)Ereignisanalyse verwendet wird.
adt d
Das Modell ist an molekularbiologischen Prozessen bei derKrebsentstehung orientiert. Der Ansatz der Modellbildung ist auch für psychologische Prozesse interessant.
Inferenzstatistische Fragen werden in einer separaten Präsentationvorgestellt.