Zufallsstichproben - user.demogr.mpg.deuser.demogr.mpg.de/doblhammer/zufall.pdf ·...
Transcript of Zufallsstichproben - user.demogr.mpg.deuser.demogr.mpg.de/doblhammer/zufall.pdf ·...
Zufallsstichproben
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/21
•Zufallsstichprobe•Varianz der Grundgesamtheit •Streuung des Mittelwertes•Stichprobengröße•Konfidenzintervall•Ziehen einer einfachen Zufallsstichprobe•Geschichtete Zufallsstichproben•Klumpenstichprobe•Mehrstufige Auswahlverfahren•PPS Design, Zufallsweg & Schwedenschlüssel
Schnell, R. Hill, P. B. Esser, E. 1999, Methoden der empirischen Sozialforschung. München: Oldenbourg. Diekmann, A. 2002, Empirische Sozialforschung. Reinbek: Rowohlt.
Auswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
Schnell, Hill, Esser 1999, S.252
Zufallsstichprobe(random samples)
•Wahrscheinlichkeit gegeben•inferenzstatistische Techniken
Zufalls-stichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/21
Schnell, Hill, Esser 1999, S.252
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/21
Ein Zufallsprozeß entscheidet über die Aufnahme eines Elementes in die Stichprobe.
Für jedes Element der Grundgesamtheit ist die Auswahlwahrscheinlichkeit angebbar (muß größer als Null sein)
Grundgesamtheit: N ElementenStichprobe: n Elementen (n<N)
Falls jede mögliche Stichprobe n dieselbe Chance der Realisierung hat :
einfache Zufallsstichprobe(simple random sample)
EPSEM: equal probability sampling method
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/21
Es gibt nur begrenzt viele Möglichkeiten aus einer Grundgesamtheit von N Elementen unterschiedliche Stichproben mit n Elementen zu ziehen
KombinatorikUrnenauswahl ohne zurücklegen und ohne Beachtung der Reihenfolge
Beispiel
Grundgesamtheit N=4A,B,C,D
Stichprobe, n=2AB, AC,AD, BC,BD,CD
4!/(2!*(4-2)!)=4*3*2*1/(2*1)*(2*1)=12/2=6
N
n N n
!
!( )!−
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/21
Parameter:z.B. Mittelwert x
Schätzer des Parametersz.B. Schätzer des Mittelwertes mit Fehler behaftet
Bei einer genügend großen Anzahl unabhängiger Stichproben der Größe n, entspricht der Mittelwert von dem Mittelwert x
xi
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/21
Varianz in der Grundgesamtheitselten bekanntwird geschätzt durch
Standardfehler desMittelwertes
Die Streuung von um x hängt von1. Varianz in der Grundgesamtheit2. Stichprobengröße nab
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/21
Mittelwertverteilung für unterschiedlichesσ2 und x
Bortz 1999, S.90
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/21
Mittelwertverteilung für unterschiedlichesσ2 und x
Bortz 1999, S.90
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/21
•Die Größe des Konfidenzintervalls hängt von der Größe des Standardfehlers des Mittelwertes ab
•Die Größe des Standardfehlers des Mittelwertes hängt von der Varianz der Grundgesamtheit und der Stichprobengröße ab
•Der Standardfehler sinkt mit der Wurzel aus der Stichprobengröße
Standardfehler desMittelwertes
95% Konfidenzintervall
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/21
Konfidenzintervall
95% Konfidenzintervall: bei einer unendlichen Anzahl von Stichproben der Größe n aus der Grundgesamtheit enthalten 95% der Intervalle den tatsächlichen Mittelwert aus der Grundgesamtheit
Schnell Hill Esser 1999, S. 258
Zufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/21
z.B. Um Fehler zu halbieren ->Stichproben-größe n muss vervierfacht werden
Streuen die interessierenden Merkmal stark ín derGrundgesamtheit ( -> groß) -> Stichproben-größe muß erhöht werden
Größe der Grundgesamtheit spielt fast keine Rolle
Standardfehler desMittelwertes
Konfidenzintervall
Ziehen einerZufallsstichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/21
Ziehen einer einfachen Zufallsstichprobe:
A) Kleine Grundgesamtheit: Urnenauswahl (Lotterieauswahl)
B) Große GrundgesamtheitVollständige Auflistung aller Elemente in einer Grundgesamtheit (Karteiauswahl)
2. Jedes Element hat eine Identifikationsnummer
3. Zufallszahlengenerator für gleichverteilte Häufigkeiten
Problematisch: systematische Verfahren derAuswahl aus einer Liste (Diekmann 1998. S 331) EPSEM
GeschichteteZufallsstichproben
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/21
Grundgesamtheit (GG) wird in Schichten (strata) eingeteilt. Jedes Element der GG gehört nur zu einer Schicht. Aus jeder Schicht wird eine einfache Zufallsstichprobe gezogen.
Proportional geschichtete Stichprobe: Anteil in denSchichten entspricht Anteil in GG
Disproportional geschichtete Stichprobe: Anteil inden Schichten weicht vom Anteil in der GG ab -> Gewichtung mit reziprokem Wert der Auswahlwahrscheinlichkeit
GeschichteteZufallsstichproben
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/21
Vorteile:1. Kann genauer sein2. Kann kostengünstiger sein3. Für jede Schicht unabhängige Schätzung4. Garantierte Mindestanzahl vonBeobachtungen in kleinen Gruppen
Nachteil:1) man benötigt Kenntnisse über Parameter in
GG2) Schichteinteilung oft nur für ein Merkmal
optimal
Nicht EPSEM
Zufallsstichproben
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/21
•Ziehen einer einfachen Zufallsstichprobe•Geschichtete Zufallsstichproben•Klumpenstichprobe•Mehrstufige Auswahlverfahren•PPS Design, Zufallsweg & Schwedenschlüssel•ADM Design•Design Mikrozensus•Fehlerquellen•Non-Response•Ausschöpfungsquote•Gewichtung•Repräsentativität
Schnell, R. Hill, P. B. Esser, E. 1999, Methoden der empirischen Sozialforschung. München: Oldenbourg. Diekmann, A. 2002, Empirische Sozialforschung. Reinbek: Rowohlt.
KlumpenstichprobeCluster sample
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/20
Einfache Zufallsstichprobe, in der sichAuswahlregeln nicht auf einzelne Elementesonder auf Gruppen von Elementen beziehen
z.B. Haushalte, Schulklassen,Lehrveranstaltungen,Herstellungsunternehmen
Vorteil
1) wenn es nur eine Liste der zusammengefasstenElemente gibt
2) wenn Kosten der Erhebung mit der Entfernungder Elemente steigen
KlumpenstichprobeCluster sample
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/20
Nachteile
Klumpeneffekt (Clustereffekt): Elementeinnerhalb eines Clusters sind sich ähnlicherals in einer Zufallsstichprobe
führt zu Genauigkeitsverlust im Vergleich zueiner einfachen Zufallsstichprobe
Genauigkeitsverlust ist umso größer, je• homogener die Cluster sind• größer die Cluster sind
Eine große Anzahl kleiner Cluster erbringtgenauere Schätzungen als eine kleine Anzahlgroßer Cluster
Klumpenstichproben werden zumeist mit anderenAuswahlverfahren kombiniert
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/20
1) GG wir in Gruppen von Elementen eingeteilt:
Primäreinheiten: primary sampling units (PSU)Auswahlgrundlage der ersten Stufe
2) Zufallsstichprobe der Sekundäreinheitenetc.
Geschichtete Stichprobe und Klumpenstich-probe sind Sonderformen eines mehrtsufigen Auswahlverfahrens
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/20
•Klumpenstichprobe: 1)Zufallsauswahl der Primaereinheiten2)Alle Elemente eines Clusters werden erhoben3)Schaetzung ungenauer je homogener die Cluster
4)Praezisionsverlust
•zweistufige Auswahl: 1)Alle Primaereinheiten werden erhoben2)Zufallsauswahl von Elementen im Cluster3)Schaetzung genauer je homogener diePrimaereinheiten4)Praezisionsgewinn
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/20
Beispiel:
Primäreinheiten: Stimmbezirke, Kreise (Flächenstichproben)Zufallsauswahl einiger Flächen
2) Sekundäreinheiten: Haushalte in den ausgewählten Primäreinheiten
2a) Erhebung aller Personen in den Haushalten:cluster sample
2b) Zufallsauswahl von Personen in den HaushaltenTertiäreinheiten Kein EPSEM
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/20
PPS Designs(probability proportional to size)
Primäreinheiten: Stimmbezirke, Kreise (Flächenstichproben): beinhalten oft eine unter-schiedliche Anzahl von Elementen
Zufallsauswahl muss gewährleisten, dass alle Elemente in GG die selbe Auswahlwahr-scheinlichkeit haben:
1) Auswahlwahrscheinlichkeiten müssen proportionalzur Größe der Primäreinheit sein
2) Die selbe Anzahl von Sekundäreinheiten in jederPrimäreinheit ziehen
EPSEM
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/20
Zufallsweg(random walk or random route)
Bei Flächenstichprobe statt vollständige Auflistungaller Sekundäreinheiten (z.B. Haushalte)
1.zufällig gezogene Startadresse2. Begehungsanweisung3. Einfache Zufallsauswahl aus ermitteltenAdressen
Adressenerhebung und Ermittlung sind getrennt
MehrstufigeAuswahlverfahren
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/20
Letzte Erhebungsstufe nicht Haushalte sondernPersonen
Schwedenschlüssel
Schnell, Hill, Esser 1999, S268
Zufallsstichproben in derPraxis
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/20
Grundgesamtheit: “die deutsche Bevoelkerung”
Schwer zu realisieren: Gemeindestichproben aufder Basis von Melderegister
befolgen der MeldepflichtKooperation der einzelnen Gemeinden
Typisches Design: ADM-Design(ADM..Arbeitsgemeinschaft deutscher Marktforschungsinstitute)
FuerWahlumfragenKommerzielle Marktforschung & MeinungsforschungSozialwissenschaftliche Umfragen
Kein EPSEM
Zufallsstichproben in derPraxis
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/20
ADM Design (Diekmann 1999 S.356)
Grundgesamtheit: alle Privathaushalte in DeutschlandUnd die darin wohnenden Personen am Ort der Haupt-Wohnung
• Stufe: PPS • Stimmbezirke mit einer Wahrscheinlichkeit
proportional zur Groesse ausgewaehlt• Kleinere Stimmbezirke werden zusammengefasst
(>400 Wahlberechtigte)sampling points
• Stufe: Random Route Methode : Zufallsstichprobevon Adressen ermittelt. In jedem sampling point gleiche Anzahl von Haushalten ->EPSEM
• Mit Schwedenschluessel Auswahl einzelner Per-sonen im Haushalt: mit HH-Groesse gewichten
Zufallsstichproben in derPraxis
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/20
Mikrozensus (Schnell, Hill, Esser 1999, S. 275)
Von statistischen Aemtern des Bundes & der Laenderdurchgefuehrt Haushaltsstichprobe; in 1% der Haus-Halte (327 000 HH mit 730 000 Personen)
• Auswahlplan beruht auf Gebaeuden bzw. Gebaeudeteile (Information aus VZ 1987, Einwoh-nerregister der DDR, Fortschreibung der Bautaetig-keitsstatistik
1. StufeAlle Gebaude wurden entspechend der Anzahl derWohnungen in 3 Schichten eingeteilt (1-4;5-10;10>);4. Schicht: Gemeinschaftsunterkuenfte2. Stufe Innerhalb jeder Schicht bilden eine bestimmte Anzahl von Wohnungen einen Auswahlbezirk
Zufallsstichproben in derPraxis
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/20
Mikrozensus (Schnell, Hill, Esser 1999, S. 275)
3. StufeAuswahlbezirk sortiert nach Region, Kreis, Gemeindegroessenklasse, Gemeinde, Auswahlbezirksnummer :20 unabhaengige 1% Zufallsstichprobe der Auswahlbezirke gezogen
Mehrfach geschichtete Flaechenstichprobe mit Auwahlbezirken als Primaereinheit
Fehlerquellen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/20
• Zufallsfehler der Stichprobe (sampling variability)• Bsp. Streuung des Mittelwertes
• Systematische Fehler durch Auswahlverfahren• Bsp Elemente der Bevoelkerung gehen mit groesserer oder geringerer Wahrscheinlichkeit indie Stichprobe mit ein
->falls bekannt: Gewichtung->meistens nicht bekannt: Redressment
• Verzerrungen, die nicht durch das Auswahlver-fahren produziert werden (nonsampling bias)
MessfehlerFehlerquellen im InterviewOver/UndercoverageNon-Response
FehlerquellenNon-Response
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/20
• Non-Response• Nichterreichbarket Unit-Nonresponse
• Verweigerung Unit-NonresponseItem-Nonresponse
Unit-Nonresponse AusschoepfungsquoteAusfallursachen:Nicht aufgefundene AdressenPersonen, die nicht zur GG gehoerenInterviewerausfaelleNichterreichbarkeitKrankheitVerweigerungAbbruch des InterviewsInterviewertaeschungInterviewerfehlerDatenerfassungs-, aufbereitungsfehler
FehlerquellenNon-Response
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/20
AusschoepfungsquoteBruttoausgangsstichprobe
minusstichprobenneutrale Ausfaelle(Ausfaelle durch Fehler in Adressliste z.B.keine Privathaushalte, Adresse existiertnicht)
ergibtbereinigte Stichprobe
minusUnit-nonresponsetatsaechliche Stichprobe
Ausschoepfungsquote: tatsaechliche Stichprobe/ bereinigte StichprobeNonresponsequote: 1-Ausschoepfungsquoteca. bei 25-30%
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/20
Schnell, Hill, Esser 1999, S. 288
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/20
Schnell, Hill, Esser 1999, S. 289
Erhöhung derAusschöpfungsrate
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/20
Nichterreichbarkeit: •mehrere Kontaktversuche, •schriftliche und telefonische Kontakte
Verweigerung: •wiederholte Befragungsversuchedurch speziell geschulte Interviewer,•Bezahlung•Erwecken von Interesse an Befragungsthema
Gewichtung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 19/20
1. Theoretisch-statistische Gewichtung auf Grund des Stichprobenplanes (z.B. Schwedenschlüssel oder disproportionale Stichprobe)
2. Nachgewichtung (Redressment)
3. Gewichtung auf Grund einer empirischen Hypothese (Wahlforschung - Recallfrage)
2 und 3 sollen in wissenschaftlichen Untersuchungen nicht verwendet werden
Repräsentative Stichprobe
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 20/20
Nicht ausreichend: Repräsentanznachweisbestimmte Merkmale kommen in der Stichprobe mit der selben Häufigkeit vor wie in der GG
zur Beurteilung der Güte einer Stichprobe benötigtman:1. genaue Angaben zur GG2. Beschreibung der Auswahlgesamtheit2. Ziehungsprozeß3. Ausfälle4. Ausschöpfungsquote5. verwendeten Instrumente