מבוא להסקה סטטיסטית

Post on 16-Nov-2014

85 views 1 download

Transcript of מבוא להסקה סטטיסטית

מבוא להסקה סטטיסטית

.סימונים כלליים

ערכים שונים, N שיכול לקבל Xסימון אינדקס– כאשר נתון משתנה מטרת האינדקס הוא לייצג ערך מסוים מסה"כ ערכים הנתונים.

הערכים .Nלכן מייצג איזשהו ערך מ-

סימון סכום– בסימן משתמשים כדי לציין את הסכום של כל

כך ש- j=N ו עדj=1 הערכים מ-

iX

1 2 3, , ,... NX X X X

1

N

jj

XjX

1 21

....N

j Nj

X X X X

התפלגות נורמלית

זה הממוצע ו- סטיית תקןµ כאשר הסימון המקובל:

הממוצע קובע את מרכז ההתפלגות וסטיית התקן את הפיזור סביב הממוצע. 34.13%בכל התפלגות נורמלית, בין הממוצע לס.תקן אחת נמצאים

מהמקרים. מהמקרים )תוספת של 47.72% סטיות תקן נמצאים 2בין הממוצע ל

13.59%.)(.2.15% מהמקרים )תוספת של 49.78% סטיות תקן נמצאים 3ובין הממוצע ל

2~ ,X N

95.44%

הסקה סטטיסטית

המטרה- להסיק בעזרת נתוני המדגם על האוכלוסיה. לאמוד פרמטרים של אוכלוסיה

לפי סטטיסטים של המדגם.- ערך המשתנה הנחקר המתאר את כל פרמטר

µהאוכלוסיה- - ערך המשתנה הנחקר המתאר את סטטיסטי

המדגם- הסקה כזו לעולם אינה וודאית אלא הסתברותית

ולכן תמיד קיים גם סיכוי מסויים לטעות

x

סטטיסטים של מדגם

קריטריונים לסטטיסטים

חוסר הטייה – אמדן שתוחלתו שווה לפרמטר 1.של האוכלוסיה.

יציבות- ככל שהמדגם גדול יותר כך הסיכוי 2.שנקבל ערך קרוב לפרמטר גדול

יעילות – סטטיסטי שהשונות שלו כמה שיותר 3.קטנה.

בדיקת השערות

בדיקת השערות על פרמטרים לא ידועים של האוכלוסייה לפי תוצאות שהתקבלו על סטטיסטים

במדגם.

– התפלגות תיאורטית. נוצרת על ידי התפלגות דגימה. ויצירת nחישוב סטטיסטים באינסוף מדגמים בגודל

התפלגות דגימה עבור הסטטיסטי.

. סטיית התקן היא µהממוצע של התפלגות הדגימה - n√/σ .

זו למעשה טעות התקן – הטעות האפשרית באמידה לפי µשל x

משפט הגבול המרכזי

לא משנה מה צורתה של ההתפלגות המקורית אם המדגמים שלקחתי הם . )זו בקרוב נורמלית(. התפלגות הדגימה תראה n≥30בגודל מספיק גדול )

למעשה התפלגות של ממוצעי המדגמים שלקחתי(אם ההתפלגות המקורית נורמלית, לא משנה מה גודל המדגם שאני לוקח -

התפלגות הדגימה של הממוצעים תמיד תהיה נורמלית.

בעולם המדע נשאל שאלות כן/לא כגון: "האם כדאי להמליץ על טיפול מסויים"?

– להוכיח ולהיות צודק.trure positiveאנחנו נשאף למשבצת של

להסתברות של ביצוע החלטה נכונה קוראים "עוצמה".

איך מחליטים?

לוקחים מדגם מהאוכלוסיה ועושים עליו מניפולציה.

השערות המחקר?

H1:הטיפול עובד : µ=A

H0:הטיפול לא עובד :µ≠A

לא כדאי להמליץ כדאי להמליץ האמת במציאות

החלטה

טעות

1מסוג

α

ממליצים החלטה נכונה

החלטה false) נכונהnegative)

טעות

2מסוג

β

לא ממליצים

למעשה אנחנו שואלים מה הסיכוי של פרט (. אם הסיכוי (H0להשתייך לאוכלוסיה המקורית

יהיה מאוד נמוך נוכל לטעון כי סביר להניח שהוא שייך לאוכלוסיה אחרת.

בדוגמא שלנו: מה הסיכוי שפרט שעבר את -הטיפול עדיין שייך לאוכלוסיית החולים?

אם הסיכוי נמוך מאוד אז ניתן להניח כי הטיפול עבד והפרט שייך לאוכלוסיית הבריאים.

?מה הקשר להתפלגות דגימה

אנחנו משווים את ממוצע המדגם שלנו עם הממוצע של התפלגות הדגימה התאורטית

)תזכורת – זו התפלגות הדגימה של כל הממוצעים האפשריים תחת השערה כלשהיא(.

אם המדגם שלי שונה מאוד ונמצא במקום קיצוני בהתפלגות. נניח שיש אפשרות שהוא

שייך לאוכלוסיה אחרת.

ציוני תקן

בסדרה הסטטיסטית אליה היא שייכת. Xציון תקן מתאר מיקום יחסי של תצפית מרוחקת מהממוצע. Xציון תקן אומר לנו בכמה סטיות תקן תצפית

סטיית תקן – היא יחידת מרחק המשקפת את המרחק הממוצע מהממוצע של כל התצפיות.

מוגדר להיות:Zציון תקן

ציוני התקן הם מספרים טהורים ללא יחידות לכן בעזרתם ניתן גם להשוות מיקום יחסי של תצפיות מסדרות סטטיסטיות השונות ביחידות של המשתנה הנחקר.

0אם נמיר את כל הערכים בהתפלגות מסוימת נקבל התפלגות שבה הממוצע = . ההמרה לציוני תקן שומרת על היחסים בין ציוני הנבדקים.1וסטיית התקן =

נוכל להמיר את ציוני התקן לאחוזונים: על ידי חישוב עבור בהתפלגות נורמלית את השטח המתאים מתחת להתפלגות הנורמלית. – התפלגות זו Zכל ערך

נקראת התפלגות נורמלית סטנדרטית

x

x xZ

S

.

α ו- β

α -ו β לטעות. הן הסתברויות

β היא ההסתברות לקבל השייך לאזור קבלת – H0 בהתפלגות לפי ההשערה H1 .

α היא ההסתברות לקבל השייך לאזור קבלת – H1 בהתפלגות לפי ההשערה H0 .

α.)נקבעת א-פריורית על ידי החוקר ובהתאם לסוג ההשערה )ח"צ/ דו"צ –

. ככל שהאחת גדלה השנייה קטנה. )הגדלת איזור β ו- αקיים יחס הפוך בין - מצמצמת את אזור הקבלה(.H0הדחייה של

קטנה. )הקטנת טעות התקן – הקטנת הפיזור(.βככל שהמדגם גדל -

xx

רווח בר סמךconfidence interval- C.I

מעבר מאומדן נקודתי לטווח. – למעשה זהו קטע המחושב בעזרת נתוני המדגם

α )רב"ס – תמיד דו צדדי )ולכן, תמיד נחלק את לשניים((.

על סמך האומדן הנקודתי ומאפייני התפלגות הדגימה

, אומדן כטווח)תכונת הנורמאליות שלה(, מחשבים

שניתן יהיה להגיד שממוצע האוכלוסייה נמצא בתוכו

בהסתברות גבוהה.

".רווח בר-סמךטווח זה נקרא "

xZx

)2

α(1

אומדנים - המשך

מממוצעי התפלגות הדגימה נמצאים בטווח של95%כידוע לנו, • )איך אנחנו יודעים זאת?(

מן הממוצעים שניתן לדגום, ממוצע האוכלוסיה 95%כלומר, שלגבי נמצא במרחק של לא יותר מ-

xx 96.1

x

xx 96.1

xx 96.1

x96.1

בניית רווח בר-סמך

על כן, אם נשתמש בממוצע המדגם כאומד •נקודתי של ממוצע האוכלוסיה, נוכל לומר

שממוצע האוכלוסיה נמצא 95%בהסתברות של בטווח שבין:

לבין .

.95% של רמת סמךזהו רווח בר-סמך ב•

xx 96.1

x

x

xx 96.1

x

המשךבניית רווח בר-סמך -

:1דוגמא

חוקר רוצה לאמוד את ממוצע מספר הילדים

1509במשפחה בישראל. לשם כך הוא בדק מדגם של

.1.9נשאלים ומצא שמספר הילדים הממוצע הוא

. 1ידוע שסטיית תקן באוכלוסייה היא

.95%בנו רווח בר סמך ברמת סמך של

σ =1נתון:

X=1.9

נחשב ונציב לפי הנוסחא: σx = σ/√n = 1/√1509 = 0.03

1-α/2 = 1-0.025 = 0.975

Z = 1.96נתון:

1.9 ± 1.96 * 0.03( = 1.84 , 1.96 )

xZx

)2

α(1

( נחשב את 1σx::Z( נחשב את 2

( נחשב הרווח 3 בר-סמך: