עיבוד נתונים, אמידה וחיזוי תכנית מ.א. בלוגיסטיקה גדעון ויס 1
נתונים מדגם של 12 גברים מאוכלוסית ישראל, מודל ורוחי סמך נמדד הגובה: 175, 181,177, 174,161, 166,168, 175,177, 178, 167, 171 ממוצע המדגם: סטית תקן של המדגם: חישוב: הנחה: יש התפלגות של גבהים באוכלוסיה, שיש לנו "מיצגים" את האוכלוסיה והמדגם שלנו הוא מדגם מקרי מתוכה, לכן הנתונים σ פרמטרים של האוכלוסיה: μ ממוצע וסטית תקן X s 2 < µ < X + 2 n s n אמדים לממוצע ולסטית התקן: ברמת סמך של 95%: 2 2 s 1 < σ < s 1+ n n אלה מקורבים: n נכונים עבור גדול ואוכלוסיה פחות או יותר נורמלית 2
מודל ורוחי סמך 153, 198, 147, 104, 131, 159, 160, 124 נתונים נתוני מכירות מ 8 רבעונים אחרונים? חישוב: שאלה: ממוצע המדגם: סטית תקן של המדגם: האם זה מדגם מקרי מאוכלוסיה שאלה: האם סביר לאמר שמכירות ברבע הבא הם מאותה אוכלוסיה כמו הנתונים? זה אינו מדגם מקרי, לא מוצדק לבנות כאן רווחי סמך 3
דוגמא למודל רגרסיה כלכלי חוק Okun הוא מודל מקרואקונומי הקושר תעסוקה עם תוצר לאומי 4
רוחי סמך ברגרסיה מודל הרגרסיה אומר ש Y הוא פונקציה לינארית של X עם שגיאה אקראית. הנתונים נותנים לנו מדגם מקרי של השגיאות. הפרמטרים של האוכלוסיה הם: הקבוע, מקדם הרגרסיה, וסטית התקן של השגיאות. יש לנו אמדים עבורם רוחי סמך לאמדים הם לא פשוטים: 5
רוחי סמך ברגרסיה מודל הרגרסיה אומר ש Y הוא פונקציה לינארית של X עם שגיאה אקראית. הנתונים נותנים לנו מדגם מקרי של השגיאות. הפרמטרים של האוכלוסיה הם: הקבוע, מקדם הרגרסיה, וסטית התקן של השגיאות. יש לנו אמדים עבורם. ניתן להציג את רווחי הסמך עבור הקו בציור: Okun s Law 6
רגרסיה - רוח סמך ורווח חיזוי מודל הרגרסיה אומר ש Y הוא פונקציה לינארי של X מהמדגם מחשבים אמד לקו, ורוחי סמך עבור הקו. עם שגיאה אקראית.. Y בהינתן X יש לנו תחום שבו נמצא הממוצע של ברמת סמך 95% תחזית לפי X תהיה הממוצע פלוס שגיאה אקראית. לכן רווח החיזוי שונה מרווח הסמך לממוצע של Y. רווח החיזוי הוא בקירוב: ). 2, 2 7
רגרסיה פלט של מיניטב Quarter Advertisement Sales 1 15.0 153 2 17.5 198 3 12.0 147 4 8.5 104 5 9.5 131 6 12.5 159 7 14.5 160 8 11.0 124 Regression Analysis: Sales versus Advertisement The regression equation is Sales = 36.7 + 8.78 Advertisement Predictor Coef SE Coef T P Constant 36.74 18.20 2.02 0.090 Advertisement 8.777 1.414 6.21 0.001 S = 11.1960 R-Sq = 86.5% R-Sq(adj) = 84.3% 8
נותן מיניטב רגרסיה פלט של מיניטב (כשמבקשים) רשימה של התצפיות עם ערכים מותאמים ושאריות Obs Advrt Sales Fit SE Fit Residual St Resid 1 15.0 153.00 168.39 5.25-15.39-1.56 2 17.5 198.00 190.34 8.02 7.66 0.98 3 12.0 147.00 142.06 4.04 4.94 0.47 4 8.5 104.00 111.34 6.98-7.34-0.84 5 9.5 131.00 120.12 5.87 10.88 1.14 6 12.5 159.00 146.45 3.96 12.55 1.20 7 14.5 160.00 164.01 4.81-4.01-0.40 8 11.0 124.00 133.29 4.53-9.29-0.91 9
רגרסיה - רוח סמך ורווח חיזוי כמו כן ניתן לבקש תחזיות לערכים חדשים: New Obs Val Fit SE Fit 95% CI 95% PI 1 8 106.95 7.57 ( 88.44, 125.47) ( 73.89, 140.02) 2 9 115.73 6.41 (100.06, 131.41) ( 84.17, 147.29) 3 10 124.51 5.37 (111.38, 137.64) ( 94.13, 154.89) 4 11 133.29 4.53 (122.19, 144.38) (103.73, 162.84) 5 12 142.06 4.04 (132.18, 151.94) (112.94, 171.19) 6 13 150.84 4.01 (141.04, 160.64) (121.74, 179.94) 7 14 159.62 4.45 (148.73, 170.51) (130.14, 189.10) 8 15 168.39 5.25 (155.55, 181.24) (138.14, 198.65) 9 16 177.17 6.27 (161.84, 192.51) (145.78, 208.57) 10 17 185.95 7.42 (167.80, 204.10) (153.09, 218.81) 11 18 194.73 8.65 (173.57, 215.88) (160.11, 229.34) 12 19 203.50 9.92 (179.22, 227.79) (166.89, 240.11)X 13 20 212.28 11.24 (184.79, 239.77) (173.47, 251.09)X 10
דוגמא משקל וגובה של ידוענים באינטרנט ניתן למצוא דברים משונים ביותר: 11
דוגמא משקל וגובה של ידוענים הנה דיאגרמת פיזור שלהם, עם קו רגרסיה 12
א( א( ג( דוגמא משקל וגובה של ידוענים מנתונים של 46 אבל, ידוענים, רגרסיה של משקל לפי גובה: ( משקל = 79 0.8 - גובה יש כאן גברים ונשים: ב( ( משקל כאשר מסתכלים רק על נשים: מה לבחור? 29 33= לאשה + 0.3 ( משקל (נשים) = 13 0.24 + גובה גובה ( (ב) (ג) 13
דוגמא משקל וגובה של ידוענים ןלאחר הפרדה לפי מיגדר 14
הסיגנל והרעש רעידות אדמה רעידות אדמה הן קשות מאד לחיזוי, אבל ביטוח רעידות אדמה קל לעשות נסביר את ההבדל בין חיזוי והתנבאות, נכיר את סולם ריכטר נלמד מה קרה ביפן 15
רעידות אדמה הנביאים סיפור המעשה: "במשך שבוע ימים באפריל 2009 חוו תושבי ד'אקילה במרכז איטליה שורה של כ 8 רעידות אדמה בעוצמה מעל 3 והעצבנות היתה רבה. לא רחוק משם, בסולמונה, ימים ספורים קודם, טכנאי בשם ג'יאמפאולו ג'וליאני במכון מחקר לפיסיקה טען שגילה רמה גבוהה של רדון באותה תקופה וניבא רעידת אדמה בסולמונה ב 29 במרץ. הנבואה הזו לא התקיימה. לעומת זאת, ב 3:32 בליל ה 6 באפריל פגעה רעידת אדמה בעוצמה 5.9 באקילה והרסה את העיר. 297 נהרגו, 60,000 נותרו ללא קורת גג, הנזק נאמד בביליונים. למרות אי הדיוק הקטלני של נבואתו, ג'יאמפאולו ג'וליאני זכה לפרסום רב ודיונים רבים בשיטות הניבוי שלו בעתונים עד שהנושא נשכח" לעולם לא היה ניבוי מדויק של רעידת אדמה קטלנית שאיפשר לאנשים להיות מוכנים ברגע הארוע. תמיד היו נביאים של "אמרנו לכם" אבל כולם נכשלו בכל הנבואות הבאות שלהם! 16
רעידות אדמה ההיסטוריה רעידות אדמה גורמות להרוגים רבים, ולנזקים רבים. בהיסטוריה ארכיאולוגים חשפו ערים רבות שחרבו וננטשו בגלל רעידות אדמה. יוסף בן מתתיהו מדוח על רעידת אדמה חזקה בשנת 7 למלכות הורדוס (31 (BC בית שאן נהרסה כליל ב 363 לספירה ושוב ב 749 ומאז ננטשה. ב 1033 נחרבה רמלה והשילטון העבאסי עבר אז לדמשק, גם יפו ועכו נהרסו ו 25,000 בני אדם נהרגו. במפה: רעידות אדמה 1900-1999 17
רעידות אדמה ההיסטוריה בעולם, רעידת אדמה ב 1785 באוקינוס ליד פורטוגל הרסה את ליסבון ושינתה את ההיסטוריה הפורטוגזית. אנטיגואה, בירת גואטמלה ההיסטורית נחרבה ב 1541 (הר געש) ועברה למקום אחר, ונחרבה שוב ב 1717, וב 1773 והבירה הועברה ממנה נותר אתר תיירות נפלא! 18
רעידות אדמה מה עושים? למרות שלא ניתן לנבא רעידת אדמה, ניתן להעריך את הסיכון של רעידת אדמה בכל מקום על כדור הארץ. לכן ניתן באזורים מסוכנים לבנות בצורה טובה, ולבטח בהתאם. 19
רעידות אדמה מה עושים? מפה סייסמית של העולם מיפוי השברים העיקריים 20 לוגיסטיקה, חיזוי, גדעון ויס
רעידות אדמה מה עושים? שכיחות צפויה של רעידות אדמה מעל 6.75 ברדיוס של 50 מיל, לערים מרכזיות בארה"ב 21
הסטטיסטיקה סולם ריכטר ב Caltech קליפורניה, 1944, מחקר של צ'רלס ריכטר ובנו גוטנברג נתן בסיס לחיזוי רעידות אדמה. כמובן רעידות בעוצמה רבה, 8-9 הן נדירות מאד ולא ניתן לעשות סטטיסטיקה מהן. אבל רעידות חלשות, בעוצמה שרק סייסמוגרף יכול לגלות יש המון: ממוצע 1,300,000 רעידות אדמה בעוצמה 2.0-2.9 בכל שנה הניתוח של נתונים אלה, שנאספים ונרשמים באופן שוטף בכל העולם (בפרט ב (USGS גילה תוצאות מדהימות 22
הסטטיסטיקה סולם ריכטר הסתכלות ראשונית בשכיחות רעידות אדמה כפונקציה של עוצמתן. סולם העוצמות של ריכטר הוא בסקלה לוגריתמית: 6.0 חזק פי 10 מ 5.0: 23
הסטטיסטיקה סולם ריכטר רישום של השכיחויות בסקלה לוגריתמית נתן את התמונה הבאה: מסטטיסטיקה מדויקת על שכיחות רעידות אדמה חלשות ניתן לחזות בקו ישר שכיחות של רעידות אדמה חזקות. התנהגות באזורים שונים בעולם היא דומה! 24
הסיגנל והרעש Fitting Over הנה אוכלוסיה מסיגנל בצורת פרבולה בצירוף עם רעש אקראי (נוצר על ידי סימולציה): 25
הנה מדגם מאותה אוכלוסיה הסיגנל והרעש Fitting Over 26
הסיגנל והרעש Fitting Over הנה אמידה טובה של הסיגנל, בטכניקות סטטיסטיות שמשתמשות במדגם 27
הסיגנל והרעש Fitting Over זה Overfitting הנה קו ש"מתאים יותר" למדגם. בקו הזה עשינו התאמה לרעש, ואיבדנו את הסיגנל 28
השערוריה היפנית יפן מועדת לפורענויות של רעידות אדמה. לכן קודים לבניה מקפידים על בניה חסינה מפני רעידות אדמה. בבניה של הכור בפוקושימה הוא תוכנן לעמוד בפני רעידות אדמה עד לעוצמה של. 8.6 הרעידה ב 2011 היתה בעוצמה של 9.1 ויצרה צונאמי בגובה 40 מטר שפגע במערכת הקירור של הכור וגרם לאסון גרעיני חמור. כמובן אי אפשר היה לחזות רעידת אדמה של 9.1. לא ניתן אפילו לאמר אם תהיה כזאת ב 10 השנים הבאות. התכנון של המבנה לרעידות עד 8.6 היה לכאורה מבוסס על אומדן: ארוע בעוצמה 9.0 קורה רק אחת ל 13,000 שנים. אך כאן טמונה השערוריה. 29
השערוריה היפנית השכיחיות של רעידות אדמה באיזור של הכור הגרעיני בפוקושימה: 30
השערוריה היפנית 9.5 אחת ל 1000 שנה 9.0 התאמה לפי סולם ריכטר: 8.6 אחת ל 100 שנים, אחת ל 500 שנה, 31
Overfitting שבירה של הקו בעוצמה השערוריה היפנית 8.6 7.0 יש לזכור: לחלק הימני של הקו יש מעט מאוד נתונים אחת ל 1000 שנה, 9.0 אחת ל 13000 שנה 32
מוסר השכל סטטיסטי לפעמים כדאי לעשות טרנספורמציות של הנתונים לפעמיםנחץ להוסיף משתנים מסבירים יש להיזהר מ Overfitting למשך לסקל לוגריתמית (1) (2) (3) 33
רגרסיה מרובה רוצים לחזות את Y ויש לנו מספר גורמים משפיעים הנתונים: מספר משתנים בלתי תלויים. Y X X L X 1 11 21 m1 Y X X L X 2 12 22 m2 M M M M M M Y X X L X n 1n 2n mn Y = b X + b X + Lb X + ε 1 1 2 2 m m המודל: Y = bx + ε כתיבה בוקטורים ומטריצות: המודל והנתונים: ˆ 1 = ( ' ) ' b X X X Y אמד ריבועים פחותים 34
טרנספורמציות ומשתנים נוספים כאשר השאריות נראות כדאי לנסות טרנספורמצית log-log כאשר השאריות נראות כדאי להוסיף את X 2 כאשר יש חלוקה לשתי קבוצות ניתן להוסיף משתנה dummy של 0 או 1 35
כמה משתנים בלתי תלויים לקחת? זו שאלת השאלות, יש הרבה תיאוריה, אבל שכל ישר עוזר יותר. נסתכל בשתי דוגמאות: 1. חיזוי של מחיר רכב לפי נתונים עליו 2. חיזוי של מידת שביעות רצון מהחיים ושל הכנסה לפי נתונים מתקופת הלימודים 36