9:,38 ד"ר יואב קרנר מודלים של רגרסיה ליניארית 364--6 8 סמסטר: א' מועד: א' משך המבחן 3 שעות, יש לענות על כל השאלות מחשבון תאריך הבחינה: שם המרצה: שם הקורס: מספר הקורס: שנה: משך הבחינה: חומר עזר: שאלה )45 נקודות( מנהל במסעדה, המקבל תלונות על זמני המתנה ארוכים, מעוניין לבדוק את הקשר בין זמני ההמתנה בפועל ובין זמני ההמתנה הסובייקטיביים שאותם חשים הצרכנים שחיכו לשם כך דגם המנהל 3 צרכנים שהמתינו בתור, מדד את הזמן שהמתינו בפועל וכן שאל כל צרכן כמה זמן המתין המנהל התאים לנתונים מודל רגרסיה פשוטה: א ב ג ד ה ו ז ח ב"ת N, כאשר 3 3 3 תמצית הנתונים שנאספו: 55, 533, 5 )4 נק'( הסבר במשפט אחד מדוע המודל המתאים הוא מודל ללא חותך )4 נק'( הסבר במשפט אחד מדוע הזמן שהצרכנים המתינו בפועל הוא המשתנה המסביר והזמן הסובייקטיבי שאותו חשו הצרכנים הוא המשתנה המוסבר וכן ששונותו היא H מה תוכל 3 3 )7 נק'( הראה כי אומד הריבועים הפחותים ל- הוא SSE 3 3 3 )5 נק'( הראה כי: 6( נק'( בדוק, ברמת מובהקות,5% את ההשערות, H להגיד על ה-?p-value H הייתה )4 נק'( האם מסקנתך לגבי דחיית השערת האפס בסעיף הקודם הייתה שונה לו דו צדדית? ענה ללא חישובים נוספים )8 נק'( מוצע אומד אחר ל- : הראה כי חסר הטיה, חשב את שונותו, האם היא גדולה מזו של? הוכח תשובתך ללא תלות בנתונים )7 נק'( חשב את COV, e עבור כלשהו ללא תלות בנתונים
שאלה )9 נקודות( במודל רגרסיה מרובה עם שלושה משתנים מסבירים וחותך, אחד המשתנים הוא משתנה קטגוריאלי עם שתי רמות נלקחו 5 דגימות ובוצעה רגרסיה לינארית תוצאות הניתוח מוצגת בטבלה הבא: > FM <- l( ~ + + D + *D + *D, data=q) > suary(fm) Call: l(forula = ~ + + D + * D + * D, data = Q) Resduals: M Q Meda 3Q Max -3477-8797 -589 97 454 Coeffets: Estate Std Error t value Pr(> t ) (Iterept) 3846 37997 C 66 ** -54666 577-3599 * 895 9368 956 344 D -6367 65-63 576 :D 6935 99 39 8 * :D -474 8-369 7358 --- Sgf odes: *** ** * 5 Resdual stadard error: 375 o A degrees of freedo Multple R-squared: 866, Adusted R-squared: B F-statst: 47 o 5 ad D DF, p-value: 544 )8 נק'( מצא את הערכים A,B,C,D המופיעים בפלט זה )5 נק'( בנה טבלת ANOVA עבור המודל א ב בוצעה רגרסיה לאחור )baward( תוצאות הניתוח מוצגות בטבלאות הבאות: > reg <- step(fm, dreto="baward", =log(5)) Start: AIC=678 ~ + + D + * D + * D Df Su of Sq RSS AIC - :D 354 838 675 <oe> 484 678 - :D 64 35 6787 Step: AIC=675 ~ + + D + :D Df Su of Sq RSS AIC - 95 933 678 <oe> 838 675 - :D 33434 47 67739 Step: AIC=678 ~ + D + :D Df Su of Sq RSS AIC <oe> 933 678 - :D 3547 488 6736 אגודת הסטודנטים, בן-גוריון
3 > BM <- l( ~ + D + *D, data=q) > suary(bm) Call: l(forula = ~ + D + * D, data = Q) Resduals: M Q Meda 3Q Max -335-839 -69 93 37745 Coeffets: Estate Std Error t value Pr(> t ) (Iterept) 43374 688 348 859 *** -597 57-363 979 * D -35547 4858-393 87 * :D 7833 93 674 854 ** --- Sgf odes: *** ** * 5 Multple R-squared: 68, Adusted R-squared: 449 F-statst: 943 o 3 ad DF, p-value: 3579 )4 נק'( חשב את ערך הסטטיסטי F -חלקי עבור הצעד הראשון ברגרסיה לאחור )זה שנעשה בפועל( )4 נק'( מדוע התכנה בדקה את האפשרות להוציא רק חלק מהמשתנים המסבירים? )4 נק'( חשב את ערך הסטטיסטי F -חלקי עבור הצעד האחרון ברגרסיה למול המודל המלא ג ד ה החוקרים הריצו את המודל עם הוספת משתנה ריבועי של משתנה, באופן הבא: > Q$ <- * > FM_SQR <- l( ~ + + + D + *D + *D +*D, data=q) > suary(fm_sqr) Call: l(forula = ~ D, data = Q) + + + D + * D + * D + * Resduals: M Q -3449-844 Meda -38 3Q 8849 Max 3748 Coeffets: Estate Std Error t value (Iterept) 39549 36843 86-5 565-8 -494 8958-49 388 366 844 D -3843 6644-885 :D 6565 978 :D 863 376 93 :D -4566 373-4 --- Sgf odes: *** ** Pr(> t ) 5 448 649 46 69 9 354 34 * 5 ** * * Resdual stadard error: 358 o 7 degrees of freedo Multple R-squared: 33, Adusted R-squared: 788 F-statst: 35 o 7 ad 7 DF, p-value: 777 ו )4 נק'( האם נכון להוסיף את המשתנה הריבועי? תן נימוק אחד בעד ונימוק אחד נגד אגודת הסטודנטים, בן גוריון
4, כאשר שאלה )3 3 נקודות( נתבונן במודל הרגרסיה הפשוטה עם שונויות שונות שלמדנו בכיתה: N, הגדרנו את המטריצה האלכסונית בעלת עמודות ו- שורות: W בכיתה הצגנו את האר"פ המשוקללים למודל זה בכתיבה מטריציונית, עבור המודל המרובה: W W א ב ג )6 נק'( רשום אומדים אלו עבור המקרה הפרטי של הרגרסיה הפשוטה, כלומר רשום את,,,,, במונחי:, )5 נק'( בכיתה ראינו שתי בעיות אופטימיזציה שהאר"פ המשוקללים פותרים רשום אחת מהן )5 נק'( נתבונן כעת במודל הרגרסיה הפשוטה עם תצפיות חוזרות כלומר, המודל בו ישנם רק ערכי שונים נסמן, כפי שמסומן בדף הנוסחאות, ב- את התצפית ה- מבין אלו שערך המשתנה המסביר שלהן הוא, ב- את מספר התצפיות עבורן ערכו של המשתנה המסביר הוא כמו כן,, בלבד ומפעילים עליהם את המודל,, הראה כי כאשר משתמשים בממוצעים המופיע בתחילת השאלה )כלומר מודל עם תצפיות ושונויות לא שוות(, האר"פ המשוקללים זהים לאר"פ הרגילים במודל הרגרסיה הפשוטה הרגיל )עם כל התצפיות( המתעלם מהחזרות על ערכי )5 נק'( כל אחד מהמודלים בסעיף הקודם מניב אומד חסר הטיה ל- מי מבין אומדים אלו עדיף? נמק ד אגודת הסטודנטים, בן-גוריון
5 מודלים של רגרסיה לינארית - דף נוסחאות למבחן מסכם ב"ת ~ N, הרגרסיה הפשוטה המודל: כאשר נצפים, פרמטרים לא ידועים, קבועים ידועים, S, S סכומי ריבועים של המשתנים: S S, אומדי הריבועים הפחותים: SS SS, SSR ( ), ( ) ( שונויות האומדים: ) S, SSE התחזיות: סכומי הריבועים במודל: e משוואות הנורמליות: e SSE אח"ה ל- MSE : F SSR MSE t MSE / S, t MSE S סטטיסטיים: : x רווח סמך לתוחלת תצפית חדשה עבורה ערך המשתנה המסביר הוא x x t, / MSE S : x רווח חיזוי לתצפית חדשה עבורה ערך המשתנה המסביר הוא x t, / MSE x S אגודת הסטודנטים, בן גוריון
6 מודל הרגרסיה המרובה p הוא שורה באורך כאשר p וקטור התצפיות, וקטור המקדמים, בכתיבה מטריציונית: כאשר p מטריצת המשתנים המסבירים ו- וקטור השגיאות, המקיים אותן הנחות כמו במודל הרגרסיה הפשוטה Cov SSE= מטריצת השונויות המשותפות של האומדים: : C, x, SSR, SS האר"פ וקטור התחזיות: סכומי ריבועים: הסקה על תוחלת תצפית עתידית ) E( )במודל עם חותך( הסקה על הרמה הממוצעת של הפרטים המקיימים, = x סטטיסטי המבחן: t st = C β C β H V (C β ) V(C β ) = C V(β )C = σ C ( ) C E C t V C, ר"ס ברמת סמך α- לתוחלת תצפית עתידית ( :E(, x נשתמש הוא t st = e V (e ) = ( ) σ ( + C ( ) C) הסקה על תצפית עתידית )במודל עם חותך( נרצה לחזות את התגובה עבור פרט ספציפי אשר ערך המשתנה המסביר שלו,, בשארית רווח חיזוי ל- e כך ש: )תצפית עתידית(: t V e C t MSE C C השוואה בין מודל מלא ומודל חלקי באמצעות מבחן "F חלקי": מודל חלקי -)RM( בעל p מקדמים )p=+( מודל מלא -)FM( בעל p+l מקדמים l- מספר המשתנים אותם נבחן להוצאה מהמודל אגודת הסטודנטים, בן-גוריון
7 F l l+ l+p = [SSR(,,, +,, +l ) SSR(,, )]/l SSE(,,, +,, +l )/( p l) = [SSR(FM) SSR(RM)]/l ~F MSE(FM) l, p l מדדים לטיב מודל: R R ad SSR SS SSE p SS SSE SS מדד -R מדד - R ad AIC l( SSE/ ) p מדד AIC )מודל רגרסיה( - BIC l( SSE/ ) l( ) מדד BIC )מודל רגרסיה( - p 3 4 LOF ( ) ( ) ( ) SSE SSPE SSLF F SSLF MSLF F MSPE SSPE st, רגרסיה לוגיסטית הסתברות להצלחה כתלות בווקטור המשתנים המסבירים - log המודל: H : l בדיקת השערות לבדיקת ההשערה שחלק מה β הן : H : ELSE מבחן LR Dev log( L( )) כאשר st Dev ( RM ) Dev( הסטטיסטי הוא FM ) ~ l מבחן :Wald סטטיסטי מבוסס על תבניות ריבועיות של האומדים שברוח משפט קוקרן מפולגות חי בריבוע אגודת הסטודנטים, בן גוריון
הלאש א אלש ןכרצש רורב,השעמה רופיסמ -ל הווש ריבסמה רשאכ רבסומה לש וכרעל תיזחתה אוה ךתוחה והשמ ןיתמהש בושחי אל ללכ ןיתמה ב ןותנ יביטקייבוסה הנתמהה ןמזש דועב,תויביטקייבואבו קוידב דדמנה ןותנ אוה לעופב הנתמהה ןמז תויארקא תועפשהל ספתנה הז לע עיפשמ יתימאה הנתמהה ןמז,ףסונב ג אוה םיעובירה םוכס םינפ תרזגנ תאצוהו םוכסה ךותב הריזג( איה תרזגנה ) -ל האוושה ץוליחו האצותה תא םיגישמ היוצרה ד יכ םדוק הארנ :דצ ןובשח ןכאו,תעכ SSE רבעמה רשאכ דצה ןובשחמ עבונ ןורחאה ה יטסיטטסה אוה 3) ( ~ t V :הלאשב םינותנה תבצה 66 5 55 -ל דמואה אוה 386 SSE תונושל דמואה ןכלו אוה 5 754 SSE יטסיטטסה ךרעש לבקנו ביצנ אוה תלבטב 9 3 רובע 697 אוה 5%-ל םיאתמה יטירקה ךרעה,ח"ד םיאתמה יטירקה ךרעהו 5%<p-value<5%-ו תיחדנ ספאה תרעשה ןכל 4 אוה 5%-ל ו תידדצ וד הרעשהל םירבוע רשאכ יפ לפכומ p-value 5%-מ לודג אוה תידדצ ודב הרעשהה רובע ןכלו תיחדנ אל הרעשההו 8 ןוירוג-ןב,םיטנדוטסה תדוגא םימוכיסה רגאמ
ז E E E E E ~ ~ אוה ןורחאה יוטיבהו S יבויח אוה ןכא ןכלו ח Cov Cov Cov e Cov,,,, Cov Cov,, הלאש א םינתשמ השימחו ךתוח םע לדומ אוה לדומה MSE-ה לש שפוחה תוגרד אוה D ךרעל הוושה,A ךרעה ןה MSE-ה לש שפוחה תוגרד ןכלו )םימדקמ השש רמולכ( םיריבסמ 5-6=9 478 p R R B ad ךרע, דמואל דמואה ןיב הנמה אוה,דמואה לש ןקתה תיטסל רמולכ 76477 37997 3846 C ב ינש,םיעובירה ימוכס לש שפוח תוגרד תשולש,םיעוביר ימוכס השולש :םיכרע הרשע אוצמל ונילע SS-ה תקולחב ןיינע ןיא יכ( םיעוביר יעצוממ יטסיטטסה )שפוחה תוגרדב F PVALUE-הו ינש רשאכ( ןהו םדוק וניוצ שפוחה תוגרד תורישי םינותנ םינורחאה -ה אוה ותיא ךישמהל לקה קלחה 5,9,4 MSE 9-ב םיליפכמ ןותנ ולש שרושה יכ םילבקמו הדבועב םישמתשמ SSE SS SSE R לבקל ידכ 9 ןוירוג ןב,םיטנדוטסה תדוגא םימוכיסה רגאמ
את, SS ואז SSR SS SSE ו- שאכן מסתדר החשבון MSR F MSE SSR MSR את הסטטיסטי F ניקח מהנתונים אך טוב לוודא 5 ג בצעד הראשון שנעשה בפועל הוצא משתנה אינטראקציה בין למשתנה האינטראקציה ערכו של F 369) ( ישנן דרכים חלקי הוא כמובן ערך ה- המתאים מטבלת המקדמים מועלה בריבוע: 874 ד ה יותר מסורבלות )מציאת ה- SSE במודל החלקי דרך ה- BIC ודברים כאלה( בבואנו להשוות בין אוכלוסיות, בפרט רמת ההשפעה של משתנה מסביר מסויים באוכלוסיות השונות, ייתכן שנמצא שההשפעה היא שונה, אבל לא סביר שההשפעה קיימת רק בחלק מהאוכלוסיות אם נוציא מהמודל משתנה מסביר אבל נשאיר את האינטראקציה שלו עם משתנה דמי, המשמעות היא שהמשתנה המסביר לא משפיע על אוכלוסיית הבסיס וכן משפיע על האוכלוסייה השנייה משיקולי חוסר הסבירות שכתבנו למעלה, התוכנה אפילו לא בודקת את האופציה הזו כאן צריך למצוא את ה- SSR של המודל האחרון אחרי טבלת המקדמים במודל האחרון יש את ה- R שלו ולכן )כיון שה- SS קבוע ואינו תלוי מודל( מתקבל ש- SSR עבור המודל האחרון הוא *68 46 67457 כיון שהוצאנו שני משתנים הסטטיסטי F חלקי הוא 39 67457 896 / 88 ו טיעון בעד: ה- MSE קטן יותר במודל זה מאשר במודל הראשון טיעון נגד: המשתנה הריבועי )והאינטראקציה שלו( לא מובהק שאלה 3 א הדרך החסכונית ביותר בדיו היא לחשב בנפרד את W )מטריצה על ( ואת W באורך ( ואז להכפיל המטריצה היא כרגיל מטריצה עם שורות ושתי עמודות, כאשר העמודה )וקטור הכפל, הראשונה כולה והעמודה השניה היא הוא לכן מטריצה בעלת שתי שורות ו- W את מטריצה זו נכפיל במטריצה ונקבל מטריצה בגודל W עמודות: אגודת הסטודנטים, בן-גוריון
: לע W איה הלש תיכפוההו W לפכה י"ע טושפ לבקתמ W W :אוה ונבשיחש םייוטיבה ינש ןיב לפכה ךרוצ ונל ןיא עגרכ לבא הז יוטיב טשפל ןתינ ב וז,סרוקב הליגרה איה הנושארה טבמ תויווז יתשמ היעבה לע ונלכתסה,לדומה תא ונגצהשכ,התיכב תרעזממה רביא לכו,םיעובירה םוכסב ןובשחב תאז איבנ,הנוש תונוש תיפצת לכלש ןוויכ,הז לדומב SSE םיעובירה םוכס תא ורעזמיש םידמוא םישפחמ ונחנאש ןאכמ,ולש תונושב קלוחי םיעובירה םוכסב :ללקושמה ) ( W רמולכ,תויפצתב םיראניל א םהש םידמוא שפחנ :היינשה היעבה a ;,היטה ירסח ב רמולכ E םירעזממה ולא תא הצרנ,םיאנתה ינש תא םימייקמה ולא לכ ןיבמ תונושה תא ג םושרנ דחא סקדניא םע תויפצת -כ תויפצתה תא בותכל הצרנשכ,סקדניאה ינומיס םע שגנתנ אלש ידכ,,, בל םישנ ןה םיעצוממה לש תויונושה יחנומב ןכלו ןוירוג ןב,םיטנדוטסה תדוגא םימוכיסה רגאמ
םושרנ 'א ףיעסו הלאשל אובמה לדוג םע( 'א ףיעס תאצותב םייוטיבה לכ תא םושרנ תעכ :ונלש םילדגה יחנומב ) םגדמ -ל יכ םייתייעב תצק םינומיסה ןאכ( שי )ולש לדומל המאתהב וילע לכתסנ האוושמה לש דצ לכב לבא,דחא סקדניא קר,, :רבשה לש הנכמב יוטיבה םע ליחתנ א ףיעס תואצותב ביצנ תעכ S / -ל הווש רוטקוב ןושארה רביאה S -ל הווש רוטקוב ינשה יוטיבה -ל םידמואהש רבכ וניאר ןאכמ ונלביק ןודנה לדומב םג יכ( םילדומה ינשב םידכלתמ S S ןושארה רביאב םייוטיבה ינשה ןיב ריסחנ תא ףיסונו ל דמואה תא ןכלו לדומב -כ םושרנ ונלש S S S S S -ל הווש הז יוטיבש ןבומכ שורדכ,ליגרה לדומב ד ונחנא )עובירב יח גלופמה יטסיטטס לע םיססובמה( היטה ירסח םידמוא ונל שי םאש תובר ונרביד התיכב יח גלופמה הנתשמ :הביסה( רתוי הנטק תונוש איה ועמשמ יכ,שפוחה תוגרד רתוי םע הז תא ףידענ רתוי ינפ לע םיעצממש לככ עצוממ ונל שי שפוחה תוגרדב םיקלחמ ונאשכ םוכס השעמל אוה עובירב ןוירוג-ןב,םיטנדוטסה תדוגא םימוכיסה רגאמ
3 גורמים מקבלים אח"ה עם שונות קטנה יותר( במקרה שלנו ל- SSE יש - ד"ח, בעוד של- MSPE יש - ד"ח, כלומר ל- SSE יש יותר ד"ח ועל כן הוא עדיף אגודת הסטודנטים, בן גוריון