'1.9 /=7.> - 7 1'=??.=-3=9 %1?*-.>& PDF Code תקציר התיאוריה תקציר התיאוריה הגישה הגנרטיבית הגישה הגנרטיבית בגישה הגנרטיבית אנו נשתמש במדגם על מנת

תמליל

1 '*.9 /*=.> - *'=??*.=-3=9 %?*-.>& PDF Code תקציר התיאוריה תקציר התיאוריה הגישה הגנרטיבית הגישה הגנרטיבית בגישה הגנרטיבית אנו נשתמש במדגם על מנת לשערך את הפילוג של x ו y מתוך המדגם. על סמך פילוג זה נוכל לבנות חזאי ל y בהיתנן. x חזאים אידאליים לפונקציות מחיר נפוצות - תזכורת חזאים אידאליים לפונקציות מחיר נפוצות - תזכורת לרוב אנו נעבוד עם פונקציות מחיר שבהינתן פונקציית הפילוג יש ביטוי סגור לחזאי האידאלי. נזכיר את החזאים האידאליים של פונקציות המחיר הנפוצות: :MSE התוחלת המותנית: :MAE החציון של הפילוג המותנה: (כאשר F y x היא פונקציית הפילוג המצרפי של y בהינתן ). x :(mode הערך הכי סביר (ה :Misclassification rate שימוש בהסתברות המותנית h (x) = h (x) = E[y x] ymedian s.t. F y x (ymedian x) = 0. h (x) = arg max y p y x (y x) בעיות סיווג (שבהם y מקבל סט ערכים בדיד) נוח לשערך את הפילוג המשותף של x ו y בעזת הפירוק הבא: p x,y(x, y) = p x y(x y)p y(y) על פי פירוק זה ניתן למעשה לחשב את הפילוג המשותף על ידי כך שנשערך בנפרד את כל אחת מהפילוגים הבאים: y(y) - p הפילוג של y ללא תלות בערכו של. x שיערוך זה יהיה לרוב פשוט מכיוון ש y הוא משתנה דיסקרטי (בדיד). x y(x y) p כאשר גם כאן יהיה לרוב נוח לפצל את השיערוך למספר שיערוכים שונים בעבור כל ערך אפשרי של. y זאת x y(x ), p וכו'. הדרך לעשות זאת היא על ידי פיצול המדגם על פי הערכים של y ושיערוך הפילוג אומרת x y(x ), p של x בנפרד על כל חלק של המדגם. שיערוך של פונקציות פילוג בשיטות א-פרמטריות שיערוך של פונקציות פילוג בשיטות א-פרמטריות

2 נציג מספר שיטות לשיערוך של הסתברויות ופונקציות פילוג של משתנה / וקטור אקראי כל שהוא x על סמך מדגם כל שהוא } x}. D = בתרגול זה נעסוק בשיטות אשר לא עושות שימוש במודל פרמטרי ולכן הם מכונות א-פרמטריות, בשבוע הבא נעסוק בשיטות פרמטריות. מדידה אמפירית / משערך הצבה Measure) (Empirical המדידה האמפירית,, p^a,d הינה שיערוך של הההסתברות, (A, Pr ( להתרחשות המאורע : A לדגומא, השיערוך של ההסתברות שהנורמה של x קטנה מ, 3 זאת אומרת {3 < x }, A = תהיה: למעשה אנו משערכים כי ההסתברות להתרחשות של מאורע שווה למספר הפעמים היחסי שהמאורע מופיע בסט המדידות. שיערוך פונקציית ההסתברות PMF (המקרה של משתנה דיסקרטי) נוכל לשערך את פונקציית ההסתברות (PMF) של משתנה / וקטור אקראי דיסקרטי על ידי שימוש במדידה האמפירית: (ECDF (Empirical Cumulative Distribution Function :(CDF הינה שיטה לשערך את פונקציית הפילוג המצרפי (ה ECDF היסטוגרמה היסטוגרמה היא שיטה לשערוך פונקציית צפיפות ההסתברות.(PDF) שיטה זו נפוצה בעיקר לשם ויזואליזציה של הפילוג של משתנים אקראיים סקלריים. השיערוך מתבצע באופן הבא:. מחלקים את תחום הערכים ש x יכול לקבל ל bins (תאים) לא חופפים אשר מכסים את כל התחום.. לכל תא משערכים את ההסתברות של המאורע ש x נמצא בתוך התא. 3. הערך של פונקציית הצפיפות בכל תא תהיה ההסתברות המשוערכת להיות בתא חלקי גודל התא. r b את הגבול השמאלי והימני l b ו נרשום זאת בעבור המקרה של משתנה אקראי סקלרי. נסמן ב B את מספר התאים וב בהתאמה של התא ה. b ההסטוגרמה תהיה נתונה על ידי: הערות: i= p^a,d = I{x A} = I{ x < 3} p^{ x <3},D i= p^x,d (x) = = p^{x=x},d I{x = x} i= F^x,D (x) = p^{x x j},d = I{x j j j i= x j} j בחירת התאים משפיעה באופן משמעותי על תוצאת השערוך של ה.PDF כלל אצבע: לחלק את טווח הערכים ל- תאים בגודל אחיד. p^x,d (x) = size of bin p^{x in bin },D = size of bin B p^{x in bin B},D (r l ) i= x in bin x in bin B I{l r } (rb l B ) i= I{l r } B B l r l B r B

3 (Kernel Density Estimation (KDE Parzan או (kernel) בשיטה זו אנו נבחר פונקציה המכונה פונקציית גרעין.PDF הינה שיטה נוספת לשערוך ה KDE window מהם נבנה פונקציות גרעין מוזזות בעבור כל נקודה מהמדגם. נסמן ב ϕ(x) את פונקציות הגרעין. פונקציית הגרעין המוזזת לנקודה ה x תהיה ) x. ϕ(x פונקציית הצפיפות המשוערכת תהיה הממוצע של כל הפונקציות המוזזות: p^x,ϕ,d (x) = i= ϕ(x x ) הערה: תנאי מספיק והכרחי בכדי שנקבל PDF חוקי, הינו שפונקציית הגרעיון תהיה בעצמה PDF חוקי. זאת אומרת שהיא חייבת להיות חיוביות ושהאינטרגל עליה יהיה שווה ל. הוספת פרמטר רוחב מקובל להוסיף לפונקציות הגרעין פרמטר h אשר שולט ברוחב שלה באופן הבא: החלוקה ב h D היא על מנת לשמור על הנרמול של הפונקציה. כאשר D הוא המימד של. x בתוספת פרמטר זה המשערך יהיה: ϕ (x) = h x ϕ h D ( ) h (x) = p^x,ϕ,h,d h D i= x x ϕ ( ) h פונקציות גרעין נפוצות שתי הבחירות הנפוצות ביותר לפונקציית הגרעין הינן:. חלון מרובע: ϕ (x) = h h D I{ x j h j}. גאוסיאן: 4 std(x) ( = σ, כאשר 3 ).06 std(x) std(x) כלל אצבע לבחירת רוחב הגרעין במקרה הגאוסי הסקלרי הינו הינה הסטיית תקן של x (אשר לרוב תהיה משוערכת גם היא מתוך המדגם) תוחלת אמפירית mean) (Empirical התוחלת האמפירית משערכת את התוחלת של פונקציה מסויימת של המשתנה האקראי f(x), על ידי החלפת התוחלת במיצוע של הפונקציה על הדגימות במדגם: משערך של variance וה ה bias x ϕσ ( x ) = exp ( ) πσ D σ μ^f (x),d = f(x ) i= כפי שציינו כאשר עסקנו ב,bias-variance tradeoff בכדי לשערך את הביצועים של שיטה מסויימת נרצה להסתכל על הפילוג של תוצאות השערוך הנובע מהאקראיות של המדגם. נשתמש שוב בסימון E D בכדי לסמן תוחלת על פני הפילוג של המדגם. 3

4 Bias בעבור שיערוך של גודל כל שהוא z בעזרת משערך, z^d ה bias (היסט) של השיערוך מוגדר כ: Bias (z^) = ED [z^d ] z כאשר ההטיה שווה ל- 0, אנו אומרים שהמשערך אינו מוטה.(Unbiased) Var (z^) = ED [(z^d E D [z^d ]) ] = ED [z^d ] E D [z^d ] Variance ה variance (שונות) של המשערך יהיה: אנו נהיה מעוניינים כמובן במשערך שגם ה bias וגם ה variance שלו קטנים. משתנה בינארי (ברנולי) -. תרגיל ) המשתנה האקראי x הוא משתנה בינארי (משתנה אשר יכול לקבל את הערכים 0 או ). נתון לנו מדגם המכיל דגימות של. x חשבו את השיערוך של פונקציית ההסתברות של. x בטאו את התשובה בעזרת 0 ו, כאשר 0 הוא מספר הדגימות ששוות ל 0 ו הוא מספר הדגימות ששוות ל. נתון כי הפילוג האמיתי של x הינו: p (x) = x { 0 p ( p) 0 p^x,d (0) = I{x = 0} = i= p^x,d () = I{x = } = p (x) = i= x { x = 0 x = 0 שני הסעיפים הבאים לא קשורים למדגם הנתון. ) חשבו את ה bias של המשערך ב = x. (3 חשבו את ה variance של המשערך = x.. פתרון ( השיערוך של פונקציית ההסתברות בעבור = 0 x הינו: ובאופן דומה סה"כ ( נחשב את התחולת של המשערך () p^x,d : 4

5 E D [p^x,d ()] = ED [ I{x = } ] ואת x כאל מספר ידוע אלא כאל משתנה אקראי. נוציא את החלוקה ב שימו לב שבחישוב זה אנו לא מתייחסים ל הסכימה אל מחוץ לתוחלת: משום שכל ה x הם משתנים אקראיים זהים ומפולגים לפי הפילוג של, x ניתן להסיר את האינדקס של : ה bias יהיה: מכאן שהמשערך של ההסתברות של משתנים בדידים הוא משערך לא מוטה. (3 נחשב את התחולת של () p^x,d : x ו x הם משתנים בלתי תלויים, נוכל במקרים אלו לפרק את התוחלת של המכפלה מכיוון שבעבור i = j המשתנים למכפלת התוחלות. נפריד אם כן את הסכום למקרים בהם i = j (יש מקרים כאלה) ולמקרים שבהם i = j (יש מקרים כאלה): i= = ED [ I{x = } ] i= = ED [ I{x = } ] i= = ED [ I{x = } ] = p Bias (p^x ()) = E D [p^x,d ()] p = p p = 0 E D [p^x,d () ] = ED ( I{x = } ) i= (j) = ED [( I{x = } ) ( I{x = } )] i= j= (j) = E D [ I{x = }I{x = } ] i,j (j) = E D [ I{x = }I{x = } ] + E D [ I{x = }I{x = } ] i (j) = E D [ I{x = } ] + E D [ I{x = } ] E D [ I{x = } ] i i=j i=j = ED [ I{x = } ] + E I{x = } D [ ] = p + p = (p p ) + p = p( p) + p בדומה לסעיף הקודם נוכל להסיר את האינדקסים: ה variance יהיה:

6 כפי שהיינו מצפים ניתן לראות כי השונות הולכת וקטנה עם מספר הדגימות, שכן ככל שיש לנו יותר דגימות כך השיערוך יהיה מדוייק יותר. בנוסף, בתור אימות, ניתן להבחין כי בעבור = נקבל שהשיערוך הוא הערך של הדגימה היחידה ובמקרה זה השונות בדיוק שווה לשונות של משתנה בינארי (p. )p EDCF -. תרגיל בעבור משתנה אקראי רציף כל שהוא, x מהו ה bias וה variance של משערך ה ECDF בנקודה מסויימת? x 0 בטאו את התשובה בעזרת הפילוג המצרפי האמיתי.3 פתרון למעשה לפתרון תרגיל זה נוכל להשתמש בתוצאת הסעיף הקודם. שיערוך ה ECDF בנקודה x 0 נתון על ידי: נוכל אם כן אז להגדיר משתנה אקראי בינארי חדש z אשר שווה ל- אם x x 0 ו- 0 אחרת. בעזרת משתנה זה נוכל לכתוב את שיערוך ה ECDF כשיערוך של ההסתברות ש = z : את ה bias וה variance של המשערך הזה חישבנו בסעיף הקודם וקיבלנו ש: כאשר p הוא ההסתברות האמתית ש = z. במקרה שלנו 0), p = F x(x ולכן נקבל ש: פילוג משותף -.3 תרגיל Var (p^x ()) = E D [p^x,d () ] E D [p^x,d ()] = p( F^x,D (x 0) = p^{x x 0 },D F^x,D (x 0 ) = p^{z=},d = p^z,d () Bias (p^z ()) = 0 Var (p^z ()) = p( p) Bias (F^x (x 0 )) = 0 Var (F^x (x 0 )) = F x(x 0)( F x(x 0)) p) + p p = p( p) נתון כי y הינו משתנה אקראי בינארי ו x משתנה אקראי רציף אשר יכול לקבל ערכים בתחום [,0]. כמו כן נתון לנו המדגם הבא של זוגות של x ו : y x y ) חשבו את הפילוג המשותף של x ו y על ידי שימוש בהסטוגרמה לשיערוך של x בהינתן. y חלקו את התחום [,0] לשלושה חלקים שווים. ) בעבור = 6 x מהו החיזוי האופטימאלי של y תחת פנקציית המחיר של.missclassification rate 3) חזרו על שני הסעיפים עם הסטוגרמה שמחלקת את התחום ל תאים. 4) חזרו על שני הסעיפים הראשונים עם KDE עם פונקציית גרעין של מסוג חלון מרובע ופרמטר רוחב = h.3 פתרון 6

7 ( נחשב עת הפילוג המשותף על ידי שימוש בתוחלת המותנית: p x,y(x, y) = p x y(x y)p y(y) p y נתחיל בלשערך את. p y מכיוון ש y הוא משתנה בינארי, השיערוך של הפילוג שלו יהיה: p y (y) = { = = y = y = 0 השיערוך של x y(x y) p הוא למעשה שני שיערוכים של שתי פונקציות פילוג, x y(x 0) p ו x y(x ). p נתחיל מהמקרה של y = 0 נסתכל רק על הדגימות שבהן = 0 y. ישנם ארבע דגימות כאלה. על פי ההנחיה נחלק את התחום ל 3 תאים שווים,, [,0] [0,] ו [,0]. נחשב את צפיפות ההסתברות בכל תא בעזרת היסטוגרמה. על פי הגדרת ההיסטוגרמה הצפיפות הסתברות בכל תא שווה לכמות הדגימות מהמדגם ששיכות לתא זה חלקי מספר הדגימות הכולל, חלקי גודל התא. מתוך הדגימות שבהם = 0 y ישנה דגימה בודד שהגיעה לתא של [,0] ולכן צפיפות ההסתברות בתא זה תהיה: 4( 0) = 0.0 באפן דומה נחשב את הצפיפות ההסתברות בשאר התאים: p x y (x 0) 4( 0) = p^x y,d (x 0) = = 4(0 ) 4( 0) = בעבור הדגימות שבהם נקבל: y = p x y (x )

8 3( 0) = p^x y,d (x ) = = 3(0 ) 0 3( 0) = הפילוג המשותף יהיה אם כן: x 4 0 y = 0 = 3 y = = 4 4 = = = = אנו יודעים כי החזאי האופטימאלי תחת פונקציית המחיר של misclassification rate הינו הערך הכי סביר של y בהינתן. x אם כן עלינו להשוות בין y x( 6) p לבין y x(0 6). p באופן עקרוני עלינו לחשב את: ( p x,y(x, y) p (y x) = p (x) y x = x p x y (x y)p y(y) p x(x) אך נשיב לב שהמכנה אינו משנה כלל לתוצאה מפני שהוא משותף לשתי ההסתברויות המותנות שברצונינו להשוות ולכן מספיק להסתכל על: 4 p y x(0 6) p (6 0)p (0) = 0 x y y = 3 p y x( 6) p (6 )p () = x y y = 3 3 ולכן הערך היותר סביר הוא 0 וזה יהיה החיזוי שלנו. (3 נחשב את הפילוג המשותף באופן דומה ונקבל: 8

9 x y = y = בפילוג זה גם y x( 6) p וגם y x(0 6) p שיווים ל 0 ולכן שני הערכים של y סבירים באותה המידה. הבעיה עם הפילוג הזה הינה שנראה שלקחנו כמות תאים גדולה מידי ולכן ברוב התאים אין לנו דגימות בכלל וכנראה שהשיערוך שם לא מייצג כלל את הפילוג האמיתי. (4 9

10 בכדי לבנות כעת את פונקציות הפילוג של x y(x y) p עלינו לקחת כל נקודה מהמדגם (עם ה y המתאים) ולמקם סביבה חלון ריבועי ברוחב ובגובה. החלונות של הדגימות המתאימות ל = 0 y הם: פונקציית הפילוג תהיה הממוצע של כל החלונות הריבועיים: 0

11 ובאופן דומה בעבור = y : p (6 0) = x y p (6 ) = x y 0 4 p y x(0 6) p (6 0)p (0) = 0 x y y = 3 p y x( 6) p (6 )p () = x y y = מכאן ש: וההסתברות המותנית של y ב x היא לכן הערך הסביר יותר הינו = y.

12 למעשה בעבור כל שיטת שיערוך קיבלנו תוצאה שונה. עובדה זו מחזקת את הנקודה שלשיערוכים שנקבל ישנה תלות גבוהה בשיטה שנבחר להשתמש בה. תרגיל מעשי - שיערוך הפילוג של זמני נסיעה בניו יורק תרגיל מעשי - שיערוך הפילוג של זמני נסיעה בניו יורק Code נחזור למדגם של נסיעות המונית בניו יורק: ay of ek duration dropoff northing dropoff easting pickup northing pickup easting tip amount fare amount payment type trip distance passenger count בתרגול זה אנו נשתמש רק בשני השדות הבאים: :duration משך הנסיעה הכולל בדקות. :timeofday שעת תחילת הנסיעה כמספר (לא שלם) (תיאור מלא של כל השדות בטבלה ניתן למצוא פה) המשימה: שיערוך הפילוג של זמן הנסיעה של מוניות המשימה: שיערוך הפילוג של זמן הנסיעה של מוניות נהג מונית מעוניין לשערך את הפילוג של משך הנסיעות שלו. הוא לקח את הקורס מבוא למערכות לומדות והוא יודע שהוא יוכל לעשות זאת מתוך המידע ההיסטורי אותו אספה עיריית.ew York בחלק זה של התרגול אנו נעזור לאותו נהג מונית לבצע שיערוך זה. באופן פורמלי, אנו מעוניינים לשערך את הפילוג של משך נסיעות המונית בעיר כפונקציית פילוג מצרפי (CDF) או כפונקציית צפיפות הסתברות.(PDF) המדגם שלנו לבעיה זו יהיה אוסף משכי הנסיעה מהמדגם הכולל של פרטי הנסיעה. נסמן את המדגם של משך הנסיעה ב.{x } : ECDF שיטה נחשב ונשרטט את ה ECDF על פני grid של ערכים בין 0 ל ({ max({x בקפיצות של 0.00:

13 נסתכל מקרוב על איך נראית פונקציית ה :ECDF נשים לב שמערך ה ECDF יהיה תמיד מורכב מאוסף של פונקציות מדרגה. שאלה על פי פונקציית הפילוג המצרפי המשוערכת, מהו הסיכוי שנסיעת מונית תערך יותר מ 0 דקות? תשובה על פי הגדרת הפילוג המצרפי: התלות בגודל המדגם Pr(x > 0) = Pr(x 0) = F (0) x 0.89 = 0. 3

14 על מנת לראות את התלות של ה ECDF בגודל המדגם נחזור על החישוב עם כמויות קטנות יותר של דגימות במדגם. אנו נבחר בארקאי =,0,0 000 דגימות מהמדגם ונחזור על החישוב. התוצאה: באופן לא מפתיע ניתן לראות כי ככל שאנו מגדילים את מספר הדגימות במדגם המשערך מתקרב יותר ויותר לפונקציה חלקה וניתן גם להראות כי השערוך מתקרב (במובן סטיסטי) לפונקציית הפילוג המצרפי האמיתית. היסטוגרמה : שיטה נחשב את ההסטוגרמה של משך הנסיעה בעבור חלוקה של התחום ל 30, 300 ו 3000 תאים. תזכורת: כלל האצבע לבחירה של מספר התאים הינו = B $. תוצאה: לפני שנבחן את התוצאות, נריץ מבחן נוסף. ננסה לשערך באופן איכותי את ה variance של כל אחת מההיסטוגרמות. לשם כך נפצל את המגדם ל 8 תתי מדגמים שווים ונחשב היסטוגרמה בעבור כל אחד משמונת תתי המדגם. 4

15 בכדי להגדיר את השונות של השיערוך בצורה טובה יותר נחסר משמונת השיערוכים את הממוצע שלהם: ניתן לראות כי: בעבור מספר גדול של תאים, ההבדלים בין תתי המדגם השונים (שונות גדולה) גדול והתאים צרים ולכן ההיסטוגרמה יכולה לקרב בצורה יותר טובה את פונקציית הצפיפות האמיתית (הטיה קטנה) בעבור מספר קטן של תאים, ההבדלים בין תתי מדגמים שונים קטן (שונות קטנה) אך התאים מאד רחבים ולכן לא יכולים לקרב את הפונקציה האמיתי בצורה טובה (הטיה גדולה) זהו למעשה אותו :bias-variance tradeoff כאשר מספר התאים גדול, כל תא יהיה צר ומקור השגיאה העיקרי ינבע מהאקראיות של המדגם הגורמת לשינויים גדולים במספר היחסי של נקודות אשר נופלות בכל תא. שגיאה זו נובעת מה variance של המשערך. שגיאה זו תלך ותקטן ככל שנגדיל את כמות הדגימות במדגם. כאשר מספר התאים קטן, מקור השגיאה העקרי ינבע מיכולת הייצוג המוגבלת של המודל שלנו. שגיאה זו נובעת מה bias של המשערך. אנו כמובן נשאף לבחור ערך ביניים אשר לא סובל מ variance גדול מידי וגם לא מ bias גדולה מידי. כלל ההאבצע מנסה לתת לעזור לנו לבחור ערך שכזה. :3 KDE שיטה נשערך כעת את פונקציית צפיפות ההסתברות בעזרת KDE עם חלון גאוסי. נבחן ערכים שונים לרוחב החלון = σ. 0.08, 0.8, 8 σ =.06 std(x) תזכורת, כלל האצבע מציע לבחור רוחב של: 0. לשם השוואה, נשרטט גם את ההסטוגרמה עם ה 300 תאים:

16 שוב אנו רואים את ה :bias-variance tradeoff עבור בחירה של רוחב צר המשערך יכולה לקרב פרטים "עדינים" יותר, אבל השיערוך רועש יותר.זוהי שגיאת ה.variance עבור בחירה של רוחב רחב המשערך מחליק את הפרטים הקטנים, אבל השיערוך פחות רועש יותר. זוהי שגיאת.bias בעיית חיזוי: האם נסיעה התרחשה בזמן שעות העבודה בעיית חיזוי: האם נסיעה התרחשה בזמן שעות העבודה נניח ושעות העבודה ב YC מוגדרות כשעות שבין :00 ו 8:00. נגדיר משתנה אקראי בינארי התרחשה בזמן שעות העבודה ו- 0 אחרת. y אשר שווה ל אם נסיעה נרצה לבנות חזאי ל y על סמך x אשר ימזער את הrate.missclassification נעשה זאת תחת הגישה הגנרטיבית. נפעל בדומה לתרגיל.3. השלבים לפתרון הבעיה:. שיערוך הפילוג השולי של, y זאת אומרת (y). p^y,d. שיערוך הפילוג המותנה של x בהינתן, y זאת אומרת (x y), p^x y,d בעבור כל אחד משני הערכים של. y 3. בניית החזאי האופטימאלי בהינתן הפילוג המשוערך על פי: (y x). h(x) = arg max p^y x,d y שלב : שיערוך של (y) p^y,d y הוא משתנה דיסקרטי ולכן השיערוך של הפילוג שלו פשוט: נקבל כי: p^y,d (y) = I{y = y} i= p^y,d (y) = { y = y = 0 חיזוי עיוור 6

17 אם היה ברצונינו לתת חיזוי עיוור (ללא ידיעת ( x להאם נסיעה התרחשה במהלך שעות העבודה היינו מעוניינים לתת את החיזוי הבא: הסיבה שזהו החיזוי האידאלי נובעת ישירות מן העובדה שיש במדגם יותר נסיעות שהתרחשו בשעות העבודה. שיערכנו שיש סיכוי מעט יותר גדול שנסיעה אקראית תתרחש בשעות העבודה מכיוון שיש לנו סיכוי קטן יותר לטעות בעבור חיזוי זה. הערכת ביצועים לחיזוי עיוור y^ = arg max p^y,d (y) = y נחשב את ה missclassification rate של החיזוי העיוור (חיזוי קבוע של ) על ה.test set נקבל את הציון של: שלב : שיערוך (x y) p^x y,d נשתמש פעמיים ב KDE על מנת לשערך את הפילוג המותנה פעם אחת בעבור הדגימות שבהן = 0 y ופעם נוספת בעבור הדגימות שבהן = y : ניתן לראות כי ישנו שוני קטן בין הפילוגים. לנסיעות מחוץ לשעות העבודה ישנה נטיה קלה יותר לטובת זמני נסיעה קצרים יותר. הבדל קטן זה יעזור לנו לשפר את במעט את יכולת החיזוי שלנו. שלב 3: בניית החזאי עלינו לחשב את: h(x) = arg max p^y x,d (y x) y נתחיל בלהפוך את הפילוג המותנה בביטוי בעזרת חוק בייס על מנת לקבל ביטוי אשר תלוי בפילוגים שחישבנו: = arg max y (x y) p^x y,d p^y,d p^x,d (x) (y) כפי שציינו בתרגיל.3, ניתן להיפתר מהאיבר במכנה משום שהוא אינו תלוי ב : y

18 = arg max p^x y,d (x y) p^y,d (y) = { y 0 p^x y,d (x ) p^y,d () > p^x y,d (x 0) p^y,d (0) else מכאן שהחיזוי יהיה באיזורים שבהם (0) p^y,d p^x y,d (x ) p^y,d () > p^x y,d (x 0) ו- 0 בכל השאר. חישוב תנאי זה על פני כל התחום נותן את פונקציית החיזוי הבאה: מכאן שהחיזוי שלנו יהיה: y^( x ) = { 0 x.4 otherwise הערכת ביצועים נחשב את ה missclassification rate על ה.test set נקבל את הציון של: ציון זה הוא רק מעט יותר טוב מהחיזוי העיוור אשר היה נותן ציון של כפי שציינו קודם השיפור הקטן מגיע מההבדלים הקלים שבין שני הפילוגים של הנסיעות בשעות העבודה ומחוצה להן. במקרה זה קיבלנו אומנם שיפור קטן אך ככל שנסתמך בחיזוי שלנו על יותר משתנים השיפורים הקטנים האלו יצברו ונוכל בסוף להגיע לחיזויים מאד מדוייקים. 8