'*1.9 /*=7.> - 7 1*'=??*.=-3=9 %1?*-.>& PDF Code תקציר התיאוריה תקציר התיאוריה הגישה הגנרטיבית הגישה הגנרטיבית בגישה הגנרטיבית אנו נשתמש במדגם על מנת

מסמכים קשורים
תרגול מס' 7 – חזרה על MST ואלגוריתם Dijkstra

תורת החישוביות תרגול הכנה לוגיקה ותורת הקבוצות מה יש כאן? בקורס תורת החישוביות נניח ידע בסיסי בתורת הקבוצות ובלוגיקה, והכרות עם מושגים בסיסיים כמו א"ב

Microsoft Word - ex04ans.docx

Untitled

תרגיל 9 מבוא ללוגיקה ותורת הקבוצות, סתיו תשע"ד 1. תהי L השפה בעלת סימן פונקצייה דו מקומי G, סימן פונקציה חד מקומי T, סימן יחס תלת מקומי.c, d וקבועים L

PowerPoint Presentation

Microsoft Word - tutorial Dynamic Programming _Jun_-05.doc

שעור 6

דף נגזרות ואינטגרלים לשאלון 608 כללים למציאת נגזרת של פונקציה: n 1. y' n x n, y הנגזרת x.1 נכפול בחזקה )נרשום אותה משמאל ל- (. x א. נחסר אחד מהחזקה. ב

תכנון אלגוריתמים, אביב 1021, תרגול מס' 4 תכנון דינאמי תכנון דינאמי בתרגול זה נדון בבעיית הכפלת סדרת מטריצות (16.1.(CLR ראשית נראה דוגמא: דוגמא: תהינה

תאריך הבחינה 30

חשבון אינפיניטסימלי מתקדם 1

עמוד 1 מתוך 5 יוחאי אלדור, סטטיסטיקאי סטטיסטיקה תיאורית + לוחות שכיחות בדידים/רציפים בגדול מקצוע הסטטיסטיקה נחלק ל- 2 תחומים עיקריים- סטט

Slide 1

<4D F736F F D20FAF8E2E9EC203220E0F7E520EEE020FAF9F2E1>

מבחן סוף סמסטר מועד ב 28/10/08 מרצה אחראית: דר שירלי הלוי גינסברג מתרגלים: גלעד קותיאל, גדי אלכסנדרוביץ הוראות: א. בטופס המבחן 6 עמודים (כולל דף זה) ו

אוניברסיטת חיפה החוג למדעי המחשב מרצה: שולי וינטנר מתרגלים: נעמה טוויטו, מחמוד שריף מבוא למדעי המחשב סמסטר א' תשע"ב בחינת סיום, מועד א', הנחי

Microsoft Word ACDC à'.doc

2019 שאלות מומלצות לתרגול מס' דיפרנציאביליות של פונקציה סקלרית )המשך(. כלל השרשרת. S = ( x, y, z) z = x + 3y על המשטח מצאו נקודה בה מישור משיק

מבוא למדעי המחשב - חובלים

PowerPoint Presentation

אוניברסיטת חיפה החוג למדעי המחשב מרצה: שולי וינטנר מתרגלים: נעמה טוויטו, מחמוד שריף מבוא למדעי המחשב סמסטר א' תשע"ב בחינת סיום, מועד א', הנחי

Limit

תשובות מלאות לבחינת הבגרות במתמטיקה מועד ג' תשע"ד, מיום 0/8/0610 שאלונים: 313, מוצע על ידי בית הספר לבגרות ולפסיכומטרי של אבירם פלדמן שאלה מספר

פקולטה: מחלקה: שם הקורס: קוד הקורס: מדעי הטבע מדעי המחשב ומתמטיקה מתמטיקה בדידה תאריך בחינה: _ 07/07/2015 משך הבחינה: 3 שעות סמ' _ב' מועד

הגנה - שקפי תרגול

סיכומי שעורים בהסתברות (1), שנת 2008 מרצה: רז קופרמן סיכם: שיר פלד ותודה ל: דינה זיל על האירוח באתר הערת המקליד: אפשר וכדאי להשתמש בסיכומים אלו בצמוד

Microsoft Word - בעיות הסתברות 1.doc

שאלון להערכה עצמית במתמטיקה לקראת לימודי שנה א מדוע להתכונן לשנה א מסלולי לימוד רבים באוניברסיטה (מדעי המחשב, הנדסה, פיזיקה וכמובן מתמטיקה) דורשים לימ

. שאלה 1: ה אי x] T : R 4[ x] R 4[ אופרטור ליניארי מוגדר על-ידי T( ax bx cx d) bx ax cx c )13 נק'( א( מצאו את הערכים העצמיים, המרחבים העצמיים

פרויקט "רמזור" של קרן אביטל בס "ד מערך שיעור בנושא: "פונקציה" טליה קיפניס והדסה ערמי, מאולפנת צביה פרטים מקדימים על מערך השיעור: השיעור מהווה מבוא לנו

<4D F736F F D20F4FAF8E5EF20EEE5F2E320E020F1EEF1E8F820E120FAF9F2E3>

תרגול 1

אוניברסיטת חיפה החוג למדעי המחשב מבוא למדעי המחשב מועד א' סמסטר ב', תשע"ג, משך המבחן: שעתיים וחצי חומר עזר: אסור הנחיות: וודאו כי יש בידיכם

תרגיל 5-1

Microsoft Word - SDAROT 806 PITRONOT.doc

מבוא למדעי המחשב

Tutorial 11

מבחן 7002 פרטים כלליים מועד הבחינה: בכל זמן מספר השאלון: 1 משך הבחינה: 3 שעות חומר עזר בשימוש: הכל )ספרים ומחברות( המלצות: קרא המלצות לפני הבחינה ובדי

Microsoft Word - Sol_Moedb10-1-2,4

מבחן סוף סמסטר מועד א 15/02/08 מרצה אחראית: דר שירלי הלוי גינסברג מתרגלים: גלעד קותיאל, דניאל גנקין הוראות: א. בטופס המבחן 7 עמודים ו 4 דפי נוסחאות. ב

מבוא לתכנות ב- JAVA תרגול 7

תיק משימטיקה מגרף הנגזרת לגרף הפונקציה להנגשה פרטנית נא לפנות: כל הזכויות שמורות

תוכן העניינים: פרק צמצומים ומימושים של פונקציות בוליאניות... 2 צמצומים של פונקציות באמצעות מפת קרנו:...2 שאלות:... 2 תשובות סופיות:... 4 צמצום

הטכניון מכון טכנולוגי לישראל אלגוריתמים 1 )443432( סמסטר חורף הפקולטה למדעי המחשב תרגול 9 מסלולים קלים ביותר תרגיל APSP - 1 עד כה דנו באלגור

Microsoft Word - beayot tnua 3 pitronot.doc

Microsoft Word - hedva 806-pitronot-2011.doc

<4D F736F F D20EEF9E5E5E0E5FA20E3E9F4F8F0F6E9E0ECE9E5FA2E646F63>

Microsoft Word - ExamA_Final_Solution.docx

שיטות הסתברותיות ואלגוריתמים חוברת התרגילים 25 באוקטובר 2015 חוברת זו מכילה תרגילים נבחרים מהיסטוריית הקורס ופתרונם. בשעות האימון יוצג מבחר מהתרגילים

טיפים להצלחה במהלך הבחינה 1. בתחילת הבחינה קראו היטב את כל השאלות וסמנו לעצמכם את השאלות המועדפות על ידכם. קראו כל שאלה לפחות פעמיים, כדי שלא תחמיצו נ

מקביליות

Microsoft Word - V2 16.doc

מטלת מנחה (ממ"ן) 11 הקורס: חשבון אינפיניטסימלי II חומר הלימוד למטלה: יחידות 2,1 4 מספר השאלות: 7 משקל המטלה: נקודות סמסטר: ב 2007 מו

אוניברסיטת בן-גוריון המחלקה למדעי המחשב בוחן במבנים בדידים וקומבינטוריקה פרופ' מתיא כ"ץ, ד"ר עופר נימן, ד"ר סטוארט סמית, ד"ר נתן רובין, גב'

Yoni Nazarathy

אנליזה מתקדמת

<4D F736F F D20E4F9E5E5E0FA20EEF9E0E1E920FAEEE9F1E >

מבנים בדידים וקומבינטוריקה סמסטר אביב תשע"ט מספרי רמזי תרגול 11 הגדרה: (t R = R(s, הוא המספר הטבעי הקטן ביותר כך שבכל צביעה של צלעות הגרף וכחול(, קיים

Microsoft Word - 01 difernziali razionalit

. [1,3] ו = 0 f(3) f(1) = עמוד 1 מתוך 6 דר' ז. אולחא מס' הקורס 9711 חדו''א הנ מכונות 1 f ( x) = ( x 1)( x 2)( x 3) c= f c = c (1,3), c תשובות I 1) פונ

<4D F736F F D20F9E9F2E5F820F1E9EEF0E920E7ECE5F7E4>

פתרונות לדף מס' 5

מספר נבחן / תשס"ג סמסטר א' מועד א' תאריך: שעה: 13:00 משך הבחינה: 2.5 שעות בחינה בקורס: מבחנים והערכה א' מרצה: ד"ר אבי אללוף חומר עזר

תוכן העניינים

שאלהIgal : מערכים דו מימדיים רקורסיה:

תרגיל בית מספר 1#

PowerPoint Presentation

ע 003 מרץ 10 מועד מיוחד פתרונות עפר

אי שוויונים ממעלה ראשונה לארבע יחידות

פתרונות לשאלות ממבחנים עוזי וישנה, 1996 השאלות לקוחות ממבחנים של פרופ' א. רואן. הפתרונות מוצגים באופן תמציתי, ויתכן שבמבחן כדאי להרחיב יותר. קובץ זה נ

67865 כלים מתמטיים 7 בינואר 2014 מרצה: מיכאל בן אור מתרגל: צור לוריא איני לוקחת אחריות על מה שכתוב כאן, so tread lightly אין המרצה קשור לסיכום זה בשום

מתמטיקה של מערכות

תוכן העניינים

מבוא למדעי המחשב - חובלים

Microsoft Word - Ass1Bgu2019b_java docx

PowerPoint Presentation

עבודת קיץ לקראת כיתה ט' - מצויינות מתמטיקה העבודה כוללת שאלות מכל הנושאים שנלמדו במהלך השנה. את חלק מהשאלות כבר פגשתם, וזו הזדמנות עבורכם לוודא שאתם י

עב 001 ינואר 12 מועד חורף פתרונות עפר

סדנת תכנות ב C/C++

משוואות דיפרנציאליות מסדר ראשון

DCA & A/B Testing

מספר מחברת: עמוד 1 מתוך 11 ת"ז: תשע"א מועד ב סמסטר א' תאריך: 00:11 שעה: 0 שעות הבחינה: משך כל חומר עזר אסור בשימוש בחינה בקורס: מבוא למדעי ה

SFP6603NRE Dolce Stil Novo תנור פירוליטי 60 ס"מ, זכוכית שחורה +A דרגת אנרגיה EAN13: רכיבים בגימור נחושת פונקציות בישול 10 פונקציות ניקוי

Microsoft Word - 38

אוניברסיטת תל אביב - בית הספר למדעי המחשב מבוא מורחב למדעי המחשב, אביב 2019 תרגיל בית מספר - 2 להגשה עד 02/04/2019 בשעה 23:55 קיראו בעיון את הנחיות הע

תרגול מס' 1

áñéñ åîéîã (ñéåí)

מבוא למדעי המחשב

Slide 1

פייתון

<4D F736F F D20F4E9E6E9F7E420FAF8E2E5ED20ECF2E1F8E9FA20E4E2E4E420F1E5F4E9FA20496C616E2E646F63>

מבוא למדעי המחשב

הנחיות הורדה ותפעול לספרים דיגיטלים. הוצאת כנרת, זמורה ביתן שמחה להגיש לכם, התלמידים, ספר דיגיטלי. הספרים עצמם הינם בקבצי PDF הניתנים להורדה ללא עלות

אוניברסיטת חיפה החוג למדעי המחשב.5.6 מבוא למדעי המחשב סמסטר א' תשע"ז בחינה סופית מועד א', מרצה: שולי וינטנר מתרגלים: סמאח אידריס, ראמי עילבו

<4D F736F F D20FAF8E2E5EC20E0ECE2E1F8E420EEF2E5F8E D F9E0ECE5FA2E646F63>

שימו לב! יש לענות על כל השאלות בתוך טופס הבחינה, מחברות טיוטא הולכות לגריסה. על השאלות יש לענות במקום המיועד אחרי כל שאלה. תאריך הבחינה: שם

Microsoft Word - beayot hespek 4 pitronot.doc

תרגול 1

תמליל:

'*.9 /*=.> - *'=??*.=-3=9 %?*-.>& PDF Code תקציר התיאוריה תקציר התיאוריה הגישה הגנרטיבית הגישה הגנרטיבית בגישה הגנרטיבית אנו נשתמש במדגם על מנת לשערך את הפילוג של x ו y מתוך המדגם. על סמך פילוג זה נוכל לבנות חזאי ל y בהיתנן. x חזאים אידאליים לפונקציות מחיר נפוצות - תזכורת חזאים אידאליים לפונקציות מחיר נפוצות - תזכורת לרוב אנו נעבוד עם פונקציות מחיר שבהינתן פונקציית הפילוג יש ביטוי סגור לחזאי האידאלי. נזכיר את החזאים האידאליים של פונקציות המחיר הנפוצות: :MSE התוחלת המותנית: :MAE החציון של הפילוג המותנה: (כאשר F y x היא פונקציית הפילוג המצרפי של y בהינתן ). x :(mode הערך הכי סביר (ה :Misclassification rate שימוש בהסתברות המותנית h (x) = h (x) = E[y x] ymedian s.t. F y x (ymedian x) = 0. h (x) = arg max y p y x (y x) בעיות סיווג (שבהם y מקבל סט ערכים בדיד) נוח לשערך את הפילוג המשותף של x ו y בעזת הפירוק הבא: p x,y(x, y) = p x y(x y)p y(y) על פי פירוק זה ניתן למעשה לחשב את הפילוג המשותף על ידי כך שנשערך בנפרד את כל אחת מהפילוגים הבאים: y(y) - p הפילוג של y ללא תלות בערכו של. x שיערוך זה יהיה לרוב פשוט מכיוון ש y הוא משתנה דיסקרטי (בדיד). x y(x y) p כאשר גם כאן יהיה לרוב נוח לפצל את השיערוך למספר שיערוכים שונים בעבור כל ערך אפשרי של. y זאת x y(x ), p וכו'. הדרך לעשות זאת היא על ידי פיצול המדגם על פי הערכים של y ושיערוך הפילוג אומרת x y(x ), p של x בנפרד על כל חלק של המדגם. שיערוך של פונקציות פילוג בשיטות א-פרמטריות שיערוך של פונקציות פילוג בשיטות א-פרמטריות

נציג מספר שיטות לשיערוך של הסתברויות ופונקציות פילוג של משתנה / וקטור אקראי כל שהוא x על סמך מדגם כל שהוא } x}. D = בתרגול זה נעסוק בשיטות אשר לא עושות שימוש במודל פרמטרי ולכן הם מכונות א-פרמטריות, בשבוע הבא נעסוק בשיטות פרמטריות. מדידה אמפירית / משערך הצבה Measure) (Empirical המדידה האמפירית,, p^a,d הינה שיערוך של הההסתברות, (A, Pr ( להתרחשות המאורע : A לדגומא, השיערוך של ההסתברות שהנורמה של x קטנה מ, 3 זאת אומרת {3 < x }, A = תהיה: למעשה אנו משערכים כי ההסתברות להתרחשות של מאורע שווה למספר הפעמים היחסי שהמאורע מופיע בסט המדידות. שיערוך פונקציית ההסתברות PMF (המקרה של משתנה דיסקרטי) נוכל לשערך את פונקציית ההסתברות (PMF) של משתנה / וקטור אקראי דיסקרטי על ידי שימוש במדידה האמפירית: (ECDF (Empirical Cumulative Distribution Function :(CDF הינה שיטה לשערך את פונקציית הפילוג המצרפי (ה ECDF היסטוגרמה היסטוגרמה היא שיטה לשערוך פונקציית צפיפות ההסתברות.(PDF) שיטה זו נפוצה בעיקר לשם ויזואליזציה של הפילוג של משתנים אקראיים סקלריים. השיערוך מתבצע באופן הבא:. מחלקים את תחום הערכים ש x יכול לקבל ל bins (תאים) לא חופפים אשר מכסים את כל התחום.. לכל תא משערכים את ההסתברות של המאורע ש x נמצא בתוך התא. 3. הערך של פונקציית הצפיפות בכל תא תהיה ההסתברות המשוערכת להיות בתא חלקי גודל התא. r b את הגבול השמאלי והימני l b ו נרשום זאת בעבור המקרה של משתנה אקראי סקלרי. נסמן ב B את מספר התאים וב בהתאמה של התא ה. b ההסטוגרמה תהיה נתונה על ידי: הערות: i= p^a,d = I{x A} = I{ x < 3} p^{ x <3},D i= p^x,d (x) = = p^{x=x},d I{x = x} i= F^x,D (x) = p^{x x j},d = I{x j j j i= x j} j בחירת התאים משפיעה באופן משמעותי על תוצאת השערוך של ה.PDF כלל אצבע: לחלק את טווח הערכים ל- תאים בגודל אחיד. p^x,d (x) = size of bin p^{x in bin },D = size of bin B p^{x in bin B},D (r l ) i= x in bin x in bin B I{l r } (rb l B ) i= I{l r } B B l r l B r B

(Kernel Density Estimation (KDE Parzan או (kernel) בשיטה זו אנו נבחר פונקציה המכונה פונקציית גרעין.PDF הינה שיטה נוספת לשערוך ה KDE window מהם נבנה פונקציות גרעין מוזזות בעבור כל נקודה מהמדגם. נסמן ב ϕ(x) את פונקציות הגרעין. פונקציית הגרעין המוזזת לנקודה ה x תהיה ) x. ϕ(x פונקציית הצפיפות המשוערכת תהיה הממוצע של כל הפונקציות המוזזות: p^x,ϕ,d (x) = i= ϕ(x x ) הערה: תנאי מספיק והכרחי בכדי שנקבל PDF חוקי, הינו שפונקציית הגרעיון תהיה בעצמה PDF חוקי. זאת אומרת שהיא חייבת להיות חיוביות ושהאינטרגל עליה יהיה שווה ל. הוספת פרמטר רוחב מקובל להוסיף לפונקציות הגרעין פרמטר h אשר שולט ברוחב שלה באופן הבא: החלוקה ב h D היא על מנת לשמור על הנרמול של הפונקציה. כאשר D הוא המימד של. x בתוספת פרמטר זה המשערך יהיה: ϕ (x) = h x ϕ h D ( ) h (x) = p^x,ϕ,h,d h D i= x x ϕ ( ) h פונקציות גרעין נפוצות שתי הבחירות הנפוצות ביותר לפונקציית הגרעין הינן:. חלון מרובע: ϕ (x) = h h D I{ x j h j}. גאוסיאן: 4 std(x) ( = σ, כאשר 3 ).06 std(x) std(x) כלל אצבע לבחירת רוחב הגרעין במקרה הגאוסי הסקלרי הינו הינה הסטיית תקן של x (אשר לרוב תהיה משוערכת גם היא מתוך המדגם) תוחלת אמפירית mean) (Empirical התוחלת האמפירית משערכת את התוחלת של פונקציה מסויימת של המשתנה האקראי f(x), על ידי החלפת התוחלת במיצוע של הפונקציה על הדגימות במדגם: משערך של variance וה ה bias x ϕσ ( x ) = exp ( ) πσ D σ μ^f (x),d = f(x ) i= כפי שציינו כאשר עסקנו ב,bias-variance tradeoff בכדי לשערך את הביצועים של שיטה מסויימת נרצה להסתכל על הפילוג של תוצאות השערוך הנובע מהאקראיות של המדגם. נשתמש שוב בסימון E D בכדי לסמן תוחלת על פני הפילוג של המדגם. 3

Bias בעבור שיערוך של גודל כל שהוא z בעזרת משערך, z^d ה bias (היסט) של השיערוך מוגדר כ: Bias (z^) = ED [z^d ] z כאשר ההטיה שווה ל- 0, אנו אומרים שהמשערך אינו מוטה.(Unbiased) Var (z^) = ED [(z^d E D [z^d ]) ] = ED [z^d ] E D [z^d ] Variance ה variance (שונות) של המשערך יהיה: אנו נהיה מעוניינים כמובן במשערך שגם ה bias וגם ה variance שלו קטנים. משתנה בינארי (ברנולי) -. תרגיל ) המשתנה האקראי x הוא משתנה בינארי (משתנה אשר יכול לקבל את הערכים 0 או ). נתון לנו מדגם המכיל דגימות של. x חשבו את השיערוך של פונקציית ההסתברות של. x בטאו את התשובה בעזרת 0 ו, כאשר 0 הוא מספר הדגימות ששוות ל 0 ו הוא מספר הדגימות ששוות ל. נתון כי הפילוג האמיתי של x הינו: p (x) = x { 0 p ( p) 0 p^x,d (0) = I{x = 0} = i= p^x,d () = I{x = } = p (x) = i= x { x = 0 x = 0 שני הסעיפים הבאים לא קשורים למדגם הנתון. ) חשבו את ה bias של המשערך ב = x. (3 חשבו את ה variance של המשערך = x.. פתרון ( השיערוך של פונקציית ההסתברות בעבור = 0 x הינו: ובאופן דומה סה"כ ( נחשב את התחולת של המשערך () p^x,d : 4

E D [p^x,d ()] = ED [ I{x = } ] ואת x כאל מספר ידוע אלא כאל משתנה אקראי. נוציא את החלוקה ב שימו לב שבחישוב זה אנו לא מתייחסים ל הסכימה אל מחוץ לתוחלת: משום שכל ה x הם משתנים אקראיים זהים ומפולגים לפי הפילוג של, x ניתן להסיר את האינדקס של : ה bias יהיה: מכאן שהמשערך של ההסתברות של משתנים בדידים הוא משערך לא מוטה. (3 נחשב את התחולת של () p^x,d : x ו x הם משתנים בלתי תלויים, נוכל במקרים אלו לפרק את התוחלת של המכפלה מכיוון שבעבור i = j המשתנים למכפלת התוחלות. נפריד אם כן את הסכום למקרים בהם i = j (יש מקרים כאלה) ולמקרים שבהם i = j (יש מקרים כאלה): i= = ED [ I{x = } ] i= = ED [ I{x = } ] i= = ED [ I{x = } ] = p Bias (p^x ()) = E D [p^x,d ()] p = p p = 0 E D [p^x,d () ] = ED ( I{x = } ) i= (j) = ED [( I{x = } ) ( I{x = } )] i= j= (j) = E D [ I{x = }I{x = } ] i,j (j) = E D [ I{x = }I{x = } ] + E D [ I{x = }I{x = } ] i (j) = E D [ I{x = } ] + E D [ I{x = } ] E D [ I{x = } ] i i=j i=j = ED [ I{x = } ] + E I{x = } D [ ] = p + p = (p p ) + p = p( p) + p בדומה לסעיף הקודם נוכל להסיר את האינדקסים: ה variance יהיה:

כפי שהיינו מצפים ניתן לראות כי השונות הולכת וקטנה עם מספר הדגימות, שכן ככל שיש לנו יותר דגימות כך השיערוך יהיה מדוייק יותר. בנוסף, בתור אימות, ניתן להבחין כי בעבור = נקבל שהשיערוך הוא הערך של הדגימה היחידה ובמקרה זה השונות בדיוק שווה לשונות של משתנה בינארי (p. )p EDCF -. תרגיל בעבור משתנה אקראי רציף כל שהוא, x מהו ה bias וה variance של משערך ה ECDF בנקודה מסויימת? x 0 בטאו את התשובה בעזרת הפילוג המצרפי האמיתי.3 פתרון למעשה לפתרון תרגיל זה נוכל להשתמש בתוצאת הסעיף הקודם. שיערוך ה ECDF בנקודה x 0 נתון על ידי: נוכל אם כן אז להגדיר משתנה אקראי בינארי חדש z אשר שווה ל- אם x x 0 ו- 0 אחרת. בעזרת משתנה זה נוכל לכתוב את שיערוך ה ECDF כשיערוך של ההסתברות ש = z : את ה bias וה variance של המשערך הזה חישבנו בסעיף הקודם וקיבלנו ש: כאשר p הוא ההסתברות האמתית ש = z. במקרה שלנו 0), p = F x(x ולכן נקבל ש: פילוג משותף -.3 תרגיל Var (p^x ()) = E D [p^x,d () ] E D [p^x,d ()] = p( F^x,D (x 0) = p^{x x 0 },D F^x,D (x 0 ) = p^{z=},d = p^z,d () Bias (p^z ()) = 0 Var (p^z ()) = p( p) Bias (F^x (x 0 )) = 0 Var (F^x (x 0 )) = F x(x 0)( F x(x 0)) p) + p p = p( p) נתון כי y הינו משתנה אקראי בינארי ו x משתנה אקראי רציף אשר יכול לקבל ערכים בתחום [,0]. כמו כן נתון לנו המדגם הבא של זוגות של x ו : y 3 4 6 x 9 4 4 y 0 0 0 0 ) חשבו את הפילוג המשותף של x ו y על ידי שימוש בהסטוגרמה לשיערוך של x בהינתן. y חלקו את התחום [,0] לשלושה חלקים שווים. ) בעבור = 6 x מהו החיזוי האופטימאלי של y תחת פנקציית המחיר של.missclassification rate 3) חזרו על שני הסעיפים עם הסטוגרמה שמחלקת את התחום ל תאים. 4) חזרו על שני הסעיפים הראשונים עם KDE עם פונקציית גרעין של מסוג חלון מרובע ופרמטר רוחב = h.3 פתרון 6

( נחשב עת הפילוג המשותף על ידי שימוש בתוחלת המותנית: p x,y(x, y) = p x y(x y)p y(y) p y נתחיל בלשערך את. p y מכיוון ש y הוא משתנה בינארי, השיערוך של הפילוג שלו יהיה: 3 0 4 p y (y) = { = = y = y = 0 השיערוך של x y(x y) p הוא למעשה שני שיערוכים של שתי פונקציות פילוג, x y(x 0) p ו x y(x ). p נתחיל מהמקרה של y = 0 נסתכל רק על הדגימות שבהן = 0 y. ישנם ארבע דגימות כאלה. על פי ההנחיה נחלק את התחום ל 3 תאים שווים,, [,0] [0,] ו [,0]. נחשב את צפיפות ההסתברות בכל תא בעזרת היסטוגרמה. על פי הגדרת ההיסטוגרמה הצפיפות הסתברות בכל תא שווה לכמות הדגימות מהמדגם ששיכות לתא זה חלקי מספר הדגימות הכולל, חלקי גודל התא. מתוך הדגימות שבהם = 0 y ישנה דגימה בודד שהגיעה לתא של [,0] ולכן צפיפות ההסתברות בתא זה תהיה: 4( 0) = 0.0 באפן דומה נחשב את הצפיפות ההסתברות בשאר התאים: p x y (x 0) 4( 0) = p^x y,d (x 0) = = 4(0 ) 4( 0) = 0 0 0 0 0 0 בעבור הדגימות שבהם נקבל: y = p x y (x )

3( 0) = p^x y,d (x ) = = 3(0 ) 0 3( 0) = 0 0 0 0 הפילוג המשותף יהיה אם כן: 0 0 0 x 4 0 y = 0 = 3 y = = 4 4 = = 3 0 3 0 3 = 3 3 0 = 3 0 3 אנו יודעים כי החזאי האופטימאלי תחת פונקציית המחיר של misclassification rate הינו הערך הכי סביר של y בהינתן. x אם כן עלינו להשוות בין y x( 6) p לבין y x(0 6). p באופן עקרוני עלינו לחשב את: ( p x,y(x, y) p (y x) = p (x) y x = x p x y (x y)p y(y) p x(x) אך נשיב לב שהמכנה אינו משנה כלל לתוצאה מפני שהוא משותף לשתי ההסתברויות המותנות שברצונינו להשוות ולכן מספיק להסתכל על: 4 p y x(0 6) p (6 0)p (0) = 0 x y y = 3 p y x( 6) p (6 )p () = x y y = 3 3 ולכן הערך היותר סביר הוא 0 וזה יהיה החיזוי שלנו. (3 נחשב את הפילוג המשותף באופן דומה ונקבל: 8

0 3 3 4 4 6 6 8 8 9 9 0 0 3 3 4 4 x y = 0 0 0 0 0 0 0 0 0 0 0 0 y = 0 0 0 0 0 0 0 0 0 0 0 0 0 בפילוג זה גם y x( 6) p וגם y x(0 6) p שיווים ל 0 ולכן שני הערכים של y סבירים באותה המידה. הבעיה עם הפילוג הזה הינה שנראה שלקחנו כמות תאים גדולה מידי ולכן ברוב התאים אין לנו דגימות בכלל וכנראה שהשיערוך שם לא מייצג כלל את הפילוג האמיתי. (4 9

בכדי לבנות כעת את פונקציות הפילוג של x y(x y) p עלינו לקחת כל נקודה מהמדגם (עם ה y המתאים) ולמקם סביבה חלון ריבועי ברוחב ובגובה. החלונות של הדגימות המתאימות ל = 0 y הם: פונקציית הפילוג תהיה הממוצע של כל החלונות הריבועיים: 0

ובאופן דומה בעבור = y : p (6 0) = x y p (6 ) = x y 0 4 p y x(0 6) p (6 0)p (0) = 0 x y y = 3 p y x( 6) p (6 )p () = x y y = 3 3 3 מכאן ש: וההסתברות המותנית של y ב x היא לכן הערך הסביר יותר הינו = y.

למעשה בעבור כל שיטת שיערוך קיבלנו תוצאה שונה. עובדה זו מחזקת את הנקודה שלשיערוכים שנקבל ישנה תלות גבוהה בשיטה שנבחר להשתמש בה. תרגיל מעשי - שיערוך הפילוג של זמני נסיעה בניו יורק תרגיל מעשי - שיערוך הפילוג של זמני נסיעה בניו יורק Code נחזור למדגם של נסיעות המונית בניו יורק: ay of ek duration dropoff northing dropoff easting pickup northing pickup easting tip amount fare amount payment type trip distance passenger count 3.6 4.8 88. 4.98 86.99 0 9..6806 0 6.666 4.63 84.8 4.9 8. 0 0 3.868 0.66 43. 8.434 43.36 8.00.49.494 9.88333 4. 86.6 4.3 86.649.6. 0.96604 3 8.68333 4.6 8.6 4.89 86.96.66..469 4 3 9.43333 4.4 8.69 4.88 8.96...606.9 44. 88. 4.08 86.3 8.494 6 4.9 409. 8.844 409. 8.34 0 0.8046.066 40.4 83.6 409.48 8.4. 0 3.63 8 3 4.66 43. 8.0 44.93 8.8.36..643 6 9 בתרגול זה אנו נשתמש רק בשני השדות הבאים: :duration משך הנסיעה הכולל בדקות. :timeofday שעת תחילת הנסיעה כמספר (לא שלם) (תיאור מלא של כל השדות בטבלה ניתן למצוא פה) המשימה: שיערוך הפילוג של זמן הנסיעה של מוניות המשימה: שיערוך הפילוג של זמן הנסיעה של מוניות נהג מונית מעוניין לשערך את הפילוג של משך הנסיעות שלו. הוא לקח את הקורס מבוא למערכות לומדות והוא יודע שהוא יוכל לעשות זאת מתוך המידע ההיסטורי אותו אספה עיריית.ew York בחלק זה של התרגול אנו נעזור לאותו נהג מונית לבצע שיערוך זה. באופן פורמלי, אנו מעוניינים לשערך את הפילוג של משך נסיעות המונית בעיר כפונקציית פילוג מצרפי (CDF) או כפונקציית צפיפות הסתברות.(PDF) המדגם שלנו לבעיה זו יהיה אוסף משכי הנסיעה מהמדגם הכולל של פרטי הנסיעה. נסמן את המדגם של משך הנסיעה ב.{x } : ECDF שיטה נחשב ונשרטט את ה ECDF על פני grid של ערכים בין 0 ל ({ max({x בקפיצות של 0.00:

נסתכל מקרוב על איך נראית פונקציית ה :ECDF נשים לב שמערך ה ECDF יהיה תמיד מורכב מאוסף של פונקציות מדרגה. שאלה על פי פונקציית הפילוג המצרפי המשוערכת, מהו הסיכוי שנסיעת מונית תערך יותר מ 0 דקות? תשובה על פי הגדרת הפילוג המצרפי: התלות בגודל המדגם Pr(x > 0) = Pr(x 0) = F (0) x 0.89 = 0. 3

על מנת לראות את התלות של ה ECDF בגודל המדגם נחזור על החישוב עם כמויות קטנות יותר של דגימות במדגם. אנו נבחר בארקאי =,0,0 000 דגימות מהמדגם ונחזור על החישוב. התוצאה: באופן לא מפתיע ניתן לראות כי ככל שאנו מגדילים את מספר הדגימות במדגם המשערך מתקרב יותר ויותר לפונקציה חלקה וניתן גם להראות כי השערוך מתקרב (במובן סטיסטי) לפונקציית הפילוג המצרפי האמיתית. היסטוגרמה : שיטה נחשב את ההסטוגרמה של משך הנסיעה בעבור חלוקה של התחום ל 30, 300 ו 3000 תאים. תזכורת: כלל האצבע לבחירה של מספר התאים הינו 80 80000 = B $. תוצאה: לפני שנבחן את התוצאות, נריץ מבחן נוסף. ננסה לשערך באופן איכותי את ה variance של כל אחת מההיסטוגרמות. לשם כך נפצל את המגדם ל 8 תתי מדגמים שווים ונחשב היסטוגרמה בעבור כל אחד משמונת תתי המדגם. 4

בכדי להגדיר את השונות של השיערוך בצורה טובה יותר נחסר משמונת השיערוכים את הממוצע שלהם: ניתן לראות כי: בעבור מספר גדול של תאים, ההבדלים בין תתי המדגם השונים (שונות גדולה) גדול והתאים צרים ולכן ההיסטוגרמה יכולה לקרב בצורה יותר טובה את פונקציית הצפיפות האמיתית (הטיה קטנה) בעבור מספר קטן של תאים, ההבדלים בין תתי מדגמים שונים קטן (שונות קטנה) אך התאים מאד רחבים ולכן לא יכולים לקרב את הפונקציה האמיתי בצורה טובה (הטיה גדולה) זהו למעשה אותו :bias-variance tradeoff כאשר מספר התאים גדול, כל תא יהיה צר ומקור השגיאה העיקרי ינבע מהאקראיות של המדגם הגורמת לשינויים גדולים במספר היחסי של נקודות אשר נופלות בכל תא. שגיאה זו נובעת מה variance של המשערך. שגיאה זו תלך ותקטן ככל שנגדיל את כמות הדגימות במדגם. כאשר מספר התאים קטן, מקור השגיאה העקרי ינבע מיכולת הייצוג המוגבלת של המודל שלנו. שגיאה זו נובעת מה bias של המשערך. אנו כמובן נשאף לבחור ערך ביניים אשר לא סובל מ variance גדול מידי וגם לא מ bias גדולה מידי. כלל ההאבצע מנסה לתת לעזור לנו לבחור ערך שכזה. :3 KDE שיטה נשערך כעת את פונקציית צפיפות ההסתברות בעזרת KDE עם חלון גאוסי. נבחן ערכים שונים לרוחב החלון = σ. 0.08, 0.8, 8 σ =.06 std(x) תזכורת, כלל האצבע מציע לבחור רוחב של: 0. לשם השוואה, נשרטט גם את ההסטוגרמה עם ה 300 תאים:

שוב אנו רואים את ה :bias-variance tradeoff עבור בחירה של רוחב צר המשערך יכולה לקרב פרטים "עדינים" יותר, אבל השיערוך רועש יותר.זוהי שגיאת ה.variance עבור בחירה של רוחב רחב המשערך מחליק את הפרטים הקטנים, אבל השיערוך פחות רועש יותר. זוהי שגיאת.bias בעיית חיזוי: האם נסיעה התרחשה בזמן שעות העבודה בעיית חיזוי: האם נסיעה התרחשה בזמן שעות העבודה נניח ושעות העבודה ב YC מוגדרות כשעות שבין :00 ו 8:00. נגדיר משתנה אקראי בינארי התרחשה בזמן שעות העבודה ו- 0 אחרת. y אשר שווה ל אם נסיעה נרצה לבנות חזאי ל y על סמך x אשר ימזער את הrate.missclassification נעשה זאת תחת הגישה הגנרטיבית. נפעל בדומה לתרגיל.3. השלבים לפתרון הבעיה:. שיערוך הפילוג השולי של, y זאת אומרת (y). p^y,d. שיערוך הפילוג המותנה של x בהינתן, y זאת אומרת (x y), p^x y,d בעבור כל אחד משני הערכים של. y 3. בניית החזאי האופטימאלי בהינתן הפילוג המשוערך על פי: (y x). h(x) = arg max p^y x,d y שלב : שיערוך של (y) p^y,d y הוא משתנה דיסקרטי ולכן השיערוך של הפילוג שלו פשוט: נקבל כי: p^y,d (y) = I{y = y} i= p^y,d (y) = { 0. 0.49 y = y = 0 חיזוי עיוור 6

אם היה ברצונינו לתת חיזוי עיוור (ללא ידיעת ( x להאם נסיעה התרחשה במהלך שעות העבודה היינו מעוניינים לתת את החיזוי הבא: הסיבה שזהו החיזוי האידאלי נובעת ישירות מן העובדה שיש במדגם יותר נסיעות שהתרחשו בשעות העבודה. שיערכנו שיש סיכוי מעט יותר גדול שנסיעה אקראית תתרחש בשעות העבודה מכיוון שיש לנו סיכוי קטן יותר לטעות בעבור חיזוי זה. הערכת ביצועים לחיזוי עיוור y^ = arg max p^y,d (y) = y נחשב את ה missclassification rate של החיזוי העיוור (חיזוי קבוע של ) על ה.test set נקבל את הציון של:. 0.49 שלב : שיערוך (x y) p^x y,d נשתמש פעמיים ב KDE על מנת לשערך את הפילוג המותנה פעם אחת בעבור הדגימות שבהן = 0 y ופעם נוספת בעבור הדגימות שבהן = y : ניתן לראות כי ישנו שוני קטן בין הפילוגים. לנסיעות מחוץ לשעות העבודה ישנה נטיה קלה יותר לטובת זמני נסיעה קצרים יותר. הבדל קטן זה יעזור לנו לשפר את במעט את יכולת החיזוי שלנו. שלב 3: בניית החזאי עלינו לחשב את: h(x) = arg max p^y x,d (y x) y נתחיל בלהפוך את הפילוג המותנה בביטוי בעזרת חוק בייס על מנת לקבל ביטוי אשר תלוי בפילוגים שחישבנו: = arg max y (x y) p^x y,d p^y,d p^x,d (x) (y) כפי שציינו בתרגיל.3, ניתן להיפתר מהאיבר במכנה משום שהוא אינו תלוי ב : y

= arg max p^x y,d (x y) p^y,d (y) = { y 0 p^x y,d (x ) p^y,d () > p^x y,d (x 0) p^y,d (0) else מכאן שהחיזוי יהיה באיזורים שבהם (0) p^y,d p^x y,d (x ) p^y,d () > p^x y,d (x 0) ו- 0 בכל השאר. חישוב תנאי זה על פני כל התחום נותן את פונקציית החיזוי הבאה: מכאן שהחיזוי שלנו יהיה: y^( x ) = { 0 x.4 otherwise הערכת ביצועים נחשב את ה missclassification rate על ה.test set נקבל את הציון של:. 0.46 ציון זה הוא רק מעט יותר טוב מהחיזוי העיוור אשר היה נותן ציון של. 0.49 כפי שציינו קודם השיפור הקטן מגיע מההבדלים הקלים שבין שני הפילוגים של הנסיעות בשעות העבודה ומחוצה להן. במקרה זה קיבלנו אומנם שיפור קטן אך ככל שנסתמך בחיזוי שלנו על יותר משתנים השיפורים הקטנים האלו יצברו ונוכל בסוף להגיע לחיזויים מאד מדוייקים. 8