שאלון בחינה בקורס "נושאים מתקדמים בבינה מלאכותית" 98-859-90 מרצה: פרופ' שרית קראוס סמסטר ב' מועד א' 202..2. משך הבחינה: שלוש שעות מותר להשתמש בדף נוסחאות מצורף ובמחשבון 2 ענו על כל השאלות 2 שאלה 0 )06 נקודות( וPOP GraphPlan א 2 מצא את התוכנית לבעיה הבאה על ידי שימוש ב- 2GraphPlan פרט 2 Init(Have(Cake) Eaten(Cake)) Goal(Have(Cake) Eaten(Cake)) Action(Eat(Cake) Precond: Have(Cake) Effect: Have(Cake) Eaten(Cake)) Action(Bake(Cake) Precond: Have(Cake) Effect: Have(Cake)( ב 2 מצא את התוכנית בעזרת 2 Partial Order Planning
שאלה 2: )06 נקודות( MDPs נתון MDP עם 3 מצבים ושתי פעולות )R L(2 and הסתברויות המעבר הן: פעולה : L במצב 3: מצב 3 )תוצאות( פעולה : R במצב 3: מצב 3 )תוצאות( התגמול ב הוא. ובכל מצב אחר הוא 2 ירידת ערך תגמולים עתידיים )γ )gamma היא 220 מהם ערכי ה UTILITIES של שתי האיטרציות הראשונות ע"פ " ITERATIOIN VLAUE?"ALGORITHM אתחל הערכים ב 2 נניח שאחרי מספר איטרציות מצאת כי הערכים הכמעט אופטימלים הם: = 1.25 2 2U 1 = U 3 = 0.5 and U חשב את הפעולה הכי טובה ל מהערכים האלו 2 הסבר 2
שאלה 3: )06 נקודות( Reinforcement Learning הסביבה יכולה להיות באחד מארבעה מצבים ( 4,)s 1, s 2, s 3 and s והסוכן בכל צעד בוחר אחת מתוך שלוש פעולות ( 3 2)a 1, a 2 and a Q-Values שמורה כטבלה, המאותחלת עם הערכים הבאים: s = s 1 s = s 2 s = s 3 s = s 4 a = a 1 0.1 0.2 0.3 0.4 a = a 2 0.5 0.6 0. 0.8 a = a 3 0.9 1.0 1.1 1.2 המערכת מתחילה במצב של s 3 ושם הסוכן מחליט לבצע פעולה 2a 1 הסביבה מגיבה עם שם הסוכן בוחר את פעולה a 2 שבסוף אין לה תגמול תגמול של. וממשיכה למצב 2s 2 ומעבירה אותו למצב 2s 4 בטבלה משתנים 2 הבהר אילו Q-Values משתנים ובכמה כאשר חשב איך ה- Q-Values משתנה ירידת ערך תגמולים עתידיים )ϒ( היא 220 הסוכן עשה כל אחת מהפעולות הנ"ל 2 העדכון, α, הוא.22 שאלה : 4 06( נקודות( Equilibrium שתי שחקניות טניס משחקות וכעת התור של שחקנית א להגיש 2 היא יכולה לכוון לחבטת גב היד של שחקנית ב או לחבטת קדם היד שלה 2 לשחקנית א יש חבטת הגשה יותר טובה כאשר היא מכוונת לחבטת גב היד של שחקנית ב 2 אם שחקנית ב מצליחה לנבא את כיוון הכדור )גב היד או קדם היד(, הסיכוי שהיא תחזיר את הכדור הוא פי שלוש יותר טוב מאשר כשהיא טועה בכיוון הכדור 2 הסתברויות ייצגו את התועלת: התועלת של שחקנית א תהיה ההסתברות ששחקנית ב לא תחזיר את הכדור; התועלת של שחקנית ב תהיה ההסתברות שהיא כן תחזיר את הכדור 2 להלן טבלת המשחק: חבטת גב היד_שחקנית א חבטת קדם היד_שחקנית א חבטת גב היד_שחקנית ב 20 22 2. 20 חבטת קדם היד_שחקנית ב 23 20 20 2. מצא את כל ה- equilibria Pure and mixed ( Nash אם קיימים( במשחק הזה 2 מה ה expected utility של כל אחד מהשחקנים ב- equilibrium?
מצא כל ה- Subgame Perfect Nash Equilibria של המשחק הבא: שאלה :5 Separating Pooling and )29 נקודות( הרבה בחורים יפי-תואר היו רוצים להתחתן עם ברבי, נסיכה יפה 2 לברבי לא אכפת עם מי היא תתחתן, העיקר שיהיה עשיר 2 אמנם לברבי אין מושג כמה יש לכל אחד בחשבון בנק שלו 2 היא יכולה להודיע שהיא תתחתן עם מי שיוציא c$ על מתנה מפוארת אבל חסרת תועלת בשבילה 2 אם איש עשיר ייתן לה מתנה שעולה c, היא תתחתן איתו וה utility שלו יהיה 2/c - 21000 אם איש עני ייתן לה מתנה שעולה c, היא תתחתן איתו וה utility שלו יהיה - c 21000 ה utility של בחור שלא מציע לברבי מתנה ואשר היא לא מתחתנת איתו יהיה 2 אם ברבי היתה יודעת שיש בחור עשיר, היא היתה מעדיפה להתחתן איתו ושהוא לא יקנה לה את המתנה המפוארת 2 ה utility שלה במקרה והיא מתחתנת עם בחור עשיר שנותן לה מתנה מפוארת שעולה c$ יהיה c 2000, וה utility שלה במקרה והיא מתחתנת עם איש עני שנותן לה מתנה מפוארת שעולה c$ יהיה c 2500
ברבי היא זאת שמחליטה מהי העלות c$ של המתנה המפוארת שהיא דורשת 2 אילו ערכים של c$ יובילו ל separating equilibrium ואילו ערכים של c$ יובילו ל pooling?equilibrium לפני שמתנה כלשהיא ניתנת לברבי, היא מניחה שההסתברות שבחור יפה-תואר ועשיר ירצה להתחתן איתה היא p ושההסתברות שהוא יהיה עני היא p 21 עבור אילו ערכים של p היא תקבל utility יותר גבוה ממה שצפוי כאשר היא בוחרת = 0 c ולא ערך אחר כלשהוא של c? נ 2 ב 2 כמובן שהשאלה היא פרודיה על הנושא ואין כוונה לפגוע במשהוא 2 שאלה 6:)06 נקודות( Argumentation נתונה מערכת ארגומנטציה כמתואר בגרף הבא: א 2 מצא את קבוצות הארגומנטים שהן,Conflict Free מי מתוכן?admissible ב 2 מצא את כל הארגומנטים שהם justified תחת סמנטיקת preferred במערכת הנתונה 2