עקרונות ויישומים בניתוח סטטיסטי סמסטר א', תשע"ו שאלה 1: תרגיל 1 -סטטיטיקה תיאורית להלן נתונים על שכר מנהלים של חברות קטנות, כפי שהתפרסמו ב Forbs בשנת

שאלה 1: תרגיל 1 -סטטיטיקה תיאורית להלן נתונים על שכר מנהלים של חברות קטנות, כפי שהתפרסמו ב Forbs בשנת 1983. בשאלה זו נתמקד בתיאור הנתונים שבקובץ ובחישוב מדדים שונים. ניתן לעשות זאת ידנית, בתוכנת אקסל או בתוכנת R. הפקודות עבור תוכנת R ניתנות בסוף השאלה. Reference: Forbes, November 8, 1993, "Amerca's Best Small Companes,". Descrpton: Small companes were defned as those wth annual sales greater than fve and less than $350 mllon. Companes were ranked accordng to 5-year average return on nvestment. Ths data covers the frst 60 ranked frms. Number of cases: 60* Varable Names: 1. Age: Age of chef executve offcer 2. Sal: Salary of chef executve offcer (ncludng bonuses), $thousands The Data: AGE SAL 53 145 43 621 33 262 45 208 46 362 55 424 41 339 55 736 36 291 45 58 55 498 50 643 49 390 47 332 69 750 51 368 48 659 62 234 45 396 37 300 50 343 50 536 50 543 58 217 53 298 57 1103 53 406 61 254 47 862 56 204 44 206 46 250 1

58 21 48 298 38 350 74 800 60 726 32 370 51 536 50 291 40 808 61 543 63 149 56 350 45 242 61 198 70 213 59 296 57 317 69 482 44 155 56 802 50 200 56 282 43 573 48 388 52 250 62 396 48 572 * בקובץ המקורי תצפית אחת ללא נתון על שכר. זה מאוד אופייני לקבצי נתונים ואנו הורדנו את התצפית מהקובץ לשם פשטות. התמודדות עם ערכים חסרים היא בעיה נפוצה מאוד ולא פשוטה, אך אנו לא נוכל בקורס זה לדון בה. למתעניין מומלץ להתחיל לקרוא על התופעה בויקיפדיה.https://en.wkpeda.org/wk/Mssng_data א. חשבו את הגיל והשכר הממוצע והחציוני. ב. חשבו את העשירון העליון של השכר ורשמו את גיל המנהלים ששכרם גבוה מהעשירון העליון. האם גילאים אלה נמוכים או גבוהים מהגיל הממוצע? ג. חשבו את סטיית התקן של השכר. כמה מנהלים נמצאים במרחק של סטיית תקן אחת מממוצע השכר? כמה נמצאים שתי סטיות תקן מהממוצע? ד. ציירו היסטוגרמה של הגילאים ושל השכר. האם ההתפלגות סימטרית? ה. ציירו את הגיל מול השכר, האם יש קשר בין המשתנים? שימוש ב - R: הכנסת נתונים: Age = c(53,43,33,45,46,55,41,55,36,45,55,50,49,47,69,51,48,62,45,37,50,50,50,58,53,57,53,61,47,56, 44,46,58,48,38,74,60,32,51,50,40,61,63,56,45,61,70,59,57,69,44,56,50,56,43,48,52,62,48) 2

Sal = c(145,621,262,208,362,424,339,736,291,58,498,643,390,332,750,368,659,234,396,300,343,536,543, 217,298,1103,406,254,862, 204,206,250,21,298,350,800,726,370,536,291,808,543,149,350,242,198, 213,296,317,482,155,802,200,282,573,388,250,396,572) שימו לב כי הכנסנו נתונים בצורה ישירה. בקבצים בגודל זה או גדולים יותר יהיה קל יותר לקרוא את הנתונים מקובץ חיצוני, בדרך כלל המסתיים בסיומת.csv השם של המשתנים נשמר בתוכנה ויש להקפיד על אותיות גדולות וקטנות. חישוב ממוצע: mean(age) mean(sal) medan(age) medan(sal) חישוב חציון: חישוב אחוזונים :)quantles( quantle(age,0.9) quantle(sal,0.9) Age[Sal>738.8] סוגריים מרובעות מציינות לתוכנה לבחור רק את אותן התצפיות המתאימות לתנאי. לכן אנו בוחרים רק את אותם הגילאים שהשכר שלהם גדול מ -.738.8 חישוב סטיית תקן: sd(sal) abs.df = abs(sal-mean(sal)) abs.df sd.df = abs.df/sd(sal) sd.df sum(sd.df <= 1) sum(sd.df <= 2) הפקודה השניה יוצרת משתנה חדש בשם abs.df המציין את הסטייה מהממוצע. ניתן לראות את הנתונים על ידי הקלדת שם המשתנה )שורה שלישית(. המשתנה sd.df מציין את המרחק האבסולוטי מהממוצע במונחים של סטיות תקן )למעשה זה ערך מוחלט של הציון המתוקנן(. הפקודה sum סוכמת לנו את המשתנה. כאשר מפעילים את הפקודה sum על תנאי לוגי היא מחזירה את מספר התצפיות המקיימות את אותו התנאי )כאן מספר התצפיות שהערך המוחלט של הציון המתוקנן קטן או שווה ל - 1 ול - 2(. על מנת לחשב את הסטטיסטיקות למשתנה גיל, יש להחליף בפקודות שלמעלה את Sal עם המשתנה.Age היסטוגרמה: hst(sal) hst(sal,breaks=10) hst(sal,breaks=10,freq=false) הפקודה hst מחזירה היסטוגרמה עם חלוקה לתאים על פי ברירת מחדל מסויימת. ניתן לשלוט על מספר החלוקות על ידי שימוש בפקודה,freq=FALSE במקרה בו.freq של ההיסטוגרמה הוא מספר התצפיות בכל תא. ניתן לשנות זאת להסתברות על ידי האופציה Y - ציר ה.breaks השטח הכולל של ההיסטוגרמה הוא 1. על מנת לחשב את ההיסטוגרמה למשתנה גיל, יש להחליף בפקודות שלמעלה את Sal עם המשתנה.Age 3 גרף פיזור:

plot(age,sal) שאלה 2: בשאלה זו נתייחס לקובץ הנתונים שראיתם בהרצאה הנקרא : frstgoalclean.csv המתאר נתונים ממשחקי כדורגל. ניתן לפתור את השאלה בתוכנת אקסל או בתוכנת R. הפקודות עבור תוכנת R ניתנות בסוף השאלה. א.ציירו היסטוגרמה של המשתנה FGM המתאר את הדקה בה הובקע השער הראשון. ב.ציירו הסיטוגרמה של המשתנה HF המתאר את מספר העברות שביצעה הקבוצה הביתית, מה תוכלו להגיד על התפלגות של?FGM לעומת התפלגות HF ג.חשבו את סטיית התקן והממוצע של המשתנים : FGM ו-.HF ד.עבור כל אחד מהמשתנים הנ"ל,חשבו את מספר התצפיות הנמצאות במרחק חצי סטיית תקן אחת מהממוצע. ציירו היסטוגרמה של ציוני התקן של כל אחד מהמשתנים. ה.חשבו את האחוזון ה- 40 וה- 70 של המשתנה.FGM שימוש ב- R : קריאת קובץ : csv football = read.csv("c:/users/xxx/desktop/frstgoalclean.csv") כאשר משתמשים בפקודה זו,צריך לדעת באיזו ספריה קובץ הנתונים נמצא ולהכניס את מיקום הספריה לתוך הסוגריים. ניתן לבחור כל שם לקובץ הנתונים כאשר עכשיו נבחר השם.football: דרך שניה לקרוא קבצי csv היא דרך לחצן R. studo הנמצא בחלון הימני העליון של mport data hst(football$fgm) hst(football$hf) mean(football$fgm) mean(football$hf) הסיטוגרמה: חישוב ממוצע: חישוב סטית תקן: sd(football$fgm) sd(faotball$hf) חישוב מספר התצפיות שנמצאות במרחק של חצי סטיית תקן מהממוצע: abs.df = abs(football$fgm -mean(football$fgm)) sd.df.fgm = abs.df/sd(football$fgm) sum(sd.df.fgm <= 0.5) על מנת לחשב את מספר התצפיות זה עבור המשתנה HF,יש להחליף בפקודות את המשתנה FGM עם המשתנה.HF היסטוגרמה של ציוני התקן מול הסיטוגרמה של המשתנה המקורי : HF <- football$hf b.p <- mn(hf):max(hf) hst(football$hf,breaks=b.p) b.p.z <- (b.p-mean(hf))/sd(hf) hst((hf-mean(hf))/sd(hf),breaks=b.p.z) על מנת לצייר היסטוגרמה זו עבור המשתנה FGM,יש להחליף בפקודות את המשתנה HF עם המשתנה.FGM חישוב אחוזונים: quantle(football$fgm,0.4) 4

quantle(football$fgm,0.7) שאלה 3: תלמידים באוניברסיטה העברית נבחנו בקורס מיקרו כלכלה.עקב ממוצע ציונים נמוך,החליטה המחלקה לכלכלה לתת פקטור לבחינה. המחלקה התלבטה בין שתי הצעות: לתת תוספת של b נקודות לכל תלמיד או תוספת של %a מהציון לכל תלמיד. א.כיצד הממוצע הכולל ישתנה לפי כל אחת מההצעות? ב.כיצד סטית התקן של הציונים תשתנה לפי כל אחת מההצעות? ג.כיצד החציון ישתנה לפי כל אחת מההצעות? ד.בהינתן שלפני הפקטור התפלגות הציונים בעלת זנב שמאלי )כלומר הרבה תלמידים נכשלו בבחינה(, האם להתפלגות לאחר הפקטור יוותר זנב ימני לפי כל אחת מההצעות? ה. אחד המרצים הציע פקטור שורש. כלומר,כדי לקבל את הציון החדש יש להוציא שורש לציון הישן והלכפיל בעשר. בהנתן כי הממוצע והחציון של הציונים היו 70 ו - 65 בהתאמה, האם ניתן לדעת את הממוצע החדש על בסיס הממוצע המקורי? האם ניתן לדעת את ערך החציון על בסיס החציון המקורי? שאלה 4: בשאלה זו נבדוק את תכונות הטרנפורמציה הלינארית שהוכחתם בשאלה 3 על קובץ נתונים אמיתי.לצורך כך,נשתמש בקובץ של שאלה 1. נניח כי כל אחד מהמנהלים מחויב לשלם מס קבוע בגובה של 10000 דולר ועוד מס של 20% על השכר הכולל. )ראשית מורידים 20% ואז משלמים 10000 דולר(. צרו משתנה חדש של השכר אחרי טרנספורמציה זו וענו על הסעיפים הבאים: א. חשבו את השכר הממוצע והחציוני החדש. ב. חשבו את סטית התקן החדשה. ג. נניח כי המס הינו רק מס קבוע בגובה 10000 דולר,ציירו היסטוגרמה של השכר לאחר הורדת מס זה. מה תוכלו להגיד על היסטוגרמה זו בהשוואה להיסטוגרמה שהתקבלה בשאלה 1? שימוש ב- R : יצירת משתנה לאחר טרנספורמציה: after.sal=0.8*sal-10 פקודה זו יוצרת משתנה חדש אחרי הטרנספורמציה של השכר בשם after.sal.שימו לב כי הנתונים המקוריים הם באלפים ול כן החסרנו רק 10. mean(after.sal) sd(after.sal) medan(after.sal) חישוב ממוצע,חציון וסטית תקן: ציור היסטוגרמה: hst(sal-10,breaks=10,freq=false) 5

שאלה 5: בשאלה זו נבדוק האם תיקנון משנה את צורת ההתפלגות. יהי מתוקנן Z מוגדר להיות Z = X θ σ נגדיר משתנים מתוקננים z 1,, z n על ידי א. הוכיחו כי מתקיים. E( Z) 0, Var( Z) 1. באופן דומה, אם x 1,, x n. z = x x SD(x) X משתנה מקרי בעל תוחלת θ וסטיית תקן. σ משתנה מקרי הם אוסף נתונים בעלי ממוצע x וסטיית תקן,SD(x) אנו. z 0, SD( z) ב. הוכיחו כי מתקיים 1 ג. השתמשו בקובץ הנתונים של שאלה 1 וצרו משתנים מתוקננים למשתנה הגיל והשכר במקום המשתנים המקוריים )הפקודה הבאה יוצרת משתנה מתוקנן לשכר בשם.)Z.Sal Z.Sal = (Sal-mean(Sal))/sd(Sal) ד. חשבו את הממוצע ואת סטיית התקן של המשתנים המתוקננים. ה. צרו היסטוגרמות של המשתנים המתקוננים ושל המשתנים המקוריים. מה ההבדל בין ההיסטוגרמות? שאלה 6:, 1, x אוסף נתונים כלשהו ויהיו יהי xn c, a, b, קבועים. נסמן d y ax b ו - d w cx עבור,. 1, הראו כי, n w), Zw ( w w) / SD( ציון התקן של, זהה ל - y, Z ציון התקן של y ( y y) / SD( y) משתנים עם טרנספורמציות לינאריות.. w דהיינו, ציוני התקן אינם שאלה 7: v x y נתונות שתי סדרות שוות אורך של מספרים:,x1,...,x2 xn ו-.,y1,...,y2 yn נגדיר שתי סדרות חדשות באופן הבא: ו-. w x y בכל אחד מהסעיפים הבאים מופיע מדד כלשהו )מרכז או פיזור(.קבע והאם: 1.מדד זה של סדרת ה- w -ים הוא סכום המדדים המתאימים של סדרת ה-- x םי- וסדרת ה- y -ים, 2.מדד זה של סדרת ה- v -ים הוא מכפלת המדדים המתאימים של סדרת ה- x -ים וסדרת ה- y -ים. אם תשובתכם היא "כן" הוכיחו. אם תשובתכם היא "לא" מצאו דוגמא נגדית. 6

א. ממוצע ב. חציון ג. שכיח ד. שונות ה. סטית תקן שאלה 8:, 1, x ועלינו לבחור ערך מספרי כלשהו )לאו דווקא מבין הנתונים(. אנו מציעים לנו את המשחק הבא: מראים לנו נתונים xn צריכים לבחור ערך מרכזי מייצג C שיהיה הטוב ביותר במובן הבא: C א. מספר הערכים השונים מ - יהיה הקטן ביותר. 1 n n 1 x C C ב. המרחק האבסולוטי הממוצע מ - מינימלי )דהיינו קטן ככל האפשר(. 1 n n 1 ( x C) 2 C ג. ריבוע המרחק הממוצע מ - מינימלי )דהיינו קטן ככל האפשר(. מה הוא C בכל אחד מהמקרים? האם הוא יחיד תמיד? הוכח. בשאלה זו כדאי להסתייע בקובץ קטן של מספרים: למשל n 6 והנתונים: 2,2,5,9,9,33 7