תירואית הקיטסיטטס מבוא ומושגים בסיסיים סטטיסטיקה תיאורית ראשית, עלינו להבין מהי סטטיסטיקה. סטטיסטיקה היא ענף במתמטיקה הנשען על תורת ההסתברות ועוסק באי

גודל: px
התחל להופיע מהדף:

Download "תירואית הקיטסיטטס מבוא ומושגים בסיסיים סטטיסטיקה תיאורית ראשית, עלינו להבין מהי סטטיסטיקה. סטטיסטיקה היא ענף במתמטיקה הנשען על תורת ההסתברות ועוסק באי"

תמליל

1 תירואית הקיטסיטטס מבוא ומושגים בסיסיים סטטיסטיקה תיאורית ראשית, עלינו להבין מהי סטטיסטיקה. סטטיסטיקה היא ענף במתמטיקה הנשען על תורת ההסתברות ועוסק באיסוף, ארגון וניתוח של נתונים. במדעי-החברה, סטטיסטיקה משמשת בעיקר לארגון, ניתוח והצגת מסקנות לגבי קבוצות אנשים באוכלוסייה. מטרתה המרכזית של הסטטיסטיקה הינה לזהות ולקבוע ערכים המשקפים את נטיותיהם ומאפייניהם של נבדקים באוסף גדול של תצפיות או מדידות. כמו כן, סטטיסטיקה היא תורה המיועדת לאפשר הסקת מסקנות מנתונים שניתן לבטא אותם בערכים כמותיים. לפיכך, סטטיסטיקה הינה תורת האיסוף, העיבוד, הפיתוח, ההיסק וההצגה של נתונים לגבי תופעות שניתן לבטאן בצורה כמותית. באופן מסורתי, נהוג להבחין בין שני ענפים מרכזיים בסטטיסטיקה:. 1 סטטיסטיקה תיאורית: ענף העוסק באפיון והצגת מידע אודות נתונים של אוסף תצפיות או אוכלוסייה מסוימת. מטרת הסטטיסטיקה התיאורית הינה לתאר ולהציג כמות גדולה של מידע באופן תמציתי, המתמקד במאפיינים העיקריים של הנתונים. מטרה זו מושגת באמצעות הצגה גרפית, מדדי מרכז, מדדי פיזור ומדדי מיקום יחסי, כפי שיורחב בהמשך.. סטטיסטיקה היסקית: ענף העוסק בשיטות המאפשרות להסיק מתוך נתונים של קבוצה )כלומר מדגם( לגבי האוכלוסייה כולה. בניגוד לסטטיסטיקה התיאורית, המוגבלת לתיאור המידע שהתקבל מהמדגם, הסטטיסטיקה ההיסקית מבוססת על הסקה הסתברותית, ושואפת להסיק מתוך המדגם על האוכלוסייה כולה, תוך התייחסות להסתברות שהמסקנות נכונות וההסתברות שקיימת טעות בהסקה. כעת נסקור בקצרה מספר מושגים בסיסיים בסטטיסטיקה, אשר ילוו אותנו בהמשך: אוכלוסייה היא מונח המתייחס לכל הפרטים המשתייכים לקבוצה מסוימת )לדוגמה: כל הנשים בעולם, כל הסטודנטים באוניברסיטה העברית, כל הנעליים מסוג 'Nike' המיוצרות בישראל, כל הבקבוקים של תמיסה מסוג A המיוצרת במעבדה מסוימת, וכו'(. נהוג להתייחס לאוכלוסייה כאינסופית ובלתי-ניתנת למדידה, משום שהיא כוללת את כל הפרטים השייכים אליה מעבר לזמן )כלומר כאלו השייכים אליה בהווה, אך גם כאלו שהשתייכו אליה בעבר ושישתייכו אליה בעתיד(. עם זאת, במדעי-החברה ניתן להתייחס לאוכלוסייה גם כאל קבוצה סופית אך בלתי-ניתנת למדידה )למשל, אוכלוסיית הסובלים מהפרעות אישיות ברחבי העולם(, או כאוכלוסייה סופית וניתנת למדידה )למשל, אוכלוסיית הנבחנים במבחן המתא"ם בשנת 011(. מדגם מתייחס לקבוצה נמדדת של פרטים מתוך כלל האוכלוסייה. כמעט תמיד, החוקר במדעי-החברה מנסה לברר דבר-מה לגבי האוכלוסייה. אולם היות שבדרך-כלל מדידת כלל האוכלוסייה הינה משימה בלתי-אפשרית מבחינת המשאבים שהיא דורשת, האפשרות היחידה של החוקר היא לקבוע שיטת מדידה ולאסוף נתונים בכמות מצומצמת יותר מכלל האוכלוסייה. נתונים נמדדים אלו שייכים לקבוצה מסוימת מתוך כלל האוכלוסייה, ממנה ינסה החוקר להסיק לגבי האוכלוסייה כולה. משתנה הינו ערך כמותי היכול לקבל ערכים שונים, כלומר תכונה נמדדת המקבלת ערכים שונים עבור תצפיות שונות ופרטים שונים. למשל, המשתנה "משקל" הינו מדד לגבי משקלו של אדם, אשר מקבל ערך ספציפי עבור כל פרט באוכלוסייה. משתנים יכולים להיות רציפים או בדידים: 9

2 משתנה בדיד הוא משתנה שבין כל שני ערכים בסולם המדידה שלו קיים מספר סופי של נקודות. לדוגמה, המשתנה "מספר הספרים בספרייה" יכול לקבל רק ערכים שהם מספרים שלמים, ואילו המשתנה "מספר חדרים בדירה" יכול לקבל רק ערכים הנעים בקפיצות של ) חדרים, 3 חדרים, 3.5 חדרים וכו'(. משתנה רציף הוא משתנה שבין כל שני ערכים שלו קיים מספר אינסופי של נקודות. לדוגמה, המשתנה "משקל העכבר" במעבדה יכול לקבל כל ערך מספרי בין משקלו של העכבר הקל ביותר לבין זה של הכבד ביותר. בהתאם לכך, קיים הבדל במשמעות המספר המבטא ערך של משתנה בדיד או של משתנה רציף. כאשר מדובר במשתנה בדיד, למשל "מספר הספרים בספרייה", הערך 10 מייצג בדיוק 10 ספרים. לעומת זאת, כאשר מדובר במשתנה רציף, למשל "משקל העכבר", הערך 10 גרם יכול להיות מעוגל )לפחות במידת מה( ולייצג את כל העכברים שמשקלם נע בין ובין 10.5 גרם. חישובים מסוימים הנעשים על משתנה בדיד, יכולים להפוך אותו למשתנה רציף. לדוגמה, המשתנה "ממוצע ילדים במשפחה" יכול לקבל ערך לא שלם )ולכן הוא משתנה רציף(, בעוד שהמשתנה ממנו הוא חושב, "מספר הילדים במשפחה", הוא משתנה בדיד. קבוע הוא גודל שאיננו משתנה. דוגמה לקבוע הוא למשל פאי )π(, שגודלו הוא תמיד 3.14 )בקירוב(. קבוע יכול להיות גם מספר שרירותי, שבנסיבות מסוימות נותר קבוע לכל הפרטים בקבוצה מסוימת. לדוגמה, אם מנהל חברה החליט להוריד את משכורות כל עובדיו ל ש"ח, הרי שבמקרה זה משכורת העובדים היא קבוע )תמיד 4000( ואינה משתנה. כמו כן, אם המנהל החליט להעניק העלאה של 10% לכל עובדיו, הרי שכל ערכי הקבוצה הוכפלו בקבוע שערכו 1.1. ערכי המשכורות של העובדים עדיין יהיו שונים זה מזה, אולם אחוז ההעלאה של כולם הוא קבוע. בסטטיסטיקה, נהוג להתייחס למדדי התיאור של האוכלוסייה )כגון ממוצע או שונות( כאל קבוע, בעוד שלאותם מדדים במדגם נהוג להתייחס כאל משתנה. הסיבה לכך היא שלכל מדגם ייתכן ערך אחר עבור אותו מדד, אולם לאוכלוסייה עצמה יש רק ערך אחד כזה. לדוגמה, ממוצע הגובה באוכלוסיית פועלי הבניין הוא תמיד 1.78 )קבוע(, אולם בכל פעם שנדגום קבוצה אחרת מתוך אוכלוסייה זו, נקבל ממוצע גובה שונה )משתנה(. מדידות ותצפיות עד כה השתמשנו מספר פעמים במונחים "תצפיות" ו-"מדידות". המונח "תצפית" מתייחס לפרט אחד מתוך קבוצה. במדעי-החברה, בדרך-כלל נכנה את הפרטים במדגם )האנשים אותם דגמנו( "תצפיות". לעומת זאת, המונח "מדידה" מתייחס לתוצאה המתקבלת על ידי שימוש במכשיר מדידה )למשל, עבור התצפית "דני" התקבלה המדידה "75.1"(. מדידה היא אחת הפעולות החשובות ביותר בכל תהליך מדעי, שכן באמצעות מדידה אנחנו אוספים מידע לגבי העולם. בעזרת המדידה ניתן לכמת משתנים, כלומר לבטאם בעזרת מספרים )לדוגמה, אנחנו יכולים לומר "דני הוא חכם", אבל יהיה מדעי יותר למדוד את ערך ה- IQ שלו(. ככל שהמדידה מאפשרת ביטוי רחב יותר בערכים מספריים, קל יותר לבצע פעולות מתמטיות, כלומר להשתמש בכלים הסטטיסטיים. עם זאת, לא כל המדידות מבוצעות בכלי מדידה המאפשרים ביטוי מספרי מלא. לשם כך עלינו להבחין בין מספר סולמות מדידה שונים. 10

3 תירואית הקיטסיטטס סוגי משתנים וסולמות מדידה בסיווג משתנים, ניתן להבחין בין משתנים כמותיים, שערכיהם מייצגים כמויות מספריות של המשתנה הנמדד, ובין משתנים איכותיים, שערכיהם אינם נמדדים בכמויות מספריות. משתנה כמותי: משתנה כמותי הוא משתנה שערכיו הם מספריים ומייצגים תופעה כמותית נמדדת. לגבי משתנה כמותי, ניתן לומר כי שני ערכים שונים שלו מייצגים בהכרח כמות שונה של התופעה הנמדדת, וכי קיימות יחידות מדידה אבסולוטיות לכמויות אלו. דוגמאות למשתנים כמותיים הן רבות מאוד וכוללות: גובה, משקל,,IQ סכום כסף, משך זמן, מספר ילדים במשפחה, אחוז הלחות באוויר וכו'. בכל הדוגמאות הנ"ל המשתנה מייצג ערכים כמותיים של תופעה נמדדת, אשר ניתן למדוד אותה בצורה אבסולוטית. לדוגמה, "משך זמן" יכול להימדד בשניות, בדקות, בשעות או בשנים, בכל המקרים, הוא מייצג ערכים כמותיים אשר יחידות המדידה שלהם קבועות )לכן, ניתן לדעת בדיוק בכמה שעה ארוכה יותר מדקה(. כסף נמדד באגורות ושקלים, סנטים ודולרים, או כל סוג מטבע אחר שהינו אבסולוטי, כך שהרווחים בין ערכיו הם קבועים ומדידים. משתנה איכותי: משתנה איכותי הוא משתנה המייצג תופעה שהיא אינה כמותית מבחינה מהותית. דוגמאות למשתנים איכותיים יכולות להיות: מגדר, מקצוע, תחום התמחות, סוג ההפרעה הנפשית, סוג חיית המחמד, שם חיית המחמד וכו'. בכל המקרים הללו אנחנו יכולים, אם נבחר, לייצג את ערכי המשתנה במספרים )למשל, במשתנה "מגדר" 0 מייצג גברים ו- 1 מייצג נשים( אולם התופעה הנמדדת אינה כמותית או מספרית מטבעה, וההחלטה לייצג אותה במספרים היא בהכרח שרירותית )באותה המידה היינו יכולים להחליט כי 0 מייצג נשים ואילו 1 מייצג גברים(. משתנים איכותיים יכולים להיות גם משתנים שיש בהם היררכיה הקשורה ל"גודל": למשל, מקום ראשון, שני, שלישי. רמת חרדה 1, או 3. אולם, אין ערכים אבסולוטיים למדידה זו )"מקום ראשון" אינו נמדד בערך כמותי קבוע מסוים המבחין אותו באופן שיטתי מ"מקום שני"(, ולכן, הם לא נחשבים ערכים כמותיים. המשתנים השונים מובחנים מבחינת סוג ארגון הנתונים והפעולות המתמטיות שניתן לבצע עליהם. את כל אחד משני סוגי המשתנים )איכותיים וכמותיים( ניתן לחלק מבחינה זו לשני סוגי סולמות עליהם המשתנה נמדד: סולמות של משתנים איכותיים משתנים איכותיים יכולים להימדד באחד משני סולמות:. 1 סולם שמי / נומינלי משתנה שלערכיו אין כלל משמעות כמותית או של גודל יחסי. מכיוון שאין לערכים משמעות כמותית, לא ניתן לומר שערך מסוים הינו גדול או קטן לעומת ערך אחר. מסיבה זו, ערכיו של משתנה שמי לרוב יצוינו במילים )לדוגמה, המשתנה "צבע שיער" יקבל את הערכים שחור, בלונדיני, ג'ינג'י, וכו'(. גם אם במקרים מסוימים יינתן למשתנים אלו ערך מספרי, לא תהיה לערך זה משמעות כמותית. כבר נתקלנו בדוגמה של המשתנה השמי "מגדר", שנהוג לסמנו בערכים מספריים )גבר= 0 ; אישה= 1 (, אך הערכים הם שרירותיים ואינם מעניקים מידע כמותי כלשהו. נהוג לומר כי בסולם שמי הערך מייצג זהות בלבד, כלומר הסולם מאפשר הבחנה בין ערכים )צבע עיניים כחול שונה מצבע עיניים ירוק( אך ללא כל השוואת גודל ביניהם. דוגמה נוספת היא המשתנה "עיר מגורים": תצפית מקבוצת "תל-אביב" )נבדק המתגורר בת"א( תקבל ערך שונה מתצפית מקבוצת "חיפה" או "ירושלים", אבל כל עוד זהות הערכים נשמרת )דומים/שונים(, הערכים עצמם הינם שרירותיים. דוגמה טובה נוספת למשתנה מסולם שמי הוא 11

4 מספר כרטיס אשראי, מכיוון שספרותיו אינן מציינות גודל יחסי או מוחלט, אלא זהות בלבד. מספר האשראי מאפשר הבחנה בין כרטיס אחד למשנהו, אולם אין לו משמעות כמותית, ולא ניתן לערוך השוואת גודל או כמות בין מספרי כרטיסים שונים.. סולם סדר / אורדינלי משתנה בסולם סדר הוא משתנה שאין לו משמעות כמותית והוא אינו נמדד באמצעות יחידות מדידה אבסולוטיות )בדומה לסולם שמי(, אולם ערכיו מבטאים גודל יחסי. במשתני סדר ניתן לומר כי ערך מסוים הוא "יותר" או "פחות" מערך אחר, אך לא ניתן לומר בכמה יותר או פחות. אחת הדוגמאות המייצגות למשתנים מסולם סדר היא מיקום בתחרות )ראשון, שני, שלישי, וכו'(. ניתן לומר כי הזוכה במקום הראשון ממוקם גבוה יותר מהזוכה במקום השני, וכי השני ממוקם גבוה יותר מהשלישי, אולם לא ניתן לקבוע בכמה. למשל, ייתכן שהזוכה במקום הראשון סיים את התחרות בציון של 100, המקום השני בציון של 99, והשלישי בציון של 70. באותה המידה, ייתכן כי הראשון סיים בציון 70, השני ב- 65 והשלישי ב- 40. דוגמה נוספת היא דירוג מידת החיבה של ילד לממתקים שלו: "אוהב מאוד", "אוהב קצת", "לא אוהב כלל". משתנה זה הוא מסוג סדר, משום שיש משמעות לסדר הקטגוריות אך לא לרווחים ביניהם. בניגוד לסולם שמי, שם היינו יכולים להחליף בין 0 ו- 1 לסימון גבר או אישה, כאן איננו יכולים להחליף בין "אוהב מאוד" ו-"לא אוהב כלל" מבלי לפגוע בנתונים, כלומר יש משמעות לסדר שלהם אולם אין משמעות להפרש ביניהם )מה ההפרש בין אוהב מאוד לאוהב קצת? ובין אוהב קצת ללא אוהב בכלל? לא ניתן לדעת(. לסיכום, בסולם סדר יש משמעות הן לזהות ושוני הערכים והן לסדרם, אולם אין כל משמעות להפרשים ביניהם, שאינם קבועים, ולמעשה אינם מוגדרים. סולמות של משתנים כמותיים משתנים כמותיים יכולים להימדד באחד משני סולמות: 1. 1 סולם רווח במשתנים מסולם רווח יש משמעות כמותית לא רק לערכים עצמם, אלא גם להפרשים ביניהם. הערכים בסולם זה נמדדים באמצעות יחידות מדידה אבסולוטיות )כלומר הערכים מייצגים משמעות כמותית טבעית של התופעה הנמדדת(, ולכן לרווחים שבין הערכים ישנה משמעות קבועה. דוגמה למשתנה כמותי מסולם רווח היא טמפרטורה. בין אם נמדוד אותה במעלות צלסיוס או פרנהייט, הערכים מייצגים תופעה פיזיקלית טבעית בעלת כמות )במציאות יש חום וניתן למדוד אותו בצורה כמותית(, וההפרשים ביניהם קבועים, כך שההפרש בין 30 o צלסיוס ובין 40 o צלסיוס, הוא בדיוק ההפרש שבין 80 o צלסיוס ובין 90 o צלסיוס. עם זאת, למרות שהערכים עצמם מייצגים תופעות פיזיקליות כמותיות, בסולם רווח נקודת האפס הינה שרירותית, כלומר היא אינה מייצגת העדר מוחלט של התופעה הנמדדת. מכיוון שנקודת האפס שרירותית, לא ניתן לדבר על יחס בין ערכים )ערך מסוים גדול פי X מערך אחר(. אם נחזור לדוגמה של מעלות צלסיוס, הרי שנוכל לראות שהערך 0 o C אינו מייצג היעדר מוחלט של חום. זוהי נקודת אפס שרירותית, משום שהיא נקבעה כך כדי לייצג את מידת החום בה מים קופאים, ולא משום שבנקודה זו אין יותר תופעה נמדדת )חום(. מסיבה זו, לא ניתן לדבר על יחס בין ערכים. לדוגמה, לא ניתן לומר כי יום בו נמדדות 40 o הינו חם פי שניים לעומת יום בו נמדדות 0. o לעומת זאת, ניתן לחשוב על מדד אחר לטמפרטורה סולם קלווין בו לא רק שלתופעה הנמדדת יש משמעות כמותית טבעית )חום(, אלא שנקודת האפס שלו מייצגת העדר מוחלט ואמיתי של התופעה )אפס בסולם קלווין הוא העדר חום, ושווה למינוס 73 מעלות צלסיוס(. למעשה, כך ניתן להבין מדוע לא ניתן לדבר על יחס בין ערכים: ביום בו מידת החום היא 40 מעלות צלסיוס, כמות החום "האמיתית" )לפי נקודת אפס שאינה שרירותית( היא לעומת זאת,

5 תירואית הקיטסיטטס ביום בו נמדדות 0 מעלות צלסיוס, כמות החום "האמיתית" היא לכן, אף על פי שנדמה ש- 40 מעלות הן פי שתיים מ- 0 מעלות, היחס האמיתי בין הערכים הוא 33/53, ולא 1/. ניתן לסכם ולומר כי בעוד שבמציאות הפיזיקלית לכל תופעה נמדדת יש נקודת אפס קבועה, שמשמעותה היעדר התופעה, סולם רווח הוא תמיד תוצר של החלטה "שרירותית" לקבוע את נקודת האפס במקום שונה. מסיבה זו, אם ניקח את המשתנה "גיל" ונתחיל למדוד אותו רק מגיל 18 )כדי לייצג למשל גיל בבגרות(, הוא יהיה בסולם רווח. במצב כזה, אם לפי חישוב הגיל החדש דניאל היא בת 0 ואילו עומאר הוא בן 10, לא ניתן לומר שדניאל גדולה פי שתיים מעומאר, כי יחס הגילאים "האמיתי" שלהם הוא = בין שני ערכים )10 שנים, בכל מקרה(, אולם לא ניתן לומר מהו היחס בין שני ערכים.. מכאן, שבסולם רווח ניתן לומר מה ההפרש. סולם יחס/מנה לערכים במשתנה מסולם יחס/מנה יש משמעות כמותית, ההפרשים ביניהם קבועים, וגם היחס ביניהם הוא בעל משמעות. ההבדל בין סולם יחס/מנה ובין סולם רווח טמון בכך שבסולם יחס/מנה ניתן לדבר על יחס בין ערכים. הבדל זה נובע מכך שבסולם יחס/מנה נקודת האפס היא קבועה ומוחלטת, ומייצגת את היעדר התופעה הנמדדת. למעשה, כבר ראינו דוגמאות לסולם יחס/מנה, כגון טמפרטורה בקלווין, או גילו של אדם )שנמדד החל מ- 0, כשהאדם נולד(. למשל, בהחלט ניתן לומר שאדם בן 50 הוא גדול פי שתיים מאדם בן 5, או ש- 8 כוסות מים הן בדיוק פי ארבע מ- כוסות מים )0 כוסות מים = היעדר ה"תופעה" של כוסות מים(. רוב הכמויות בעולם נמדדות באמצעות סולם מנה: גובה, כסף, כמויות מזון, מספר פריטים וכולי. לסיכום, ההבדל היחיד בין סולם יחס/מנה ובין סולם רווח הוא נקודת האפס. אם נקודת האפס היא מוחלטת )"טבעית"(, הרי שמדובר בסולם יחס/מנה, וניתן לדבר על יחס בין ערכים. לעומת זאת, אם נקודת האפס היא שרירותית )אינה מייצגת את היעדר התופעה(, מדובר בסולם רווח וניתן לדבר רק על הפרש בין ערכים, אך לא על יחס. אולם, בסופו של דבר, שני סוגי המשתנים הכמותיים רווח ומנה, משמשים באותה מידה בסטטיסטיקה. על שניהם ניתן לבצע פעולות מתמטיות זהות )כגון חישוב ממוצע, סטיית תקן( וניתוחים סטטיסטיים זהים. סולם קוואזי-רווח- במדעי החברה, מקובל למדוד משתנים רבים על סקאלות הערכה אנושיות )למשל, עד כמה אתה מרגיש שמח מ- 1 עד 5, רמת חרדה מ- 1 עד 7 וכולי(. משתנים אלו הינם משתנים איכותיים הנמדדים על סולם סדר )אורדינאלי(, שכן למשתנים אלו אין יחידות מדידה אבסולוטיות, ולא ניתן לומר כי ההבדל בין 1 ל- קבוע עבור אנשים שונים, או זהה להבדל בין ל- 3. עם זאת, לצרכי מחקר, מקובל להתייחס למשתנים מסוג זה, אם הם כוללים לפחות 5 רמות, ו- 30 תצפיות, כמשתנים מסולם "קוואזי-רווח" )דומה לרווח(. מתוך הגדרתו ככזה, מבצעים עליו חישובים המתאימים לסולם רווח )למשל, חישוב ממוצע וסטיית תקן(. עם זאת, יש לציין כי מבחינה סטטיסטית טהורה, וכן, באופן המוגדר בחומר ללימוד המתא"ם, נחשבים משתנים אלו כמשתנים איכותיים, מסולם סדר. 13

6 תכונות הסולמות 14 מבחינת תכונותיהם, כל אחד מהסולמות מכיל את כל תכונות הסולמות הקודמים לו. באופן זה, סולם סדר מכיל את תכונת הסולם השמי "זהות" ומוסיף לו את התכונה "סדר", סולם הרווח מוסיף לשתי התכונות הללו את המשמעות הקיימת בין הרווחים, ולסולם מנה/יחס כל התכונות הללו בתוספת התכונה של משמעות ליחס בין הערכים. אם נחשוב למשל על מדידה של מספר כוסות הקפה ששותה נבדק, הרי שהסולם אליו שייך המשתנה הוא יחס/מנה )ערכים כמותיים ונקודת אפס קבועה(. אם כך, ניתן להתייחס ליחס שבין ערכי המשתנה )100 כוסות קפה הן פי מאה מכוס קפה אחת(, אך ניתן להתייחס גם לכל אחת מהתכונות ה"נמוכות" יותר של הסולם. למשל, ניתן לומר שאדם השותה 100 כוסות קפה שותה "יותר" קפה מאדם השותה כוס קפה אחת )תכונת הסדר(. טרנספורמציות המותרות על סולמות טרנספורמציה היא כל פעולה מתמטית הנעשית על ערך מסוים. טרנספורמציה יכולה להיות חיבור, חיסור, כפל או חילוק של הערכים, העלאה בריבוע, או שילוב של כמה פעולות שונות. טרנספורמציה על קבוצת איברים, משמעותה ביצוע פעולה מתמטית כלשהי על כל ערכי הקבוצה )למשל, העלאת כל המשכורות של העובדים במפעל ב- 10% היא טרנספורמציה של הכפלה בקבוע 1.1 של כל המשכורות(. טרנספורמציה על סולם שמי: מכיוון שסולם שמי מייצג רק זהות של המשתנים, מותרת בו כל טרנספורמציה אשר שומרת על ההבחנה בין הערכים השונים שבו. הוספה, החסרה, הכפלה או חילוק בקבוע, ישאירו את כל הערכים שונים זה מזה ולכן הן מותרות. לעומת זאת, אסורה הכפלה באפס, שכן הכפלה כזו משווה את כל הערכים )כולם יהיו אפס(. כאשר קיימים ערכים נגדיים )לדוגמה: גם + וגם -(, אסורה גם העלאה בריבוע או העלאה בכל חזקה זוגית, שכן היא מבטלת את ההבדל )סימן המינוס( בין שני הערכים. לדוגמה, אם המשתנה שלנו מכיל את הערכים )1, 4(, 3,, מותרת טרנספורמציה של הכפלה בקבוע )למשל פי 8, 4, 4: 16( 1, או חיסור של קבוע )למשל חיסור של 3(,, 1, 0, 1: אך אסור להכפיל ב- 0 )0, 0(. 0, 0, טרנספורמציה על סולם סדר: בסולם סדר יש משמעות לזהות הערכים וגם לסדרם )ההירארכיה ביניהם(, ולכן מותרת כל טרנספורמציה אשר תשמור על הזהות והסדר של הערכים. לפיכך, מותר לחבר ולהחסיר כל קבוע )חיובי או שלילי(, משום שהוספה או החסרה זו תקטין או תשנה את הערכים באותה מידה ותשמור על הסדר הקיים. כמו כן, מותרת הכפלה או חילוק בקבוע חיובי בלבד )הכפלה/חילוק בקבוע שלילי תהפוך את סדר הערכים(. בסולם סדר מותרת גם טרנספורמציה אשר אינה שומרת על ההפרש בין הערכים, למשל חיבור או מכפלה של הערכים במספר שאינו קבוע, כל עוד היא אינה מפרה את ההירארכיה בין הערכים )למשל, הפיכת 9 8, 1, ל , ו- 900 (. משום כך, העלאה בריבוע אפשרית, אלא אם קיימים מספרים שליליים. אם קיימים ערכים שליליים אסורה כל העלאה בריבוע או במספר זוגי שכן העלאה כזו תהפוך את הסדר הקיים. טרנספורמציה על סולם רווח: בסולם זה מותרת כל טרנספורמציה אשר שומרת על יחסי רווחים קבועים בין הערכים )גודל הרווחים עשוי להשתנות, אך כל עוד הם משתנים כולם באותה המידה, יחסי הרווחים נותרים קבועים ותכונות הסולם נשמרות(. על כן, ניתן לבצע חיבור/חיסור של קבוע חיובי או שלילי, והכפלה/חילוק בקבוע חיובי בלבד. השם הכללי לכל הטרנספורמציות המותרות בסולם זה הוא "טרנספורמציה לינארית חיובית" )כל הכפלה/חילוק בקבוע חיובי, ו/או חיבור וחיסור, כלומר:,)y=bx±a כל עוד b אינו אפס ואינו מספר שלילי. העלאה בריבוע או בכל חזקה אינה אפשרית, משום שהיא מהווה הכפלה במספר שאינו קבוע, ואינה שומרת על יחסי הרווחים )לדוגמה, העלאה בריבוע תהפוך את,1{ }10,8 ל-,1{.)}100,64

7 תירואית הקיטסיטטס טרנספורמציה על סולם מנה: בסולם מנה מותרת כל טרנספורמציה השומרת על היחס בין ערכי הסולם, כלומר הכפלה/חילוק בקבוע חיובי בלבד )כלומר אסורה ההכפלה/החילוק במספר שלילי או באפס ואסור חיבור או חיסור של קבוע(. * הערה: באומרנו כי טרנספורמציה הינה "אסורה" הכוונה היא כי הטרנספורמציה תפגע בסולם עליו המשתנה נמדד. למשל, טרנספורמציה של הוספה/הפחתה של קבוע, תהפוך את הערכים שהינם על סולם מנה לערכים על סולם רווח )בכך לא תהיה עוד משמעות ליחס ביניהם(. אולם, טרנספורמציות לינאריות מקובלות בשימוש בסטטיסטיקה, שכן הן משמרות את יחסי ההפרשים בין הערכים שהוא הדבר המשמעותי בתחום זה. אם כן, בתחום הסטטיסטיקה, אין כל בעיה בכך שהמשתנה יהפוך להיות על סולם רווח. טבלת סיכום סולמות מדידה וטרנספורמציות מותרות הסולם תכונות מרכזיות דוגמאות טרנספורמציה מותרת טרנספורמציה אסורה שמי מייצג רק זהות של המשתנים. צבע שיער, מספר תעודת זהות. כל טרנספורמציה ששומרת שהאיברים יהיו שונים זה מזה- חיבור וחיסור בכל קבוע, כפל וחילוק בכל קבוע שאינו אפס. אסורה הכפלה באפס. אסורה העלאה בריבוע או בכל מספר זוגי אם קיימים ערכים נגדיים )חיוביים ושליליים יחד(. סדר מייצג זהות וסדר. הרווחים אינם קבועים. מקום בתחרות, מידת שביעות רצון מ- 1 עד 4, מידות נעליים. כל טרנספורמציה ששומרת על הסדר- חיבור וחיסור בכל קבוע. הכפלה וחילוק בקבוע חיובי בלבד. אסורים כפל/חילוק בקבוע שלילי או באפס. אסורה העלאה בחזקה זוגית אם קיימים מספרים שליליים. רווח מייצג זהות, סדר וגם הפרש בין הערכים. האפס שרירותי ולכן אין משמעות ליחס בין האיברים. טמפרטורה במעלות צלזיוס או פרנהייט, שנים לספירת הנוצרים, גובה מעל פני הים. כל טרנספורמציה ששומרת על רווחים קבועים- חיבור/חיסור קבוע חיובי או שלילי, כפל וחילוק בקבוע חיובי. אסורים כפל וחילוק בקבוע שלילי או באפס. אסורה העלאה בחזקה. מנה מייצג זהות, סדר, הפרש וגם יחס בין הערכים. האפס מוחלט. טמפרטורה בסולם קלווין, כסף, מספר צלחות, גיל. כל טרנספורמציה השומרת על יחס בין הערכים - כפל או חילוק בקבוע חיובי השונה מאפס בלבד. אסורים חיבור/חיסור בכל קבוע שהוא. אסורים כפל/חילוק בקבוע שלילי או אפס. אסורה העלאה בחזקה. 15

8 הצגת נתונים כאמור, סטטיסטיקה תיאורית עוסקת בתיאור והצגה של מידע רב בצורה יעילה ותמציתית. מסיבה זו, תורת הצגת הנתונים הינה חלק בלתי-נפרד מהסטטיסטיקה התיאורית. כמובן שהדרך הפשוטה ביותר להציג נתונים היא להביאם בצורה גולמית, בדיוק כפי שנאספו, כלומר לפרט פירוט מלא של כל הנתונים. באופן זה הנתונים נמסרים בצורה שלמה ומדויקת, אולם צורה זו הינה עמוסה וארוכה, ובעיקר, קשה להסיק ממנה לגבי משמעותם של הנתונים. אמצעי ייעול להצגת הנתונים יכולים להיות הצגתם בטבלאות שכיחות או בהצגות גרפיות שונות. בדרך זו אנחנו אומנם מאבדים לעיתים, חלק מהמידע, שכן לא תמיד ניתן לדעת מהו הערך המדויק של כל מדידה ומדידה, אולם החומר המקובץ מאפשר עבודה יעילה ופשוטה עם הנתונים, והתרשמות בהירה יותר מהם. הצגת נתונים של משתנים איכותיים וכמותיים-בדידים דרכי הצגת הנתונים הבאות מתייחסות למשתנים איכותיים וכמותיים בדידים. משתנים אלו מאופיינים בכך שהם אינם רציפים, כלומר שהם לא יכולים לקבל מספר אינסופי של ערכים בין כל זוג תצפיות.. 1 הצגת הנתונים בטבלה קיימות מספר דרכים שונות להצגת נתונים של משתנה איכותי וכמותי-בדיד בטבלה:. אטבלת שכיחות: הטבלה מציגה עבור כל ערך את שכיחות התצפיות בערך זה. בטבלה זו, עמודה אחת מייצגת את הערך הנמדד והעמודה השנייה את שכיחות המקרים של ערך זה. טבלת שכיחות יכולה להיות בעלת קטגוריות סגורות או פתוחות, כלומר שכל קטגוריה תוחמת שני ערכים מוגדרים )"0-15"(, או שגבולותיה אינם מוגדרים )"0 ומעלה", או "5 ומטה"(. מטבע הדברים, קטגוריות פתוחות יכולות להופיע אך ורק בתחילת או בסוף הטבלה, מכיוון שלא תיתכן חפיפה בין קטגוריות. לדוגמה, טבלה המציגה את המשתנה "צבע שיער" )משתנה איכותי-בדיד(: צבע שיער שחור חום בלונדיני ג'ינג'י סך הכל שכיחות

9 תירואית הקיטסיטטס דוגמה נוספת: טבלה המציגה את המשתנה "מספר האחים של סטודנטים בחוג לחינוך" )משתנה כמותי-בדיד(: מספר האחים ומעלה סך הכל שכיחות טבלת שכיחות מקובצת: כאשר מספר הערכים רב יחסית, ניתן להציג את נתוני השכיחות כך שמספר ערכים מקובצים לקטגוריה אחת. היתרון בהצגה זו הוא חיסכון במקום ובמידת הסרבול, ולכן, הערכה טובה יותר של מכלול הנתונים. החיסרון הוא באובדן מידע, כך שלא ניתן לדעת במדוייק את השכיחות של ערך ספציפי. לדוגמה, טבלת שכיחות מקובצת להצגת המשתנה הכמותי-בדיד "מספר הסיגריות שמעשן עובד במפעל בכל יום": מספר סיגריות ביום ומעלה סך הכל שכיחות בטבלת שכיחות יחסית: הטבלה מציגה עבור כל ערך את שכיחותו היחסית מתוך כלל המקרים. יחס זה נמדד לרוב באחוזים, אך יכול להימדד גם בשברים. המעבר בין טבלת שכיחות לטבלת שכיחות יחסית נעשה באמצעות חישוב סך המקרים, וחלוקת כל קטגוריה במספר זה. לדוגמה, עבור הטבלה המוצגת למעלה )מספר הסיגריות ליום עבור עובד במפעל(, ראשית נחשב את מספר המקרים הכללי, כלומר את סך כל השכיחויות. במקרה זה, ניתן לראות כי במפעל סה"כ 00 עובדים. אם 40 מתוך 00 העובדים מעשנים בין 0 ל- סיגריות ביום, השכיחות היחסית שתקבל הקטגוריה )או הערך( -0 סיגריות, תהיה: = 40 )או בשברים עשרוניים 0.(. 1 = 0%

10 יש לשים לב כי בטבלת שכיחות יחסית, סך כל השכיחויות היחסיות יהיה תמיד 100% כשמדובר באחוזים, או 1 כשמדובר בשברים: מספר סיגריות ביום ומעלה סה"כ שכיחות שכיחות יחסית = 0% = 10% = 30% = 40% 100%. גטבלת שכיחות מצטברת: טבלת שכיחות מצטברת מציגה עבור כל ערך את שכיחות הערכים המצטברת עד לערך זה, כולל שכיחות הערך זה, כך שהקטגוריה האחרונה כוללת את כל התצפיות הקיימות. לדוגמה, הטבלה הבאה מציגה את השכיחות והשכיחות המצטברת של דירות המוצעות להשכרה לפי מספר החדרים בהן: מספר החדרים בבית ומעלה סך הכל שכיחות שכיחות מצטברת ניתן לראות כי הקטגוריה האחרונה בטבלת השכיחות המצטברת כוללת את סך כל הדירות הקיימות בנתונים. כמו כן, מכיוון שאין כלל דירות להשכרה בנות 4 חדרים, השכיחות המצטברת בקטגוריה זו שווה לשכיחות המצטברת של הקטגוריה שקדמה לה.. דטבלת שכיחות יחסית מצטברת: טבלה זו מציגה עבור כל ערך את שכיחות המקרים שהצטברו עד אליו כולל אותו )כמו טבלת שכיחות מצטברת(, אלא שהיא מציגה שכיחות יחסית. במילים אחרות, טבלה זו מציגה את שכיחות הערכים עד לערך הרלוונטי )כולל אותו( מתוך סך המקרים. הקטגוריה האחרונה בטבלת שכיחות מצטברת תמיד תהיה 100% )או 1(, משום שעד ערך זה הצטברו כל המקרים בהתפלגות. לדוגמה: מספר סיגריות ביום שכיחות שכיחות יחסית באחוזים שכיחות יחסית בשברים עשרוניים שכיחות יחסית מצטברת 0% 0. 0% % % % % % % ומעלה 100% 1 100% 00 סך הכל 18

11 תירואית הקיטסיטטס. הצגה גרפית של הנתונים: דרך נוספת להצגת נתונים היא בצורה גרפית. הצגה גרפית של נתונים מאפשרת הבנה מהירה ויעילה שלהם, במחיר של איבוד מידע ודיוק. הצגה גרפית של נתונים במשתנה איכותי או כמותי-בדיד תהיה מבוססת תמיד על הצגת השכיחות שלו. משתנה כזה יכול להיות מוצג באחת משתי דרכים בלבד: דיאגרמת עוגה Chart( :)Pie דיאגרמת עוגה מתאימה בעיקר להצגה של משתנים איכותיים-שמיים, אך ניתן להציג באמצעותה גם משתנים כמותיים-בדידים, בצורה בדידה או מקובצת )כלומר בקטגוריות(. שטח העוגה הכללי מייצג את כלל המקרים )100%(, וכל ערך מהווה גזרה התואמת את החלק היחסי )הפרופורציה( שמהווים מספר המקרים שבו, ביחס לכלל ההתפלגות. מקובל להציג את גודל הגזרות באחוזים. לדוגמה, דיאגרמת עוגה להצגת הנתונים במשתנה "מספר הסטודנטים בחוגים באוניברסיטה": 60% משפטים כלכלה 5% פסיכולוגיה 5% חינוך 10% דיאגרמת מקלות Chart( :)Bar דיאגרמת מקלות מתאימה להצגת משתנים איכותיים )מסולם שמי או סדר(, ולהצגת משתנים כמותיים-בדידים. גובה המקלות על ציר ה- Y מייצג את שכיחות הערך, ואילו הערכים )או הקטגוריות( מופיעים על ציר ה- X. לדוגמה, דיאגרמת מקלות למשתנה "מספר הילדים במשפחה": מספר הילדים במשפחה

12 הצגת נתונים של משתנים כמותיים-רציפים ההבדל המהותי בין הצגת נתונים של משתנים בדידים ובין הצגת נתונים של משתנים כמותיים-רציפים, הוא שמכיוון שבמשתנים כמותיים-רציפים בין כל שני ערכים קיימים אינסוף ערכים, הסבירות התיאורטית לקבל ערך ספציפי שואפת לאפס, ואין משמעות לשכיחותו של ערך ספציפי. לדוגמה, במשתנה רציף כגון "ממוצע ההכנסה למשפחה" הסיכוי לקבל ערך ספציפי, למשל בדיוק או , שואף לאפס. מסיבה זו, בהצגת נתונים של משתנים כמותיים-רציפים נהוג להתייחס לטווח של ערכים )למשל, ממוצע ההכנסה למשפחה שבין 7400 ובין 7450, או ממוצע בין 8970 ובין 8975(.. 1 הצגת הנתונים בטבלת שכיחות מקובצת כאמור, מכיוון שבמשתנים רציפים בין כל שני ערכים קיימים אינסוף ערכים, לא נהוג להתייחס לשכיחותו או הסתברותו של ערך נקודתי, אלא לשכיחות טווח של ערכים. לפיכך, נתונים של משתנים רציפים מוצגים תמיד בטבלת שכיחות מקובצת )המתארת את שכיחותן של קטגוריות, ולא של ערכים בדידים(. לכל קטגוריה בטבלה גבול עליון )הערך הגבוה ביותר הנכלל בקטגוריה( וגבול תחתון )הערך הנמוך ביותר הנכלל בקטגוריה(. גבולות אלו יכולים להיות מדומים או אמיתיים. גבולות מדומים הם גבולות שאינם מתלכדים. במקרים אלו, הגבול העליון של קטגוריה מסויימת יהיה מספר שלם, והגבול התחתון של הקטגוריה הבאה אחריה יהיה המספר השלם הבא אחריו, כך שבין השתיים יווצר פער של אינספור מספרים לא שלמים ש"נופלים בין הקטגוריות". מסיבה זו גבולות מדומים מתאימים יותר להצגת משתנים בדידים, אולם לעיתים משמשים בהם לשם הפשטות גם במשתנים רציפים. לעומתם, גבולות אמיתיים הם גבולות מתלכדים, כך שלא מתקיים ביניהם כל רווח. הגבול העליון של קטגוריה אחת שווה לגבול התחתון של הקטגוריה הבאה אחריה, וכך נוצר כיסוי לכל רצף הערכים. על מנת לקבוע גבול אמיתי מתוך גבול מדומה, משתמשים בנקודת האמצע שבין הגבולות המדומים, כמו בדוגמה הבאה: משקל בגבולות מדומים משקל בגבולות אמיתיים שכיחות בהקשר של טבלאות שכיחות מקובצות למשתנים כמותיים-רציפים, נהוג לדבר על אמצע המחלקה )או אמצע הקטגוריה(. נקודת האמצע של קטגוריה/מחלקה שווה לממוצע בין הגבול העליון לגבול התחתון של הקטגוריה. נקודה זו שווה בערכה הן בחישוב הנעשה על בסיס הגבולות האמיתיים והן בחישוב הנעשה על בסיס הגבולות המדומים של המחלקה. מכיוון שאנו עוסקים בסטטיסטיקה תיאורית, שמטרתה תיאור יעיל של נתונים, במקרים רבים תשמש נקודת אמצע המחלקה כמייצגת את המחלקה כולה )למשל בחישוב ממוצע או ציון השכיח(. בדוגמה שלמעלה, נקודת אמצע המחלקה הראשונה היא הממוצע בין 41 ו- 45 )בגבולות מדומים( או בין 40.5 ו )בגבולות אמיתיים(, כלומר 43 )בשני המקרים(. שכיחות, שכיחות יחסית, שכיחות מצטברת, ושכיחות יחסית מצטברת בדומה לטבלת שכיחות עבור משתנה בדיד, גם טבלת שכיחות מקובצת עבור משתנה כמותי-רציף, יכולה להיות טבלת שכיחות יחסית, טבלת שכיחות מצטברת, או טבלת שכיחות יחסית מצטברת. ההבדל היחיד הוא שבמקרה של משתנים כמותיים-רציפים, השכיחות מתייחסת לקטגוריה )טווח ערכים( ולא לערך בודד.

13 תירואית הקיטסיטטס. הצגה גרפית של משתנים כמותיים-רציפים: היסטוגרמה היסטוגרמה היא הצגה גרפית המתאימה למשתנים כמותיים-רציפים )מסולם רווח או מנה(. ההיסטוגרמה מכילה עמודות המייצגות את שכיחותה )או את שכיחותה היחסית( של כל קטגוריה. רוחב כל עמודה )על ציר X( מייצג את טווח הערכים הנכללים בה, כלומר את טווח הקטגוריה שהיא מייצגת. לדוגמה, בטבלה לעיל, טווח כל אחת מהקטגוריות הוא 5, ולפיכך רוחב כל עמודה יהיה 5 יחידות על ציר ה- X. העמודות בהיסטוגרמה תמיד צמודות זו לזו, ומייצגות את הגבולות האמיתיים של הקטגוריות. 6 צפיפות שכיחות 10 שכיחות 15 שכיחות ציר ה- Y בהיסטוגרמה )כלומר גובהה של כל עמודה( מייצג את צפיפות הקטגוריה. על מנת לחשב את הנתון שמעניין אותנו, כלומר את שכיחות הקטגוריה, יש לכפול את רוחב המחלקה בגובהה )כלומר את המרחק על ציר ה- X בגובה על ציר ה- Y של הקטגוריה(, כך שלמעשה שכיחותה של הקטגוריה מיוצגת ע"י שטח העמודה. לדוגמה, אם נרצה לחשב את שכיחות הקטגוריה הראשונה בהיסטוגרמה שלעיל, נכפול את רוחבה )5( בגובהה )(. שטח העמודה הראשונה הוא 10, ולכן שכיחות הקטגוריה הראשונה היא 10. מהיסטוגרמה ניתן ללמוד על שכיחותה של קטגוריה מסוימת, אולם לא ניתן להסיק ממנה על שכיחותו של ערך מסוים )כאמור, השכיחות של ערך מסוים עבור משתנה רציף שואפת ל- 0 (. הערה לגבי צפיפות הקטגוריה: באופן כללי, צפיפות הקטגוריה )גובהה( אינה מעניינת אותנו פרט לשימוש שלה בחישוב שטח )שכיחות( הקטגוריה. מסיבה זו, לרוב מצורף להיסטוגרמה קנה מידה, המציין מהי השכיחות עבור כל קטגוריה בהיסטוגרמה. מבחינה תיאורטית, צפיפות הקטגוריה מייצגת את שכיחות המקרים ליחידה אחת. לדוגמה, גובהה של הקטגוריה השנייה )אנשים שמשקלם בין 45.5 ל- 50.5( הוא 3. משמעות הדבר היא שצפיפות הערכים לכל יחידת שטח היא 3. כלומר, בממוצע, שכיחותו של כל משקל בקטגוריה זו )למשל, בין 45.5 ל (, היא 3. אולם, שכיחות זו היא ממוצעת בלבד, בפועל נתוני השכיחות נכונים רק ביחס לקטגוריה ככלל. באופן דומה לארבעה סוגי השכיחות אותם ניתן להציג בטבלה, ניתן להציג גם בהיסטוגרמה לא רק את נתוני השכיחות, אלא גם שכיחות יחסית, שכיחות מצטברת ושכיחות יחסית מצטברת. היסטוגרמת שכיחות יחסית דומה להיסטוגרמת שכיחות, אלא שהעמודות מייצגות את שכיחות הקטגוריה ביחס לכלל המקרים, לרוב באחוזים. במילים אחרות, בהיסטוגרמת שכיחות יחסית, שטח העמודה מייצג את שכיחותה היחסית של הקטגוריה. בהיסטוגרמה זו, גובהה של כל עמודה לא יעלה על 100% וסכום גובהן של כל העמודות יחד יהיה בהכרח 100% )או 1 אם מדובר בשברים(. 1

14 היסטוגרמת שכיחות מצטברת בהיסטוגרמה זו שטחה של כל עמודה מייצג את שכיחות הקטגוריה שהיא מייצגת + סך שכיחויות כל הקטגוריות שקדמו לה. מסיבה זו, כל עמודה בהיסטוגרמת שכיחות מצטברת תהיה גבוהה יותר מקודמתה, למעט מצב בו שכיחותה של קטגוריה היא אפס, ואז יהיה גובה העמודה שווה לקודמתה. העמודה האחרונה תכלול את סך כל השכיחות בהתפלגות. היסטוגרמת שכיחות יחסית מצטברת דומה להיסטוגרמת שכיחות מצטברת, אלא שבמקום להציג את השכיחות המצטברת, היא מציגה את השכיחות היחסית המצטברת עד לכל אחת מהקטגוריות )כולל אותה(. גם בהיסטוגרמה זו כל עמודה תהיה גבוהה מקודמתה, למעט במקרה שהשכיחות היחסית של קטגוריה מסויימת היא אפס, ואז גובהה של העמודה יהיה שווה לגובה קודמתה. בהיסטוגרמה זו, גובהה של אף אחת מהעמודות לא יעלה על 100%, ושכיחות )שטח( העמודה האחרונה תהיה בהכרח 100%. דוגמה להיסטוגרמת שכיחות יחסית מצטברת: 100% 90% 80% 70% 60% 50% 40% 30% 0% 10% 0% בדוגמה לעיל, שכיחותה היחסית של העמודה הראשונה היא 5%, של העמודה השנייה )55% 30% הכלולים בה, פחות 5% שהצטברו מהעמודה הקודמת(, של השלישית 0% )שכן לא נוסף לה כלל גובה על קודמתה(, ושל האחרונה 45% )סה"כ 100%(. פוליגון פוליגון הוא מצולע הנוצר ממתיחת קו דרך נקודות האמצע של החלק העליון של עמודות ההיסטוגרמה )אמצע העמודה היא נקודת האמצע של הקטגוריה(. הפוליגון משמש לתיאור ההתרשמות הכללית מהשתנות השכיחויות, או במילים אחרות, מטרת הפוליגון היא לתאר את המגמה של התופעה הנמדדת בצורה רציפה )כלומר לתאר מגמות בהיסטוגרמה(. קצוות הפוליגון מתחברים לשני מלבנים דמיוניים משני קצות ההיסטוגרמה, שגובהם אפס ורוחבם כרוחב העמודות הקיצוניות ביותר. ביצירת הפוליגון מתרחשת הסטת שכיחויות מקטגוריה לקטגוריה: ביצירת הקו הרציף המחבר את אמצע עמודה אחת לשנייה, "נחתכות" פינות המלבנים והן נוספות בהתאמה לעמודות הצמודות להן. כאשר העמודות כולן שוות רוחב, הסטה זו מתבצעת במדוייק ושטח הפוליגון שווה לשטח ההיסטוגרמה, אולם כאשר העמודות אינן שוות רוחב, שטח הפוליגון אינו זהה לשטח ההיסטוגרמה. לא ניתן להסיק מהפוליגון לגבי שכיחותו של ערך מסוים, וגם לא לגבי השכיחות המדוייקת של טווח ערכים. בדומה להיסטוגרמה, ניתן להציג באמצעות פוליגון גם שכיחות יחסית וגם שכיחויות מצטברות.

15 תירואית הקיטסיטטס 45% 40% 35% 30% 5% 0% 15% 10% 5% 0% % 40% 35% 30% 5% 0% 15% 10% 5% 0% להלן דוגמה לפוליגון: התפלגות חלקה- עקומה אילו היינו בונים טבלת שכיחויות עם מחלקות )קטגוריות( בעלות טווח הולך וקטן, העמודות בהיסטוגרמה שמתארת אותה היו הולכות ונהיות צרות יותר ויותר, ובסופו של דבר היינו מקבלים מלבנים בעלי רוחב קטן מאוד. ככל שרוחב המלבנים )העמודות( יקטן, הקו שיתקבל מחיבור אמצע המלבנים )הפוליגון( ייעשה פחות שבור ויותר הדרגתי וחלק. במילים אחרות, ככל שרוחב המחלקה שואף לאפס, כך ייעשה הפוליגון לעקומה חלקה. או לסיכום: טבלה עם מחלקות בטווח שואף לאפס היסטוגרמה עם עמודות ברוחב שואף לאפס פוליגון עם "שברים" מזעריים עקומה חלקה דוגמה לעקומה חלקה: שימו לב, יצירת העקומה החלקה נעשית באמצעות קירובים מתמטיים, ולכן, בשונה מפוליגון, לא ניתן להסיק מתוך צורת ההיסטוגרמה על צורת העקומה שתתקבל. שטחה של העקומה מייצג את שכיחות התצפיות. הגובה בכל נקודה מייצג את הצפיפות. בדומה להיסטוגרמה, גם בעקומה לא ניתן לדבר על שכיחות של נקודה מסוימת, שהרי זו שואפת לאפס, אלא על שכיחות של טווח ערכים בלבד. למשל, באיור להלן, שטח A, השטח שבין שתי נקודות על ציר ה- X "מתחת לעקומה", מייצג את שכיחות טווח הערכים שבין 5 ל- 7.5 : צפיפות צפיפות A

16 מדדי מרכז "מדדי מרכז", הם ערכים יחידים המייצגים באופן מסוים את כלל ערכי ההתפלגות, כך שניתן להסיק מהם סביב איזה ערך ממוקמים ערכי ההתפלגות. באופן ספציפי, מדדי המרכז יעילים במיוחד לתיאור הנטייה הכללית של הקבוצה הנמדדת, סביב אילו ערכים מתרכזים מרבית הנתונים, או מהו הערך הטיפוסי ביותר המייצג את הקבוצה. לדוגמה, במקום לפרט את כל ציוני הכיתה במבחן מסויים, נוכל ללמוד על התפלגות הציונים בכיתה אם נדע שהממוצע היה 89. במקרה אחר, במקום לפרט בדיוק מהי רמת ההשכלה של כל אחד ממשתתפי המחקר שלנו, נוכל להעביר את המידע העיקרי באמצעות הדיווח כי למרבית המשתתפים תואר ראשון או שני. קיימים ארבעה מדדי מרכז נפוצים: שכיח, חציון, אמצע טווח וממוצע. מדדי מרכז שונים מתאימים ויכולים להיות מחושבים, כתלות בסוג המשתנה. חלק ממדדי המרכז מתקבלים ע"י חישוב מתמטי )למשל הממוצע(, ולכן לא יכולים להיות מחושבים על משתנים שאינם כמותיים. אם כן, עבור משתנים כמותיים ניתן לחשב את כל מדדי המרכז בעוד למשתנים איכותיים ניתן לחשב רק חלק ממדדי המרכז, כפי שיפורט בהמשך. השכיח )Mode( Mo 4 השכיח, כשמו כן הוא הערך השכיח )הנפוץ( ביותר בהתפלגות. השכיח ניתן לחישוב עבור כל סוגי הסולמות, ועבור משתנים איכותיים וכמותיים כאחד. חישוב השכיח אינו אלא מציאת הערך השכיח ביותר בהתפלגות. עבור סדרת ערכים בדידה, השכיח יהיה הערך הנפוץ ביותר. למשל, בסדרה }, 4{, 4, 4, 3, 3,, השכיח הינו 4. בטבלת שכיחות, השכיח יהיה הערך בעל השכיחות הגבוהה ביותר. ניתן לחשב את השכיח גם בטבלה המכילה קטגוריות פתוחות )"מתחת ל- סיגריות ביום" / "10 סיגריות ומעלה"(, למעט במצב בו הקטגוריה הפתוחה היא הקטגוריה השכיחה ביותר. במקרה זה לא ניתן יהיה למצוא שכיח נקודתי, אולם ניתן יהיה לומר מהי הקטגוריה השכיחה ביותר. בהתפלגות שכיחות מקובצת, השכיח יהיה אמצע הקטגוריה בה השכיחות היא הגדולה ביותר )או במקרים מסויימים, הקטגוריה כולה(. בהיסטוגרמה, השכיח יהיה אמצע הקטגוריה בעלת השכיחות הגדולה ביותר. עבור היסטוגרמה בה המחלקות הינן שוות רוחב, השכיח יהיה אמצע הקטגוריה שבה הצפיפות היא הגבוהה ביותר ולכן ניתן לאתרה בקלות בשל העובדה שהיא הקטגוריה הגבוהה ביותר בהיסטוגרמה. בכל מקרה אחר, השכיח יהיה אמצע הקטגוריה בעלת השטח הגדול ביותר. ריבוי שכיחים: בסדרה בה שכיחות כל הערכים היא שווה )למשל, כל ערך מופיע פעם אחת בלבד(, לא ניתן לדבר על שכיח יחיד. במצב בו קיים יותר מערך אחד ששכיחותו היא הגבוהה ביותר, יהיה יותר משכיח אחד )לדוגמה, בהתפלגות,1{ }6,5,5,4,3,,1 יהיו שני שכיחים: 1 ו-.)5 שינויים בסדרה והשפעתם על השכיח: כאשר תיעשה טרנספורמציה על כל איברי הסדרה )הפחתה/הוספה של קבוע, כפל/חילוק בקבוע(, השכיח ישתנה באותו האופן. למשל, אם כל איברי הסדרה הוכפלו ב- 5 ונוסף להם קבוע, השכיח החדש יהיה: + o 5M. שינוי בחלק מאיברי הסדרה )שאינם השכיח( או הוספה/החסרה של איברים מהסדרה, ישפיעו על השכיח רק אם כתוצאה מהם יהיה ערך אחר ששכיחותו היא הגבוהה ביותר בהתפלגות. למשל, בהתפלגות משכורות מסוימת השכיח הוא 4000 ושכיחותו 30%. מנהל המפעל החליט להוריד למחצית מהעובדים את המשכורת כך שתהיה אם כן, השכיח החדש יהיה 5000.

17 תירואית הקיטסיטטס החציון )Median( Md או Me החציון הוא הערך המחלק את ההתפלגות לשניים, כך שמחצית הערכים שווים לו או גדולים ממנו, ומחציתם שווים לו או קטנים ממנו. החציון ניתן לחישוב מסולם סדר ומעלה )כלומר, עבור משתנים כמותיים )סולם רווח ומנה(, וכן עבור משתנים איכותיים מסולם סדר(, שכן הוא מייצג את אמצע ההתפלגות מבחינת סדר הערכים. עבור משתנים איכותיים-שמיים לא ניתן לחשב חציון, מכיוון שאין משמעות לסדר הערכים ולכן לא ניתן לדבר על ערך אחד ששאר ההתפלגות גדולה או קטנה ממנו. חשוב: לפני חישוב החציון, עלינו לוודא שערכי ההתפלגות מסודרים בסדר עולה או יורד. לדוגמה, בסדרה }1, 7, 5, 3, 6{ 9,, נצטרך ראשית לסדר את הערכים לפי גודלם }1, 9{, 7, 6, 5, 3,, ורק אז למצוא את הערך שמחצית ההתפלגות מעליו ומחציתה מתחתיו )החציון יהיה הערך 5, כאשר שלושה ערכים מעליו ושלושה מתחתיו(. בסדרת ערכים בדידה, יש להבחין בין מצב בו מספר הערכים אי-זוגי למצב בו מספר הערכים זוגי: כאשר מספר הערכים אי-זוגי, יהיה החציון הערך האמצעי בסדרה, ומיקומו יהיה באיבר ה- 1+n. אולם כאשר מספר הערכים זוגי, יהיה החציון נקודת האמצע בין הערך ה- n וה- + 1 n, כלומר במקרה כזה יהיה החציון ערך שאינו קיים בהתפלגות. דוגמה: עבור סדרת הערכים }7, 11{ 10, 9, 8, שבה חמישה איברים, יהיה החציון האיבר ה-, +5 1 כלומר הערך השלישי בסדרה.)Md=9( אולם אם מספר הערכים הוא זוגי }7, 10{, 9, 8, יהיה החציון הערך הממוצע של האיבר ה- 4 והאיבר ה- 1, 4 + כלומר החציון יהיה האמצע בין האיבר השני )8( והשלישי )9( וערכו יהיה.Md=8.5 כאשר קיימים בסדרה מספר איברים הזהים זה לזה, החציון יהיה עדיין הערך האמצעי מביניהם. למשל, בסדרה:,3{,}6,6,5,5,3,3 הערך החציוני הוא 5 מכיוון שעד אליו מתפלגים 3 איברים,3(,)3,3 וממנו והלאה 3 איברים.)6,6,5( עבור התפלגות שכיחות של משתנה בדיד, יהיה החציון ערך הקטגוריה שעד אליה מתפלגים מחצית מהמקרים. דוגמה: מספר טלפונים סלולאריים לאדם שכיחות שכיחות מצטברת ומעלה מספר התצפיות הכללי בטבלה הוא 38. החציון יהיה הערך שעד אליו מתפלגים מחצית מן המקרים, כלומר 19 מקרים. בטבלה לעיל ניתן לראות, כי עד לערך "1" נמצאים 10 מקרים, ועד לערך "" מתפלגים 30 מקרים. לפיכך, החציון )שעד אליו מתפלגים 19 מקרים מההתפלגות( שייך לקטגוריה השנייה, וערכו יהיה.Md= כמובן שעד לערך "" מתפלגים יותר מ- 19 מקרים )למעשה 30 מקרים(, כלומר בחישוב החציון עבור משתנה בדיד בטבלת שכיחויות ייתכן מצב שעד החציון מתפלגים יותר ממחצית המקרים. בטבלת שכיחות מקובצת, ישנן שתי דרכים מקובלות לחישוב החציון: לעיתים מתייחסים לחציון כאמצע המחלקה שמכילה את החציון. באופן מדויק יותר, ניתן לחשב את מיקומו היחסי של החציון בתוך המחלקה. למשל, במחלקה שהטווח שלה הוא 0 עד 30, ויש בה 10 איברים, אם מחצית האיברים בסדרה מתפלגים עד הערך השני במחלקה, החציון יהיה )ולא 5(. 5

18 החציון ניתן לחישוב גם בטבלת שכיחות בעלת קצוות פתוחים, מאחר והחציון מתחשב אך ורק בכמות התצפיות מעליו ומתחתיו ולא בערכן המדויק. עם זאת, אם החציון נמצא בקטגוריה הפתוחה נוכל לקבוע כי החציון נמצא בקטגוריה זו אך לא ניתן יהיה לחשב את ערכו המדויק. דוגמה: אם בטבלת שכיחויות קטגוריות: "10-1 סיגריות ביום" )10 נבדקים( ו-" 10 סיגריות ומעלה" )5 נבדקים(, נוכל לדעת שהחציון נמצא בקטגוריה השנייה )סה"כ 35 נבדקים, החציון יהיה הנבדק ה- 18, כך ש- 17 נבדקים מתחתיו ו- 17 מעליו(. עם זאת, לא נוכל לקבוע בדיוק את ערך החציון. עבור התפלגות שכיחות למשתנה רציף, יהיה החציון ערך מדוייק שקיימת נוסחה לחישובו )אשר אינה נדרשת למבחן מתא"ם(. עבור עקומה חלקה )רציפה(, יהיה החציון הערך בהתפלגות שעד אליו מתפלגים 50% מהערכים. חשוב לזכור כי במקרה זה החציון יהווה את הנקודה בהתפלגות המחלקת אותה לשני חלקים שווי שטח )שהרי בעקומות חלקות, השטח מייצג את השכיחות(. השפעת שינויים באיברי הסדרה על החציון: טרנספורמציה על כל איברי הסדרה: כאשר תיעשה טרנספורמציה על כל איברי הסדרה )הפחתה/הוספה של קבוע, כפל/חילוק בקבוע(, החציון ישתנה באותו האופן. למשל, אם כל איברי הסדרה חולקו ב- ונוסף להם הערך 10, החציון החדש יהיה: +10 d.0.5m שינוי בחלק מאיברי הסדרה: החציון מושפע מכמות הערכים שמעליו ומתחתיו, ערכי האיברים אינם משמעותיים לחישובו )למעט ערכם של האיברים שקובעים את גודלו בלבד בסדרה אי-זוגית החציון עצמו, ובסדרה זוגית שני האיברים שמצידו(. לכן שינוי בגודל הערכים לא ישפיע על החציון, כל עוד מיקומם ביחס אליו )מעליו או מתחתיו(, נשמר. לדוגמה, אם נעשתה טרנספורמציה על ההתפלגות }1, 5{, 4, 3,, כך שהערכים הקיצוניים גדלו וההתפלגות הפכה ל-}, 10{, 4, 3,.5, ערך החציון לא ישתנה.)Md=3( עם זאת, במקרה והטרנספורמציה שינתה את מיקום הערכים ביחס לחציון, למשל }, 10{ 5, 4, 3, החציון ישתנה. דוגמה נוספת: אם נתון כי משכורות כל העובדים הנמוכים מהחציון הוגדלו ב- 1000, על מנת לקבוע אם החציון ישתנה או לא, עלינו לדעת האם בעקבות התוספת חלק מהמשכורות "עברו" את החציון. אם כל המשכורות שקיבלו את התוספת, עדיין נותרו קטנות מהחציון הנוכחי, החציון לא ישתנה. אם לעומת זאת, חלק )או כל( המשכורות שזכו לתוספת "יעקפו" את החציון, אזי החציון יגדל. הוספה או החסרה של איברים לסדרה תמשוך את החציון מבחינת מיקומו לכיוון שאליו נוספו איברים. כלומר, אם נוספו איברים הקטנים מהחציון החציון ימשך לכיוון הערכים הנמוכים, אם נוספו איברים מעל החציון, החציון ימשך לכיוון הערכים הגבוהים. מבחינת ערכו של החציון, יש להבחין בין מצב בו כל איברי הסדרה שונים זה מזה )זהו המצב שקיים בהתפלגות רציפה, בה שכיחות של ערך ספציפי שואפת לאפס(, לבין מצב של סדרת ערכים בדידה בה יש אברים הזהים זה לזה. כאשר אברי הסדרה שונים זה מזה או שמדובר בהתפלגות רציפה: הוספת איברים הקטנים מהחציון תקטין את החציון )החציון ימשך כלפי מטה, לכיוון שאליו נוספו איברים(, וערכו יקטן. הוספת איברים מעל החציון תגדיל את החציון. לעומת זאת, כאשר מדובר בסדרת ערכים בדידה בה ישנן תצפיות הזהות זו לזו, החציון ישנה מיקום, אך ערכו עשוי שלא להשתנות. למשל, בסדרה: }, 5{. 5, 5, 3, 3, 3,, החציון ממוקם בין הערך הרביעי לחמישי וערכו 3. הוספת הערך 6 לסדרה תזיז את החציון מקום אחד שמאלה, כך שהוא יהיה הערך החמישי. אולם, מבחינת ערכו, יישאר החציון 3. לכן, כאשר מדובר בסדרת ערכים בדידה, יש מצבים בהם לא ניתן לדעת אם החציון ישתנה. 6

19 תירואית הקיטסיטטס כאמור, עבור התפלגות רציפה, הוספה/החסרה של איברים בהכרח תשנה את החציון. אולם, שינוי גודלם של אברים קיימים, עשוי שלא להשפיע על החציון אם מאזן האיברים משני צידיו לא השתנה. אמצע הטווח )Mid-range( MR אמצע הטווח הוא הממוצע שבין הערך הגבוה ביותר בהתפלגות והערך הנמוך ביותר בהתפלגות, והנוסחה לחישובו min max היא: +. אמצע הטווח ניתן לחישוב עבור כל משתנה כמותי )כלומר מסולם רווח ומעלה(, אך לא ניתן לחשבו עבור משתנים איכותיים. הסיבה לכך היא שחישובו כרוך בפעולות חשבוניות )חיבור וחילוק(, שהן חסרות משמעות עבור ערכים שאינם כמותיים )אין משמעות לחישוב אמצע הטווח בין "מקום ראשון" ו-"מקום אחרון", כאשר עבור ערכים אלו אין משמעות אמיתית לרווח(. כמו כן, לא ניתן לחשבו עבור קטגוריה עם קצוות פתוחים שכן הוא מחושב על סמך ערכי הקיצון בלבד, ובהגדרתה קטגוריה פתוחה אינה מספקת מידע לגבי הערך הקיצוני ביותר שלה )לדוגמה, אין לדעת מהו הערך הקיצוני ביותר בקטגוריה "10 סיגריות ומעלה"(. אמצע הטווח, כשמו, הוא הממוצע בין ערכי המקסימום והמינימום בהתפלגות, והוא מספק מידע לגבי מרכז ההתפלגות. לדוגמה, בהתפלגות )1, 33( 9, 5, 1, 17, 13, 9, 5, אמצע הטווח יהיה.)MR=17( מכך נוכל להסיק, ברמה כללית וגסה למדי, כי ההתפלגות נעה בערכיה סביב 17. עם זאת, אמצע הטווח מושפע אך ורק מערכם של הערכים הקיצוניים, לכן, הגדלה של הערך הגדול ביותר מ- 33 ל- 100, תהפוך את אמצע הטווח להיות 50.5, על אף שמרבית ערכי הסדרה לא השתנו, וכעת, אמצע הטווח גדול מכל איברי הסדרה למעט אחד. אמצע הטווח הוא מדד המיקום המרכזי אשר מושפע במידה הרבה ביותר מערכים קיצוניים. השפעת שינויים בסדרה על אמצע הטווח: טרנספורמציה על כל האיברים בסדרה תשנה את אמצע הטווח בצורה זהה. למשל, בסדרה }1, 60{. 50, 33, 0, 1 60 אמצע הטווח שווה: + = 36. בעקבות הכפלת כל ערכי הסדרה ב-, יוכפל ב- גם אמצע הטווח כלומר, אמצע 4 10 הטווח החדש יהיה: + = 7. כל שינוי בחלק מאברי הסדרה, הוספה/החסרה של אברים, ישפיעו על אמצע הטווח רק אם חל שינוי בערכם של אחד או שני הערכים הקיצוניים בסדרה. 7 X)Mean, הממוצע Average( הממוצע הוא סכום כל הערכים בהתפלגות, לחלק במספר האיברים: xi x x x x X = Σ 1 = n n n הממוצע הוא מדד המיקום המרכזי הנפוץ והשימושי ביותר. הסיבה לכך היא שהוא מושפע מכל הערכים בהתפלגות תוך שקלול שכיחותם היחסית )זאת בניגוד לשכיח שמתייחס רק לערכים השכיחים, החציון שמתייחס בעיקר למיקום הערכים ופחות לערכם, ואמצע-הטווח שמתייחס רק לקיצוניים(. מסיבה זו, הממוצע מהווה מדד מדויק ומהימן יותר לערך סביבו מתרכזת ההתפלגות. את הממוצע ניתן לחשב עבור משתנים כמותיים בלבד )מסולם רווח ומעלה(, שכן הוא כרוך בפעולות מתמטיות שהן חסרות משמעות עבור ערכים איכותיים.

20 הממוצע מתחשב בערכי ההתפלגות כולה, אולם, ערכים קיצוניים במיוחד, עשויים להטות אותו במידה ניכרת )זאת בניגוד לחציון שיתרונו הוא בכך שאינו מושפע מערכיהם של ערכים קיצוניים(. אם ניקח לדוגמה את ההתפלגות )0, 5, 0( 15, 10, שהממוצע שלה הוא ( 10= x (, הוספת ערכים קיצוניים במיוחד תשפיע על הממוצע במידה רבה מאוד, כך שבהתפלגות,0( )100,0,15,10,5 הממוצע יהיה = 5 x. בהתפלגות שכיחות בדידה, חישוב הממוצע ייעשה באמצעות ממוצע משוקלל. ממוצע משוקלל הוא ממוצע הנותן משקל גדול יותר לערכים מסויימים על פני ערכים אחרים. במקרה הנ"ל, נרצה שערכים בעלי שכיחות גדולה יותר ישפיעו יותר על הממוצע. באופן ספציפי, נכפיל כל ערך בשכיחותו, נחבר את הכפולות, ונחלק במספר התצפיות. הנוסחה לחישוב ממוצע משוקלל: xfx i x = Σ n i בהתפלגות שכיחות מקובצת נחשב את הממוצע באותו האופן )ע"י ממוצע משוקלל(, רק שבמקום הערכים עצמם נתייחס לנקודות האמצע של המחלקות )בנוסחה, נציב ב- x i את נקודת האמצע של המחלקה(. לדוגמה: נתונה התפלגות ציוניהם של 5 התלמידים בקורס סטטיסטיקה לפסיכולוגים: שכיחות f(x( ציונים )גבולות מדומים( ציונים )גבולות אמיתיים( נקודת אמצע הקטגוריה שכיחות מצטברת cf ( ) + ( ) + ( ) 5 x = = 94. נציב בנוסחה ונקבל: 5 הערות לגבי הממוצע הממוצע הינו הערך שסכום הסטיות )או המרחקים/ההפרשים( של ערכי הסדרה ממנו שווה לאפס, כלומר סכום ההפרשים בין הממוצע לערכים הגדולים ממנו שווה בדיוק לסכום ההפרשים בין הממוצע לערכים הקטנים ממנו. מסיבה זו, ההפרשים )הסטיות( מתקזזים וסכומם שווה לאפס. לא ניתן לחשב ממוצע בהתפלגות בעלת מחלקות פתוחות )משום שחישוב הממוצע מחייב שימוש בכל הערכים(. הממוצע אינו בהכרח ערך הקיים בהתפלגות )לדוגמה, בהתפלגות 7 4,, 1, הממוצע יהיה 3.5( שינויים באברי הסדרה והשפעתם על הממוצע: טרנספורמציה על כל אברי הסדרה תשנה את הממוצע בצורה זהה. למשל, בעקבות הגדלת כל איברי הסדרה ב- 10%, יגדל הממוצע ב- 10%. מכיוון שהממוצע מחושב על בסיס כל איברי הסדרה, הממוצע מושפע משינוי שמתרחש בכל אחד מאיברי הסדרה, וכן מהוספה/החסרה של כל איבר. הגדלת ערכו/ם של איבר/ים בסדרה תגדיל את הממוצע. הקטנת ערכו/ם של איבר/ים בסדרה תקטין את הממוצע. הוספת איבר הגדול מהממוצע- תגדיל אותו, החסרת איבר הגדול ממנו תקטין אותו. הוספה\החסרה של איבר השווה לממוצע לא תשנה את הממוצע. 8

21 תירואית הקיטסיטטס מדדי פיזור מדדי הפיזור מספקים מידע על מידת הפיזור של ערכי ההתפלגות סביב מדד המרכז, ועל מידת הקרבה שלהם אליו. כזכור, מדדי מרכז משמשים לאפיון של מרכז ההתפלגות. בדומה, מדדי הפיזור מתארים את גודל ההבדלים בין ערכי ההתפלגות, ומשמשים לאפיון הפיזור שלה. מדדי המרכז ומדדי הפיזור יחד, מספקים מידע שלם יותר על הנתונים. למשל: סדרה א': 50,40,30,0,10 סדרה ב': 3,31,30,9,8 בשתי הסדרות הנ"ל ערך מדדי המרכז הינו זהה )30(, אולם הפיזור שלהן שונה: סדרה א' סדרה ב' מאידך, שתי התפלגויות בעלות פיזור זהה, יכולות להיות בעלות מדדי מרכז שונים: אנו נעסוק בחמשת מדדי הפיזור המקובלים ביותר: אחוז השגיאות, ממוצע הסטיות המוחלטות, טווח, טווח בין- רבעוני, שונות וסטיית תקן. לכל אחד ממדדי הפיזור, מדד מרכז המתאים לו. עבור מדד מרכז זה ערך מדד הפיזור יהיה הנמוך ביותר )מינימלי(, ולכן, מדד הפיזור מחושב על פי מדד מרכז זה. האפשרות לחישוב מדד הפיזור לסולמות השונים, מתאים לאפשרות לחשב את מדד המרכז המתאים לסולם זה. אחוז השגיאות ערכו של מדד פיזור זה נקבע לפי אחוז התצפיות בהתפלגות שאינן שייכות לקטגוריה השכיחה ביותר. לדוגמה, בסדרה )1, 5( 4, 3,,, ישנם 6 ערכים שונים, מתוכם שניים שייכים לקטגוריה השכיחה ביותר.)Mo=( אם כך, 4 מתוך 6 ערכים אינם שייכים לקטגוריה השכיחה ביותר, ואליהם יתייחס אחוז השגיאות: %.66 6 = 4 )אחוז 6 השגיאות מבוטא באחוזים, והוא מחושב באמצעות חלוקת מספר התצפיות שאינן בקטגוריה השכיחה בכלל התצפיות, כפול 100(. 9

22 מדד אחוז השגיאות משמש בעיקר עבור משתנים איכותיים )בסולמות שמי וסדר(, שכן עבור הסולמות הכמותיים קיימים מדדים המשקפים את הפיזור בצורה טובה יותר. אחוז השגיאות הוא למעשה המדד המשלים לשכיחות השכיח. דרך נוספת לחשב אותו היא לחשב את אחוז התצפיות בהתפלגות שהן השכיח, ולהפחית אותו מ- 100% )בדוגמה לעיל, אחוז השכיחים הוא 33.3%(. מכיוון שאחוז השגיאות מתייחס אך ורק למספר הערכים שאינם השכיח, הוא כלל אינו מושפע מערכים קיצוניים. ממוצע הסטיות המוחלטות AD( )Absolute Deviation; ערכו של ממוצע הסטיות המוחלטות נקבע לפי ממוצע הסטיות בין כלל התצפיות בהתפלגות למדד המרכז, בערך מוחלט )לעצם גודל הסטייה אין סימן )+( או ) (, ומכאן הערך המוחלט(. ממוצע הסטיות המוחלטות מחושב כסטייה מהחציון, משום שאז יתקבל סכום הסטיות הקטן ביותר. על מנת לחשב את ממוצע הסטיות המוחלטות, מחשבים את הסטייה )בערך מוחלט( של כל תצפית מהחציון, סוכמים את כל הסטיות הללו )סכום הסטיות המוחלטות(, ומחלקים במספר התצפיות על מנת לקבל ממוצע: Σ xi Md AD = n כפי שניתן לראות, סכום הסטיות המוחלטות מושפע ממיקומן של כל התצפיות בהתפלגות, ולכן ממוצע הסטיות המוחלטות מושפע מערכים קיצוניים. הטווח )Range( הטווח שווה למרחק שבין הערך הגבוה ביותר בהתפלגות ובין הערך הנמוך ביותר בה. מכיוון שהטווח מתייחס להפרש בין ערכים, הוא מחייב ערכים כמותיים וניתן לחישוב על משתנה כמותי מסולם רווח או יחס/מנה. לדוגמה: אילו כיתה שלמה נבחנה במתמטיקה, הציון הגבוה ביותר במבחן היה )max=96( 96 והציון הנמוך ביותר היה טווח ההתפלגות יהיה.)range=96 53=43( 43,)min=53( 53 כפי שניתן לראות, הטווח מחושב אך ורק על סמך הערכים הקיצוניים ביותר בהתפלגות. מכיוון שכך, לא ניתן להבין ממדד הטווח את מידת הפיזור של רוב הציונים, ולכן הוא נחשב למדד לא מהימן במיוחד, שלא תמיד מייצג נכונה את פיזור ההתפלגות. הערה: חשוב להבחין בין מדד הפיזור "טווח" ובין מדד המרכז "אמצע הטווח". הראשון מייצג את פיזור ההתפלגות, ואילו השני מתאר מדד מרכזי סביבו ההתפלגות מתפזרת. לא ניתן לחשב את אמצע הטווח על בסיס טווח ההתפלגות, שכן מתוך הטווח כשלעצמו לא ניתן לדעת בין אילו ערכים נע הטווח. למשל, גודל טווח 4 מאפיין את שתי הסדרות הבאות: סדרה א' }1, 5{ 4, 3,, סדרה ב' }51, 55{. 54, 53, 5, אולם, אמצע הטווח עבור סדרה א' הוא 3, ועבור סדרה ב' הוא 53. הטווח הבין-רבעוני IQR( )Interquartile Range; 30 הטווח הבין-רבעוני, שנקרא לעיתים גם "התחום הבין-רבעוני", מבוסס על מושג הרבעונים. הרבעונים מחלקים את ההתפלגות ל- 4 חלקים שווים הכוללים כל אחד 5% מערכי ההתפלגות. הרבעון הראשון ( 1 Q( הוא הערך שעד אליו )כולל אותו( מתפלגים 5% מערכי ההתפלגות הנמוכים ביותר. הרבעון השני ( Q( הוא הערך שעד אליו )כולל אותו( מתפלגים 50% מערכי ההתפלגות הנמוכים ביותר. הרבעון השלישי ( 3 Q( הוא הערך שעד אליו

23 תירואית הקיטסיטטס מתפלגים 75% מערכי ההתפלגות הנמוכים ביותר. הרבעון הרביעי ( 4 Q( הוא הערך שעד אליו נמצאים 100% מערכי ההתפלגות, כלומר הערך הגבוה ביותר בהתפלגות. באופן ספציפי, יש לשים לב לכך שבין כל שני רבעונים עוקבים מתפלגים 5% מערכי המשתנה. כמו כן, הרבעון השני, שחוצה את ההתפלגות לשניים )50% מהערכים נמצאים מתחתיו(, הוא למעשה החציון, כך ש: Q. =Md הטווח/התחום הבין-רבעוני שווה להפרש שבין ערך הרבעון השלישי ( 3 Q( וערך הרבעון הראשון ( 1 Q. 3 Q 1 Q(: מדד פיזור זה מתאר את גודל התחום בו כלולים 50% מהערכים המרכזיים בהתפלגות. את הטווח הבין-רבעוני ניתן לחשב על משתנים כמותיים בלבד )מסולם רווח ומעלה(, מכיוון שהוא מחושב על הפרש בין ערכים כמותיים. יתרונו של הטווח הבין-רבעוני הוא שאינו מושפע מהערכים הקיצוניים בהתפלגות, ואילו חסרונו בכך שאינו מייצג את כל ערכי ההתפלגות )אלא רק את 50% הערכים המרכזיים שלה(. דוגמה לחישוב טווח בין-רבעוני: להלן נתוני השכיחות והשכיחות המצטברת של ערכי השכר של 160 עובדים בחברה: ערך המשכורת 4,000 5,000 6,000 7,000 8,000 שכיחות שכיחות מצטברת חישוב Q1: יש למצוא את הערך שעד אליו )כולל אותו( מתפלגים 5% מהאיברים. בסדרה 160 איברים, 5% מהאיברים הם: 160/4= 40. על פי הטבלה 5% מהאיברים )40( מתפלגים עד השורה השנייה בה הערך הוא לכן: 5000=Q1. חישוב Q3: יש למצוא את הערך שעד אליו )כולל אותו( מתפלגים 75% מהאיברים. 75% מהאיברים הם: =3*)160/4(.10 על פי הטבלה, 75% מהאיברים )10( מתפלגים עד השורה הרביעית בה הערך הוא לכן, 7000=Q3. חישוב הטווח הבין רבעוני: = Q1=.Q3 משמעות הדבר היא ש- 50% הערכים המרכזיים של התפלגות השכר בחברה נעים בין 5000 ל כלומר, מפוזרים בטווח של 000. באופן דומה לטווח, לא ניתן להסיק מתוך גודל הטווח הבין רבעוני על ערכי ההתפלגות, שכן טווח בין רבעוני שערכו 100, יכול לנוע למשל, בין הערכים 1 ל- 100 או בין הערכים 1001 ל

24 הערה: ישנה דרך נוספת לחישוב הטווח הבין רבעוני. דרך זו מבוססת על התייחסות למשתנה בדיד כמשתנה רציף. שימו לב- ידיעת שיטת חישוב זו לא נדרשה עד היום במתא"ם. על פי שיטה זו חישוב הטווח הבין רבעוני ייעשה באופן הבא: סידור התצפיות בסדר עולה ולאחר מכן בניית עמודה של שכיחות מצטברת לשם קביעת גבולות אמיתיים למחלקות. חישוב רבע מכלל המקרים )על ידי המכפלה n 1 (, ומציאת המחלקה המכילה את Q1 )המחלקה שעד אליה מתפלגים מהמקרים( לפי עמודת השכיחויות המצטברות. חישוב הערך של Q1 באמצעות הנוסחה Q = L + 1 n F f חישוב 3 4 מכלל המקרים )על ידי המכפלה n 4 (, 3 ומציאת המחלקה המכילה את Q3 )המחלקה שעד אליה מתפלגים ¾ מהמקרים( לפי עמודת השכיחויות המצטברות. חישוב הערך של Q3 באמצעות הנוסחה Q = L + 3 n F f מחסירים את Q1 מ-.(Q3 Q1) Q3 L1 הגבול התחתון האמיתי של הקטגוריה או המחלקה שמכילה את הרבעון הרלוונטי. רוחב האינטרוול שמכיל את התצפית הרבעונית. f שכיחות הקטגוריה שמכילה את התצפית הרבעונית. n המספר הכולל של התצפיות במדגם. F1 השכיחות המצטברת עד לגבול התחתון של הקטגוריה שמכילה את הרבעון. בכדי לפשט זאת ניתן לראות לדוגמא את סדרת המספרים הפשוטה הבאה בסדרה זו 4 ערכים שכל אחד מהם מופיע פעמיים. לפיכך הטבלה המקובצת תיראה כך: F(x) X גבולות אמיתיים X גבולות מדומים שכיחות מצטברת חישוב הערך לרבע הראשון: Q = ( 8 0) = 15. Q = 5. + ( 8 4) = 35. Q3 Q1= = חישוב הערך לרבע השלישי: חישוב הטווח הבין רבעוני: 3

25 תירואית הקיטסיטטס שונות וסטיית תקן שונות ההתפלגות, המסומנת ב- S², מוגדרת כממוצע ריבועי הסטיות של ערכי ההתפלגות מהממוצע. השונות מתארת את מידת הפיזור של הערכים בהתפלגות סביב הממוצע שלהם, כלומר היא מתארת עד כמה ערכי ההתפלגות קרובים או רחוקים מהממוצע: S Σ( xi x) = n על מנת לחשב את שונות ההתפלגות, ראשית יש לחשב את ממוצע ההתפלגות. לאחר מכן, סוכמים יחד את מרחקם הריבועי של כל הערכים מהממוצע, ומחלקים במספר הערכים )מספר התצפיות(. הממוצע הוא הערך עבורו חישוב השונות יהיה מינימלי. כך שאם תחושב השונות, באותו האופן, על בסיס כל ערך אחר בהתפלגות חוץ מהממוצע, היא תהיה גדולה יותר. ההעלאה בריבוע נעשית על מנת לבטל את סימן המינוס של ערכים הקטנים מהממוצע. לולא היינו מבטלים את סימן המינוס, כאשר היינו סוכמים את מרחקי התצפיות מהממוצע, המרחקים השליליים )ההפרשים בין הממוצע לערכים הקטנים ממנו( היו מתקזזים לגמרי עם המרחקים החיוביים )ההפרשים בין הממוצע לערכים הגבוהים ממנו(, וסכום הסטיות היה יוצא אפס. הסיבה לכך היא שהממוצע מוגדר למעשה כערך "שיווי המשקל", כלומר כערך אשר סכום הסטיות ממנו שווה לאפס בדיוק. מכך שבסוף החישוב אנו מחלקים את סכום הסטיות הריבועיות במספר הערכים, ניתן להבין שמדד השונות הוא למעשה ממוצע )כל ממוצע מתבסס על חישוב סכום הערכים לחלק למספר הערכים(. אם כך, שונות ההתפלגות היא בעצם "שונות ההתפלגות הממוצעת". מכאן שמשמעות מדד השונות היא עד כמה בממוצע רחוקים ערכי ההתפלגות מממוצע ההתפלגות )במרחקים ריבועיים(. מדד שונות בעל ערך גבוה, משמעותו שפיזור התצפיות סביב הממוצע הוא גדול יותר, כלומר ההתפלגות נראית "רחבה" יותר על ציר ה- X. לעומת זאת, שונות נמוכה מתייחסת לפיזור צר של תצפיות סביב הממוצע והתפלגות הנפרשת על פני טווח ערכים קטן יותר על ציר ה- X. כמובן שחישוב השונות מתבסס על פעולות מתמטיות הדורשות ערכים מספריים-כמותיים, ולכן ניתן לחשב את השונות רק עבור משתנים כמותיים מסולם רווח ומעלה. כמו כן, לא ניתן לחשב את השונות עבור טבלת שכיחות בעלת מחלקות פתוחות, שכן בדומה לממוצע, השונות מצריכה שימוש בכל ערכי התצפיות בהתפלגות. סטיית התקן של ההתפלגות היא שורש השונות שלה, כלומר: Σ( xi x) S = n מכיוון שהשונות היא ערך ריבועי )ממוצע מרחקים ריבועיים מהממוצע(, ערכיה "מנופחים" ואינם נתונים באותן יחידות כמו ערכי ההתפלגות. לעומת זאת, היחידות של סטיית התקן, שהיא אינה אלא שורש של השונות, הן יחידות ערכי ההתפלגות, ולכן סטיית התקן היא מדד שימושי יותר. את סטיית התקן לא ניתן לחשב ישירות מתוך ערכי ההתפלגות, שכן היא מחייבת חישוב מקדים של השונות. כמו השונות, גם סטיית התקן מחייבת שימוש במשתנים כמותיים מסולם רווח ומעלה. יחד, השונות וסטיית התקן הן מדדי הפיזור המייצגים והטובים ביותר למשתנים כמותיים, משום ששתיהן מביאות בחשבון את כלל האיברים 33

26 בהתפלגות. לבסוף, בדומה לממוצע )באמצעותו הן מחושבות(, השונות וסטיית התקן מושפעות מכל ערכי ההתפלגות, אולם, ערכים קיצוניים במיוחד, עשויים לנפח אותן במידה ניכרת. לדוגמה, נתונה ההתפלגות של ציונים בקורס "מבוא לפיסול טיפולי" בבית הספר לטיפול באומנויות: נקודת האמצע x i שכיחות ( i f(x Σ = 40 גבולות אמיתיים שכיחות מצטברת cf כדי לחשב את השונות וסטיית התקן, ראשית עלינו לחשב את הממוצע: לחישוב השונות עלינו להשתמש בנוסחה: 8 x = = S fx xi x = Σ ( ) = ( ) + ( ) + ( ) + ( ) n 40 =. 5 לחישוב סטיית התקן עלינו להוציא שורש מערך השונות: S =. 5 = 47. מקדם ההשתנות CV( )coefficient of variation; מכיוון שגודלה של סטיית התקן תלוי בסדר הגודל של הערכים בהתפלגות, ההשוואה בין סטיות תקן שונות מהתפלגויות שונות היא חסרת משמעות, אלא אם מדובר בהתפלגויות ערכים באותם סדרי גודל. למשל, נתון כי סטיית התקן של התפלגות א' היא 40 וסטיית התקן של התפלגות ב' היא האם בהכרח התפלגות ב' מפוזרת יותר? לא. יתכן כי התפלגות א' מייצגת התפלגות מפוזרת למדי של ציוני מבחנים )שיחידות המדידה שלהם הן 0 עד 100(, בעוד התפלגות ב' מייצגת התפלגות עם פיזור נמוך מאוד של משכורות )הנמדדות ביחידות של אלפי שקלים(. מקדם ההשתנות הוא מדד פיזור הפותר את בעיית השוואת השונות/סטיית התקן בין התפלגויות שונות, בכך שהוא מנטרל את השפעת סדר הגודל של ערכי הממוצעים על סטיות התקן, ומאפשר להשוות בין פיזורים שונים של התפלגויות בעלות ערכים בסדרי גודל שונים. על מנת לחשב את מקדם ההשתנות, יש לחלק את סטיית התקן של ההתפלגות בממוצע שלה: CV = S x בדוגמה לעיל, אם ממוצע הציונים הוא 80, וממוצע המשכורות הוא 5000, נקבל עבור ההתפלגות הראשונה מקדם השתנות של CV=0.5 ועבור ההתפלגות השנייה.CV=0. אם כך, ניתן לקבוע כי במקרה הנ"ל, הפיזור בהתפלגות הראשונה דווקא גדול יותר מהפיזור בהתפלגות השנייה. 34

27 תירואית הקיטסיטטס סיכום מדדי מרכז ומדדי פיזור טרנספורמציות על כל אברי הסדרה והשפעתם על מדדי המרכז והפיזור מדדי מרכז: כאמור לעיל, כל מדדי המרכז )שכיח, חציון, ממוצע, ואמצע טווח( מושפעים באותה מידה הן מהוספת קבוע והן מהכפלה בקבוע, בתנאי שנעשו על כל ערכי ההתפלגות. מדד המרכז ישתנה באותו האופן בו השתנה כל אחד מערכי ההתפלגות, כלומר אם בוצעה הטרנספורמציה:, =y ax+ b על כל ערכי ההתפלגות, מדד המרכז החדש= + b (מדד מרכז ישן( a מדדי פיזור: מדדי הפיזור מושפעים רק מהכפלה/חילוק בקבוע )ולא מהוספה/החסרה של קבוע(. מדדי הפיזור של טווח וטווח בין-רבעוני יוכפלו בקבוע שהוכפלו בו איברי ההתפלגות )בעקבות ההכפלה, הטווח יתרחב(. סטיית התקן תוכפל בערך המוחלט של הקבוע שהוכפלו בו איברי ההתפלגות, שכן סטיית התקן היא תמיד חיובית, ואילו השונות תוכפל בקבוע בריבוע. סטיית תקן: S(old) S(new)= a S(new)=a שונות: S(old) אחוז השגיאות לא יושפע גם מהכפלה/חלוקה בקבוע. טבלת סיכום מדדי מרכז ומדדי פיזור סולם המדידה עליו ניתן לחשבו רגיש בעיקר ל: מדד הפיזור המתאים )עבורו ייתן מדד המרכז ערך מינימאלי( שכיח שמי ומעלה שכיחות הערכים בלבד אחוז השגיאות חציון סדר ומעלה כמות האיברים מעליו ומתחתיו סכום הסטיות המוחלטות )AD( והטווח הבין-רבעוני ממוצע רווח ומעלה מושפע מכל ערכי ההתפלגות שונות וסטיית תקן 35

28 מדדי מיקום יחסי מדדי מיקום יחסי מספקים מידע לגבי מיקומה של תצפית מסוימת ביחס לתצפיות האחרות בהתפלגות )למשל, מהו מיקום ציונו של תלמיד במבחן ביחס לשאר הציונים בכיתה(, או ביחס לתצפיות הלקוחות מהתפלגויות שונות )למשל, אם תלמיד מסויים קיבל 79 באנגלית ו- 85 בחשבון, מדד המיקום היחסי יענה על השאלה באיזה מהמקצועות הוא הצליח יותר באופן יחסי(. מדדי מיקום יחסי הם ערכים יחסיים הנקבעים ביחס להתפלגות מסוימת )כלומר בהתאם למדדי המרכז והפיזור שלה(, והם נחשבים ערכים "טהורים", כלומר ערכים שאינם תלויים ביחידות המדידה של המשתנה. אחוזון / מאון אחוזון/מאון X )למשל האחוזון ה- 70 ( מוגדר כנקודה על סולם המדידה, שעד אליה מתפלגים %X מהמקרים )למשל 70% משטח ההתפלגות(, ומעליה נמצאים %( X -100 ( מהמקרים )למשל 30% משטח ההתפלגות(. האחוזון מספק מידע על מיקומה של תצפית מסוימת במונחים של סדר )כלומר של גודל יחסי ולא הפרש כמותי(, ולפיכך ניתן לחשבו גם עבור משתנים איכותיים מסולם סדר ומעלה. חישוב האחוזון מבוסס על חלוקת ההתפלגות ל- 100 אחוזים, כל אחוזון מייצג אחוז שווה מכלל ערכי המשתנה. עד האחוזון ה- 1 מתפלגים 1% מכלל הערכים, עד האחוזון ה- 6 מתפלגים 6% מהערכים, וכך הלאה. החציון, שעד אליו מתפלגים מחצית מהערכים,)50%( הוא למעשה האחוזון ה- 50. גם הרבעונים שהוזכרו לעיל ( 4,)Q 1, Q, Q 3, Q הם למעשה האחוזונים ה- 5, ה- 50, ה- 75 וה- 100, בהתאמה. כיצד מאפשר האחוזון השוואה בין ציונים מהתפלגויות שונות? כאשר הופכים את שני הציונים שאותם מעוניינים להשוות לאחוזונים, מקבלים את מיקומם היחסי בתוך כל התפלגות, וניתן להשוות ביניהם. לדוגמה, אם גבריאל קיבל בתנ"ך 80 ובחשבון 70, ומצאנו שציון 80 בתנ"ך נמצא במאון ה- 40 בהתפלגות הציונים בתנ"ך )כלומר 40% מתלמידי הכיתה קיבלו מתחת ל- 80 (, ואילו ציון 70 בחשבון נמצא במאון ה- 95 בהתפלגות הציונים בחשבון )כלומר 95% מתלמידי הכיתה קיבלו ציון נמוך מ- 70(, ניתן להסיק כי הישגו היחסי של גבריאל במבחן בחשבון גבוה מהישגו במבחן בתנ"ך. לבסוף, האחוזון אינו מושפע מערכי התצפיות, אלא מסדרן בלבד. לפיכך, הוא אינו מהווה טרנספורמציה כמותית על ערכן, וזהו החיסרון העיקרי של האחוזונים: לא ניתן לחבר ביניהם, לחסר אחד מהשני, לחשב עליהם ממוצע או שונות, וכו'. מבחינה סטטיסטית, אין לאחוזונים שימוש נוסף מלבד ההשוואה האמורה בין מיקום של ערכים מתצפיות שונות. אם נרצה לערוך מניפולציות נוספות על הנתונים, יש לעשות זאת על ציוני הגלם או על מדד מיקום יחסי אחר. ציון תקן )Z( 36 ציון התקן הוא מדד מיקום יחסי, הממקם את ערכי ההתפלגות ביחס לממוצע ההתפלגות במונחים של סטיות תקן. באמצעות ציוני תקן ניתן לקבוע האם תצפית מסויימת הינה גבוהה מהממוצע או נמוכה ממנו, ומה המרחק ביניהם במונחים של סטיות תקן. ציון התקן של תצפית X הוא המרחק שלה מממוצע ההתפלגות ( X (, ביחידות של סטיית תקן ( x S(. הנוסחה לחישוב ציון התקן היא: Z X i = X S

29 תירואית הקיטסיטטס לדוגמה, אם אביב קיבל ציון 80 במבחן בו הממוצע היה = 50 X וסטיית התקן 10= S, ציון התקן של אביב הוא 3. במילים אחרות, מכיוון שסטיית התקן הממוצעת בהתפלגות היא 10, וציונו של אביב גבוה ב- 30 מהממוצע, הרי שציונו של אביב גדול מהממוצע ב- 3 סטיות תקן ממוצעות להתפלגות. ציון התקן מספק מידע על מיקומה היחסי של תצפית ביחס לממוצע ההתפלגות ובהתאם לפיזורה בערכים טהורים )שאינם מושפעים מיחידות המדידה של המשתנה(, ולכן הוא מאפשר השוואה לא רק בין ציונים שונים באותה התפלגות, אלא גם בין ציונים השייכים להתפלגויות שונות. ציון התקן ניתן לחישוב עבור משתנים כמותיים מסולם רווח ומעלה, שכן הוא מבוסס על חישוב הפרש כמותי בין תצפיות. ציון תקן שלילי משמעו שהציון הגולמי נמוך מהממוצע ציון תקן חיובי, משמעו שהציון הגולמי גבוה מהממוצע עבור ציון השווה לממוצע נקבל ציון תקן 0 מתוך הנוסחה ניתן לראות כי ציון התקן לא מבטא רק את המרחק מהממוצע, אלא גם את המשמעות של מרחק זה ביחס לסטיית התקן באוכלוסייה הספציפית. דוגמה: ידוע כי בממוצע נשים מתרגלות 7 שעות יוגה בחודש עם סטיית תקן של 0.5 שעות, ואילו גברים מתרגלים 6.5 שעות יוגה בחודש עם סטיית תקן 0.5 שעות. סיוון וטמיר, זוג יוגיסטים מאזור הצפון, רצו לבדוק מי מהם מצטיין יותר בתרגול יוגה במשך חודש מסויים. הם ספרו את שעות היוגה אותן תרגלו בחודש פברואר, ומצאו כי סיוון תרגלה 7.5 שעות בחודש, ואילו טמיר תרגל 7 שעות. סיוון קפצה מיד ואמרה לבן-זוגה שהיא מצטיינת יותר בתרגול יוגה, אך טמיר הזהיר אותה כי לא ניתן סתם כך להשוות ערכים משתי אוכלוסיות שונות. לשם השוואה, הוא אמר, עליהם להתחשב בנתונים של האוכלוסיות השונות, כלומר להשוות את ציוני התקן שלהם: = 1 = סיון Z = טמיר Z 5 = 05. ניתן לראות אפוא, כי למרות ששני בני-הזוג תרגלו יותר שעות יוגה מהממוצע של אוכלוסייתם )לשניהם ציוני תקן חיוביים(, ועל אף שהפער של שניהם מהממוצע הינו זהה )מרחק של 0.5 שעות יוגה מהממוצע, לכל אחד מהם( טמיר מתרגל דווקא יותר שעות יוגה מאשר סיוון, ביחס לאוכלוסייה שאליה הוא שייך. התפלגות בציוני תקן: ניתן להפוך כל התפלגות שהיא להתפלגות בציוני תקן, על ידי המרת כל ערכי ההתפלגות לציוני תקן. בהתפלגות זו הממוצע יהיה תמיד 0 )שכן כאמור, ערכו של הממוצע בציוני תקן הוא 0(, וסטיית התקן תהיה 1 )הסטייה הממוצעת בהתפלגות מנוטרלת מערכיה הגולמיים, והופכת ל- 1 (. ציון התקן מהווה טרנספורמציה לינארית על הציון הגולמי. טרנספורמציה לינארית אינה משנה את יחסי הרווחים בין הערכים השונים, אולם פוגעת ביחסי הערכים עצמם. לכן מעבר לציוני תקן אינו פוגע במשתנים בסולם רווח, אך הופך משתנים בסולם מנה למשתנים בסולם רווח. כמו כן, באמצעות החלוקה בסטיית התקן )שמשקפת כזכור את יחידות 37

30 המדידה(, החישוב של ציון התקן מנטרל את השפעתן של יחידות המדידה של ההתפלגות, והופך אותו לערך טהור, שאינו תלוי ביחידות המשתנה )קילוגרם, סנטימטר או נקודות במבחן(. משום כך, התפלגות ציוני התקן נקראת התפלגות סטנדרטית, כלומר התפלגות שאינה תלויה ביחידות המדידה השונות. התפלגות ציוני התקן של ההתפלגות הנורמלית נקראת התפלגות נורמאלית סטנדרטית, והיא הבסיס לכל תהליך ההסקה הסטטיסטית )כפי שיובהר בפרקים הבאים(. דוגמה לחישוב ממוצע וסטיית תקן עבור התפלגות סטנדרטית )התפלגות בציוני תקן( נתונה רשימת התצפיות הבאה:,70{ }100,80,80,80,70 נחשב ונמצא כי הממוצע = 80 X, וסטיית התקן 10= S. בעזרת נתונים אלו ניתן להפיק את התפלגות הציונים המתוקננת )כלומר התפלגות ציוני הגלם בציוני תקן(: ציון גלם ציון תקן כעת נחשב את הממוצע וסטיית התקן של התפלגות ציוני התקן, הנקראת כאמור גם ההתפלגות הסטנדרטית: ( Z = 1) + ( 1) הממוצע: = 0 6 ( S Z = 1 0) + ( 1 0) + ( 0 0) + ( 0 0) + ( 0 0) + ( 0) 6 = = 1= סטיית התקן: כאמור, עבור כל התפלגות בציוני תקן מעצם הגדרתה, נקבל כי הממוצע שווה 0 וסטיית התקן 1. הקשר בין אחוזונים וציוני תקן הקשר שבין אחוזונים וציוני תקן אינו קבוע, והוא משתנה בהתאם לצורת ההתפלגות. בהתפלגות הנורמלית )שעוד נדון בה בהמשך(, יש לנו טבלאות המגדירות את הקשר המדוייק בין ציון התקן והמאון. כך ניתן למצוא בטבלת Z )כמו גם בטבלאות F t, ו- χ( בדיוק מהו המאון המתאים לציון תקן מסוים. אולם, עבור כל התפלגות אחרת אין דרך לעבור מציון המאון לציון התקן, או לדעת מה היחס ביניהם, בהיעדר נתונים נוספים. השימוש בציוני תקן במבחני הסקה סטטיסטית ציוני התקן הם במידה רבה עמודי התווך של הסטטיסטיקה ההיסקית, היות שההסקה הסטטיסטית מבוססת במהותה על ההשוואה שבין שני ציוני תקן מאותה ההתפלגות וההסתברות לקבל כל אחד מהם. 38

31 תירואית הקיטסיטטס טבלאות של התפלגויות ייחודיות )כגון טבלת Z של ההתפלגות הנורמאלית הסטנדרטית, טבלת t, טבלת F, טבלת χ, וכו'( חושבו על מנת שיהיה ניתן לעבור בפשטות מציוני תקן לאחוזונים בהתפלגות. באמצעות טבלאות אלו ניתן לחשב את ציון התקן לערך כלשהו במדגם, ולבדוק את האחוזון שלו, כלומר את ההסתברות לקבלו )לדוגמה, בהתפלגות Z, ציון התקן המתאים לאחוזון ה-.5, כלומר ל-.5%, הוא.1= 96 Z (. בפרקים הבאים נעסוק בנושא זה בפירוט רב. 39

32 הרחבה על התפלגויות חלקות משמעותם של השטחים בעקומות השונות כפי שהראינו בחלק הקודם של הפרק, התפלגות חלקה מייצגת למעשה שכיחות של ערכים. כך שגובהה של העקומה מייצג את צפיפות הערכים בכל נקודה, וכלל השטח מייצג את כלל השכיחות. עוד הראינו, שלא ניתן לדבר על שכיחות של נקודה מסוימת )שכיחות השואפת לאפס(, אך ניתן לתחום קטע מסוים, כך שהשטח התחום מתחת לעקומה מייצג את שכיחות התצפיות שבין ערך מסוים לערך אחר. כאשר התפלגות מייצגת שכיחות, שטח ההתפלגות כאמור מייצג את שכיחות הערכים. אם כן, אם נרצה להשוות בין התפלגות מספר הילדים למשפחה בסין, ובין התפלגות מספר הילדים למשפחה בישראל, שטח העקומה המייצגת את סין יהיה צריך להיות פי כ- 00 גדול יותר מהעקומה המייצגת את ישראל. מסיבה זו, רוב העקומות המשמשות להצגת נתונים )ובהמשך, לסטטיסטיקה היסקית(, הן למעשה עקומות של שכיחות יחסית. כזכור, בטבלת שכיחות יחסית חישבנו את שכיחותה היחסית של כל מחלקה באמצעות חלוקת השכיחות שלה ב- n )סך המקרים(. בהתאם, במעבר מהתפלגות בסיסית )התפלגות שכיחות( להתפלגות של שכיחות יחסית, אנו מחלקים למעשה כל אחת מהשכיחויות של אינסוף הערכים על ציר X בגודל n )גודל המדגם, כלומר סך המקרים(. שטחה הכולל של העקומה מייצג 100% מהתצפיות )או 1 בשברים עשרוניים(. וכל קטע תחום מתחת לעקומה מייצג אחוז מסוים מכלל התצפיות. באופן זה, ניתן להשוות בין התפלגויות של אוכלוסיות שונות. עקומת שכיחות יחסית נקראת גם עקומת הסתברות. השם הסתברות נובע מכך ששכיחותו של ערך מייצגת למעשה את ההסתברות למצוא אותו מתוך כלל התצפיות )למשל, אם שכיחות המשפחות בהן מספר הילדים גדול מ- 5, היא 10%, הרי שההסתברות שלמשפחה מקרית שדגמנו יש למעלה מ- 5 ילדים היא 10%(. לדוגמה: סין סין מחלקים ב- n ישראל מיליארד 7 מיליון 100% ישראל 100% מספר הילדים במשפחה מספר הילדים במשפחה 40

33 תירואית הקיטסיטטס סוגי עקומות בהפיכת העקומות לעקומות הסתברות, שטחן של כל העקומות בעולם משתווה )כאמור, השטח יהיה תמיד 1 או 100%(. אולם, הן ממשיכות לייצג את הדבר המרכזי שהן אמורות לייצג: אופן ההתפלגות של המשתנה מידת הפיזור שלו, הערכים סביבם הוא מתפלג ושכיחויותיהם היחסיות. לפיכך, קיימות אינסוף עקומות התפלגות הנבדלות ביניהן הן בצורתן, והן בערכיהן. ניתן להתייחס לצורות מקובלות או שימושיות יותר של התפלגויות: התפלגויות סימטריות התפלגויות סימטריות הן צורות שונות של התפלגויות, שהמשותף להן הוא שאם יחצה קו אנכי את מרכז ההתפלגות, ההתפלגות מצד אחד תהיה תמונת ראי של הצד השני. קיימות אינסוף של התפלגויות סימטריות: התפלגות בצורת או, התפלגות דו-שכיחית, התפלגות מלבנית, התפלגות סינוס, התפלגות נורמלית, או כל סוג אחר שעבורו שני חצאי ההתפלגות יוצרים תמונת ראי זה של זה. בהתפלגות סימטרית, החציון, הממוצע ואמצע הטווח יהיו תמיד שווים, שכן כולם תמיד יהיו בדיוק במרכז ההתפלגות. השכיח, לעומת זאת, יכול להיות במיקומים שונים. אם מדובר בהתפלגות חד-שכיחית, השכיח יהיה במרכז, ויהיה שווה לחציון, לממוצע ולאמצע הטווח. עם זאת, בהתפלגות סימטרית יכולים להיות מספר שכיחים )בהתפלגות למשל, יהיו שני שכיחים בשני קצוות ההתפלגות; בהתפלגות עם שתי "גבעות" תהיינה שתיהן השכיח, וכו'(. להלן דוגמאות להתפלגויות סימטריות ומיקומם של מדדי המרכז בהן: התפלגות סימטרית כלשהי התפלגות נורמלית התפלגות U התפלגות אחידה distribution( :)uniform גם זו התפלגות סימטרית, אך היא מאופיינת בכך שלכל אינטרוול )כלומר טווח( על ציר ה- X יש בדיוק אותה השכיחות. צורת עקומה זו היא קו ישר המקביל לציר X, המייצר את אותה השכיחות )אותו השטח( עבור כל ערך או טווח ערכים של X. X Md 41

34 התפלגות נורמלית X Md Mo MR X ההתפלגות הנורמלית נקראת גם התפלגות גאוס או עקומת פעמון, והפונקציה המתארת אותה היא: ( x µ ) 1 ( x ) f( x) = e σ 1 = exp µ πσ σ π σ התפלגות זו היא מקרה ספציפי של התפלגות סימטרית, אשר בה שיא אחד בלבד שנמצא במרכז, וממנו ירידה סימטרית בשני הצדדים. בהתפלגות כזו, כל מדדי המרכז מתלכדים ונמצאים במרכז ההתפלגות. ההתפלגות הנורמלית הינה התפלגות תיאורטית של משתנה רציף שגבולותיו באינסוף, ולכן קצות ההתפלגות נמשכים עד אין סוף לאורך ציר ה- X ואינם מתלכדים עמו לעולם )באופן מעשי, משתנים בעולם המחקר יתפלגו נורמלית רק בקירוב, שכן לרוב הם אינם נמשכים עד אינסוף(. ההתפלגויות הנורמליות הן משפחה של התפלגויות אשר נבדלות זו מזו בממוצעים ובסטיות התקן שלהן. בהנתן שני נתונים אלו )ממוצע וסטיית תקן(, ניתן לתארן במדויק. כמו בכל התפלגות, השטחים הכלואים מתחת להתפלגות מייצגים את אחוז התצפיות בכל שטח בהתפלגות, וניתן לחשב אחוז זה באמצעות סטיית התקן של כל התפלגות. על בסיס זה ניתן לחשב עבור כל שטח בהתפלגות מהי ההסתברות שתצפית מסוימת באוכלוסייה תיכלל בו. בכל התפלגות נורמלית )גם זו שאינה סטנדרטית(, השטח הכלוא בין הממוצע לבין סטיית תקן נתונה ממנו הוא זהה. על עיקרון זה מבוססת הסטטיסטיקה ההיסקית, כפי שיורחב בהמשך. ההסתברות לקבל ערכים בהתפלגות נורמלית הינם קבועים וידועים: בין הממוצע לבין סטיית תקן אחת 1 מעליו או מתחתיו, נמצאים כ- 34% מהמקרים בהתפלגות בין הממוצע ל- סטיות תקן מעליו או מתחתיו, נמצאים 47.7% מהמקרים ובין הממוצע ל- 3 סטיות תקן מעליו או מתחתיו, נמצאים 49.87% מהמקרים 4 1 הכוונה בסטיית תקן היא לסטיית תקן ממוצעת. כלומר, אם סטיית התקן בהתפלגות הנורמלית המסוימת היא 0, אז בין הממוצע לבין הערך שערכו ממוצע+ 0, יתפלגו 34% מהתצפיות. או במילים אחרות, בין הממוצע לבין הערך שציון התקן שלו 1 או -1, יתפלגו 34% מהתצפיות.

35 תירואית הקיטסיטטס להלן פירוט השטחים )ההסתברויות( המצויים בין סטיות התקן בהתפלגות נורמלית: % 34.1% 34.1%.1% 0.1% 0.1% 13.6% 13.6% -3σ -σ -1σ 0 1σ σ 3σ התפלגות נורמלית סטנדרטית ההתפלגות הנורמלית-סטנדרטית נקראת גם התפלגות Z. זוהי התפלגות ציוני התקן של ערכיה של התפלגות נורמלית. מכיוון שציוני התקן מבטלים את ההבדל שבין יחידות מדידה שונות, ההתפלגות הנורמלית הסטנדרטית היא אחת ויחידה עבור כל ההתפלגויות הנורמליות שישנן, ולה סטיית תקן 1 וממוצע 0, כלומר: Z~N(0,1). משמעות הדבר היא שעבור כל התפלגות נורמלית, נוכל לייצר התפלגות של ציוני תקן, שממוצעה יהיה אפס וסטיית-התקן שלה 1 ]חשוב לציין כי עבור כל התפלגות מתוקננת )התפלגות ציוני תקן( אחרת )גם זו שאינה נורמלית(, הממוצע יהיה בהכרח 0 וסטיית התקן בהכרח 1, אך כמובן לא כולן יתפלגו נורמלית. למעשה, כל התפלגות מתוקננת תשמור על צורתה המקורית, כך למשל, התפלגות U במעבר לציוני תקן תישאר התפלגות U[. ההתפלגות הנורמלית הסטנדרטית, היא זו שערכיה מופיעים בטבלת Z המפורסמת, עליה מבוססים החישובים הסטטיסטים. כפי שידוע, ניתן להסיק באמצעותה לגבי כל התפלגות נורמלית, זאת משום שהשטחים היחסיים זהים בכל התפלגות נורמלית, וההתפלגות הסטנדרטית היא טרנספורמציה לינארית, לציוני תקן, של ערכי האוכלוסייה המקורית. התפלגות א-סימטרית התפלגות א-סימטרית הינה התפלגות הנוטה לאחד הצדדים. בצד אחד שלה קיימת פסגה )היא השכיח(, וסביבה מרוכזות מרבית התצפיות בהתפלגות. בצד השני קיים "זנב" הנמשך לאורך ציר ה- X ושואף לו. שכיחות התצפיות בצד זה של ההתפלגות נמוכה יותר והערכים בה קיצוניים יותר בהשוואה לצד השני שלה. התפלגות א-סימטרית חיובית זוהי התפלגות א-סימטרית, בה פסגת ההתפלגות ומרבית האיברים סביבה נמצאים בצד שמאל, והזנב שלה נמשך ימינה )כלומר לכיוון החיובי( לאורך ציר ה- X. הערכים שעל זנבה הולכים וגדלים, כלומר הקו מתקדם בצורה חיובית לאורך ציר ה- X, ושכיחותם הולכת וקטנה עם התקרבות הזנב לציר ה- X. 43 Mo Md X MR

36 בהתפלגות זו, השכיח )פסגת הפעמון( יהיה בעל הערך הקטן מכל מדדי המרכז. החציון, שמושפע ממספר התצפיות אך לא מערכן, יהיה גדול בערכו מהשכיח וקרוב אליו באופן יחסי, כך שהשטח )השכיחות( משני צידיו יהיה שווה. הממוצע, שמושפע מהערכים הקיצוניים, "יימשך" לכיוונם )כלומר לכיוון הזנב(, ויהיה גדול בערכו מהחציון. אמצע הטווח, שמושפע במידה הרבה ביותר מהתצפיות הקיצוניות, "יימשך" בצורה רבה מאוד לכיוון הזנב, ויהיה מדד המרכז בעל הערך הגבוה ביותר. התפלגות א-סימטרית שלילית MR X Md Mo בהתפלגות זו, פסגת ההתפלגות ומרבית האיברים סביבה נמצאים בצד ימין, והזנב שלה נמשך שמאלה )כלומר לכיוון השלילי( לאורך ציר ה- X. הערכים שעל זנבה הולכים וקטנים, כלומר הקו מתקדם בצורה שלילית לאורך ציר ה- X, ושכיחותם הולכת וקטנה עם התקרבות הזנב לציר ה- X. בהתפלגות זו, השכיח )פסגת הפעמון( יהיה בעל הערך הגבוה מכל מדדי המרכז. החציון, שמושפע ממספר התצפיות אך לא מערכן, יהיה קטן בערכו מהשכיח וקרוב אליו באופן יחסי, כך שהשטח )השכיחות( משני צידיו יהיה שווה. הממוצע, שמושפע מהערכים הקיצוניים, "יימשך" לכיוונם )כלומר לכיוון הזנב(, ויהיה קטן בערכו מהחציון. אמצע הטווח, שמושפע במידה הרבה ביותר מהתצפיות הקיצוניות, "יימשך" בצורה רבה מאוד לכיוון הזנב, ויהיה מדד המרכז בעל הערך הנמוך ביותר. טרנספורמציות על התפלגויות: טרנספורמציות הן כזכור פעולות מתמטיות על ערכי המשתנה. טרנספורמציות על התפלגויות הן למעשה פעולות מתמטיות הנעשות על כל ערכי המשתנה, כלומר על כל ערכי ההתפלגות. מכיוון שהטרנספורמציות משנות את כל ערכי המשתנה, בהתאם הן גם משנות את כל ערכי ההתפלגות. במקרים מסויימים, תשתנה גם צורתה )היא תתרחב או תתכווץ( כפי שנראה להלן, אולם סוג הצורה שלה )פעמונית, U, דו-שכיחית וכן הלאה(, לא ישתנה בעקבות טרנספורמציה לינארית. 44

37 תירואית הקיטסיטטס. 1 הוספה / החסרה של קבוע לכל הערכים ההתפלגות כולה תנוע על ציר X בהתאם לתוספת / להפחתה, וצורתה לא תשתנה: כעת, ניתן להבין, מדוע כאשר מתבצעת טרנספורמציה של הוספה/הפחתה של קבוע על כל ערכי ההתפלגות, כל מדדי המרכז משתנים בהתאם )גדלים\קטנים( בערך הקבוע, ומדדי הפיזור לא מושפעים מכך.. הכפלה בקבוע ההתפלגות כולה תנוע לכיוון החיובי על ציר X אך גם תתרחב, מכיוון שהכפלת הערכים מובילה למרחקים גדולים יותר ביניהם. היות שהמרווחים בין הערכים גדלו, ואילו סך כל השטח חייב להישמר )100%(, גובה ההתפלגות ירד.. 3 חלוקה בקבוע ההתפלגות כולה תנוע לכיוון השלילי על ציר X אך גם תתכווץ, מכיוון שחלוקת הערכים תוביל להפרשים קטנים יותר ביניהם. היות שהמרווחים בין הערכים קטנו, ואילו סך כל השטח חייב להישמר )100%(, גובה ההתפלגות יעלה. :

38 כעת ניתן לראות כיצד כאשר מתבצעת הכפלה/חלוקה בקבוע, כל מדדי המרכז מוכפלים/מחולקים בערך הקבוע. ובעיקר, ניתן לראות את השינוי שחל במדדי הפיזור: בעקבות הכפלה בקבוע ההתפלגות מתרחבת, מסיבה זו, סטיית התקן מוכפלת והפיזור גדל. מאידך, כאשר מתבצעת חלוקה בקבוע, הפיזור קטן, ובהתאם, סטיית התקן תקטן )תחולק בערך הקבוע(. מתוך כך ניתן גם להבין מדוע מעבר לציוני תקן, משמר את סוג צורתה המקורית של ההתפלגות. מעבר לציוני תקן הוא כאמור טרנספורמציה לינארית, הכוללת החסרת קבוע )הממוצע מוחסר מכל אחד מערכי הסדרה(, וחלוקה בקבוע )ההפרש מחולק בסטיית התקן(. אם כן, במעבר לציוני תקן ההתפלגות תנוע על ציר ה- X כך שמרכזה יהיה על האפס, ותתכווץ או תתרחב בהתאם לסטיית התקן המקורית שלה )כלומר, אם סטיית התקן המקורית הייתה גדולה מ- 1, היא תתכווץ, אם סטיית התקן המקורית הייתה קטנה מ- 1 היא תתרחב(. בכל מקרה, ההתפלגות לא תשנה את סוג צורתה המקורית )נורמלית, U, א-סימטרית שלילית וכן הלאה(. 46