תאוריה סטטיסטית 88-775 עוזי וישנה יוני 2017
מהדורה 1.067 סטטיסטיקה היא מערכת של כלים ושיטות הנמצאת בשימוש בכל תחומי החיים: במדע, בכלכלה, במדעי החברה, ועוד. הכלים הסטטיסטיים הם תמצית השיטה האינדוקטיבית המדעית, בכך שהם מאפשרים להסיק מסדרת ניסויים, כלומר נתוני מדגם, על האוכלוסיה כולה. חלקו הראשון של הקורס הזה מציג שני נושאים בתאוריה סטטיסטית: 1. התאוריה של אמידה נקודתית: כיצד אומדים פרמטרים של האוכלוסיה מתוך המדגם, ואלו מגבלות יש על אמידה כזו. לצורך כך נציג את הכלים הנחוצים מתורת ההסתברות, במיוחד בכל הנוגע להתפלגויות של כמה משתנים, שאינן מקבלות טיפול ראוי בקורס ראשון בהסתברות. 2. העקרונות של תורת המבחנים הסטטיסטיים ובדיקת השערות. בחלק השני נציג מגוון שיטות סטטיסטיות, בעיקר רגרסיה ומבחנים אי פרמטריים. 2
תוכן עניינים 7 תורת ההסתברות 1 7 רקע נדרש............................... 1.1 7....................... מרחב הסתברות 1.1.1 7 משתנים מקריים........................ 1.1.2 8 התוחלת............................ 1.1.3 9.................... שונות ושונות משותפת 1.1.4 10................... פונקציה יוצרת מומנטים 1.1.5 11 חוקי המספרים הגדולים ומשפט הגבול המרכזי........ 1.1.6 12......................... ההתפלגות הנורמלית 1.2 12..................... ההתפלגות הנורמלית 1.2.1 13..................... התפלגות רב ממדית 1.2.2 16................... ההתפלגות הרב נורמלית 1.2.3 21....................... התפלגויות נלוות 1.2.4 26 האומד ה r סימטרי...................... 1.2.5 29 אמידה 2 29........................ מודל, אוכלוסיה ומדגם 2.1 30 אמידה נקודתית............................ 2.2 31....................... שיטת המומנטים 2.2.1 33 אומדים חסרי הטיה...................... 2.2.2 36 השוואת אומדים........................ 2.2.3 37 אומד נראות מקסימלית.................... 2.2.4 40 סטטיסטיים מספיקים ומספיקים במשותף........... 2.2.5 42...................... אינפורמציית פישר 2.2.6 44..................... אי שוויון קרמר ראו 2.2.7 46 אומדים חסרי הטיה בעלי שונות מינימלית במידה שווה.... 2.2.8 48...................... סטטיסטיים שלמים 2.2.9 49...................... משפחות מעריכיות 2.2.10 3
תוכן עניינים תוכן עניינים 2.3 רווחי סמך............................... 50 2.3.1 שיטת הכמות הצירית..................... 51 2.3.2 רווחי סמך עבור ההתפלגות הנורמלית............ 51 53 בדיקת השערות 3 53 השערות, הכרעות, והליך הבדיקה................... 3.1 53........... השערת האפס וההשערה האלטרנטיבית 3.1.1 54....................... הכרעות ושגיאות 3.1.2 55......................... הליך הבדיקה 3.1.3 56....................... פונקציית העוצמה 3.1.4 57........................... השערות פשוטות 3.2 59........................ בדיקת השערות כללית 3.3 59.................. מבחן יחס הנראות המוכלל 3.3.1 60 בדיקת השערות למבחנים חד צדדיים............. 3.3.2 60 בדיקת השערות באמצעות רווחי סמך............. 3.3.3 4 רגרסיה לינארית 63 4.1 רגרסיה דו ממדית.......................... 63 4.1.1 אומדים לקו הרגרסיה..................... 64 4.1.2 פירוק השונות......................... 66 4.1.3 אמידת ערך חדש....................... 68 4.1.4 בדיקת השערות על קו הרגרסיה............... 70 4.2 מבוא לרגרסיה רב ממדית...................... 70 4.2.1 בדיקת השערות........................ 71 4.3 מבוא לניתוח שונות.......................... 72 4.3.1 ניתוח שונות חד ממדי..................... 72 4.3.2 ניתוח שונות דו ממדית ואינטרקציה............. 73 4.4 מבוא לניתוח גורמים......................... 73 5 מבחנים לא פרמטריים 75 5.1 ההתפלגות המולטינומית........................ 75 5.2 מבחני. χ 2.............................. 76 5.2.1 הכרעה בין שתי התפלגויות.................. 76 5.2.2 מבחן לטיב ההתאמה..................... 78 5.2.3 תלות בין משתנים בינאריים.................. 80 5.2.4 האם משתנים בלתי תלויים הם שווי התפלגות........ 82 5.3 ניתוח אשכולות............................ 82 5.3.1 מה אי אפשר לעשות..................... 82 4
תוכן עניינים תוכן עניינים 83........................... ממוצעי k 5.3.2 84......................... שיטת GMM 5.3.3 84........................ אישכול היררכי 5.3.4 85....................... עץ פורש מינימלי 5.3.5 85................. אלגוריתמים מבוססי צפיפות 5.3.6 5
תוכן עניינים תוכן עניינים 6
פרק 1 תורת ההסתברות 1.1 רקע נדרש על אף שאנו מניחים שהקורא למד קורס ראשון בתורת ההסתברות, נחזור כאן על עיקרי הדברים. הקורא המבקש הרחבה מוזמן לעלעל בחוברת ההרצאות שלי לקורס "מבוא להסתברות וסטטיסטיקה", 88-165. 1.1.1 מרחב הסתברות מרחב הסתברות הוא שלשה סדורה ) P,Ω),F הכוללת את קבוצה Ω, סיגמא אלגברה.P(Ω) המקיימת = 1 P : F R ופונקציה חיובית וסיגמא אדיטיבית,F P(Ω) אם,A F הערך P(A) הוא ההסתברות של המאורע.A לתת קבוצות A Ω שאינן שייכות ל F אין ערך הסתברות. כאשר מרחב ההסתברות בדיד (סופי או בן מניה), אפשר לקחת P(Ω) F. = עבור מרחבים גדולים יותר, הבחירה ב F במקום בקבוצת החזקה P(Ω) כולה אינה נובעת מעצלות: לדוגמא, בשל אקסיומת הבחירה, לא ניתן להגדיר מידה אינווריאנטית להזזות על כל תת הקבוצות של המעגל S. 1 הדוגמא החשובה ביותר היא הסיגמא אלגברה של בורל על R, הנוצרת על ידי הקטעים הפתוחים, וכוללת את כל הקטעים, כל הקרניים, כל הקבוצות בנות המניה, ועוד קבוצות רבות אחרות. את זאת אפשר להכליל בקלות לסיגמא אלגברה של R, n הנוצרת על ידי קוביות פתוחות. 1.1.2 משתנים מקריים משתנה מקרי הוא פונקציה (מדידה) ממרחב ההסתברות אל המספרים הממשיים. זהו מושג יסודי ביותר, משום שהצמדת ערכים מספריים לנקודות של Ω היא ראשיתה של האנליזה על מרחב ההסתברות. 7
1.1. רקע נדרש פרק 1. תורת ההסתברות משתנה מקרי על מרחב בדיד מתואר באמצעות ההתפלגות שלו, שהיא הפונקציה מ Ω a אל ההסתברות (a.p(x = דוגמאות חשובות: התפלגות ברנולי, ההתפלגות הבינומית, התפלגות פואסון, ההתפלגות הגאומטרית, ועוד רבות אחרות. במקרה הכללי, שבו המרחב Ω אינו בן מניה, שיטה זו אינה מועילה משום שבדרך כלל = 0 (a P(X = לכל a. אם כך, כיצד מתארים משתנה מקרי על Ω? = R הדרך הכללית ביותר היא באמצעות פונקציית הצטברות, (t F. X (t) = P(X פונקציית הצטברות היא מונוטונית, רציפה מימין, ושואפת בגבולות לאפס ולאחד. כל פונקציה כזו מתארת משתנה מקרי. לעתים קרובות אפשר לתאר את המשתנה באמצעות פונקציית צפיפות, שהיא. פונקציית הצפיפות פונקציה חיובית ואינטגרבילית f : R R כך ש 1 = f(x)dx f(x) = ולהיפך כמובן, ;F X (x) = x מגדירה פונצקיית הצטברות גזירה, לפי f(t)dt.p(a X b) = b f(x)dx היינו,.F (x) a בין ההתפלגויות הרציפות שראוי להכיר נמנה את ההתפלגות האחידה, ההתפלגות המעריכית (המאופיינת בכך שהיא חסרת זכרון), ואת ההתפלגות הנורמלית שתשחק תפקיד חשוב לכל אורך הקורס. התפלגות משותפת, תלות ואי תלות מכיוון שמשתנה מקרי הוא פונקציה ממרחב ההסתברות אל המספרים הממשיים, אפשר להתבונן בו זמנית בכמה פונקציות, שלהן יש התפלגות משותפת. אינפורמציה (מהצורה X, A כאשר A קבוצת ערכים) מגדירה מאורע, ומאפשרת לטפל בכל משתנה מקרי אחר כמשתנה מותנה, (A Y, X) קרי " Y בהנתן ש A X". אם ההתפלגות של,X Y אז a, היא תמיד אותה התפלגות, כלומר אינה משתנה עם X = a בהנתן Y משתנים בלתי תלויים, ואז מתקיים P(X A, Y B) = P(X A) P(Y B). 1.1.3 התוחלת המדד החשוב ביותר של משתנה מקרי הוא התוחלת E(X) µ, = השווה ל a)a P(X = במקרה בדיד ול f(x)xdx במקרה הרציף. התוחלת היא לינארית, כלומר הומוגנית ואדיטיבית: לכל משתנה מקרי X וסקלר a מתקיים ae(x),e(ax) = ולכל שני משתנים מקריים,X Y מתקיים E(X + Y ) = E(X) + E(Y ). 8
תורת ההסתברות 1.1. רקע נדרש פרק 1..E(X) = 0 תרגיל 1.1.1 אם X משתנה מקרי חיובי, אז P(X x)dx אם,X Y משתנים מקריים, אז ידיעת X מגדירה משתנה מותנה Y, X שההתפלגות שלו תלויה ב X. לכן גם התוחלת המותנית (X E(Y היא פונקציה של X. חוק התוחלת החוזרת קובע שהתוחלת של התוחלת המותנית של Y שווה לתוחלת של Y עצמו: E(Y ) = E(E(Y X)). 1.1.4 שונות ושונות משותפת מן התוחלת מגדירים את השונות E(X) 2.V(X) = E((X E(X)) 2 ) = E(X 2 ) בדומה לחוק התוחלת החוזרת, אפשר לחשב גם את השונות באמצעות פירוק המשתנה למשתנים מותנים: V(Y ) = V(E(Y X)) + E(V(Y X)). אם,X Y בלתי תלויים אז ) E(X)E(Y.E(XY ) = משתנים המקיימים את התכונה החלשה הזו נקראים בלתי מתואמים. השונות המשותפת של,X Y היא Cov(X, Y ) = E(XY ) E(X)E(Y ). כלומר, X, Y בלתי מתואמים אם ורק אם = 0 ) Y.Cov(X, תרגיל 1.1.2 עבור משתנים מקריים,X 1,..., X n נסמן.Cov( X) = (Cov(X i, X j )) ij נגדיר משתנים חדשים לפי Y = P X, כאשר ) ij P = (P מטריצה; כלומר, = i Y P ij X j. הראה ש Cov(P X) = P Cov( X)P t. הדרכה. Cov(Y i, Y i ) = Cov( j P ij X j, j P i j X j ) = j,j P ij Cov(X j, X j )P i j = (P Cov( X)P t ) ii. 9
1.1. רקע נדרש פרק 1. תורת ההסתברות 1.1.5 פונקציה יוצרת מומנטים המומנט ה k הוא התוחלת ) k.e(x המומנט המרכזי ה k הוא המומנט המתאים של X, µ כלומר ) k.e((x (µ התוחלת היא המומנט הראשון, והשונות היא המומנט המרכזי השני. גם לשאר המומנטים יש תפקיד תאורטי חשוב. עם זאת, יש לציין כי המומנטים, ואפילו השונות או התוחלת, קיימים רק כאשר האינטגרל המגדיר אותם מתכנס, וזה לא בהכרח קורה. תרגיל 1.1.3 אם למשתנה יש מומנט מסדר n, אז יש לו מומנטים מכל סדר קטן יותר. יהי X משתנה מקרי. מגדירים את הפונקציה יוצרת המומנטים של X לפי = (t) M X ) tx.e(e מדוע טורחים להגדיר פונקציה כזו? X משפט 1.1.4 אם הפונקציה יוצרת המומנטים של משתנה מקרי X קיימת (וסופית) בקטע ;M X (t) = E(X n ) n=0 פתוח סביב 0, אז כל המומנטים קיימים, ויש פיתוח טיילור t n n! בפרט (0) (n).e(x n ) = M משפט 1.1.5 אם (t) M X קיימת לכל t, אז הפונקציה קובעת את ההתפלגות. היינו, אם (t) M X (t) = M Y לכל,t אז X, Y שווי התפלגות.,Y n D (נכונה אפילו גרסה חזקה יותר: אם (t) M Yn (t) M Y לכל t, אז Y (.P(Y n t) P(Y t) פירושו התכנסות בהתפלגות, היינו Y n D כאשר Y פונקציות יוצרות מומנטים מאפשרות לחסר התפלגויות: טענה 1.1.6 יהיו,X X, Y משתנים מקריים, כאשר Y אינו תלוי ב X ואינו תלוי ב X. אם X + Y ו X + Y שווי התפלגות, אז כך גם X.X, הוכחה. לפי ההנחה (t),m X (t)m Y (t) = M X+Y (t) = M X +Y (t) = M X (t)m Y ולכן (t) M. X (t) = M X כלומר, ל X,X יש אותה פונקציה יוצרת מומנטים, ולכן הם שווי התפלגות. תרגיל 1.1.7 חשב את הפונקציה יוצרת המומנטים של ההתפלגות המעריכית. הוכח שההתפלגות הזו חסרת זכרון. 10
תורת ההסתברות 1.1. רקע נדרש פרק 1.,σ k ונסמן תרגיל 1.1.8 יהי X משתנה מקרי עם E(X) µ = ו ( = E((X µ) k σ. 2 = σ 2 יהי X משתנה מקרי בעל אותה התפלגות, שאינו תלוי ב X. הראה ש: Cov(X, X 2 ) = σ 3 + 2µσ 2 ; E(X 3 ) = σ 3 + 3µσ 2 + µ 3 ; E(X 4 ) = σ 4 + 4µσ 3 + 6µ 2 σ 2 + µ 4 ; V(X 2 ) = σ 4 + 4µσ 3 + 4µ 2 σ 2 σ 4 ; V(XX ) = σ 4 + 2µ 2 σ 2 ; V((X µ) 2 ) = σ 4 σ 4.,(Y n אם 1.1.6 חוקי המספרים הגדולים ומשפט הגבול המרכזי P סדרת משתנים מקריים Y n מתכנסת בהסתברות לקבוע µ (כותבים µ לכל > 0,ε lim n P ( Y n µ < ε) = 1. במלים אחרות, לכל > 0 ε, הסיכוי לכך ש ε Y n µ > שואף לאפס. משפט 1.1.9 (החוק החלש של המספרים הגדולים) תהי..., 2 X 1, X סדרה של משתנים. X n P מקריים בלתי מתואמים, בעלי אותה תוחלת µ ושונות σ. 2 אז µ,(y n a.s. סדרת משתנים מקריים Y n מתכנסת כמעט תמיד לקבוע µ (כותבים µ אם = 1 µ).p (lim Y n = הערה 1.1.10 כאן צריך להוכיח שהדרישה = 0 n lim Y היא אכן מאורע (אחרת, הסתברות מניין). ואכן, המאורע הזה שווה ל { 1/d, d N n N { Y n < ולכן שייך ל σ -אלגברה שביחס אליה כל ה Y n הם משתנים מקריים. משפט 1.1.11 (החוק החזק של המספרים הגדולים) תהי..., 2 X 1, X סדרת משתנים מקריים. X a.s. בלתי תלויים בעלי תוחלת µ ושונות σ. 2 אז n µ Y n D סדרת משתנים מקריים Y n מתכנסת בהתפלגות למשתנה מקרי Y (כותבים a, אם לכל Y), lim n P (Y n a) = P (Y a). משפט 1.1.12 (משפט הגבול המרכזי) תהי..., 2 X 1, X סדרה של משתנים מקריים בלתי X. n µ D תלויים בעלי אותה התפלגות, שיש לה תוחלת µ ושונות σ. 2 אז (1,0)N σ/ n 11
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות 1.2 ההתפלגות הנורמלית 1.2.1 ההתפלגות הנורמלית ההתפלגות הנורמלית היא ההתפלגות השכיחה ביותר בתאוריה ובמעשה. לכך אחראי בעיקר משפט הגבול המרכזי, אבל גם כמה סיטואציות פשוטות שבהן מופיעה ההתפלגות הנורמלית כבמטה קסם, כפי שנדגים בסעיף הזה. 1 הוא משתנה נורמלי סטנדרטי; 2π משתנה רציף שפונקציית הצפיפות שלו היא e t2 2/ את ההתפלגות הזו מסמנים ב ( 1,0)N. בטענה 1.2.12 נוכיח שזו אכן התפלגות (כלומר שהאינטגרל שווה ל 1 ), ואגב כך נסביר את הקבוע המוזר שבמכנה. תרגיל 1.2.1 הוכח בעזרת משפט הגבול המרכזי שאם p קבוע ו ( p X, Bin(n, אז, בקירוב, npq).x N(np, תרגיל 1.2.2 חשב את הפונקציה יוצרת המומנטים של משתנה (1,0)N Z, והוכח ש 0 = E(Z) ו 1 =.V(Z) הדרכה. M Z (t) = E(e tz ) = n=0 = e t2 /2 E(Z n ) t n = M Z (t) = e t2 /2 = n! 1 2π e z2 /2 e tz dz 1 2π e (t z)2 /2 dz = e t2 /2. m=0 1 2 m m! t2m ; לכן.E(Z 2m ) = (2m)! 2 m m! ומכאן ש 0 = ) 2m+1 E(Z ואילו יהי 1) N(0, Z משתנה נורמלי סטנדרטי. למשתנה X = µ + σz יש תוחלת µ ושונות ;σ 2 את ההתפלגות של X מסמנים ב (.N(µ, σ 2 הצפיפות של ) 2 X N(µ, σ 1. /(2σ 2) היא e (t µ)2 2πσ 2 תרגיל 1.2.3 תהי F התפלגות כך שאם X, Y F בלתי תלויים, ו 1 = 2,α 2 + β אז גם.αX + βy F הוכח ש F נורמלית. הדרכה. ראשית, לפי ההנחה )V(X),V(X) = V(αX + βy ) = (α 2 + β 2 ולכן התנאי על,α β הכרחי. נתבונן בפונקציה יוצרת המומנטים של F: M F (t) = M αx+βy (t) = M F (αt)m F (βt); נסמן (t),f(t) = log M F ניקח את הלוגריתם הטבעי, ונקבל f(t) = f(αt) + f(βt). 12
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. כעת נכתוב α = cos θ ו θ,β = sin נציב, ונגזור לפי :θ 0 = sin θ f (cos θ t) + cos θ f(sin θ t). tan θ f (t) = f (tan θ t). 1 במקום t, נקבל cos θ על ידי הצבת t אבל מכיוון ש θ tan יכול לקבל כל ערך ממשי, נכתוב a = tan θ ונקבל בנקודה = 1 t,m F (t) = e Ct2 וזו לכן עבור קבוע C מתאים ש 2Ca,f (a) = כלומר.f(a) = Ca 2 הפונקציה יוצרת המומנטים של ההתפלגות ) 2,0)N. σ 1.2.2 התפלגות רב ממדית בסעיף זה נעסוק בהתפלגות המשותפת של מספר משתנים רציפים, כהכללה של המקרה החד ממדי, שבו מתוארת ההתפלגות על ידי פונקציית צפיפות במשתנה ממשי אחד. הגדרה 1.2.4 פונקציית צפיפות n ממדית היא פונקציה חיובית אינטגרבילית f : R n R כך ש. f( x)d x = 1 R n. בניסוח מפורש יותר, נדרש ש 1 = 1 f(x 1,..., x n )dx n dx,f X, Y אפשר לקבל את הצפיפות מגדירה את ההתפלגות המשותפת לפי הנוסחה P((X 1,..., X n ) A) = f( x)d x, A לכל קבוצה מדידה A. אם ) ( X, Y הוא וקטור (באורך (n x + n y עם התפלגות f X ( x) = f X, Y ( x, y)d y. ההתפלגות של X על ידי הטלה: זוהי הצפיפות השולית של X, ובאותו אופן מוגדרת כמובן גם הצפיפות השולית של Y. אפשר גם להגדיר את הצפיפות המותנית f X Y =y (x) = f X, Y (x, y), f Y (y) וזו אכן פונקציית צפיפות (התלויה ב y ) עבור המשתנה X. אם פונקציית הצפיפות המותנית אינה משתנה עם y, אז המשתנים בלתי תלויים. אפשר להכליל את המושג הזה לאי תלות משותפת של כמה משתנים (רב ממדיים). 13
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות אם הוקטורים,X Y הם משתנים מקריים עם צפיפויות f X, f Y בהתאמה, אז f,x Y מגדירה פונקציית צפיפות חדשה. באופן כללי הפונקציה (y) (x, y) = f X (x)f Y יותר, אם f X, Y היא הצפיפות המשותפת ו f X, f Y הצפיפויות השוליות, אז X, Y בלתי תלויים אם ורק אם (y).f X, Y (x, y) = f X (x)f Y f X, Y עבור תרגיל X, Y 1.2.5 בלתי תלויים אם ורק אם יש פירוק g(x)h(y) (x, y) = פונקציות כלשהן,g. h תרגיל 1.2.6 אם,X,Y Z בלתי תלויים במשותף, אז X בלתי תלויה ב Y. + Z תרגיל 1.2.7 תן דוגמא שבה המשתנים,X,Y Z בלתי תלויים בזוגות, אבל,X,Y Z אינם בלתי תלויים במשותף. אפשר להגדיר פונקציה יוצרת מומנטים לווקטור של משתנים, לפי M X ( t ) = E(e t 1X 1 + +t nx n ). הערה 1.2.8 המשתנים X, Y בלתי תלויים אם ורק אם ) Y M X,Y (t 1, t 2 ) = E(e t 1X+t 2 שווה למכפלה ) 2.M X (t 1 )M Y (t טרנספורמציה של צפיפויות יהי X משתנה מקרי רב ממדי, עם צפיפות (x).f X תהי u : R n R n טרנספורמציה הפיכה. אפשר להגדיר משתנה מקרי חדש, u(x) Y. = במקרה הבדיד = (y P(Y = ((y),p(x = u 1 כך שהמעבר בין ההתפלגויות פשוט וקל. במקרה הרציף יש לקחת בחשבון את היעקוביאן של הטרנספורמציה. הגדרה 1.2.9 היעקוביאן של הטרנספורמציה ) n (y 1,..., y n ) = u(x 1,..., x הוא המטריצה.J(u) = ( y i x j ) ij תרגיל 1.2.10 היעקוביאן של טרנספורמציה לינארית y, = P x כאשר P מטריצה הפיכה, הוא.J(y) = P u : R n R n תהי טענה 1.2.11 יהי X משתנה מקרי רב ממדי, עם צפיפות (x).f X טרנספורמציה הפיכה. אז הצפיפות של u(x) Y = היא f Y (y) = f X (x) det(j(u)) 1. 14
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. הנה דוגמא חשובה:, ולכן ההתפלגות הנורמלית (1,0)N מוגדרת היטב. 1 2π טענה = 1 1.2.12 dt e t2 /2 הוכחה. נתבונן במשתנים מקריים בלתי תלויים,R, Θ כאשר 2π] Θ U[0, ו f R (r) = re r2 /2 (0 > r). קל לאשר שהפונקציה f R היא אכן פונקציית צפיפות. מכיוון ש,R Θ בלתי תלויים, הצפיפות המשותפת שלהם היא f R,Θ (r, θ) = 1 2π re r2 /2. נתבונן במשתנים ) Y,X, המוגדרים ( על ידי הטרנספורמציה Θ).(X, Y ) = (R cos Θ, R sin,j = cos θ sin θ עם דטרמיננטה.det(J) = r לכן הצפיפות r sin θ r cos θ היעקוביאן הוא המשותפת של,X Y היא f X,Y (x, y) = 1 /2 2π e r2 = 1 ( ) ( ) 1 2π e (x2 +y2 )/2 = e x2 /2 1 e y2 /2. 2π 2π ( נחשב את ריבוע האינטגרל, על ידי החלפת משתנים: 2 1 e dt) t2 /2 1 = 2π 2π e (x2 +y2 )/2 dxdy, כלומר (1,0)N,X, Y ומכאן שהצפיפות הנטענת עבור ההתפלגות הנורמלית היא אכן פונקציית צפיפות. תרגיל 1.2.13 נניח ש [ 1,0]U,U V משתנים בלתי תלויים. הראה ש = X = Y הם נורמליים ובלתי תלויים 2 log U cos(2πv ו ( 2 log U sin(2πv ).[Box-Muller, 1958] תרגיל 1.2.14 אם 1) N(0, X, Y הם משתנים בלתי תלויים, אז arctan(y/x) Θ = הוא משתנה מקרי אחיד בקטע [2π,0]. הדרכה. זו תוצאה מן ההוכחה של טענה 1.2.12. הנוסחה שבטענה 1.2.11 מאפשרת לחשב את הצפיפות של סכום משתנים בלתי תלויים. טענה 1.2.15 יהיו,X Y משתנים בלתי תלויים עם צפיפויות f. X, f Y הראה שהצפיפות של X + Y היא f X+Y (z) = f X (x)f Y (z x)dx. 15 (זוהי הקונוולוציה של (.f x, f Y
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות הוכחה. המעבר מהזוג הסדור (y,x) לסכום x+y אינו ) הפיך, ולכן )צריך להוסיף משתנה עזר. נתבונן = 1 1,J עם דטרמיננטה,1 ולכן 0 1 בטרנספורמציה y).u(x, y) = (x + y, היעקוביאן הוא (y).f X+Y,Y (z, y) = f X (z y)f Y נשאר לחלץ את הצפיפות השולית של,X + Y על ידי אינטגרציה על y. תרגיל 1.2.16 תן נוסחאות דומות לצפיפות של מכפלה ושל מנה של שני משתנים מקריים. 1.2.3 ההתפלגות הרב נורמלית מטריצות חיוביות לחלוטין להתפלגות הרב נורמלית יש תפקיד מיוחד בכל ניתוח רב משתני. משפחת ההתפלגויות הזו, נזכיר מושג חשוב מאלגברה לינארית. לפני שנגדיר את הגדרה 1.2.17 מטריצה סימטרית (R) Σ M n היא חיובית אם לכל x R n מתקיים 0 Σx,x t וחיובית לחלוטין אם לכל x R n 0 מתקיים > 0 Σx.x t (באנגלית נקראת מטריצה חיובית לחלוטין.positive definite הזהרו מן התרגום השגוי בתכלית "מטריצה מוגדרת חיובית"; שום דבר במטריצות האלה אינו מוגדר באופן היוצא מגדר הרגיל.) תרגיל 1.2.18 לכל וקטור של משתנים,X = (X 1,..., X n ) t המטריצה Cov(X) חיובית; והיא חיובית לחלוטין אלא אם המשתנים תלויים לינארית (בהסתברות 1). הדרכה. 0 ) i.a t Cov(X)a = V( a i X תרגיל 1.2.19 מטריצה סימטרית (R) A M n היא חיובית לחלוטין אם ורק אם היא מהצורה A = P P t כאשר P מטריצה הפיכה. מסקנה 1.2.20 המטריצה Σ חיובית לחלוטין אם ורק אם 1 Σ חיובית לחלוטין. ההתפלגות הרב נורמלית הגדרה 1.2.21 תהי Σ מטריצה חיובית לחלוטין בגודל n. ההתפלגות הרב נורמלית (Σ,0)N היא ההתפלגות בעלת פונקציית הצפיפות ה n ממדית f( x) = 1 (2π)n det(σ) e 1 2 xt Σ 1 x. 16
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. מיד נראה שזו אכן פונקציית צפיפות. ראשית נבחן מה קורה כאשר Σ היא מטריצת היחידה. טענה 1.2.22 נניח ש ( X = (X 1,..., X n מתפלג לפי ) N(0,,X כאשר = ) nn diag(δ 11,..., δ מטריצה אלכסונית. אז X 1,..., X n הם נורמליים ובלתי תלויים. הוכחה. מכיוון שאנו מניחים ש חיובית לחלוטין, בהכרח > 0 ii δ. אם (,0)N X אז 1 n f(x 1,..., x n ) = e 1 2 xt 1 x 1 = e 1 x 2δ 2 ii i, (2π) n δ ii 2πδii i=1 כלומר במקרה זה ) ii,x i N(0, δ והמשתנים בלתי תלויים. התכונה הבסיסית של משפחת ההתפלגויות הרב נורמלית היא הסגירות להעתקות לינאריות הפיכות. טענה 1.2.23 אם Σ),X N(0, אז לכל מטריצה הפיכה.P X N(0, P ΣP t ),P הוכחה. כפי שראינו בתרגיל 1.2.10, היעקוביאן של הטרנספורמציה הלינארית y = P x הוא P. נסמן. y = P x לכן, אם Σ) X N(0,, הצפיפות של P X היא f P X ( y) = 1 (2π)n det(p ΣP t ) e 1 2 xt (P ΣP t ) 1 x. מסקנה 1.2.24 אם Σ מטריצה חיובית לחלוטין, אז הפונקציה המופיעה בהגדרה 1.2.21 היא אכן פונקציית צפיפות. הוכחה. אכן, לפי ההנחה אפשר לכתוב Σ. = P P t ניקח (I X;,0)N זוהי אכן התפלגות מוגדרת היטב לפי טענה 1.2.22. לפי טענה 1.2.23, הצפיפות של P X מתוארת על ידי ההתפלגות Σ),N(0, P P t ) = N(0, ולכן גם זו התפלגות מוגדרת היטב. כעת נוכל להכליל את טענה 1.2.22. טענה 1.2.25 נניח ש ( X = (X 1,..., X n מתפלג Σ),X N(0, אז Cov(X).Σ = הוכחה. נכתוב Σ = P P t עבור מטריצה הפיכה.P לפי טענה,1.2.23 X Z = P 1 I).N(0, P 1 ΣP t ) = N(0, כלומר, Z 1,..., Z n הם נורמליים סטנדרטיים ובלתי תלויים, ולכן.Cov(Z) = I נתבונן מחדש ב Z :X = P לפי תרגיל,1.1.2 Cov(X) = Cov(P Z) = P Cov( Z)P t = P P t = Σ. 17
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות כלומר, אפשר לשחזר את המטריצה Σ המגדירה התפלגות רב נורמלית, מתוך השונויות המשותפות של הרכיבים בווקטור. עובדה זו מאפשרת לחלץ מסקנה חזקה על אי תלות מהנחה חלשה על שונויות משותפות: מסקנה 1.2.26 נניח ש ( Σ X N(0,. אם X 1,..., X n בלתי מתואמים בזוגות, אז הם בלתי תלויים במשותף. הוכחה. לפי ההנחה Cov(X) Σ = מטריצה אלכסונית, ולפי טענה 1.2.22 המשתנים X i נורמליים ובלתי תלויים. וקל וחומר: מסקנה 1.2.27 נניח ש ( Σ X N(0,. אם X 1,..., X n בלתי תלויים בזוגות, אז הם בלתי תלויים במשותף (ולכן Σ אלכסונית). מעלה ומטה טענה 1.2.28 יהיו X, Y וקטורים מקריים בגודל,n, m ותהיינה Σ Σ, מטריצות חיוביות לחלוטין בגודל,n, m בהתאמה. אז התכונות הבאות שקולות: ( ) (( ) ( )) ; XY N 00, Σ 0 0 Σ.1.2 ) Σ,Y N(0, Σ ),X N(0, ו X, Y בלתי תלויים. ( ),x ), (y t Σ ולכן פונקציית הצפיפות המשותפת 1( ) 0 x y הוכחה. 0 Σ = x t Σ 1 x+ y t Σ 1 y (( ) ( )) N 00 מתפרקת למכפלת פונקציות הצפיפות של, Σ 0 של ההתפלגות הנורמלית Σ 0 ההתפלגויות ) Σ N(0, ו ( Σ.N(0, (בעזרת הכללה מיידית של הטענה הזו אפשר לתאר לא רק זוגות, אלא קבוצות של משתנים וקטוריים בלתי תלויים במשותף.) ( ), XY טענה 1.2.29 יהיו,X Y וקטורים מקריים בגודל,n m בהתאמה, כך ש ( Σ,0)N ( ) Σ = Σ היא מטריצת בלוקים בגודל m).(n + m) (n + אז R כאשר Σ R t 18.X N(0, Σ )
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. ( ),P = I 0 R t Σ 1 I הוכחה. כתת מטריצה של Σ Σ, חיובית לחלוטין ולכן הפיכה. נבחר ונחשב: ( )( )( ) P ΣP t = I 0 Σ R I Σ 1 R R t Σ 1 I R t Σ 0 I ( )( ) = Σ R I Σ 1 R 0 Σ R t Σ 1 R 0 I ( ) = Σ 0 0 Σ R t Σ 1 R. ( ) ( )( ) ( ) P XY = I 0 XY R t Σ 1 I = X Y R t Σ 1 X לפי טענה 1.2.28, רכיבי הווקטור בלתי תלויים, ומתפלגים רב נורמלית עם מטריצות השונויות Σ ו ( R,(Σ R t Σ 1 בהתאמה. מסקנה 1.2.30 אם Σ),X N(0, אז ) ii.x i N(0, Σ מסקנה 1.2.31 בתנאי טענה 1.2.29, ההתפלגות של Y בהנתן = 0 X היא נורמלית,.(Y X = 0) N(0, Σ R t Σ 1 R) תרגיל 1.2.32 נניח ש ( X i N(0, σ 2 i משתנים נורמליים בלתי תלויים n).(i = 1,..., אז ) i a i X i N(0, a 2 i σ 2. הדרכה. נסמן n) = diag(σ 2 1,..., σ2. לפי ההנחה, ) N(0,.X נבחר מטריצה הפיכה כלשהי P שהשורה הראשונה שלה היא ) n (a 1,..., a (למשל על ידי השלמה לבסיס). לפי טענה,1.2.23 ) t,p X N(0, P P ולפי תרגיל 1.2.30 ai X i = (P X) 1 N(0, (P P t ) 11 ) = N(0, a 2 i σ 2 i ). הזזה הצידה עד כה הנחנו שמרכז ההתפלגות הוא בראשית הצירים. המעבר למקרה הכללי חלק: הגדרה 1.2.33 תהי Σ מטריצה בגודל n ויהי µ וקטור באורך n. ההתפלגות הרב נורמלית (Σ N(µ, היא ההתפלגות בעלת פונקציית הצפיפות ה n ממדית f( x) = 1 (2π)n det(σ) e 1 2 ( x µ)t Σ 1 ( x µ). 19
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות התפלגות זו מתקבלת על ידי הוספת הווקטור הקבוע µ למשתנה בעל ההתפלגות Σ).N(0, אם Σ),X N(µ, אז E(X) µ = ו ( Cov(X Σ = כמקודם. תרגיל 1.2.34 אם Σ),X N(µ, אז לכל וקטור a מתקיים Σ).X + a N(µ + a, טענה 1.2.35 הפונקציה יוצרת המומנטים של ההתפלגות (Σ N(µ, היא M X ( s) = e µ s+ 1 2 st Σ s. M X ( s) = E(e s X ) = 1 (2π)n det(σ) e 2 ( x µ)t Σ 1 ( x µ) e s x d x = R n 1 (2π)n det(σ) e 1 2 [( x µ)t Σ 1 ( x µ) 2s x] d x R n 1 = e µ s+ 1 2 st Σ s = e µ s+ 1 2 st Σ s. R n 1 הוכחה. נניח ש ( Σ X. N(µ, אז (2π)n det(σ) e 1 2 ( x µ Σ s)t Σ 1 ( x µ Σ s) d x תרגיל 1.2.36 יהיו X 1,..., X m משתנים מקריים (למשל הציונים בשאלות של מבחן), ו Y = X i (הציון הסופי). מקדם α של,Cronbach המוגדר לפי α = m ( ) V(Xi ) 1 m 1 V(Y ) הוא מדד מקובל לאמינות של המבחן. ערכים מעל 0.8-0.7 נחשבים למעידים על מבחן בעל אמינות טובה. 1. בדוק שתמיד 1 α, ומתקבל שוויון רק כאשר כל ה X i שווים זה לזה (בהסתברות 1). (.α = m 1 ) Σ ii.2 נניח ש ( Σ, X N(µ, וקטור מממד.m הראה ש m 1 i,j Σ ij.α = 1 1+ 1 ρ mρ.3 בפרט, אם = 1 ) i V(X ו ρ Cov(X i, X j ) = לכל,i j אז.4 השווה את המבחן על X 1,..., X m למבחן דומה על X = X 1 + + X k ו.X = X k+1 + + X m השווה לממוצע המבחנים על פני כל החלוקות. 20
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. 1.2.4 התפלגויות נלוות יש כמה התפלגויות הנולדות מתוך ההתפלגות הנורמלית, ומשחקות תפקיד בהערכה של פרמטרים מההתפלגות הזו. ההתפלגויות האלה מאזכרות הכללה ידועה לפונקציית העצרת, הקרויה פונקציית גמא. פונקציה זו מוגדרת על ידי הנוסחה Γ(t) = 0 x t 1 e x dx, Γ(z + 1) = z Γ(z). ומקיימת את המשוואה הפונקציונלית =,Γ(1) ולכן n! Γ(n + 1) = לכל מספר טבעי.n ערכים 0 בפרט, = 1 dx e x אחרים קשה יותר לחשב. למשל, 2/π (1/2)Γ. = הגדרה 1.2.37 יהיו X 1,..., X n משתנים מקריים. המשתנים (n) X (1),..., X מוגדרים כסידור מחדש של הערכים,X 1,..., X n כך ש (n).x (1) X משתנים אלה נקראים סטטיסטיי הסדר. בפרט, X (1) = min {X 1,..., X n }, X (n) = max {X 1,..., X n }. תרגיל 1.2.38 נניח ש [ 1 U[0,.X 1,..., X n הראה שהצפיפות של סטטיסטי הסדר = (x).f X(k) הראה ש n! (k 1)!(n k)! xk 1 (1 x) n k היא X (k) f X(j),X (k) (x, y) = E(X r (k)) = n!γ(r + k) (k 1)!Γ(n + r + 1) ;.E(X r (k) ) = (r+k 1 r ) ( n+r r ) בפרט, אם r שלם, תרגיל 1.2.39 הצפיפות המשותפת של (k) X (j), X (כאשר (j < k היא n! (j 1)!(k j 1)!(n k)! xj 1 (y x) k j 1 (1 y) n k. בפרט, הצפיפות המשותפת של המינימום והמקסימום היא f X(1),X (n) (x, y) = n(n 1)(y x) n 2. 21
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות תרגיל 1.2.40 הנקודות P 1,..., P n מפוזרות בהתפלגות אחידה על מעגל שהיקפו 1. מה הסיכוי שיש קשת באורך α המכסה את כל הנקודות, בהנחה ש 1/2 α? הדרכה. קטע כזה קיים אם ורק אם אחת הנקודות P i היא "שמאלית ביותר", במובן שכל שאר הנקודות מימינה ובמרחק לכל היותר α (ורק אחת, משום ש 1/2 α). הסיכוי לכך הוא 1 n α, ומכיוון שיש n נקודות העשויות להיות השמאלית ביותר, ההסתברות היא 1 n.nα התפלגות גמא אחרי שהגדרנו את פונקציית גמא, אי אפשר שלא להציג את התפלגות גמא. התפלגות זו קשורה קשר הדוק להתפלגות המעריכית, אבל פרט למקרה פרטי חשוב שנפגוש מיד, אין לה קשר מיוחד להתפלגות הנורמלית. הגדרה 1.2.41 משתנה X הוא בעל התפלגות גמא (λ X Γ(k, אם יש לו פונקציית הצפיפות.x > 0,f X (x) = 1 Γ(k)λ k x k 1 e x/λ למשתנה λ) X Γ(k, יש תוחלת E(X) = kλ ושונות.V(X) = kλ 2 תרגיל 1.2.42 ההתפלגות (λ,1)γ אינה אלא ההתפלגות המעריכית,Exp(λ) עם צפיפות.f X (x) = 1 λ e x/λ תרגיל 1.2.43 הפונקציה יוצרת המומנטים של ההתפלגות (λ Γ(k, היא λt) k 1). טענה 1.2.44 לכל k,k, אם λ) Y Γ(k, ו ( λ Y Γ(k, הם משתנים מקריים בלתי תלויים, אז λ).y + Y Γ(k + k, הוכחה. קונוולוציה, או השוואה של הפונקציות יוצרות המומנטים. מסקנה 1.2.45 נניח ש ( Exp(λ X 1, X 2, הם משתנים בלתי תלויים. לכל,n הסכום.Γ(n, λ) מתפלג S n = X 1 + + X n תרגיל 1] 1.2.46 U[0, X 1,..., X n והם בלתי תלויים. חשב את ההתפלגות של המכפלה.X 1 X n הדרכה. Exp(1). log X i התפלגות χ 2 נניח ש ( 1 N(0, Z 1,..., Z n והם בלתי תלויים. לסכום הריבועים W = Z 2 1 + + Z 2 n יש התפלגות, הקרויה התפלגות חי בריבוע עם n דרגות חופש, ומסומנת ב n W. χ 2 22
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. (1.1) הערה 1.2.47 התפלגות χ2 היא מקרה פרטי של התפלגות גמא: 2).χ 2 n = Γ( n 2, x n/2 1 e x/2 Γ(n/2)2 n/2. פונקציית הצפיפות היא התוחלת של W χ 2 n היא,E(W ) = n והשונות.V(W ) = 2n הפונקציה יוצרת המומנטים היא n/2.m W (t) = (1 2t) x/2, x 1/2 e שאינה חסומה. 2π דוגמא 1. 1.2.48 פונקציית הצפיפות של התפלגות χ 2 1 היא.2 Exp(2).χ 2 2 = כלומר, ההתפלגות χ 2 2 היא ההתפלגות המעריכית עם תוחלת ;2 אכן, לפי (1.1) עם = 2,n הצפיפות של W = Z 2 1 + Z 2 2 היא e x/2. 1 2.3 את ההתפלגות של χ 2 2 = Z 2 1 + Z 2 2 חישבנו בטענה.1.2.12 הערה 1.2.49 נניח ש ( 1 N(0,.Z i הממוצע של Z1, 2..., Zn 2 הוא, 1 W n n ולפי משפט.χ 2 n N(n, 2n) גדול, בקירוב n לכן כאשר. Wn n D 2n הגבול המרכזי, 1) N(0, P(χ 2 n < n) P( Z n 2n הסטיה המקסימלית בין שתי ההתפלגויות היא 0.188 (n < n (כך נראה מבדיקה נומרית). = T הוא בעל התפלגות Z W/n התפלגות t אם 1) N(0, Z ו n W χ 2 בלתי תלויים, אז הנקראת התפלגות t של סטודנט, עם n דרגות חופש ('סטודנט' הוא הכינוי שאימץ לעצמו הסטטיסטיקאי ויליאם סילי גוסט, שפרסם את ההתפלגות ב 1908 ). פונקציית הצפיפות של ההתפלגות הזו היא f(t) = n+1 Γ( ) ( ) n+1 2 nπ Γ( n ) 1 + t2 2. n 2 התוחלת היא = 0 ) E(T (כאשר > 1 ;n ב = 1 n אין תוחלת: האינטגרל אינו.V(T ) = מתכנס) והשונות n n 2 כאשר n גדול (למשל = 30 n), התפלגות זו קרובה להתפלגות הנורמלית, משום = 1 + O( 1 W/n n שלפי משפט הגבול המרכזי n) W/n = 1 + O(1/ ולכן גם ). 1 23
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות X = U/n כאשר U χ 2 n ו m V χ 2 קוראים התפלגות,F ומסמנים Γ( n+m ) ( 2 n ) n ( 2 Γ( n)γ( m) x n 2 1 1 + n ) n+m m m x 2. 2 2.V(X) = 2m2 (m+n 2) n(m 2) 2 (m 4) השונות היא.E(X) = E( 1 n U)E(m 1 V ) = V/m התפלגות F להתפלגות היחס.X F n,m פונקציית הצפיפות היא התוחלת היא m m 2 תרגיל T t n 1.2.50 אם ורק אם.T 2 F 1,n תרגיל 1.2.51 אם X F n,m אז. 1 X F m,n תרגיל 1.2.52 אם X F n,m ו,X F m,n אז 1/a).P(X < a) = 1 P(X < אמידת התוחלת והשונות = X ו 1 אם X 1,..., X n משתנים מקריים, מגדירים ) n (X n 1 + + X (1.2) S 2 = 1 (Xi n 1 X) 2. טענה 1.2.53 נניח ש X 1,..., X n משתנים בלתי מתואמים, שיש להם תוחלת µ ושונות.σ 2 אז E( X) = µ ו.E(S 2 ) = σ 2 הוכחה. לפי ההנחה E(X i ) = µ לכל,i ולכן גם.E( X) = µ כעת נחשב (n 1)S 2 = (X i X) 2 = X 2 i 2n X 2 + n X 2 = X 2 i n X 2 E((n 1)S 2 ) = E(X 2 i ) ne( X 2 ) = (σ 2 + µ 2 ) n(µ 2 + 1 n σ2 ) = (n 1)σ 2 24 ולכן
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. האומדים לפרמטרים של ההתפלגות הנורמלית נתבונן במודל השכיח ) 2.X N(µ, σ נתון מדגם מן המודל הזה, כלומר n X 1,..., X ) 2,N(µ, σ שהם בלתי תלויים. האומדים הסטנדרטיים ל µ ולשונות σ 2 מוכרים; אבל מה ההתפלגות שלהם? כדי לטפל בסוגיה זו, נפעיל את המנגון שפיתחנו עבור ההתפלגות הרב נורמלית. לפי ההנחה, I). 1 σ ( X µ) N(0, X N(µ, σ2. הדרכה. לפי תרגיל 1.2.54 נניח ש (.X 1,..., X n N(µ, σ 2 אז ) n תרגיל 1.2.32. משפט 1.2.55 נניח ש ( X 1,..., X n N(µ, σ 2 משתנים נורמליים בלתי תלויים. אז:. X n µ σ/ n N(0, 1).1 2. Xn ו S בלתי תלויים.. n 1 S 2 = ( X i X n ) 2 χ 2 σ 2 σ n 1.3.t הוא משתנה מקרי בעל התפלגות n 1 Q = X n µ S/ n.4 הוכחה..1 לפי תרגיל,1.2.32 /n) X N(µ, σ 2..2 הווקטור X) (X 1 X,..., X n 1 X, הוא טרנספורמציה לינארית הפיכה של, X ולכן, לפי טענה 1.2.23, התפלגותו רב נורמלית. קל לחשב ש 0 = (X,Cov(,X X i ולפי טענה 1.2.26 נובע מכאן שהרכיב X בלתי תלוי בשאר הרכיבים. מכיוון שסכום המשתנים,X 1 X,..., X n 1 X כפונקציה של S הוא אפס, אפשר להציג את הסטטיסטי X i X ומכאן ש X בלתי תלוי ב S. 2 ( X i. אבל לפי חישוב ) µ 2 σ χ 2 n והם בלתי תלויים, X i µ.3 מכיוון ש ( 1 N(0, σ ( ) 2 X i µ = 1 (Xi σ σ X + X µ) 2 2 = 1 [ (Xi σ X) 2 + 2( X µ) (X 2 i X) + n( X ] µ) 2 = n 1 σ 2 S 2 + ( ) 2 X µ σ/. n ( ) 2. לפי טענה 1.1.6 (המשתמשת בפונקציה יוצרת X µ σ/ n χ 2 לפי הסעיף הראשון, 1 המומנטים) אפשר לצמצם את הרכיב הזה מההתפלגות ((X i µ)/σ) 2 χ 2 n, ולהסיק 25. n 1 σ 2 ש n 1 S 2 χ 2
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות 4. לפי שלושת הסעיפים הקודמים והגדרת ההתפלגות, Q = X n µ S/ n = X n µ σ/ n (n 1)S 2 σ 2 /(n 1) t n 1. מסקנה 1.2.56 נניח ש ( X 1,..., X n N(µ 1, σ 2 ו ( Y 1,..., Y m N(µ 2, σ 2 בלתי תלויים (עם אותה סטיית תקן). אז (Xi X n ) 2 (Yi Ȳm) F n 1,m 1. 2 הוכחה. לפי המשפט, n 1 (X i X n ) 2 /σ 2 χ 2 ו m 1 (Y i Ȳm) 2 /σ 2 χ 2, ואלו כמובן משתנים בלתי תלויים. 1.2.5 האומד ה r סימטרי תרגיל 1.2.57 יהיו X 1, X 2 משתנים מקריים בלתי תלויים, עם שונות.σ 2 נגדיר S 2 כמקודם (עבור = 2.(n הראה ש ) 2 2.S 2 = 1 2 (X 1 X תרגיל 1.2.58 תהי ) r h(x 1,..., x פונקציה סימטרית של r משתנים. יהיו..., 1 X משתנים מקריים בלתי תלויים ושווי התפלגות. לכל n, נסמן H n = 1 ( n r) 1 i 1 i r n h(x i1,..., X ir ), ממוצע הערכים של h תחת ההצבות השונות. אומד זה נקרא אומד r סימטרי. נסמן ב ζ c = Cov(h(X i1,..., X ir ), h(x j1,..., X jr )) את השונות המשותפת של שני ערכים של הפונקציה, אם יש } r c = {i 1,..., i r } {j 1,..., j משתנים משותפים. (נניח שכל התוחלות מתכנסות). הוכח ש V (H n ) r2 ζ 1 n. הדרכה. הצג את ) n Cov(H n, H כצירוף לינארי של,ζ 1,..., ζ r והשאף.n 26
תורת ההסתברות 1.2. ההתפלגות הנורמלית פרק 1. סדרת האומדים H n מתכנסת אל התוחלת )) r,γ = E(h(X 1,..., X עם שגיאה נורמלית דועכת, במובן הבא. הערה 1.2.59 (משפט,Hoeffding 1948) בתנאי תרגיל 1.2.58, הסדרה r Hn γ מתכנסת 2 ζ 1 /n בהתפלגות אל ההתפלגות הנורמלית (1,0)N. [Introduction to the theory of Nonparametric Statistics, Ran- dles and Wolfe, 1979, Thm 3.3.13.] תרגיל 1.2.60 נגדיר H n כבתרגיל 1.2.58 עבור הפונקציה ) 2 2.h(x 1, x 2 ) = 1(x 2 1 x הראה 2 ש Sn.H n = הדרכה. הממוצע של ) j h(x i, X הוא תבנית ריבועית סימטרית. הסק ש ( 0,V(S 2 ) 1 V n (X2 כאשר ) 1.X 0 = X 1 E(X תרגיל 1.2.61 (הכללה של תרגיל (1.2.60 יהיו X 1,..., X n משתנים מקריים בלתי תלויים שווי התפלגות, עם ) i.σ 4 = E((X i µ) 4 ),σ 2 = V(X i ),µ = E(X אם n} A {1,..., קבוצה עם > 1, A נסמן S 2 A = 1 A 1 i A (X i ( 1 A X j )) 2. j A בפרט, S 2 {1,...,n} = S2 כפי שהוגדר ב ( 1.2 )..1 לכל קבוצה A (כלעיל),.E(S 2 A ) = σ2 2. נקבע k n 2. הראה שהממוצע של כל האומדים SA 2 על פני כל הקבוצות עם A, = k שווה ל S. 2 הדרכה. כמו בתרגיל 1.2.60. Cov(S 2 A, S 2 B) =.3 תהיינה n} A, B {1,..., קבוצות. אז ( ( ) ) A B 2( A B 1) σ 4 1 σ 4. A B ( A 1)( B 1) ζ c ) ) בפרט, אם A = B = ( r ו c A B = אז = ) B = Cov(SA 2, S2.ζ 1 = Cov(SA 2, S2 B ) = 1 (σ, ובפרט ) 4 r 2 4 σ (σ c r 2 4 1 2(c 1) σ 4 (r 1) 2.Cov(S 2 A, S2 B ) = 1 B ( ) σ 4 B 3.4 אם A B אז B 1 σ4.v(s 2 ) = 1 n ( σ4 n 3 n 1 σ4).5 27
1.2. ההתפלגות הנורמלית פרק 1. תורת ההסתברות 28
פרק 2 אמידה 2.1 מודל, אוכלוסיה ומדגם כפי שנסביר מיד, יש שני סוגי מקורות לנתונים סטטיסטיים: מודל ואוכלוסיה. גם המודל וגם האוכלוסיה אינם נגישים לנו ישירות, אלא רק דרך מדגם, ולכן הטיפול בשני המצבים דומה. תוצאות של מדידה או ניסוי מדעי מגיעות לעתים קרובות מהתפלגות מוכרת, למשל התפלגות מעריכית או נורמלית. הכרת ההתפלגות הזו, כלומר ההנחה שהמשתנה מתפלג באופן מסויים ולא אחר נקראת מודל. בניית המודל (סטטיסטי או אחר) היא הצעד הראשון בשיטה המדעית. עם זאת, גם כאשר סוג ההתפלגות ידוע, בדרך כלל איננו יודעים את הפרמטרים לאשורם. למשל, מספר המטאורים הנצפים מדי דקה בלילה מסויים מתפלג פואסונית. המודל קובע שהמספר Poi(λ) X, כאשר λ אינו ידוע. תוצאות הניסוי, היינו ערכים X 1,..., X n של המשתנה המקרי שאת ההתפלגות שלו אנו דוגמים, נקראות מדגם. הטבע אינו חושף את סודותיו בנקל, ולכן איננו יכולים לדעת כיצד בדיוק התקבלו המספרים האלה; המודל מציע משפחה של אפשרויות לתהליך כזה, ומשאיר בידי הסטטיסטיקאי את הצורך להכריע מי מהן היא הסבירה ביותר. תורת האמידה משתמשת בתוצאות המדגם כדי להעריך פרמטרים של ההתפלגות. הדוגמא השכיחה היא אמידה של התוחלת או השונות של ההתפלגות הנורמלית, אבל לגיטימי לנסות לאמוד גם דברים כמו p/q בהתפלגות בינומית, e λ בהתפלגות פואסון, וכן הלאה. מקור אפשרי אחר לנתונים הוא אוכלוסיה קבועה. למשל, אם רוצים ללמוד את הגובה של אזרח בוגר בישראל, עלינו לבחור אנשים מן האוכלוסיה ולמדוד את הגובה שלהם. גם במקרה כזה, המדגם הוא אוסף (בדרך כלל קטן) של ערכים שנאספו מן האוכלוסיה. גם במקרה כזה, הניתוח הסטטיסטי מבוסס על ההנחה שמקורם של נתוני האוכלוסיה הוא מודל, והמדגם מהווה בחירה של משתנים מקריים מתוך רשימה 29
2.2. אמידה נקודתית פרק 2. אמידה קיימת. כמעט מכל בחינה, הניתוח זהה למקרה הנקי שבו המדגם נוצר ישירות מן המודל הסטטיסטי עצמו. פרט לעניין אחד קטן. כשדוגמים מודל מדעי, סביר להניח שהתוצאות השונות אינן תלויות זו בזו. בדגימה מתוך אוכלוסיה סופית יש בעיה מהותית: אם הדגימה אקראית, יש סיכוי חיובי לחזרה על אותו ערך; אבל אם תתכן חזרה, נוצרת תלות מובנית בין הערכים שנדגמו (הם מן הסתם בלתי תלויים כשהם שונים זה מזה, אבל בוודאי תלויים אם דוגמים את אותו ערך פעמיים). מאידך, אם קובעים מראש שלא תתכן חזרה, ערכי המדגם נעשים תלויים (משום שאם דגמנו ערך גדול מהממוצע, והערך הבא חייב להיות שונה ממנו, הוא מוטה להיות נמוך מהממוצע). הפתרון שלנו לבעיה הזו יהיה להניח שהאוכלוסיה גדולה מספיק עד שהאפקט נעלם. עם זאת יש לדעת שדגימה מאוכלוסיה קטנה דורשת תשומת לב גם להיבט הזה. בדגימה מאוכלוסיה יש בעיות נוספות. הניתוח המתמטי של המדגם, כמייצג של האוכלוסיה, מבוסס על ההנחה שהדגימה אינה מוטה (כלומר, לכל פרט יש סיכוי שווה להופיע במדגם) - אחרת יש לבצע התאמות שונות ומשונות. זהו אינו קורס בסטטיסטיקה מעשית, ולכן לא נעסוק בהרחבה בהטיות דגימה אפשריות. מכיוון שפטור בלא כלום אי אפשר, נסתפק ברמזים: לא כל הפרטים באוכלוסיה זמינים לצרכי דגימה (חסרי בית; תושבי חו"ל שיגיעו ליום הבחירות); תהליך הדגימה יוצר הטיות (בדגימה לפי מספרי טלפון יש לבעלי שני קווים סיכוי מוגבר להופיע; בדגימת אנשים בתחנת רכבת או בסניף דואר מגיעים לנוסעי רכבות ושולחי דואר); אנשים נוטים לשקר בסקרים (למשל בנושא שכר, הרגלים אישיים, אמונות, 'האם עברת הטרדה מינית') או להבין את השאלות אחרת מן הפרשן, כשעוסקים בהעדפות ודעות התשובה אינה יציבה (האם אתה אוהב כרוב? לפעמים.); מאגרי מידע מכילים ערכי דמה ושגיאות; ועוד ועוד. 2.2 אמידה נקודתית המודל קובע ש,X 1,..., X n F θ כאשר הפרמטר θ קובע את ההתפלגות המסויימת, אבל אינו ידוע. זה עשוי להיות פרמטר רב ממדי, כמו בהתפלגות הנורמלית, הנקבעת על ידי התוחלת והשונות שלה. לשם הכלליות, תהי τ(θ) τ = פונקציה של הפרמטר הזה. עלינו לאמוד את הערך של.τ(θ) הניתוח המתמטי מאפשר לנו לדון בפונקציות של נתוני המדגם והפרמטר, שאותן נסמן ב ( θ s(x 1,..., X n ; או לשם הקיצור θ).s(x; מכיוון שהפרמטר θ אינו ידוע, האמידה מוכרחה להתבצע בלעדיו. פונקציה t(x) T = t(x 1,..., X n ) = של נתוני המדגם, שאינה תלויה בפרמטר θ, נקראת סטטיסטי. סטטיסטי שאנו משתמשים בו כדי לאמוד את τ(θ) הוא אומד נקודתי, או סתם אומד (ההבדל בין סטטיסטי לאומד הוא דידקטי ולא מתמטי). כדי לציין זאת, נסמן אומד ל θ ב θ ˆ, ובאופן כללי אומד ל ( τ(θ τ = יהיה τˆ. ההבדל הטיפוגרפי הדק הזה מסתיר הבדל מהותי בין שני הביטויים: θ הוא פרמטר, ואילו ) n ˆθ(X 1,..., X הוא 30
אמידה 2.2. אמידה נקודתית פרק 2. אומד, התלוי בנתוני המדגם ואינו תלוי ב θ. לאחר הדגימה, כאשר מתקבלים הערכים,X i = x i האומד ) n ˆτ(X 1,..., X נעשה אומדן מספרי, ) n.t(x 1,..., x דוגמא 2.2.1 נניח ש ( 1 N(µ,,X 1,..., X n והפרמטר שרוצים לאמוד הוא.µ הממוצע.µ של ˆµ = X n הוא סטטיסטי, שאפשר לראות בו אומד X n = 1 n (X 1 + + X n ) מדוע זה כך? משום שבהנתן נתוני המדגם, הממוצע מספק הערכה טובה לתוחלת. בדגימה מההתפלגות (1,3)N אנו מצפים לקבל ממוצע קרוב ל 3, ובדגימה מההתפלגות (1,12)N נקבע ערכים קרובים יותר ל 12. בכך שהפרמטר משפיע על נתוני המדגם, הוא מספק לנו אפשרות להפוך את המגמה, ולהסיק מנתוני המדגם על ערכו של הפרמטר. זו הזדמנות להתבונן בסכום או הממוצע של משתנים בלתי תלויים, גם במקרה הכללי וגם עבור התפלגויות מוכרות. תרגיל 2.2.2 אם X 1,..., X n משתנים בלתי תלויים בעלי תוחלת µ ושונות,σ 2 אז.V( X n ) = σ2 n ו E( X n ) = µ תרגיל 2.2.3 נניח ש X 1,..., X n בלתי תלויים. נסמן ) n X n = 1 n (X 1 + + X..1 אם b(p) X i אז p) X n Bin(n,..2 אם Poi(λ) X i אז Poi(nλ) X n..3 אם Exp(λ) X i אז λ) X n Γ(n,..4 אם ) 2 X i N(µ, σ אז /n) X n N(µ, σ 2. 2.2.1 שיטת המומנטים איך בונים אומד מוצלח לפרמטר θ? שיטת המומנטים מציעה פתרון נאיבי למדי. מצד אחד, ההתפלגות של נתוני המדגם X 1,..., X n F θ תלויה ב θ, ולכן התוחלת שלה,.θ היא פונקציה של,E θ (X) = f(θ) מצד שני, לפי החוק החלש של המספרים הגדולים, ממוצע המדגם שואף לתוחלת. לכן סביר להשוות f(θ) X n =, לפתור את המשוואה, ולקבל את האומד ) n.ˆθ = f 1 ( X שימושים בשיטת המומנטים מיוחסים לגאוס, בסל וצ'ביצ'ב, אך קרל פירסון Carl) (Pearson היה בלי ספק הסניגור והפופולריזטור הגדול שלה. על השיטה נמתחה גם לא מעט ביקורת: ראו Moments, Professor Karl Pearson and the Method of. 1 R.A.Fischer, Annals of Eugenics (!), June 1937. 1 קישור:.https://onlinelibrary.wiley.com/doi/pdf/10.1111/j.1469-1809.1937.tb02149.x 31
2.2. אמידה נקודתית פרק 2. אמידה דוגמא.1 2.2.4 נתבונן בהתפלגות הנורמלית ) 2,N(µ, σ כאשר σ 2 ידוע ומבקשים לאמוד את µ. הפרמטר שווה במקרה זה לתוחלת, ולכן שיטת המומנטים מציעה את האומד הטבעי.ˆµ = X n 2. גם בהתפלגות פואסון (λ) P התוחלת שווה לפרמטר λ, ולכן שיטת המומנטים מציעה גם כאן את האומד λˆ. = X n 3. לעומת זאת, בהתפלגות גאומטרית G(p) התוחלת היא p/1, ולכן האומד המתקבל משיטת המומנטים הוא.ˆp = 1/ X n מדוע, אם כך, נקראת השיטה "שיטת המומנטים" ולא "שיטת הממוצע"? לפעמים רוצים לאמוד כמה פרמטרים בו זמנית (היינו, לאמוד פרמטר רב ממדי). במקרה כזה משוואה אחת, על התוחלת, אינה מספיקה, ויש להשוות את המומנטים הבאים. אכן, לפי החוק החלש של המספרים הגדולים, מומנטים של המדגם מתקרבים למומנטים של האוכלוסיה, ולכן ההשוואה מוצדקת גם במקרה הזה. דוגמא 2.2.5 נציע אומד דו ממדי לפרמטרים,µ σ בהתפלגות ) 2.N(µ, σ המומנטים הראשונים של ההתפלגות הזו הם µ ו.E(X 2 ) = µ 2 + σ 2 השוואתם לממוצעים X n ו ( Xn X 2 n = 1 n (X2 1 + + מציעה את האומדים 2 ˆµ = X n, ˆσ 2 = X 2 n X 2 n. דוגמא 2.2.6 פירסון השתמש בשיטת המומנטים כדי לאמוד את הפרמטרים בהתפלגות המשלבת (בפרופורציות לא ידועות) שתי התפלגויות נורמליות (עם פרמטרים לא ידועים). כאן יש לאמוד חמישה פרמטרים, והשוואת חמשת המומנטים הראשונים מובילה למשוואה פולינומית ממעלה 9 בנעלם µ 1 µ 2 (שממנה אפשר למצוא גם את שאר הפרמטרים).. 2 [ Tapas of Algebraic Statistics, Notices of the AMS, 65(8), 2018.] תרגיל 2.2.7 מצא אומד לפי שיטת המומנטים לפרמטרים,a b בהתפלגות [b.u[a,. n 1 n S2 = 1 12 (ˆb ו â) 2 X = 1 הדרכה. פתור את המשוואות (bˆ â) + 2 דוגמא 2.2.8 אפשר לאמוד פרמטרים סבוכים יותר, לאו דווקא מומנטים. למשל, ההסתברויות.E(e X 1X 2 a),p(x > או תוחלת כמו ) 2 קישור:.https://www.ams.org/journals/notices/201808/rnoti-p936.pdf 32
אמידה 2.2. אמידה נקודתית פרק 2. 2.2.2 אומדים חסרי הטיה נניח ש τ ˆ T = t(x 1,..., X n ) = הוא אומד של.τ(θ) כפי שהתפלגות נתוני המדגם X i תלויה ב θ, גם ההתפלגות של האומד תלויה ב θ. בפרט, התוחלת של T תלויה ב θ (אבל לא בנתוני המדגם). הגדרה 2.2.9 נניח ש,X 1,..., X n F θ כאשר θ הוא פרמטר הקובע את ההתפלגות. סטטיסטי ) n T = t(x 1,..., X הוא אומד חסר הטיה של τ(θ) אם לכל ערך של θ מתקיים.E(T ) = τ אומד שאינו חסר הטיה הוא אומד מוטה. תרגיל 2.2.10 בכל התפלגות, הממוצע ) n 1 n (X 1 + + X הוא אומד חסר הטיה של התוחלת. הערה 2.2.11 למרות ש S 2 אומד חסר הטיה ל σ, 2 אין זה נכון ש S הוא אומד חסר הטיה ל σ. תרגיל 2.2.12 בהתפלגות ברנולי,b(p) העזר בנתוני מדגם X 1,..., X n כדי למצוא אומדים חסרי הטיה ל p ול p. 2 האם תוכל למצוא אומד חסר הטיה ל 1/p? תרגיל 2.2.13 נניח ש ( Poi(λ X. 1. הראה ש X הוא אומד חסר הטיה ל λ..2 מצא אומד חסר הטיה ל ( 1 + k.λ(λ 1) (λ.3 בדוק שהפונקציה יוצרת המומנטים היא 1) λ(et.m(t) = Ee tx = e הסק שלכל > 0,α α X הוא אומד חסר הטיה ל.e (α 1)λ 4. מצא אומד חסר הטיה ל e. λ הדרכה. 0,X T = δ עונה על תנאי השאלה. כדי "לגלות" את הפתרון הזה, השאף t בסעיף הקודם..5 מצא אומד חסר הטיה ל e (α 1)λ לכל 0.α הדרכה. כתוב f(x).t = e (α 1)λ = E(T ) = e λ λ n הסק ש T = α X עובד גם במקרה זה. n! מ ( f(n דוגמא 2.2.14 הזמן הנדרש לתוכנית מחשב מסויימת להתחיל לרוץ מתפלג מעריכית עם תוחלת 30 + 12θ שניות, כאשר θ הוא מספר הווירוסים המתרוצצים בזכרון. יהיה נאיבי מצידנו לצפות שזמן הריצה X יהיה בדיוק 30 + 12θ שניות, ובכל זאת, 30) (X T = 1 12 הוא אומד חסר הטיה למספר הווירוסים, משום שהתוחלת שלו היא θ. 33
2.2. אמידה נקודתית פרק 2. אמידה תרגיל 2.2.15 במה עדיף הממוצע ) n 1 n (X 1+ +X על פני האומד,X 2 אם ממילא שניהם חסרי הטיה? תרגיל 2.2.16 כשרוצים לאמוד את מספר התומכים במפלגת 'כרוב וחסה', מניחים שיש באוכלוסיה שעור מסויים, p, של תומכים. כשבוחרים את המדגם האקראי, הסיכוי של כל משתתף במדגם להשתייך לקבוצת התומכים הוא p, ולכן תוצאות המדגם מתפלגות b(p).x 1,..., X n בדוק שהממוצע הוא אומד חסר הטיה ל p. מה שונותו? איך היא תלויה ב n (האם כדאי לקחת מדגם גדול פי 100?) איך תלויה השונות ב p, ומה משמעות התוצאה הזו בבואנו לאמוד את מספר התומכים במפלגה שעל גבול אחוז החסימה? (Ynet שכותרתו תרגיל 2.2.17 מה דעתך על פרסום (אפרת וייס, 3/11/2002, "מחקר: 141,710 נשים מוכות בישראל"?,s 2 = 1 n והסק תרגיל 2.2.18 חשב את התוחלת של שונות המדגם (X 2 (Xi שזהו אינו אומד חסר הטיה לשונות האוכלוסיה σ. 2 תרגיל 2.2.19 רוצים לאמוד את האחוז p של הילדים הפוחדים מחושך. חוששים שהילדים לא יענו על שאלה כזו בכנות, ולכן מבקשים מהם לפעול כדלקמן: כל ילד יטיל מטבע; אם יצא 'עץ' הוא יאמר את התשובה הנכונה, ואם יצא 'פלי' הוא יטיל מטבע שני, ויתן תשובה אקראית (כן או לא) על פי התוצאה שקיבל שם. הילדים לא יחששו לשתף פעולה, משום שתשובה חיובית יכולה להתקבל גם כתוצאה מהטלת מטבע. 1. אם ילד עונה שהוא פוחד מחושך, מה הסיכוי שזה אכן כך? 2. כתוב את הסטטיסטי המתקבל באופן כזה, ובנה ממנו אומד חסר הטיה של הפרמטר המבוקש. (מהי שונות האומד? השווה אותה לשונות של האומד שהיה מתקבל אם אפשר היה לסמוך על התשובות כלשונן.) רעיון 2.2.20 פיקוד העורף מבצע תרגיל לבדיקת צופרי האזעקה. אם יודיעו מראש שכל אזרח שאינו שומע את האזעקה מתבקש להתקשר ולהתריע על כך, קווי הטלפון בפיקוד יקרסו. נתח את האפשרות שרק שהאזרחים שמספר הזהות שלהם מסתיים ב 345 יתבקשו להודיע במקרה הצורך. מה דעתך על האלטרנטיבה, שלפיה רק אלו שמספר הזהות שלהם מתחיל ב 345 יתקשרו? תרגיל 2.2.21 בבחירות לנשיאות בארצות הברית זוכה המועמד שצבר את מספר האלקטורים הגדול ביותר. ממדינה,i = 1,..., k) i כאשר למשל = 50 (k מגיעים n i אלקטורים, מתוך N = n i אלקטורים בסך הכל. הסיכוי של מועמד A לנצח במדינה i (על פי 34
אמידה 2.2. אמידה נקודתית פרק 2. הסקרים המקומיים) הוא p i בדיוק. נסמן p 0 = p ו ( p.p 1 = (1 הראה שהסיכוי של.P = (ɛ 1,...,ɛ k ) {0,1} k : ɛ i n i > 1 2 N(pɛ 1 1 p ɛ k k A לנצח בסופו של דבר הוא ) קבוצת הווקטורים (ɛ 1,..., ɛ k ) {0, 1} k המקיימים את התנאי ɛ i n i > 1 2 N היא מסובכת למדי, וחישוב ישיר של P עשוי להיות בלתי אפשרי. הצע דרך מהירה לאמוד את הפרמטר P. הדרכה. בכל אחת מ 1000 החזרות על הניסוי, מטילים k מטבעות. חוסר הטיה אסימפטוטי בדרך כלל, אנו רואים את גודל המדגם n כקבוע. עם זאת, כאשר בוחרים אומד ) n T n = T n (X 1,..., X לכל,n אפשר להתבונן גם בהתנהגות האסימפטוטית של הסדרה. הגדרה 2.2.22 סדרת האומדים T n היא עקבית אם לכל.lim E((T n τ(θ)) 2 ) = 0,θ הגדרה 2.2.23 סדרת האומדים T n היא חסרת הטיה אסימפטוטית אם לכל.lim E(T n ) = τ(θ),θ (למשל, אם כל T n חסר הטיה, קל וחומר שהסדרה חסרת הטיה אסימפטוטית.) טענה 2.2.24 סדרת האומדים T n היא עקבית אם ורק אם היא חסרת הטיה אסימפטוטית וכן ) 0 n.v(t היא סדרת אומדים עקבית X n דוגמא 2.2.25 בעקבות תרגיל 2.2.2, סדרת הממוצעים X לתוחלת. טענה S 2 2.2.26 הוא אומד עקבי ל σ. 2.V(S 2 ) = 2σ4 n 1 הוכחה. לפי משפט 1.2.55, הגדרה 2.2.27 סדרת האומדים T n היא עקבית פשוטה אם לכל > 0,ɛ.P( T n τ(θ) < ɛ) 1 טענה 2.2.28 סדרת אומדים עקבית היא בפרט עקבית פשוטה. הוכחה. אי שוויון מרקוב. 35
2.2. אמידה נקודתית פרק 2. אמידה 2.2.3 השוואת אומדים השגיאה באמידת τ על ידי T היא המרחק τ T, ובאופן נגיש יותר לאנליזה מתמטית, הריבוע של המרחק הזה. מתברר שתוחלת השגיאה מתפרקת לשני רכיבים:.E((T τ) 2 ) = V (T ) + (E(T ) τ) 2 טענה 2.2.29 הוכחה. E((T τ) 2 ) = E(T 2 2τT + τ 2 ) = E(T 2 ) E(T ) 2 + E(T ) 2 2τE(T ) + τ 2 = V(T ) + (E(T ) τ) 2. הגודל (τ 2 (E(T ) הוא ההטיה של T. היינו, תוחלת ריבוע השגיאה מורכבת משני רכיבים: השונות וההטיה. כדי למזער את השגיאה, עלינו לתקוף את שני הרכיבים האלה: לבחור T שההטיה שלו קטנה עד כמה שאפשר (חסר הטיה, אם יש כזה), ולהעדיף אומד בעל שונות קטנה עד כמה שאפשר. המודל קובע ש.X 1,..., X n F θ נניח ש ( T = t(x 1,..., X n הוא אומד חסר הטיה של θ. כדי להעריך את איכות האומד, ולבחור בין כמה אומדים אפשריים, מתבוננים בשונות ) T) V. θ גם כאן חשוב להדגיש שהשונות תלויה ב θ, ולכן יתכן שאומד מסויים יהיה בעל שונות נמוכה משל אומד אחר עבור ערכים מסויימים של הפרמטר, אבל בעל שונות גבוהה יותר במקומות אחרים. הגדרה 2.2.30 אם T T, אומדים חסרי הטיה ל ( τ(θ, ולכל θ מתקיים ) V(T,V(T ) אז T עדיף על T. דוגמא 2.2.31 נניח שרוצים לאמוד את p/1 בהתפלגות מעריכית.G(p) נתוני המדגם (הבלתי תלויים) הם.X 1,..., X n כל אומד מהצורה T = a i X i עם = 1 i a הוא ( = ) i.e(t ) = a i E(X השונות של אומד חסר הטיה, משום ש 1/p a i p/( = a 2 i אם כך, האומד עדיף ככל ש.V(T ) = a 2 i V(X i ) = q p a 2 האומד הזה היא i קטן יותר. תרגיל 2.2.32 הוכח, בהמשך לדוגמא 2.2.31, שהאומד העדיף ביותר מהצורה ai X i הוא הממוצע. בהנתן שני אומדים, יתכן שלכל אחד מהם שונות נמוכה עבור ערכים אחרים של הפרמטר, ואז אף אחד מהם אינו עדיף על משנהו. 36
אמידה 2.2. אמידה נקודתית פרק 2. X X+1 n בתור אומדים לתוחלת בהתפלגות 2 עדיף על דוגמא 2.2.33 הראה שהאומד X.N(µ, σ 2 ) תרגיל 2.2.34 כל אחד מן המשתנים המקריים הבלתי תלויים X 1,..., X n הוא אומד Y = α 1 X 1 + צירוף ליניארי.E(X i ) = σi חסר הטיה לגודל מסויים, עם שונות 2 + α n X n הוא אומד חסר הטיה אם = 1 n.α 1 + + α מצא את האומד בעל 2 σ,v(y ) = ( וערך זה השונות הקטנה ביותר מצורה זו. הראה שעבורו 1 ) i קטן מכל אחת מן השונויות.σi 2 תרגיל 2.2.35 נניח ש [ θ.x 1,..., X n U[0, n+1x מהווים אומדים חסרי הטיה לפרמטר הראה שסטטיסטיי הסדר המתוקנים (k) k n+1 X n (n) = n+1 max {X n {i השווה את האומד. n+1 k (n+2)k היא θ2 n+1x k (k) השונות של ;θ לכפליים הממוצע ) n (X n 1 + + X 2. איזה אומד עדיף? תרגיל 2.2.36 בהמשך לתרגיל,2.2.13 נניח ש ( Poi(λ X 1,..., X n בלתי תלויים..1 הראה ש X 1 X k הוא אומד חסר הטיה ל.λ k.2 הראה שכל האומדים הבאים של λ 2 הם חסרי הטיה:,X 1 X 2,X 2 1 X 1. 1 n ( X i ) 2 X, X 2 1 n X איזה מהם עדיף? 2.2.4 אומד נראות מקסימלית נניח שלפי המודל, Poi(λ),X 1,..., X n כאשר λ פרמטר לא ידוע. ההסתברות. e λ λ X i X i = e nλ λ n X! Xi לקבל וקטור ערכים מסויים במדגם היא מכפלת ההסתברויות,! ערך זה נקרא הנראות של המדגם, והוא תלוי כמובן בפרמטר. אם הפרמטר קבוע, התוצאה סבירה יותר ככל שמתקבלת הסתברות גבוהה יותר. אבל אותו שיקול פועל גם בכיוון ההפוך: אם המדגם נתון, ככל שההסתברות גבוהה יותר כך סביר יותר ערכו של הפרמטר. הלך מחשבה זו מוביל אותנו לבחור את נקודת המקסימום של ההסתברות (שאותה אפשר למצוא על ידי גזירה לפי הפרמטר והשוואה לאפס) כאומד λˆ. = X ערכה של ההסתברות המתקבלת חשוב, אבל צריך לטפל בו בזהירות: דוגמא 2.2.37 נניח שבמדגם מהתפלגות פואסון התקבלו הערכים (7,2).,0 ההסתברות, e 3λ λ 9 והמקסימום המתקבל בערך = 3 ˆλ הוא בערך.1/4000 לווקטור הזה היא 10080 ההסתברות של המדגם הסביר ביותר עבור הפרמטר הזה, כלומר (3,3),,3 היא בערך אחוז אחד. מה משמעותה של ההסתברות הנמוכה של נתוני המדגם? היא עשויה לגרום לנו לפקפק במודל, או בנתוני המדגם עצמם; אבל עבור המודל הזה, ובנתוני המדגם האלה, ערכו של הפרמטר = 3 λˆ הוא הסביר ביותר. 37
2.2. אמידה נקודתית פרק 2. אמידה כאשר המודל מצביע על התפלגות רציפה ההסתברות לכל ווקטור מדגם היא אפס. בכל זאת, אם נחליף את ההסתברות בצפיפות, נגיע למסקנות דומות. נסמן ב ( θ f(x; את פונקציית הצפיפות. הנראות של הערך X = x היא הצפיפות בנקודה, כלומר θ).f(x; באופן כללי יותר, הנראות של המדגם X 1,..., X n היא הצפיפות המשותפת בנקודה, כלומר המכפלה n L(X; θ) = f(x i ; θ). i=1 אם עלינו להכריע איזה ערך של θ סביר יותר, נעדיף את זה שמציע נראות גבוהה יותר. הבחנה זו מוליכה להגדרה הבאה: הגדרה 2.2.38 אומד נראות מקסימלית ל θ הוא אומד ˆθ(X) θˆ, = שעבורו (θˆ L(X; מקסימלי. בדרך כלל אפשר למצוא אומד נראות מקסימלית על ידי גזירה והשוואת הנגזרת לאפס. מכיוון שהנראות היא מכפלה, נוח יותר למקסם אותה אחרי לקיחת הלוגריתם; כלומר, לגזור θ log L(X; θ) = θ log f(x i; θ) = f (X θ i; θ) f(x i ; θ), להשוות את הנגזרת לאפס, ולפתור את המשוואה (2.1) f (X θ i; ˆθ) = 0. f(x i ; ˆθ) דוגמא 2.2.39 נמצא אומד נראות מקסימלית לפרמטר בהתפלגות מעריכית. לפי המודל, Exp(µ),X 1,..., X n עם צפיפות.f(x; µ) = 1 µ e x/µ הנראות של המדגם היא ;log L(X; µ) = n log µ n X/µ לכן.L(X; µ) = 1 µ e Xi/µ = 1 n X/µ e µ n הנגזרת היא L(X; µ) = n + n X. השוואה לאפס נותנת.ˆµ = X µ µ µ 2 הטכניקה מוצאת בדיוק באותו אופן אומד לפרמטר רב ממדי: דוגמא 2.2.40 נמצא אומד נראות מקסימלית לשני הפרמטרים של התפלגות נורמלית.L(X; µ, σ 2 ) = 1 (µ X 2πσ 2 e i )2 פונקציית הנראות היא 2σ 2.X 1,..., X n N(µ, σ 2 ) ) 2 i.log L(X; µ, σ 2 ) = n 2 log(2πσ2 ) (µ X כדי למצוא את הלוגריתם הוא 2σ 2 המקסימום, נגזור לפי µ ולפי (!): σ 2 µ log L(X; µ, σ2 ) = 1 2σ 2 2(µ Xi ) = n σ 2 ( X µ); 38
אמידה 2.2. אמידה נקודתית פרק 2. σ 2 log L(X; µ, σ2 ) = n 2σ 2 + (µ X i ) 2 2σ 4. השוואת שתי הנגזרות לאפס מביאה לנקודת הקיצון ˆµ = X, ˆσ2 = 1 n ( X Xi ) 2 = n 1 n S2. (אומד הנראות המקסימלית לשונות אינו חסר הטיה.) תרגיל 2.2.41 מצא אומד נראות מקסימלית לתוחלת µ בהתפלגות ) 2,N(µ, αµ כאשר α פרמטר ידוע. תרגיל 2.2.42 מצא אומד נראות מקסימלית להתפלגות ברנולי ולהתפלגות בינומית עם מספר ניסויים קבוע. תרגיל 2.2.43 מצא אומד נראות מקסימלית לפרמטר p בהתפלגות שהצפיפות שלה.f(x; p) = 2pxe px2 אנו רגילים למצוא נקודת מקסימום על ידי גזירה והשוואה לאפס; זו הדרך הנכונה אם המקסימום נמצא בפנים תחום ההגדרה, אבל הוא עלול להמצא גם על השפה. דוגמא 2.2.44 נמצא אומד נראות מקסימלית להתפלגות האחידה [θ,0]u. פונקציית הצפיפות היא 1 בתוך הקטע, ואפס מחוץ לו. כדי לא לאבד את המידע הזה, נכתוב θ את הצפיפות כך: [0,θ](x),f(x; (θ = 1I θ כאשר I A היא הפונקציה המציינת של קבוצה 1. הפונקציה הזו I θ [0,θ](X i ) = 1 I θ n [0,θ] (max X i ) כרגיל, הצפיפות היא המכפלה.A יורדת עם θ, ולכן נראה ש θ יהיה קטן ככל האפשר, בכפוף לתנאי.max X i θ כלומר, θˆ. = max X i זהו אינו אומד חסר הטיה. טענה 2.2.45 נניח ש θ ˆ הוא אומד נראות מקסימלית לפרמטר θ. אז לכל פונקציה τ, אומד הנראות המקסימלית ל ( τ(θ הוא τ(ˆθ) τˆ. = הוכחה. האומד מתקבל בנקודת המקסימום של הנראות, ואין חשיבות לשאלה איזו פונקציה של הפרמטר מבקשים למקסם. 39 n 1 S n בפרט, אומד הנראות המקסימלית של σ מתקבל מהוצאת שורש מן האומד של σ: 2.ˆσ =
2.2. אמידה נקודתית פרק 2. אמידה 2.2.5 סטטיסטיים מספיקים ומספיקים במשותף כפי שראינו בסעיף הקודם, ההסתברות של מדגם ) n (X 1,..., X מהתפלגות פואסון e. nλ λ X i כדי לחשב את המספר הזה, כפונקציה של λ, אין צורך היא 1!) i X ( בכל נתוני המדגם: מספיקים הערכים של X i ו! X i. יתרה מזו, ההשפעה של! i X קבועה, ואינה תלויה בפרמטר. הסתכלות זו מוליכה להגדרה הבאה. הגדרה 2.2.46 סטטיסטי S הוא מספיק אם בהנתן S, צפיפות המדגם אינה תלויה בפרמטר. לחילופין, אם בהנתן S ההתפלגות של כל סטטיסטי אחר אינה תלויה בפרמטר. דוגמא 2.2.47 בהתפלגות פואסון, הסכום הוא סטטיסטי מספיק. אכן, התפלגות הסכום היא Poi(nλ) X i, ובהנתן הסכום X i = s, ההסתברות לווקטור המדגם ) n (X 1,..., X היא P((X 1,..., X n ) X i = s) = e nλ λ s / X i! e nλ (nλ) s /s! = s! n s X i!, וזה אינו תלוי בפרמטר λ. תרגיל 2.2.48 מספר הכרטיסים הזוכים בחבילה בת מאה כרטיסי חיש גד מתפלג פואסונית, עם פרמטר λ. דוגמים חמש חבילות, ומספר הכרטיסים הזוכים בסך הכל הוא 20. מהו אומד הנראות המקסימלית ל λ? הסבר את התפלגות וקטורי המדגם בהנתן מספר הזוכים הכולל (שאותה חישבנו בסוף דוגמא 2.2.47). תרגיל 2.2.49 הראה שעבור ההתפלגות ) 2 N(µ, σ התלויה בפרמטר µ, כאשר σ קבוע וידוע, סכום המדגם הוא סטטיסטי מספיק. תרגיל 2.2.50 נתבונן במדגם בלתי תלוי מהתפלגות כלשהי, ) n.(x 1,..., X בהנתן הסכום,S = X 1 + +X n התוחלת של כל X i היא,E(X i S) = S/n ואינה תלויה בפרמטרים של ההתפלגות. האם זה אומר שהסכום תמיד מספיק? הדרכה. לא: התוחלת של כל רכיב אינה תלויה בפרמטר, אבל התפלגות הווקטור אולי כן. הגדרנו מתי סטטיסטי בודד הוא מספיק. כמו במקרים אחרים, אפשר להכליל את ההגדרה: הסטטיסטיים S 1,..., S k מספיקים במשותף אם בהנתן,S 1,..., S k צפיפות המדגם אינה תלויה בפרמטר. אפשר לקצר ולומר שהסטטיסטי (הרב ממדי) ) k (S 1,..., S מספיק. דוגמא 2.2.51 ערכי המדגם עצמו,,X 1,..., X n מספיקים במשותף. גם סטטיסטיי הסדר (n) X (1),..., X (הגדרה (1.2.37 הם מספיקים במשותף. 40