TECHNION -ISRAEL INSTITUTE OF TECHNOLOGY

TECHNION -ISRAEL INSTITUTE OF TECHNOLOGY הטכניון מכון טכנולוגי לישראל Faculty of Industrial Engineering and Management Technion City - Haifa 3 Israel הפקולטה להנדסת תעשיה וניהול קריית הטכניון - חיפה 333 Tel 4-89333, Fax: 4-888699 Statistics Laboratory פיתוח שיטת ניפוח לקבלת אמד נכון של מספר הנפגעים קשה בתאונות הדרכים בישראל מתוך המספרים המדווחים מאת: פרופ/ח אילה כהן, ד"ר אטי דובא וד"ר ויקטוריה גיטלמן המחקר ממומן על ידי קרן המחקרים בענייני ביטוח ליד אגוד חברות הביטוח בישראל אוגוסט 3

כל הזכויות שמורות לחוקר/ים ולמוסד הטכניון למחקר ופיתוח בע"מ כל המידע הכלול במסמך זה הוא קניינו הרוחני הבלעדי של מוסד הטכניון למו"פ בע"מ ואין להשתמש בו, באופן חלקי או מלא, אלא לאחר קבלת אישור בכתב מאת החוקר ו/או מוסד הטכניון למחקר ופיתוח בע"מ למען הסר ספק מודגש בזאת כי החוקר, מוסד הטכניון למחקר ופיתוח בע"מ והטכניון המכון הטכנולוגי לישראל - אינם ולא יהיו אחראים לכל פגיעה ו/או נזק ו/או הוצאות ו/או הפסד, מכל סוג ומין, שנגרם או עלול להיגרם לרכוש ו/או לגוף, כתוצאה ישירה או עקיפה, למקבל הדו"ח או לצד ג' כלשהו, עקב דו"ח זה או בהקשר אליו, לרבות בשל יישום האמור בו

תוכן עניינים הקדמה 4 סקר ספרות 8 על הדיווח בישראל 8 מחקרים בארצות שונות על רמות תת הדיווח 6 3 שיטות תיקון שיושמו 9 בסיס נתוני המחקר 8 הצגת מתודולוגית ה- Capture-Recapture ויישומה במחקר קודם לניפוח נתוני המשטרה 4 שיטת האמידה במחקר הנוכחי 6 5 אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים שהתקבלו בשתי השיטות 8 הנתונים 8 משתני המודל 3 83 תוצאות הרצת המודל 4 84 מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה 88 השוואת הסתברויות לכידה בשתי השיטות עבור נתוני 8 9 86 יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה, עבור נתוני 3 9 8 אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה, או כאשר משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה 3 6 סיכום ודיון 38 6 תועלות המחקר הנוכחי 38 6 הצעה להמשך מחקר: רווח סמך עבור המספר הכולל של נפגעים 38 מראי מקום 38 נספח: תוכנת 4SAS 3

הקדמה ברישומים של נפגעים קשה בתאונות הדרכים יש חסר הנובע מסיבות שונות לדיווח מוטעה על המספרים הנכונים של הנפגעים קשה יש השלכות שליליות שכן, תת-אמידה של המספרים עלולה להביא לאי-נקיטת אמצעים הנדרשים להקטנת היקף התאונות משגה כזה עלול להביא גם להגדלת מספר התאונות התוצאה היא לא רק נזקים אישיים בנפש וברכוש, אלא גם עלות גדולה יותר לכיסוי נזקי התאונות לפיכך, יש חשיבות בהערכה נכונה של מספר הנפגעים המחקר המתואר בדו"ח זה עונה על השאלה כיצד ניתן לאמוד את המספר הנכון של נפגעים קשה בדו"ח תוצג שיטה אשר יישמנו לניפוח מספרי הנפגעים קשה בתאונות הדרכים בישראל המדווחים על-ידי המשטרה הפיתוח התבסס על שלשה קבצי נתונים: קובץ "משטרה בלבד", "טראומה בלבד", ו-"משטרה וטראומה" הקובץ השלישי כולל רישום נפגעים המופיעים הן בקובץ המשטרה והן בקובץ הטראומה קבצים אלה )המתייחסים לשנת 9(, הועמדו לרשותנו מהלמ"ס השיטה מתבססת על פיתוחים שנעשו לאחרונה בתחום הסטטיסטיקה לפי עקרונות הידועים בשם: Capture-Recapture השיטות פותחו במקור עבור מחקרים ביולוגיים שמטרתם הייתה לאמוד גודל אוכלוסייה, כמו למשל, מספר דגים באגם תהליך איסוף הנתונים נעשה בדרך הבאה: "לוכדים" בשלב ראשון דגים מהאגם ברשת, רושמים את מספרם ומחזירים אותם לאגם לאחר שסומנו בשלב שני, שוב לוכדים ברשת מהאגם, ורושמים הן את מספר הדגים שעתה נלכדו ולא נכללו בלכידה הראשונה, והן את מספר אלה שנלכדו שוב על בסיס שלושת המספרים אומדים את מספר הדגים הכולל המצוי באגם לכן השיטה נקראת "לכידה ולכידה חוזרת" )Capture-Recapture( שימוש בשיטה של Capture-Recapture בוצע בעבר לאמידת המספר הנכון של תאונות/נפגעים מסוגים שונים, כאשר ישנם מספר מקורות לנתוני התאונות, למשל: תאונות דרכים, תאונות עבודה, תאונות של ילדים, פציעה עקב נשיכות של כלבים, ועוד ( ;993 al, Sacks et al,989; Chiu et Rossignol, 994; Johnson et al,997; Chang et al,997; Roberts & Scragg, 994) במחקר מקדים על בסיס נתוני שלושת הקבצים של שנת - 9 גיטלמן ודובא )9(, בוצע ניתוח של הנתונים, גם כן בדרך המבוססת על השיטה של Capture-Recapture במחקר הנוכחי נעשתה הרחבה המהווה שיפור לשיטה הקודמת אמנם, לנתוני המחקר שתי השיטות מניבות כמעט אותה תוצאה אולם, מטרת מחקר זה לא הייתה מצומצמת אך ורק לקבלת אמד נכון לנתוני 9, אלא לפתח שיטה שתשמש ליישומים אחרים לתוכנה שנבנתה וההסבר של השיטות יש תועלת לתחומים שונים שבהם יש אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי התוכנה אשר מובאת בנספח לדו"ח זה נכתבה אמנם ליישום השיטה על נתוני 9 אבל, ללא קושי, ניתן לבצע שינויים קטנים כך שניתן יהיה ליישמה לבעיה אחרת הדורשת ניפוח לקבלת אמד נכון בסוף הדו"ח יצוין היתרון שהושג בהרחבה, כמו גם הצעה להמשך מחקר זה 4

סקר ספרות על הדיווח בישראל בישראל כמו בארצות אחרות הסטטיסטיקה הרשמית על מספרי הנפגעים בתאונות הדרכים מבוססת על רישומים של המשטרה בעשור האחרון גדלה המודעות של החסר בדיווח זה ובעקבות זאת פותחו שיטות שונות לאמידה נכונה של מספרים אלה כאמור, בעיה זו אינה ייחודית לישראל כבר ב- 888, (999) Mysen Elvik & הציגו את אחוזי הדיווחים של נפגעים בתאונות דרכים שנזקקו לאשפוז כפי שדווחו ב- 48 מחקרים אשר בוצעו ב- 3 ארצות אחוזים אלה נעו בין % עד 99%, כאשר ממוצע משוקלל של אחוזים אלה היה 38% אחוזים אלה חושבו על-ידי השוואת המספרים בהתאם לרישומי המשטרה, לעומת הדיווח על בסיס מקורות מידע אחרים המקורות האחרים אליהם התייחסו ב- 48 המחקרים לא היו בהכרח מאותו סוג במחקרים שונים, כמו לדוגמה (4) Vaa Amoros et al (6),Elvik & נמצא שבדרך כלל אחוז הדיווח היה גבוה יותר עבור נפגעים בתאונות של כלי רכב, מעט נמוך עבור הולכי הרגל, נמוך יותר לרוכבי אופנוע, והכי נמוך לרוכבי אופניים באופן כללי נמצא שרמת הדיווח נמוכה יותר כאשר משווים תאונות של רכב יחיד לעומת תאונות עם מספר כלי רכב מעורבים, ובפרט כאשר מדובר ברכב על שני גלגלים הבעיה העיקרית הנובעת מתת הדיווח ולכן יש צורך בתיקונה, היא שהמספרים המדווחים משמשים בסיס לנקיטת פעולות בטיחות בדרכים על חיזוק הצורך הגדול בדיווח מדויק נכתב בדוחות של האיחוד האירופי ב- ולאחרונה, גם ב- ( OECD/ITF, )ETSC, ;7 כל המאמרים המתייחסים לנושא מציינים כי האפשרות להשתמש בכמה מקורות מידע מגדילה את האפשרות לקבל אמידה מדויקת יותר כהן במחקר מ- 4 )4 )Cohen, השווה נתוני תאונות של הלשכה המרכזית לסטטיסטיקה עם נתוני חברת הביטוח "אבנר" שברישומיה תועדו כל כלי הרכב עם ביטוח חובה עד לשנת נתוני הלשכה היו מהסוג הידוע בשם "תו דלת" אלו כוללים רק רישום תאונות של המשטרה שבהן היו נפגעים ושבהן התקיימו תנאים מסוימים לגבי סוג העבירה בתאונה, פער הזמן בין האירוע של התאונה והדיווח למשטרה, מספר הנפגעים, מספר כלי הרכב המעורבים בתאונה וכו' בעקבות הפער בין שני מקורות המידע הועלו מספר תהיות לגבי טיב הרישומים הרשמיים אשר מפרסמת הלשכה במחקרם ב- 4 פלג ואהרונסון-דניאל זיהו פערים משמעותיים בין המספרים שדווחו על-ידי המשטרה על מספר המאושפזים עקב תאונות דרכים לעומת הרישום של מרכז הטראומה ורפואה דחופה המנוהל במכון גרטנר ובו תיעוד של נפגעים שאושפזו ונפגעים אשר נפטרו בחדרי המיון עד לשנת 6 נתוני מרכז זה כללו רישום על נפגעים שאושפזו מעשרה מרכזי טראומה, אשר לפי אומדנים, כללו קרוב ל- 98% מכל המקרים בארץ המחקר הראה שלמשל בשנים 889- המספרים אשר דווחו על-ידי מרכז זה על בסיס דיווחים של 9 בתי חולים בלבד מתוך 4 בתי החולים בארץ, היו גבוהים מאלו של המשטרה זאת, למרות שדיווחי המשטרה כללו את כל הארץ לא מפליאה מסקנת מחברי המחקר שהחלטות על בטיחות חייבות להתבסס על נתונים ממספר מקורות 8

בעקבות מחקרם של פלג ואהרונסון-דניאל, בוצעה על-ידי הלשכה המרכזית לסטטיסטיקה ב- 8 השוואה מפורטת של נתוני המרכז לטראומה והנתונים המשולבים של המשטרה )נתוני "תו דלת" וקובץ נוסף הקרוי "כללי עם נפגעים"( נתוני מרכז הטראומה לא כוללים זיהוי אישי ואלו הושלמו מהתיעוד של מסמכי בתי החולים לאחר מכן התאימו בעזרת הזיהוי את הנתונים של מרכז הטראומה עם נתוני המשטרה כך התקבלו שלושה קבצים: האחד שכלל 34 רשומות היה של מרכז הטראומה, הקובץ המשולב כלל 43 רשומות וזה של המשטרה בלבד כלל 6 רשומות במחקרם הביאו החוקרים פירוט סטטיסטי על כל קובץ מה תרם לתת-דיווח בקובץ זה בין השאר מצאו החוקרים שמעל 9 נפגעים שדווחו כפצועים קל ע"י המשטרה אושפזו למעלה מ- 3 ימים הלשכה המרכזית דווחה על 86 פצועים קשה, בעוד כאשר נערכה אמידה של מספר זה על בסיס רישומי מרכז הטראומה שכללו 8 בתי חולים ולקיחה בחשבון של בתי החולים הנוספים בארץ, הוערך מספר זה כבין 3 ל- 46 החוקרים במאמר הגיעו למסקנה הברורה שברשומות המשטרה יש תת-דיווח של הנפגעים דוח מפורט של קבוצת עבודה מהארגון הבינלאומי בראשות פרופסור International - Wegman (IRTAD) - Traffic Safety Data and Analysis Group אשר הוגש ב- סקר את נושא דיווח הנפגעים ב- 3 ארצות שונות שהשתתפו בסקר אלו היו ארצות מתוך ארגון ה- OECD שכולן משתמשות בשיטות שונות לניצול מספר מקורות מידע על מנת לקבל אומדנים יותר נכונים על מספרי הנפגעים ישראל היא בין הארצות הללו אחת השאלות לגבי דיוק הדיווח קשורה בהגדרת סוג הפגיעה כפי שהוצג בדו"ח, קיימים הבדלים בהגדרות בין הארצות השונות, כמו גם הבדלים במקורות הדיווח כמצופה, דוחות המשטרה היוו את מקור הנתונים העיקרי לדיווח על מספרי הנפגעים קשה בכל הארצות שהשתתפו בסקר ברובן, הנתונים דווחו ברמה הארצית פרט לארצות גדולות במיוחד כמו אוסטרליה, קנדה וארה"ב שדיווחן היה ברמה של אזור או מדינה רק 8 מתוך 3 הארצות השתמשו בנתוני אשפוזים בבתי חולים כמקור מידע נוסף על נפגעים קשה במספר ארצות כגון: אוסטרליה, פינלנד, גרמניה, יפן, צוין שלא הייתה נגישות לנתונים אלה לעומת זאת, ישראל צוינה בין הארצות עם גישה ושימוש בנתונים של בתי חולים לדיווח על פגיעות חמורות כמו כן, צוין שסה"כ רק 4 ארצות, מתוכן ישראל וכן הולנד, פינלנד ושוויץ, משתמשות בנתונים מחברות ביטוח כמקור מידע נוסף אולם, כולן ציינו שנתונים אלה אינם בעלי אמינות גבוהה רק ישראל והולנד צוינו בדו"ח על שימוש בתיעודי תמותה כמקור נוסף לתיקון דיווחי המשטרה על השימוש בנתוני שירותי פינוי והצלה )מד"א בישראל( כמקור מידע נוסף על נפגעים בתאונות צוין שבעוד במספר ארצות נתונים אלה זמינים וכבר בשימוש לדיווח, הרי ישראל רק מתכננת שימוש בעתיד במקור זה לגבי ניסיון בשימוש משולב של נתוני בתי חולים ומשטרה עבור דיווח, צוינו 6 ארצות כבעלות ניסיון וביניהן ישראל מחקרים בארצות שונות על רמות תת הדיווח לפי סקר שבוצע על ידי (7) Mak Derriks & על מדינות הOECD לגבי תת הדיווח של נפגעי תאונות דרכים, התאמת רשומות של נתוני משטרה עם רשומות בתי החולים מתבצעת באוסטריה, בריטניה, שוודיה והולנד 6

מחקר בקנדה בוצע בפרובינציה אחת בלבד ובו נמצאה התאמה בין רשומות המשטרה לבין בתי החולים ב % מהמקרים )3, )Gutoskie דוגמה לשימוש בשיטה הלא הסתברותית היא עבודתו של (984) Stone על נתונים מסקוטלנד הקישור שנעשה בעבודה זו היה עבור שנת 89 בין נתוני 8 תחנות משטרה לבין בתי חולים הקישור בין הקבצים נעשה על בסיס אזור גיאוגרפי, מין וגיל הנפגע, סיווגו )נהג למשל(, חומרת הפציעה, יום ושעת הקבלה בבית החולים לכל משתנה הוגדר תחום ערכים מתאים המצדיק את החיבור לפי (984) Stone ל % מנתוני בתי החולים נמצאו רשומות שניתן היה להתאים לנתוני המשטרה שימוש בשיטה אשר פיתח (984) Stone בוצע על ידי (996) Simpson הוא התאים נתוני מדגם של 6 בתי חולים בבריטניה על נפגעי תאונות דרכים עם נתוני המשטרה עבור כמחצית מהנפגעים שהגיעו לבתי החולים נמצאו גם רשומות בדוחות המשטרה לאותם מקרים הייתה הסכמה באבחנה הרפואית רק ב 6% הערכת המחבר על ידי השוואות של מאפייני הפגיעות והנפגעים שכדי לקבל מספרים נכונים יותר על המספר הארצי של הפגיעות החמורות יש להכפיל את המספר המדווח בפקטור של 6 ואת מספר הפגיעות הקלות בפקטור של בהולנד האמידה של נפגעים מבוצעת על-ידי התאמת רשומות המשטרה ובתי החולים בגלל שמירת פרטיות החולים אין מידע על השמות ההתאמות מתבצעות על ידי התאמת פרטים כמן תאריך לידה, מין, ומועד התאונה התאמות אילו מבוצעות כל חמש שנים והממצאים משמשים לאמידה עבור כל שנה )3, )Gutoskie על בסיס ההתאמות שבוצעו בין השנים 88 לבין 3 פתחו Reurings (7) al et שיטת תיקון לחישוב האמד השנתי המתוקן עבור השנים שבהן לא בוצעה התאמה בין רישומי שני המקורות במחקר שנעשה על-ידי (995) Rosman על התאמות בין רישומי בתי החולים והמשטרה במערב אוסטרליה זוהו 8% מקרים כאשר השתמשו בזיהוי הנפגע על ידי קוד פונטי של שם משפחתו, כמו גם הגיל, מין, תאריך התאונה וסוג הדרך לולי השימוש בשמות ניתן היה לזהות רק 8% במחקר מאוחר יותר () al Lopez et בדקו באותו אזור את העקביות בדיווח של המשטרה לעומת הרישום במרכזי הטראומה לגבי תוצאות התאונה מתוך 48 מקרים של פגיעות ברישומי טראומה של שני בתי חולים רק 9% תאמו את רשומות המשטרה המחקר אושש את ההשערות המקובלות על תת דיווח גדול יותר עבור פגיעות הולכי רגל )רק 9% היה מתועד במשטרה( () Langley Alshop & בדקו במחקרם על נתונים בניו-זילנד של שנת 888 את תת הדיווח של המשטרה ובפרט, את הקשר בין מאפייני הפגיעות לבין רמת התת דיווח לפי מחקרם, עבור פחות משני שלישים מהנפגעים אשר אושפזו היה רישום בדוחות המשטרה, ואחוזי הדיווח היו שונים כאשר השוו נפגעים לפי סיווגים כמו חומרת הפגיעה, משך אשפוז, גיל הנפגע ואזור גיאוגרפי של התאונה במחקר על נתונים בצרפת (7,6) al Amoros et ביצעו בעזרת שיטה חצי אוטומטית התאמה בין נתוני משטרה לנתוני רישום טראומה באזור Rhone המשתנים שהיוו בסיס לקישור היו יום וזמן התאונה, מיקומה, סוג הדרך, מין ותאריך לידת הנפגע

על נתונים בהונג-קונג בוצע מחקר על-ידי (9) al Tsui et החוקרים העריכו את ההתאמה בין רישומי המשטרה על חומרת פגיעות ואורך האשפוז, כאשר השוו את דוחות המשטרה עם אלו של בית החולים האזורי לפי ממצאיהם היה הבדל משמעותי בין שני מקורות הדיווח, כאשר במשטרה העריכו באופן יותר חמור את הפגיעה כמו כן, הם מצאו שהדיווח השגוי היה קשור במאפיינים שונים כמו למשל גיל הנפגע שיטות תיקון שיושמו מקובלות כיום מספר שיטות לשימוש בכמה מקורות מידע כדי לקבל דיווח יותר נכון מקובל להשתמש במונח,LINKAGE כאשר המקור למונח זה היה המאמר של (959) Newcombe מאמרו שימש בסיס לשימוש במספר מקורות מידע במחקרים רבים באפידמיולוגיה מסווגים את השיטות לשיטה ידנית, דטרמיניסטית והסתברותית בשיטה הידנית מתבוננים ברשומות השונות ומחפשים התאמות ביניהן זו שיטה גרועה שכן היא איטית ויש בה סיכוי גדול יחסית לטעויות היא מעשית רק כאשר מדובר במספר רשומות קטן יחסית גם לשיטה הדטרמיניסטית יש מגבלות בשיטה זו, הנעזרת במחשב, מקשרים על-ידי התאמה בין רשומות, כאשר ההתאמה מבוצעת לפי משתנה מסוים המתועד בשני המקורות )כמו מספר תעודת הזיהוי( שיטה זו תלויה מאד באיכות התיעוד של המשתנה המתועד בשני המקורות, ולעתים רחוקות היא ישימה לכן, יש עדיפות ליישם שיטות הסתברותיות )CR( Capture Recapture בשיטה ההסתברותית, שתי הגישות לתיקון הן השיטה וניתוח רב משתני את השיטה הראשונה מיישמים כאשר קיימים מספר מקורות מידע על אותה אוכלוסייה התאמה בין המקורות מזהה רשומות משותפות, וגם רשומות המופיעות במקור אחד אך לא באחרים שיטה זו מקובלת ושימשה במחקרים רבים בעבר בתחומים אחרים כמו ביולוגיה ואפידמיולוגיה בעשור האחרון החלו ליישמה גם במחקרים בתחום התחבורה לאמידת מספרי נפגעים החיסרון בשיטה זו לגבי יישומה לנתוני תאונות הדרכים הוא שההנחות הבסיסיות בשיטה זו אינן תמיד תקפות עבור נתונים אלה למשל: ההנחה שלכל פגיעה יש אותה הסתברות להיות מדווחת דוגמא לכך ניתנה במחקרם של () al Javis et אשר ניתחו נתוני משטרה ובתי חולים עבור ילדים שנפגעו מכלי רכב הם הראו הטרוגניות במובן זה שעבור גילים שונים של נפגעים היו הסתברויות שונות שידווחו כמו גם לסוגי פגיעה וסוגי דרך שונים בדומה לכך, גם () Stone Morrison & דנו שיש לנקוט בזהירות בשיטת תיקון זו דרכים להתגבר על הבעייתיות ביישום השיטה של CR הוצעו על ידי Tersero & Andersson (4) וכן על-ידי (7) al Amoros et הם יישמו את שיטת הCR על נתוני משטרה שחוברו לנתוני בית חולים, דנו בכל הנחה שבבסיס השיטה, והציעו דרכים מעשיות לטפל בנתונים כדי שיתאימו ליישום שיטת הCR למשל, כדי להתגבר על בעיית הנחת שוויון ההסתברויות Amoros et (7) al יישמו את השיטה על תת קבוצות שהוגדרו לפי חומרת פגיעה, סוג הדרך, ומעורבות צד שלישי כמו כן, הם ביצעו ניתוח רגישות ע"י יישום שלוש שיטות התאמה בין הקבצים 9

לאחרונה, () Stipdonk Reurings & גם כן הציעו גרסה מתקנת לשיטת הCR ויישמו אותה לנתוני נפגעים בהולנד של השנים 883-9 הם ביצעו ניתוח מעמיק על ההבדלים בין הרישום במשטרה לבין דוחות בתי החולים לגבי 9 מסקנתם הייתה שהמספר החסר של פגיעות חמורות ברישום בתי החולים היה שולי יחסית למספר הכולל שהיה בערך 9 התוצאה של אי התחשבות בערכים חסרים אלה מביאה לטעות נמוכה יחסית למה שהיה מתקבל לו היו מוסיפים את המקרים אשר בדיווח המשטרה ולא היו ברישום בתי החולים יישום השיטה של ניתוח רב משתני נעשה לדוגמה על ידי (6) al Amoros et עבור נתוני השנים 88- באזור Rhone אשר בצרפת הם אמדו כפונקציה של מאפייני התאונה והפגיעה את ההסתברות שנפגע אשר נרשם ברישומי הטראומה יופיע גם בדוחות המשטרה מסקנתם הייתה שבאופן כלל, אחוז הדיווח של המשטרה היה 3% בלבד הבדלים מובהקים באחוזים נמצאו כאשר בוצעו השוואות בהתאם לסוג הפגיעה ומאפייני התאונה על ההבדלים הללו דווחו בעבר במחקריהם של (988) Hakkert Elvik & Mysen (999),Hauer & בסיס נתוני המחקר קבצי הנתונים למחקר זה הם אותם הנתונים ששימשו במחקר קודם של גיטלמן ודובא )( הקבצים התבססו על עבודה מקדימה של הלמ"ס - שילוב מידע מבתי חולים )רישום הטראומה( עם קובץ נתוני תאונות הדרכים של המשטרה, בשנת 9 הקבצים כוללים שלשה סוגי נתונים שהם: נתוני הקובץ המשולב "משטרה וטראומה", נתוני קובץ "טראומה בלבד", ונתוני קובץ "משטרה בלבד" 8,343 - קובץ A )"משטרה וטראומה"( רשומות נפגעים הנכללים בקובץ המשטרה וגם בקובץ הטראומה; קובץ B )"טראומה בלבד"( -,364 רשומות נפגעים שמופיעים רק בקובץ הטראומה ולא נמצאו להן רשומות מקבילות בקובץ המשטרה; קובץ C )"משטרה בלבד"( - 89 רשומות של פצועים קשה שנמצאו רק בקובץ המשטרה ולא נמצאו להן רשומות מקבילות בקובץ הטראומה בנוסף, היה נתון קובץ D המכיל 48 רשומות של הרוגים שנמצאו רק בקובץ המשטרה ולא נמצאו להן רשומות מקבילות בקובץ הטראומה הנתונים מקובץ הטראומה מתייחסים ל- בתי החולים בלבד )מתוך 3 בתי החולים במדינה( ע"פ הערכות, קובץ זה מכסה יותר מ- 9% מהפצועים בתאונות הדרכים הקבצים כוללים נפגעים מכל הארץ, לרבות במחוזות יו"ש 8

הצגת מתודולוגית ה- Capture-Recapture לניפוח נתוני המשטרה ויישומה במחקר קודם הבסיס לפתרון הבעיה של אמידת המספר הנכון של נפגעים הוא שימוש ברעיון של שיטת ה -CR Capture Re-capture נתאר בקצרה את השיטה כדי להסביר את המחקר הנוכחי השיטה מבוססת על שתי הנחות ההנחה הראשונה היא שההסתברות ללכידה )Capture( ע"י מקור מסוים שווה עבור כל פרט באוכלוסייה ההנחה השנייה היא ההומוגניות אותה ניתן להסביר במספר דרכים, שאותן נביא )אם הנחה זו לא מתקיימת, מחלקים את הנתונים לתת-קבוצות הומוגניות ועליהן מפעילים את השיטה( נגדיר: = P נתוני משטרה )צהוב( = H נתוני טראומה )כתום( = P נתוני לא משטרה = H נתוני לא טראומה מכאן: = PH נתונים שגם במשטרה וגם בטראומה )הקובץ המשולב( = PH נתונים שבטראומה בלבד = PH נתונים שבמשטרה בלבד PH PH = PH נתונים שלא במשטרה ולא בטראומה את הנתונים ניתן לתאר באופן הבא: PH PH H P H דרך הצגה נוספת: דרישת ההומוגניות הבסיסית היא שההסתברות ללכידה )Capture( ע"י מקור מסוים שווה עבור כל פרט באוכלוסייה, ובנוסף פרופורציית הנפגעים )מתוך הקובץ המשולב( המדווחים גם ע"י המשטרה

מקרב הנפגעים המדווחים בקובץ טראומה, שווה לפרופורציית הנפגעים המדווחים ע"י המשטרה מסך כל התאונות כלומר : PH H P Total לעיתים, הנחת ההומוגניות מנוסחת כ- PH PH PH PH כלומר: היחס בין הנפגעים שלא מדווחים הן ע"י המשטרה והן ע"י טראומה )"התא החסר"(, לאלה שמדווחים ע"י המשטרה אך לא ע"י טראומה )"משטרה בלבד"(, שווה ליחס בין אלה שמדווחים ע"י טראומה אך לא ע"י המשטרה )"טראומה בלבד"( לאלה שמדווחים ע"י טראומה ומשטרה )נתוני קובץ משולב( בניסוח זה מוגדרים ארבעה מקטעים זרים של הנתונים, והקשרים ביניהם נראה ששתי הנחות אלה אקוויוולנטיות PH P H Total Total PH PH PH PH P PH PH; H PH PH PH * PH PH PH PH PH PH * PH PH דרך אחרת להציג ולהבין את הנחת ה- CR היא: PH PH PH PH PH H PH Total Pˆ r( P H ) Pˆ r( P / H ); H Total Pˆ r( H ) P Total P Total Pˆ r( P) CR Pˆ r( P / H ) Pˆ r( P) ; הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של המשטרה, נקרא גם הסיכוי שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה מתוך כל הנפגעים ( the police capture )probability הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של הטראומה, נקרא גם הסיכוי שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י הטראומה מתוך כל הנפגעים ( capture the trauma )probability הסיכוי לכך שבהינתן שנפגע כלשהו מופיע בין תפיסה ראשונה( הוא הנפגעים שנרשמו בקובץ טראומה )= נתון שנתפס יופיע גם בקובץ הנפגעים של המשטרה, נקרא גם הסיכוי להילכד מחדש ע"י המשטרה probability( )the police re-capture

הנחת ההומוגניות, המכונה במסמך זה גם כהנחת ה- RC )Capture-Recapture( אומרת שהסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה, שווה לסיכוי שאם נפגע כלשהו נלכד ע"י טראומה הוא יילכד גם ע"י המשטרה מהנחת ה- CR נובע גם: PH P H Total Total P * PH H where CF PH H P * CF Pˆ r( P / H ) כאשר: CF = Correction Factor כלומר, מקדם התיקון לנתוני המשטרה, אם מתקיימת הנחת ה- RC, הוא חלקי פרופורציית הנפגעים בקובץ המשולב מתוך סך הנפגעים המדווחים ע"י רישום הטראומה, שזה שווה בעצם ל- חלקי ההסתברות המותנית של נפגע להיות מדווח ע"י המשטרה בהינתן שהוא דווח ע"י טראומה כאשר ˆPr( P/ H) דרך נוספת להבנת הנחת ה- CR : מחושב באמצעות מודל, משמש H) / Pr( ˆ P/ כגורם תיקון לנתוני המשטרה ˆPr( P H) ˆPr( P / H ); ˆPr( H ) CR Pr( ˆ P / H ) Pr( ˆ P) Pr( ˆ P H ) Pr( ˆ P)*Pr( ˆ H ) - כלומר, הנחת ה- CR שקולה להנחת אי-תלות המקורות, המשטרה והטראומה ראה, לדוגמה, )888( בשל הנחה זאת ניתן לחשב את (P ˆPr(, כלומר, את ההסתברות של Tilling & Sterne נפגע להילכד ע"י המשטרה, תוך שימוש בנתוני שלושת סוגי הנתונים )משטרה בלבד, טראומה בלבד וחיתוך המשטרה והטראומה(, ואז להשתמש ב- (P / Pr( ˆ כגורם תיקון לנתוני המשטרה כל אחת משתי הדרכים להבנת הנחת ה- CR המשטרה: מובילה לחישוב שונה של גורם התיקון לנתוני ˆPr( P/ H) דרך א' - מובילה לפיתוח מודל לקביעת, תוך שימוש בנתוני הטראומה, ואז ניפוח נתוני המשטרה ע"י H) / Pr( ˆ P/ ;

ˆPr( P) דרך ב' - משתמשת בנתוני משטרה וטראומה לפיתוח מודל לקביעת, ואז ניפוח נתוני משטרה על ידי P) / Pr( ˆ בדרך א', משתמשים בנתוני הטראומה, הן מהקובץ המשולב והן מקובץ הטראומה בלבד, לשם פיתוח מודל לקביעת ההסתברות ללכידת נפגע קשה ע"י המשטרה בעבודה קודמת של גיטלמן ודובא () יושמה דרך א' כלומר, נתוני הטראומה ונתוני החיתוך של טראומה ומשטרה שימשו להערכת ההסתברות לדיווח על-ידי המשטרה, כאשר ההנחה היא שההסתברות המותנית של דיווח על-ידי משטרה, מותנה בכך שהיה דיווח על-ידי טראומה שווה להסתברות לדיווח על-ידי משטרה לא נעשה שימוש בנתונים שדווחו על-ידי המשטרה בלבד )ולא דווחו על-ידי טראומה(, אלא הם רק נופחו בעבודה הנוכחית נוצלו שלושת חלקי המידע שיש: נתונים שדווחו על-ידי המשטרה והטראומה, נתונים שדווחו על-ידי הטראומה בלבד ונתונים שדווחו על-ידי המשטרה בלבד על בסיס העיקרון של שיטה א', גיטלמן ודובא () שתיארנו, להערכת מספר נפגעים קשה בתנאי הארץ: פיתחו שני כלים אותם יישמו עבור הנתונים )א( מודל False-Positive המחשב הסתברות לדיווח שגוי על נפגע קשה ע"י המשטרה והמאפשר ניכוי של מספר נפגעים קשה שזוהו ע"י המשטרה ולא אומתו ע"י רישום הטראומה )הנפגעים קל שבטעות זוהו כנפגעים קשה ע"י המשטרה(; )ב( מודל להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה, בהינתן שנפגע קשה נמצא ברישום הטראומה מודל א': מודל זה נעזר בארבעה משתנים מסבירים, לפי הקטגוריות של סוג רכב, סוג תאונה, יום בשבוע ויחידת המשטרה מודל ב': להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה, בהינתן שנפגע קשה נמצא בקבצי הטראומה מודל זה מאפשר תיקון של תת-הדיווח בנתוני המשטרה - ניפוח מספר הנפגעים קשה שדווחו ע"י המשטרה בעזרת הנתונים מרישום הטראומה לפיתוח מודל זה היה צורך לאתר גורמים המשפיעים על ההסתברות של נפגע קשה הנמצא בקובץ טראומה, להיות מזוהה כנפגע קשה ע"י המשטרה זו ההסתברות המותנית של תפיסה ע"י המשטרה בתנאי שהייתה תפיסה ע"י טראומה, ומכונה כ"הסתברות תפיסה מחדש" ע"י המשטרה ( Recapture )probability הגורמים המשפיעים עליה אותרו באמצעות מודל הקושר בין הגורמים להסתברות ומתבסס על תצפיות מקבצי הטראומה בסוף התהליך המודל אמור היה לפעול על נתוני המשטרה לכן היה צורך באיתור מאפייני הנפגעים המשותפים לשני סוגי הקבצים פיתוח המודל היה דו-שלבי בשלב הראשון, נבחנו קשרים בין מאפייני הנפגעים קשה בטראומה ובמשטרה ונמצאו משתנים כאלה שעשויים להיות משמעותיים בקביעת ההסתברות ללכידה )חוזרת( ע"י המשטרה, כאשר הם ניתנים לשחזור מלא בנתוני הטראומה על סמך הנתונים בקובץ המשטרה בשלב השני, משתנים מלאכותיים כאלה )הקבצות קטגוריות של מאפייני הנפגעים( שנמצאו בשלב הראשון שימשו לצורך בחירת המודל 3

שעל-פיו נאמדו הסתברויות הלכידה ע"י המשטרה לבחינת הקשרים בין מאפייני הנפגעים בטראומה ובמשטרה שימש הקובץ המשולב; לפיתוח מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י המשטרה שימשו נתונים משני קבצים: הקובץ המשולב וקובץ טראומה בלבד )סה"כ 883 רשומות על נפגעים קשה לפי הטראומה( להערכת הסתברות הלכידה ע"י המשטרה שימשו בסוף מאפיינים אלה: מגדר הנפגע, קבוצת גיל הנפגע, יחידת המשטרה, סוג דרך, סוג תאונה, סוג נפגע, וקטגוריות נפגע המשקפות בעיקר את סוג הרכב בו נסע הנפגע שני המודלים במחקר היו של רגרסיה לוגיסטית יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה: שתי פעולות בוצעו במחקר של גיטלמן ודובא () לאמידת המספר הכולל של נפגעים קשה, על סמך קובץ המשטרה, )א( תוקנו מקרי ה- Positive - False מקרים של דיווח שגוי ע"י המשטרה, בעזרת מודל א'; )ב( נופחו מספר המקרים שנותר על סמך הסתברויות הלכידה ע"י המשטרה, בעזרת מודל ב' לכל רשומה של נפגע קשה שדווח ע"י המשטרה, חושב ערך p_final המהווה "מספר כולל" )או אמיתי( של נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה ערך זה נאמד באופן הבא: p_final = p_tp * (/p_catch) p_tp = - p_fp כאשר ;)TP - true-positive( הסתברות לדיווח נכון ע"י המשטרה - p_tp - p_fp הסתברות לדיווח שגוי ע"י המשטרה Positive(,)FP - False לפי מודל א'; - p_catch הסתברות לכידה ע"י המשטרה, לפי מודל ב' הגדלים הללו )p_final( סוכמו על פני כל הנפגעים קשה שבקובץ המשטרה וכך התקבל אמד למספר הכולל של נפגעים קשה, בשנה מסוימת נצטט את הדוגמה שהובאה במחקר של גיטלמן ודובא )( לגבי ההיגיון שבשיטה הנ"ל הדוגמה נבנתה למקרה פשוט בו לכל הנפגעים יש אותה ההסתברות להיות מדווח נכון ולכולם אותה הסתברות הלכידה נניח שבקובץ נפגעים קשה של המשטרה היה דיווח על נפגעים, והסיכוי ל- true-positive לכל נפגע היה 8, אזי מצפים ל- 8 נפגעים קשה שדווחו נכון אם מניחים גם למשל שהסתברות הלכידה של נפגע קשה אמיתי ע"י המשטרה היא /3, הרי שכל אחד מ- 8 הנפגעים של המשטרה מייצג 3 נפגעים אמיתיים מכאן מנבאים שסה"כ יש נפגעים קשה לכן, ניתן לומר שכל נפגע הוא בעצם 8 לפי הסתברות הTP, ושה- 8 נפגע מיצג (/3)/*9= נפגעים; חיבור גודל זה על פני כל הנפגעים מקובץ המשטרה, נותן את האומדן של נפגעים כמספר כולל 4

למעשה, ערך ה- p_tp מהווה מקדם תיקון, בעוד שערך ה-( /p_catch ) רשומה של נפגעים קשה בקובץ המשטרה מהווה מקדם ניפוח - לכל בשיטה זו בוצעה הערכה של המספר הכולל של נפגעים קשה בשנת 9 והתקבלו תוצאות כלהלן: מספר הנפגעים קשה שדווח ע"י המשטרה היה N=; בעקבות הפעלת מודל א' והסתברויות הTP, מספר הנפגעים קשה תוקן ל- =; N TP בעקבות הפעלת מודל ב' של הסתברות הלכידה ע"י המשטרה המספר הכולל של נפגעים קשה עלה ל- 679= N final לפי הערכת החוקרות באותו מחקר בממוצע, 86% מהנפגעים קשה של המשטרה היו מדווחים נכון, כאשר המספר האמתי של נפגעים קשה בתאונות היה גבוה פי 38 לעומת דיווח המשטרה מחקרן גם הראה שהחסרים בדיווחי המשטרה אינם אחידים בעוד המספר הכולל של נפגעים קשה היה, בממוצע, גבוה פי 3 לעומת דיווח המשטרה, הרי, לדוגמא, המספר האמיתי של נפגעים קשה הולכי רגל היה, לפי הערכתן, גבוה פי 8 לעומת דיווח המשטרה, בעוד שהמספר הכולל של נפגעים קשה רוכבי אופניים גבוה פי 88 בין נפגעים קשה הולכי רגל, תת-דיווח מרבי נמצא בקרב הנפגעים בצומת עירוני )המספר האמיתי של נפגעים קשה גבוה פי 9 לעומת המספר המדווח ע"י המשטרה( ובקרב ילדים עד גיל 4 )המספר האמיתי של נפגעים קשה גבוה פי 3 לעומת המספר המדווח ע"י המשטרה( 8

4 שיטת האמידה במחקר הנוכחי כפי שצוין, בעבודה זאת ניצלנו את שלושת חלקי המידע שיש כלומר: נתונים שדווחו גם על-ידי הטראומה, נתונים שדווחו על-ידי הטראומה בלבד ונתונים שדווחו על-ידי המשטרה וגם על-ידי המשטרה בלבד השיטה לאמידת המספר הנכון מבוססת על המודל המולטינומי (999 Tilling, (Alho,99; בסעיף זה נפרט את השיטה ניתן להציג את הנתונים בצורה הבאה: טראומה משטרה סה"כ יש נתונים אין נתונים N+N N N אין נתונים N+N3 N3 N יש נתונים N+N+N+N3 N+N3 N+N סה"כ נסמן ב- i ההסתברות שנבדק את i יופיע ברשומת הטראומה, ב- i את ההסתברות שנבדק i i ההסתברות שנבדק את i3 יופיע ברשומת המשטרה, ב- יופיע הן ברשומת הטראומה והן ברשומת i המשטרה וב- את i ההסתברות שנבדק לא יופיע באף אחת משתי הרשומות כל אחת מההסתברויות הללו תלויה בקבוצת משתנים מסבירים את וקטור ערכי המסבירים לנבדק i נסמן ב- x i סביר להניח בהינתן וקטור המסבירים, שיש אי-תלות בין ההסתברות לנבדק להיות רשום ברשומה האחת, לבין ההסתברות להיות כלול ברשומה השנייה לכן: i(x i) [ i(x i)][ i(x i)] i3(x i) i(x i) i(x i) להתפלגות של משתנה קטגורי מקובל השימוש במודל הלוגיסטי לפי זה: exp( k x ) (x ) j=, exp( k x ) ולכן: ' j j i ij i ' j j i i(x i ) ' ' exp( kx i) exp( kx i) 6

' ' exp( kx i) exp( kx i) i3(x i ) ' ' exp( kx i) exp( kx i) ' ' exp k k xi ' ' exp( kx i) exp( kx i) אין בידינו את הנתון N כלומר, הידע על מספר הנבדקים שאינם מופיעים באף רשומה אולם אמידת הפרמטרים המבוקשים מתאפשרת על-ידי שימוש ב- likelihood conditional maximum שהיא הנראות המותנית בכך שנבדק מופיע ברשומה כלשהי כפי שהוכח במאמר Sanathanan (97), אמדי הפרמטרים שמתקבלים שווים אסימפטוטית לאלה המתקבלים על-ידי שימוש ב- maximum likelihood מעשית פרושו שמשתמשים בנתונים רק של נבדקים המופיעים ברשומות ונבדקים אלה מחולקים לשלוש קטגוריות פונקצית הנראות המולטינומית לוגיסטית המותנית כוללת הסתברויות מותנות בלבד של שלוש הקטגוריות בגלל ההתנייה, נבדק יכול להיות שייך לאחת משלוש קטגוריות: או שהוא אך ורק כלול ברשומת הטראומה ולא במשטרה, או שהוא כלול אך ורק ברשומת המשטרה ולא בטראומה, או שהוא כלול בשתי הרשומות i נסמן ב- p i את ההסתברות המותנית שנבדק יופיע ברשומת הטראומה בלבד, ב- p i את p i3 וב- ההסתברות המותנית שנבדק i יופיע ברשומת המשטרה בלבד, את ההסתברות המותנית שנבדק i יופיע בשתי הרשומות לכן: p (x ) i i 3 j p (x ) ij לפי הגדרות אלה: (x )[ (x )] (x )[ (x )] (x )[ (x )] (x ) (x ) i i i i i i i i i i i i i i i i i exp( k x ) exp( k x ) exp( k x ) exp[( ) (k x k x )] ' i ' ' ' ' i i i i exp( k x ) exp( k x ) exp( k x ) exp[( ) (k x k x )] ' i i i ' ' ' ' i i i i p (x )

exp[( ) (k x k x )] exp( k x ) exp( k x ) exp[( ) (k x k x )] ' ' i i i3 i ' ' ' ' i i i i p (x ) נפרט, כמו במאמר של (999) Tilling את דרך האמידה על-ידי שימוש בשיטת האמידה של מודל מולטינומי לוגיסטי מתקבל: exp( k x ) נחלק את המונה והמכנה של כל אחד מהביטויים שלמעלה בביטוי: ' i p (x ) i i exp k ' k ' x exp k ' x i i ' ' exp k kxi i i p i(x i ) ' ' ' exp k k x exp k x ' exp kxi p i3(x i ) ' ' ' exp k k x exp k x i i במחקר זה בוצעה האמידה של המודל - model generalized logit בעזרת הפרוצדורה LOGISTIC של,SAS על-ידי שימוש באופציה link=glogit ב- statement model המודל הוא לוגיסטי מוכלל model(,)generalized logit עם שלוש קטגוריות, כאשר אחת מהן, הינה קטגורית הייחוס אם נבחר כקטגורית הייחוס את קטגוריה, )קובץ טראומה( נקבל שההסתברויות לקבלת קטגוריה j הן: ' ' exp( x i) exp( 3 3x i) p (x ) ij i ' exp( j jx i) ' ' i 3 3 i exp( x ) exp( x ) j= j=,3 השוואת הביטויים להסתברויות j=,,3 p (x ) מראה ש: ij i k 3 k 3 k ראינו ש: 9

= i(x i ) ' j=, ' exp( kx i) exp( kx i) ניתן גם לכתוב ביטוי זה : exp[( ) (k k )x ] (x ) = {exp[( ) (k k )x ] exp( k x )}[ exp( k x )] ' ' i i i ' ' ' ' i i i exp( x ) ' i ' ' ' exp x i exp( 3 3x i ) [ exp( 3 3x i)] בהתאם לסימון שלנו, ההסתברות להיכלל ברשומת המשטרה היא: exp( k x ) exp( k x ) ' i i(x i ) ' i ולכן בסימון לפי המודל המולטינומי לוגיסטי: exp( x ) exp( x ) ' 3 3 i i(x i ) ' 3 3 i לכן, לכל נבדק ברשומת המשטרה, ניתן לאמוד את ההסתברות להיכלל ברשומה זו: exp( ˆ ˆ x ) ˆ (x ) exp( x ) ' i i 3 3 i ˆ ˆ' 3 3 i בהתאם לכך, ייאמד מספר הנפגעים המבוסס על רשומת המשטרה על ידי: ˆN NN3 i ˆ (x ) לסיכום: במודל המולטינומי, שנאמוד כאשר טראומה היא קטגורית הייחוס, אזי: הקטגוריה 'S_trau' היא קטגורית הייחוס )קטגוריה לפי הסימון הקודם(, הקטגוריה 'S_poli' היא הקטגוריה השניה )קטגוריה לפי הסימון הקודם(, הקטגוריה '' היא הקטגוריה השלישית )קטגוריה 3 לפי הסימון הקודם( i i generalized logit החותך ומקדמי הרגרסיה של המשתנים המתאימים לקטגוריה '' ב- ˆ 3, בהתאמה ˆ 3 ו- model הם למעשה SAS מסדר את הנתונים בסדר הבא: 8

Response Profile Ordered Total Value y_multi Frequency 67 S_poli 58 3 S_trau 3546 Logits modeled use y_multi='s_trau' as the reference category הקטגוריה 'S_trau' היא קטגורית הייחוס המטרה היא לאמוד אם כנדרש הכללי על-ידי השלמת המספרים החסרים בקובץ המשטרה אזי נשתמש בנוסחה: את מספר הנפגעים ˆ (x ) i i ˆN NN3 i ˆ (x ) i לאמידת ההסתברויות )בעלת הערך המסודר הראשון( שהם- 3 ו ˆ משתמשים בחותך ומקדמי המשתנים של הקטגוריה '' ˆ 3 - בנוסחה: exp( ˆ ˆ x ) ˆ (x ) exp( x ) ' i i 3 3 i ˆ ˆ' 3 3 i כלומר, במודל המולטינומי שבו הקטגוריה 'S_trau' היא קטגורית הייחוס: exp( ˆ ˆ x ) ˆ (x ) exp( x ) ' s _ both s _ both i i _ police i ˆ ˆ' s _ both s _ both i i מכאן: ' exp( ˆ s _ both ˆ s _ bothx i ) ˆ ˆ ' exp( s _ both s _ bothx i) logit ˆ i _ police(x i ) log = ' exp( ˆ ˆ s _ both s _ bothx i ) ˆ ˆ' exp( s _ both s _ bothx i) ˆ ˆ' exp( s _ both s _ bothx i ) ˆ ˆ ' exp( s _ both s _ bothx i ) ' log ˆ ˆ =log exp( s _ both s _ bothx i ) = ˆ ˆ' exp( s _ both s _ bothx i ) ˆ ˆ' x s _ both s _ both i נדגיש את ההבדל בין הגישה הנוכחית )המשופרת( לבין הגישה אשר בעבודתן שלהן במודל של גיטלמן ודובא הן התייחסו למעשה לשתי קבוצות: טראומה )S_trau( ומשטרה וטראומה )(

)( לכן, המודל היה בינומי, ובו הצלחה הוגדרה כהופעת תצפית בקטגורית, וכישלון הוא הופעת תצפית בקטגורית S_trau הסתברות הופעה בקובץ המשטרה הייתה ההסתברות להופעת התצפית בקטגורית )זה מקרה פרטי של מודל מולטינומי עם שתי קטגוריות בלבד: קטגוריית יחוס,S_trau וקטגוריה שאת ההסתברויות שלו ממדלים על ידי - generalized )logit model במקרה זה, שבו יש רק שתי קטגוריות, המודל מתלכד עם המודל הלוגיסטי הפשוט

5 אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים שהתקבלו בשתי השיטות 5 הנתונים בשלב ראשון נבנה מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י המשטרה כלומר, סוננו מקובץ פוטנציאלי של משתנים מסבירים אותם משתנים שתרומתם לאמידת ההסתברות הייתה מובהקת סטטיסטית לבניית המודל שימשו נתונים משני קבצים: הקובץ המשולב וקובץ טראומה בלבד )סה"כ 55 רשומות על נפגעים קשה לפי הטראומה( נעשה שימוש בכל נתוני הנפגעים קשה שדווחו ע"י רישום הטראומה, כולל יו"ש הסיבה לכך היא שהתפלגות ערכי המשתנה HUMRAT_PGIA_LMS דומה מאד כאשר משווים את הנתונים עם ובלי יו"ש לכן התוצאות עם ובלי נתונים אלה אמורות להיות מאד דומות, ופירוש הדבר שלא קיים סיכון של אי- דיוק משמעותי עקב אי-ההפרדה של הנתונים מהקובץ המשולב A שימשו לפיתוח המודל - 545 )68839( רשומות מתוכן: 6 נפגעים קשה שהמשטרה זיהתה נכון; 839 נפגעים קשה שלא הופיעו בקובץ המשטרה כנפגעים קשה אך הופיעו בקובץ הטראומה כנפגעים קשה מכיוון שסיווג הפציעה הינו לפי קובץ הטראומה, הרי שתצפיות אלה, למרות שהן מופיעות בקובץ המשולב, הן בעצם שייכות לקבוצת התצפיות שיש לסווג כרשומות בקובץ הטראומה בלבד המשמעות המעשית היא, שכאשר השלמנו משתנים מסבירים מקבצי הטראומה והמשטרה אזי תצפיות אלה נחשבו כתצפיות המופיעות הן בנתוני המשטרה והן בנתוני הטראומה אולם, בחישוב הסיכוי לתפיסה כפצוע קשה על-ידי המשטרה, התייחסנו אליהן כתצפיות השייכות לקובץ "טראומה בלבד" 63 בקובץ טראומה בלבד )B( היו תצפיות שהתאימו להגדרה האדמיניסטרטיבית "נפגע של 883 קשה" לכן, סך הכול: = 69 8 545 לנתונים אלה, נוספו למחקר 89 נתוני המשטרה בלבד לכן, סך הכול במחקר הנוכחי בסיס המחקר כלל: =869 89 8 883 כאשר החלוקה היא: 89 נתוני "משטרה בלבד"; )3846( 839 8 69 נתוני "טראומה בלבד"; נתוני "טראומה ומשטרה" 6 נעיר שהמשטרה דיווחה על 63889= נפגעים קשה אבל מתוך 63 הנפגעים שבקובץ המשולב נמצא שרק 6 הם נפגעים קשה ו- 66 הם,false positive כלומר פצועים שדווחו כקשים על-ידי המשטרה אבל למעשה היו קלים

ניתן לסווג את הנתונים לפי ארבעה סוגים: נתוני "נפגעים קשה משטרה בלבד" מקובץ משטרה בלבד; נתוני "נפגעים קשה טראומה בלבד" מקובץ טראומה בלבד; נתוני "נפגעים קשה משטרה וטראומה מהקובץ המשולב" שהם למעשה נתונים שהמשטרה והטראומה דווחו עליהם והסכימו לגבי כך שהנפגע הוא קשה; נתוני "נפגעים קשה טראומה בלבד" נוספים שהם נתונים שמצויים הן ברשומות הטראומה והן ברשומות המשטרה אבל ברשומות הטראומה הם מופיעים כקשה וברשומות המשטרה הם לא מוגדרים כנפגעים קשה מכיוון שהסיווג הקובע של פציעה של נפגע הוא לפי הטראומה הרי שנפגעים אלה הם נפגעים קשה שמופיעים ברשימת הנפגעים קשה של טראומה אך לא של משטרה מאחר ונפגעים אלה לא מופיעים ברשימת המשטרה של נפגעים קשה, אזי למעשה יש להתייחס לנתונים אלה כשייכים לנפגעי טראומה בלבד 5 משתני המודל א המשתנה התלוי זהו משתנה מולטינומי, כאשר שלוש הקטגוריות הן: משטרה - S_poli 89( תצפיות(, טראומה - S_trau 69( תצפיות(, משולב - 6( תצפיות( ב משתנים מסבירים בוצעה השלמה של ערכים חסרים במאפייני הנפגעים להלן פרוט המשתנים: ) מגדר - T_Gender T_age_c ( קבוצות גיל - - בני -4 - בני 8-4 - בני 8-84 - בני 88-64 - בני 868 3 4 5 3( הרבעון שבו ארעה התאונה - T_month_4 4( בית חולים-יחידה Yehida_ )8 סוג דרך - T_sug_derehA - עירונית - לא עירונית 3

4 )6 סוג תאונה - Sug_p3 - פגיעה בהולך רגל - רכב יחיד - 35 התנגשויות בין כלי רכב או אחר ) סוג נפגע - T_Sug_nifga_A - הולך רגל 3 6 45 - נהג רכב - נוסע ברכב - נהג אופניים - נהג/נוסע אופנוע - 789 אחר 9( סוג רכב בו נסע הנפגע - T_SUG_REHEV_A 8( I_cat - קטגוריות נפגע המשקפות בעיקר את סוג הרכב בו נסע הנפגע המשמעויות לקטגוריות נפגע )I_cat( הן: H E D כאשר סוג רכב B )רכב משא מעל טון(, )אוטובוס(, )אופניים( או )רכב עבודה, - טרקטור, רכבת או אחר(; - כאשר סוג רכב A )רכב פרטי, או מסחרי, או משא עד טון, או אוטובוס זעיר(, C )אופנוע, לסוגיו(, F )פגיעה בהולך רגל, אין סוג רכב בו היה הנפגע( או G )מונית( ויחידת המשטרה:,, 8,8,39,34 או ;6-3 כאשר סוג דרך "עירונית", או סוג דרך לא ידוע וסוג רכב C או F; - 4 ביתר המקרים 5 תוצאות הרצת המודל The LOGISTIC Procedure Model Information Data Set BITFOR_MULTI Response Variable y_multi Number of Response Levels 3 Model generalized logit Optimization Technique Newton-Raphson Number of Observations Read 568 Number of Observations Used 568 Response Profile Ordered Value y_multi Total Frequency 67 S_poli 58 3 S_trau 3546 4

Logits modeled use y_multi='s_trau' as the reference category R-Square 595 Max-rescaled R-Square 93 Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq T_age_c 8 48396 < T_month_4 6 3984 < YEHIDA_ 75336 < T_sug_derehA 937598 < YEHIDA_*T_sug_dereh 4493 < T_Sug_p3 4 438 7 T_Sug_nifga_A 44975 < I_cat 6 8995 < Analysis of Maximum Likelihood Estimates Parameter y_multi DF Estimate Standard Error Wald Chi-Square Intercept 4567 63 5385 Intercept S_poli -9653 86 5 T_age_c -4685 5 469 T_age_c S_poli -7 8 5557 T_age_c -86 566 T_age_c S_poli -44 733 6557 T_age_c 3-6 39 5586 T_age_c 3 S_poli -748 634 898 T_age_c 4-8 435 5 T_age_c 4 S_poli -4689 5 4338 T_age_c 5 T_age_c 5 S_poli T_month_4 86 963 46936 T_month_4 S_poli 497 356 34 T_month_4 3 898 8759 T_month_4 S_poli -836 49 674 T_month_4 3 68 97 565 T_month_4 3 S_poli - 38 57 T_month_4 4 T_month_4 4 S_poli YEHIDA_ 44 373 43479 YEHIDA_ S_poli 3689 435 73949 YEHIDA_ YEHIDA_ S_poli T_sug_derehA -789 896 65987 T_sug_derehA S_poli -467 46 4349 T_sug_derehA T_sug_derehA S_poli YEHIDA_*T_sug_dereh -464 3984 63789 YEHIDA_*T_sug_dereh S_poli -7566 4685 34634 YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli T_Sug_p3 645 635 5997 T_Sug_p3 S_poli 97 46 4868 T_Sug_p3 4 78 839 759 T_Sug_p3 4 S_poli -77 9 359 T_Sug_p3 35 T_Sug_p3 35 S_poli T_Sug_nifga_A -33 5659 53 T_Sug_nifga_A S_poli -467 853 6359 T_Sug_nifga_A -688 534 68893 T_Sug_nifga_A S_poli -698 7444 536 T_Sug_nifga_A 3-785 545 86454 T_Sug_nifga_A 3 S_poli -68 744 4797 T_Sug_nifga_A 6-84 499 6896 T_Sug_nifga_A 6 S_poli -564 7464 4398 T_Sug_nifga_A 45-6939 58 9976 T_Sug_nifga_A 45 S_poli -3595 7559 3347 8

Analysis of Maximum Likelihood Estimates Parameter y_multi DF Estimate Standard Error Wald Chi-Square T_Sug_nifga_A 789 T_Sug_nifga_A 789 S_poli I_cat 844 3566 6 I_cat S_poli 943 3849 644 I_cat 7 38 78963 I_cat S_poli 4436 7347 I_cat 3 483 4 747 I_cat 3 S_poli 8659 4836 48853 I_cat 4 I_cat 4 S_poli Analysis of Maximum Likelihood Estimates Parameter y_multi Pr > ChiSq Intercept 463 Intercept S_poli 3 T_age_c T_age_c S_poli < T_age_c 89 T_age_c S_poli 48 T_age_c 3 8 T_age_c 3 S_poli 95 T_age_c 4 8738 T_age_c 4 S_poli 373 T_age_c 5 T_age_c 5 S_poli T_month_4 33 T_month_4 S_poli 3 T_month_4 78 T_month_4 S_poli 957 T_month_4 3 45 T_month_4 3 S_poli 876 T_month_4 4 T_month_4 4 S_poli YEHIDA_ < YEHIDA_ S_poli < YEHIDA_ YEHIDA_ S_poli T_sug_derehA < T_sug_derehA S_poli T_sug_derehA T_sug_derehA S_poli YEHIDA_*T_sug_dereh < YEHIDA_*T_sug_dereh S_poli < YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli YEHIDA_*T_sug_dereh YEHIDA_*T_sug_dereh S_poli T_Sug_p3 44 T_Sug_p3 S_poli 75 T_Sug_p3 4 3856 T_Sug_p3 4 S_poli 775 T_Sug_p3 35 T_Sug_p3 35 S_poli T_Sug_nifga_A 4 T_Sug_nifga_A S_poli 7 T_Sug_nifga_A < T_Sug_nifga_A S_poli 5 T_Sug_nifga_A 3 < T_Sug_nifga_A 3 S_poli 96 T_Sug_nifga_A 6 < T_Sug_nifga_A 6 S_poli 36 T_Sug_nifga_A 45 9 T_Sug_nifga_A 45 S_poli 7 T_Sug_nifga_A 789 T_Sug_nifga_A 789 S_poli I_cat 98 I_cat S_poli 43 6

Analysis of Maximum Likelihood Estimates Parameter y_multi Pr > ChiSq I_cat 5 I_cat S_poli < I_cat 3 6 I_cat 3 S_poli I_cat 4 I_cat 4 S_poli 54 מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה להלן מקדמי המודל שישמשו לחישוב מקדמי ניפוח לנתוני משטרה )לפני תיקון ל- )False positive Pr > Chi Sq 463 Wald Chi- Square 538 Standard Error 63 Analysis of Maximum Likelihood Estimates - Estimate DF מקדם המודל 4567 ערך המשתנה- משמעותו - Parameter משתנה מסביר Intercept 89 8 8738 33 78 45 < < < 44 47 57 56 5 469 687 565 4348 6599 6379 599 5 39 435 963 898 97 373 896 3984 635-4685 -86-6 -8 86 3 68 44-789 -464 645 - עירונית - לא עירונית - עירונית - לא עירונית - בני -4 - בני 8-4 - בני 8-84 - בני 88-64 - בני 868 5 3 4 - רבעון ראשון - רבעון שני 3- רבעון שלישי 4- רבעון רביעי - יתר היחידות - אם יחידה 34 38 5 5 6 - עירונית - לא עירונית - יתר היחידות - יתר היחידות - אם יחידה 34 38 5 5 - אם יחידה 34 38 5 5 - פגיעה בהולך רגל - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע T_month_4 רבעון תאונה T_month_4 רבעון תאונה T_month_4 רבעון תאונה T_month_4 רבעון תאונה - YEHIDA_ יחידת משטרה - YEHIDA_ יחידת משטרה - T_sug_derehA סוג דרך - T_sug_derehA סוג דרך YEHIDA_*T_su g_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_su g_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_su g_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_su g_dereh - שילוב יחידת משטרה וסוג דרך - T_Sug_p3 סוג תאונה

Pr > Chi Sq 3856 4 < < < 9 98 5 6 Wald Chi- Square 753 53 6889 8645 69 998 6 7896 743 Standard Error 839 5659 534 545 499 58 3566 38 4 Analysis of Maximum Likelihood Estimates - Estimate DF מקדם המודל 78-33 -688-785 -84-6939 844 7 483 ערך המשתנה- משמעותו - רכב יחיד 4-35 התנגשויות בין כלי רכב או אחר - הולך רגל - נהג רכב - נוסע ברכב - נהג אופניים 3 6-45 נהג/נוסע אופנוע - 789 אחר 3 4 - Parameter משתנה מסביר - T_Sug_p3 סוג תאונה - T_Sug_p3 סוג תאונה - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - I_cat קטגורית נפגע* - I_cat קטגורית נפגע - I_cat קטגורית נפגע - I_cat קטגורית נפגע להלן השוואת המקדמים שהתקבלו בשיטה של מחקר זה לעומת מחקר קודם - Estimate מקדם המודל לפי נתוני טראומה שיטה קודמת 556 849-497 -75-7 -9 לא במודל לא במודל לא במודל לא במודל 3967-7 - Estimate מקדם המודל לפי מודל מולטינומי שיטה חדשה 4567 ערך המשתנה- משמעותו לא במודל לא במודל -4685-86 -6-8 86 3 68 44-789 - זכר - נקבה - בני -4 - בני 8-4 - בני 8-84 - בני 88-64 - בני 868 3 4 5 Parameter משתנה מסביר Intercept - T_gender מגדר הנפגע - T_gender מגדר הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע - T_age_c קבוצת גיל הנפגע רבעון תאונה רבעון תאונה רבעון תאונה רבעון תאונה - יחידת משטרה - רבעון ראשון - רבעון שני 3- רבעון שלישי 4- רבעון רביעי - יתר היחידות - אם יחידה 34 38 5 5 6 - עירונית - יחידת משטרה - לא עירונית T_month_4 T_month_4 T_month_4 T_month_4 YEHIDA_ YEHIDA_ - T_sug_derehA סוג דרך - T_sug_derehA סוג דרך 9

- Estimate מקדם המודל לפי נתוני טראומה שיטה קודמת -44 675 74-69 - Estimate מקדם המודל לפי מודל מולטינומי שיטה חדשה -464 645 78-33 - עירונית - לא עירונית - עירונית - לא עירונית ערך המשתנה- משמעותו - יתר היחידות - יתר היחידות - אם יחידה 34 38 5 5 - אם יחידה 34 38 5 5 - פגיעה בהולך רגל 4 Parameter משתנה מסביר YEHIDA_*T_sug_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_sug_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_sug_dereh - שילוב יחידת משטרה וסוג דרך YEHIDA_*T_sug_dereh - שילוב יחידת משטרה וסוג דרך - רכב יחיד - 35 התנגשויות בין כלי רכב או אחר - הולך רגל - T_Sug_p3 סוג תאונה - T_Sug_p3 סוג תאונה - T_Sug_p3 סוג תאונה - T_Sug_nifga_A סוג נפגע -577-75 -8-845 -49 454 389-688 -785-84 -6939 844 7 483 3 6 - נהג רכב - נוסע ברכב - נהג אופניים - 45 נהג/נוסע אופנוע - 789 אחר 3 4 - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - I_cat קטגורית נפגע* - I_cat קטגורית נפגע - I_cat קטגורית נפגע - I_cat קטגורית נפגע 55 השוואת הסתברויות לכידה בשתי השיטות עבור נתוני 33 לכל תצפית מנתוני המשטרה חושבו הסתברויות לכידה לנתוני 9 לפי שתי השיטות, דהיינו לפי השיטה במחקר הקודם של גיטלמן ודובא )( ולפי השיטה של המודל המולטינומי אשר במחקר הנוכחי נסמן: P_tr אמד להסתברות הלכידה בשיטה הקודמת, P_mu אמד להסתברות הלכידה על פי המודל המולטינומי טבלה להלן מציגה סטטיסטיקה תיאורית של שת ההסתברויות: Maximum Minimum Sum Std Dev Mean N Variable 9597 57 93377 776 44 p_tr 95693 599 957738 776 4 p_mu 8

הקורלציה בין ההסתברויות בשתי השיטות: Pearson Correlation Coefficients, N = Prob > r under H: Rho= p_tr p_mu p_tr 9995 < p_mu 9995 < להלן גרף המתאר את התוצאות בשתי השיטות: p_tr 9 8 7 6 5 4 3 3 4 5 6 7 8 9 p_mu ע"פ הממצאים לנתוני 9, ניתן לראות התאמה קרובה מאוד בין שתי השיטות 56 יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה, עבור נתוני 33 לקבלת אמד למספר הכולל של נפגעים קשה, על סמך קובץ המשטרה, בוצעו שתי הפעולות: )א( תוקנו מקרי ה- Positive - False מקרים של דיווח שגוי ע"י המשטרה, בעזרת המודל ל- False Positive מאחר ומתוך 63 הפצועים קשה אשר דווחו על-ידי המשטרה, 66 היו למעשה פצועים קל )- False,)Positive למעשה קובץ המשטרה כולל 6 נפגעים קשה 3

)ב( נופחו מספר המקרים שנותרו בקובץ לאחר התיקון, על סמך הסתברויות הלכידה ע"י המשטרה להלן מובא המודל שהתקבל עבור ההסתברות TP במחקר של גיטלמן ודובא )(: The LOGISTIC Procedure Model Information Response Variable false_p Number of Response Levels Model binary logit Optimization Technique Fisher's scoring Number of Observations Read 673 Number of Observations Used 673 Probability modeled is false_p= R-Square 98 Max-rescaled R-Square 55 Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept -973 974 < I_SUG_REHEV_LMS -34 334 358 I_SUG_TEUNA -65 344 4875 384 I_YOM_BASHAVUA -86 59 3 9 I_YEHIDA -544 5985 6487 9 כאמור: לכל רשומה של נפגע קשה שדווח ע"י המשטרה, חושב ערך p_final נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה המהווה מספר מייצג נכון של p_final = p_tp * (/p_catch) p_tp = - p_fp כאשר ;)TP - true-positive( הסתברות לדיווח נכון ע"י המשטרה - p_tp - p_fp הסתברות לדיווח שגוי ע"י המשטרה Positive(,)FP - False לפי המודל שהוצג לעיל; - p_catch הסתברות לכידה ע"י המשטרה אנו נציג שני אמדים למספר הכולל של נפגעים קשה על סמך דיווח המשטרה, עבור נתוני 9, כאשר: - בשני האמדים p_tp יהיה זהה, מכיוון שמודל ה- FP זהה בשתי האפשרויות; - p_catch יסומן כ- p_tr ו- p_mu עבור האמד להסתברות התפיסה על-פי נתוני טראומה והאמד על-פי המודל המולטינומי בהתאמה; עבור ערך p_final )"המספר הכולל"( על-פי נתוני p ו- final_mu _ p_final _tr יסומן כ- p_final - טראומה והאמד על-פי המודל המולטי נומי 3

להלן תוצאות החישובים עבור נתוני 9: Maximum Minimum Std Dev Mean N Variable 959754 956936 997969 7439333 677786 578 5986 8795 347 3533 77579 77553 3699 433 3648 4479 49 958793 3369 3936 p_tr p_mu p_tp p_final_tr p_final_mu והערכים המסכמים הם: Sum 66848 66675 Variable p_final_tr p_final_mu ניתן לראות שההערכות למספר הנפגעים קשה בשנת 9 כמעט זהות בשתי השיטות: 669 מול 666 55 אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה, או כאשר משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה בסעיף הקודם, כמו גם במחקר של גיטלמן ודובא )(, נאמד המספר הנכון של נפגעים קשה על- ידי ניפוח נתוני המשטרה אולם, אמידת המספר הנכון יכולה להתבצע גם על-ידי ניפוח נתוני רשומות קובץ הטראומה, או על-ידי ניפוח שבו מנצלים את המידע של כל הקבצים בקטעים הבאים נדווח על הממצאים על-ידי ניפוח בדרכים אלה א ניפוח נתוני הטראומה כדי לבצע את האמידה של מספר הנפגעים כאשר מנפחים את נתוני הטראומה )טראומה בלבד 8 חיתוך טראומה ומשטרה( במקום את נתוני המשטרה, הורץ מודל בו הקטגוריה של משטרה בלבד )S_poli( הייתה קטגוריית הייחוס לחישוב בדרך זו, המקדמים המשמשים לחישוב הסתברות התפיסה על-ידי טראומה הם המקדמים של קבוצת החיתוך להלן המקדמים שהתקבלו על ידי הרצת המודל המולטינומי: 3

ה- הה- הה- Prob ChiSq 3 535 936 54 46 38 53 3 53 5 863 6 48 534 643 4 33 Wald ChiSq 878 668 38 37 397 43 39 97 69 38 39 5 3 7 63 39 8 54 94 StdErr 8 8 7 3 4 5 4 4 5 46 44 3 83 7 7 7 7 33 4 47 Estimate 4 55 45-8 3 9-4 -5 7-7 3 4-37 -56-44 -33-93 -95-46 D F Response ClassVal ClassV al 3 4 5 3 4 4 35 3 6 45 789 3 4 Variable Intercept T_age_c T_age_c T_age_c T_age_c T_age_c T_month_4 T_month_4 T_month_4 T_month_4 YEHIDA_ YEHIDA_ T_sug_derehA T_sug_derehA YEHIDA_*T_su g_dereh YEHIDA_*T_su g_dereh YEHIDA_*T_su g_dereh YEHIDA_*T_su g_dereh T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A I_cat I_cat I_cat I_cat Obs 3 5 7 9 3 5 7 9 3 5 7 9 3 33 35 37 39 4 43 45 47 49 5 53 55 57 59 6 האמד המתקבל לסך כל הנפגעים קשה על-פי ניפוח נתוני הטראומה )ניפוח של 553 תצפיות( הוא: 6849 נפגעים קשה ב ניפוח לפי טראומה ומשטרה )= כל הנתונים( ההסתברות לא להילכד כלל, כלומר לא להופיע בקובץ הטראומה ולא בקובץ המשטרה היא: (x ) (x ) (x ) i i i i i i i i כאשר הסתברות לא להופיע באף קובץ; סתברות להופיע בקובץ המשטרה; סתברות לא להופיע בקובץ הטראומה i (x ) i (x ) i (x ) i 33

i (x ) i i (x ) i ההסתברויות ו- חושבו בשני הסעיפים הראשונים בחלק זה אמד לסך כל הנפגעים קשה על-פי טראומה בלבד 8 חיתוך טראומה ומשטרה 8 משטרה בלבד: ii _ observed (x ) ( (x ) )( (x ) ) i i ii _ observed i i i i האמד המתקבל לסך כל הנפגעים קשה על-פי ניפוח טראומה ומשטרה )ניפוח 369 תצפיות( הוא: 6848 ג סיכום תוצאות הניפוחים )לפני תיקון ל- Positive )False בעזרת הערכות לעיל התקבלו: = אמד לסך כל הנפגעים קשה על-פי ניפוח נתוני המשטרה )ניפוח של 35 תצפיות(; final_poli = אמד לסך כל הנפגעים קשה על-פי ניפוח נתוני הטראומה )ניפוח של 553 תצפיות(; final_ tr = אמד לסך כל הנפגעים קשה על-פי ניפוח נתוני המשטרה והטראומה )ניפוח של 568 final_ trpo תצפיות( הערכים המסכמים של מספרי הנפגעים קשה בשנת 9 )לפי תיקון ל- Positive )False היו כלהלן: Sum 675633 684867 68483 Variable final_poli final_tr final_trpo כלומר, בשלוש ההערכות לא מתקבלות תוצאות זהות )אם כי, הן קרובות למדי( אינטואיטיבית נראה שהאמדים היותר סבירים הם אלה שמבוססים על ניפוח הקבצים היותר גדולים מחקר מקיף עם סימולציות יכול לתת תשובה לשאלה האם אמנם האמד המבוסס על הקטגוריה שבה פחות תצפיות הוא הפחות מדויק שאלת דיוק האמד קשורה לנושא הבא המוצע למחקר והוא חישוב רווח סמך לפרמטר שאותו יש לאמוד 34

6 סיכום ודיון 6 תועלות המחקר הנוכחי התועלת בעבודה זו אינה מצטמצמת רק לממצאי המחקר עבור הנתונים על נפגעים קשה בתאונות הדרכים של שנת 9 תרומת המחקר היא גם בפיתוח תוכנה ליישום השיטה ובהסבר המפורט של השיטה הנושא עשוי להיות רלבנטי לא רק לתאונות דרכים אלא גם לתחומים נוספים שבהם יש אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי השיטה שבמחקר זה מהווה שיפור )הרחבה( לשיטה שהוצעה ושיושמה על אותם נתונים בעבודתן של גיטלמן ודובא )( בשיטה של מחקר זה נעשה שימוש במודל המולטינומי דרך זו מאפשרת לבחור משתנים מסבירים בצורה נכונה יותר מאשר בדרך שיושמה בעבר ובה המשתנים נבחרו רק על בסיס קובץ נתוני הטראומה והקובץ המשולב יתר על כן, המודל המולטינומי מאפשר לחשב אמד למספר נפגעים לא רק על-ידי ניפוח נתוני משטרה, אלא גם על-ידי ניפוח נתוני הטראומה כמו שניפחנו את נתוני המשטרה )זאת כאשר משטרה מהווה רמת יחוס( כפי שראינו, לא מתקבל אמד זהה כאשר מנפחים את נתוני המשטרה בהשוואה לאמד המתקבל על-ידי ניפוח כל הנתונים יתרון נוסף וחשוב הוא כאשר נרצה להציג רווחי סמך למספר הנכון הדרך המוצעת לבצע זאת מפורטת בהמשך כהצעה למחקר עתידי במודל המולטינומי מגרילים מכל הקטגוריות נדגיש שוב שיש להפריד בין שני מצבים ולכל אחד מהם מוצע פתרון שונה על בסיס המחקר הנוכחי מצב ראשון הוא כאשר המטרה היא לנפח נתוני משטרה, ונתונים אלה אינם מאותה שנה שעבורה יש את נתוני הטראומה )טראומה בלבד וקובץ משולב( זה המקרה שעליו בלבד ענה מחקרן של גיטלמן ודובא )(, וגם אנו ענינו במחקר זה שבו נעשה שיפור לשיטתן בחלק הראשון של הממצאים דיווחנו על התוצאות של שתי הגישות והשווינו בין התוצאות אם בידי החוקר שלושת הקבצים עם נתונים לאותה שנה, אזי יש לנצל לאמידה טובה יותר את המידע בשלושת הקבצים )המצב השני( לשם כך יש ליישם את השיטה של מחקר זה המבוססת על המודל המולטינומי, כפי שהדגמנו בחלק השני של הדיווח על הממצאים 6 הצעה להמשך מחקר: רווח סמך עבור המספר הכולל של נפגעים בשתי השיטות, של מחקרנו זה והמחקר הקודם של גיטלמן ודובא )(, התקבל אמד נקודתי בכל שיטת אמידה יש חשיבות לבניית רווח סמך לפרמטר הנאמד השיטות הסטנדרטיות שבהן משתמשים בדרך כלל בסטטיסטיקה לבנית רווחי סמך אינן ישימות כאשר הפרמטר הנאמד הוא גודל אוכלוסייה והשיטה הנדרשת היא השיטה של CR הסיבה לכך שהוכרה ונדונה בעבר היא שרווח סמך סימטרי אינו מתאים לפרמטר זה כי התפלגותו של הסטטיסטי אינה סימטרית דיון על אי-התאמה זו הוצג למשל ב: )888, for International Working Group )Disease Monitoring and Forecasting כדי לפתור את הבעיה הוצעו מספר שיטות תחילה, 38

הוצע לבצע טרנספורמציה )כמו לוג(, כך שהתפלגות האמד תהיה בקירוב נורמלית (989 (Chao, אולם, נמצא שלא ניתן למצוא טרנספורמציה אשר מתאימה לכל המקרים החל משנות ה 8 נכתבו מספר מאמרים בהם הציגו שיטות שונות וכולן מבוססות על Bootstrap אלה השיטות הנחשבות כטובות ובשיטה מסוג זה השתמשנו במחקר הנוכחי יש לציין שבחלק מהשיטות שהוצגו נעשה שימוש ב-,Parametric Bootstrap ובחלקן נעשה שימוש ב- Nonparametric Bootstrap במאמרם של (99) Garthwaite Buckland & הוצגו שיטות המבוססות על שני הסוגים הרחבות לשיטות שהציגו (99) Garthwaite Buckland & כללו שימוש במשתנים מסבירים )covariates( למשל, (999), Sterne Huggins (998), Tilling & () al Tilling et השתמשו ב- Bootstrap Nonparametric עבור מסבירים רציפים אולם, באותן העבודות, כפי שהראו (996) Pollock,Norris & השתמשו בנראות מותנית לכן, בשיטה זו מקבלים אמד לשונות שהוא מוטה כלפי מטה ורווח הסמך צר ממה שהוא אמור לכסות במחקר עתידי אנו מציעים להשתמש בשיטה שהוצגה במאמר של Zwane & van der Heijden (3) בשיטה זו יש שימוש ב- Bootstrap,Parametric לאמידת השונות, כאשר ההטרוגניות בין התצפיות הנדגמות מבוטאת על-ידי מסבירים רציפים להלן הסבר השיטה: נסמן ב- N את גודל האוכלוסייה מתוכה n נדגמו ויש ביניהם אי תלות את וקטור המשתנים המסבירים לתצפית ה- i נסמן ב- x i ואת הפרופיל המתאר את נוכחות התצפית בתהליך הלכידה נסמן ב- w i פרופיל זה שווה ל-), ( כאשר התצפית מופיעה ברשומה ראשונה )משטרה( ולא בשנייה )טראומה(, שווה ל- (,( כאשר התצפית מופיעה ברשומה שנייה )טראומה( ולא בראשונה, )משטרה(, שווה ל-), ( כאשר התצפית מופיעה בשתי הרשומות, והוא שווה ל-(, ( כאשר התצפית אינה מופיעה כלל נסמן את ההסתברות של התצפית ה- i להיכלל ברשומה כלשהי ב- i ואת האמד שלה ב- ˆ i N הסתברות זו תלויה במשתנים מסבירים ואותה אומדים האמד של גודל האוכלוסייה הוא: Nˆ n n ˆ N ˆ i i i i את ה- bootstrap אנו מבצעים כדי לקבל רווח סמך לפרמטר N שהאמד הנקודתי שלו הוא Nˆ נסמן ב- i את ההסתברות שנבדק i יופיע ברשומת הטראומה וב- i את ההסתברות שנבדק i יופיע ברשומת המשטרה הסתברוי תו אלו תלויות במשתנים מסבירים ואומדים אותן בעזרת המודל המולטינומי כך מקבלים כפונקציה של המסבירים את האמדים: ו- ˆ ˆ x i i ˆ ˆ x i i יופיע ברשומת הטראומה ולהסתברות שנבדק יופיע ברשומת המשטרה, i להסתברות שנבדק בהתאמה 36