המרכז לחקר מוגבלויות ואוכלוסיות מיוחדות כלים להערכת מסוכנות להתנהגות אלימה כלפי האחר והתנהגות אובדנית סקירת ספרות אסף קרון הסקירה נערכה בהזמנת המחלקה לפסיכיאטריה משפטית, שירותי בריאות הנפש, משרד הבריאות והשירות הארצי לעבודה סוציאלית במשרד הבריאות, ומומנה בסיוע השירות הארצי לעבודה סוציאלית במשרד הבריאות דמ- 07-494
כלים להערכת מסוכנות להתנהגות אלימה כלפי האחר והתנהגות אובדנית סקירת ספרות אסף קרון הסקירה נערכה בהזמנת המחלקה לפסיכיאטריה משפטית, שירותי בריאות הנפש, משרד הבריאות והשירות הארצי לעבודה סוציאלית במשרד הבריאות, ומומנה בסיוע השירות הארצי לעבודה סוציאלית במשרד הבריאות ינואר 2007 שבט תשס"ז ירושלים
מאיירס-ג'וינט-מכון ברוקדייל המרכז לחקר מוגבלויות ואוכלוסיות מיוחדות ת"ד 3886 ירושלים 91037 טלפון: 02-6557400 פקס: 02-5612391 כתובת באינטרנט: www.jdc.org.il/brookdale
תמצית מחקר ב. ג. ד. 1. הקדמה הסקירה נועדה להציג כלים העוסקים בהערכה של התנהגות אלימה כלפי הזולת, וכלים העוסקים בהערכה של התנהגות אובדנית. סקירת הספרות התבצעה למען המחלקה לפסיכיאטריה משפטית במשרד הבריאות, והתמקדה באפשרות ליישום כלים מסוימים ככלים תומכי-החלטה, בארבע הכרעות קליניות: א. הערכת התנהגות אלימה כלפי האחר לצורך התערבות פסיכיאטרית לא וולונטרית (אשפוז כפוי). הערכת התנהגות אלימה כלפי האחר לצורך מתן רישיון החזקת נשק או שלילתו. הערכת התנהגות אלימה כלפי בת-זוג לצורך התערבות במשפחה. הערכת התנהגות אובדנית כתומכי-החלטה על אשפוז כפוי. המונח "מסוכּ נוּת" (Dangerousness) עומד כיום כחלק מרכזי מהנמקה משפטית של התערבויות פסיכיאטריות כפויות, בארץ (חוק טיפול בחולי נפש, התשנ"א- 1991 ) ובצפון אמריקה ) al., Monahan et 2001). כך, לדוגמה, כדי להביא אדם ל"בדיקה כפויה דחופה" יש להראות, בין השאר, כי "הוא עלול לסכן את עצמו או את זולתו סיכון פיזי מיידי". מתוך כך, הפכה הערכת "מידת המסוכנות" של אדם לבעלת משקל רב בהחלטה לגבי התערבות לא-וולונטרית ושלילת זכויות, ומטבע הדברים משכה אליה תשומת-לב רבה (1994 Mossman,.(Borum, ;1996 בעוד שקיימת דרישה מערכתית (בתי משפט, משטרה, מערכות בריאות ועוד) מאנשי מקצוע להעריך את "מידת המסוכנות" של אדם, לא קיים סטנדרט מקצועי (פסיכולוגי או אחר) ו/או משפטי ברור לגבי הליך זה (2002 Kropp,.(Whittemore & בנוסף, לא קיימת הכשרה מיוחדת להערכת מסוכנות, לא במחקר ולא בפרקטיקה (1996.(Borum, הדרישה ההולכת וגוברת של המערכות השונות לביצוע הערכות של מסוכנות, מצד אחד, והמכשולים העומדים בפני אנשי מקצוע לבצע את הערכת המסוכנות, מצד שני, מהווים את הקונטקסט בתוכו מתרחש הדיון על הניבוי וההערכה. אחת הבעיות הבסיסיות שתעמוד בפנינו בסקירה הנוכחית היא מתן משמעות לממצאים הסטטיסטיים, באופן שיעזור לקבלת החלטה לגבי מדיניות על שימוש בכלי הערכה מסוים. לא ניתן לבצע תרגום מלא של הממצאים המחקריים למסקנות אופרטיביות, שכן, אלו מתבססות לא רק על הממצאים האמפיריים אלא, גם על שיקולים מוסריים, כלכליים ועוד. אולם, כדי לאפשר דיון בכלים עצמם ובמסקנות הנגזרות מהמחקר, ולהקל על תהליך קבלת ההחלטה, נגדיר, עד כמה שניתן, את הקריטריונים ל"ניבוי מוצלח" של התנהגות אלימה או אובדנית; נדון בקצרה במספר מונחי יסוד, בעיות בסיסיות ופתרונות אפשריים, בהערכה של ניבוי התנהגות אלימה או אובדנית; ונבהיר את המשמעות הסטטיסטית של המדדים. "הערכות מסוכנות" ניתן לסווג ל"הערכות קליניות" ול"הערכות אקטואריות". כיום, בשדה המקצועי, רוב ההחלטות על "מידת מסוכנות" של אדם, מתבצעות על בסיס הערכה קלינית. בדוח הנוכחי "הערכה i
קלינית" תוגדר כפרוצדורות שבהן הקשר בין האינפורמציה שנאספה בזמן ההערכה לבין ההחלטה הסופית איננו קשר מתמטי ידוע. לעניין זה שתי משמעויות חשובות. ראשית, קיים משקל רב לשיקול דעת של בעל המקצוע. שנית, אופן גזירת המסקנה איננו ידוע לאדם חיצוני ופעמים רבות גם לא לאיש המקצוע עצמו, שאיננו מודע בהכרח למשתנים ולמשקלם היחסי בקבלת ההחלטה. הביטוי "הערכה אקטוארית", בניגוד ל"הערכה קלינית", מתייחס למודל מתמטי לקבלת החלטה (1999.(Buchanan, הכלים האקטואריים מציעים פתרון לשתי הנקודות שתוארו לעיל: הם מציעים בקרה טובה יותר על המשתנים ומשקלם, ומאפשרים להתחקות אחר תהליך ההערכה. ההבחנה בין אקטוארי לשאינו אקטוארי איננה חד-משמעית וניתן לראות את שני סוגי ההערכה, הקלינית והאקטוארית, כמהווים קצוות של רצף. הם נבדלים לא רק בקיומה או באי-קיומה של הסכימה המתמטית האקספליציטית, אלא גם בסוגי הכלים בהם נעשה שימוש. כך, לדוגמה, הערכות קליניות, מסתמכות פעמים רבות על תאוריה קלינית ומתייחסות למאפיינים אישיותיים (אף שהקשר אישיותי=קליני איננו מחויב המציאות), ובאופן דומה הערכות אקטואריות נוטות להסתמך על משתנים "יציבים" (כגון משתנים דמוגרפיים, היסטוריים) אף שאין הכרח בדבר. אנו נסקור כלים שפותחו בשנים האחרונות שמשקפים סינתזה בין שתי הגישות (הקלינית והאקטוארית). כלים אלו אינם פוסלים שיתוף משתנים אישיותיים מתוך תאוריות קליניות על אלימות, בצד משתנים אקטואריים "קלאסיים" (משתנים דמוגרפיים והיסטוריים), תוך כדי הגדרת פונקציה מתמטית הקושרת בין האינפורמציה שנאספה (בפריטים) לבין ההחלטה הסופית (ציונים או ציונים סופיים). כדי להשתמש בפרוצדורה מסוימת ככלי תומך-החלטה מומלץ לבדוק עד כמה היא מדויקת ומהו התוקף שלה. תוקף של מבחן מתייחס לקשר בין ציון המבחן לבין הראיות התומכות במסקנות הנגזרות ממנו (1971.(Cronbach, עניין זה חשוב ביותר, בבואנו לקבל החלטה על שימוש בכלי מסוים. קיימים סוגים שונים של תוקף. הסקירה הנוכחית מתמקדת בתוקף הקשור לקריטריון (criterion related validity) דהיינו, קשר בין ציון המבחן לבין קריטריון חיצוני כלשהו. תוקף זה ניתן לחלק לשני סוגי משנה, בהתאם לזמן מדידת הקריטריון. תוקף ניבוי Validity) (Predictive הוא תוקף ציון המבחן ביחס לביצוע קריטריון, במועד מאוחר יותר. מערכי מחקר שבהם מדידת המשתנים המנבאים מתבצעת לפני מדידת הקריטריון נקראים מערכים פרדיקטיביים ומאפשרים הערכה של תוקף הניבוי. תוקף מקביל Validity) (Concurrent מתייחס לתוקף ציוני המבחן ביחס לביצוע הקריטריון בהווה או בעבר. מערכי מחקר שבהם מדידת המשתנים המנבאים מתרחשת במקביל או לאחר מדידת הקריטריון נקראים מערכים פוסט-דיקטיביים.(postdictive) לבחינת תוקף של פרוצדורה משתמשים במדדים שונים. כיום, הולך וגדל שימוש במדד דיוק הנקרא,(Receiver Operating Characteristic) ROC מדד שבו נשתמש במידת האפשר גם בדוח זה. שימוש בניתוח ROC מקובל בתחומים רבים, העוסקים בדיאגנוסטיקה. היתרון בשימוש ב- ROC נעוץ בכך שהוא מאפשר תיאור של דיוק הניבוי באופן שאינו מושפע מהשיעור הבסיסי ו/או מנטייה של אנשי מקצוע להשתמש בסף החלטה מסוים ובכך להעדיף סוג מסוים של טעות ) ;1995 Harris, Swets, ;1988 Rice & Mossman, 1994.(Dolan & Doyle, 2000; Borum, 1996; עקומת ה- ROC היא פונקציה של רגישות ושל ii
ספציפיות, יחס המבטא באופן עקיף את החליפין בין השתיים. בנוסף, הניתוח מאפשר קבלת מידע מפורט על התנהגות הכלי בספי החלטה שונים. על מנת להשוות בין הכלים שונים, נשתמש בשטח שמתחת לעקומה (Area Under the Curve) AUC כמדד הממצע את דיוק הניבוי של המבחן בספי החלטה שונים. השטח מתחת לעקומה נע בין 0.50 ל- 1. שטח של 0.50 מראה כי המבחן איננו מוסיף מידע התורם לניבוי הקריטריון (1982 NcNeil, (Hanley & ולעומתו, שטח של 1 משקף יכולת ניבוי מושלמת. על מנת לאפשר השוואה בין מחקרים וכלים שונים נעשה טרנספורמציות של המדדים השונים למדד של שטח מתחת לעקומה. בבואנו להסיק על תוקף של פרוצדורה, עלינו להבטיח כי האוכלוסייה עליה היא נבדקה במחקר תואמת את האוכלוסייה שבה היא אמורה להיות מיושמת. אוכלוסיות מטרה יוגדרו כאוכלוסיות שלגביהן קיים עניין ליישם את הפרוצדורות להערכת מסוּכנוּת בישראל, ואוכלוסיות מחקר יוגדרו כאוכלוסיות שלגביהן תוּקפו הפרוצדורות בפועל. מובן מאליו שככל שאוכלוסיית המחקר כוללת מאפיינים השונים מאלה של אוכלוסיית המטרה, כך קיים חשש להבדלים הן בתכונות ההתפלגות והן בתוקף. בסקירה הנוכחית ננסה לסווג את האוכלוסיות ולהתמקד באוכלוסיות, הקרובות עד כמה שניתן, לאוכלוסיות המטרה. 2. כלים להערכת מסוכנות כלפי האחר 2.1 כלים להערכת מסוכנות כלפי האחר בקרב אוכלוסייה פסיכיאטרית בחלק זה של הדוח מתוארים ארבעה כלים להערכת התנהגות אלימה כלפי האחר באוכלוסיות פסיכיאטריות ופסיכיאטריות-קרימינליות. הכלים נבחרו לאחר סקירת ספרות, חיפוש במאגרי מידע והתייעצות עם אנשי מקצוע וחוקרים בתחום. לסקירה לא הוכנס כלי בשם The Violence Risk ) VRAG (Quinsey et al., (1998 (Assessment Guide אשר נבדק במקור אל מול אוכלוסיות קרימינליות (פחות רלוונטי לענייננו). כמו-כן לא יידונו כלים העוסקים בניבוי של תקיפה מינית.,(Hare, 1991) (Psychopathy Checklist-Revised) PCL-R (1) הוא כלי זה אחד הכלים החשובים והמפורסמים לניבוי של התנהגות אלימה ומהווה גרסה משופרת של ה- PCL. גרסה זו (PCL-R) מבוססת על תכונות פסיכומטריות מספיקות המאפשרות גם יישום קליני ) Doyle, Hare, ;1991 Dolan & 2000). למרות היותו כלי להערכת מבנה אישיות פסיכופטי, הפך ה- PCL-R למשתנה מנבא מרכזי להתנהגות אלימה, והציון הכללי שלו הוא כיום המנבא הבודד החזק ביותר (לדוגמה, & Monahan.(Steadman, 1994 הרשימה מורכבת מעשרים פריטים המקודדים על בסיס ריאיון מובנה למחצה ו/או על סמך נתונים הנמצאים בתיק אישי. הציון הסופי מופק לאחר כשעתיים של ריאיון ושעה נוספת של קידוד, ומספק הערכה של המידה שבה נבדק מתאים לפרוטוטיפ של פסיכופט. בסקירה הנוכחית נבדק הקשר בספרות בין ה- PCL-R לקריטריון של התנהגות אלימה בקרב אוכלוסיות קרימינליות ואוכלוסיות קרימינליות פסיכיאטריות. iii
ה( (2) PCL-SV.(Screening Version) כלי זה הוא גרסה מקוצרת ל- PCL-R המאפשרת ביצוע מהיר של ההערכה באמצעות ריאיון קליני. בסקירה נבדק תוקף הגרסה המקוצרת בקרב אוכלוסיות פסיכיאטריות קרימינליות ואוכלוסיות פסיכיאטריות אזרחיות במהלך האשפוז ובעת השהייה בקהילה. העברה של הגרסה המקוצרת נמשכת כ- 45 דקות לריאיון וכ- 30 דקות נוספות לקידוד ולסיכום. (3) HCR-20 (Webster et al., 1997) (Historical/Clinical/Risk Management 20 - Items) כלי זה הוא רשימה של 20 גורמי סיכון להתנהגות אלימה. המבנה של ה- HCR-20 מבוסס על חלוקה לשלושה סוגים של משתנים: משתנים מהעבר, מההווה ומהעתיד (2001 (Douglas, וכולל בתוכו את ה- PCL פריט המעריך קווים פסיכופתיים, מתייחס לציון הסופי של אחת משתי הגרסאות של ה- PCL ). הסקירה הנוכחית כוללת מחקרים שבוצעו על אוכלוסיות פסיכיאטריות-קרימינליות ואוכלוסיות פסיכיאטריות- אזרחיות במהלך האשפוז ובעת השהייה בקהילה. זמן העברה כ- 45 דקות לריאיון לפחות וכ- 30 דקות נוספות לקידוד ה- PCL-SV (אם בוחרים את הגרסה המקוצרת), וללא הארכת זמן לשאר פריטי ה-.HCR-20 בסך-הכל, כשעה עד שעה וחצי מוקדשות ל- PCL-SV ומינימום כחצי שעה לשאר הפריטים ב-.(HCR-20 (4) VRAS.(Monahan et al., 2000) (Violence Risk Assessment Study) MacArthur ה- VRAS בודק אלימות כלפי האחר בקרב אוכלוסייה פסיכיאטרית. זוהי תוכנת מחשב המבוססת על תהליך של מספר מיונים בצורה של "עצי החלטה" Tree-CT) (Classification והשוואה ושילוב של "עצי החלטה" שונים. בסקירה מוסברים המושגים "עץ החלטה פשוט" CT),(Simple "עץ החלטה עם חזרה" CT) (Iterative והשוואה וחיבור של עצי החלטה שונים להגדלת התוקף הסטטיסטי של הניבוי (השוואת מודלים). לכלי מספר יתרונות בולטים: א. בניגוד למודלים קודמים, הנבדקים מתחלקים לשלוש קבוצות סיכון תוך שימוש בשני ספי החלטה: סף אחד שמתחתיו נבדקים ב"סיכון נמוך", סף שני שמעליו נבדקים ב"סיכון גבוה". כך נוצרת קבוצת "בלתי מסווגים" שבה נמצאים הנבדקים שאינם נכללים בשתי קבוצות אלה. בסופו של תהליך הצלבת המודלים מתקבלות חמש קבוצות סיכון עם הסתברויות שונות להתנהגות אלימה. ב. המודל מראה תוקף ניבויי גבוה במיוחד (הגבוה ביותר שפורסם עד כה). ג. הוא כולל משתנים הנגישים לקלינאי בעת ביצוע ריאיון. ד. ביצוע ההערכה אורך זמן קצר בהרבה משאר הכלים (כ- 15 דקות לעומת שעה עד שלוש שעות ב- PCL-SV/R וב- HCR-20 ). אל מול היתרונות הברורים של הכלי, עומד חיסרון גדול והוא העובדה שהוא מסתמך על מחקר יחיד מסוג."Postdictive" תוקף באוכלוסיות של חולים פסיכיאטריים-אזרחיים אשר נבדקו בזמן האשפוז (ההערכה ומדידת הקריטריון התבצעו בזמן האשפוז) נמצא תוקף נמוך של AUC=.60/61 בעבור ה- PCL-SV וה- HCR-20, בהתאמה. כאשר נבדקה אוכלוסייה פסיכיאטרית-אזרחית לאחר השחרור לקהילה, נמצא תוקף בינוני עם יתרון מסוים ל- HCR-20 על פני ה- PCL-SV : שטחים מתחת העקומה בסדר גודל של 0.73 ו- 0.69, בהתאמה. משמעות השטחים היא כי אם נחלק את המדגם לאלימים וללא-אלימים, ואם נבחר מתוך כל קבוצה באופן רנדומלי שני נבדקים, ונחזור על תהליך זה פעמים רבות, הרי שב- 73% ו- 69% מהמקרים, שניהם יסווגו לקבוצות מקבילות גם על פי ה- HCR-20 וה- PCL-SV, בהתאמה. iv
חולים "פסיכיאטריים-קרימינליים" מהווים אוכלוסייה "רחוקה" יותר מאוכלוסיית המטרה במשתנים הרלוונטיים. בבדיקה של הערכת האלימות בתוך המוסד בהקשר לחולים פסיכיאטריים-קרימינליים, נמצא ממוצע שטחים AUC=0.67 AUC=0.74 ו- AUC=0.70 ל- PCL-SV ול- HCR-20 ול- PCL-R, בהתאמה. כאשר נבדקו חולים פסיכיאטריים-קרימינליים לאחר השחרור לקהילה, נמצא ממוצע שטחים של AUC= 0.71 ו- AUC=0.72 בעבור ה- PCL-SV וה- HCR-20, בהתאמה. לסיכום, לחולים פסיכיאטריים-קרימינליים, במוסד ולאחר השחרור לקהילה, ה- HCR מראה באופן עקבי, תוקף גבוה יותר במקצת מאשר ה- PCL-SV וה- PCL-R. ה- VRAS מראה תוקף גבוה יותר מאחרים,(AUC=.88) קלסיפיקציה מורכבת יותר, וזמן מועט יותר להעברה (15 דקות לעומת כשעה של ה- PSL-SV וכשעה וחצי-שעתיים של ה- HCR-20 ). למרות כל אלו ל- VRAS שני חסרונות מרכזיים: א. התבצע רק מחקר אחד. ב. אין נתונים ממערך פרדיקטיבי. בעתיד אמורים להתפרסם ממצאים ראשונים ממחקר פרדיקטיבי. 2.2 הערכה וניבוי של תקיפה על-ידי בן זוג בין עשרות הכלים הקיימים, מצאנו עדויות על תוקף ניבוי/מקביל בסוגיה זו רק לגבי שניים ) ;2003 Hart, Kropp et al., 1999; Kropp & ) (Spousal Assault Risk Assessment) SARA (1) :(Roehl & Guertin, 1998.(Campbell, 1986) (Danger Assessment) DA2/DAS2 (2) ;(Hart, 2000 (1) SARA.(Kropp et al., 1999; Kropp & Hart, 2000) (Spousal Assault Risk Assessment) כלי זה מוגדר כ"רשימת פריטים" (Checklist) לביצוע ההערכה לניבוי אלימות כלפי בת-זוג (לא רצח). הרשימה כוללת 20 גורמי סיכון המתקבלים מתוך ריאיון מובנה למחצה עם תוקפים פוטנציאליים של בנות-זוג. מחצית מגורמי הסיכון מעריכים "אלימות כללית", ומחציתם ספציפיים ל"אלימות כלפי בת-הזוג". בתוך עשרת גורמי הסיכון המתייחסים לאלימות כלפי בת-הזוג כלולים שלושה משתנים המתייחסים לאלימות שהתרחשה בסמוך להערכה. זמן הריאיון והקידוד הוא כ- 15 דקות. ההערכות של ה- SARA מקובלות כיום כתומכות-החלטה, בבתי משפט במדינות קולורדו וורמונט בארצות-הברית ) & Roehl.(Guertin, 2000 (2) DA2.(Campbell, 1986).(Danger Assessment) כלי זה שייך לקבוצה של כלים אשר נועדו להעריך מסוכנות לרצח אישה על-ידי בן-זוגה. המטרה של הפרוצדורה היא ניבוי המקרים שבהם קיימת סכנת חיים (לעומת ניבוי אלימות כלפי בת-זוג במקרה של ה- SARA ). הפיתוח של הרשימה התבסס על מספר מחקרים פוסט-דיקטיביים של רצח או של פציעה קשה על-ידי בני-זוג. החלק הראשון של ה- DA2 כולל שאלות המהוות מעין הקדמה לשאלון שמטרתה להפחית את הכחשת האלימות, אם זו קיימת, אצל הנבדקות. החלק השני כולל 15 שאלות "כן/לא" למילוי עצמי, המייצגות גורמי סיכון הקשורים לרצח על-ידי בן-זוג. המחקרים בסקירה כוללים אוכלוסיות של קורבנות פוטנציאליים לאלימות קשה מצד v
בני-הזוג (בדרך כלל נשים החשופות לאלימות בתקופה שבה ענו על השאלון). העברת השאלון וקידודו אורכים כ- 15 דקות. בגוף הסקירה מתוארים שלושה כלים נוספים אשר למרות היעדר נתונים על תוקף ועל מהימנות נמצאים בשימוש קליני נרחב ומצויים בימים אלו בעיצומו של מחקר פרדיקטיבי: (1) DVSI Domestic ) (3) ;Kingston Screening Instrument for Domestic Violence (2) ;(Violence Screening Instrument.Mosaic-20 תוקף תוקף ה- SARA. שני מחקרים, פוסט-דיקטיבי 2000) Hart, (Kropp & ופרדיקטיבי ) Gondolf, Heckert &,(2002 בדקו את התוקף של ה- SARA (2000) Kropp & Hart.(Whittemore & Kropp, 2002) בדקו אוכלוסייה של 2,681 איש, מתוכם 1,010 אסירים ו- 1,671 נבדקים בתקופת מבחן.(Probation) תוקף הכלי, כלומר הקשר לאלימות כלפי בת-הזוג, נבדק במערך פוסט-דיקטיבי בשלושה אופנים: (1) נערכה השוואה בין אסירים בעלי היסטוריה של אלימות כלפי בת-זוג, לבין אסירים ללא היסטוריה כזו, ונמצא הבדל מובהק בין הציון הסופי של ה- SARA בשתי הקבוצות,.AUCt=0.85 (2) נערכה השוואה בין אוכלוסיית "רצידיוויסטים" (בני-זוג אשר לאחר תכנית טיפולית חזרו להתנהגות אלימה כלפי בת-הזוג) לבין מי "שאינם-רצידיוויסטים" (בני-זוג שלאחר תכנית טיפולית לא חזרו להיות אלימים כלפי בת-הזוג). בהשוואה זו לא נמצא הבדל מובהק בציון הכללי של הרשימה. נמצא הבדל מובהק למדדים בחלק השני (הספציפיים לאלימות כלפי בת-זוג):.AUC=0.66 (3) בניתוח מעט שונה, הנבדקים חולקו על פי ביצוע ב- SARA לשלוש קטגוריות: "סיכון גבוה", "בינוני" ו"נמוך". הקשר בין הסיווג על פי ה- SARA לבין הקריטריון לרצידיוויזם נמצא בינוני: Cohen's.(Kropp & Hart, 2000) AUC=O.70,d=0.76 (2002) Heckert & Gondolf בדקו 804 נשים של גברים הנמצאים בתכנית שיקום בעקבות התנהגות אלימה כלפי בנות-זוגם. הבדיקה התבצעה במערך פרדיקטיבי לאחר 15 חודשים. החוקרים דיווחו על רגישות של 43% ו- Positive False של 27%. תוקף ה- DA2. שלושה מחקרים פוסט-דיקטיביים ) 2000; Saunders, Campbell et al., 2003; Tolman & al., 1999 (Goodman et ומחקר פרדיקטיבי (2002 Gondolf, (Heckert & בדקו את תוקף הניבוי של ה-.DA2 Campbell ואחרים (2003) בדקו 220 קרובים של נשים שנרצחו על-ידי בני-זוגן וקבוצת ביקורת של 343 נשים אשר דיווחו על התעללות מצד בן-הזוג. הם מדווחים על שטח מתחת לעקומה של.AUC=0.90 vi
(2002), Heckert & Gondolf באותו מחקר שבדק את ה- SARA, העבירו את הפרוצדורה ל- 804 נשים של גברים הנמצאים בתכנית שיקום למשך 15 חודשים. הם מדווחים על רגישות של 66% ו- Positive False של 33%. נבדק על 177 גברים של נשים ואחרים (2000) מדווחים על היעדר יכולת ניבוי כאשר ה- DA2 Weisz שהורשעו בבית משפט על התנהגות אלימה כלפי בת-זוג. 2.3 הערכת התנהגות אלימה בישראל בישראל נעשה שימוש מצומצם מאוד בכלים אקטואריים למחצה, ככלים תומכי-החלטה לגבי הערכת התנהגות אלימה כלפי האחר. מתוך הראיונות התקבל הרושם כי ברוב המקרים מתבצעת "הערכה קלינית" אינטואיטיבית על סמך ניסיונו של איש המקצוע. שתי סיבות מרכזיות עלו לשימוש המועט בכלים מובנים: א. קשיים תקציביים: פיתוח כלי, כמו גם מחקר והכשרת בעלי מקצוע לשימוש בו, דורשים מימון מתאים. ב. בחלק מהמקרים קיימת התנגדות לשימוש בכלי מובנה, שמקורה הן בהכשרה של אנשי מקצוע אשר לא הורגלו לשימוש בפרוצדורות מובנות, והן בטענה/הנחה שתוקף הכלים לא מספק ולכן ההשקעה בשימוש בהם לא כדאית. בישראל נמצאים שני כלים בשלבי פיתוח: כלי שפותח במשטרת ישראל, וכלי שפותח במשרד הרווחה בשיתוף עם אוניברסיטת חיפה. (1) כלי שפותח במשטרת ישראל (ד"ר מורג, 2003 תכתובת אישית). כלי זה נועד להעריך מסוכנות לאלימות בין בני זוג. את ההערכה יכולים לבצע אנשי מקצוע מגוונים (לא רק מתחום בריאות הנפש). לא פורסמו נתונים לגבי מהימנות ותוקף הכלי וכמו כן גם הפריטים והכלי עצמו אינם נמסרים לגורמים חיצוניים. הכלי נמצא בשלבים סופיים של תיקוף פרדיקטיבי ומיושם דרך קבע, ככלי תומך-החלטה, בשתי תחנות משטרה. (2) כלי שפותח על-ידי משרד הרווחה ואוניברסיטת חיפה (ד"ר אינס, 2003 תכתובת אישית). כלי זה נועד גם הוא להעריך מסוכנות לאלימות כלפי בנות-זוג. כמו במקרה הקודם, לא פורסמו נתונים לגבי מהימנות ותוקף הכלי, וכמו-כן גם הפריטים והכלי עצמו אינם נמסרים לגורמים חיצוניים. הכלי תוקף פוסט-דיקטיבית אל מול הרשעות בבית משפט על ארבעה סוגי תקיפה - מרצח ועד תקיפה קלה ללא פגיעה. 3. ניבוי והערכה של התנהגות אובדנית בפרק זה של הדוח נידונים 7 כלים לניבוי ולהערכה של התנהגות אובדנית, כאשר המטרה היא שימוש בכלי כתומך-החלטה על אשפוז כפוי. נזכיר כי בסקירה נכללו רק כלים לגביהם דווח על תוקף ניבוי ו/או מקביל. (1) ה- SSI.(Beck, et al., 1979) (Scale for Suicide Ideation) זהו אחד הכלים החשובים להערכת התנהגות אובדנית (2003 Brown,.(Range & Knott, ;1997 הכלי מורכב מ- 19 פריטים הבודקים את vii
העוצמה של עמדות, התנהגות ותכנון של התנהגות אובדנית ביום הריאיון. בסקירה כלולים מחקרים העוסקים באוכלוסיות הנמצאות בטיפול פסיכיאטרי אמבולטורי ו/או אשפוזי. (2) ה- SSI-W (Beck et al., 1997) (Scale for Suicide Ideation-Worst) ייחודי בכך שהוא בודק היבטים שונים של חשיבה אובדנית בתקופה שבה, לדעת הנבדק, המחשבות היו בשיאן.(SSI-Worst) זאת, להבדיל מה- SSI וכלים אחרים, הבודקים חשיבה אובדנית בעת הריאיון.(SSI-Current) המראיין מבקש מהנבדק להיזכר בתקופה שבה חווה מחשבות אובדניות באופן החריף ביותר, ומבקש ממנו להתייחס אליה בתשובות לשאלות שיישאל. תקופה זו יכולה להיות גם מספר שנים אחורנית. ההיגיון העומד בבסיס כלי זה נשען על ממצאים קודמים שהראו קשר בין עוצמת מחשבות אובדניות בעבר לבין ביצוע מעשה אובדני לאחר מכן. בהתאם להיגיון זה, הכלי שואל באופן ספציפי על תקופה בה המחשבות האובדניות היו בשיאן. הכלי כולל 19 פריטים. המחקרים הכלולים בסקירה התבצעו על אוכלוסייה של פונים לטיפול אמבולטורי. (3) ASIQ.(Adult Suicide Ideation Questionnaire) כלי זה נועד להעריך תדירות של חשיבה אובדנית בקרב מבוגרים. הפריטים בשאלון בודקים היבטים שונים של חשיבה אובדנית, החל בפנטזיה אובדנית לא מודעת כגון הרצון "לא להיוולד" ועד למחשבות ספציפיות, כגון כיצד, מתי, היכן, כתיבת מכתבים וכו' (1991.(Reynold, הסקירה כוללת מחקר על אוכלוסיית סטודנטים ואוכלוסיות פסיכיאטריות- אזרחיות. (4) SIS.(Beck et al., 1974) (Suicide Intent Scale) הכלי בודק את חומרת הניסיון האובדני בקרב נבדקים שביצעו ניסיון אובדני. הוא כולל 15 פריטים המעריכים התנהגות ועמדות לפני, בזמן ולאחר הניסיון האובדני. החלק הראשון של ה- SIS מורכב מ- 8 פריטים הבודקים מה שהמחברים מכנים "היבטים אובייקטיביים" של הניסיון האובדני, כגון הכנות, הוצאה לפעול, רמזים שהנבדק נתן לסביבה. את החלק הזה ניתן למלא לעתים גם על סמך סקירה של דוחות. החלק השני מתייחס לתפיסה של הנבדק את סופיות הניסיון האובדני וכולל פריטים, כגון צפיות להצלה או המטרה המוצהרת של הניסיון האובדני. המחקרים בסקירה כוללים בדיקת הקריטריון באוכלוסייה פסיכיאטרית. (5) BHS.(Beck & Steer, 1988) (Beck Hopelessness Scale) הכלי פותח על מנת לבדוק אמונות חיוביות ושליליות לגבי העתיד, במהלך השבוע האחרון (השבוע שלפני מילוי השאלון). השאלון מורכב מ- 20 היגדים, שעליהם הנבדק צריך להשיב ב"כן" או "לא". השאלון הוא למילוי עצמי, ללא צורך בריאיון מקדים, ודורש חמש דקות למילוי. הסקירה כוללת מחקרים של אוכלוסיות באשפוז עם ובלי עבר של חשיבה והתנהגות אובדניים ואוכלוסייה אמבולטורית (בטיפול מרפאתי). (6) RFL/LRFL.(Linehan et al., 1983) (Linehan Reason for Living Inventory) כלי זה מעריך את הרצון והמוטיבציה לחיות. בניסיון להעריך את הפוטנציאל להתנהגות אובדנית, השאלון בודק כוחות וחסמים הפועלים כנגדה. בשאלון 48 פריטים מסוג,Likert כגון " in I would like to accomplish my plans or goals."the future הנבדק נשאל ביחס לכל פריט עד כמה הפריט חשוב כ"סיבה לא לבצע מעשה אובדני". זמן viii
העברה כ- 20 דקות. המחקרים בסקירה כוללים אוכלוסיות אלו: חולים פסיכיאטריים מאושפזים, חולים פסיכיאטריים מאושפזים וסובלים מדיכאון מג'ורי, מבקרים במרכז קניות וסטודנטים במחלקה לפסיכולוגיה. (7) MAST.(Orbach, et al., 1991) (Multi-Attitude Suicide Tendency) כלי זה פותח בישראל למטרות מחקר על אובדנות בקרב מתבגרים (ללא מוטיבציה לניבוי ברמת הפרט), והוא נגזר מתוך הנחה תאורטית כי על התנהגות אובדנית משפיעים ארבעה כוחות: משיכה ודחייה מחיים ומשיכה ודחייה ממוות. כל אחד מ- 30 הפריטים בשאלון מייצג אחד מארבעת המרכיבים המשפיעים על התנהגות אובדנית. הפריטים הם מסוג Likert ה. MAST- נבדק על האוכלוסיות הבאות: תלמידי בית-ספר תיכון, מתבגרים בטיפול פסיכיאטרי שאינם מאושפזים; ומתבגרים מאושפזים עם או בלי התנהגות אובדנית. חלק מהמחקרים נערכו על מתבגרות בלבד, וחלק נערכו על מתבגרים ומתבגרות כאחד. המחקרים נערכו בישראל ובארצות-הברית. תוקף בסך-הכל, לגבי היכולת לנבא התנהגות אובדנית באמצעות שבעת הכלים השונים (כפי שנבדקה ב- 25 מחקרים), נתקבל טווח שטח מתחת לעקומה של בין 0.62 ל- 0.82 וממוצע של 0.73. נציין כי קיימת חפיפה של המדגם בשלושה מהכלים BHS).(SSI, SSI-W, עם זאת, הקפדנו להימנע מחפיפה ומדיווח יתר (שקיים בספרות) לגבי כל כלי בנפרד. כלומר, הסקירה לא כללה פרסומים שונים המתייחסים לאותו מדגם או מדגם חופף לגבי אותו הכלי. שלושה כלים הראו תוקף בינוני-גבוה: ה- SSI (Scale For Suicide Ideation) נבדק בארבעה מחקרים ומראה שטח מתחת לעקומה של 0.77. חשוב לציין כי היכולת של הכלי להבחין בין נבדקים שביצעו מעשה אובדני לבין אלו שלא עשו כך, מבין נבדקים שמראש היו עסוקים בחשיבה אובדנית, היא זניחה וקרובה לניחוש לא מושכל. נראה כי אנשים כאלה, עם השיעור הבסיסי הגבוה של חשיבה אובדנית, קרובים יותר לאוכלוסיית המטרה שלנו: במקרים רבים קיים לגביהם מראש חשש להתנהגות אובדנית. ה- SSI-W נבדק במחקר אחד והראה שטח מתחת לעקומה של 0.82. נציין כי חשוב לראות את הביצועים של הכלי לגבי אוכלוסייה עם שיעור בסיסי גבוה של חשיבה אובדנית. הרעיון העומד בבסיס ה- SSI-W מעניין כשלעצמו, זאת, משום שראיונות קליניים ופסיכיאטריים בודקים, לרוב, התנהגות אובדנית בזמן הריאיון, ולא את חומרת ההתנהגות והעמדות בתקופה שבה המחשבות היו בשיאן. בדיקה כזו, בין אם היא נעשית בעזרת ה- SSI-W או במהלך ריאיון קליני, יכולה, כפי שראינו, לסמן פוטנציאל לחומרת החשיבה האובדנית בעתיד. הכלי השלישי שהראה תוקף בינוני-גבוה הוא ה- ASIQ Adult Suicide ).(Ideation Questionnaire הכלי מעניין כי הוא בודק גם פנטזיות נוסח "רצון לא להיוולד" אשר בנסיבות מסוימות יכולות לקפל בתוכן משאלה לא מודעת למות. ה- ASIQ הראה את התוקף הממוצע הגבוה ביותר,(AUCt=0.86) אולם, יש להסתייג ולציין כי הוא מבוסס על מערכים פוסט-דיקטיביים בלבד. ה- BHS,(Beck Hopelessness Scale) ה- SIS,(Suicide Intent Scale) ה- RFL/LRFL Linehan Reason For ),(Living Inventory וה- MAST,(Multi-Attitude Suicide Tendency Scale for Adolescents) הראו ביצועים ix
נמוכים מהממוצע. מעניין כי לנבדקים בעלי חשיבה אובדנית (1985 al., (Beck et ה- BHS הראה יכולת ניבוי בינונית נמוכה (0.70), אולם גבוהה יותר מזו של ה- SSI. כאשר ה- BHS נבדק באוכלוסייה של נבדקים שאושפזו סביב ניסיון אובדני, הכלי לא הצליח לנבא התנהגות אובדנית לטווח של 5 עד 10 שנים. ה- LRFL, המעריך חסמים כנגד מעשה אובדני, נבדק בשישה מחקרים פוסט-דיקטיביים, והראה תוקף בינוני-נמוך של כ- 0.68. ה- MAST, כלי שנבנה בישראל ותוקף בישראל ובארצות-הברית, נבדק על מתבגרים והראה תוקף בינוני-נמוך.(MAUCt=0.70) עם זאת, חשוב לציין כי הציון הכללי חושב על-ידי מיצוע כל ארבעת המדדים. פעולה זו אינה מתבצעת בפועל על פי הוראות השימוש בשאלון, ונעשתה רק על מנת לאפשר לסכם את הממצאים למדד יחיד של תוקף (כלומר, לסולמות ספציפיים נמצא תוקף גבוה יותר). בבואנו להעריך את ביצועי הכלים יש לשים לב לטווח הזמן שבו נמדד הקריטריון. במערכים פוסט- דיקטיביים טווח הזמן לא מצוין לרוב. פרט למחקר אחד שבדק התנהגות אובדנית לטווח של שלושה חודשים (1999 al.,,(osman et ולא דיווח על תוקף ניבוי, המחקרים בדקו את הקריטריון בטווח זמן של בין חמש לעשר שנים. יש לנקוט משנה זהירות בבואנו להסיק מממצאים אלו לגבי טווח הזמן שלגביו הייתה כוונה ליישם את הכלים מלכתחילה. נראה כי טווח זמן של 10-5 שנים, לגביו נבחן התוקף, מתאים יותר לתכנון טיפול לטווח ארוך, מאשר לקבלת החלטה בדבר התנהגות אובדנית בטווח הקצר לשם החלטה על אשפוז כפוי. 4. מסקנות והמלצות אשפוז כפוי המטרה היתה למצוא כלי שיסייע בהערכת אוכלוסייה פסיכיאטרית-אזרחית (לפני אישפוז), וזאת ככלי תומך-החלטה בנוגע להחלטה על אשפוז כפוי. לא נמצאו מחקרים ספציפיים לאוכלוסייה זו. רוב המחקרים שבוצעו על אוכלוסיות פסיכיאטריות-אזרחיות בוצעו בעת האשפוז (כפוי ושאינו כפוי) או אחריו, במהלך השיקום בקהילה. בהתאם לסקירת הספרות המובאת בדוח זה מומלץ לשקול שימוש ב- HCR-20 או ב- VRAS תוך הדגשת החשיבות בהתאמת הכלי לארץ ולאוכלוסיית המטרה באמצעות מחקר מקדים ובדיקת התוקף הפרדיקטיבי. רישיון נשק המטרה של הערכת מסוכנות להתנהגות אלימה ככלי תומך-החלטה על מתן רישיון נשק, היא הערכת התנהגות אלימה בקרב אנשים שהצהירו שהם נמצאים או שהיו בטיפול פסיכולוגי ו/או פסיכיאטרי ומבקשים רישיון נשק. אף שקיים ויכוח האם אוכלוסייה הנמצאת בטיפול פסיכיאטרי אלימה יותר מאוכלוסייה שאיננה בטיפול פסיכיאטרי, איננו מכירים נתונים המצביעים על קשר בין אוכלוסייה הנמצאת בטיפול פסיכולוגי לבין מוּעדוּת לאלימות. ניתן, אולי, ליישם את ההמלצות בסוגיה של אשפוז כפוי, ולהשתמש בכלי המבוסס על ה- HCR-20, או על ה- VRAS. חשוב לציין כי הכלי יוכל לשמש כתומך-החלטה לגבי הפוטנציאל להתנהגות אלימה, ולא ככלי תומך-החלטה על מתן רישיון נשק. ההחלטה על מתן רישיון נשק כוללת, בהכרח, קריטריון רחב יותר מאשר הפוטנציאל להתנהגות אלימה x
(לדוגמה, אנשים הנמצאים בקבוצת סיכון בשיפוט ובביקורת מציאות). נמוכה מהממוצע לאלימות, אולם סובלים מבעיות קשות אלימות כלפי בנות-זוג קיים קושי להשוות בין ארבעת הכלים שנסקרו בהקשר לשימוש בפרוצדורה כתומכת-החלטה במקרה של אלימות כלפי בנות-זוג. זאת, משום שעדיין אין נתוני תוקף ומהימנות לכלים שפותחו בארץ, ומשום שהם אינם מנבאים אותו קריטריון (ה- DA2 כזכור מנבא רצח). הכלי של משטרת ישראל נמצא בשלבים מתקדמים של פיתוח, לקראת סיום מחקר פרדיקטיבי, והממצאים אמורים להתפרסם בחודשים הקרובים. בנוסף, שני הכלים שנסקרו, ה- SARA וה- DA2, נתמכים במספר מועט של מחקרים המצביעים על תוקף בינוני. בינתיים, אנחנו ממליצים לשקול בחיוב שימוש בפרוצדורה המבוססת על הכלי שפותח במשטרת ישראל. עם זאת, ככל הנראה קיים קושי בהעברת מידע בין הגופים (שימוש בפרוצדורה מחוץ למשטרה). קושי זה עלול להפוך לבעיה ממשית משום שחלק מהפריטים נשענים על מידע קודם הנמצא במשטרה. כפתרון, ניתן לפתח "גרסת-בת" ללא הפריטים הנשענים על מידע קודם מהמשטרה, אולם, יש לזכור כי ייתכן שללא פריטים אלו התוקף שיתקבל יהיה נמוך יותר. בנוסף, חשוב לוודא שכלי זה לא ייפול בתוקפו מה- SARA. בין אם יוחלט להשתמש בגרסה של הכלי שפותח במשטרה, ובין אם בגרסה ישראלית ל- SARA, ניתן וכדאי לצרף אל הכלי את ה- DA2 שיכול להוות מדד נוסף וחשוב לפוטנציאל של פגיעה פיזית חמורה וסכנת חיים. בנוסף, יש לשקול שימוש בחלק הראשון של ה- DA2 או בפרוצדורה חלופית שתפקידה לצמצם את נטיית בת-הזוג המוכה להכחיש, פרוצדורה שתתבצע לפני ביצוע ההערכה. התנהגות אובדנית ההמלצה העולה מסקירת הספרות המובאת בדוח הנוכחי היא לבצע מחקר מקיף על שניים מהכלים, ASIQ ו- SSI-W, שהראו תוקף בינוני-גבוה בעבר, ולבדוק אותם על אוכלוסיית המטרה בארץ לגבי אותו פרק הזמן הרלוונטי להחלטה (מאחר שמדובר בהחלטה העוסקת באשפוז לתקופה הקרובה, הרי שיש לבחון את יכולת הכלי לנבא התנהגות אובדנית לתקופה הקרובה ולא לטווחים ארוכים יותר, כפי שנעשה לעתים במחקרים). נציין כי גם אם יוחלט שלא להשתמש בכלי אקטוארי למחצה, כדוגמת הכלים הנ"ל, יש מקום לשקול שימוש ברציונל העומד מאחורי שני כלים אלה ASIQ) ו- SSI-W ) גם בהערכה קלינית רגילה. כלומר, לבצע הערכה של חומרת המחשבות וההתנהגות האובדניות בתקופה שהיו בשיאן (ולא רק בזמן הריאיון והתקופה סביבו), להיות מודעים להשפעה שלילית של השאלות בריאיון הקליני ולהשתמש בבדיקת חסמים כנגד התנהגות אובדנית. xi
תודות תודה לחברי הוועדה למניעת אלימות במשפחה והערכת מסוכנות: ד"ר אריה באואר, מר רזק חואלד, ד"ר פאולה רושקה, גב' מרים זינגר, גב' דבורה איציק (משרד הבריאות); גב' איילה מאיר וגב' רונית צור (משרד הרווחה). תודה מיוחדת לד"ר יהושע וויס (שירות בתי הסוהר). תודה לד"ר אורלי אינס (המחלקה לעבודה סוציאלית, אוניברסיטת חיפה), ד"ר מיכל מורג (משטרת ישראל), לפרופ' ישראל אורבך (המחלקה לפסיכולוגיה, אוניברסיטת בר-אילן) וד"ר שמואל קרון (בית-חולים שלוותה). תודה לפרופ' גרשון בן- שחר (המחלקה לפסיכולוגיה, האוניברסיטה העברית), לד"ר ענת בן-סימון (המרכז הארצי לבחינות והערכה). תודה מיוחדת לד"ר נעמי שטרוך ממאיירס-ג'וינט-מכון ברוקדייל על הארותיה והערותיה, בהוצאת הדוח לאור. ועזרתה תודה מיוחדת לעמיתינו במאיירס-ג'וינט-מכון ברוקדייל: גב' נטלי בכור על הסיוע בהכנת התרשימים, גב' דניאלה סיטון וגב' שושנה מיצמן. תודות לגב' בלהה אלון על העריכה, ההפקה וההכנה לאינטרנט. לגב' נעמי הלסטד על התרגום לאנגלית, ולגב' לסלי קליינמן על xii
1 1 2 3 3 4 4 6 9 10 10 11 11 14 18 22 31 32 33 35 36 38 38 39 39 39 40 42 43 43 43 44 44 45 45 45 46 תוכן העניינים 1. מבוא 1.1 הקדמה 1.2 הצורך בהערכת מסוכנות 1.3 הגדרת מושגים בסיסיים א. הערכה קלינית והערכה אקטוארית ב. גורמי סיכון ג. מדדים "קלאסיים" להערכת איכות המבחן ד. שימוש ב- ROC (Receiver Operating Characteristic) ה. תוקף ניבוי ותוקף מקביל: מערכי מחקר פוסט-דיקטיביים ופרדיקטיביים ו. אוכלוסיית המטרה ואוכלוסיית המחקר 2. כלים להערכת התנהגות מסוכנת כלפי האחר 2.1 ארבעה כלים להערכת התנהגות אלימה כלפי האחר: אוכלוסיות פסיכיאטריות-אזרחיות ופסיכיאטריות-קרימינליות א. (Hare, 1991) (Psychopathy Checklist-Revised) PCL-R ב. (Hart et al., 1995) (Psychopathy Checklist Screening Version) PCL-SV ג. (V2) (Webster et al., 1997) (Historical Clinical Risk) HCR-20 ד. (Monahan et al., 2000) (Violence Risk Assessment Study) MacArthur VRAS 2.2 הערכה וניבוי של תקיפה על-ידי בן-זוג א. כלים שהוכנסו/הוצאו מהסקירה ב. (Kropp et al., 1999a,b; Kropp & Hart, 2000) (Spousal Assault Risk Assessment) SARA ג. (Campbell, 1986) (Danger Assessment) DA2/DAS2 ד. השוואה בין תוכן הפריטים בשני הכלים 2.3 הערכת התנהגות אלימה כלפי בת-זוג בישראל א. שימוש בכלים "מיובאים" ב. כלי להערכת מסוכנות לאלימות בין בני-זוג - משטרת ישראל (ד"ר מיכל מורג, 2003 תכתובת אישית) ג. כלי להערכת מסוכנות לאלימות בין בני-זוג - משרד הרווחה (ד"ר אורלי אינס, 2003 תכתובת אישית) 2.4 דיון א. הערכת מסוכנות להתנהגות אלימה ככלי תומך-החלטה על אשפוז כפוי ב. הערכת מסוכנות להתנהגות אלימה ככלי תומך-החלטה על מתן רישיון נשק ג. הערכת מסוכנות לאלימות כלפי בת-זוג 3. ניבוי והערכה של התנהגות אובדנית 3.1 הקדמה א. הגדרת הקריטריון ב. כלים שהוכנסו/הוצאו מהסקירה ג. שמירה על זכויות יוצרים ד. סיווג כלים להערכה ולניבוי של התנהגות אובדנית ה. "מדגם A" (Beck et al., 1979, 1988, 1991) (Scale for Suicide Ideation) SSI 3.2
48 48 49 51 52 54 57 60 70 (Beck et al., 1997) (Scale for Suicide Ideation Worst) SSI-W 3.3 (Reynold, 1991) (Adult Suicide Ideation Questionnaire) ASIQ 3.4 (Beck et al., 1974) (Suicide Intent Scale) SIS 3.5 (Beck & Steer, 1988) (Beck Hopelessness Scale) BHS 3.6 (Linehan et al., 1983) (Linehan Reason For Living Inventory) LRFL/RFL 3.7 3.8 הערכת התנהגות אובדנית בישראל: Multi-Attitude Suicide Tendency Scale ) MAST (Orbach el al., 1991) (for Adolescents 3.9 דיון ביבליוגרפיה נספח 1: טרנספורמציות של גודל אפקט ומתאם לשטח מתחת העקומה
רשימת לוחות 5 6 10 12 קשרים אפשריים בין התנהגות אלימה בפועל לסיווג על פי המבחן התנהגות המדדים: ביצוע אופטימלי של "רגישות", "ספציפיות" ו"אחוז הניבויים הנכונים" המרביים בשיעור בסיסי של 5% ו- 15% נבדקים אלימים במדגם דוגמה למחקר במערך פוסט-דיקטיבי ומחקר במערך פרדיקטיבי פריטים מה- PCL-R (Hare, (2001 על פי שני גורמים (פקטורים) לוח 1: לוח 2: לוח 3: לוח 4: 14 לוח 5: PCL-R וניבוי התנהגות אלימה באוכלוסייה פסיכיאטרית 14 לוח 6: פריטים ומבנה פקטורים ב- PCL-SV (Hart et al., (1995 לוח 7 א: ממצאים על קשר בין PCL-SV לבין התנהגות אלימה, לפי סוג אוכלוסייה, מיקומה, 16 וסוג האלימות 16 לוח 7 ב: סיכום ממצאים על קשר בין PCL-SV לבין התנהגות אלימה 18 - רשימת משתנים 1997) al., (Webster et HCR-20 לוח 8: 20 לוח 9 א: ממצאים על קשר בין וסוג האלימות HCR-20 לבין התנהגות אלימה, לפי סוג אוכלוסייה, מיקומה, 21 22 30 30 36 37 41 47 48 49 לוח 9 ב: לוח 10: לוח 11: לוח 12: לוח 13: לוח 14: לוח 15: לוח 16: לוח 17: לוח 18: סיכום ממצאים על קשר בין HCR-20 לבין התנהגות אלימה סיכום ממוצעים משוקללים של ה- PCL-SV וה- HCR-20 מלוחות 7 ו- 9 מיון על בסיס שני מודלים: מודל "אופטימלי" ומודל "קליני" חמש קבוצות סיכון להתנהגות אלימה,DA2 סיכום ממצאים השוואה בין פריטים ב- SARA,(Kropp et al., 1994) וב- DA2 (Campbell et al., 1986, 2003) סיכום ניבוי התנהגות אלימה בקרב אוכלוסייה פסיכיאטרית AUC) ממוצע; טווח ה- AUC שבוצע, מספר המחקרים שבוצעו וסך-כל הנבדקים במחקרים שבוצעו) סיכום ממצאים - SSI סיכום ממצאים - SSI-W סיכום ממצאים - ASIQ
50 51 53 55 56 סיכום ממצאים - SIS סיכום ממצאים - BHS סיכום ממצאים - LRFL ממצאים (Orbach et al., 1991 ) - MAST ממצאים (Stein et al., 2003) - MAST לוח 19: לוח 20: לוח 21: לוח 22: לוח 23: 57 (Osman et al., 1994) לוח :24 ממצאים - MAST 57 58 סיכום ממצאים - MAST כלים לניבוי והערכה של התנהגות אובדנית - סיכום לוח 25: לוח 26: 7 (939 נבדק ם)י 25 רשימת תרשימים תרשים 1: עקומת ROC תרשים 2: עץ החלטה (CT) המבוסס על יישום CHAID על אוכלוסיית הפרויקט 27 28 29 תרשים 3: חלוקה שנייה של קבוצת ה"בלתי מסווגים" מעץ החלוקה הראשון (תרשים 2) תרשים 4: חלוקה שלישית של קבוצת ה"בלתי מסווגים" מעץ החלוקה השני תרשים 5: חלוקה רביעית של קבוצת ה"בלתי מסווגים" מעץ החלוקה השלישי
1. מבוא 1.1 הקדמה מטרת סקירת הספרות המובאת כאן היא להציג כלים שנועדו להעריך התנהגות אלימה כלפי האחר, וכלים העוסקים בהערכה של התנהגות אובדנית. הסקירה בוצעה בשביל המחלקה לפסיכיאטריה משפטית במשרד הבריאות, והתמקדה באפשרות ליישום הכלים, ככלים תומכי-החלטה, בארבע הכרעות קליניות: א. שימוש בכלים להערכת התנהגות אלימה כלפי האחר, לצורך התערבות פסיכיאטרית לא וולונטרית (אשפוז כפוי). ב. שימוש בכלים להערכת התנהגות אלימה כלפי האחר, לצורך מתן רישיון להחזקת נשק או לצורך שלילתו. ג. שימוש בכלים להערכת התנהגות אלימה כלפי בת-זוג, לצורך התערבות במשפחה. ד. שימוש בכלים להערכת התנהגות אובדנית ככלי תומך-החלטה על אשפוז כפוי. הסקירה מחולקת לשלושה פרקים: מבוא, הערכת התנהגות מסוכנת כלפי האחר והערכה של התנהגות אובדנית. בפרק הראשון, במבוא, יוגדרו מושגים בסיסיים מתחום הערכת המסוכנות ובהם: "מסוכנות", "סיכון", "הערכה קלינית", "הערכה אקטוארית", "תוקף ניבוי" ו"תוקף מקביל". עוד יידונו הבעייתיות בשימוש במדדים קלאסיים, כגון "רגישות" ו"ספציפיות", והפתרון המוצע בעזרת ה-.ROC Analysis בפרק השני יוצגו כלים להערכת התנהגות מסוכנת כלפי האחר. פרק זה מחולק לארבעה סעיפים: בסעיף הראשון (2.1) יידונו ארבעה כלים להערכת התנהגות אלימה: PCL-SV,(Hare, (1991 PCL-R 1995) al.,,(webster et al., 1997) HCR-20,(Hart et ו- VRAS.(Monahan et al., 2000) בסעיף השני (2.2) יידונו שני כלים ספציפיים לניבוי התנהגות אלימה כלפי בת-זוג: (Kropp et al., 1999a,b) SARA ו-.(Campbell, (1986 DA2/DAS בסעיף השלישי (2.3) יידונו כלים להערכת התנהגות אלימה כלפי בני-זוג, הנמצאים בשימוש בישראל. בסעיף הרביעי (2.4), בדיון, ננסה להשוות בין הכלים שהוצגו בשלושת הסעיפים הראשונים בנוגע לשלושת היישומים שהוגדרו לעיל: אשפוז כפוי, שלילת רישיון להחזקת נשק, והתערבות במשפחה. לכאורה, ראוי היה לתאר את הכלים בפרקים נפרדים, לאור ארבעת היישומים שהוגדרו לעיל: פרק לאשפוז כפוי, פרק לרישיון נשק וכו'. אולם, בפועל, קיימים תחומים, כגון החזקת רישיון נשק, שבהם אין מחקרים ספציפיים לעניין זה. לכן בשני הסעיפים הראשונים יתוארו הכלים באופן שינסה להתחקות אחר הדיון בספרות המקצועית, שם, מפרידים בין כלים המעריכים התנהגות אלימה בקרב אוכלוסיות קרימינליות (דהיינו אסירים), אוכלוסיות פסיכיאטריות (מאושפזים בבתי-חולים) ואוכלוסיות פסיכיאטריות-קרימינליות (חולי נפש עם היסטוריה קרימינלית או אסירים חולי נפש), לבין כלים המעריכים התנהגות אלימה כלפי בת-זוג. הפרדה זו נובעת, ככל הנראה, גם משיקולים 1
מקצועיים, שכן מדובר בעולמות תוכן מעט שונים "היסטורית" שהתפתחה במהלך השנים. (אם כי גם חופפים) וגם כתוצאה מחלוקה הפרק השלישי דן בכלים להערכה קלינית של התנהגות אובדנית ומחולק לכמה סעיפים: לאחר ההקדמה (3.1) מובאים סעיפים הבוחנים מספר כלים: בסעיף 3.2 נבחן ;(Beck et al., (1979 SSI בסעיף 3.3 נבחן ;(Beck et al., 1997) SSI-W בסעיף 3.4 נבחן ;(Reynold, 1991) ASIQ בסעיף 3.5 נבחן SIS Linehan ) LRFL/RFL בסעיף 3.7 נבחן ;(Beck & Steer, 1988) BHS בסעיף 3.6 נבחן ;(Beck, et al., 1974) al., 1983.(et סעיף 3.8 דן בכלי שפותח בישראל:.(Orbach et al., 1991) MAST בסעיף,3.9 בדיון, יוצגו סיכום התוקף של כל אחד משבעת הכלים בנפרד, סיכום כללי לגבי היכולת לנבא או להעריך התנהגות אובדנית והערכת הכלים לאור היישום ככלי תומך-החלטה לאשפוז כפוי. 1.2 הצורך בהערכת מסוכנות המונח "מסוּ כּנוּת" (Dangerousness) עומד כיום כחלק מרכזי מהנמקה משפטית של התערבויות פסיכיאטריות כפויות, בארץ ובצפון אמריקה (2001 al.,.(monahan et כך, לדוגמה, כדי להביא אדם ל"בדיקה כפויה דחופה" יש להראות, בין השאר, כי "הוא עלול לסכן את עצמו או את זולתו סיכון פיזי מ י די" (חוק טיפול בחולי נפש, התשנ"א- 1991 ). המתח בין שלילת חירותו של החשוד לבין הצורך להגן על הסביבה שעליה הוא מאיים, הפך את הערכת "מידת מסוכנותו" של אדם לבעלת משקל רב בהחלטה לגבי התערבות לא-וולונטרית ושלילת זכויות, ומטבע הדברים היא משכה אליה תשומת-לב רבה 1994) Mossman,.(Borum, 1996; לעומת הדרישה המערכתית (בתי משפט, משטרה, מערכות בריאות ועוד) מאנשי מקצוע להעריך את "מידת מסוכנותו" של אדם, אין סטנדרט מקצועי (פסיכולוגי או אחר) ו/או משפטי ברור לגבי הליך זה (2002 Kropp,.(Whittemore & בנוסף לכך, לא קיימת הכשרה מיוחדת להערכת מסוכנות, לא במחקר ולא בפרקטיקה (1996.(Borum, הדיון על הניבוי וההערכה מתרחש בקונטקסט המאופיין בדרישה ההולכת וגוברת מהמערכות השונות להעריך רמת מסוכנות, מצד אחד, ובמכשולים העומדים בפני אנשי מקצוע לעשות זאת, מצד אחר. אחת הבעיות הבסיסיות שתעמוד בפנינו בסקירה הנוכחית היא מתן משמעות לממצאים הסטטיסטיים, באופן שיעזור לקבלת החלטה לגבי מדיניות על שימוש בכלי הערכה מסוים. לא ניתן לבצע תרגום מלא של הממצאים המחקריים למסקנות אופרטיביות, שכן, אלו מתבססות לא רק על הממצאים האמפיריים אלא, גם על שיקולים מוסריים, כלכליים ועוד. אולם, כדי לאפשר דיון בכלים עצמם ובמסקנות הנגזרות מהמחקר, ולהקל על תהליך קבלת ההחלטה, נגדיר, עד כמה שניתן, את הקריטריונים ל"ניבוי מוצלח" של התנהגות אלימה או אובדנית; נדון בקצרה במספר מונחי יסוד, בעיות בסיסיות ופתרונות אפשריים, בהערכה של ניבוי התנהגות אלימה או אובדנית; ונבהיר את המשמעות הסטטיסטית של המדדים. 2
1.3 הגדרת מושגים בסיסיים א. הערכה קלינית והערכה אקטוארית כיום, בשדה המקצועי, רוב ההחלטות על "מידת מסוכנותו" של אדם מתבססות על הערכה קלינית al.,1996).(dolan & Doyle, ;2000 Gardner et כ"הערכה קלינית" נגדיר פרוצדורות שבהן הקשר בין המידע שנאסף בזמן ההערכה לבין ההחלטה הסופית איננו מתמטי. לעניין זה שתי משמעויות חשובות: ראשית, יש מקום רב לשיקול הדעת של בעל המקצוע; שנית, אופן גזירת המסקנה איננו ידוע לאדם חיצוני ופעמים רבות גם לא לאיש המקצוע עצמו, שאיננו יודע לאילו משתנים יש משקל מכריע בקבלת ההחלטה. ב- 1981 טען,Monahan על בסיס סקירת חמישה מחקרים, כי "פסיכיאטרים ופסיכולוגים מדייקים בלא יותר מאשר באחד מכל שלושה ניבויים של התנהגות אלימה... נתונים אלו מתייחסים לאוכלוסייה של אנשים הנמצאים באשפוז פסיכיאטרי..." (47-49 pp,.(monahan,,1981 המחקר של Monahan זכה לתהודה רבה, ובעקבותיו התחזקה המגמה להשתמש בכלים או במשתנים אקטואריים בלבד (אלה נקראים לעתים ה"דור השני" של כלים לניבוי אלימות). הביטוי "הערכה אקטוארית", בניגוד ל"הערכה קלינית", מתייחס למודל מתמטי לקבלת החלטה (1999.(Buchanan, כתמיכה נוספת לשימוש בכלים אקטואריים עלתה טענה כי גם קלינאים, לרוב באופן בלתי מודע, נותנים משקלות למשתנים ומצרפים אותם יחד, אולם הכלים הקליניים פחות טובים מכלים אקטואריים ) Kapur,.(2000 ההבחנה בין אקטוארי לשאינו אקטוארי איננה חד-משמעית וניתן לראות את שני סוגי ההערכה, הקלינית והאקטוארית, כמהווים קצוות של רצף. הם נבדלים לא רק בקיומה או באי-קיומה של הסכימה המתמטית האקספליציטית, אלא גם בסוגי הכלים בהם נעשה שימוש. כך, לדוגמה, הערכות קליניות, מסתמכות פעמים רבות על תאוריה קלינית ומתייחסות למאפיינים אישיותיים (אף שהקשר אישיותי=קליני איננו מחויב המציאות), ובאופן דומה הערכות אקטואריות נוטות להסתמך על משתנים "יציבים" (כגון משתנים דמוגרפיים, היסטוריים) אף שאין הכרח בדבר. באופן כללי מקובל להניח כי הערכה קלינית מאפשרת ניבוי מסוים של התנהגות אלימה כלפי האחר, הגבוה מהחלטה מקרית 1993) al.,.(monahan & Steadman, 1994; Lidz et בנוסף, קיימת הסכמה כי להערכה אקטוארית ביצועים שווים ואולי אף טובים מאלה של הערכה קלינית בניבוי אלימות ) Borum Meta-) דוגמה מעניינת לכך ניתן למצוא בניתוח-על.(et al., 1993; Gardner et al., 1996; Mossman, 1994 (Analysis שביצע :Mossman הוא סקר 58 מחקרים שהתפרסמו עד לשנת 1994, ומצא שהמשתנה "התנהגות אלימה בעבר", ניבא, לבדו, התנהגות אלימה בעתיד, טוב יותר מאשר הערכה קלינית. אנו נסקור כלים שפותחו בשנים האחרונות שמשקפים סינתזה בין שתי הגישות (הקלינית והאקטוארית). כלים אלו אינם פוסלים שיתוף משתנים אישיותיים מתוך תאוריות קליניות על אלימות, בצד משתנים אקטואריים "קלאסיים" (משתנים דמוגרפיים והיסטוריים), תוך כדי הגדרת 3
פונקציה מתמטית הקושרת בין האינפורמציה שנאספה (בפריטים) לבין ההחלטה הסופית (ציונים או ציונים סופיים). ב. גורמי סיכון בעשור וחצי האחרונים גדל השימוש במונחים של "גורמי סיכון" Factors).(Risk ניתן להגדיר "סיכון" כהסתברות להתרחשות של אירוע מסוים (1997 al.,.(kraemer et המונח "סיכון",(risk) קשור לתוצאה לא רצויה (כגון מחלה, או התנהגות אלימה), אולם, בקונטקסט המקצועי הוא יכול להתקשר גם לתוצאות חיוביות, כגון אי-מחלה (1997 al.,.(kapur, ;2000 Kraemer et נשתמש במונח "סיכון" כביטוי להסתברות להתנהגות אלימה. כלומר, בביטוי "כלים המעריכים סיכון להתנהגות אלימה" ) Violence,(Risk Assessment Tools הכוונה היא לכלים המעריכים את ההסתברות להתנהגות אלימה. המושג "גורם סיכון" מתייחס לגורם המגביר את ההסתברות להתרחשות אירוע - במקרה שלנו, התנהגות אלימה כלפי האחר או התנהגות אובדנית. חשוב להבחין כי תרגום שני שמות העצם "risk" ו-" Dangerousness " לעברית הוא "סיכון" ו"מסוּכנוּת", בהתאמה. נשתמש במונח risk בהקשר ההסתברותי ונתרגם אותו כ"סיכון". על מנת למנוע בלבול מיותר נשתדל לא לתרגם Dangerousness כ"מסוכנות", אלא נתרגם אותו ישירות לביטוי שלו בפועל: "התנהגות אלימה" או "התנהגות מסוכנת". ג. מדדים "קלאסיים" להערכת איכות המבחן בסעיף זה נדון במספר מדדים שבהם נהגו להשתמש לתיאור תוקף המבחנים. בבעיות שבאו לפתור, בחסרונות של כל אחד מהם ובמספר פתרונות אפשריים. נדון במבנה שלהם, כאשר מפעילים כלי דיכוטומי לניבוי התנהגות אלימה כלפי האחר, הנבדקים מסוּוגים לשתי קבוצות, למשל: א. קבוצת ה"נבדקים שאובחנו כמסוכנים", ו-ב. קבוצת ה"נבדקים שאובחנו כלא מסוכנים". שתי קבוצות אלו הן סיווג של ניבויים. גם התנהגות בפועל ניתנת לסיווג לשני מצבים מקבילים: קבוצת נבדקים שביצעו התנהגות אלימה בפועל וקבוצת נבדקים שלא ביצעו התנהגות אלימה בפועל. במקרה של חלוקה דיכוטומית ניתן לקשר בין הניבוי לבין ההתנהגות בפועל בעזרת לוח (לוח 1). ניתן לראות בלוח כי מהצלבת שני הסיווגים מתקבלים ארבעה תאים: מקובל לכנות את קבוצת הנבדקים שאובחנו כמסוכנים על-ידי המבחן ושביצעו התנהגות אלימה בפועל בשם Positive"."(TP) True כאשר "Positive" מסמן את הסיווג על פי המבחן, ו-" True " את היחס בין הסיווג לבין ההתנהגות האלימה בפועל. במקרה זה, האבחון "Positive" נמצא אמיתי, כלומר."True" באופן דומה, נבדק שאובחן כמסוכן ולא ביצע התנהגות אלימה בפועל נכלל בקבוצה המכונה Positive","(FP) False גם במקרה זה "Positive" מתייחס לממצאים מהאבחון, ו-" False " מסמן כי האבחון נמצא שקרי ביחס להתנהגות בפועל. וכך, בהתאמה, נבדקים שאובחנו כלא-מסוכנים והראו התנהגות אלימה שייכים לקבוצת ה- Negative" "(FN) False ונבדקים שאובחנו כלא מסוכנים ושלא ביצעו התנהגות אלימה בפועל שייכים לקבוצת ה-" Negative."(TN) True 4
לוח 1: קשרים אפשריים בין התנהגות אלימה בפועל לסיווג על פי המבחן ביצעו התנהגות אלימה בפועל לא ביצעו התנהגות אלימה בפועל False Positive קבוצה 1: אובחנו כמסוכנים True Positive True Negative קבוצה 2: אובחנו כלא מסוכנים False Negative מספר מדדים "מסורתיים" להערכת דיוק המבחן מסתמכים על ארבע הקבוצות שהוגדרו בלוח 1: רגישות :(sensitivity) המידה שבה מבחן מצליח לזהות את אוכלוסיית המטרה, מבלי להתייחס לשאלה עד כמה המבחן מזהה מקרים כשייכים לאוכלוסיית מטרה בעוד שאינם כאלה, ובדוגמה שלנו: נבדקים שיבצעו התנהגות אלימה בפועל. לכן, המכנה של המדד כולל את סך הנבדקים שביצעו התנהגות אלימה בפועל, והמונה כולל את הנבדקים שסווגו כמסוכנים על-ידי המבחן: (TP+FN),P (Test + Dangerous +) =TP / ובמונחים של הסתברות מותנה: ההסתברות שהמבחן יס ווג אדם כחיובי (אלים), בהינתן שבמציאות אכן ביצע התנהגות אלימה. ספציפיות :(specificity) יכולתו של מבחן להבחין בין אוכלוסיית המטרה לאוכלוסיות אחרות, או, במילים אחרות, עד כמה הוא מזהה אוכלוסיות שאינן אוכלוסיית המטרה ככאלה. מדד זה איננו מתייחס לשאלה עד כמה המבחן מזהה נכון מקרים השייכים לאוכלוסיית המטרה. לכן, המכנה של המדד כולל את כל הנבדקים שאינם כלולים באוכלוסיית המטרה, כלומר כל הנבדקים במדגם שזוהו כלא מסוכנים, ואילו המונה מורכב מהנבדקים שאינם מסוכנים בפועל. ובמונחים של הסתברות מותנה: FP),P (Test - Dangerous -) = TN / (TN + ההסתברות שמבחן יסוּוג אדם כלא אלים, בהינתן שבמציאות אכן לא ביצע התנהגות אלימה. אחוז ניבויים: בעבר נטו להעריך יעילות של מבחן על סמך "אחוז הניבויים הנכונים" מתוך כלל הניבויים (1996.(Borum, זהו מדד שמאחד נתונים המתייחסים לרגישות ולספציפיות, ומאפשר לדעת את אחוז ה"פגיעות" מתוך כלל הניבויים שנעשו במבחן:.(TP+TN)/(TP+TN+FP+FN) הבעיה המרכזית בשימוש ב"אחוז הניבויים", ב"רגישות" וב"ספציפיות" היא שמדדים אלה רגישים לשיעור בסיסי של האלימות באוכלוסייה rate) (base ולהעדפה או לנטייה של הבוחנים ל טעוּת מסוג מסוים (1988 Swets,.(Borum, ;1996 Mossman, ;1994 ב"שיעור בסיסי" הכוונה לאחוז של נבדקים אלימים באוכלוסייה. ב"העדפה של בוחנים ל טעות מסוג מסוים" הכוונה לשימוש בספי החלטה שונים, גבוהים 1 או נמוכים, המשקפים העדפה אפריורית לטעויות ניבוי מסוג I או מסוג.II לדוגמה, נניח מדגם שבו רק 5% מהנבדקים אלימים. איש מקצוע א', המנבא תמיד "לא מסוכן", יקבל על פי "אחוז הניבויים הנכונים" 95% הצלחה, אף שלא זיהה אפילו נבדק מסוכן אחד!!! ואילו בוחן זהיר יותר (ב') שזיהה 20% מהנבדקים כמסוכנים, יכול להגיע למרב של 85% הצלחה. לוח 2 מציג דוגמה לניבוי בעזרת "אחוז הניבויים הנכונים", "רגישות", ו"ספציפיות" של שני אנשי המקצוע בשני שיעורים שונים של אלימות: מקרה שבו שיעור האלימות הוא 5% ומקרה בו שיעור האלימות הוא 15%. 5 דוגמה בהשראת.Mossman, 1994 1
ההבדל בין הניבויים של אותו בוחן (בין החלק העליון לחלק התחתון של הלוח) משקף השפעה של שיעור האלימות על המדדים. ההבדלים בין הבוחנים (לרוחב הלוח) משקף השפעה של ספי החלטה שונים. ניתן לראות שבמקרה זה שיעור בסיסי שונה של אלימות השפיע על "אחוז הניבויים הנכונים" של שני הבוחנים ועל ה"ספציפיות" של בוחן ב' (העובדה שאין השפעה על רגישות היא מקרית, וניתן לחשוב על דוגמאות רבות שבהן תהיה גם השפעה על הרגישות). בנוסף, אנו רואים בהשוואה בין שני הבוחנים, שספי החלטה שונים השפיעו על כל שלושת המדדים. לוח 2: התנהגות המדדים: ביצוע אופטימלי של "רגישות", "ספציפיות" ו"אחוז הניבויים הנכונים" המרביים בשיעור בסיסי של 5% ו- 15% נבדקים אלימים במדגם בוחן ב' (ניבא 20% מהמקרים כמסוכנים) בוחן א' (מנבא תמיד "לא מסוכן") שיעור בסיסי של 5% אחוז ניבויים נכונים : 85% 95% TP+TN / TP+TN+FP+FN 100% 0% רגישות: (TP+FN) TP / 84% 100% ספציפיות: FP) TN / (TN + 95% 100% 94% 85% 0% 100% שיעור בסיסי של 15% אחוז ניבויים נכונים: TP+TN / TP+TN+FP+FN רגישות: (TP+FN) TP / ספציפיות: FP) TN / (TN + חשוב לציין שאין מדובר ב"התפלפלות" סטטיסטית, שכן עניין זה נוגע ישירות לרמות הערכית והמעשית של החלטה על שימוש בכלי מסוים. הבחירה בכלי מסוים לניבוי או להערכת אלימות, ב"סף ההחלטה" של הכלי, ובסוג המסקנות שאנו מוכנים להסיק ממנו, נוגעת ישירות לשאלות: כמה FP (במקרה שלנו פגיעה בזכויות עקב הערכה שגויה על מסוכנות) החברה מוכנה לשאת בשם שמירה על הביטחון האישי, וכמה FN (במקרה שלנו פגיעה בביטחון האזרחים) החברה מוכנה לשאת בשם שמירה על זכויות אדם (2000.(Kapur, שאלה זו מקבלת משנה תוקף לאור ממצאים המראים כי קלינאים, באופן כללי, נוטים "לניבוי יתר" (1999.(Buchanan, נרצה להימנע ממצב שמדד הדיוק ישקף מקרה ספציפי של שיעור בסיסי וסף החלטה מסוימים, ונעדיף מדד שייתן מידע כללי ככל האפשר. פתרון אחד לבעיה זו יוצג בסעיף הבא. ד. שימוש ב- ROC (Receiver Operating Characteristic) כיום הולך וגדל שימוש במדד דיוק מתוך "תאוריית גילוי אותות" Theory) (Signal Detection הנקרא Borum, 1996; Dolan & Doyle, 2000; Mossman, 1994;) (Receiver Operating Characteristic) ROC,(Swets, 1988 מדד שבו נשתמש במידת האפשר גם בדוח זה. השימוש בניתוח ROC מקובל בתחומים רבים העוסקים בדיאגנוסטיקה, בהם המחקר הקרימינולוגי עוסק בהערכת סיכון להתנהגות אלימה. 6
היתרון בשימוש ב- ROC נעוץ בכך שהוא מאפשר תיאור של דיוק הניבוי באופן שאינו מושפע מה- base rate ו/או מנטייה של אנשי מקצוע להשתמש בסף החלטה מסוים ובכך להעדיף סוג מסוים של טעות 1988) Swets,.(Rice & Harris, 1995; Borum, 1996; Dolan & Doyle, 2000; עקומת ה- ROC היא פונקציה של רגישות ושל ספציפיות (ראו תרשים 1). העקומה מראה את היחס בין הרגישות לספציפיות בספי החלטה שונים: יחס המבטא באופן עקיף את החליפין בין רגישות לספציפיות. כל נקודה על העקומה מייצגת את הקשר בין הרגישות לספציפיות בסף החלטה מסוים. ספי ההחלטה יכולים להיות תוצאה של מספר מחקרים שונים, כאשר בכל מחקר נעשה שימוש בסף החלטה אחר, או של חישוב ספי החלטה שונים מתוך אותו מחקר. תרשים 1: עקומת ROC ספי החלטה אפשריים :AUC=0.50 אין יכולת ניבוי שימוש בפרוצדורות המביאות בחשבון את השינוי ברגישות ובספציפיות כתוצאה מהעדפה של סוג מסוים של טעות חשוב במיוחד, בבחינת: "איננו יכולים שלא לעשות טעויות בניבוי, אולם אנו יכולים להחליט איזה סוג טעויות ברצוננו לעשות". העקומה מאפשרת קבלת מידע מפורט על התנהגות הכלי בספי החלטה שונים. כדי להשוות בין כלים שונים, נשתמש בשטח שמתחת לעקומה כמדד Curve-AUC),(Area Under the הממצע את דיוק הניבוי של המבחן בספי החלטה שונים. השטח מתחת לעקומה נע בין 0.50 ל- 1. לדוגמה, שטח מתחת לעקומה של,(AUC=0.50) 0.50 משמעו כי אם נחלק את המדגם לאלימים וללא אלימים (על פי הקריטריון), ונבחר מתוך כל קבוצה באופן רנדומלי שני נבדקים, ואם נחזור על הדגימה פעמים רבות, הרי שב- 50% מהמקרים, שני הנבדקים יהיו מסווגים לקבוצות מקבילות (אלימים ולא אלימים) גם על פי המבחן שבו אנחנו משתמשים. במילים אחרות, שטח של 0.50 מראה כי המבחן איננו מוסיף מידע התורם 7
לניבוי הקריטריון (1982 NcNeil,.(Hanley & באופן דומה שטח של 0.80 משמעו שב- 80% מהמקרים (של דגימות רבות), שני הנבדקים יסווגו נכון גם על פי המבחן שבו אנו משתמשים. ומכאן ששטח של 1 מצביע על ניבוי מושלם. נציין כי בחלוקה לשתי קבוצות על פי הקריטריון, המדד למעשה מנטרל השפעה של שיעור האלימות באוכלוסייה. עם זאת, חשוב לזכור כי אחוז האלימים/אובדניים באוכלוסייה הוא לרוב נמוך בהרבה, ולכן בשטח של 0.80 מתחת לעקומה אין הכוונה כי המבחן מצליח בניבוי ב- 80% מהמקרים. ניתן להסביר את המשמעות של השטח מתחת לעקומה גם במונחים של הבדלים בין התפלגויות (התפלגות הנבדקים האלימים והתפלגות הנבדקים הלא אלימים ביחס לציון המבחן). על-פי ניסוח זה, שטח של 0.5 משמעו ששתי ההתפלגויות אינן נפרדות, אלא חופפות באופן מלא, ולכן אי-אפשר להשתמש במבחן כדי להחליט האם נבדק אלים. לעומת זאת, שטח של 1 משמעו שאין שום חפיפה בין שתי ההתפלגויות, ולכן ניתן לעשות קטגוריזציה מושלמת בעזרת המבחן. בלי להיכנס למורכבות החישוב של המדד, חשיבותו מבחינתנו היא שהוא מאפשר לאמוד ללא תלות בשיעור ההתחלתי, וללא תלות בהעדפתו של איש המקצוע סוג מסוים של טעות. הדיוק את בשנים האחרונות מרבים לפרסם ממצאים במונחים של "שטח מתחת לעקומה", אולם, מחקרים מוקדמים יותר משתמשים במדדים d ו- r. המדד d מאפשר תיאור של גודל האפקט, כלומר, את המרחק בין ממוצע הקריטריון של שתי הקבוצות שסווגו על-ידי המבחן: "אלימים ו"לא אלימים", במונחים של סטיות תקן. מקובל להתייחס לגדלים 0.6 0.2, ו- 1.2 כגודל אפקט נמוך, בינוני וגבוה בהתאמה (1988.(Cohen, המדד r מתייחס למתאם correlation) (Point-Biserial בין סיווג המבחן לבין סיווג הקריטריון, ומקובל להתייחס לגדלים 0.3 0.1, ו- 0.6 כמתאם נמוך, בינוני וגבוה, בהתאמה (1988.(Cohen, כדי לאפשר השוואה בין מחקרים וכלים שונים נעשה טרנספורמציות של המדדים השונים למדד של שטח מתחת לעקומה (ראו נספח 1). נדגיש כי כדי לבצע בצורה מדויקת טרנספורמציה בין d,auc ו- r, ו/או למצע את המדד,AUC קיימת דרישה לקיום שתי הנחות: התפלגויות נורמליות ושוויון שונויות של ציוני המבחן. אין אפשרות במסגרת סקירה זו לבדוק את קיום ההנחות בכל המחקרים, ולכן, יש להביא בחשבון, שכל טרנספורמציה ו/או ממוצע משוקלל מהווים הערכה גסה בלבד. כדי להבחין בין מקרים שבהם נעשה שימוש במדד מקורי לבין מקרים שבהם נעשו טרנספורמציה או מיצוע על-ידינו נשתמש ב ס מּנים הבאים: - AUC יסמן מדד מקורי של שטח מתחת לעקומה. כאשר הוא יתאר ממוצע או "ניתוח-על" מקורי, נציין זאת בנפרד. - MAUC יסמן ממוצע משוקלל שנעשה על-ידינו באופן שתואר בנספח 1. ל- AUC. r או יסמן טרנספורמציה מ- d - AUCt 8