שימוש במבחנים לקבלת החלטות

מבחנים ממוחשבים ואדפטיביים דר' יואל רפ ראמ"ה הרשות הארצית למדידה והערכה בחינוך 1

נושאי הלימוד: מבחנים ממוחשבים תיאור ומחקר מבחנים אדפטיביים טכנולוגיות מתקדמות בפריפריה של המבחן סכום.I.II.III.IV 2

נושא I: מבחנים ממוחשבים תיאור ומחקר הגדרת תחום הדיון מאפיינים ויתרונות של מבחנים ממוחשבים חידושים בפריטים במבחנים ממוחשבים 3

רקע הפיתוח המואץ של טכנולוגיות המחשב בעשורים האחרונים הביא לידי הרחבת היישום והשימוש במבחנים ממוחשבים לצורך מדידת תכונות פסיכולוגיות, ידע )רמת שליטה בתחום דעת מסוים(, כישורים, יכולות, ומיומנויות שונות. מבחנים ממוחשבים משמשים במערכות מיון )ללימודים, עבודה, צבא(, בחינוך, בקליניקה ובמעבדה הפסיכולוגית )לשם אבחון, מחקר( ועוד. 4

מהם מבחנים ממוחשבים? הטכנולוגיה בשרות המדידה: מבחנים ממוחשבים הינם מבחנים המועברים באמצעות מחשב. במבחנים אלו המחשב מחליף את הבוחן האנושי, ולעיתים גם את מפתח המבחן, בודק המבחן, מעבד נתונים של המבחן ועוד.. במבחנים ממוחשבים קיימת תוכנה ייעודית המנהלת את המבחן, מציגה לנבחן את השאלות, והנבחן נדרש להשיב על ידי אחד מאמצעי הקלט המקובלים )כגון: מקלדת, עכבר(. מבחן ממוחשב יכול להיות גם מתוקשב, כלומר, מועבר באמצעות רשת האינטרנט, לנבחנים הנמצאים בבתיהם או במרכזי בחינה ברחבי הארץ/העולם. 5

מבחנים ממוחשבים )דוגמאות( 6 מבחני מיון למוסדות חינוך והשכלה גבוהה DAT מבחן מיון כלל ארצי לרפואת שיניים,GRE,TOEFL,GMAT בארצות הברית: בארץ: אמיר"ם, מפע"ם )המרכז הארצי לבחינות ולהערכה( מבחני מיון אישיות ואבחון לארגונים ולמקומות עבודה. מבחני הסמכה בתחומי הרפואה, האדריכלות וראיית חשבון )ארה"ב( מבחנים לאבחון ולאיתור לקויות למידה )מת"ל( מבחנים בתחום החינוך: המשוב במערכת החינוך האמריקאי NAEP בגרסה הממוחשבת במתמטיקה, במדעים ובכתיבה I-skills הבינלאומיים, מבחן PISA מבחן הקריאה הדיגיטאלית במבחני לאוריינות מחשב )של ה- ETC (. מבחן הבגרות בגיאוגרפיה בארץ )משרד החינוך באמצעות מטח( כלים להערכה מעצבת עבור מערכת החינוך )מערכת "אופק" של מטח(

מאפיינים ויתרונות של מבחנים ממוחשבים המחשב מאפשר ליישום סוגים חדשים של מבחנים המודדים קשת רחבה של ביצועים שקשה, או שלא ניתן, לבחון במבחני נייר ועפרון. מגוון סוגי פריטים וגריינים חדשניים, אותנטיים, דינאמיים מסייעים בהמחשה )למשל, וידאו, מפות תלת ממדיות ורב שכבתיות, תנועת גופים, פריטי השמעה ועוד(. דוגמה לפריטי השמעה, דוגמה גריין חדשני, סימולציה מגוון אופנויות במתן התגובה )לחיצה על מקש, גרירה ושחרור על ידי עכבר, מסך מגע, עפרון אלקטרוני, השבה בעל פה למיקרופון ועוד(. תיעוד מפורט של מהלך פתרון המטלות. מדידת זמני תגובה ומדדים אחרים רלבנטיים לתכונה הנמדדת. אינטראקטיביות וסימולציה )למשל, מתן רמזים לפתרון בעיות, שנוי מהלך המבחן כפונקציה של תגובות הנבחן, מטלות של הדמיית סביבות מציאות ועוד(. 7

מאפיינים ויתרונות של מבחנים ממוחשבים )2( השימוש במחשב מאפשר מדידה טובה יותר, ממוקדת יותר, מהימנה יותר ותקפה יותר של מגוון רב יותר של מיומנויות קוגניטיביות וכישורים שאי אפשר, או שקשה הרבה יותר למדוד באמצעות מבחני נייר ועפרון דוגמאות: עריכת טקסט, אמידה, בעיות מורכבות, התמודדות בסביבות מציאות וירטואלית, מיומנויות חקר, כשורי למידה 8

מאפיינים ויתרונות של מבחנים ממוחשבים )3( סטנדרטיזציה של תנאי הבחינה והעלאת ההגינות תנאי היבחנות אחידים יותר אינדיבידואליזציה אדפטציה )הסברים, הקצאת זמן, תרגול(. )התאמה( לא עוד מבחן סדרתי קשיח המוגדר מראש:» בניית מבחן בזמן אמת on-line» הסתעפות במהלך המבחן )המתוכננת מראש על פי קריטריונים שונים כגון תגובות הנבחן(» מודולאריות: נוסח מבחן ייחודי לכל נבחן )לדוג' על ידי שינוי סדר הצגת השאלות, הפרקים או המסיחים, דגימת שאלות שונה לנבחנים שונים וכו'(. מבחן אדפטיבי: התאמה של רמת הקושי של המבחן לרמת היכולת של הנבחן. התאמה בבחירת השאלות, מתן רמזים הדרגתיים לפתרונן וכו'. התאמות לצרכים מיוחדים: הסברים, גודל פונט, שפת בחינה, הקראה, אפשרות לשימוש במחשבון, מילון או מעבד תמלילים, הקצאת הזמן במבחן התאמות 9

מאפיינים ויתרונות של מבחנים ממוחשבים )4( יתרונות "פסיכולוגיים" ידידותיות לנבחן: מגביר מוטיבציה להיבחנות ומפחית חרדת מבחנים. מתן משוב לאחר כל שאלה ובתום המבחן: מגביר מוטיבציה והישגים צמצום פגיעה בדמוי העצמי: בעיקר לנבחנים חלשים במבחן אדפטיבי. יתרונות אדמיניסטרטיביים )ניהול המבחן( וטכניים קיצור זמן המבחן משוב מיידי לנבחן ודיווח מיידי לגוף הבוחן. צמצום אפשרויות ההעתקה )מגביר את מהימנות המבחן(. ייעול תהליכים ניהוליים )הרשמה, בחירת מועד מבחן(. צמצום כוח האדם בתפעול המבחן )בוחנים/משגיחים/בודקים(. בטול הצורך בדפוס, אריזה, הפצה, שינוע החוברות, והחזרת החומר למרכז בחינה. צמצום תקלות ובעיות הנגרמות מגורמי אנוש 10

מבחן ממוחשב )המחשה( 11

אוריינות מדעית ומדע: איתור מידע מדעי חיפוש מידע באינטרנט בתחום המדעים דוגמה מתוך מבחן ממוחשב TRE( )NAEP 12

13 אוריינות מדעית ומדע תפעול ניסוי מדעי דוגמה מתוך מבחן ממוחשב TRE( )NAEP

חידושים בתחום הפריטים במבחן הממוחשב )innovative item format( בתחילת דרכם )שנות ה- 70 של המאה הקודמת(, כללו המבחנים הממוחשבים בעיקר פריטים מסורתיים )וסגורים( והיוו למעשה גרסאות ממוחשבות של מבחני נייר ועפרון שהוצגו על מסך המחשב. ערכם המוסף של המבחנים הממוחשבים הראשונים הצטמצם להיבטים של ציינון מיידי, שיפור הסטנדרטיזציה, ולהיבטים נוספים במעטפת המבחן )דיווח, מדידת זמן וכו'(. בשנים האחרונות, המבחנים הממוחשבים מכילים פריטים מתוחכמים, חדישים, דינאמיים, עשירים, ואותנטיים יותר. החידושים הם בכל הרמות: החל בשכלולים פשוטים של פריטים מסורתיים וכלה בפריטים המהווים סביבות מדומות ועשירות. 14

דוגמאות לחידושים בפריטים סגורים סימון התשובה הנכונה במקום בחירת מספר התשובה הנכונה, הנבחן מסמן את התשובה הנכונה ממש באמצעים שונים. כך, מתבטל הצורך להעתיק את מספר התשובה לגיליון תשובות ולהתאים בין התשובה הנבחרת ובין המספר המתאים לה. "הדגשה בטקסט" דוגמה: "סמן במרקר בקטע הקריאה )הטקטס( את המשפט שמסכם באופן הטוב ביותר את הקטע". סוג כזה של פריטים מאפשר בחינה של יכולת ניתוח של טקסט באורח טבעי ואוטנטי יותר. פריטי רב-רב ברירה מאפשר בחירת מספר תשובות או מספר שילובים בין תשובות. דוגמה 15

חידושים בפריטים סגורים: שימוש בעכבר בפעולת drag and drop 16 פריטים המאפשרים סדור וארגון מחדש של מידע, הגדרת קשרים ויחסים היררכיים, בניית צורות וכו'. בנייר ועפרון, מסמנים מספרים על ידי המשפטים. במחשב, היכולת לגרור את הפריטים מאפשרת לסדר אותם פיזית )יותר אותנטי(. דוגמה דוגמאות לשימושים בעכבר וב- "גרור ושחרר": שילוב משפט במיקום מתאים בטקסט ארגון של משפטים, גרפים, ביטויים מתמטיים כך שייצרו הוכחה. סדור תמונות ומשפטים לפי סדר הגיוני. הרכבת פאזלים. שאלות בגיאומטריה בהן נדרש להזיז גופים למתוח תיכונים ואנכים, להרכיב גופים חדשים. דוגמה סדור דברים במבנים היררכיים )קטגוריות(, מיון וסיווג בסדורים שונים. דוגמה

חידושים בפריטים פתוחים )דוגמאות( 17 פריטים פתוחים המתאימים להעברה במחשב וניתנים לבדיקה אוטומטית ומידית )מספר סופי ומוכר של אפשרויות תגובה(: פריטי "תיקון" מציגים )משמיעים או מראים( מילה/משפט/תוכנית מחשב עם שגיאות והנבחן צריך לתקן אותו )למשל: לתקן את הדקדוק, לערוך אותו באופן נכון, למצוא את הבג בתוכנית המחשב( פריטי השלמה )השלמת משפט, מציאת פתרון מספרי לבעיה וכיוב'( שאלות "אומדן" במתמטיקה מאוד קשה ליישם במבחני נייר ועפרון שכן אין שליטה על זמן הצגת הפריט ואי אפשר למדוד זמן ביצוע. דוגמה השלמת תרשים או ציור הוספת עמודה, הוספת נתון חסר, ציור עקומה וכיוב'.

חידושים בפריטים פתוחים )2( כתיבת חיבור בסיוע אמצעים ממחושבים של עריכה, כולל cut,,copy, paste עם/בלי אמצעי עזר כגון מילון, תאוזורוס, חיפוש באינטרנט ועוד. אפשרות למעקב אחר המילים שבהן נעזר הנבחן. אפשרות לבדיקת החיבור באופן אוטומטי, על ידי מערכות בדיקה ממוחשבות 18

תרחיש פתרון בעיות )דוגמה לפריט פתוח מורכב( פריט ייחודי למבחנים ממוחשבים, מכיל רכיבים של סביבה מדומה )ווירטואלית( פריט רגיל מציג לנבחן גירוי שעליו מתבקש להגיב. בפריטי תרחיש, הנבחן מטפל בבעיה, "מקרה" או "תיק" מתחילתם ועד סופם. בפריטים מורכבים יותר, הטיפול מתחיל בשלב האבחון וממשיך בטיפול בבעיה, כאשר השעון "מתקתק" בדומה למציאות. הטיפול בבעיה כולל אפשרות לקבל/לאסוף נתונים נוספים )תוצאות מעבדה, דגימת קרקע( על פי דרישת הנבחן, בדומה למציאות. מיצוי מרבי של האפשרויות הגלומות בפריטים מסוג זה הוא 19 במערכות מבחנים שבהם הנבחן מצוי במציאות מדומה מורכבת ( בדומה למשחקי מחשב כמו )SIMS תוך תיעוד הפעולות שמבצע. היתרון העיקרי של פריטים אלו טמון באותנטיות שלהם והדמיון הרב בין המטלה למציאות שעמה צריך הנבחן להתמודד בפועל

פריטי תרחיש פתרון בעיות )דוגמאות( מבחן להסמכה לרפואה בארה"ב : ה- United States Medical National Board of Medical של ה- Licensing Exam,Examinees שבו נבחן מקבל תיאור של חולה עם סימפטומים מסוימים ועליו לאבחן ולשלוח אותו לבדיקות. הנבחן מקבל את תשובת המעבדה וצריך להתאים לחולה טיפול. כל ההליך מתרחש תוך כדי תקתוק שעון וחישוב עלויות הבדיקות. מבחן הארכיטקטורה ה- Architecture Registration National Council of Architectural של ה- Examination Registration Board שבו נבחן צריך לתכנן בית מיסודו על פי מפרט מסוים, בעזרת תוכנות מחשב ייעודיות לתכנון בתים. מבחן רואי החשבון האמריקאיים: Uniform CPA Examination שבו הנבחן נדרש לטפל בתיק תוך שימוש באמצעים ממוחשבים. 20

מבחן להסמכה לרפואה בארה"ב )דוגמא( 21

מבחן להסמכה לרפואה בארה"ב )דוגמא( 22

האם הפריטים החדישים משפרים את התוקף? רקע:,Messick )1988(, טען כי "מבחנים הם כלים לא מושלמים למדידת מבנים )פסיכולוגיים(". לטענתו, או שהם מותירים מחוץ למבחן היבטים שהיו צריכים להימדד בו, או שהם מכלילים במבחן היבטים שלא היו צריכים להימדד בו. אחת הביקורות כנגד מבחנים )בעיקר סגורים( היא כי סיטואציית המבחן מלאכותית למדי ולא מודדת בצורה קרובה למציאותית ידע, מיומנויות ויכולות Abilities( Knowledge, Skills & או בקיצור.)KSA קיים פער בין המטלות אותן יש לבצע במבחן לבין המטלות הנדרשות לאחר מכן בעולם האמיתי )הקריטריון(. 23

האם הפריטים החדישים משפרים את התוקף? )2( לפריטים החדישים פוטנציאל להתגבר על הפער שתואר )בין המטלות לבין הקריטריון(. מדוע? המטלה מייצגת טוב יותר את המבנה הפסיכולוגי או המציאות שמבקשים למדוד. המטלות יותר אוטנטיות ויותר דומות למטלות בעולם האמיתי )הקריטריון( על פניו, דומה כי הפריטים החדישים משפרים את תוקף המבנה, התוכן והקריטריון של המבחן. עם זאת, מדידה באמצעות פריטים כאלו גם עלולה לפגוע בתוקף. זאת בשל שונות בלתי רלוונטית לתכונה הנמדדת ( construct irrelevant variance או בקיצור )CIV הנובעת ממידת ההיכרות של הנבחן עם מחשבים/תוכנות וכו'. 24

מחקר על תוקפם של פריטים חדישים המחקר בתחום זה אינו רב. מרבית הפרסומים עסקו באופן פיתוח המבחנים )תוקף מבנה( ופחות בבדיקת תוקף הקריטריון ( & Huff.)Sireci 2001 תזכורת: מבחנים ממוחשבים פותחו תחילה כחלופה למבחני נייר ועפרון )נע"פ(. לכן, רוב המחקרים התמקדו במידת המקבילות בין הגרסאות )תוקף למול גרסת נע"פ(. לרוב, נמצא כי המאפיינים הפסיכומטריים של הגרסה הממוחשבת היו גבוהים במקצת מאשר גרסאות נע"פ. היתרון של המבחנים הממוחשבים נמצא בעיקר במבחנים קצרים ופחות במבחנים ארוכים.)Sireci & Zenisky, 2006( 25

מחקר על תוקפם של פריטים חדשים )דוגמא( )2001(,Bennet & Sebretch בדקו פריטים חדישים שנכללו ב- GRE הממוחשב. ככלל, נמצא כי הם היו בעלי תוקף גבוה יותר למול הקריטריון של ציוני קולג', בהשוואה לפריטים בנע"פ. כמו כן, נמצא כי הנבחנים אהבו יותר אותם פריטים והעריכו אותם כהוגנים יותר )תוקף נראה(. הממצא החשוב ביותר במחקרם היה כי הפריטים החדישים הצליחו למדוד מיומנות קוגניטיבית חדשה. החוקרים הצליחו להגדיל את תוקף המבנה על ידי הידוק הקשר בין התיאוריה הקוגניטיבית על פיה בנו את המבחן לבין מה שנמדד בפועל במבחן. 26

מחקרים על תוקפם של פריטים חדישים: האם התוקף נפגע בשל? CIV מחקר מועט עסק בשאלות: באיזה מידה הצורך לתפעל מבחן המתבסס על שימוש באמצעים ממוחשבים פגע בתוקף המבחן )הכניס CIV למדידה(? באיזו מידה מבחנים ממוחשבים פגעו, אם בכלל, בתוקף במובן הרחב של המילה, כולל את הפרשנות הנעשית על בסיס ציונים במבחנים? לרוב נמצא כי היכרות עם מחשב ורמת השליטה במיומנויות מחשב לא משפיעה באופן משמעותי על הביצוע במבחן )לדוגמה, מבחן ה- TOEFL החדש(. 27

נושא :II מבחן אדפטיבי ממוחשב פיתוח מבחן אדפטיבי מהלך מבחן אדפטיבי יתרונות וחסרונות המבחן האדפטיבי הממוחשב 28

מבחן אדפטיבי - מהו?. שיטת בחינה יחידנית: כל נבחן מקבל סדרה אחרת של פריטים המבחן "מתאים" עצמו ליכולתו של הנבחן: רמת הקושי של הפריטים במבחן מותאמת לרמת היכולת /הידיעות של הנבחן נבחנים "טובים" יקבלו סדרת שאלות יותר קשות יחסית נבחנים מתקשים יקבלו סדרת שאלות קלות יחסית ככל שהמבחן מתקדם, המערכת מזהה בקירוב טוב יותר את רמתו של הנבחן ובוחרת עבורו שאלות יותר ויותר מתאימות. כך, לא "מבזבזים" למדידה זמן ומשאבים על פריטים שממילא לא יתרמו 29

מבחן אדפטיבי מבוסס על תיאוריית התגובה לפריט )Item Response Theory - IRT( פיתוח מואץ של מחשבים בשנות ה- 70 וה- 80 של המאה הקודמת במקביל לפיתוח תורת התגובה לפריט )*IRT( הביאו להבשלה של מבחנים אדפטיביים והפיכתם לישימים. יתרון בולט של מבחן המבוסס על תיאוריית התגובה לפריט הוא היכולת לבטא ציוני נבחנים על סולם משותף גם אם הם נבחנו בסדרות שונות של פריטים. דבר המאפשר להשוות בין ציוניהם*. על בסיס ה- IRT, אומדן הציון )רמת היכולת( של הנבחן לוקח בחשבון גם את רמת הקושי ורמת ההבחנה של הפריטים שעליהם השיבו הנבחנים. *נושא זה נדון בהרחבה בהרצאה קודמת )יסודות תיאוריית התגובה לפריט, בסעיף העוסק באמידת תטא(. 30

מהלך מבחן אדפטיבי המבחן מתחיל בפריט או במספר פריטים ברמת קושי בינונית. בכל שלב, אומדים את רמת היכולת של הנבחן על פי הפריטים עליהם השיב עד כה. בוחרים את הפריט הבא מתוך מאגר פריטים שהוכן מראש )או שמיוצר בזמן אמת(. הפריט המתאים ביותר הוא זה שרמת הקושי שלו קרובה לרמת היכולת של הנבחן. מחשבים מחדש את אומדן רמת היכולת, תוך הכללת תשובת הנבחן לפריט הנוסף. דוגמים פריט נוסף על פי אותם כללים, מעדכנים את אומדן רמת היכולת. ועל פי תגובת הנבחן בכל שלב, מחשבים גם את טעות האמידה של רמת היכולת. מציגים שאלות עד שרמת הדיוק של האומדן הגיע לסף שנקבע..1.2.3.4.5.6.7 31

מהלך של מבחן אדפטיבי )דוגמא( 32

קובץ פלט של מבחן אדפטיבי )דוגמא( index code a b c key res bin theta pvar res-time 1 SC285 0.98-0.21 0.17 3 3 1 0.303 0.822 42 2 SC250 0.72-1.08 0.33 2 2 1 0.469 0.730 38 3 SC732 0.91 0.87 0.19 3 3 1 0.632 0.640 53 4 SC410 0.76 1.12 0.23 2 2 1 0.868 0.570 35 5 SC268 1.13 0.25 0.18 3 1 0 0.358 0.294 20 6 SC723 1.29 0.11 0.25 2 1 0 0.023 0.192 39 7 SC373 0.97-0.02 0.13 1 3 0-0.260 0.138 58 8 SC315 1.39-0.37 0.21 2 2 1-0.186 0.123 48 9 RS185 1.23-0.21 0.09 4 2 0-0.352 0.100 49 10 RS188 1.02-0.30 0.16 4 3 0-0.646 0.074 88 11 RS326 0.61-0.68 0.19 4 1 0-0.789 0.064 89 12 RS184 0.85-0.54 0.05 2 2 1-0.752 0.058 76 13 RS193 1.31-0.34 0.19 3 3 1-0.711 0.055 44 14 RS195 0.56-0.67 0.20 1 1 1-0.662 0.053 98 15 RS712 0.78-0.35 0.26 3 2 0-0.742 0.049 110 16 RC792 0.36-0.30 0.16 2 2 0-0.728 0.048 96 17 RC793 0.77-0.65 0.13 4 1 0-0.786 0.046 71 18 RC794 1.24-0.83 0.17 3 2 0-0.770 0.045 111 19 RC795 1.44-0.38 0.34 3 3 0-0.757 0.045 204 20 RC796 0.93-0.34 0.11 1 2 0-0.785 0.044 219 SUMMARY theta -0.785, pvar 0.044, score 86 33

יתרונות המבחן האדפטיבי אומדן מהימן ואחיד של היכולת בכל הרמות. חיסכון ניכר במספר הפריטים המוצגים לנבחן המדידה(. חיסכון בזמן העברת המבחן רמת קושי סובייקטיבית דומה לכל הנבחנים. )מבלי להתפשר על טיב )ניתן להסתפק בפחות פריטים(. אפשרות תכנון המבחן על ידי עריכת סימולציה של העברת בחינה על "נבחנים סינטטיים " הקטנת האפשרות להעתקה בין נבחנים )כל אחד מקבל פריטים אחרים(. סביבת מבחן רגועה וידידותית. 34

חסרונות המבחן האדפטיבי ברוב המבחנים הללו אין אפשרות לתקן תשובות. דורש מאגר פריטים גדול בכל רמות הקושי )משאבי פיתוח רבים, ובפרט במדינות בהם יש חובת פרסום פריטים(. דורש מדגמים גדולים יחסית של נבחנים אמיתיים לצורך אומדן הפרמטרים )המאפיינים הפסיכומטריים( של הפריטים. תהליך הכנה ארוך ומורכב דורש ידע רחב ב- IRT )אומדן פרמטרים, מאגר פריטים(. ובנושא מבחנים ממוחשבים לפיתוח המבחן. קושי להסביר את שיטת המבחן לציבור )חוסר אחידות בקושי המבחן, במקבץ הפריטים שבו ובאורכו( ושיטת חישוב הציונים. 35

נושא :III טכנולוגיות מתקדמות בפריפרית המבחן סביבות ממוחשבות תומכות מבחנים מחוללי פריטים מערכות לבדיקת שאלות פתוחות וחיבורים 36

סביבות ממוחשבות תומכות מבחנים סביבות לתמיכה בבנייה והרכבת מבחנים. מחוללי בחינות: מערכות להרכבה אוטומטית של מבחנים, נוסחים מקבילים מתוך מאגר פריטים קיים. מחוללי פריטים: מערכות לייצור )חיבור( אוטומטי של פריטים Generation( - Automatic Item יתואר להלן(. מערכות לניתוחי פריטים )תיאוריית המבחנים הקלאסית( ולאמידת פרמטרים )במסגרת תיאוריית.)IRT לדוגמה, תוכנת Bilog ולסימולציה של מהלך בחינות )על פי תיאוריית.)IRT 37

סביבות ממוחשבות תומכות מבחנים )2( סביבות לתמיכה בבדיקה אנושית של מבחנים עם שאלות פתוחות )גם באמצעות האינטרנט( יתואר להלן. מערכות לבחינה ובדיקה ממוחשבת של שאלות פתוחות ושל חיבורים יתואר להלן. מערכות תומכות למידה ותרגול, למתן משוב ללומד, למורה ולארגון. מערכות התומכות באדמיניסטרציה של המבחן )רישום נבחנים, קביעת מועדי מבחנים, קביעת תנאי ההיבחנות, הפצת המבחן, הפצת הציונים, ניתוח התוצאות, חיבור דוחות למוסדות וכיוב'(. מאגרי פריטים ומבחנים למשתמשים שונים )עם אפשרות לחיפוש ולאיתור פריטים על פי הנושאים, תת הנושאים, המיומנויות הנבדקות וכו'(. 38

מחוללי פריטים Generation( )Automatic Item רקע: 39 צורך לפתח פריטים רבים למבחנים ממוחשבים הנמצאים בשימוש לאורך זמן,GRE(,)GMAT במיוחד לאור חשש מדליפת פריטים. המערכת מקבלת פריט "מודל" ומייצרת פריטים דומים. מדובר בפריטים שאפשר להגדיר את מאפייניהם: מאפיינים תוכניים )כגון נושא, תת נושא(, מאפיינים מבניים וצורניים ומאפיינים פסיכומטריים )כגון רמת הקושי של הפריט(. יש ללמוד מראש מה קובע את רמת הקושי. פיתוח מערכות אלו נשענות על מחקר רב בפסיכולוגיה קוגניטיבית ועל ניתוח והבנה מעמיקים של המכניזם הקוגניטיבי שביסוד תהליכי למידה )אסטרטגיות, תהליכים, מבני דעת (. דוגמה מעט שונה: מערכת לחיפוש אוטומטי של קטעים להבנת נקרא או קטעי מולטימדיה על פי מאפיינים המוגדרים מראש.

תהליך פיתוח מחוללי פריטים יש להבין את התהליכים הקוגניטיביים העומדים בבסיס פתרון הבעיות הנדונות. יש לגבש תיאוריה שתקבע את המכניזם הקוגניטיבי הנדרש לפתרון הפריט. בהתאם לכך, יש לאפיין מה גורם לפריט להיות קל או קשה. למשל, מחקרים רבים בפריטי ייצור פריט "בהזמנה" "רוטציה מנטאלית", או פריטי מטריצות לפי רמת קושי נדרשת. רייבן..1.2.3 40

תהליך פיתוח מחוללי פריטים )2( כאשר התיאוריה אינה מורכבת, אפשר להסתפק בתבניות של הפריטים. לשם כך יש להבין מה הם הרכיבים הגנריים בפריטים ומה הם הרכיבים המשתנים. דוגמה של פריט: תאר והסבר מה המשותף ל נמר ולאריה, הצג מקרה אחר דומה. התבנית בפריט זה מורכב משני אלמנטים מתחלפים )"נמר ו-"אריה"(. פתרון פריט מסוג זה מבוסס תמיד על אותו מהלך קוגנטיבי: הנבחן צריך לזהות את הקטגוריה המשותפת לשני המקרים ולהציג מקרה שלישי מאותה קטגוריה. בדוגמה זו, צריך לספק למערכת מבעוד מועד רשימה של מקרים זוגות של מקרים( שמתוכה תדגום ליצירת פריטים חדשים. )או 41

מערכות לבדיקת שאלות פתוחות וחיבורים רקע: במבחנים רחבי היקף )למשל במערכת החינוך( בדיקת שאלות פתוחות וחיבורים היא יקרה, איטית ומסורבלת ודורשת משאבי אנוש רבים. מאידך, חשוב לכלול פריטים פתוחים במבחנים כאלה. כמענה לבעיה זו פותחו מערכות תומכות לבדיקה של שאלות פתוחות: מערכות התומכות בבדיקה אנושית בזמן אמיתי הפצת תגובות הנבחנים באמצעות האינטרנט ישירות למרכזי בדיקה או לביתם של הבודקים. הקצאת הפריטים לבדיקה נעשית באופן אנונימי ואקראי. מתאפשרים תרגול ומיון בודקים, בדיקה רוחבית של המבחנים ועריכת השוואות מיידיות למהימנות של הבדיקה ולאיתור בודקים לא מהימנים או חריגים )מקלים/מחמירים(. המערכות מאפשרות בקלות גם לערוך בדיקה שנייה ושלישית )אף בו-זמנית(. מערכות לבדיקה אוטומטית על ידי מחשב בדיקה יחידה או כתוספת לבדיקה אנושית. הבדיקה יכולה להיות של תוצרים כתובים )לדוגמא, תוכנת e-rater הבודקת חיבורים ו- c-rater לבדיקת שאלות פתוחות קצרות(, ושל תוצרים שאינם כתובים )מוקלטים או מצוירים(. כיום משתמשים במערכות אוטומטיות במבחני ה- TOEFL,GMAT,GRE ועוד מבחנים ב- NAEP..1.2 42

דוגמה למערכת לתמיכה בציינון מתוקשב של שאלות פתוחות: OSN של ה- ETS Test Scan MC responses Separate/scan essays Prepare samples/benchmarks Train scorers Score Essays Combine MC and essay scores. Create Score Report Receive Score Report 43

מערכות לבדיקה ממוחשבת של שאלות פתוחות וחיבורים נבחין בין שלוש רמות של "פריטים פתוחים": 44.1.2.3 בדיקת פריטים פשוטים של השלמת משפטים או פריטים שהתשובה עליהם קבועה, ידועה מראש ולרוב קצרה. המערכת הממוחשבת צריכה רק להשוות בין תשובה זו לתשובה של הנבחן. בדיקת תוצרים מורכבים וקבועים )סטטיים( ש אינם משתנים כפונקציה של תגובות הנבחן. למשל, פתרון תרגילים מתמטיים )כולל שלבי ההגעה לפתרון(, כתיבת תוכנית מחשב, חיבורים, מטלת תכנון בניין )במבחן של אדריכלים(. בדיקה של תוצרים מורכבים ודינמיים )מטלות שמשתנות כפונקציה של ביצועי הנבחן(. למשל, מבחנים - אינטראקטיביים בהם אי אפשר לדעת מראש מה בדיוק יבחר הנבחן לעשות והמבחן עצמו משתנה כפונקציה של בחירות הנבחן ופעולותיו.

מערכות לבדיקה ממוחשבת של שאלות פתוחות וחיבורים )2( 45.1.2.3 עקרונות פיתוח של מערכת לבדיקת חיבורים: מיפוי המימדים והרכיבים החשובים בחיבור איכותי. למשל, תקינות התחביר, העושר הלשוני, שטף הכתיבה, הרלבנטיות של תוכן החיבור לנושא, היצירתיות וכד'. שלב זה מבוסס על תיאוריות ועל דעות מומחים לכתיבה ולהערכה. גיבוש מאפיינים מדידים ואובייקטיביים )שתוכנה תוכל לזהותם( לצורך מדידה אוטומטית של כל אחד מן המימדים שמופו בסעיף 1. לשם כך, יש לערוך ניתוח מעמיק של חיבורים רבים. למשל, מאפיינים מדידים של "תקינות התחביר" יכולים להיות המיקום והסדר של חלקי המשפט, שימוש הולם במילות יחס וכו'. על התוכנה להבחין בין תחביר תקין לבין טעויות במבנה התחבירי. קביעת אופן חישוב הציון של כל אחד מהמימדים לפי המאפיינים שעוצבו בשלב הקודם וקביעת אופן חישוב הציון הכולל מתוך ציוני המימדים )קביעת המשקלות(.

מערכות לבדיקה ממוחשבת של שאלות פתוחות וחיבורים )3( ישנן שיטות שונות לבחירת המימדים/הרכיבים הללו ולגיבוש משקלותיהם האופטימאליים. משתמשים בשיטות סטטיסטיות שונות, למשל, בתהליך של רגרסיה למול הציונים בחיבורים שנבדקו על ידי שופטים אנושיים )כך שהרכיבים ומשקולותיהם ינבאו הכי טוב את הציונים האנושיים(. בחלק מהמערכות מתחשבים בשיקולים תאורטיים לא רק כדי לקבוע את המימדים אלא גם את משקלותיהם. זאת על בסיס מחקר קוגניטיבי מעמיק שעוסק בשאלה מה עושה חיבור לחיבור טוב. 46

מערכות לבדיקה ממוחשבת של שאלות פתוחות וחיבורים )4( מחקרי תיקוף הראו כי ציוני חיבורים בבדיקה ממוחשבת תקפים למול קריטריונים חיצוניים רבים, ואף תקפים כמעט כמו הבדיקה האנושית עצמה. בעיה עיקרית: תוקף נראה להעריך נכון חיבור( )הציבור מתקשה להאמין שמחשב יכול בעיה אחרת: קושי לשקלל היבטים חשובים אחרים בחיבור, כגון היצירתיות שבו. בגלל ההיבטים המכונתיים של הבדיקה, נראה כי אנשים חכמים מאוד יצליחו "לרמות" את המחשב ולהשיג ציונים גבוהים בחיבורים שעין אנושית הייתה רואה מיד שהם אינם טובים. 47

:IV סכום קשיים ואיומים בפיתוח ובשימוש במבחנים ממוחשבים המבחנים הממוחשבים, לאן? שאלות פתוחות וחיבורים 48

49 קשיים ואיומים בשימוש ובפיתוח של מבחנים ממוחשבים קשיים בפיתוח המערכות: מורכב, יקר ואורך זמן. נדרש כוח אדם מקצועי ייחודי ורב תחומי לפיתוח. נדרש פיתוח מערכות שתתאמנה לסוגי חומרות ותוכנות שונות. במבחנים אדפטיביים או מבחנים עם מאגר פריטים יש לפתח מספר רב של פריטים )יחסית לאורך המבחן בפועל(. קשיים אדמיניסטרטיביים וטכניים : תקלות טכניות, קריסת מחשבים, איבוד מידע, וכיוב'(. בטיחות מידע )גניבת מבחנים, פריצה למחשבים, זיוף נתונים(. כל עוד אין תשתיות מתאימות, קיים קושי לבחון מספר נבחנים רב בו זמנית. טרם נמצא פתרון לבעיית זיהוי נבחנים )במבחנים מתוקשבים(.

קשיים ואיומים בשימוש ובפיתוח של מבחנים ממוחשבים )2( קשיים פסיכומטריים : 50 יש להיזהר מפגיעה בתוקף שאינן מיומנות מחשב(. )סכנה של CIV סכנת הצפה בנתונים )בפרט במבחנים אינטראקטיביים נדרשים מודלים טובים לארגון הנתונים. במבחנים אינטראקטיביים יש תלות רבה והטיה כלפי קבוצות שונות בין חלקי המבחן. וסימולטיביים(. חסר במחקר שיספק מידע והכוונה למפתחי מבחנים מה אפשר להפיק מתוך הפריטים החדישים. כשהמבחן הוא גרסה של מבחן מקביל בניר ועפרון נדרש כיול בין הגרסאות. לעיתים, קשה להסביר לנבחנים ולציבור הרחב היבטים שונים של המבחנים )אדפטיביות, אופן חישוב הציון ועוד(.

סכום מחשוב מבחנים מאפשר לייצר מבחנים סטנדרטיים יותר אך גם גמישים יותר, שיכולים להשתנות ולהתעצב בזמן אמת לפי הצורך. ההתאמה ליחיד מצד אחד, והסטנדרטיזציה בתנאי הבחינה מצד שני, מעלים את מהימנות )פחות טעויות מדידה( והוגנות המבחן. הפריטים מגוונים, דינמיים, מורכבים, אינטראקטיביים, "חכמים" יותר, ובתצורות תגובה מגוונות. המטלות אותנטיות יותר, דומות יותר לקריטריון במציאות מעלים את תוקף המבחן. תיעוד מדדים הקשורים לתהליכי חשיבה בפתרון המבחן מספק מדידה "עשירה" ומהימנה של התכונה הנחקרת. מדידת תהליכים קוגניטיביים ולא רק תוצרי חשיבה )הצצה לקופסה השחורה(. המבחנים ידידותיים יותר, פחות מאיימים על הנבחנים ובעלי תוקף נראה גבוה יותר. 51

המבחנים הממוחשבים לאן? המבחנים הממוחשבים נראים כהבטחה למדידה איכותית יותר, מהימנה יותר ותקפה יותר. לפי )2006(, Bennet השאלה אינה האם מבחנים ממוחשבים יתפסו את מקומם של מבחני ניר ועפרון אלא מתי. השינוי הוא בלתי נמנע והוא רק שאלה של זמן והפיכת התשתית הטכנולוגית לזמינה וזולה. נכון לעכשיו, עדיין היעילות הפסיכומטרית היחסית אינה מצדיקה את ההשקעה הכלכלית הגדולה הפריצה הגדולה עשויה לקרות כאשר יימצא פתרון לבעיות העיקריות שהוזכרו )המשאבים הרבים בפיתוח, בעיית זהות הנבחנים ובטיחות המבחנים(. 52

53 תודה

דוגמה שאלה מסוג רב-רב ברירה )דוגמה( פירה לאילן מוקצבים 26 שקלים לארוחת צהריים במנזה. בחרו משקה אחד, מנה עיקרית אחת ותוספת אחת מתוך הטבלה הבאה, אותם יוכל אילן לרכוש לארוחת הצהריים. תוספות 7 מנות עיקריות שניצל 11 - לימונדה משקאות 9 - פסטה 9 קוסקוס 8 ריזוטו - 10 עוף - 12 סטייק - 14 צמחוני - 7 מים מינרלים 5 פחית שתיה 6 קפה/תה 8 אשר תשובתך 54