תיוג חלקי דיבר taggig) (Part of Speech הקשר קצר All old people like books about fish det adj v v p adj v p adj v לכאורה, בעיית מעגליות: בכדי לנתח משפט יש צורך קודם כל להחליף מלים בקטגוריות מילוניות ורצוי לבחור רק את הרלבנטיות בהקשר הנתון בכדי לקבוע את חלק הדיבר המועדף למלה במשפט נתון, יש להביא בחשבון את מקומה ביחס למלים אחרות, כלומר לנתח רכיב חיוני בתהליך נרמול מורפולוגי (stemmig) שלוש גישות לתיוג חלקי דיבר חוקי שכנות המוגדרים ידנית או מושרים מדקדוק למידה סטטיסטית מדוגמאות מתויגות גישות משולבות 7.2 לימוד חוקי שכנות מתוך דקדוק (חסר-הקשר) נתון G תוצר לוואי של מנגנון קירוב לינארי לניתוח תחבירי (זיהוי חלש) רימון והרץ 1991 תהליך ניתוח דטרמיניסטי, חסר זיכרון (ולכן קירוב בלבד) "קירוב בטוח": עוטף את השפה מבחוץ (שלם, לא נאות) משפט תקין מעולם לא ייפסל משפטים לא-תקינים מסוימים עלולים להתקבל 7.1 הגדרות דוגמה עבור הדקדוק S < NP VP > NP (det) (adj) NP NP PP PP p NP VP v NP VP VP PP הקבוצה SC(1) היא (<, det), (<, adj), (<, ), (adj, ), (det, adj), (det, ), (, v), (, p), (, >), (p, det), (p, adj), (p, ), (v, det), (v, adj), (v, ) 7.3 נגדיר סדרת סמלי קצה t 1,... t k כחוקית ביחס ל- G אם הדקדוק מקבל את הביטוי x t 1,... t k y עבור T* x, y כלשהם למשל הזוג (v,) חוקי ביחס לדקדוק המכיל את החוקים S NP VP VP v NP (PP)* NP (PP)* PP p NP נגדיר את ההקשר הימני הקצר באורך 1 של סמל קצה t בתור קבוצת כל הזוגות (t,u) החוקיים ביחס ל- G נסמן קבוצה זו ע"י (t) SC 1 לקבוצה T כולה נגדיר: 7.4 SC(1) = U SC 1 (t) t T 1
הצגה גרפית אלגוריתם לבניית SC(1) לכל סמל t נחשב את (t) SC 1 ואז (t) SC(1) = U SC 1 t T 1. אם קיים חוק דקדוק מהצורה A αtb β אז (t) (t,b) SC 1.2.3 אם קיים חוק דקדוק מהצורה A αtb β אז (t) (t,u) SC 1 לכל first(b) u אם קיים חוק דקדוק מהצורה A αt אז (t) (t,u) SC 1 לכל follow(a) u הקב' first(x) ו- follow(x) מוגדרות מתוך חוקים בהם רכיב X מופיע בצד שמאל ובצד ימין של חוק, בהתאמה v < det adj p > 7.6 7.5 שימוש בהקשר קצר בניתו ח דקדוקי < עבור משפט W 1,... W בשפה, לכל מילה W i יתכן שיתאים יותר מסמל דקדוק אחד למשל book = v לפיכך מתקבל גרף W 1 t 12 t 22 W 2... W t 11 t 21 t 1... > t 2 אישור תקינות מלא (זיהוי חלש) הוא איתור מסלול שלם (מההתחלה < ועד הסוף <) חוקי ביחס לדקדוק קירוב ע"י הקשר-קצר- 1 יבחן מסלול עפ"י חוקיות זוגות דוגמה All old people like books about fish det adj v p < > v p v adj v adj ארבעת המסלולים המסומנים (מתוך 256) הם הקבילים משיקולי הקשר קצר באורך 1 ביחס לדקדוק הדוגמה שניים בלתי תקינים, אחד היה נפסל עם הקשר באורך 2 7.8 7.7 2
הרחבה גישה סטטיסטית לתיוג POS באופן דומה להגדרת הקשר קצר (ימני) באורך 1, ניתן להגדיר הקשר קצר באורך כלשהו SC(k) k: מועיל לזיהוי חוקי שכנות ארוכי טווח ככל ש k גבוה, SC(1) T* הקירוב הדוק יותר נתון משפט W 1,..., W ונתונה סדרה T 1,..., T של תגים המייצגים חלקי דיבר (קטגוריות מילוניות) ההסתברות שסדרת התגים מתאימה לסדרת המלים היא p (T 1,..., T W 1,..., W ) = לפי משפט Bayes p (T 1,..., T ) x p (W 1,..., W T 1,..., T ) = p (W 1,..., W ) SC() L() 7.10 7.9 קביעת סד רת התגים: מוד ל בייסיאני קביעת סד רת התגים (המשך) איך מחשבים את ) i-1? p (T i T למשל, אם T i-1 = verb, T i = ou נספור בקורפוס המתויג כמה פעמים מופיע פועל ואחריו שם עצם ונחלק במספר המופעים הכללי של פועל cout(v,)/cout(v) אנו מחפשים את הסדרה T 1,..., T אשר תביא את הביטוי הנ"ל למקסימום (argmax) עבור W 1,..., W קבוע, מספיק לחפש מקס. למונה ניתן לרשום קירוב למונה ברוח "הקשר קצר" p (T 1,..., T ) x p (W 1,..., W T 1,..., T ) Π p (T i T i-1 ) x Π p (W i T i ) i=1 i=1 ערכים אלה אפשר לשערך בתהליך לימוד מתוך קורפוס מתויג של דוגמאות set),(traiig כמוסבר להלן את ) i p W) i T קל לחשב, אבל דרוש מדגם גדול למדי דלילות קורפוס האימון היא בעיה מרכזית בלמידה חישובית פתרון חלקי ע"י קיבוץ מילים למחלקות דמיון במודל ההקשר הקצר הדקדוקי, במקום הסתברויות היו ערכים 0 ו- 1 בלבד ולכן במקום ) p (T 1,..., T קבלנו הערכה דיכוטומית (כן/לא) לפיזיביליות של סדרת התגים 7.12 7.11 3
גישות סטטיסטיות נוס פות המתייג של ברי ל 7.14 www.cs.jhu.edu/~brill (Eric Brill 1994) גישה משולבת: חוקים וסטטסיטיקה תהליך תיוג דו-שלבי תיוג לפי אוסף מוגדר מראש (קבוע או נלמד) של חוקי הקשר rules),(cotext frame עם הסתברויות "מקצה שיפורים": טרנספורמציות לאופטימיזציה גלובלית אוסף התגים: ווריאציה של קורפוס Pe / Brow דוגמת פלט: youg/jj cats/nns like/vbp milk/nn adapted from L. va Guilder POS Taggig 7.13 supervised rule-based stochastic eural maximum likelihood Hidde Markov -grams Viterbi usupervised rule-based stochastic eural Baum-Welch בחירה נכונה של אוסף התגים set) (tag תגים עיקריים של Pe Treebak DT Determier NN* Nou various forms: sigular, plural, proper, PP/PRP Proou various forms: regular, possessive JJ* Adjective various forms: regular, compar., superl. CD Cardial umber VB* Verb various forms: base, past, past.p, gerud RB* Adverb various forms MD Modal e.g. may, could RP Particle TO to IN Prepositio, subordiatio CC Cojuctio WDT WH determier See http://www.computig.dcu.ie/~acahill/tagset.html אוסף בסיסי של תגים (כגון etc.,):,v מקל על ההכנה המילונית מתירני מדי במסקנות שיוסקו מדקדוק או מקורפוס דוגמאות אוסף עשיר של תגים (למשל פירוק v לתת-סוגים): מאפשר אבחנות עדינות ואילוצי הקשר ספציפיים מקשה על ההכנה המילונית ועל לימוד מדוגמאות ניתן למימוש גם כתכוניות לדקדוק האחדה/אילוצים דוגמאות לאבחנות רצויות: Verb: Vitr, Vtra, Vditra, Vp-vpif, Vaux, Nou: Ncommo, Nproper, Npro, Nge, Nverb, 7.16 7.15 4
עברית (ושפות קשות אחרות) לפני/במהלך התיוג, יש צורך בפירוק מורפולוגי וכשהכלבים ו - כש - ה - כלב - ים coj - prep - det - ou (pl) דרגה גבוהה של רב-משמעות כמה קריאות אפשריות למלה "שמנה"? adj, verb, rel-verb, rel-ou, ou(ge), rel-ou(ge),... כתיב פונמי (אורנן) והצעות אחרות להפגת העמימות 7.17 5