מושגים בסיסיים בבלשנות NP PP N P A N 1
שפות טבעיות לעומת שפות פורמליות שפות פורמליות הן אובייקט שנוצר ע"י אדם. הכללים שלהן ידועים ומוגדרים היטב, וניתנים לשינוי אם צריך. שפות טבעיות הן אובייקט אמפירי. הכללים שלהן דומים לחוקי טבע שאנחנו מנסים לגלות, וייתכן שלעולם לא נבין אותם עד הסוף. שינויים בשפה אפשריים רק תחת מגבלות ביולוגיות, קוגניטיביות וחברתיות חמורות. 2
בלשנות מודרנית לעומת מסורתית דנה בשפה ברגע נתון דנה בהתפתחות השפה.1 סינכרונית לעומת דיאכרונית: ומטפלת בשפות הקיימות בשימוש יומיומי. עברית מודרנית ולא תנכית.2 דסקריפטיבית (לא פרספריקטיבית): שואפת לתאר, ולא לקבוע מה נכון ומה לא נכון. חמש שקל 3
סוגות של חומר בלשני שפה מדוברת: דיבור ספונטני קריאה המרצפות שעוגבות בגדר ביתה, צבועות שפה בצבע של כתובה: גלויה בלוג SMS מסן מרקו עננים בצבע בורדו עיתונות קטע שמים מחושמל מאמרים מדעיים ובסוף הרחבה מוברגות יותר ספרות יפה: רומנים מאלף יונים כפנסי לילה ספרות ילדים שירה פרסומות בדיחות חמישה שמנים מרעננה מחפשים חמש דקות מכפר סבא 4
שלבים בניתוח לשוני slowly = slow+ly גלי קול טקסט מורפולוגיה מורפמות He will talk very slowly to this girl זיהוי דיבור (פונטיקה+ פונולוגיה) תחביר [this girl] זיהוי מטרת הדובר פרגמטיקה סמנטיקה Talk(man 22, girl 1 ) he = John קשר למסד הנתונים (לעולם) עץ תחביר --חלוקה לרכיבים 5
תחומי הבלשנות המודרנית 6 פונטיקה: מחקר התכונות האנטומיות של מערכת הדיבור והתכונות הפיזיות של גלי הקול שהיא מייצרת. פונולוגיה: מחקר יחידות הקול הבסיסיות בשפה המדוברת. מורפולוגיה: מחקר יחידות המשמעות הקטנות ביותר בשפה (מורפימות) ואופן צירופן למילים. תחביר: מחקר אופן צירוף המילים בשפה ליחידות גדולות יותר. סמנטיקה: מחקר המשמעויות של ביטויים בשפה והיחסים ביניהן. פרגמטיקה: מחקר אופני השימוש בשפה בחברה.
תכנות לניתוח לשוני מקובל לחלק את מטלות ניתוח טקסטים לשכבות, שכבה מתייחסת לקודמתה כאל קופסה שחורה: כאשר כל השכבה זיהוי דיבור ניתוח מורפולוגי ניתוח תחבירי ניתוח סמנטי ניתוח פרגמטי קלט גל קול תמניות (מילים) מורפמות + תכוניות עץ תחביר ייצוג לוגי פלט טכסט מורפמות ותכוניות עץ תחביר ייצוג לוגי פעולות החיסרון: לפעמים יש צורך במידע של השכבה 7 שמעליה
זיהוי דיבור -- גלי הקול התנועות vowels מאופיינות ע"י גל קול מחזורי וממושך: 8 n 1 הגל של התנועה [iy] כל פונקציה מחזורית ניתנת לתיאור כסכום a 0 f t a cos 2 sin 2 n nt bn nt 2 תדר בסיסי 1=n. כל שאר התדרים הם כפולות של התדר הבסיסי
גלי הקול של תנועות התנועות נבדלות בחלוקה של העצמה בין התדרים formant עצמת הקול מתחלקת בין התדירות הבסיסית לבין הכפולות שלהם ). בעיקר F1 ו.(F2- תדר o easy and זמן 9
תנועה [a] 10
vowels -- תנועות 11
consonants עיצורים נוצרים ע"י חסימה חלקית של הפה או הלוע. הגל האקוסטי לא מחזורי (attack) חלקם באים עם תנועה וחלקם בלי (ד' לעומת ט') חלקם פוצצים,[p]) (...[t], [k] בפוצצים יש הפסקה של התנועה [p] ו-[ b ] נבדלות במשך הזמן בין הפיצוץ לבין התנועה (תלוי שפה!) 12
דיגיטציה כדי למדוד את הגל צריך לפחות שתי דגימות למחזור. בדיבור אנושי רוב האינפורמציה היא בתחום 10,000 הרץ, ולכן צריך 20,000 דגימות לשנייה. טלפון רק 4,000 הרץ ולכן 8,000 דגימות לשנייה 13
זיהוי דיבור המיתוס: יש התאמה 1-1 בין גלי קול ואותיות. ולכן כל שנותר הוא להמציא מכונה שתתרגם גלי קול לאותיות. המציאות: אין התאמה כזו. שפות שונות מקבצות את הרעשים (phones) לאותיות בצורות שונות. 14
IPA--International Phonetic Alphabet נותן תעתיק לכל phone כך שניתן לכתוב באמצעותו כל שפה 107 letters, 52 diacritics, and 4 prosodic markers. 15
Phones and allophones (תלוי שפה). למה לא כותבים את כל השפות באמצעות?IPA phones Allophone שונים שמתאימים לאותה פונמה יחידה מינימלית של קול שיכולה להבחין בין מילים שונות באנגלית van ban v b כי גם באותה השפה, במילה וכו'. ביצוע הפונמה תלוי בפונמות השכנות, במיקום נחש לעומת בנק יש פונמות שיש להן ביצועים שונים: ב לעומת ב כל שפה מקבצת את ה- phones לקבוצות שקילות מסמן את הפונמות. (פונמות) והכתב 16
ביצוע פונמות ביצוע פונמה משתנה ע"פ הפנמות שלפניה ואחריה מיקום הפונמה במילה (התחלה, אמצע או סוף) הטעם stress) ( האם ההברה מוטעמת? תלוי מאד בדובר, במבטא, גבר לעומת אישה, ובתנאים משתנים: מצב רוח, (התרגשות), מצב בריאותי (צרידות), רעש רקע. לכן נקבל התפלגות ונחפש את הזיהוי הסביר ביותר. 17
זיהוי דיבור תרגום הפונמות למילים מילה אינה יחידה אקוסטית מחברים בין המילים. בדיבור אנו מערכות זיהוי דיבור זקוקות למודל שפה מסד נתונים שמחזיק את כל המילים בשפה וכיצד הן יכולות להתחבר. בפרט חייבים מודל שפה שונה לכל שפה 18
state of the art זיהוי דיבור 19 עם מודל של השפה וכלים סטטיסטיים (HMM) נקבל את הזיהוי הסביר ביותר פרמטרים המשפיעים על טיב הזיהוי אימון על דובר יחיד, לעומת זיהוי כל דובר גודל הלקסיקון 10 מילים או 40,000? דיבור ספונטני לעומת דיבור מתפריט דובר יחיד או דו-שיח סביבה שקטה לעומת רועשת מיקרופון שולחני או צמוד לדובר Them all the mole יש שגיאות מביכות Scuse me, while I kiss the sky (Jimmy Hendrix) Scuse me, while I kiss this guy
תחומי הבלשנות המודרנית 20 פונטיקה: מחקר התכונות האנטומיות של מערכת הדיבור והתכונות הפיזיות של גלי הקול שהיא מייצרת. פונולוגיה: מחקר יחידות הקול הבסיסיות בשפה המדוברת. מורפולוגיה: מחקר יחידות המשמעות הקטנות ביותר בשפה (מורפימות) ואופן צירופן למילים. תחביר: מחקר אופן צירוף המילים בשפה ליחידות גדולות יותר. סמנטיקה: מחקר המשמעויות של ביטויים בשפה והיחסים ביניהן. פרגמטיקה: מחקר אופני השימוש בשפה בחברה.
מורפמות היחידות המשמעות הקטנות ביותר יחד מצטרפות למילים: Boy + s ו+ל+ה+ילד+ה ו ל י ל ד ה 21
טרנספורמציות מורפולוגיות התהליך הוא דו שלבי: קודם משרשרים את המורפמות ואח"כ מפעילים עליהן טרנספורמציות מורפולוגיות שמ ונ ע ות ע"י כללי הפונטיקה של השפה. לפעמים הטרנספורמציות מתבטאות בכתב י + הצטרף יצטרף in + probable improbable ולפעמים לא cats, dogs 22
טרנספורמציות מורפולוגיות בעברית לא יותר משווא אחד בתחילת מילה, ביקוע צרור של שלושה שוואים. דוגמא: ב+ב נ י ב ב נ י ב ב נ י התרחקות הטעם: קמץ הופך לשווא ד ב ר + ים ד ב ר ים ד ב ר ים כאשר נוצר נסמך, הטעם עובר למילה הבאה: ד ב ר ים-(הימים) ד ב ר י- ד ב ר י- שימו לב שיש סדר לפעולות קודם יוצרים את המילה ורק אח"כ מוסיפים את אותיות השימוש (מש"ה וכל"ב = בכל"ם, ה', ו, ש ( ב+ ד ב ר ים ב ד ב ר ים ב ד ב ר ים ב+ד ב ר י ב ד ב ר י נלמד שיטות לביצוע וניתוח מורפולוגיה 23
תחומי הבלשנות המודרנית 24 פונטיקה: מחקר התכונות האנטומיות של מערכת הדיבור והתכונות הפיזיות של גלי הקול שהיא מייצרת. פונולוגיה: מחקר יחידות הקול הבסיסיות בשפה המדוברת. מורפולוגיה: מחקר יחידות המשמעות הקטנות ביותר בשפה (מורפימות) ואופן צירופן למילים. תחביר: מחקר אופן צירוף המילים בשפה ליחידות גדולות יותר. סמנטיקה: מחקר המשמעויות של ביטויים בשפה והיחסים ביניהן. פרגמטיקה: מחקר אופני השימוש בשפה בחברה.
קטגוריות לקסיקליות (1) ראיתי ילד גדול את המילה "ילד" ניתן להחליף במילה "חלון" ולקבל עדיין משפט תקין: (2) ראיתי חלון גדול אבל לא את המילים "גדול" או "ראיתי": (3) *ראיתי ילד חלון (4) *חלון ילד גדול 25
קטגוריות לקסיקליות (1) ראיתי ילד גדול את המילה "ילד" ניתן להחליף במילה "חלון" משפט תקין: (2) ראיתי חלון גדול אבל לא את המילים "גדול" או "ראיתי": (3) *ראיתי ילד חלון (4) *חלון ילד גדול ולקבל עדיין נאמר ששתי המילים הן מאותה קטגוריה: שם עצם (N, (Noun 27 נגדיר יחס שקילות בין מורפמות: שתי מורפמות שקולות אם מבחינה תחבירית ניתן להחליף ביניהן. קטגוריה לקסיקלית היא מחלקת שקילות של יחס זה.
קטגוריות לקסיקליות, פתוחות וסגורות קטגוריות פתוחות הן כאלה שיש בהן מספר לא חסום של מילים לא חסום במובן שבקלות יתווספו מילים חדשות לקטגוריה. N - (common) noun ( שם עצם (כללי boy, girl, cat, revolution, PN - proper noun שם עצם פרטי Mary, New York, Microsoft A - adjective תואר tall, short, clever, ADV adverb תואר הפועל slowly, fast, independently V - verb פועל speak, walk, radiate, 28
קטגוריות לקסיקליות, פתוחות וסגורות קטגוריות סגורות הן כאלה שיש בהן מספר חסום (בד"כ קטן) של מילים. D determiner מיידע this, every, some, a, three, all AUX - auxiliary פועל עזר will, can, may, would, might P preposition מילת יחס to, from, by, of, at, on, in pronoun כינוי גוף she, they, we, her, us, himself 29
תיוג חלקי דיבר tagging) (part-of-speech לכל אחת מהקטגוריות הלקסיקליות ניתן להוסיף אינפורמציה רבה על המורפולוגיה או התפקיד התחבירי של המילה. למשל: (1) ראיתי ילד גדול (2) ראיתי ילדה גדולה (3) ראיתי ילדים גדולים (4) ראיתי את הילד הגדול 31
תיוג חלקי דיבר tagging) (part-of-speech לכל אחת מהקטגוריות הלקסיקליות ניתן להוסיף אינפורמציה רבה על המורפולוגיה או התפקיד התחבירי של המילה. למשל: (1) ראיתי ילד גדול זכר, יחיד, לא-מיודע (2) ראיתי ילדה גדולה נקבה, יחיד, לא-מיודע (3) ראיתי ילדים גדולים זכר, רבים, לא-מיודע (4) ראיתי את הילד הגדולזכר, יחיד, מיודע 32
תיוג חלקי דיבר tagging) (part-of-speech לכל אחת מהקטגוריות הלקסיקליות ניתן להוסיף אינפורמציה רבה על המורפולוגיה או התפקיד התחבירי של המילה. למשל: (1) ראיתי ילד גדול זכר, יחיד, לא-מיודע (2) ראיתי ילדה גדולה נקבה, יחיד, לא-מיודע (3) ראיתי ילדים גדולים זכר, רבים, לא-מיודע (4) ראיתי את הילד הגדולזכר, יחיד, מיודע 33
תיוג חלקי דיבר tagging) (part-of-speech לכל אחת מהקטגוריות הלקסיקליות ניתן להוסיף אינפורמציה רבה על המורפולוגיה או התפקיד התחבירי של המילה. למשל: (1) ראיתי ילד גדול (2) ראיתי ילדה גדולה (3) ראיתי ילדים גדולים (4) ראיתי את הילד הגדול אינפורמציה מהסוג הזה של תכוניות (features) משלימה את תהליך קביעת הקטגוריה הלקסיקלית, לתהליך של תיוג חלקי דיבּ ר tagging).(part-of-speech 34
תחביר חלוקה לרכיבים קלט: [This tall boy] [will talk [very slowly] [to [that girl]]] תוצאה: Subject Object Verb aux Place Manner Degree 35
תחביר חלוקה לרכיבים קלט: [This tall boy] [will talk [very slowly] [to [that girl]]] Subject Object Verb aux Place Manner תוצאה: Degree 36
תחביר חלוקה לרכיבים גם מבלי להיכנס לפרטים ברור שהחלוקה הזו של המשפט לתת-מחרוזות קשורה קשר הדוק לאינפורמציה שהוא מקודד התחביר קשור לסמנטיקה. הרבה חלוקות אלטרנטיביות לתת-מחרוזות נראות מאוד לא סבירות. למשל: [[This tall] [[boy will] [talk very]] [slowly to that]] girl לתת-מחרוזת שהיא סבירה מבחינה אינטואיטיבית, תיאורטית, או מעשית נקרא רכיב.(constituent) אחד מתפקידי התחביר הוא לחלק משפטים לרכיבים. * 37
חלוקה לרכיבים היא רק ביחס למשפט he [saw [John and Mary]] אבל לא: he [saw [John and Mary ]] did too 38
חלוקה לרכיבים היא רק ביחס למשפט he [saw [John and Mary]] אבל לא: he [saw [John and Mary ]] did too אלא: [he [saw John]] and [Mary [did too]] 39
קטגוריות מורכבות (1) הילד הנמוך ראה ילדה גבוהה את הרכיב "הילד הנמוך" ניתן להחליף במחרוזת "הכלב השחור" ולקבל עדיין משפט תקין: (2) הכלב השחור ראה ילדה גבוהה אבל לא את הרכיב "ראה ילדה גבוהה": (3) *הילד הנמוך הכלב השחור 40
קטגוריות מורכבות (1) הילד הנמוך ראה ילדה גבוהה את הרכיב "הילד הנמוך" ניתן להחליף במחרוזת "הכלב השחור" ולקבל עדיין משפט תקין: (2) הכלב השחור ראה ילדה גבוהה אבל לא את הרכיב "ראה ילדה גבוהה": (3) *הילד הנמוך הכלב השחור נאמר ששני הרכיבים הם מאותה קטגוריה: צירוף שמני NP) (Noun Phrase, 41
קטגוריות מורכבות (1) הילד הנמוך ראה ילדה גבוהה את הרכיב "הילד הנמוך" ניתן להחליף במחרוזת "הכלב השחור" ולקבל עדיין משפט תקין: (2) הכלב השחור ראה ילדה גבוהה אבל לא את הרכיב "ראה ילדה גבוהה": (3) *הילד הנמוך הכלב השחור כמו לגבי קטיגוריות לקסיקליות כך גם לגבי רכיבים: נחלק את הרכיבים למחלקות שקילות הקרויות קטגוריות מורכבות, או קטגוריות תחביריות. 42
כמה קטגוריות מורכבות מקובלות משפט (מ) S sentence NP - noun phrase ( צירוף שמני (צש every boy, this girl VP - verb phrase ( צירוף פעלי (צפ see this girl, go to school PP - prepositional phrase ( צירוף יחס (צי to this girl, at the party AP - adjective phrase ( צירוף תואר (צת very quick, quite slow ADVP - adverb phrase very quickly, quite slowly צ. תהפ (צתהפ ( 43
Subcategorization והצרכות הפועל משלים של פועל צרוף שנוסף לפועל: יוסי אכל מהר את התפוח האדום. Direct object adverb subject * יוסי הלך את התפוח. לפעלים שונים יש משלימים שונים. 44
Subcategorization והצרכות הפועל ניתן לחלק את הפעלים למחלקות שקילות ע"פ המשלימים שהם מקבלים. כך נחלק את הפעלים לתת קבוצות הנקראות subcategory ניתן להשתמש במשלימים כדי להבחין בין משמעויות שונות של אותו הפועל: המ"כ הריץ את הטירונים. התכניתן הריץ את התכנה. הקצין חזר לבסיס. הקצין חזר בו. 45
Subcategorization והצרכות הפועל ניתן לחלק את הפעלים למחלקות שקילות ע"פ המשלימים שהם מקבלים. כך נחלק את הפעלים לתת קבוצות הנקראות subcategory יש משלימים שהם הכרחיים ואלה נקראים הצרכות * The boy ate lunch ראובן מתגורר בתל אביב 46
מטרות התחביר להראות את הקשר בין הרכיבים. אילו רכיבים משלימים רכיבים אחרים, ראיתי את האיש עם הטלסקופ. ראיתי את האיש באמצעות הטלסקופ. או ראיתי איש שמחזיק טלסקופ. 47
עץ גזירה לדוגמא S VP PP NP NP? ADVP? D A N AUX V DEG ADV P D A N this tall boy will speak very slowly to that short girl 48
ניתוח סוגריים מקביל [ S [ NP [ D [ this] VP [ V [ speak] PP [[ [ A P tall] to] [ [ [ N ADVP NP boy]]] [ [ D DEG that] [ AUX very] [[ A will] [ ADV short] slowly]] [ N girl]]]]]] 49
Dependency Grammar גישה שונה לניתוח, בלי צמתים פנימיים: This tall boy will talk very slowly to that short girl 50 ניתן להוסיף תוויות לקשתות שיתארו את התפקיד התחבירי של הקשר למשל "תואר", "נושא" בעוד שעץ התחביר מדגיש את הסדר דקדוק התלויות מדגיש את הקשר
מילה ות מ נית (token) בדרך כלל, כל תמנית היא מילה נפרדת. אך מה בקשר ל- בית ספר, אחר כך, אף על פי כן? והילד, לביתו? מסקנה: אין זהות בין מילים ותמניות. 54
יחידות הבסיס של התחביר יש לשים לב שהטרמינלים בניתוח התחבירי הן המורפמות, לא התמניות. S 2 NP S CONJ S 1 NP V PN V PN 55 משה נסע ו-יצחק חזר
תחומי הבלשנות המודרנית 56 פונטיקה: מחקר התכונות האנטומיות של מערכת הדיבור והתכונות הפיזיות של גלי הקול שהיא מייצרת. פונולוגיה: מחקר יחידות הקול הבסיסיות בשפה המדוברת. מורפולוגיה: מחקר יחידות המשמעות הקטנות ביותר בשפה (מורפימות) ואופן צירופן למילים. תחביר: מחקר אופן צירוף המילים בשפה ליחידות גדולות יותר. סמנטיקה: מחקר המשמעויות של ביטויים בשפה והיחסים ביניהן. פרגמטיקה: מחקר אופני השימוש בשפה בחברה.
סמנטיקה חלוקה לתפקידים קלט: [This tall boy] [will talk [very slowly] [to [that girl]]] Subject Object Verb aux Place Manner Degree Agent recipient action time Manner degree 57 מתאר את התפקיד הסמנטי של המילה/צרוף
Thematic Roles agent recipient instrumental The boy broke the window with a stick. subject instrumental The stick broke the window. subject direct object recipient direct object indirect object The window was broken 58 recipient subject
סמנטיקה [This tall boy] [will talk [very slowly] [to [that girl]]] נמיר את הטקסט לנוסחה לוגית Slowly(Talk(boy 31,girl 72 )) שיכול להיות לה ערך true או false ניתן להשתמש בנוסחאות אלו כדי להסיק מסקנות: Person(Socrates), Person(X) Mortal(X) Mortal(Socrates) 59
ידע עולם כדי להסיק מסקנות דרוש ידע על העולם (לדוגמא Person(X) Mortal(X).( אוסף אחד של חוקים כאלה הוא: Cyc(Doug Lenat) is an AI project that attempts to assemble a comprehensive ontology and knowledge base of everyday common sense knowledge 60
פרגמטיקה תורת השיח למצוא את המטרה של הדיבור. תחום שקשה למחשב כיון שהמטרה לא מוגדרת היטב. יש תת-מטלות שניתן למחשב לדוגמא אנפורות. 61
אנפורות כינויי גוף שמתי את הספל על השולחן והוא נשבר. הרצל חזה את המדינה השולחן או הספל? איזו מדינה? 62 אנפורה היא מילה שמתייחסת לישות אחרת בשיח. התרת אנפורות למצוא ל מה מתייחסת כל אנפורה.
רב משמעות (ambiguity) מורפולוגית: שבתה שׁ ב ת ה =שבה (פועל) עבר נקבה גוף 3 שׁ ב ת ה =שבת (פועל) עבר נקבה גוף 3 שׁ בּ תּ הּ = ש+בת שלה שׁ בּ ת ה = ש+ב +תה שׁ בּ תּ ה = ש+בּ+ה+תה שׁ בּ ת הּ = שׁ בּ ת+ שלה... 63
רב משמעות (ambiguity) תחבירית: מספר אפשרויות לחלוקה לרכיבים. (1) יוסי תקף את האיש עם הסכין. יוסי תקף [את [האיש עם הסכין]] יוסי [תקף [את האיש] [עם הסכין]] לקסיקלית: מספר מובנים (או אפילו קטגוריות) לאותה מילה. (2) יוסי ביקר את השר. (3 א). שיטה זאת לא תעבוד. ב. העז טיפסה על שיטה. ג. יוסי שיטה בבריות. 64 פרגמטית: זיהוי המטרה של השיח, התרת אנפורות.
רב משמעות (ambiguity) הרב-משמעות הרבה מבדילה שפות טבעיות מרוב השפות הפורמליות, והיא אחד הקשיים המרכזיים בעיבוד שפות טבעיות. 65
שיטות מחקר בבלשנות החוקר מציב השערה, ובודק אותה באמצעות informant דובר ילידי של השפה. דוגמא לכלל שרוצים לבדוק: בעברית כל שמות עצם הנגמרים ב- ה הם ממין נקבה. נשאל דובר עברית למין הדקדוקי של מילים: ילדה, מסעדה, ארוחה,... דוגמא נגדית: לילה נעדן את ההשערה ע"י כך שנדרוש שההטעמה תהיה בהברה האחרונה (מלרע). הכלל המתוקן יותר מצומצם, אך לא כולל את אינפלציה, דמוקרטיה. נעדיף כללים פשוטים, מקיפים ככל האפשר, אך נרשה מספר קטן של יוצאים מהכלל (נמזער את :(Kolmogorov Complexity כל שמות העצם בעברית, שנגמרים ב- ה, פרט ללילה, הם ממין נקבה. 66
שיטות מבוססות קורפוס שיטת ה- informant היא בעייתית, כיון שהיא מחייבת דוברים להחליט אם משפט הוא תקין. אין הסכמה בין דוברים שונים. בהרבה מקרים ההחלטה מושפעת מהסמנטיקה: העגבנייה אכלה את הילדה. שיטת הקורפוס: נבסס את החלטותינו על סמך הסתכלות על קורפוס גדול. דוגמא: האם ניתן לנתח את המילה עליך כ-על י ך 67