שיעור שלישי מדעי הרוח הדיגיטליים אוניברסיטת בן גוריון ד"ר יעל נצר
Unstructured data ב לכל דבר בעולם יש בן-זוג, ואף לדירת שקוריפינשטשיכא. ובן-זוגה שלה הוא הבית בעל-הגג הכפול, השני לה בשורה, העומד אצלה כתף בצד כתף ומחיצת קרשים גבוהה מפסקת ביניהם. לומר שיש שלום בין הזוג אי-אפשר. משעה ראשונה שיצאה הדירה השניה מרשות ה קצ ף ס י רפים לרשות היהודי חנינא-ליפא הוא בא לכאן עם אשתו העבה צי פא-לאה ועם בנו הקטן והיחיד נ ח לפני כמה שנים מאחד הכפרים מ י ד נפלה ביניהם המחלוקת. נחלקו על טפח אדמה, על תרנגולת שאבדה, על היז ק ראיה, על פרצה בגדר הכל כמנהג השכנים. אך עיקר טענתה של שקוריפינשטשיכא הוא הע פ וש! מיום שנשתקעו אלו היהודים בצ דה טוענת היא ומשחזת סכין בגרונה אין היא יכולה לעמוד מפני העפוש. האו זים, אומרת היא, שבגגות היהודים ציפא-לאה מ לעטת אוזים מעפשים עליה את אויר העולם. כלבתא שכמותא! ערלית טמאה, שתריסר חזירים במאבוסה היא אינה יכולה לעמוד מפני ריח רע! הגיעו הדברים לידי סטירות-לחי, וחנינא-ליפא, המתחיל בדבר, עמד, לא עליכם, לדין, ו ש ל ם קנס. חרק ש נ יו וש לם. -,.,, - ג - ¼. - ג. µ - ¼ ג - ג ¹ ¼., ג, µ,. ג! ¼ ¼ ג ¼ - ג,,.!. ג ג,! -, -,,,,, ¼ µ. ¼.
מה צריך לסמן למחשב? סימון מפורש של 'המובן מאיליו' לקורא האנושי (כותרת? שם המחבר? סוג המסמך?) סימון המתייחס: לצורה - למבנה - לתוכן -
מידע / ידע עיבוד שפות טבעיות - קובץ טקסט NLP קריאה אנושית לא רק הטקסט, גם הצורה שלו הפרדה של המידע מהמידע על המידע
מסמך "חסר מבנה" unstructured מסמך "חצי-מובנה" semi structured מסמך "בעל מבנה" structured
מה רואה המכונה במסמך לא מובנה? WWW2002 S & & -1 1 2002 1 5 p p,, &,,,, &,,,, & p,,,,, p,, &,,, M p & p. p Sp & - & W, p, 8
<proper_name> Z <character>
פתרון: הוספת תגים בעלי משמעות <name>www2002 </name> <location>s & & </location> <date> -1 1 2002</date> <slogan>1 5 </slogan> <participants> p p,, &,,,, &,,,, & p,,,,, p,, &,,, </participants> <introduction> M p & p. p Sp & </introduction> <speaker> - </speaker> <bio> & W,</bio> 10
למה מתייגים? מה הם התגים? הוספת מידע מייצג ניתוח של הטקסט ניתוח של טקסט! מחויבות לתיאוריה / לתפיסת עולם שימושיות / רב שימושיות לטקסט כלים לגילוי
מה דורש תיוג? מבחינה פרקטית צריכה להיות הפרדה בין התגים לבין הטקסט המקורי מטרה ומשמעות התגים הסכמה (איך נדע שתייגנו "נכון"?) ניתן לתייג בצורה אוטומטית? תיאוריה האם ניתן לתייג באופן בלתי תלוי בתיאוריה? האם 'משתלם' לתייג?
מה מתייגים בטקסט? מילה (מהי מילה?) משפט פסקה (כיחידה גרפית או כיחידה נושאת משמעות?) מבנה תחבירי מבנה משמעות משמעות מילים, יחסים בין מילים.. מבנה השיח קשר anaphoric reference
Text as object OHCO Ordered hierarchy of content object SGML Standard Generalized Markup Language HTML HyperText Markup Languge
SGML ראשיתו בעולם הדפוס, אבי ה XML מסמן מבנה, לא מסמן צורה Standard Generalized Markup Language לא תלוי תוכנה סטנדרט בינלאומי 8879:1986) (SGML- ISO "נחלת הכלל"
<AU> - Author <TI> - Title <P> - Paragraph <TTLPG> - Title page DTD Document Type Definition <!ELEMENT anthology - - (poem+)> <!ELEMENT poem - - (title?, stanza+ couplet+)> <!ELEMENT title - O (#PCDATA) > <!ELEMENT stanza - O (line+) > <!ELEMENT couplet O (cline, cline) > <!ELEMENT (line cline) O O (#PCDATA) > Taken from LELA 30922 Lecture 5
<!ATTLIST poem id ID #IMPLIED status (draft revised published) draft > DTD defines the attributes expected/required for each element A poem has an id and a status Value of id is any identifier, and is optional Status is one of three values, default draft Taken from LELA 30922 Lecture 5
<anthology> <poem id=12 status=revised> <title>it s a grand old team</title> <stanza> <line>it s a grand old team to play for <line>it s a grand old team to support <line>and if you know your history <line>it s enough to make your heart go Whoooooah </stanza> </poem> <poem id=13>... </poem> </anthology> Taken from LELA 30922 Lecture 5
POS TAGGED TEXT with idioms and named entities: <w orth=cap CRD>Two</w> <w NN2 lem=man>men</w> <phrase type=idiom><w VVD lem=retain>retained</w> <w DPS>their</w> <w NN2 lem=marble>marbles</w></phrase><c PUN>,</c> <w CJC>and</w> <phrase type=idiom><w CJS>as</w> <w NN1-VVB>luck</w> <w VM0>would</w> <w VHI>have</w> <w PNP>it</w></phrase> <w PNP>they</w><w VBB lem=be>'re</w> <w AV0>both</w> <w AJ0>roughie-toughie</w> <w NN2>types</w> <phrase type=compound pos=cjs><w AV0>as</w> <w AV0>well</w> <w CJS>as</w></phrase> <phrase type=compound pos=nn2><w AJ0>military</w> <w NN2>scientists</ w></phrase> <c PUN>&mdash</c> <w AT0>a</w> <w NN1>cross</w> <w PRP>between</w> <phrase type=compound pos=np0><w NP0>Albert</w> <w NP0>Einstein</w></phrase> <w CJC>and</w> <phrase type=compound pos=np0><w NN1>Action</w> <w NN1-NP0>Man</phrase><c PUN>!</c> Taken from LELA 30922 Lecture 5
מימדים בטקסט הלשוני: המילים, חוקי הדקדוק הסמנטי: משמעות המילים הספרותי: סגנון, תכונות רטוריות גרפמי: סוג וצורות האותיות אייקוני: קישוטים, ציורים.. קודיקולוגי: חקר כתב היד עצמו (החומר הפיסי) תוכן, קונטקס היסטורי..
Markup is also Naming שיום system שיום! קלסיפיקציה! מה יש לנו בעולם? איך נראה העולם שלנו? אונטולוגיה! הרשת הסמנטית! וכן הלאה.
ייצוגים אחרים של טקסט
רב משמעות זלטין משך בכתפותיו, הרים לאט את עיניו האפ ור ות עלינו, ויוסף באותו הקול (גנסין, מעשה אוטלו) יוסף וזלטין? רק זלטין?
רב משמעות מבנית נעצר עורך דין שניצל ופיתה שופטת וגנב
ספר עזר לרופא שיניים בהוצאת כתר רב משמעות מורפולוגית, לקסיקלית, סמנטית ותחבירית
שרפה מפולת חורבן בעברית יש בממוצע 2.6-3.5 קריאות למילה שרפה ש רפ ה - שם עצם, נקבה ש רפ ה - פועל קל, יחיד גוף שלישי, נקבה, עבר ש רפ ה ש הזיקה, שם תואר זכר / נקבה ש רפ ה ש הזיקה, פועל זכר עבר ש ר פ ה ש הזיקה, פועל זכר עבר
דוגמאות נוספות מכיון מ כ יון כשקוריפין/לשקוריפין ש קוריפין
מורפולוגיה מהי המילה עצמה? מה החלקים שלה? מה חלק הדיבר שלה? תחביר מה מבנה המשפט? איך מוצאים ייצוג שגם ניתן להגיע אליו בצורה חישובית ושמכיל מספיק מידע בכדי להפיק ממנו מידע, למשל, משמעות?
מורפמות החלק הקטן ביותר במילה, שיש לו משמעות לקסמה מילה בסיסית ביותר, שניתן למצוא במילון תגים תויות הניתנות למילים (בהקשר שלנו - חלקי דיבר). תיוג פעולת השמת התגים קבוצת תגים tagset אוסף תגים המוגדרים למשימה כלשהי
Modeling: A Study in Words and Meanings Willard McCarty Two definitions that are useful in understanding computer models: a model is a representation of something for purposes of study, or a design for something new. a model is a simplified and therefore fictional or idealized representation. Modeling is the heuristic process of constructing and manipulating models. Heuristic in this context simply means a strategy for using information to solve problems.