מדעי הרוח הדיגיטליים שיעור שני ד ר יעל נצר אוניברסיטת בן גוריון סמסטר ב
סיפור קטן על מקפים Hyphen Hate? When Amazon went to war against punctuation. (by the author Graeme Reynolds 14/12/14)..found that over 100 words in the 90,000 word novel contained that dreaded little line. This, apparently significantly impacts the readability of your book and, as a result We have suppressed the book because of the combined impact to customers.
Your E-Book Is Reading You Nearly 18,000 Kindle readers have highlighted the same line from the second book in the series: "Because sometimes things happen to people and they're not equipped to deal with them. Banality in Literature? Multimedia in books? Alternating texts / translations?
Hypen-Minus <quote> Graeme: the complaint could plausibly have come from a blind reader using text-to-speech synthesis to read the book. It would render a far reaching many fold effect as a far minus reaching many minus fold effect. That WOULD be a pain in the ass to sit through. </quote> http://en.wikipedia.org/wiki/hyphen-minus
מה זה טקסט?
JWcurrys shortest poem dotting the i with his fingerprint.
מסמך vs. טקסט מסמך משהו שקיים בעולם, אובייקט פיסי, שניתן להפוך אותו לדיגיטלי טקסט אבסטרקציה של תוכן, נוצר בקהילת קוראים, ניתן לקידוד. יותר מאשר רצף אותיות, בכתב זה או אחר יש לו מבנה ויש לו פונקציה תקשורתית יש לו כמה קריאות אפשריות תלוי בזמן, במקום..
צורה מבנה תוכן
טקסט - מילים (מחברת, מעבד תמלילים) צורה מבנה כתב יד, שפה, גודל, courier new,bold, italics פרק, כותרת, פסקה (משתמע או מסומן) תוכן על מה מדבר הטקסט? מה המבנים הלשוניים בו? מה ההקשר התרבותי של המסמך? הפונקציה/המטרה תקשורתית? האם יש לו כמה קריאות אפשריות? * מסמך זה לאו דווקא קובץ, כמו כן, אני מדברת על טקסט, נכון גם ל נתונים
pdf, scanned pdf, scanned, OCR* 18
pdf, scanned pdf, scanned, OCR* ורא תווים אופטי ממיר תמונה לטקסט *Optical character recognition 19
pdf, scanned pdf, scanned, OCR* 20
pdf, scanned pdf, scanned, OCR* 21
בייצוג האנלוגי ( בעולם האמיתי ) > משמעות בתוך ההקשר 28 במעבר לדיגיטלי > המבנה ( המשתמע ) לא נשמר
Luciano Floridi: data* is the absence of uniformity, whether in the real world or in some symbolic. system z data + recognizable structure information *or Data are values of quantitative/qualitative variables belonging to a set of items http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities/ 29
Luciano Floridi: data is the absence of uniformity, whether in. system the real world or in some symbolic z data + recognizable structure information + methodology http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities/ 30
Luciano Floridi: data is the absence of uniformity, whether in. system the real world or in some symbolic z data + recognizable structure information + methodology digital information: data structures linear, hierarchical, multi-relational http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities/ 31
1. Partial representation, a window to the object of study 2. Joanna Drucker: not data, capta ( captured from real world) 3. Differences: how created or captured, modeled, enriched, analyzed 32
הלשוני: המילים, חוקי הדקדוק הסמנטי: משמעות המילים, הקשרים ביניהם הפרגמטי: למה משמש (תפילה, ספרות, עיון) הספרותי: סגנון, תכונות רטוריות גרפמי: סוג וצורות האותיות אייקוני: קישוטים, ציורים.. קודיקולוגי: חקר כתב היד עצמו (החומר הפיסי)
one s model can be the other one s hell 34
structured semi structured unstructured 35
בסיס נתונים structured מבנה ידוע מראש לכל key/value יש מזהה טיפוסים (מספר, תאריך, מחרוזת) 36
unstructured 37
unstructured 38
text, video, photos (80% of all data) natural language (?) unstructured 39
semi structured תיאור הנתונים xml, json ייצוג גמיש 41 אין אחידות (לא לכל האובייקטים יש ערכים בכל התכונות) self describing
אובייקטים, תכונות והיחסים ביניהם
SGML HTML W3C XML DTD CSS Xpath XSLT XQuery RELAXNG Standard Generalized Markup Hypertext Language Markup Language World Wide Web Consortium extensible Markup Language Document Type Definition Cascading (or Style Sheet XML Path Language extensible Stylesheet Language XML Querying - Regular Expression Language for XML this is html, it describes form and structure not wysiwyg (what you see is what you get)
html is only structure
text model סטנדרטיזציה Integrate/Interchange/Preserve שיתוף, שימוש מחדש, שילוב, הצגה, חיפוש, חישוב 46 ההחלטה מה לתייג אינה ברורה מאיליה (והיא משימת מחקרית בפני עצמה), התיוג מסייע בשאלות מחקר modal) בעברית!)
xml == tei == extensible Markup Language https://en.wikipedia.org/wiki/xml Text Encoding Initiative https://blogs.princeton.edu/etc/2014/01/14/introduction-to-text-encoding-and-tei/ 47
מה מסמנים בטקסט? מה הקריטריונים? האם ניתן לעשות אוטומציה של העבודה? מה הקושי?
49 אז מה זה מדעי הרוח הדיגיטליים?
מחקר במדעי הרוח המוצג באופנים דיגיטליים מחקר המתאפשר על ידי שיטות וכלים דיגיטליים מחקר על טכנולוגיה ותרבות דיגיטלית מחקר הבונה ומתנסה בטכנולוגיה דיגיטלית מחקר המבקר את הדיגיטליות שלו עצמו שיתוף, הנגשה, הפצה, תקשורת יציאה מגבולות האקדמיה
אוספים דיגיטליים, ארכיונים דיגיטליים מהדורות דיגיטליות לטקסטים עם אפשרות עריכה /שינוי קריאה מרחוק/מקרוב trends/patterns/relationships ניתוח תרבותי / mining data מיפוי מידע, שילוב מידע על מפות ויזואליזציה של מידע/ידע קוד / תוכניות כז'אנר ספרותי, או היבטים תרבותיים של פלטפורמות מודולים שונים לדפוס ופרסום סדרי גודל קישורים
שינויים מתודולוגיים: סטנדרטיזציה ניתוח מידול ארגון שיתוף פעולה collaboration Web 2.0 מעורבות Crowdsourcing גישה ונגישות reuse and integration
טקסטים/נתונים > > ידע תיוג Tagging / Annotating נתונים, טקסטים דרכי ייצוג, תיוגים המאפשרים הפקת מידע בצורה שיטתית, הסקת מסקנות... סיווג Classification מיון, זיהוי תכונות ממיינות ייצוג תכונות, אונטולוגיה, טקסונומיה.. אינטגרציה Integration הצגה Visualisation
ת תודה yael.netzer@gmail.com http://www.cs.bgu.ac.il/~yaeln 54