Post on 20-Dec-2015
89-6801
2שיעור ומשפטים - למילים הפרדה(Tokenization)
- מורפולוגיה
89-6802
עיקריות לשוניות רמות
מורפולוגיה•תחביר•סמנטיקה•/שיחפרגמטיקה•
הלשוניות הרמות את נבחן הבאים בשיעוריםבהן החישובי והטיפול השונות
89-6803
Tokenization
• ' הקלט ' שבירת היא הראשונית הבעיה. ולמילים למשפטים
•' וכד למספרים גם הכוונה במילים•: הנאיבית הגישה
–‘!','?','.'- ב מסתיים משפט– - ב מופרדת whitespaceמילה
•...: המציאות אך
89-6804
Tokenization Issues
?speechinputמהעושיםבמקרהשל••East Asian Languanges
89-6805
89-6806
89-6807
Sentence breaks
גם'.','?','!' ':',';','-','• 'n\ולפעמים• ~ 90% of periods are sentence breaks• State of the art: 99% accuracy )learning
methods( • English capitalization can help• The Problem: period .
– can denote a decimal point )5.6(, an abbreviation )Mr.(, the end of a sentence, thousand segment separator: 3.200 )three-thousand-two-hundred, in Europe(, initials: A. B. Smith, ellipsis …
89-6808
Sentence breaks…
• "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“
• The group included Dr. J. M. Freeman and T. Boone Pickens Jr.
a. It was due Friday by 5 p.m. Saturday would be too late.
b. b. She has an appointment at 5 p.m. Saturday to get her car fixed.
89-6809
Sentence Break Detection (“technical” algorithm - Manning &
Schütze)• Hypothesize SB after all occurrences of . ? !• Move boundary after immediately following
quotation marks• Disqualify periods if:
– Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs.
– Preceded by a known abbreviation and not followed by an uppercase word.
• Disqualify a boundary with a ? or ! If:– It is followed by a lowercase letter.
• Regard other hypothesized SBs as sentence boundaries.
89-68010
?" מילה " זה מה
מילוני )• העצמאית(: למהערך המידע יחידתבשפה ביותר הקטנה
שולחן, למשל: ספר : לא ed-(walk)(, ספר)האבל
She'dמילה? •• " " " " , יחידה או מחרוזת כל לא כתובה בשפה
: למשל - למה היא ברווחים המוקפתאותו ואכלתיהו - אכלתי ואני
הלקסיקאלית • ליחידה להתייחס מקובל- כ בטקסט tokenהמינימאלית
89-68011
... מילים מילים מילים הכל
•22.50$ ,02/02/94 ,•(-:{ }•AT&T,@gentInteractive• U.N. in. Wash.•- - , - , הזמן- על חבל אילן בר ספר בית•Lebensversicherungsgesellschaftsangestellter
Life insurance company employee
•+972-52-901302( 202 )905-8026•Model # RQ9038WF2-SR,
Xen Steel Diamond Empathy 7.5-in Bracelet ).02 TW(
89-68012
ו HTMLטבלאות
• , טהור טקסט שאינם נוספים מידע סוגי יש , טבעית בשפה מרכיבים מכילים אבל
שפה לעיבוד בשיטות לנתח רלוונטי שאותםטבעית
•! מסובך עסק זה טבלאותכבר HTMLב-• mark-upיש
89-68013
מורפולוגיהמהברות - • מורכבות המידע " morphemesמילים יחידות שהן
" משמעות הנושאות ביותר הקטנות•: הברות שהן מילים יש•car, fish•: מורפימות מכמה מורכבת להיות יכולה מילה• + ) ( הם - + ם י סוס סוסיהםבמונח • הוא יותר מדויק שימוש "לכן שהיא lexeme לקסמה"
מילונית משמעות בעלת ביותר הבסיסית הצורה או המילה – ערך מילוני )כניסה במילון(lemmaמקובל גם המונח "למה" –
מעוניינים במודל למורפולוגיה של השפה•ניתוח–יצירה–חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי )ליישומים –
דקדוקיים וסמנטיים(
89-68014
מנגנונים מורפולוגיים - :( affixes)מוספיות
, , וסופית תוכית תחילית•- ל מחולקות affixesול-)אינו בהכרח מילה( stemמיליםהמילה - prefixesתחיליות - • בתחילת המוספות הן•Un-believable, re-directionהמילה - suffixesסופיות - • בסוף מוספות
ing : having, eatingלמשל: שורש- - - infixes תוכיות • או לגזע המוכנסת מורפמה
בעברית בניין הקובעות אותיות למשלהתפעל - התרחץ, התלכלך–
•Circumfix)שילוב של תחילית וסופית )למשל בגרמנית – ( למנגנון concatenativeמבחינים בין מנגנון שרשורי )•
מבוסס תבניות )כגון שורש-בנין בשפות שמיות(
89-68015
inflectionהטיה תחביריים • צרכים מתוך המילה בצורת , שאינו שינוי
:למשל חלק הדיבר.משנה את הלמה )המשמעות( ואת –- ) / רבים ) יחיד number מספר
נערות - • נערה
genderמין –נערה - • נער
personגוף –רצנו - • אנחנו רצתי אני
tenseזמן –
מערכת ההטיה תלויה בחלק הדיבר )ש"ע, פועל, שם •תואר, ...(
מורכבת • ההטיות מערכת בעברית
89-68016
באנגלית הטיות• . יחסית פשוטה ההטיות מערכת באנגלית
משורשרת - מבוססת על מורפולוגיהconcatenative morphology
• : ושייכות ריבוי עצם שמות . possessives עבורכתיב • חוקי מלים spelling rulesיש למשל
- ב יהיה xשמסתיימות לרבים .s-ולא es-סימון• : יותר מגוונות ההטיות פעלים :עבור
stem, 3rd person, -ing participle, past, past participle 11בטורקית למשל – מערכת שרשורים ענפה )דוגמא עם •
מרכיבים(
89-68017
Morphologi-cal Form Classes
Stem
" שורש"walkmergetrymap
-s formwalksmergestriesmaps
-ing particle
walkingmergingtryingmapping
Regulary Inflected verbs )by rules(
89-68018
גזירה
• A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham.
• Vegetarians eat vegetables—I'm a humanitarian
89-68019
derivationגזירה לקסמות • יצירת היא לקסמות קצרות מחדשות גזירה
יותר, על פי כללים מורפולוגייםrelation - relationship
המילה בדר"כ גורם לשינוי • של הדיבר חלקrelate – relation – relational – relationally
השורש: • .בעברית ח. ב הגזירה ט ִ__�_מוצורןמטבח
sweet - adjective sweetness – nounבאנגלית: •באנגלית מעט הטיות ומערכת גזירה ענפה.•הגזירה אינה אוטומטית – על כל מילה יכולים לפעול רק •
כללי גזירה מסוימים, או כלל לא
89-68020
ה – ניתוח מורפולוגיל מידול חישוביויצירה
•Morphological analysis/parsing•. ממנו: מבנה ויצירת כלשהו קלט קבלת ניתוח•Lemmatization/stemming התהליך הוא
: " הבסיסית" לצורתן מורכבות מילים מפשיט ש foxes -> fox
•- כ מילה כקלט יקבל מורפולוגי goingניתוחהניתוח את כפלט ויחזיר
VERB-GO + PARTICIPLE-ing
89-68021
דוגמאות
• : עצם שמות של פשוט ריבוי ניתוח פשוטה דוגמא.)verbal progressive )-ingו-
המטרה: • : cat + N + SGפלט: catsקלט : goose + N+ PLפלט: geeseקלט
: merge + V + PRES-PARTפלט: mergingקלט
: catch + V + PAST-PARTפלט: caughtקלט
89-68022
מורפולוגי מטרות מודל
•Recognizer :לא או תקנית היא מילה האם•Generator :מורפולוגי מניתוח מילים מייצר
מסוים•Parser :למלים מורפולוגי ניתוח נותן•Lemmatizer/Stemmer:בסיס ה מזהה את צורת
(lemma/stem )מילה של
89-68023
קוים מנחים לטיפול במורפולוגיהיעיל • אפשר ובהרבה שפותלא אי בלקסיקון לייצגגם
ע המילים כל שלהן וצורכל םאת ההטיה תלכן – מחזיקים את הלמות בלקסיקון, ומפעילים מודל חישובי –
)דינאמי( לניתוח מורפולוגי )הפעלת חוקי המורפולוגיה(
דופן • יוצאי הרבה למשל: – אותם נוסיף ללקסיקון.יש– : עצם goose/geese, mouse/miceשמות go/went eat/ate פעלים:–
גזירות – מאחר שאינן אוטומטיות, וכל גזירה מייצרת •למה חדשה, מייצגים כל למה בנפרד בלקסיקון
ניתוח גזירות דינאמי רלוונטי לזיהוי למות חדשות/לא מוכרות, –ולזיהוי אוטומטי של יחס סמנטי בין מילים )לא נפוץ(
89-68024
מורפולוגי מנתח בניית
•: ב צורך יש מורפולוגי מנתח לבנות כדישורשים - לקסיקון– -stemsרשימת עם, affixesו
- ה האם כגון כללי , stemמידע פועל עצם שם הואוכו'.
–Morphotactics ( - איזו המורפמות לסידור המודל) סופית ואיזו תחילית היא מורפמה
אורתוגרפיים – חוקי orthographic rulesחוקיםלמשל - - במילה החלים שינויים הכתיב
y-> ie של במקרה city + -s -> cities כמו
89-68025
Finite-State Automaton for Recognizing English Nominal Inflection
– Regular: fox, dog, city: add s– Irregular: goose, mouse, sheep (memorize)
89-68026
באוטומט המילון )זיהוי(הטמעת)עדיין ללא טיפול בחוקים אורתוגרפיים(