Nghĩa từvựng và phân giải nhập nhằng từ

44
1 Nghĩa tvng và phân gii nhp nhng tLê Thanh Hương Bmôn Hthng Thông tin Vin CNTT &TT – Trường ĐHBKHN Email: [email protected]

Transcript of Nghĩa từvựng và phân giải nhập nhằng từ

Lecture for Natural Language Processinggii nhp nhng t
Vin CNTT &TT – Trng HBKHN
Email: [email protected]
nhau v hình thc ng âm nhng khác nhau
v ngha
cùng cách vit nhng có ngha khác nhau. Ví d:
dove - dive into water, white bird
saw
T ng âm, không ng t (Homophone): các t
có cách vit khác nhau nhng có cùng âm. Ví d:
see, sea; meat, meet
ng âm t vi t, gm:
ng âm t vng: Tt c các t u thuc cùng mt t loi. Ví d:
ng1 (p ng) - ng2 (ng phèn).
ng kính1 (ng n) - ng kính2 (…ca ng tròn).
ct1 (ct vó) - ct2 (ct tin vào t) - ct3 (ct hàng) - ct4 (ct ru)
ng âm t vng-ng pháp: Các t trong nhóm ng âm vi nhau ch khác nhau v t loi. Ví d:
ch1 (cun ch) - ch2 (ch tay nm ngón) - ch3 (ch còn có dm ng).
câu1 (nói vài câu) - câu2 (rau câu) - câu3 (chim câu) - câu4 (câu cá)
ng âm t vi ting: các n v khác nhau v cp ;
kích thc ng âm ca chúng u không vt quá mt
ting. Ví d:
Con trai Vn Cc lên dc bn cò, ng lm le ci khanh khách.
Con gái Bát Tràng bán hàng tht ch ngi châu chu nói ng
ng.
4
T a ngha (Polysemy): mt t nhiu ngha, biu th
nhng c im, thuc tính khác nhau ca mt i
tng, hoc biu th nhng i tng khác nhau ca
thc ti. Ví d
i: mt ngi nào ó ã cht
ng ngha (Synonymy): là nhng t tng ng vi nhau v ngha, khác nhau v âm thanh. Ví d
c, gng
car, automobile
Ngha t vng
Ng ngha nghiên cu ý ngha ca các phát biu dng ngôn ng
Ngha t vng (Lexical semantics) nghiên cu:
quan h t vng: s liên h v mt ng ngha gia các t
ràng buc v la chn: cu trúc liên h ng ngha bên trong ca
tng t
phân loi và phân rã ngha ca t
s ging và khác trong cu trúc t vng – ng ngha gia các ngôn ng
quan h ngha ca t vi cú pháp và ng ngha ca câu.
Các ng dng
i sánh vn bn
… 6
7
ngha trong vn phm
V t biu din các ràng buc qua tham s
read (human subject, textual object)
eat (animate subject)
kill (animate object)
Ví d "dish":
Not unexpectedly, wives, whether working or nonworking, did by far
the most - about 80% of the shopping, laundry and cooking, and
about two-thirds of housecleaning, washing dishes, child care, and
family paper work.
In her tiny kitchen at home, Ms. Chen works efficiently, stir-frying
several simple dishes, including braised pig‘s ears and chicken livers
with green peppers.
cost the company about $20,000 per school, Mr Whittle said.
9
VPPNC có th a vào các ràng buc la chn
to ontology (ví d, ngi, ng vt)
ràng buc v lut vd. VP → VgitNPng vt
ràng buc v dch ngha vd. n([sinh vt sng], [thc n])
Nhc im: Cách vit này không tng quát
không thông tin
không s dng c vi các trng hp không lit
kê trong vn phm
T in ng ngha:
(Antonyms)
Wordnet:
T lp cha và t lp con

chn
Nhp nhng:
Các v t khác nhau ng vi các ngha khác nhau
wash the dishes (theme : washable-thing)
Tham s cng có th gii quyt nhp nhng cho v t
serve vegetarian dishes (theme : food-type)
Phân tích ng ngha:
Lut có gn thông tin ng ngha c s dng vi các câu ã
c phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoi ng t: V→ eat <theme> {theme:food-type} (VP --> V NP)
Ni ng t: V → eat <no-theme> (VP --> V)
Xung t ràng buc la chn: loi tr cú pháp
12
Vn :
ôi khi ràng buc la chn không cht (khi 1 t có nhiu ngha)
ôi khi ràng buc quá cht – khi v t s dng phép n d.
Vd, I’ll eat my hat!
13
CSDL t vng
Xây dng mt mng khng l các t vng và quan h gia
các t vng
Wordnet ting Anh
4 lp: danh t, ng t, tính t, trng t
Danh t: 120,000; ng t: 22,000; Tính t: 30,000;
Trng t: 6,000
WordNet: Gii thiu
[www.globalwordnet.org]
Có wordnet cho các ngôn ng: Tây Ban Nha, Tip, Hà Lan,
Pháp, c, Ý, B ào Nha, Thy in, Basque, Estonian
Wordnets ang c làm cho các ting: Bulgary, an mch, Hy lp, Hebrew, Hindi, Cannada, Latvian, Moldavy,
Romany, Nga, Slovenian, Tamil, Thái lan, Th Nh K, Ireland,
Nauy, Ba t, Iran
T có nhp nhng
Các nút trong Wordnet biu din tp t ng ngha “synonym sets”, hoc synsets. Ví d:
Fool: 1 ngi d b li dng
{chump, fish, fool, gull, mark, patsy, fall guy, sucker,
schlemiel, shlemiel, soft touch, mug}
Synset = tp khái nim
Các quan h khác trong WordNet
Các t ni theo chiu dc biu din quan h rng (holonymy) - hp
(hypernymy), theo chiu ngang biu din quan h b phn meronymy
(part_of) và holonymy (has_part) .
Mi ngha ca t c biu din bng 1 s synset
17
h t vng
m s cnh/nh trên th:
khong cách gia 2 t t l nghch vi quan h ng ngha gia
chúng
Nu gia 2 t có nhiu ng i, chn ng ngn
nht
20
cá heo và cá?
cá và cá hi?
whale#n#1
1 ngi rt ln (v kích thc hoc phm cht)
fish#n#3
(thiên vn hc) ngi c sinh khi mt tri vì sao Pisces
25
26
trong tính quan h ng ngha
o quan h ng ngha WordNet da trên các gi thit sau:
Mi cnh trong th có dài bng nhau
Các nhánh trong th có cùng m c
Tn ti tt c các quan h ngoi ng t
không áng tin cy
Nhc im ca WordNet
Thiu sc thái, ví d nh các t ng ngha: C,
c gng, gng, l lc c xem là có mc
nh nhau.
Thiu t mi hoc ý ngha mi (không th cp
nht): Sng th, ly, th thính, tr trâu, gu,…
Ch quan, ph thuc vào ngi to
Yêu cu nhiu công sc to ra và cp nht
thích ng
các t.
Cách tip cn da trên t in
Các t in in t (Lesk ‘86)
Cho bit ý ngha ca các t trong ng cnh c th ni dung
(vd., I’ve often caught bass while out at sea)
So sánh s chng chéo ca các nh ngha v ngha ca t (bass2: a type of fish that lives in the sea)
Chn ngha trùng nhau nhiu nht
Hn ch: ng dn n t ngn →m rng cho các t liên quan
29
Cách tip cn hc máy
Hc vic phân loi gán t vi mt trong các ngha ca nó
Tích ly tri thc t tp ng liu có hoc không gán nhãn
Con ngi ch can thip vào tp ng liu gán nhãn và
la chn tp c trng s dng trong vic hun luyn
Vào: vect c trng
ích (t cn phân gii nhp nhng)
ni dung (các c trng có th dùng tiên oán
ngha úng)
30
Các th POS ca t và các t lân cn
Các t lân cn (có th ly gc t hoc không)
Du chm, vit hoa, nh dng
PTCP b phn xác nh vai trò ng pháp và quan h gia chúng
Các thông tin v ng xut hin:
T và các t lân cn ca nó có thng ng xut hin không
ng xut hin ca các t láng ging
Ví d: sea có thng xuyên xut hin vi bass không
31
Tôi n cm vi cá.
DT gT DT GT DT
(C (CN (aT Tôi)) (VN (gN (gN (gT n) (DT cm)) (GN (GT vi) (DT cá)))))
Em bé ch thích n ko thôi.
DT TT TT gT DT PT
(C (CN (DT Em bé)) (VN (TN (TN (TT ch) (TN (TT thích) (gN (gT n) (DT
ko)))) (PT thôi))))
aT gT TT DT TT
(C (CN (aT Nó)) (VN (gN (gN (gT n) (TT nhiu) (DT hoa
hng)) (TT quá))))
Các kiu phân loi
Naïve Bayes: Ngha tt nht là ngha có kh nng xy ra
nht vi 1 u vào cho trc
trong ó s là 1 trong các ngha và V là vector u vào ca các
c trng
Ch có ít d liu có thông tin vector kt hp vi ngha
Gi s các c trng là c lp, p(V|s) là tích xác sut ca các
c trng
p(V) ging nhau vi mi (không nh hng n xp hng cui
cùng)
33
Các kiu phân loi
Naïve Bayes : Ngha tt nht là ngha có kh nng xy ra nht
vi 1 u vào cho trc
Khi ó
P(s) là xác sut tin nghim ca mi ngha = xác sut ca mi
ngha trong tp d liu gán nhãn
P(v,s) = m s ln xut hin ca bass i vi sea
Hc máy xác nh tp t ng ngha
Phng pháp phân tích ng ngha tim n:
SVD (Singular Value Decomposition)
LSA (Latent Semantic Analysis)
LDA (Latent Dirichlet Allocation)
Hc máy xác nh t ng ngha
Word embedding: các k thut hc mô hình ngôn ng và hc c
trng vi mi t/cm t c biu din bi 1 vector các s thc
trong không gian t vng
Gensim, Fasttext: word2vec, doc2vec
Motivation
a ngha = Bat ((câu lc b chi cricket), (cây vt
nh có tay cm dài chi bóng ))
ng ngha = doctor, doc, physician, MD, medico
Nhng vn trên nh hng n IR nh th
nào?
ng âm và a ngha có xu hng gim chính xác
ng ngha: gim ph
40
Tìm kim da trên câu truy vn (Voorhees, 1998):
S dng WSD m rng câu truy vn: phân gii nhp nhng
câu query và b sung vào các t có ngha rng hn.
S dng WSD ánh ch s khái nim: phân gii nhp nhng tp tài liu và xây dng ch s cho tp synset thay vì cho tp t gc
Mô hình không gian vector: tìm tng ng cosin gia câu truy vn và mi vector tài liu
ánh ch s khái nim
Trong các thí nghim, vector da trên ngha thc hin kém hn vector da trên t gc
Lý do: li phân gii nhp nhng
trong thu thp vn bn, và
các câu query ngn do thiu ni dung
41
M rng query
Không kh quan
Nhng, phân gii nhp nhng và m rng truy vn
th công em li kt qu tt
Ví d:
furniture: table, chair, board, refectory(specialisations)
“Ch có mt vài t vng liên quan là có ích trong vic m rng
câu truy vn, vì ng dn lp cha gia các t trong WordNet không phi lúc nào cng em li 1 m rng
truy vn 1 cách hu ích”
42
Tp d liu ánh giá WSD: SensEval và SemCor
Cách khác to ra d liu gán nhãn: Pseudowords
Ly 2 t (ngu nhiên) có cùng t loi, và thay th c 2 bng 1 t nhân to. Ví
d, 'door' và 'banana' có th thay th trong tp ng liu bng t 'donana'.
chính xác ca WSD: xác nh c mi trng hp ca donana c th là 'door‘ hay 'banana'. (Yarowsky, 1993)
(Sanderson, 1997) công b: thêm nhp nhng vào các query và
kt qu ít có nh hng n chính xác ca vic tìm kim so vi nh hng ca li phân gii nhp nhng trong
tp kt qu
ch có li phân gii nhp nhng mc thp ( < 10%) mi tt hn
phiên bn IR n gin da trên t gc.
43
Ti sao a ngha/ng âm không phi vn
ln nh ta ngh:
Tác ng ca s ng xut hin t truy vn: các
t trong câu truy vn t nó ã phân gii nhp
nhng
S phân b ng ngha: áp dng cho các min ng dng c th
44
T ng ngha có nh hng ln hn:
Gonzalo et al. (1998; 1999): s dng SemCor (tp ng liu
Brown vi các th ngha ca WordNet) cho thy nu phân gii
nhp nhng có cx = 100%
ánh ch s ngha (vd synset number) có cx IR = 62%
ánh ch s ngha ca t (vd canine1) có cx IR = 53.2%
ánh ch s t gc có cx IR = 48%
Gonzalo et al. cho thy cx ti thiu 90% vi WSD