Chương 7. ử lý ngôn ngữ tự nhiên -...

17
1 Chương 7. Xlý ngôn ngtnhiên Lê Thanh Hương Kh CNTT ĐHBKHN 1 Khoa CNTT - ĐHBKHN 7.1. Xlý NNTN là gì? Mc đích: hiu được nhiu ngôn ngKhông chđơn gin là xlý xâu hoc so khp tkhoá ng dng: 2 ng dng: Khó: xlý tiếng nói (speech processing), dch máy (machine translation), trích rút thông tin (information extraction), giao din hi thoi = NNTN (dialog interface), hi đáp (question answering) ng dng hin nay: sa li chính t, phân loi văn bn, … Lê Thanh Hương – Khoa CNTT - ĐHBKHN 7.2. Phân tích ngôn ngGm nhiutng: Gm nhiu tng: Âm v(Phonology) Âm tiết (Morphology) Cú pháp (syntactics) Ngnghĩa (semantics) 3 Ngnghĩa (semantics) • Thc chng (pragmatics) •Cu trúc din ngôn (discourse) Lê Thanh Hương – Khoa CNTT - ĐHBKHN Mc âm tiết English: ngôn ngbiến hình (metamorphosis), đa âm tiết (multisyllable) ki k ki k ki k d ki ki kick, kicks, kicked, kicking sit, sits, sat, sitting murder, murders Nhưng không hn chlà thêm/bt đuôi gorge, gorgeous arm army rc rv: nhi nhét; n: nhng cái đã ăn, hm núi 4 arm, army Vietnamese: không biến hình, đơn âm tiết tách tCánh tay Quân đội Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Transcript of Chương 7. ử lý ngôn ngữ tự nhiên -...

Page 1: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

1

Chương 7. Xử lý ngôn ngữ tự nhiên

Lê Thanh HươngKh CNTT ĐHBKHN

1

Khoa CNTT - ĐHBKHN

7.1. Xử lý NNTN là gì?

• Mục đích: hiểu được nhiều ngôn ngữ• Không chỉ đơn giản là xử lý xâu hoặc so khớp từ khoáỨng dụng:

2

Ứng dụng:• Khó: xử lý tiếng nói (speech processing), dịch máy (machine

translation), trích rút thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering)

• Ứng dụng hiện nay: sửa lỗi chính tả, phân loại văn bản, …

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.2. Phân tích ngôn ngữ

Gồm nhiều tầng:Gồm nhiều tầng:• Âm vị (Phonology)• Âm tiết (Morphology)• Cú pháp (syntactics)• Ngữ nghĩa (semantics)

3

• Ngữ nghĩa (semantics)• Thực chứng (pragmatics)• Cấu trúc diễn ngôn (discourse)

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Mức âm tiếtEnglish: ngôn ngữ biến hình (metamorphosis), đa âm tiết

(multisyllable)ki k ki k ki k d ki ki• kick, kicks, kicked, kicking

• sit, sits, sat, sitting• murder, murders

Nhưng không hẳn chỉ là thêm/bớt đuôi • gorge, gorgeous

arm army

rực rỡ

v: nhồi nhét; n: những cái đã ăn, hẻm núi

4

• arm, army

Vietnamese: không biến hình, đơn âm tiết tách từCánh tay Quân đội

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 2: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

2

Tri thức về ngôn ngữ?

• Một số có qui luật:• Một số có qui luật:– Singing → Sing+ing; Bringing → bring+ing

• Duckling → ?? Duckl +ing• Cần biết duckl không phải một từ

5

• Cần biết duckl không phải một từ• Không thể nhớ tất cả vì có quá nhiều

trường hợp như vậy

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Tách từ (word segmentation)

• Một câu có nhiều cách tách, nhưng chỉ có 1 cách tách đúngtách đúng

• Giải pháp đơn giản nhất: lấy xâu dài nhất từ vị trí hiện tại và có trong từ điển

• Vấn đề: các từ có thể chồng nhau– Học sinh | học sinh | học.– Học sinh | học | sinh học.

6

| |Liệt kê tất cả các khả năng và đưa ra chiến lược chọn giải pháp chính xác nhất

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Phân tích cú pháp

The boy threw a ball to the brown dog.

• The/DT boy/NN threw/VBD a/DT ball/NN to/IN the/DTbrown/JJ dog/NN./.

DT – từ hạn định NN – danh từ

7

DT – từ hạn định NN – danh từVBD – động từ quá khứ IN – giới từJJ – tính từ . – dấu kết thúc câu

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Nhập nhằng (ambiguity)Time flies like an arrow.Time // flies like an arrow.

ĐgT giới từTime flies // like an arrow.

D.Ngữ ĐgTÔng già đi nhanh quá. Ông già // đi nhanh quá.

DT Đ T

8

DT ĐgTÔng // già đi nhanh quá.DT TT Phó từ

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 3: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

3

Cú pháp không cung cấp nhiều thông tin ngữ nghĩa

• Colorless green ideas sleep furiously. [Chomsky]

• fire match arson hotel• plastic cat food can cover

9

p

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Ngữ nghĩa: nhập nhằng từ vựng(lexical ambiguity)

• I walked to the bankI walked to the bank ...of the river.to get money.

• The bug in the room ...was planted by spies.flew out the window.

10

flew out the window.• I work for John Hancock ...

and he is a good boss.which is a good company.

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Diễn ngôn: đồng tham chiếu(coreference)

President John F Kennedy was assassinatedPresident John F. Kennedy was assassinated.The president was shot yesterday.Relatives said that John was a good father.JFK was the youngest president in history.His family will bury him tomorrow.Friends of the Massachusetts native will hold a

11

candlelight service in Mr. Kennedy’s home town.

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Thực chứng

Bạn phản ứng như thế nào trước nhữngBạn phản ứng như thế nào trước những điều tôi nói?

Hội thoại• Bạn có thể cho tôi biết mấy giờ rồi

khô ?

12

không?• Bạn có thể đưa tôi lọ muối không?

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 4: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

4

Tri thức thế giới

John went to the diner. He ordered a steak. He left a tip and went home.

– What did John eat for dinner?Wh b ht J h hi f d?

13

– Who brought John his food?– Who cooked the steak?– Did John pay his bill?

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Câu hỏi LSAT / (former) GRE• Six sculptures – C, D, E, F, G, H – are to be exhibited in rooms 1, 2,

and 3 of an art gallery.S l t C d E t b hibit d i th– Sculptures C and E may not be exhibited in the same room.

– Sculptures D and G must be exhibited in the same room.– If sculptures E and F are exhibited in the same room, no other

sculpture may be exhibited in that room.– At least one sculpture must be exhibited in each room, and no

more than three sculptures may be exhibited in any room.• If sculpture D is exhibited in room 3 and sculptures E and F are

14

exhibited in room 1, which of the following may be true?A. Sculpture C is exhibited in room 1B. Sculpture H is exhibited in room 1C. Sculpture G is exhibited in room 2D. Sculptures C and H are exhibited in the same roomE. Sculptures G and F are exhibited in the same room

U: Where is A Bug’s Life playing in Mountain View?

Phân tích đồng tham chiếu (Reference Resolution)

S: A Bug’s Life is playing at the Summit theater.U: When is it playing there?S: It’s playing at 2pm, 5pm, and 8pm.U: I’d like 1 adult and 2 children for the first show.

How much would that cost?

ồ ế

15

• Các nguồn tri thức thế giới:– Tri thức miền (domain knowledge)– Tri thức diễn ngôn (discourse knowledge)– Tri thức thế giới (world knowledge)

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Vấn đề xử lý ngôn ngữ• Các công cụ cần:

T i thứ ề ô ữ– Tri thức về ngôn ngữ– Tri thức về thế giới– Cách kết hợp các nguồn tri thức đó

• Giải pháp tiềm năng:ô hì h á ất â d từ dữ liệ

16

– mô hình xác suất xây dựng từ dữ liệu• P(“maison” → “house”) cao• P(“L’avocat general” → “the general avocado”)

thấpLê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 5: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

5

7.3. Các vấn đề mở

• Dịch máy• Dịch máy• Trích rút thông tin• Nhận dạng tiếng nói• Hiểu nội dung

17Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Dịch máy

Ví dụ:

• Au sortir de la saison 97/98 et surtout au debut de• Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99…

• With leaving season 97/98 and especially at the beginning of this season 98/99…

Các hệ thống dịch ghi nhớ các thông tin sau:• Làm sao để viết trôi chảy

18

• Làm sao để viết trôi chảy• Sự tương ứng giữa 2 ngôn ngữ• Với 2 ngôn ngữ gần tương đồng thì bản dịch chấp

nhận được. Hiện nay dịch máy hỗ trợ người dịch là chính

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Trích rút thông tin

Quảng cáo cho thuê nhà• Thường là văn bản không có các thẻ xml hoặc html• Thường là văn bản không có các thẻ xml hoặc html

<ADNUM> 2067206v1 </ADNUM><DATE>March, 02 </DATE><ADTITLE> MADDINGTON $89,000</ADTITLE><ADTEXT>OPEN 1.00-1.45<BR> U 11/10 BERTRAM

19

ADTEXT OPEN 1.00 1.45 BR U 11/10 BERTRAM ST<BR> NEW TO MARKET Beautiful <BR> 3brm freestanding <BR> villa, close to shops & bus<BR> ideally suit 1st home buyer,<BR>investor & 55 and over.<BR> </ADTEXT>

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Trích rút thông tin

• Thông tin cần tìm:Vị t í– Vị trí:

• 1 cụm từ: “chỉ đi mất 45’ từ Parramatta”– Tiền: $120K < M < $200K

• Nhiều giá: trước là $155K, bây giờ là $145– Số phòng (bedrooms): các cách viết khác

h (b bd b d B/R)

20

nhau (br, bdr, beds, B/R)

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 6: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

6

Trích rút thông tinĐiền các đoạn trong văn bản vào các trường trong CSDLNhiệm vụ:

October 14 2002 4:00 a m PTOctober 14, 2002, 4:00 a.m. PT

For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.

Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its

NAME TITLE ORGANIZATIONBill Gates CEO MicrosoftBill Veghte VP MicrosoftRichard Stallman founder Free Soft..

IE

21

crown jewels--the coveted code behind the Windows operating system--to select customers.

"We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“

Richard Stallman, founder of the Free Software Foundation, countered saying…

Hệ thống hỏi đápCâu hỏi dựa trên việc

hiểu một tập tài liệu

• Dễ: “Thủ đô của Việt Nam là gì?”

• Khó hơn: “Có bao nhiêu thành phố lớn ở Mĩ ?”

• Khó: “Các vấn đề hí h t ộ t h

22

chính trong cuộc tranh cãi về hiện tượng nóng lên của trái đất?”

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.4. Mô hình ngôn ngữCó 2 cách chính để mô hình hoá ngôn ngữ: Có các c để ô oá gô gữ• Mô hình ngôn ngữ: mỗi câu s được gắn với 1 xác

suất phân phối P(s)– Tiện lợi khi muốn mô hình hoá 1 cách trôi chảy trong 1 hệ

thống có nhiễu giống như dịch máy– Thường là các mô hình đơn giản, luyện trên nhiều dữ liệu

• Phân tích ngôn ngữ: quyết định cấu trúc và/hoặc ý nghĩa của câu

23

nghĩa của câu– Tiện lợi khi cần xử lý văn bản ở mức sâu hơn như trích rút

thông tin hoặc hỏi đáp– Đầu tiên được dùng trong dịch máy

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.4.1. Mô hình ngôn ngữ

24

Page 7: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

7

Xử lý tiếng nói• Ta cần đọc 1 câu khi biết chuỗi ký hiệu

âm thanh của nó:

• Cách tiếp cận đối với kênh có nhiễu:– Xây dựng mô hình tổng quát dựa trên tích

(mã hoá)P(A,s) = P(s) P(A|s)

– Để giải mã, sử dụng luật Bayes

25

– Tìm 1 câu nhằm tối đa tích này

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Mô hình ngôn ngữ dựa trên N-gram

• Không giảm tính tổng quát tính xác suất câu trên cơKhông giảm tính tổng quát, tính xác suất câu trên cơ sở xác suất các từ

• Phụ thuộc quá nhiều vào các từ trước• Giải pháp L giả thiết mỗi từ chỉ phụ thuộc vào 1 số

26

giới hạn các từ trước

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Unigram

• Quá trình thực hiện: chọn 1 từ, rồi từ khác … :Quá trình thực hiện: chọn 1 từ, rồi từ khác … :

• Cần có 1 ký tự đặc biệt đánh dấu kết thúc xâu. Ví dụ:• [after, any, on, consistently, hospital, lake, of, of, other, and, factors,

raised, analyst, too, allowed, mexico, never, consider, fall, bungled,

27

y gdavison, that, obtain, price, lines, the, to, sass, the, the, further, board, a, details, machinists, the, companies, which, rivals, an, because, longer, oakes, percent, a, they, three, edward, it, currier, an, within, in, three, wrote, is, you, s., longer, institute, dentistry, pay, however, said, possible, to, rooms, hiding, eggs, approximate, financial, canada, the, so, workers, advancers, half, between, nasdaq]

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

BigramVấn đề với unigrams:

P(the the the the) >> P(I like ice cream)P(the the the the) P(I like ice cream)

Điều kiện:

28Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 8: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

8

BigramVí dụ:

Eat ice-cream (tần suất cao)Eat John (thấp)Eat John (thấp)

Nhược:• P(John decided to bake a) có tần suất cao• Xét:

P(w3) = P(w3|w2w1)=P(w3|w2)P(w2|w1)P(w1)→ Quá phụ thuộc, chủ ngữ có thể chọn vị ngữsử dụng cấu trúc ngữ pháp để ngăn chặn

29

sử dụng cấu trúc ngữ pháp để ngăn chặn• Xét Fred watered his mother’s small garden. Pr(garden)?

– Pr (garden|mother’s small) thấp ⇒ trigram không thích hợp– Pr(garden | X is head of object NP to water) cao

sử dụng bigram + quan hệ ngữ pháp

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.4.2. Phân tích ngôn ngữ

30

Phân tích cấu trúc đoạn (Phrase Structure Parsing)

• Câu được chia thành các đoạn, phân cách bằng các dấu ngoặc

Sphân cách bằng các dấu ngoặc.

Ví dụ:(S (NP Tôi)

(VP (VB đọc)(NP sách))

Tôi đọc sách

VBNP NP

VP

31

))

Vấn đề:• Nhập nhằng: 1 câu - nhiều cách biểu diễn

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Nhập nhằng

S Nhập nhằng giới từ (Preposition

Mai thấy Hải ở tầng hai. S

NP

0 Mai

VP

PPVB NP

2 Hải

Nhập nhằng giới từ (Preposition – PP) có thể gắn ở 2 nơi(với VP hoặc NP)

1 thấy

32

0 a PP

NP3 ở

4 tầng 5 hai 6

1 thấy

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 9: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

9

Ngôn ngữ phi ngữ cảnh (Context-Free Grammar)Luật cú pháp:

R: X → γ , X là 1 ký hiệu không kết thúc; γ là chuỗi các ký hiệu kết thúc và không kết thúc

Ngôn ngữ cảm ngữ cảnh: R: αAγ ⇒ αβγ

33Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Phân tích cú pháp kiểu top-down• Hướng đích• Khởi tạo với 1 d/s các phần tử

S

NP VPạ pcần xây dựng

• Viết lại các đích:– tìm luật có vế trái giống đích– mở rộng đích = VP luật

• Nếu có nhiều cách triển khai đích, chọn 1 luật

…….

34

Nếu có nhiều cách triển khai đích, chọn 1 luật để áp dụng (vấn đề tìm kiếm)

• Có thể dùng tìm kiếm rộng hoặc tìm kiếm sâu.

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Phân tích cú pháp kiểu top-down

• S→ NP VP→ NP VP→ DT NNS VBD→ The children slept

• S→ NP VP

35

→ DT NNS VBD NP→ DT NNS VBD DT NN→ The children ate the cake

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Phân tích cú pháp kiểu bottom-up

• Hướng dữ liệu

S

NP VPHướng dữ liệu• Bắt đầu với xâu cần phân tích• Nếu xâu trong danh sách các đích khớp

với VP của luật, thay nó = VT của luật• Kết thúc khi d/s đích = {S}.

Nế hiề l ật ó VP khớ ới đí h h

NP VP

36

• Nếu nhiều luật có VP khớp với đích, chọn 1 luật để áp dụng

• Có thể dùng TKR hoặc TKS.

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 10: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

10

CFG

37Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Thuật toán CYK

1 2 3 4 5

“ The children ate the cake”

0 DT NP S

1 NN

2 VBD VP

38

3 DT NP

4 NN

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Bài tậpCho văn phạm phi ngữ cảnh sau đây:

S → NP VP NP → Det NounNP → NameVP → Verb VP → Verb That S

Name → CharlesDet → theNoun → roomVerb →thinksVerb → smellsThat → that

39

Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu

Charles thinks that the room smells.

Bài tập

C ủ

Cho văn phạm phi ngữ cảnh sau đây:

1. <Câu> <chủ ngữ> <vị ngữ>2. <chủ ngữ> <danh ngữ>3. <vị ngữ> <động ngữ>4. <danh ngữ> <Loại từ> <danh từ> 5. <danh ngữ> <danh từ> <tính từ>6. <danh ngữ> <loại từ> <danh ngữ>

7. <động ngữ> <động từ> <danh ngữ>

8. <động ngữ> <động từ> 9. <loại từ> con10.<danh từ> ngựa11.<tính từ> đá12.<động từ> đá

40

Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu

Con ngựa đá con ngựa đá.

Page 11: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

11

Bài tập

8 í í í

Cho văn phạm phi ngữ cảnh sau đây:

1. <Câu> <chủ ngữ> <vị ngữ>2. <chủ ngữ> <danh từ>3. <chủ ngữ> <đại từ>4. <vị ngữ> <động ngữ>5. <vị ngữ> <tính ngữ>6. <tính ngữ> <tính từ> <phó từ>7. <động ngữ> <động từ> <tính ngữ>

8. <tính ngữ> <tính ngữ> <tính ngữ>9. <danh từ> ông già10. <đại từ> ông11. <tính từ> già12. <động từ> đi13. <phó từ> đi14. <tính từ> nhanh15. <phó từ> quá

41

Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu

Ông già đi nhanh quá.

Tập ngữ liệu

• là tập các văn bản được chú thích theo 1 địnhlà tập các văn bản được chú thích theo 1 định dạng nào đó

• đôi khi chỉ có 1 số lượng lớn từ không được đánh dấu

Ví dụ: • Newswire: trên 500 triệu từ

42

• Brown: 1 triệu từ đã được gán nhãn • Penn Treebank: 1 triệu từ đã được gán nhãn

cú pháp

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Một cây cú pháp trong Penn Treebank

43Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Phương pháp dựa trên tập ngữ liệu

44Lê Thanh Hương – Khoa CNTT - ĐHBKHN

Page 12: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

12

Phương pháp dựa trên tập ngữ liệu

• Cần 1 bộ PTCP dựa trên xác suất để có kết quả hội tụ• Có thể xây dựng 1 bộ luật cú pháp ngay từ 1 cây cú pháp

(nhưng không tốt lắm):

45

• Cải thiện bằng cách làm phong phú thêm bộ luật (như đưa thêm thông tin về từ vựng)

• Cũng có thể đạt được độ chính xác chấp nhận được mà không cần đến thông tin từ vựng

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.5. Phân tích ngữ nghĩa

Ví dụ:Ví dụ:• “Bob thích Alice.”• “Tôi nghĩ tôi là một con gấu.”Phân tích ngữ nghĩa cho biết:

– 1 phát biểu đúng hay sai.– điều kiện để phát biểu có giá trị đúng

46

ệ p g ị g– Có thể hành động phù hợp với phát biểu đó.

• “Bob thích ai?”• “Đóng cửa lại!”

Lê Thanh Hương – Khoa CNTT - ĐHBKHN

7.5. Phân tích ngữ nghĩaTên riêng: Chỉ một số thực thểVí dụ: Bob: bobCâu: Trả về kết quả đúng hoặc sai• Bob sings : sings(bob)Động từ: sử dụng hàm• sings : λx.sings(x)Kết hợp ngữ nghĩa• S: β(α) → NP:α VP: β• VP: λx . α(x) ∧ β(x) → VP:α and: VP:β (phép giao)

47

7.5. Phân tích ngữ nghĩa

S (IP) VP(NP )= ate (john iceS (IP)

NP VP

V NPJohn

V(NP )= λy.ate (y, ice-cream )

VP(NP )= ate (john , ice-cream )

ice-cream

john

λxλy ate(y

48

John

ate ice-cream

λxλy.ate(y ,x)

Page 13: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

13

Cách biểu diễn vị từ• Gilly swallowed a goldfish

– swallowed(Gilly, goldfish)swallowed(Gilly, goldfish)• goldfish không phải là tên một đối tượng duy

nhất như là Gilly

• Vấn đềGilly swallowed a goldfish and Milly

ll d ldfi h

49

swallowed a goldfishchuyển thành:swallowed(Gilly, goldfish) AND swallowed(Milly, goldfish)nhưng không phải cùng 1 goldfish …

Sử dụng lượng từ• Gilly swallowed a goldfish

swallowed(Gilly goldfish)– swallowed(Gilly, goldfish)

• Tốt hơn: ∃g goldfish(g) AND swallowed(Gilly, g)• Hoặc sử dụng vị từ lượng từ:

– exists(λg goldfish(g), λg swallowed(Gilly,g)) – tương đương: exists(goldfish, swallowed(Gilly))

“ ố ở G

50

• “trong tập cá có 1 con cá bị nuốt bởi Gilly”

– Mai likes small cats.– Mai likes the cat whose name is Tom.

Thời• Gilly swallowed a goldfish

i t ( ldfi h λ ll d(Gill ))– exists(goldfish, λg swallowed(Gilly,g))• Cải tiến:

– swallowed(Gilly,g) chuyển thành swallow(t,Gilly,g), t là thời gian

– ∃t past(t) AND exists(λg goldfish(g), λg swallow(t,Gilly,g))– “Có lúc nào đó trong quá khứ con cá là 1 trong các vật bị

51

Có lúc nào đó trong quá khứ, con cá là 1 trong các vật bị Gilly nuốt”

Các thuộc tính về sự kiện• Gilly swallowed a goldfish– ∃t past(t) AND exists(goldfish, swallow(t,Gilly))

• Một phát biểu có thể có các thuộc tính khác nữa:– [Gilly] swallowed [a goldfish] [on a dare] [in a telephone booth] [with 30 other freshmen] [after many bottles of vodka had been consumed].

– xác định ai? làm gì? tại sao? khi nào? (who what why h )

52

when)• Thay biến thời gian t với biến sự kiện e

– ∃e past(e), act(e,swallowing), swallower(e,Gilly), exists(goldfish, swallowee(e)), exists(booth, location(e)), …• Có thể biểu diễn quá khứ bằng λe ∃t before(t,now), ended-

at(e,t)

Page 14: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

14

Trật tự của lượng từ• Ví dụ– In this country a woman gives birthIn this country a woman gives birth every 15 min. Our job is to find that woman and stop her.

– ∃woman (∀15min gives-birth-during(woman, 15min))

– ∀15min (∃woman gives-birth-during(15min

53

– ∀15min (∃woman gives-birth-during(15min, woman))

Danh ngữ• Expert λg expert(g)• big fat expert λg big(g), fat(g), expert(g)big fat expert λg big(g), fat(g), expert(g)

1. Phân tích cú pháp2 Tì ữ hĩ ủ từ từ

Phân tích ngữ nghĩa câu2. Tìm ngữ nghĩa của từng từ3. Xác định ngữ nghĩa cho mỗi thành phần ngữ

pháp, thực hiện từ dưới lên

55

Ngữ nghĩa thành phần

S

START

Punc

assert(every(nation, λx ∃e present(e), act(e,wanting), wanter(e,x), wantee(e, λe’ act(e’,loving),

lover(e’ G) lovee(e’ L))))

every(nation, λx ∃e present(e), act(e,wanting), wanter(e,x), wantee(e, λe’ act(e’,loving),

lover(e’,G), lovee(e’,L)))

Sinf

VPstem

Vstemwant

VPfin

T-s

Sfin

NP

Nnation

DetEvery

Punc.

λv λx ∃e present(e) v(x)(e)

every nation

λs assert(s)

lover(e’,G), lovee(e’,L))))λp every(nation, p)

56

NPLaura

Vstemlove

VPstem

VPinf

Tto

NPGeorge

G

λa a

λy λx λe act(e,loving), lover(e,x), lovee(e,y)

L

λy λx λe act(e,wanting), wanter(e,x), wantee(e,y)

λv λx ∃e present(e),v(x)(e)

Page 15: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

15

• Thêm thuộc tính “sem” cho mỗi luật phi ngữ cảnh – S → NP loves NP

Ngữ nghĩa thành phần

S → NP loves NP– S[sem=loves(x,y)] → NP[sem=x] loves NP[sem=y]– Nghĩa của S phụ thuộc vào nghĩa của NP

• TAG version:

VP

S

NPx

loves(x,y)

57

NPVloves

x

y

Điền mẫu: S[sem=showflights(x,y)] →I want a flight from NP[sem=x] to NP[sem=y]

• Thay S → NP loves NP– S[sem=loves(x,y)] → NP[sem=x] loves NP[sem=y]

Ngữ nghĩa thành phần

• Luật tổng quát S → NP VP:– V[sem=loves] → loves– VP[sem=v(obj)] → V[sem=v] NP[sem=obj]– S[sem=vp(subj)] → NP[sem=subj] VP[sem=vp]

• George loves Laura có sem=loves(Laura)(George)

• Trong phần này ta:

58

Trong phần này, ta:– tính ngữ nghĩa từ dưới lên– Ngữ pháp ở dạng chuẩn Chomsky– Mỗi nút có 2 con: 1 hàm và 1 tham số– Để lấy ngữ nghĩa của nút, áp dụng hàm vào tham số

Ngữ nghĩa thành phần

START assert(loves(L,G))M ố diễ đ t G l L

AdjP

VPfin

Sfin Punc.

NPGeorge

V

λs assert(s)

G

λy loves(L,y)

loves(L,G)

Muốn diễn đạt G loves L

59

AdjPLaura

Vpresloves

loves =λx λy loves(x,y)

L

G

Ngữ nghĩa thành phần

START∃e present(e) act(e loving)

AdjP

VPfin

Sfin Punc.

NPGeorge

VG

λy loves(L,y)

loves(L,G)

∃e present(e), act(e,loving), lover(e,G), lovee(e,L)

λy ∃e present(e), act(e,loving),

lover(e,y), lovee(e,L)

60

AdjPLaura

Vpresloves

loves =λx λy loves(x,y)

L

G

λx λy ∃e present(e), act(e,loving),

lover(e,y), lovee(e,x)

Page 16: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

16

Cách biểu diễn ngữ nghĩa cơ bản

• Sử dụng “Event”• Sử dụng Event• (EVENT :condition1 val1 :condition2 val2… :condn valn)

• Ví dụ:• (see :agent John :patient Mary :tense

61

past)

Luật cú pháp/ngữ nghĩaThành phần/luật Dịch nghĩaThành phần/luật Dịch nghĩaVerb ate λxλy.ate(y, x)N NV VS S*= VP*(NP*)

62

S S*= VP*(NP*)NP N*VP V*(NP*)

Ý nghĩa của câu• λ form ứng với VP gắn với λ form đi với NP• λ form ứng với VP gắn với λ form đi với NP• Từ là các giá trị• Cho cây cú pháp, phân tích từ dưới lên để có

ngữ nghĩa của câu ate(John, ice-cream)• Vị từ này có thể được đánh giá dựa trên

CSDL để trả ề 1 giá trị hoặc T/F

63

CSDL để trả về 1 giá trị hoặc T/F.

Ví dụ • Phân tích ngữ nghĩa của các câu sau• Phân tích ngữ nghĩa của các câu sau.

– Tâm đã gặp An.– Tôi biết Tâm đã gặp An.– Tâm đã gặp An ở trường.

64

Page 17: Chương 7. ử lý ngôn ngữ tự nhiên - is.hust.edu.vnis.hust.edu.vn/~huonglt/AI/C7.XLNNTN.pdf · •Cấu trúc diễn ngôn (discourse) ... – If sculptures E and F are exhibited

17

Ví dụ • Đưa ra cách biểu diễn ngữ nghĩa dựa• Đưa ra cách biểu diễn ngữ nghĩa dựa

trên sự kiện cho các câu sau:– Willy wants Lilly to get married

65