Statistical Phrased-Based Translation
description
Transcript of Statistical Phrased-Based Translation
Statistical Phrased-Based Translation
Statistical Phrased-Based Translation
GVHD: TS Đinh Điền
HVTH: • Đức Hoàng• Lê Quốc Hưng• Nguyễn Hồng Bửu Long
LOGOĐộng lực
Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê Độ thực thi tốt nhất trong các đánh giá
DARPA gần đây Khá đơn giản Đã có các công cụ miễn phí
Xây dựng một bảng dịch ngữ như thế nào?
LOGOMục tiêu
So sánh các cách tiếp cận học ngữ khác nhau
Xem xét các tính chất của dịch theo ngữ
Cú pháp và các ngữ
LOGOTổng quan
Đánh giá framework Mô hình hợp nhất Bộ giải mã Ngữ liệu
Ba phương pháp học ngữ Các ngữ cảm sinh liên kết từ (word-alignment
induced phrases) Các ngữ cú pháp (syntactic phrases) Liên kết ngữ (phrase alignment)
Thí nghiệm
LOGOMô hình
Morgen
fliege
ich
nach Kanada
Zur Konferenz
Tomorrow
Iwill fly
to the conference
in Canada
LOGOMô hình (2)
Luật Bayes:
Câu nước ngoài f được phân đoạn thành ngữ
Mỗi ngữ được dịch với Các ngữ được sắp xếp lại với Dùng mô hình ngôn ngữ và word
penalty
LOGOBộ giải mã: Tìm kiếm Beam
Xây dựng tiếng anh bằng việc mở rộng giả thuyết Từ trái sang phải Không gian tìm kiếm theo số mũ với chiều dài
câuÞ giảm bớt bằng cách lược bỏ giả thuyết yếu
nhờ ước lượng chi phí tương lai
LOGOBộ giải mã: Tìm kiếm Beam (2)
e:f: ----------p: 1
e: Maryf: *---------p: .534
e: witchf: --------*-p: .182
e: … didf: *---------p: .122
e: … slapf: *-***-----p: .043
LOGOĐánh giá trên ngữ liệu Europarl
Thu thập từ Các Vụ Kiện Nghị Sĩ Châu Âu Có sẵn trên http://www.isi.edu/~koehn/ 11 ngôn ngữ, 20 triệu từ mỗi ngôn ngữ
Tập kiểm nghiệm Đức-Anh 1755 câu có chiều dài 5-15
LOGOCác phương pháp học ngữ
Các ngữ cảm sinh liên kết từ Tương tự với các mẫu liên kết [Och et al.,
1999]Các ngữ cú pháp
Chỉ các ngữ cú pháp được học Cùng hạn chế với các mô hình chuyển đổi cú
pháp được đề xuất gần đâyLiên kết ngữ
Mô hình kết [Marcu and Wong, 2002]
LOGOCác ngữ cảm sinh liên kết từ
Liên kết từ được phát sinh bằng cách dùng mô hình IBM 4 Liên kết hai chiều ef, fe Liên kết phần giao Thêm các điểm liên kết bổ sung với heuristic
Thu thập các cặp ngữ phù hợp với liên kết từ
Đây là các mẫu liên kết mà không cần các lớp từ [Och et al., 1999]
LOGOCác ngữ cảm sinh liên kết từ (2)
(Maria, Mary), (no, did not), (slap, daba una bofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no daba una bofetada, did not slap), (daba una bofetada a la, slap the), (bruja verde, green witch)
LOGOCác ngữ cảm sinh liên kết từ (3)
(Maria no daba una bofetada, Mary did not slap), (no daba una bofetada a la, did not slap the), (a la bruja verde, the green witch), (Maria no daba una bofetada a la, Mary did not slap the),
LOGOCác ngữ cảm sinh liên kết từ (4)
(daba una bofetada a la bruja verde, slap the green witch), (no daba una bofetada a la bruja verde, did not slap the green witch), (Maria no daba una bofetada a la bruja verde, Mary did not slap the green witch)
LOGOCác ngữ cú pháp
Các ngữ cú pháp mở rộng toàn bộ thành phần trong cây phân tích
Động lực Chỉ những ngữ này được dùng các mô hình chuyển
đổi cú pháp• Vd: [Yamada and Knight, 2002]
Cú pháp lợi hay hại?Trích các cặp ngữ cú pháp
Phân tích cả hai phía (với các bộ phân tích thống kê) Sử dụng liên kết từ trước đó Giới hạn các ngữ thành các thành phần cú pháp
trong cây phân tích
LOGOLiên kết ngữ
Morgen
fliege
ich
nach Kanada
Zur Konferenz
Tomorrow
I will fly
to the conference
in Canada
1 2 3 4 5
LOGOLiên kết ngữ (2)
Liên kết ngữ trực tiếp của ngữ liệu song song [Marcu and Wong, 2002]
Generative Story Một số khái niệm được tạo ra Mỗi khái niệm phát sinh một ngữ tiếng anh và
ngoại ngữ
LOGOThí nghiệm
So sánh các phương pháp chínhChiều dài ngữ tối đaTrọng số từ vựngCác heuristic trích xuất ngữCác mô hình liên kết từ đơn giản hơnCác cặp ngôn ngữ khác
LOGOSo sánh các phương pháp chính
Cùng bộ giải mã, cùng dữ liệu huấn luyện, cùng mô hình ngôn ngữ Ngoại trừ mô hình IBM 4 sử dụng bộ giải mã
tham lam [Germann et al., 2001]
LOGOSo sánh các phương pháp chính (2)
WAIPh tốt nhất và các ngữ cú pháp rất tệ Các thí nghiệm tiếp theo chỉ trên WAIPh
LOGOChiều dài ngữ tối đa
Giới hạn tối đa cho chiều dài ngữGiới hạn càng cao bảng dịch ngữ
càng lớnTất cả các bảng vẫn còn phù hợp với
bộ nhớ của các máy hiện đại
LOGOChiều dài ngữ tối đa (2)
Tác động của giới hạn lên chất lượng dịch Cải thiện không quá nhiều nếu chiều dài tối
đa vượt quá 3 Độc lập với kích thước ngữ liệu huấn luyện
LOGOTrọng số từ vựng
Tăng xác suất dịch ngữ với dịch từ vựng
Trọng số từ vựng
la bruja verdethe ### --- ---
green --- --- ###witch --- ### ---
LOGOTrọng số từ vựng
Tăng chất lượng dịch
LOGOCác heuristic trích xuất ngữ
Nhắc lại: liên kết từ dựa trên giao của các liên kết mô hình IBM 4 hai chiều + heuristic
Marianodaba una
bofetada
a la
bruja
verde
Mary
did
not
green
the
slap
witch
LOGOCác heuristic trích ngữ
Các ngữ khác nhau được học, nếu heuristic tạo ra liên kết từ được thay đổi
Những thay đổi trong các heuristic: Chỉ cho lân cận trực tiếp Cũng cho lân cận chéo Cũng cho không lân cận Thích Anh-Ngoại Ngữ hay Ngoại Ngữ-Anh Dùng xác suất hay tần số từ vựng Chỉ mở rộng cho những từ chưa được liên kết …
LOGOCác heuristic trích ngữ
Không có cải tiến rõ ràng đối với các chiến lược Chênh lệch lớn, nhưng … … phụ thuộc vào kích thước ngữ liệu … phụ thuộc vào cặp ngôn ngữ
LOGOCác mô hình liên kết từ đơn giản hơn
Sử dụng các mô hình IBM đơn giản hơn cho liên kết từ Không nhiều va chạm, nếu các mô hình đơn giản hơn
được dùng Các mô hình đơn giản hơn tính toán ít hơn nhiều
LOGOCác cặp ngôn ngữ khác
Cặp ngôn ngữ Mô hình 4 Ngữ Từ vựng
Anh-Đức 0.2040 0.2361 0.2449
Pháp-Anh 0.2787 0.3294 0.3389
Anh-Pháp 0.2555 0.3145 0.3247
Phần Lan-Anh 0.2178 0.2742 0.2806
Thuỵ Điển-Anh 0.3137 0.3459 0.3554
Trung Quốc-Anh 0.1190 0.1395 0.1418
Tìm ảnh hưởng cho các cặp ngôn ngữ khác, ngữ liệu khác Dịch ngữ tốt hơn mô hình IBM 4 Có sự trợ giúp từ vựng (+ khoảng 0.01 BLUE)
LOGOKết luận
Dịch theo ngữ tốt hơn dịch theo từGiới hạn ngữ cú pháp có hại rất nhiềuCác ngữ nhỏ (tăng tới 3 từ) đủ tốtTrọng số từ vựng hữu íchCác heuristic trích ngữ quan trọng,
nhưng các heuristic tốt nhất thay đổi trên kích thước ngữ liệu, cặp ngôn ngữ
Cảm ơn đã lắng ngheCảm ơn đã lắng nghe