Do an Tot Nghiep Xu Ly Tieng Noi
-
Upload
hoang-dang-vu-anh -
Category
Documents
-
view
345 -
download
1
Transcript of Do an Tot Nghiep Xu Ly Tieng Noi
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 1/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 1
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lậ p – Tự do – Hạnh phúc
LỜ I CAM ĐOAN
Kính g ử i: Hội đồng bảo vệ đồ án tốt nghiệ p Khoa Điện tử _ Viễn thông _
Tr ườ ng Đại học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Ngọc Diệ p
Hiện đang học lớ p 04ĐT1- Khoa: Điện tử - Viễn thông – Tr ườ ng: Đại học
Bách Khoa Đà Nẵng.
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép
của bất cứ đồ án hoặc công trình đã có từ tr ướ c.
Sinh viên thự c hiện
Nguyễn Thị Ngọc Diệ p
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 2/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 2
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 1 MỤC LỤC .............................................................................................................. 2 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾ NG ANH ........ 8 MỞ ĐẦU .............................................................................................................. 10 CHƯƠ NG 1: TỔ NG QUAN VỀ NÂNG CAO CHẤT LƯỢ NG TIẾ NG NÓI ... 13
1.1 Giớ i thiệu chươ ng ................................................................................ 13
1.2 Nâng cao chất lượ ng tiếng nói là gì ? .................................................. 13 1.3 Lý thuyết về tín hiệu và nhiễu ............................................................. 15 1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu ................................................... 15 1.3.1.1 Tín hiệu .............................................................................................. 15 1.3.1.2 Nguồn tín hiệu .................................................................................... 15 1.3.1.3 Hệ thống và xử lý tín hiệu .................................................................. 16 1.3.1.4 Phân loại tín hiệu ................................................................................ 16 1.4 Lý thuyết về nhiễu ............................................................................... 17 1.4.1 Nguồn nhiễu ....................................................................................... 17 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi tr ườ ng khác nhau ..... 19 1.5 Tín hiệu r ờ i r ạc theo thờ i gian ............................................................. 20 1.5.1 Tín hiệu bướ c nhảy đơ n vị ................................................................. 21 1.5.2 Tín hiệu xung đơ n vị .......................................................................... 21 1.5.3 Tín hiệu hàm mũ ................................................................................ 21 1.5.4 Tín hiệu hàm sin r ờ i r ạc ..................................................................... 21 1.6 Phép biến đổi Fourier của tín hiệu r ờ i r ạc DTFT ................................ 22 1.6.1 Sự hội tụ của phép biến đổi Fourier ................................................... 22
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 3/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 3
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier ..................................... 22 1.6.3 Phép biến đổi Fourier ngượ c .............................................................. 23 1.6.4 Các tính chất của phép biến đổi Fourier ............................................ 23 1.6.5 Phân tích tần số (phổ) cho tín hiệu r ờ i r ạc ......................................... 24 1.6.6 Phổ tín hiệu và phổ pha ...................................................................... 25 1.7 Các thuật toán sử dụng nâng cao chất lượ ng tiếng nói ........................ 26 1.7.1 Tr ừ phổ ............................................................................................... 26 1.7.2 Mô hình thống kê ............................................................................... 26 1.8 Tín hiệu tiếng nói................................................................................. 26 1.9 Cơ chế tạo tiếng nói ............................................................................. 28 1.9.1.1 Bộ máy phát âm của con ngườ i .......................................................... 28 1.9.2 Mô hình k ỹ thuật của việc tạo tiếng nói ............................................. 28 1.9.3 Phân loại âm ....................................................................................... 29 1.9.4 Thuộc tính âm học của tiếng nói ........................................................ 29 1.10 K ết luận chươ ng .................................................................................. 29
CHƯƠ NG 2 : ĐÁNH GIÁ CHẤT LƯỢ NG TIẾ NG NÓI .................................. 30 2.1 Giớ i thiệu chươ ng ................................................................................ 30 2.2 Phươ ng pháp đánh giá chủ quan .......................................................... 30 2.2.1 Các phươ ng pháp đánh giá tuyệt đối .................................................. 31 2.2.1.1 Phươ ng pháp đánh giá tuyệt đối ACR ............................................... 31 2.2.2 Các phươ ng pháp đánh giá tươ ng đối ................................................ 31 2.2.2.1 Đánh giá bằng phươ ng pháp so sánh các mẫu tín hiệu ...................... 31 2.2.2.2 Phươ ng pháp đánh giá theo sự suy giảm chất lượ ng ......................... 32
2.3 Phươ ng pháp đánh giá khách quan ...................................................... 33
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 4/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 4
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung ..................................... 33 2.3.2 Đo khoảng cách phổ dựa trên LPC .................................................... 35 2.3.2.1 Phươ ng pháp đo LLR ......................................................................... 35 2.3.2.2 Phươ ng pháp đo IS ............................................................................. 36 2.3.2.3 Phươ ng pháp đo theo khoảng cách cepstrum ..................................... 36 2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con ngườ i ................... 37 2.3.3.1 Phươ ng pháp đo Weighted Spectral Slope ......................................... 37 2.3.3.2 Phươ ng pháp đo Bark Distortion ....................................................... 38 2.3.3.3 Phươ ng pháp đánh giá cảm nhận chất lượ ng thoại PESQ ................. 39 2.4 K ết luận chươ ng .................................................................................. 39
CHƯƠ NG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING ......................................................................................................... 41 3.1 Giớ i thiệu chươ ng ................................................................................ 41 3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering ........ 41 3.3 Thuật toán Spectral Subtraction .......................................................... 41 3.3.1 Giớ i thiệu chung ................................................................................. 41 3.3.2 Spectral subtraction đối vớ i phổ biên độ ........................................... 42 3.3.3 Spectral subtraction đối vớ i phổ công suất ........................................ 43 3.4 Thuật toán Wiener Filtering ................................................................ 45 3.4.1 Giớ i thiệu chung ................................................................................. 45 3.4.2 Nguyên lý cơ bản của Wiener Filtering ............................................. 46 3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói ................ 48 3.5.1 Phân tích tín hiệu theo từng frame ..................................................... 48 3.5.2 Overlap và Adding ............................................................................. 49
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 5/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 5
3.6 Ướ c lượ ng và cậ p nhật nhiễu ............................................................... 50 3.6.1 Voice activity detection ..................................................................... 51 3.6.2 Quá trình ướ c lượ ng và cậ p nhật nhiễu .............................................. 51 3.7 K ết luận chươ ng .................................................................................. 52
CHƯƠ NG 4: THỰ C HIỆ N VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN .................. 53 4.1 Giớ i thiệu chươ ng ................................................................................ 53 4.2 Quy trình thực hiện và đánh giá thuật toán ......................................... 53 4.3 Lưu đồ thuật toán Spectral Subtraction ............................................... 55 4.4 Lưu đồ thuật toán Wiener Filtering ..................................................... 56 4.5 Thực hiện thuật toán ............................................................................ 57 4.6 Đánh giá chất lượ ng tiếng nói đã đượ c xử lý ...................................... 59 4.6.1 Cơ sở dữ liệu cho việc đánh giá ......................................................... 59 4.6.2 Tổng quan về quy trình đánh giá ....................................................... 59 4.6.3 Kiểm tra độ tin cậy của các phươ ng pháp đánh giá ........................... 60 4.6.4 Thực hiện đánh giá ............................................................................. 62 4.6.4.1 Đánh giá thuật toán vớ i các hệ số dự đoán ban đầu ........................... 62 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF ............................................... 65 4.6.4.3 Hệ số gamma cho thuật toán SS......................................................... 67 4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu ................................................. 68 4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi tr ườ ng nhiễu khác..... 69 4.6.5 K ết luận chươ ng ................................................................................. 71 TÀI LIỆU THAM KHẢO ............................................................................... 72
K ẾT LUẬ N ĐỒ ÁN VÀ HƯỚ NG PHÁT TRIỂ N ĐỀ TÀI ............................... 75
PHỤ LỤC ............................................................................................................. 76
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 6/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 6
DANH MỤC CÁC HÌNH VẼ VÀ BẢNG
Hình 1.1 Tín hiệu tiếng nói [2]. ........................................................................... 15 Hình 1.2 Dạng và sự phân bố phổ năng lượ ng trung bình nhiễu trên xe [4]. ...... 18 Hình 1.3 Dạng và sự phân bố phổ năng lượ ng trung bình của nhiễu trên tàu [4].
.............................................................................................................................. 18 Hình 1.4 Dạng và sự phân bố phổ năng lượ ng trung bình của nhiễu trong nhà
hàng[4]. ................................................................................................................ 19 Hình 1.5 Mức nhiễu và tiếng nói (đượ c đo bằng SPL dB) trong các môi tr ườ ng
khác nhau [4]. ....................................................................................................... 20 Hình 1.6 Mẫu tiếng nói “eee” đượ c lấy mẫu vớ i tần số lấy mẫu 8kHz [11]. ...... 25 Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và
dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er”
trong từ “her” [11]. ............................................................................................... 27 Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]. .......................................... 28 Hình 1.9 mô hình k ỹ thuật tạo tiếng nói[11]. ...................................................... 28 Hình 1.10 bảng phân loại âm vị trong tiếng Anh của ngườ i Mỹ [11] ................. 29 Bảng 2.1.Thang điểm đánh giá chất lượ ng tiếng nói theo MOS [12] .................. 31 Bảng 2.4. Thang điểm đánh giá chất lượ ng tín hiệu tiếng nói theo CCR ............ 32 Bảng 2.5. Thang đánh giá DCR ........................................................................... 32 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF .............................................. 41 Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. ........................... 45 Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. ........................................ 48 Hình 3.4 Phân tích tín hiệu thành các frame [31]. ............................................... 49 Hình 3.5 quá trình thực hiện overlap và adding [32]. ......................................... 50 Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cườ ng ............................ 53 Hình 4.2 Lưu đồ thuật toán SS ............................................................................ 55 Hình 4.3 Lưu đồ thuật toán WF ........................................................................... 56 Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch ........................................ 57 Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơ i vớ i SNR = 10dB ........ 57
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 7/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 7
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơ i bằng
SS vớ i SNR = 10dB. ............................................................................................ 58 Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơ i bằng
WF vớ i SNR = 10dB. ........................................................................................... 58 Hình 4.8 Quy trình thực hiện đánh giá ................................................................ 60 Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối vớ i nhiễu xe hơ i ...... 61 Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối vớ i nhiễu ngườ i nói
xung quanh ........................................................................................................... 61 Hình 4.11 Đồ thị đánh giá Objective vớ i hệ số IS=0.2, NoiseMargin=3 ............ 63 Hình 4.12 Đồ thị đánh giá Objective vớ i hệ số IS=0.15, NoiseMargin=2. ......... 64 Hình 4.14 Đồ thị đánh giá objective vớ i hệ số alpha=0.5, 0.8,0.9 vớ i IS=0.15 và
NoiseMargin = 2 .................................................................................................. 66 Hình 4.15 Đồ thị đánh giá objective vớ i hệ số gamma = 1 và gamma = 2. ........ 67 Hình 4.16 Đồ thị đánh giá vớ i IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật
toán WF, gama=1 cho thuật toán SS. ................................................................... 69 Hình 4.17 Đồ thị đánh giá OE vớ i nhiễu ngườ i nói xung quanh. ....................... 70
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 8/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 8
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắtTiếng Anh Ngh ĩ a tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung
bình bình phươ ng
SVD Singular Value Decomposition Phép phân tích giá tr ị đơ n
DFT Discrete Fourier Transform Phép biến đổi Fourier r ờ i r ạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT Discrete-Time Fourier TransformPhép biến đổi Fourier của tín
hiệu r ờ i r ạc.
ZT Z Transform Phép biến đổi Z
ROC Region of Convergence Miền hội tụ
IDTFT Inverse Discrete Fourier
Transform
Phép biến đổi ngượ c Fourier
r ờ i r ạc
LTI Linear Time-Invariant Hệ thống tuyến tính và bất
biến theo thờ i gian
ITU-T InternationalTelecommunicationsUnion-Telecommunication
Hiệ p hội tiêu chuẩn viễnthông quốc tế
ACR Absolute Categories Rating Đánh giá theo giá tr ị tuyệt đối
MOS Mean Opinion ScoresĐánh giá theo quan điểm
ngườ i nghe
CCR Comparison Category Rating Đánh giá bằng cách so sánh
DCR Degradation Category Rating Đánh giá suy giảm chất lượ ng
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 9/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 9
SE Subjective Evaluation Đánh giá chủ quan
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo tr ọng số của phổ
LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity DetectionThăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượ ng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phươ ng
pháp tr ừ phổ.
WF Wiener Filter
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based
Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên
nguyên lý thống kê
FrameKhung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xế p chồng và cộng
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 10/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 10
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò r ất quan tr ọng đối vớ i con
ngườ i. Cùng vớ i tiếng nói là sự xuất hiện của r ất nhiều các loại dịch vụ thoại như
ngày nay. Tuy nhiên việc bảo toàn đượ c tín hiệu tiếng nói trên các dịch vụ này là
điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưở ng
của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà
các thuật toán về Speech Enhancement ra đờ i. Tuy không thể bảo toàn đượ c y
nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cườ ng
đượ c chất lượ ng tiếng nói và giảm bớ t nhiễu nền để tín hiệu sau khi xử lý đến
ngườ i nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bở i nhiễu
đối vớ i ngườ i nghe. Vì vậy, Speech Enhancement đóng một vai trò r ất quan tr ọng
trong l ĩ nh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech
Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu
quả của các thuật toán đó trong môi tr ườ ng thực tế.
Để thực hiện đượ c đồ án, nhóm đã phân chia thành 3 phần tươ ng ứng vớ i 3thành viên :
- Nguyễ n Ng ọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phươ ng pháp Spectral Subtraction.
- Nguyễ n Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener.
- Nguyễ n Thị Ng ọc Diệ p : nghiên cứu và thực hiện các phươ ng pháp đánh
giá từ các k ết quả đạt đượ c của 2 thuật toán trên trong môi tr ườ ng thực tế.
Để thực hiện đượ c nội dung phần của em thì đồ án của em đượ c k ết cấu
thành 2 phần, gồm 5 chươ ng :
Phần 1 : Lý thuyết
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói. Chươ ng này giớ i
thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 11/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 11
loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giớ i
thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói. Chươ ng này giớ i thiệu một số
phươ ng pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm
có đánh giá chủ quan và đánh giá khách quan.
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chươ ng
này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chươ ng 4 : Thực hiện và đánh giá thuật toán. Chươ ng này trình bày các k ết
quả nhóm đã làm đượ c gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai
thuật toán đã nghiên cứu ở chươ ng 3. Đồng thờ i so sánh k ết quả thu đượ c bằng
cách dùng các phươ ng pháp đánh giá đã đượ c giớ i thiệu ở chươ ng 2
Phươ ng pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực
hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các k ết quả đạt đượ c sau khi
xử lý, sau đó sử dụng các phươ ng pháp đánh giá khách quan để đánh giá tính
hiệu quả của các thuật toán xử lý trong môi tr ườ ng thực tế.Đồ án của nhóm đã thực hiện đượ c 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra đượ c các k ết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mớ i trong đồ án
của nhóm so vớ i các đồ án đã có tr ướ c trong cùng chủ đề nghiên cứu.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 12/76
Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệ p Trang 12
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 13/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 13
CHƯƠ NG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢ NG TIẾNG NÓI
1.1 Giớ i thiệu chươ ng
Nội dung của chươ ng trình bày mục đích của nâng cao chất lượ ng tiếng nói
là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc
điểm cuả tín hiệu tiếng nói. Chươ ng này còn giớ i thiệu khái quát về các thuật
toán sử dụng trong speech enhancement.
1.2 Nâng cao chất lượ ng tiếng nói là gì ?
Nâng cao chất lượ ng tiếng nói liên quan đến việc cải thiện cảm nhận đối vớ i
tiếng nói bị suy giảm chất lượ ng do sự có mặt của nhiễu trong tiếng nói. Trong
hầu hết các ứng dụng, thì mục đích của nâng cao chất lượ ng tiếng nói là sự cải
thiện chất lượ ng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải
thiện về chất lượ ng mà tốt thì nó làm giảm đi sự khó khăn cho ngườ i nghe khi
nghe và trong nhiều tr ườ ng hợ p nó còn giúp cho ngườ i nghe có thể nghe trong
môi tr ườ ng có nhiễu vớ i mức độ cao và nhiễu đó tồn tại trong thờ i gian dài. Các
thuật toán âng cao chất lượ ng tiếng nói làm giảm và nén nhiễu nền đến một mứcđộ nào đó và nó đượ c xem như là các thuật toán nén nhiễu.
Trong nhiều tr ườ ng hợ p, sự cần thiết của việc tăng cườ ng trong tín hiệu
tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh
hưở ng bở i nhiễu trong các kênh truyền thông. Có r ất nhiều k ịch bản yêu cầu đặt
ra đối vớ i Speech enhancement trong nhiều tr ườ ng hợ p khác nhau, ví dụ đối vớ i
thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưở ng nhiễu
nền từ ô tô, nhà hàng,.. khi truyền đến đích. Chính vì vậy mà các thuật toán trong
nâng cao chất lượ ng tiếng nói có thể đượ c sử dụng để cải thiện chất lượ ng của
tiếng nói tại điểm thu, mặt khác, nó có thể đượ c sử dụng trong các khối tiền xử lý
của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1]. Khi
nhận dạng tiếng nói, tiếng nói bị nhiễu đượ c tiền xử lý bở i các thuật toán nâng
cao chất lượ ng tr ướ c khi đượ c nhận dạng. Trong thông tin liên lạc hàng không,
các k ỹ thuật nâng cao tiếng nói cần đượ c sử dụng để cải thiện chất lượ ng và tính
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 14/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 14
dễ nghe của tiếng nói của phi công bị ảnh hưở ng bở i nhiễu trong buồng lái. Vì
vậy mà nâng cao chất lượ ng tiếng nói cũng r ất cần thiết trong thông tin liên lạc
của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một
vùng nào đó thì nó sẽ đượ c truyền đến tất cả các vùng khác. Các thuật toán nâng
cao chất lượ ng tiếng nói đượ c sử dụng như tiền xử lý hoặc làm sạch nhiễu trong
tiếng tr ướ c khi đượ c khuếch đại.
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cườ ng
tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phươ ng diện lý
tưở ng, thì chúng ta mong muốn Speech enhancement cải thiện đượ c cả chất
lượ ng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên phươ ng
diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện đượ c chất
lượ ng của tiếng nói. Nó có thể làm giảm đượ c nhiễu nền trong tiếng nói nhưng
nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm
đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết k ế một thuật
toán Speech enhancement phải đảm bảo nén đượ c nhiễu và không đượ c gây ra
méo trong sự cảm nhận tín hiệu tiếng nói.Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc
r ất lớ n vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc đượ c xem như
tín hiệu tiếng nói, nó tuỳ thuộc vào môi tr ườ ng ta đang xét, nó có thể đượ c xem
như là sự tranh chấ p giữa các speaker. Đặc tính âm nhiễu có thể đượ c cộng thêm
vào tín hiệu sạch nếu âm thanh đượ c hình thành trong căn phòng bị dội âm thanh.
Hơ n nữa, nhiễu có thể có tính tươ ng quan hoặc không tươ ng quan về mặt thống
kê vớ i tín hiệu sạch. Số lượ ng microphone cũng có khả năng ảnh hưở ng đến tính
hiệu quả của các thuật toán Speech enhancement.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 15/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 15
1.3 Lý thuyết về tín hiệu và nhiễu
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu
1.3.1.1 Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượ ng vật lý mang tin tức. Về mặt toán
học, ta có thể mô tả tín hiệu như một hàm theo biến thờ i gian, không gian hay các
biến độc lậ p khác. Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo
biến thờ i gian t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu
là hàm theo hai biến độc lậ p x và y, trong đó x và y biểu diễn cho hai tọa độ trong
mặt phẳng [2].
Hai tín hiệu trong ví dụ trên về lớ p tín hiệu đượ c biểu diễn chính xác bằng
hàm theo biến độc lậ p. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại
lượ ng vật lý và các biến độc lậ p thườ ng r ất phức tạ p nên không thể biểu diễn tín
hiệu như trong hai ví dụ vừa nêu trên.
Hình 1.1 Tín hiệu tiế ng nói [2].
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo
thờ i gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó đượ c biểu diễn
như hình trên.
1.3.1.2 Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó. Ví dụ tín hiệu tiếng nói đượ c tạo ra băngg cách ép không khí đi qua dây thanh
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 16/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 16
âm. Một bức ảnh có đượ c bằng cách phơ i sáng một tấm phim chụ p một cảnh/đối
tượ ng nào đó. Quá trình tạo tín hiệu như vậy thườ ng liên quan đến một hệ thống,
hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ
thống là hệ thống phát âm, gồm môi, r ăng, lưỡ i, dây thanh…Kích thích liên quan
đến hệ thống đượ c gọi là nguồn tín hiệu. Như vậy ta có nguồn tiếng nói, nguồn
ảnh và các nguồn tín hiệu khác.
1.3.1.3 Hệ thống và xử lý tín hiệu
H ệ thố ng là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin đượ c gọi là một hệ
thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói r ằng
đã xử lý tín hiệu đó. Trong tr ườ ng này, xử lý tín hiệu liên quan đến lọc nhiễu ra
khỏi tín hiệu mong muốn.
X ử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
đượ c thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơ i này đến nơ i khác.
Ở đây ta cần lưu ý đến định ngh ĩ a hệ thống, nó không chỉ đơ n thuần là thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự k ết hợ p giữa phần cứng và
phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là
phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt
các phép toán thực hiện bở i chươ ng trình phần mềm. Khi xử lý bằng các bộ vi xử
lý-hệ thống bao gồm k ết hợ p cả phần cứng và phần mềm, mỗi phần thực hiện các
công việc riêng nào đó.
1.3.1.4 Phân loại tín hiệu
Các phươ ng pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào
đặc điểm của tín hiệu. Có những phươ ng pháp riêng áp dụng cho một loại tín
hiệu nào đó. Do vậy, tr ướ c tiên ta cần xem qua cách phân loại tín hiệu liên quan
đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại :
- Tín hiệu nhiều hướ ng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu r ờ i r ạc
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 17/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 17
- Tín hiệu biên độ liên tục và tín hiệu biên độ r ờ i r ạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.4 Lý thuyết về nhiễu
1.4.1 Nguồn nhiễu
Nhiễu một hiện thực, nó tồn tại ở mọi nơ i, trên đườ ng phố, trên xe, trong
văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên
đườ ng, tiếng ồn trên các công tr ườ ng xây dựng, tiếng ồn phát ra từ các quạt chạy
trong PC, chuông điện thoại…, nó tồn tại vớ i các hình dạng và hình thức khác
nhau trong cuộc sống hằng ngày của chúng ta.
Nhiễu có thể hình thành ở một nơ i cố định, và không thay đổi theo thờ i
gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể
không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của
nhiều ngườ i xen lẫn vớ i nhiều cách khác nhau vớ i tiếng ồn phát ra từ nhà bế p.
Các đặc tính về phổ cũng như thờ i gian của nhiễu trong nhà hàng thay đổi không
theo quy luật nên việc nén nhiễu trong các môi tr ườ ng có nhiễu thay đổi như vậy
sẽ khó khăn hơ n nhiều so vớ i các nguồn nhiễu đứng yên không thay đổi.Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ
và sự phân bố của năng lượ ng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bở i
gió thì năng lượ ng của nó tậ p trung ở tần số thấ p dướ i 500Hz. Nhưng đối vớ i
nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượ ng của nó đượ c phân bố
trên một dải tần số r ộng [3].
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 18/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 18
Hình 1.2 Dạng và sự phân bố phổ nă ng l ượ ng trung bình nhiễ u trên xe [4].
Hình 1.3 Dạng và sự phân bố phổ nă ng l ượ ng trung bình của nhiễ u trên
tàu [4].
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 19/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 19
Hình 1.4 Dạng và sự phân bố phổ nă ng l ượ ng trung bình của nhiễ u trong
nhà hàng[4].
1.4.2 Nhiễu và mứ c tín hiệu tiếng nói trong các môi trườ ng khác nhau
Điểm tớ i hạn trong việc thiết k ế các thuật toán của Speech enhancement là
sự nhận biết dải biến thiên của tiếng nói và mức độ cườ ng độ nhiễu trong môi
tr ườ ng thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín
hiệu trên nhiễu(SNR) đượ c bắt gặ p trong môi tr ườ ng thực tế. Điều này r ất quan
tr ọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong
việc nén nhiễu và cải thiện chất lượ ng của tiếng nói trong dải biến thiên của mức
SNR.Mức độ của tiếng nói và nhiễu đượ c đo lườ ng bằng mức độ âm thanh. Phép
đo lườ ng ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound
pressure level)[4]. Khoảng cách giữa ngườ i nói và ngườ i nghe cũng ảnh hưở ng
đến mức cườ ng độ âm thanh, nó tươ ng ứng vớ i phép đo đượ c thực hiện khi
microphone đượ c đặt tại những vị trí có khoảng cách khác nhau. Khoảng cách
đặc tr ưng trong giao tiế p face-to-face là 1m, khi khoảng cách đó tăng gấ p đôi thì
mức cườ ng độ âm giảm đi 6 dB[6].
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 20/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 20
Hình bên dướ i này là sự tổng hợ p về mức độ âm trung bình giữa tiếng nói
và nhiễu trong các môi tr ườ ng khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các
môi tr ườ ng như phòng học, trong nhà ở , trong bệnh viện và trong các toà nhà.
Trong các môi tr ườ ng khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi
biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB
SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi tr ườ ng
này là 5 đến 15 dB. Mức độ âm của nhiễu r ất cao trong các môi tr ườ ng ở tàu điện
ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của
tiếng nói trong các môi tr ườ ng này cũng đạt mức đó, nên mức tỷ số SNR trong
các môi tr ườ ng này gần như là 0 dB.
Hình 1.5 M ứ c nhiễ u và tiế ng nói ( đượ c đ o bằ ng SPL dB) trong các môi
tr ườ ng khác nhau [4].
1.5 Tín hiệu rờ i rạc theo thờ i gian
Tín hiệu r ờ i r ạc theo thờ i gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu
liên tục theo thờ i gian xa(t) vớ i chu k ỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T).
Ta có
xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1)
Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá
tr ị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng
0. Trong nhiều sách về xử lý tín hiệu số, ngườ i ta quy ướ c: khi biến nguyên thì
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 21/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 21
biến đượ c đặt trong dấu ngoặc vuông và khi biến liên tục thì đượ c đặt trong dấu
ngoặc tròn. Từ đây tr ở đi, ta ký hiệu tín hiệu r ờ i r ạc là: x[n].[7]
Một số tín hiệu r ờ i r ạc cơ bản
1.5.1 Tín hiệu bướ c nhảy đơ n vị
u[n] =⎩⎨⎧
<
≥
0,2
0,1
n
n(1.2)
Tín hiệu bướ c nhảy dịch chuyển có dạng sau:
u[n - no] =⎩⎨⎧
<
≥
non
non
,0
,1(1.3)
1.5.2 Tín hiệu xung đơ n vị
⎩⎨⎧
≠
==
0,0
0,1][
n
nnδ (1.4)
Tín hiệu xung dịch chuyển có dạng sau
⎩⎨⎧
≠
==−
non
nonnon
,0
,1][δ (1.5)
Chúng ta có thể biểu diễn tín hiệu r ờ i r ạc theo thờ i gian x[n] thông qua tínhiệu xung đơ n vị như sau
x[n] = ∑∞
−∞=
−
k
k nk x ][][ δ (1.6)
1.5.3 Tín hiệu hàm mũ
x[n] = C.an (C,a : là những hằng số) (1.7)
Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]
Tín hiệu hàm mũ phía trái : x[n] = C.an
.u[-n]1.5.4 Tín hiệu hàm sin rờ i rạc
∞<<∞−+= n fn An x )2cos(][ θ π (1.8)
A : là biên độ của tín hiệu sin
θ : pha ban đầu của tín hiệu sin
f : tần số số, f = s F
F , F : là tần số của tín hiệu, Fs : tần số lấy mẫu
-0.5 < f < 0.5
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 22/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 22
1.6 Phép biến đổi Fourier của tín hiệu rờ i rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó
đượ c dùng trong tr ườ ng hợ p dãy r ờ i r ạc dài vô hạn và không tuần hoàn.
DTFT : ∑∞
−∞=
Ω−=Ω
n
n jen x X ][)( (1.9)
Ta nhận xét thấy r ằng tuy tín hiệu r ờ i r ạc trong miền thờ i gian nhưng DTFT
lại liên tục và tuần hoàn trong miền tần số.
DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phứ c
(complex spectrum) hay ngắn gọn là phổ của tín hiệu r ờ i r ạc x[n].
1.6.1 Sự hội tụ của phép biến đổi Fourier
Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi
∞<∑∞
−∞=
Ω−
n
n jen x ][ (1.10)
Ta luôn luôn có :
∑∑∑∑
∑∑
∞
−∞=
∞
−∞=
Ω−
∞
−∞=
Ω−
∞
−∞=
Ω−
∞
−∞=
Ω−
∞
−∞=
Ω−
≤
≤
≤
nn
n j
n
n j
n
n j
n
n j
n
n j
n xen x
en xen x
en xen x
|][|][
|||][|][
][][
(1.11)
Như vậy, nếu x[n] thoả điều kiện ∑∞
−∞=n
n x |][| <∞ thì biến đổi Fourier hội tụ [7].
1.6.2 Quan hệ giữ a biến đổi Z và biến đổi Fourier
Biểu thức tính ZT là: ∑∞
−∞=
−=
n
n z n x z X ][)( (1.12)
Giả sử ROC có chứa đườ ng tròn đơ n vị. Tính X(Z) trên đườ ng tròn đơ n vị,
ta đượ c
)(][)( Ω==∑∞
−∞=
Ω−
=Ω X en x z X
n
n j
e z j (1.13)
Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đườ ng tròn đơ n vị.
Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 23/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 23
Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín
hiệu đó có chứa đườ ng tròn đơ n vị.
1.6.3 Phép biến đổi Fourier ngượ c
- Biểu thức tính biến đổi Fourier ngượ c
Ta thấy X(Ω ) là một hàm tuần hoàn vớ i chu k ỳ π 2 , do Ω je tuần hoàn vớ i
chu k ỳ π 2 ΩΩ+ΩΩ
=== j j j j j eeeee π π 2)2( (1.14)
Do đó dải tần số của tín hiệu r ờ i r ạc là một dải tần bất k ỳ r ộng 2π , thườ ng
chọn là: ),( π π − hay (0,2π ).
Vậy ta có thể khai triển X(Ω ) thành chuỗi Fourier trong khoảng
( ),π π − hay )2,0( π nếu điều kiện tồn tại của X(Ω ) thoả mãn. Các hệ số Fourier là
x[n], ta có thể tính đượ c x[n] từ X(Ω ) theo cách sau:
Nhân 2 vế của biểu thức DTFT vớ i l je Ω
π 21
r ồi lấy tích phân trong khoảng
( ),π π − tacó
][21][][
21)(
21 )( l xd en xd een xd e X
nl j
n
l j
n
n jl j=⎥
⎦
⎤⎢⎣
⎡Ω=Ω⎥
⎦
⎤⎢⎣
⎡=ΩΩ ∫∑∫ ∑∫
−
−Ω∞
−∞=−
Ω∞
−∞=
Ω−
−
Ωπ
π
π
π
π
π π π π
(1.15)
Thay l = n và thay cận tích phân, không nhất thiết phải là ( ),π π − mà chỉ cần
khoảng giữa cân trên và dướ i là 2π , ta đượ c biểu thức tính biến đổi Fourier
ngượ c (IDTFT) như sau
∫ ΩΩ= Ω
π π 2
)(21][ d e X n x n j (1.16)
Ta có thể tính IDFT bằng hai cách : một là tính tr ực tiế p tích phân trên, hai
là chuyển về biến đổi Z r ồi tính như biến đổi Z ngượ c. Tuỳ vào từng tr ườ ng hợ p
cụ thể mà ta chọn phươ ng pháp nào cho thuận tiện.
1.6.4 Các tính chất của phép biến đổi Fourier
Tính tuyế n tính )()(][][ 2121 Ω+Ω↔+ bX aX nbxnax
(1.17)
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 24/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 24
Tính d ịch thờ i gian
(1.18)
Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thờ i gian sẽ không ảnh
hưở ng biên độ của DTFT, tuy nhiên pha đượ c thêm một lượ ng.
Tính d ịch t ần số / đ iề u chế
)(2
1)(2
1][)cos(
)(][
)(][
000
00
Ω+Ω+Ω−Ω↔Ω
Ω−Ω↔
Ω↔
Ω
X xn xn
X n xe
X n x
n j (1.18)
Như vây, việc điều chế gây ra dịch tần số[12].
Tính chậ p thờ i gian
Tươ ng tự như biến đổi Z, vớ i biến đổi Fourier ta cũng có:
)()(][*][ 2121 ΩΩ ⎯→← X X n xn x F (1.19)
Tính nhân thờ i gian ∫ −Ω↔
π
λ λ λ π
2
2121 )()(2
1][].[ d X X n xn x (1.20)
1.6.5 Phân tích tần số (phổ) cho tín hiệu rờ i rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ
như, tín hiệu sin chỉ có duy nhất một tần số đơ n, trong khi nhiễu tr ắng chứa tất cả
các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấ p, trong khi
sự biến thiến nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng
hạn, nó chứa tất cả tần số và cả tần số cao.
Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín
hiệu. Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của
các sóng sin riêng có thể k ết hợ p lại hợ p vớ i nhau tạo ra xung vuông. Thông tin
này quan tr ọng vì nhiều lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ
cho ta biết các đặc tr ưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay
hơ n. Để dự đoán các ảnh hưở ng của bộ lọc trên tín hiệu, cần phải biết không chỉ
bản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 25/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 25
1.6.6 Phổ tín hiệu và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ
pha (phase spectrum). Phổ biên độ chỉ ra độ lớ n của từng thành phần tần số. Phổ
pha chỉ quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ
tín hiệu r ờ i r ạc không tuần hoàn là DTFT.
Để tính phổ tín hiệu , ta qua hai bướ c : một là tính DTFT của tín hiệu – là
X(Ω ), hai là tính biên độ và pha của X(Ω )
)()()( ΩΩ=Ω
θ je X X (1.21)
ở đây |X(Ω )| là phổ biên độ và θ (Ω ) là phổ pha.Ta dễ dàng chứng minh đượ c r ằng đối vớ i tín hiệu thực, phổ biên độ là một
hàm chẵn theo tần số Ω và phổ pha là một hàm lẻ theo Ω .
Do đó, nếu biết phổ X(Ω ) trong khoảng 0 đếnπ , ta có thể suy ra phổ trong
toàn dải tần số. Để dễ giải thích phổ, tần số số Ω từ 0 đến π thườ ng đượ c chuyển
đổi thành tần số tươ ng tự từ 0 đến f s/2 nếu tần số lấy mẫu là f s.
Hình 1.6 M ẫ u tiế ng nói “eee” đượ c l ấ y mẫ u vớ i t ần số l ấ y mẫ u 8kHz [11].
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 26/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 26
1.7 Các thuật toán sử dụng nâng cao chất lượ ng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay còn gọi là tr ừ phổ là một thuật toán giảm
nhiễu đơ n giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cậ p nhật
nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của
tín hiệu. Và nhiễu đó sẽ đượ c tr ừ vớ i tín hiệu có nhiễu, k ết quả là tín hiệu của
chúng ta sau khi xử lý bằng thuật toán này sẽ đượ c loại đi nhiễu và xét trên
phươ ng diện lý tưở ng thì nó là tín hiệu sạch. SS lúc ban đầu đượ c đề xuất bở i
Weiss[8] trong miền tươ ng quan, và sau đó đượ c đề xuất bở i Boll [9] trong miền
chuyển đổi Fourier.
1.7.2 Mô hình thống kê
Vấn đề của nâng cao chất lượ ng tiếng nói là phải đề ra đượ c khung mô tả
mang tính thống kê. Nó là một tậ p các phép đo tươ ng ứng vớ i hệ chuyển đổi
Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra đượ c một phươ ng
thức ướ c lượ ng tuyến tính hoặc phi tuyến các tham số có lợ i, đó là hệ chuyển đổi
của tín hiệu sạch. Hai thuật toán đượ c sử dụng đó là thuật toán Wiener vàminium mean-squared error(MMSE)[10].
1.8 Tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượ ng thay đổi theo
thờ i gian. Tuy nhiên khi khảo sát trong một khoảng thờ i gian đủ ngắn (khoảng 10
đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 27/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 27
Hình 1.7 Dạng sóng tín hiệu tiế ng nói của câu “The wife helped her
husband” và d ạng sóng của phụ âm “f” trong t ừ “wife, d ạng sóng của đ oạn
nguyên âm “er” trong t ừ “her” [11].
Dạng sóng của tín hiệu có thể đượ c chia thành một số phân đoạn tươ ng ứng
vớ i các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như
tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu
Những kiểu của đoạn tiếng nói_chu k ỳ, nhiễu, khoảng lặng… thườ ng đượ ctìm thấy trong tiếng nói trôi chảy vớ i sự thay đổi về cườ ng độ, khoảng thờ i gian
và đặc tính phổ.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 28/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 28
1.9 Cơ chế tạo tiếng nói
1.9.1.1 Bộ máy phát âm của con ngườ i
Hình 1.8 mặ t cắ t d ọc của cơ quan t ạo tiế ng nói [11].
1.9.2 Mô hình k ỹ thuật của việc tạo tiếng nói
Hình 1.9 mô hình k ỹ thuật t ạo tiế ng nói[11].
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 29/76
Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 29
1.9.3 Phân loại âm
Các âm trong tiếng Anh đượ c phân loại gồm: nguyên âm và nguyên âm đôi,
bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.
Hình 1.10 bảng phân loại âm vị trong tiế ng Anh của ng ườ i M ỹ [11]
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tươ ng tự, biểu diễn cho thông tin về mặt ngôn
ngữ và đượ c thể hiện bằng các âm vị khác nhau. Số lượ ng các âm vị tuỳ thuộc
vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượ t quá 50. Đối vớ i từng
loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợ p các âm vị tạo nên âm tiết.
Âm tiết đóng vai trò một từ tr ọn vẹn mang ngữ ngh ĩ a.
1.10 K ết luận chươ ng
Chươ ng này đã trình bày đượ c mục đích chính của speech enhancement là
triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội
dung của chươ ng cũng đã nêu rõ đượ c các loại nhiễu xuất hiện trong từng môi
tr ườ ng cụ thể để từ đó chúng ta có tìm ra đượ c thuật toán xử lý thích hợ p ứng vớ i
mỗi tr ườ ng hợ p cụ thể.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 30/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 30
CHƯƠ NG 2 : ĐÁNH GIÁ CHẤT LƯỢ NG TIẾNG NÓI
2.1 Giớ i thiệu chươ ng
Cho đến nay đã có r ất nhiều thuật toán nâng cao chất lượ ng tiếng nói, nhưng
làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấ p các phươ ng
pháp đánh giá khác nhau đượ c sử dụng để đánh giá hiệu quả của thuật toán nâng
cao tiếng nói
Đánh giá chất lượ ng có thể thực hiện bằng cách sử dụng phươ ng pháp đánh
giá theo cảm nhận của ngườ i nghe theo một thang đo đã đượ c xác định tr ướ c(Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu
(Objective Evaluation_ OE). Dù OE có giá tr ị thì nó vẫn phải tươ ng quan vớ i
cảm nhận của ngườ i nghe
Phần này sẽ cung cấ p một cái nhìn tổng quan về các phươ ng pháp đánh giá
chất lượ ng của tiếng nói đã đượ c xử lý
2.2 Phươ ng pháp đánh giá chủ quan
Đánh giá chất lượ ng chủ quan là đánh giá chất lượ ng dựa trên cảm nhận
nghe của con ngườ i đối vớ i tiếng nói
Chất lượ ng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất
thì chất lượ ng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin
cậy.Nó chỉ đóng vai trò phần nào trong k ỹ thuật đánh giá vì mỗi cá nhân ngườ i
nghe có những tiêu chuẩn riêng về chất lượ ng “tốt” hay “xấu”, chất lượ ng là k ết
quả của sự cảm nhận và phán đoán chủ quan của ngườ i nghe, dẫn đến sự chênhlệch lớ n trong k ết quả đánh giá. Chất lượ ng có r ất nhiều chỉ tiêu không thể đếm
hết đượ c. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tậ p
trung vào một số chỉ tiêu chất lượ ng tiếng nói.
Đánh giá chất lượ ng tiếng nói là một công việc đầy khó khăn do tính đa chỉ
tiêu và tính chủ quan cao. Có một số lượ ng lớ n các đặc tr ưng để đánh giá khi
thực hiện phươ ng pháp nghe chủ quan này. Để k ết quả đánh giá là đáng tin cậy
thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 31/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 31
trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ
ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối
và Tươ ng đối. Sự đánh giá dựa trên các thang điểm chuẩn đã đượ c đề ra trong
chuẩn ITU-T Rec.P.800[11]
2.2.1 Các phươ ng pháp đánh giá tuyệt đối
2.2.1.1 Phươ ng pháp đánh giá tuyệt đối ACR
ACR đượ c sử dụng r ộng rãi. ITU-T[11] đã khuyến nghị dùng phươ ng
pháp này trong hầu hết các ứng dụng. Thang đo đượ c khuyến là
Mean Opinion Scores (MOS)
Đượ c mô tả trong khuyến nghị P.800 của ITU-T, MOS là một
phép đo chất lượ ng thoại nổi tiếng. Đây là một phươ ng pháp đo chất
lượ ng mang tính chất chủ quan. Có hai phươ ng pháp kiểm tra là đánh
giá đàm thoại và đánh giá độ nghe.
Bảng 2.1.Thang đ iể m đ ánh giá chấ t l ượ ng tiế ng nói theo MOS [12]
Score Quality of the Speech Level of Distortion
5 Excellent Imperceptible4 Good Just perceptible, but not annoying
3 Fair Perceptible and slight annoying
2 Poor Annoying but not Objectinable
1 Bad Very annoying and Objectionable
2.2.2 Các phươ ng pháp đánh giá tươ ng đối
Nhìn chung phươ ng pháp đánh giá này có độ nhạy cao hơ n đối vớ i sự suy
giảm chất lượ ng của tín hiệu đã qua xử lý
2.2.2.1 Đánh giá bằng phươ ng pháp so sánh các mẫu tín hiệu
Dạng đơ n giản nhất của phươ ng pháp này là thích nghe mẫu nào hơ n
Preference test hay còn gọi là so sánh đánh giá theo từng cặ p tín hiệu Paired
Comparison Test . Đối vớ i phươ ng pháp này thì ngườ i nghe sẽ đượ c nghe hai mẫu
thoại và sẽ đánh giá thích mẫu tín hiệu nào hơ n
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 32/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 32
Đánh giá bằng cách so sánh Comparison Category Rating (CCR) đượ c
khuyến nghị bở i ITU-T để đánh giá các hệ thống dùng nâng cao chất lượ ng tiếng
nói. [13]
Bảng 2.4. Thang đ iể m đ ánh giá chấ t l ượ ng tín hiệu tiế ng nói theo CCR
Theshold Test hay còn gọi là Isopreference Test là một biến thể của
Preference Test. Phươ ng pháp này là so sánh tín hiệu đã qua xử lý vớ i tín hiệu
gốc chuẩn mà độ suy giảm chất lượ ng của nó có thể đượ c kiểm soát. Đượ c đề ratrong chuẩn ITU-T Rec.P.810
2.2.2.2 Phươ ng pháp đánh giá theo sự suy giảm chất lượ ng
Đánh giá sự suy giảm chất lượ ng Degradation Category Rating (DCR) Sự
giảm sút về chất lượ ng của tín hiệu đã qua xử lý so vớ i tín hiệu chất lượ ng cao
chưa qua xử lý đượ c xác định qua năm thang điểm
Bảng 2.5. Thang đ ánh giá DCR
Rating Degradation
1 Very annoying
2 Annoying
3 Sightly annoying
4 Audible but not annoying
5 Inaudible
Rating Quality of Speech
3 Much better
2 Better
1 Slightly Better
0 About the Same
-1 Slightly Worse
-2 Worse
-3 Much Worse
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 33/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 33
2.3 Phươ ng pháp đánh giá khách quan
Đánh giá chất lượ ng khách quan là phươ ng pháp đánh giá chất lượ ng dựa
trên các phép đo thuộc tính của tín hiệu
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từ ng khung
Đo SNR trên từng khung trong miền thờ i gian là một trong những phươ ng
pháp đánh giá về mặt toán đơ n giản nhất. Để phươ ng pháp này có hiệu quả thì
điều quan tr ọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thờ i
gian và độ lệch pha hiện tại phải đượ c hiệu chỉnh chính xác. SNRseg đượ c xác
định như sau
[12] (2.1)
Trong đó : tín hiệu gốc (tín hiệu sạch)
: tín hiệu đã đượ c tăng cườ ng
N: chiều dài khung (thườ ng đượ c chọn từ 15-20ms)
M: số khung của tín hiệuMột vấn đề tiềm ẩn vớ i phươ ng pháp đánh giá SNRseg là năng lượ ng của
tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn
hội thoại) sẽ r ất bé, dẫn đến k ết quả là giá tr ị của ai số SNRseg lớ n làm sai lệch
toàn bộ đánh giá. Phươ ng án giải quyết duy nhất là loại tr ừ những khung lặng
trong biểu thức trên bằng cách đo mức năng lượ ng trong thờ i gian ngắn nén giá
tr ị SNRseg ngưỡ ng đến một giá tr ị bé. Nếu giá tr ị SNRseg đượ c giớ i hạn trong
khoảng [-10dB, 35dB] [14] sẽ tránh đượ c việc cần phải dùng bộ tách tín hiệu
thoại và khoảng lặng
Sự xác định tr ướ c của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã đượ c
xử lý. Ta có thể dùng tín hiệu đượ c xử lý qua bộ lọc dự đoán thườ ng đượ c sử
dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử
lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 34/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 34
lọc[16]. Sự ướ c tính SNR này mang lại hệ số tươ ng quan cao đối vớ i các phươ ng
pháp đánh giá chủ quan
Một cách xác định SNRseg khác đượ c đề xuất bở i Richards [17] trong đó
hàm log có thay đổi so vớ i công thức 3.1
(2.2)
Như vậy có thể tránh đượ c các giá tr ị sai lệch lớ n trong suốt các khoảng
lặng của tín hiệu tiếng nói. Chú ý r ằng giá tr ị nhỏ nhất có thể đạt đượ c của
SNRsegR bây giờ là 0 thì đã tốt hơ n nhiều so vớ i những giá tr ị âm vô cùng. Ư u
điểm chính của việc xác định tr ướ c phân đoạn SNR là tránh đượ c việc cần thiết
phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng
Đo SNR cho từng khung có thể đượ c mở r ộng trong miền tần số theo
(2.3)
Trong đ ó B j : Tr ọng lượ ng tại dải tần số thứ j
K : Số dải tần
M : Tổng số khung tín hiệu
F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã đượ c khuếch đại tại
dải
lần thứ j và khung thứ m
: Dãy tín hiệu đã đượ c tăng cườ ng qua lọc khuếch
đại ở cùng một dải tần vớ i F(m,j) Ư u điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền
thờ i gian tăng thêm tính linh động của việc phân bố tr ọng số của phổ khác nhau
cho những dải tần khác nhau
Một cách khác, tr ọng số của mỗi dải có thể thu đượ c bằng cách dùng
phươ ng pháp phân tích hồi quy, còn gọi là phươ ng pháp đánh giá chủ quan biến
đổi tần số. Bằng cách này , tr ọng số có thể đượ c chọn để có hệ số tươ ng quan lớ n
nhất giữa đánh giá khách quan và đánh giá chủ quan. Vớ i phươ ng pháp này, tổng
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 35/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 35
của K (cho mỗi dải) của các phươ ng pháp đánh giá khách quan khác nhau và D j
đượ c ướ c tính cho mỗi dãy, tại D j đượ c cho như sau[12]
(2.4)
Tr ọng lượ ng tối ưu cho mỗi D j của mỗi dải đạt đượ c khi dùng phươ ng
pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần
số:
(2.5)
: Các hệ số hồi quy, D j : đượ c cho bở i (3.4), K là số dải .Phân tích hồi
quy không tuyến tính cũng có thể đượ c sử dụng như một cách để chuyển hóa
đánh giá khách quan biến đổi tần số
2.3.2 Đo khoảng cách phổ dự a trên LPC
LPC (Linear Prediction Coefficient)s :Hệ số dự đoán tuyến tính
Gồm các phươ ng pháp phổ biến là LLR ( Log Likelihood Ratio) , IS (Itakura
Saito) và đo theo khoảng cách cepstrum2.3.2.1 Phươ ng pháp đo LLR
(2.6)
:hệ số LPC của tín hiệu sạch
:hệ số của tín hiệu đã đượ c
tăng cườ ng chất lượ ng
R x là (p+1)*(p+1)ma tr ận tự tươ ng quan(Toeplitz) của tín hiệu sạch
Biểu thức trên đượ c viết lại trong miền tần số như sau[9]
[17] (2.7)
và lần lượ t là phổ của và . Biểu thức trên chỉ ra sự
khác nhau giữa phổ tín hiệu và phổ tăng cườ ng có ảnh hưở ng nhiều hơ n khi
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 36/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 36
lớ n, thườ ng gần vớ i đỉnh tần số formant. Do đó, cách đo này xác
định sự khác nhau vị trí của đỉnh tần số formant
2.3.2.2 Phươ ng pháp đo IS
Đo IS đượ c xác định như sau
[12] (2.8)
và lần lượ t là hệ số khuếch đại của tín hiệu sạch và tín hiệu
tăng cườ ng. Hệ số khuếch đại có thể đượ c tính như sau:
(2.9)
chứa hệ số tự tươ ng quan của
tín hiệu sạch (nó cũng là hàng đầu tiên của ma tr ận tự tươ ng quan )
2.3.2.3 Phươ ng pháp đo theo khoảng cách cepstrum
Không giống vớ i đo LLR, IS chú tr ọng sự khác nhau giữa hệ số khuếch đại
, sự khác nhau về mức phổ của tín hiệu sạch và tín hiệu tăng cườ ng. Bên cạnh đócũng có thể là hạn chế của đánh giá IS, sự khác nhau giữa các mức phổ có tác
động nhỏ đến chất lượ ng[18]
Hệ số LPC cũng có thể xuất phát từ khoảng cách đo đượ c dựa trên hệ số
cepstrum. Khoảng cách này quy định sự ướ c lượ ng khoảng cách log của phổ của
giữa hai phổ tín hiệu. Hệ số cepstrum có thể thu đượ c từ phép đệ quy hệ số LPC
{a j} sử dụng công thức sau
(2.10)
Vớ i p là bậc của phân tích LPC .Phép đo dựa trên hệ số cepstrum có thể
đượ c tính như sau [19]
(2.11)
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 37/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 37
Vớ i và lần lượ t là hệ số của tín hiệu sạch và tín hiệu đã đượ c
tăng cườ ng
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con ngườ i
Những phươ ng pháp đánh giá đã đượ c đề cậ p trên đượ c ưa dùng vì tính đơ n
giản để thực hiện và dễ dàng đánh giá. Tuy nhiên, khả năng dự đoán chất lượ ng
chủ quan của chúng thì hạn chế khi mà các phươ ng pháp xử lý tín hiệu đó không
tính đến phạm vi nghe của con ngườ i.
2.3.3.1 Phươ ng pháp đo Weighted Spectral Slope
Phươ ng pháp đánh giá này đượ c tính bở i dốc phổ đầu tiên đượ c tìm thấycủa mỗi dải phổ. Xét C x(k) là phổ dải tớ i hạn của tín hiệu sạch và là của tín
hiệu tăng cườ ng, xét trong đơ n vị dB. Phươ ng trình sai phân bậc nhất đượ c dùng
để tính độc dốc phổ đượ c cho như sau:
(2.12)
Vớ i và lần lượ t biểu diễn cho độ dốc dải tần thứ k của tín hiệu
sạch và tín hiệu tăng cườ ng. Sự khác nhau giữa các độ dốc phổ phụ thuộc vào
tr ọng số một là dải tần gần vớ i đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớ n nhất của
phổ. Tr ọng số của dải thứ k , ký hiệu W(k) đượ c tính như sau
[12] (2.13)
độ r ộng loga lớ n nhất của phổ trong tất cả các băng, là giá tr ị
của đỉnh gần vớ i băng k nhất, và , là hằng số có đượ c bằng phép
phân tích hồi quy để cực đại hóa sự tươ ng quan giữa đánh giá chủ quan và giá tr ị
của đánh giá khách quan. Vớ i những thí nghiệm đã đượ c thực hiện thì ngườ i ta
tìm đượ c sự tươ ng quan lớ n nhất sẽ có đượ c vớ i =20 và =1[18]
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 38/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 38
Phép đo WSS tính cho mỗi khung của tín hiệu thoại:
(2.14)
Vớ i L là số lượ ng dải tớ i hạn
Giá tr ị WSS đượ c tính bằng cách lấy trung bình các giá tr ị WSS thu đượ c từ
các khung trong câu
WSS là phươ ng pháp đánh giá khá hấ p dẫn bở i vì nó không đòi hỏi phải có
formant rõ ràng. Nó chú ý tớ i vị trí đỉnh phổ và ít nhạy cảm vớ i các đỉnh xung
quanh cũng như các chi tiết của phổ ở các vùng thấ p. Đánh giá LPC cơ bản (ví dụ
như đánh giá LLR) nhạy vớ i các tần số formant khác, nhưng cũng nhạy vớ i sự thay đổi biên độ và sự thay đổi độ nghiêng phổ. Không có gì là bất ngờ khi đánh
giá WSS mang lại một sự tươ ng quan lớ n ( ρ=0.74) hơ n đánh giá LPC, vớ i sự
đánh giá chất lượ ng chủ quan của tiếng nói bị giảm chất lượ ng bở i sự mã hóa[20]
2.3.3.2 Phươ ng pháp đo Bark Distortion
Phươ ng pháp đánh giá WSS là bướ c đầu làm mẫu cho việc làm thế nào để
con ngườ i nhận biết đượ c tiếng nói, đặc biệt là nguyên âm. Các phươ ng pháp
đánh giá sau này càng dựa vào sự xử lý âm thanh của tai ngườ i, cách mà thính
giác con ngườ i xử lý âm thanh và nhiễu. Những phươ ng pháp đánh giá mớ i này
đã dựa trên những lậ p luận sau:
1. Sự phân tích tần số của tai ngườ i là không thay đổi, tức là sự phân
tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số
tuyến tính
2. Độ nhạy của tai ngườ i phụ thuộc vào tần số âm thanh
3. Âm thanh to tươ ng ứng vớ i độ mạnh của tín hiệu trong miền phi
tuyến tính
Thính giác con ngườ i phỏng theo một loạt biến đổi của tín hiệu âm thanh.
Cả tín hiệu gốc và tín hiệu đã qua xử lý phải tr ải qua hàng loạt các biến đổi này,
dẫn đến cái gọi là phổ âm lượ ng. Đánh giá BSD sử dụng khoảng cách giữa các
phổ này như là đánh giá chất lượ ng chủ quan
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 39/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 39
2.3.3.3 Phươ ng pháp đánh giá cảm nhận chất lượ ng thoại PESQ
Trong các phươ ng pháp đánh giá OE thì PESQ là phươ ng pháp đánh giá
phức tạ p nhất và đượ c khuyến nghị bở i ITU_T cho đánh giá chất lượ ng thoại
băng hẹ p (3,2KHz) và là một phươ ng pháp đánh giá khách quan có tính tươ ng
quan cao vớ i đánh giá theo cảm nhận của ngườ i nghe
2.4 K ết luận chươ ng
Chươ ng này đã trình bày một số phươ ng pháp đánh giá chất lượ ng tiếng nói
sau khi xử lý giảm nhiễu bằng các thuật toán tăng cườ ng tiếng nói. Các đánh giá
SE đượ c giớ i thiệu gồm có các phươ ng pháp đánh giá tuyệt đối và đánh giá tươ ng
đối. Các phươ ng pháp đánh giá OE đượ c trình bày chính trong chươ ng này gồm :
Đo SNRseg, đánh giá LLR, IS và WSS, trong phần này cũng đã giớ i thiệu sơ bộ
về BSD và PESQ
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 40/76
Chươ ng 2 : Đánh giá chất lượ ng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệ p Trang 40
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 41/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 41
CHƯƠ NG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING
3.1 Giớ i thiệu chươ ng
Nội dung của chươ ng này trình bày nguyên lý chung của thuật toán Spectral
– subtraction và Wiener filtering,nguyên lý cơ bản của từng thuật toán, các bướ c
thực hiện cần thiết để phân tích liên k ết tín hiệu, đề cậ p đến vấn đề ướ c luợ ng
nhiễu, vấn đề này ảnh hưở ng r ất lớ n đến quá trình xử lý
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering
Trong đồ án này, chúng tôi đã dựa trên các cở sở lý thuyết của các thuật toán đã
có trong speech enhancement, và đã lựa chọn ra 2 thuật toán đó là : Spectral
subtraction và Wiener filter để sử dụng làm thuật toán xử lý triệt nhiễu.
Sơ đồ khối chung cho cả 2 thuật toán :
Hình 3.1 S ơ đồ khố i cho hai thuật toán SS và WF
Cả 2 thuật toán Spectral subtraction và Wiener filter chỉ khác nhau ở khối
hàm xử lý triệt nhiễu, tất cả các khối còn lại thì giống nhau.3.3 Thuật toán Spectral Subtraction
3.3.1 Giớ i thiệu chung
Spectral – subtraction là thuật toán đượ c đề xuất sớ m nhất trong các thuật
toán đượ c sử dụng để giảm nhiễu trong tín hiệu. Đã có r ất nhiều bài luận mô tả
các biến thể của thuật toán này so vớ i các thuật toán khác. Nó dựa trên một
nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt đượ c mục đích
ướ c lượ ng phổ của tiếng nói sạch bằng cách tr ừ đi phổ của nhiễu vớ i phổ của
Phân tích tínhiệu thành các
frame FFT
Ướ c lượ ngnhiễu
Hàm xử lý
giảm nhiễu
Tín hiệu bị
nhiễu
IDFT
Overlap và
addingTín hiệu
sạch
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 42/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 42
tiếng nói đã bị nhiễu. Phổ của nhiễu có thể đượ c ướ c lượ ng, cậ p nhật trong nhiều
chu k ỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ đượ c thực hiện đối vớ i
nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ
không thay đổi đáng k ể giữa các khoảng thờ i gian cậ p nhật. Việc tăng cườ ng tín
hiệu đạt đượ c bằng cách tính IDFT(biến đổi Fourier r ờ i r ạc ngượ c) của phổ tín
hiệu đã đượ c ướ c lượ ng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là
một phép tính ướ c lượ ng đơ n giản vì nó chỉ gồm biến đổi DFT thuận và DFT
ngượ c.
Quá trình xử lý hiệu đơ n giản như vậy phải tr ả một cái giá, nếu quá trình xử
lý không đượ c thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo.
Nếu như việc lấy hiệu quá lớ n thì có thể loại bỏ đi một phần thông tin của tiếng
nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn đượ c giữ lại
trong tín hiệu. Có r ất nhiều phươ ng pháp đượ c đề xuất để giảm đi hầu hết méo
trong quá trình xử lý tiếng nói bằng spectral subtraction[21], và trong số đó cũng
có một vài tr ườ ng hợ p bị loại bỏ.
3.3.2 Spectral subtraction đối vớ i phổ biên độ Giả thiết r ằng y[n] là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n]
và tín hiệu nhiễu d[n]:
y[n] = x[n] + d[n] (3.1)
Thực hiện biến đổi Fourier r ờ i r ạc cả 2 vế,ta đượ c
)()()( ω ω ω D X Y += (3.2)
Chúng ta có thể biểu diễn Y(ω ) dướ i dạng phức như sau:)(|)(|)( ω φ
ω ω y jeY Y = (3.3)
Khi đó |Y(ω )| là biên độ phổ, và )(ω φ y là pha của tín hiệu đã bị nhiễu.
Phổ của tín hiệu nhiễu D(ω ) có thể đượ c biểu diễn dạng biên độ và pha:)(|)(|)( ω φ ω ω d j
e D D = (3.4)
Biên độ phổ của nhiễu |D(ω )| không xác định đượ c, nhưng có thể thay thế
bằng giá tr ị trung bình của nó đượ c tính trong khi không có tiếng nói(tiếng nói bị
dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 43/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 43
)(ω φ y , việc làm này không ảnh hưở ng đến tính dễ nghe của tiếng nói [22], có thể
ảnh hưở ng đến chất lượ ng của tiếng nói là làm thay đổi pha của tiếng nói nhưng
cũng chỉ vài độ.
Khi đó chúng ta có thể ướ c lượ ng đượ c phổ của tín hiệu sạch:
)(|])(||)([|)( ω φ ω ω ω y j
e DY X ∧∧
−= (3.5)
ở đây | )(ω ∧
D | là biên độ phổ ướ c lượ ng của nhiễu đượ c tính trong khi không
có tiếng nói hoạt động. Ký hiệu""∧
để chỉ r ằng giá tr ị đó là giá tr ị ướ c tính gần
đúng. Tín hiệu tiếng nói đượ c tăng cườ ng có thể đạt đượ c bằng cách r ất đơ n giản
là biến đổi IDFT của )(ω ∧
X .
Cần chú ý r ằng biên độ phổ của tín hiệu đã đượ c tăng cườ ng là
|))(||)(|(|)(| ω ω ω DY X −= , có thể bị âm do sự sai sót trong việc ướ c lượ ng phổ của
nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên chúng cần phải đảm bảo
r ằng khi thực tr ừ hai phổ thì phổ của tín hiệu tăng cườ ng |X(ω )| luôn luôn không
âm. Giải pháp đượ c đưa ra để khắc phục điều này là chỉnh lưu bán sóng hiệu của phổ, nếu thành phần phổ nào mà âm thì chúng ta sẽ gán nó bằng 0:
⎪⎩
⎪⎨⎧
≠
>−=
,0
|)(||)(|,|)(|)()(^^
ω ω ω ω ω DY DY
X (3.6)
Phươ ng pháp xử lý bằng chỉnh lưu bán sóng là một trong những cách để
đảm bảo cho |X(ω )| không bị âm.
3.3.3
Spectral subtraction đối vớ i phổ công suấtThuật toán Spectral subtraction đối vớ i phổ biên độ có thể đượ c mở r ộng
sang miền phổ công suất. Vì trong một vài tr ườ ng hợ p, nó có thể làm việc tốt vớ i
phổ công suất hơ n là vớ i phổ biên độ. Lấy phổ công suất của tín hiệu bị nhiễu
trong một khoảng ngắn, chúng ta bình phươ ng |Y(ω )|, ta đượ c:
{ })()(Re.2)()(
)()()(.)()()()(
*22
**222
ω ω ω ω
ω ω ω ω ω ω ω
D X D X
D X D X D X Y
++=
+++=(3.7)
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 44/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 44
| )(ω D |2, X(ω ). )(ω ∗ D và )().( ω ω D X ∗ không thể tính đượ c một cách tr ực
tiế p và xấ p xỉ bằng E{| )(ω D |2}, E{ X(ω ). )(ω ∗ D } và E{ )().( ω ω D X ∗ }, khi đó
E[.] là toán tử k ỳ vọng. Bình thườ ng thì E{| )(ω D |2} đượ c ướ c lượ ng khi không
có tiếng nói hoạt động và đượ c biểu thị là | )(ω ∧
D |2. Nếu chúng ta thừa nhận d[n] =
0 và không có một sự tươ ng quan nào vớ i tín hiệu sạch x[n], thì E{
X(ω ). )(ω ∗ D } và E{ )().( ω ω D X ∗ } xem là 0. Khi đó phổ công suất của tín hiệu
sạch có thể tính đượ c như sau
2^
22^
|)(||)(||)(| ω ω ω DY X −= (3.8)Công thức trên biểu diễn thuật toán tr ừ phổ công suất. Như công thức trên,
thì phổ công suất đượ c ướ c lượ ng 2|)(| ω ∧
X không đượ c đảm bảo luôn là một số
dươ ng, nhưng có thể sử dụng phươ ng pháp chỉnh lưu bán sóng như đã trình bày ở
trên. Tín hiệu đượ c tăng cườ ng sẽ thu đượ c bằng cách tính IDFT của
|)(| ω ∧
X (bằng cách lấy căn bậc hai của |)(| ω ∧
X 2 ), có sử dụng pha của tín hiệu
tiếng nói bị nhiễu. Chú ý r ằng, nếu chúng ta lấy IDFT cả hai vế của công thức
(4.8) trên thì ta có một phươ ng trình tươ ng tự trong miền tự tươ ng quan:
)()()( ^^^^ mr mr mr dd
yy xx
−= (3.9)
Khi đó )(^^ mr xx
, )(mr yy , )(^^ mr dd
là các hệ số tự tươ ng quan của tín hiệu sạch,
tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã đượ c ướ c lượ ng [23,24].
Công thức (1) có thể đượ c viết theo dạng sau:
222^
|)(|)(|)(| ω ω ω Y H X = ( 3.10)
Khi đó:2
2^
|)(|
|)(|1)(
ω
ω ω
Y
D H −= (3.11)
Trong lý thuyết hệ thống tuyến tính, H(ω ) là hàm truyền đạt của hệ thống.
Trong lý thuyết của Speech enhancement, chúng ta xem H(ω ) là hàm độ lợ i hay
hàm nén. Và H(ω ) là một số thực và luôn luôn dươ ng, và có giá tr ị nàm trong
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 45/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 45
phạm vị 1)(0 ≤≤ ω H . Nếu nó có giá tr ị âm là do có sai sót trong quá trình ướ c
lượ ng phổ của nhiễu. H(ω ) đượ c gọi là hàm nén là vì nó cho ta biết tỷ số giữa
phổ công suất của tín hiệu đượ c tăng cườ ng vớ i phổ công suất của tín hiệu bị
nhiễu. Hình dạng của hàm nén là một đặc tr ưng duy nhất của mỗi thuật toán
Speech enhancement.
Chính vì vậy mà chúng ta thườ ng so sánh các thuật toán bằng cách so sánh
các đáp ứng của hàm nén của chúng. Hệ số H(ω ) có giá tr ị thực nên biến đổi
IDFT là h[n] đối xứng vớ i nhau qua điểm 0 và không nhân quả. Trong miền thờ i
gian thì h[n] đượ c xem là một bộ lọc không nhân quả [25]. Nên sẽ có một
phươ ng pháp đượ c đề xuất để hiệu chỉnh hàm H(ω ) để đáp ứng của nó tr ở thành
bộ lọc nhân quả trong miền thờ i gian.
Tr ườ ng hợ p chung thì thuật toán Spectral subtraction có thể đượ c biểu diễn:
p p p DY X |)(||)(||)(|^^
ω ω ω −= (3.12)
Trong đó p là số mũ công suất, vớ i p = 1 là đó là phươ ng pháp tr ừ phổ biên
độ điển hình, p = 2 là phươ ng pháp tr ừ phổ công suất.
Sơ đồ khối của thuật toán Spectral Subtraction :
Hình 3.2 S ơ đồ khố i của thuật toán Spectral subtraction [26].
3.4 Thuật toán Wiener Filtering
3.4.1 Giớ i thiệu chung
Thuật toán Spectral Subtraction dựa chủ yếu vào tr ực giác và kinh
nghiệm.Chính xác hơ n thuật toán này đượ c phát triển dựa trên một nhiễu có thật
Tín hiệu bị nhiễu FFT |.| p
Ướ c lượ ng, cậ pnhật nhiễu
Pha của
tín hiệu
|.|1/p IFFTTín hiệu sau khităng cườ ng
+)(ω Y
- p D |)(|
^
ω
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 46/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 46
đượ c cộng vào và tín hiệu sạch đượ c ướ c lượ ng một cách đơ n giản bằng cách tr ừ
đi phổ của nhiễu từ phổ của tính hiệu tiếng nói có nhiễu. Vớ i cách làm này tín
hiệu tiếng nói sạch không thể có đượ c bằng cách tối ưu nhất. Để khắc phục
nhượ c điểm này ta sử dụng thuật toán Wiener Filtering (WF).
WF là thuật toán đượ c sử dụng r ộng rãi trong nâng cao chất lượ ng tiếng nói.
Nguồn gốc cơ bản của thuật toán WF là tạo ra tín hiệu tiếng nói sạch bằng cách
nén nhiễu. Ướ c lượ ng đượ c thực hiện bằng cách hạ thấ p sai số bình phươ ng trung
bình (Mean Square Error) giữa tín hiệu mong muốn và tín hiệu ướ c lươ ng.
3.4.2 Nguyên lý cơ bản của Wiener Filtering
Giả thiết r ằng y[n] là tín hiệu vào đã bị nhiễu, nó là tổng của tín hiệu sạch
và tín hiệu nhiễu d[n]:
y[n]=x[n]+d[n] (3.13)
Thực hiện biến đổi Fourier r ờ i r ạc cả 2 vế,ta đượ c
)()()( ω ω ω D X Y += (3.14)
Chúng ta có thể biểu diễn Y(ω ) dướ i dạng phức như sau:
)(|)(|)( ω φ ω ω y jeY Y = (3.15)
Khi đó |Y(ω )| là biên độ phổ, và )(ω φ y là pha của tín hiệu đã bị nhiễu.
Phổ của tín hiệu nhiễu D(ω ) có thể đượ c biểu diễn dạng biên độ và pha:)(|)(|)( ω φ ω ω d j
e D D = (3.16)
Biên độ phổ của nhiễu |D(ω )| không xác định đượ c, nhưng có thể thay thế
bằng giá tr ị trung bình của nó đượ c tính trong khi không có tiếng nói(tiếng nói bị
dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu)(ω φ y , việc làm này không ảnh hưở ng đến tính dễ nghe của tiếng nói [27], có thể
ảnh hưở ng đến chất lượ ng của tiếng nói là làm thay đổi pha của tiếng nói nhưng
cũng chỉ vài độ.
Ta có thể ướ c lượ ng đượ c biên độ của phổ tín hiệu sạch )(ω ∧
X từ Y(ω ) bằng
một hàm phi tuyến đượ c xác định như sau :
)(/)()( ω ω ω Y X G∧
= (3.17)
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 47/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 47
)(ω G có thể đượ c áp dụng theo Wiener Filtering [28]:
})({})({
})({
)( 22
2
ω ω
ω
ω D E S E
S E
G+
= (3.18)
Trong đó )(ω s P và )(ω d P là phổ công suất của tin hiệu sạch.
Đặt Priori SNR và Posteriori SNR như sau[11]:
})({
})({2
2
ω
ω
D E
S E SNR pri = (3.19)
})({
})({2
2
ω
ω
D E
Y E SNR post =
(3.20)
Một khó khăn trong các thuật toán nâng cao chất lượ ng tiếng nói là ta
không có tín hiệu tr ướ c tín hiệu sạch s[n] nên ta không thể biết phổ của nó. Do đó
ta không thể tính đượ c priSNR mà trong các hệ thống nâng cao chất lượ ng giọng
nói thì priSNR là tham số r ất cần thiết để ướ c lượ ng tín hiệu sạch.Trong các hệ
thống nâng cao chất lượ ng giọng nói có thể ướ c lượ ng đượ c pri
SNR và post
SNR
bằng cách cho các thông số thích hợ p vào các phươ ng trình sau[12]:
21
)()1()()( ϖ λ ω λ ω t t
d
t
d D P P −+=
−∧∧
(3.21)
)(
})({2
ω
ω
t
d
post
P
Y E SNR
∧
= (3.22)
)(
)(1)()1()(
21^
ω
ω
β ω β ω
d
t
t
post
t
pri
P
S
SNR P SNR∧
−
∧∧
+⎥⎦
⎤⎢⎣
⎡−−= (3.23)
Trong đó P[.] là hàm chỉnh lưu bán sóng có dạng như sau:
⎩⎨⎧
≠
>=
,0
0,)(
X X X P (3.24)
Và và chỉ số t [.] để tín hiệu tại khoảng thờ i gian đang xử lý.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 48/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 48
Trong phươ ng trình nếu cho hệ số β ta có thể ướ c lượ ng đượ c priSNR bằng
post SNR . Trong thực tế hệ số β =0.98 r ất tốt cho các tín hiệu có SNR<4dB.
Từ phươ ng trình (3.18) và (3.19) có )(ω G theo WF như sau:
pri
pri
SNR
SNRG
+=
1)(ω (3.25)
Sơ đồ khối của thuật toán Wiener Filtering:
Hình 3.3 S ơ đồ khố i của thuật toán Wiener Filtering.
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói
3.5.1 Phân tích tín hiệu theo từ ng frame
Do tín hiệu cần xử lý của chúng ta là tín hiệu liên tục, nên khi chúng ta biến
đổi FFT tr ực tiế p tín hiệu từ miền thờ i gian mà không thông qua một quá trình
tiền xử lý nào tr ướ c đó thì tín hiệu sau khi đượ c biến đổi FFT sẽ biến đổi nhanh,lúc đó chúng ta không thể thực hiện đượ c các thuật toán xử lý triệt nhiễu trong tín
hiệu vì khi đó tín hiệu đượ c xem là động.
Chính vì vậy, tín hiệu của chúng ta cần phải đượ c phân tích thành những
khung tín hiệu(frame) liên tục trong miền thờ i gian tr ướ c khi chuyển sang miền
tần số bằng biến đổi FFT. Khi tín hiệu đượ c phân tích thành các frame liên tục,
thì trong từng frame, tín hiệu của chúng ta sẽ biến đổi chậm và nó đượ c xem là
Tín hiệu bị nhiễu FFT |.|2
Ướ c lượ ng, cậ pnhật nhiễu
Pha củatín hiệu
|.|1/2 IFFTTín hiệu sau khi
tăng cườ ng
)(ω Y
PrioriSNR
Hàm xử lýgiảm
nhiễuWF
priSNR
p D |)(|
^
ω
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 49/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 49
t ĩ nh. Nếu tín hiệu đượ c phân tích theo từng frame thì khi đó các thuật toán xử lý
triệt nhiễu trong tín hiệu mớ i có thể thực hiện đượ c một cách hiệu quả. Và cách
phân tích tín hiệu của chúng ta là “frame by frame”.
Để thực hiện việc phân tích tín hiệu thành các frame, cần sử dụng các loại
cửa sổ thích hợ p. Ở đây, chúng ta sử dụng cửa sổ Hamming, vớ i N = 256 mẫu
trong từng frame :
1,...,0,)/)12cos((.85185.01 −=+− N k N k π (3.27)
Hình 3.4 Phân tích tín hiệu thành các frame [31].
3.5.2 Overlap và Adding
Sau khi phân tích tín hiệu thành các frame liên tục trong miền thờ i gian
bằng cửa sổ Hamming, nếu các frame này liên tục vớ i nhau và không theo một
điều kiện nào cả thì khi thực hiện biến đổi FFT thì vô tình chúng ta đã làm suy
giảm tín hiệu do Hamming là cửa sổ phi tuyến.
Nên khi thực hiện phân tích tín hiệu thành các frame thì yêu cầu đặt ra là
các frame phải sắ p xế p chồng lên nhau, gọi là “overlap”. Việc xế p chồng các
frame vớ i nhau sẽ đượ c thực hiện theo một tỷ lệ chồng lấ p thích hợ p, thông
thườ ng là 40% hoặc 50%.
Sau khi các frame tín hiệu đượ c xử lý triệt nhiễu trong miền tần số, các
frame này đượ c liên k ết lại nhau bằng phươ ng pháp thích hợ p vớ i phươ ng pháp
phân tích tín hiệu thành các frame ở đầu vào gọi là “adding”.
N : kích thướ c của frame
m : số lượ ng frame
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 50/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 50
Tậ p hợ p các mẫu tín hiệu trong cùng một frame sau khi đượ c phân tích ở
đầu vào gọi là một “segment”. Vớ i cách thực hiện phân tích và liên k ết các frame
bằng phươ ng pháp overlap và adding thì tín hiệu của chúng ta thu đượ c sau khi
xử lý triệt nhiễu sẽ không bị méo dạng và sẽ không xuất hiện hiện tượ ng “giả
nhiễu”.
Hình 3.5 quá trình thự c hiện overlap và adding [32].
3.6 Ướ c lượ ng và cập nhật nhiễu
Phươ ng thức ướ c lượ ng nhiễu có thể ảnh hưở ng lớ n đến chất lượ ng của tín
hiệu sau khi đượ c tăng cườ ng. Nếu nhiễu đượ c ướ c lượ ng quá nhỏ thì nhiễu sẽ
vẫn còn trong tín hiệu và nó sẽ đượ c nghe thấy, còn nếu như nhiễu đượ c ướ c
lượ ng quá lớ n thì tiếng nói sẽ bị méo, và làm sẽ làm tính dễ nghe của tiếng nói bị
ảnh hưở ng. Cách đơ n giản nhất để ướ c lượ ng và cậ p nhật phổ của nhiễu trong
đoạn tín hiệu không có mặt của tiếng nói sử dụng thuật toán thăm dò hoạt động
của tiếng nói (voice activity detection - VAD). Tuy nhiên phươ ng pháp đó chỉ
thoả mãn đối vớ i nhiễu không thay đổi(nhiễu tr ắng), nó sẽ không hiệu quả trong
các môi tr ườ ng thực tế (ví dụ như nhà hàng), ở những nơ i đó đặc tính phổ của
nhiễu thay đổi liên tục. Trong mục này chúng ta sẽ đề cậ p đến thuật toán ướ c
lượ ng nhiễu thay đổi liên tục và thực hiện trong lúc tiếng nói hoạt động, thuật
toán này sẽ phù hợ p môi tr ườ ng có nhiễu thay đổi cao.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 51/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 51
3.6.1 Voice activity detection
Quá trình xử lý để phân biệt khi nào có tiếng nói hoạt động, khi nào không
có tiếng nói (im lặng) đượ c gọi là sự thăm dò hoạt động của tiếng nói – Voice
activity detection (VAD). Thuật toán VAD có tín hiệu ra ở dạng nhị phân quyết
định trên một nền tảng frame-by-frame, khi đó frame có thể xấ p xỉ 20-40 ms.
Một đoạn tiếng nói có chứa tiếng nói hoạt động thì VAD = 1, còn nếu tiếng nói
không hoạt động hay đó chính là nhiễu thì VAD = 0.
Có một vài thuật toán VAD đượ c đưa ra dựa trên nhiều đặc tính của tín
hiệu. Các thuật toán VAD đượ c đưa ra sớ m nhất thì dựa vào các đặc tính như
mức năng lượ ng, zero-crossing, đặc tính cepstral, phép đo khoảng cách phổ
Itakura LPC, phép đo chu k ỳ.
Phần lớ n các thuật toán VAD đều phải đối mặt vớ i vấn đề là điều kiện SNR
thấ p, đặc biệt khi nhiễu bị thay đổi. Một thuật toán VAD có độ chính xác trong
môi tr ườ ng thay đổi không thể đủ trong các ứng dụng của Speech enhancement,
nhưng việc ướ c lượ ng nhiễu một cách chính xác là r ất cần thiết tại mọi thờ i điểm
khi tiếng nói hoạt động [26].3.6.2 Quá trình ướ c lượ ng và cập nhật nhiễu
Nhiễu sẽ đượ c ướ c lượ ng lúc ban đầu bằng cách lấy trung bình biên độ phổ
của tín hiệu bị nhiễu
∑−
=
=
1
0
)(1
)(M
i
ii Y M
D ω ω (3.28)
Sau đó, sử dụng phươ ng pháp VAD để nhận biết các frame tiế p theo, frame
nào là frame nhiễu và sẽ cậ p nhật nhiễu đó cho các frame tiế p theo. Để có thể
nhận biết đượ c frame nào là nhiễu thì chúng ta thực hiện so sánh biên độ phổ của
nhiễu đượ c ướ c lượ ng vớ i biên độ phổ của tín hiệu bị nhiễu :
ω ω
ω
π
π
π
d D
Y T
i
i∫− −
= |)(
)(|
21
log201
(3.29)
Nếu dBT 12−≤ thì frame đó không phải là frame có tiếng nói, khi đó ta có
thể cậ p nhật lại nhiễu đã đượ c ướ c lượ ng tr ướ c đó.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 52/76
Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering
SVTH: Nguyễn Thị Ngọc Diệ p Trang 52
3.7 K ết luận chươ ng
Nội dung của chươ ng giúp nguyên lý chung của thuật toán Spectral –
Subtraction và Wiener Filtering. Để hai thuật toán có thể thực hiện đượ c thì cần
phải phân tích tín hiệu thành các frame và các frame phải xế p chồng lên nhau, và
sau khi các frame đượ c xử lý trong miền tần số và chuyển đổi về lại miền thờ i
gian thì các frame đó phải đượ c liên k ết lại vớ i nhau theo đúng phươ ng pháp
tươ ng ứng vớ i phươ ng pháp phân tích tín hiệu ở đầu vào, quá trình đó gọi là
overlap và adding. Chính điều đó sẽ làm cho tín hiệu của chúng ta sau khi xử lý
triệt nhiễu sẽ không bị méo, đảm bảo chất lượ ng của tiếng nói. Nội dung của
chươ ng cũng trình bày vấn đề ướ c lượ ng nhiễu, đây là cái chính mà speech
enhancement cần giải quyết, nó quyết định tính hiệu quả của thuật toán và chất
lượ ng của tiếng nói sau khi xử lý triệt nhiễu.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 53/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 53
CHƯƠ NG 4: THỰ C HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN
4.1 Giớ i thiệu chươ ng
Dựa vào lý thuyết đã nghiên cứu đượ c, chươ ng này đã xây dựng các lưu đồ
thuật toán và thực hiện các thuật toán giảm nhiễu mô phỏng bằng Matlab, sau đó
đánh giá các k ết quả thu đượ c chủ yếu bằng phươ ng pháp đánh giá Objective
Measure
4.2 Quy trình thự c hiện và đánh giá thuật toán
Hình 4.1. S ơ đồ thự c hiện và đ ánh giá thuật toán t ă ng cườ ng
Xây d ự ng thuật toán : dựa trên các cơ sở toán học, các phép biến đổi trong
miền thờ i gian và tần số đối vớ i xử lý tín hiệu số để xây dựng nên các thuật toán
xử lý nhiễu trong tiếng nói.
Triể n khai trên Matlab: từ thuật toán đã xây dựng đượ c, thực viết mã nguồn
bằng ngôn ngữ lậ p trình và sử dụng các công cụ trên Matlab tạo nên chươ ng trình
thực hiện xử lý nhiễu trong tiếng nói trên nền Matlab.
Xây dựng các thuật toán
Triển khai thuật toán trên Matlab
Thực hiện xử lý tiếng nói bằngcác thuật toán giảm nhiễu
Thực hiện các thuật toán đánhgiá dựa trên các k ết quả đạt đượ c
sau khi xử lý
Nhận xét đánh giá
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 54/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 54
Thự c hiện xử lý tiế ng nói bằ ng các thuật toán: thực hiện xử lý triệt nhiễu
trong các file âm thanh bị nhiễu bằng chươ ng trình đã xây dựng ở trên.
Thự c hiện các phươ ng pháp đ ánh giá d ự a trên các k ế t quả đạt đượ c sau khi
xử lý : sau khi các file âm thanh bị nhiễu vớ i các mức độ và loại nhiễu khác nhau
đã đượ c xử lý triệt nhiễu, cùng vớ i các file âm thanh sạch tươ ng ứng, ta sử dụng
các phươ ng pháp đánh giá của Speech enhancement để thực kiểm tra, đánh giá
tính hiệu của thuật toán.
Nhận xét đ ánh giá: từ các k ết quả sau khi thực hiện các phươ ng pháp đánh
giá đã có ở trên, đưa ra các k ết luận đánh giá : thuật toán nào thích hợ p cho loại
nhiễu nào, vớ i mức độ bao nhiêu, thuật toán nào có khả xử lý nhiễu tốt hơ n trong
mọi tr ườ ng hợ p.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 55/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 55
4.3 Lư u đồ thuật toán Spectral Subtraction
Hình 4.2 Lư u đồ thuật toán SS
Tính lại mức nhiễu N
End
I=I+1;nhậ p frame tiế p theo
Begin
Phân chia Frame tín hiệu đầuvào
Tinh cong suat nhieu trung binh N banđầu
I=0;Nhậ p frame đầu tiên
VAD
X(:,i)=Beta*Y(:,i)
D=YS(:,i)-N; % Thực hiện tr ừ phổ
X(:,i)=max(D,0);
Y=biến đổi FFT cho các frame
X =
X =
S
Đ
SpeechFlag==0?
S
I<number of frame
Thực hiên IFFT và nối các
frame
Đ
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 56/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 56
4.4 Lư u đồ thuật toán Wiener Filtering
Hình 4.3 Lư u đồ thuật toán WF
Tính lại mức nhiễu trung bình
End
I=I+1;nhậ p frame tiế p theo
Begin
Phân chia Frame tín hiệu đầu
vào
Tinh cong suat nhieu trung bình N ban
đầu
SpeechFlag==0?
I=0;Nhậ p frame đầu tiên
VAD
Tính Priori SNR
Y=biến đổi FFT cho các frame
Tính Gain Function G
X(:,i)=G.*Y(:,i);tin hiệu sạch
X
=X
=
Đ
S
Đ
Đ
I<number of frame
Thực hiên IFFT và nối các
frame X
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 57/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 57
4.5 Thự c hiện thuật toán
Chúng ta thực hiện xử lý các file âm thanh bị nhiễu, vớ i 2 loại nhiễu đó là
nhiễu do tiếng xe hơ i và nhiễu do ngườ i nói xung quanh tươ ng ứng vớ i SNR
=10dB
Dạng sóng và phổ của tín hiệu sạch:
Hình 4.4 d ạng sóng và spectrogram của tín hiệu sạch
Dạng sóng và spectrogram của tín hiệu bị nhiễ u xe hơ i vớ i SNR = 10dB
- Tr ướ c khi xử lý nhiễu:
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễ u xe hơ i vớ i SNR = 10dB
- Sau khi xử lý triệt nhiễu bằng thuật toán Spectral Subtraction
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 58/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 58
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễ u xe hơ i
bằ ng SS vớ i SNR = 10dB.
- Sau khi xử lý bằng thuật toán Wiener filtering
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễ u xe hơ i
bằ ng WF vớ i SNR = 10dB.
Nhận xét sơ bộ
Sau khi nghe các file âm thanh của tín hiệu sạch, tín hiệu sau khi xử lý
nhiễu, dựa trên dạng sóng và spectrogram của tín hiệu sạch, tín hiệu sau khi xử lý
triệt nhiễu bằng 2 thuật toán SS và WF, ta có thể đưa ra một số nhận xét như sau
• Cả hai thuật toán đều có thể xử lý triệt nhiễu tốt hơ n ở môi tr ườ ng
có SNR cao hơ n, và xử lý tốt hơ n đối vớ i tín hiệu bị nhiễu biến đổi
chậm và có phân bố đều.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 59/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 59
• Cả hai thuật toán đều có tính hiệu quả giống nhau đối vớ i nhiễu ở
mức SNR thấ p, nhưng đối vớ i môi tr ườ ng có SNR cao hơ n thi thuật
toán Wiener xử lý triệt nhiễu tốt hơ n.
• Nhìn chung thì thuật toán WF xử lý triệt nhiễu tốt hơ n so vớ i SS
4.6 Đánh giá chất lượ ng tiếng nói đã đượ c xử lý
4.6.1 Cơ sở dữ liệu cho việc đánh giá
Là 30 câu thoại đượ c ghi âm trong phòng thí nghiệm theo chuẩn của IEEE
[32] là tín hiệu thoại sạch. Mỗi câu trung bình khoảng 2s. Nội dung các câu đều
có sự cân bằng về mặt ngữ âm nên có thể thấy đượ c sự tác động của thuật toán
lên tất cả các âm vị có thể có trong tín hiệu thoại
Các tín hiệu thoại đó sau đó đượ c cộng nhiễu vào ( gồm có loại nhiễu có
trong thế giớ i thực, vớ i các tỷ số SNR khác nhau. Như vậy ta đã có sẵn tín hiệu
sạch và tín hiệu bị nhiễu theo chuẩn chung.
Hai loại nhiễu đượ c dùng là: nhiễu xe hơ i (car noise) đượ c dùng làm dữ liệu
chính để xử lý và đánh giá, và nhiễu do những ngườ i nói xung quanh (babble
noise) để kiểm tra tác động của thuật toán trong môi tr ườ ng nhiễu khác, vớ i cácSNR 0dB, 5dB, 10dB, 15dB.
Sau khi tăng chất lượ ng tiếng nói từ các tín hiệu tiếng nói bị nhiễu bằng các
thuật toán đã nghiên cứu là SS và WF, có đượ c tín hiệu tiếng nói đã đượ c tăng
cườ ng. Như vậy ta có đượ c cơ sở dữ liệu cho việc đánh giá chất lượ ng của tín
hiệu tiếng nói sau khi đã đượ c tăng cườ ng.
4.6.2 Tổng quan về quy trình đánh giá
Để đánh giá chất lượ ng tiếng nói sau khi đã xử lý sử dụng cả hai phươ ng
pháp đánh giá dựa trên chất lượ ng do ngườ i nghe cảm nhận đượ c (SE) và đánh
giá dựa trên các phép đo thuộc tính của tín hiệu (OE). Trong đồ án này phươ ng
pháp đánh giá chính đượ c dùng là OE, SE đượ c dùng làm phươ ng pháp đánh giá
bổ sung và đượ c thực hiện bở i các thành viên trong nhóm thực hiện .
Do đặc tính của các thuật toán giảm nhiễu đượ c sử dụng trong đề tài là có
các thống số ảnh hưở ng đến cách thức xử lý nếu chỉnh các thông số này ta sẽ có
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 60/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 60
các k ết quả khác nhau có thể tốt, có thể xấu đối vớ i một file âm thanh. Để có thể
có các thông số tốt nhất và có các nhận xét về tính ổn định, thuật toán tốt hay xấu
ta phải thực hiện quá trình tinh chỉnh thông số để đượ c các k ết quả khác nhau từ
đó so sánh và đưa ra các thông số tối ưu nhất có thể. Quá trình này là thực hiện
đánh giá thuật toán.
Hình 4.8 Quy trình thự c hiện đ ánh giá
4.6.3 Kiểm tra độ tin cậy của các phươ ng pháp đánh giá
Các đánh giá OE đượ c dùng là : SNRseg, IS, LLR, WSS.
Kiểm tra độ ổn định của các phươ ng pháp đánh giá trên bằng cách so sánh
tín hiệu tiếng nói bị nhiễu xe hơ i và nhiễu ngườ i nói xung quanh chưa đượ c xử lý
vớ i tín hiệu sạch
Các thuật toán giảm nhiễu
Nhận xét
Đánh giá SEĐánh giá OE
Chỉnh sửa các thông số của
thuật toán giảm nhiễu
Tiếng nói đã đợ c
giảm nhiễu
Tín hiệu sạch
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 61/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 61
Hình 4.9. Đồ thị kiể m tra độ ổ n định của đ ánh giá OE đố i vớ i nhiễ u xe hơ i
Hình 4.10. Đồ thị kiể m tra độ ổ n định của đ ánh giá OE đố i vớ i nhiễ u ng ườ i
nói xung quanh
K ết quả kiểm tra cho thấy
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 62/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 62
Đối vớ i đánh giá SNRseg đồ thị đi lên theo chiều tăng dần của SNR
Đối vớ i đánh giá LLR, IS và WSS thì đồ thị có hướ ng đi xuống và
variance cũng giảm dần theo chiều tăng dần của SNR chứng tỏ phổ
của tín hiệu có SNR cao gần vớ i phổ tín hiệu sạch hơ n
Qua kiểm tra thấy đượ c các phươ ng pháp đánh giá trên đều ổn định và đủ
tin cậy để thực hiện đánh giá đối vớ i các tín hiệu tiếng nói đã qua xử lý.
4.6.4 Thự c hiện đánh giá
Trong quá trình nghiên cứu và triển khai thuật toán ta nhận thấy các thông
số sau ảnh hưở ng lớ n đến thuật toán:
- NoiseMargin :là ngưỡ ng để nhận biết nhiễu trong VAD .Mặc định của
thuật toán Noise margin sẽ là 3db.
- IS :hệ số chỉ thờ i gian không có tiếng nói đầu tiên trong mỗi file âm
thanh đượ c dùng để tính toán nhiễu ban đầu. Do khi kiểm tra những đoạn im lặng
ban đầu trong các file sạch ta nhận thấy r ằng đối vớ i từng file thì từ 0.15s đến
0.2s là những đoạn im lặng.Ta lựa giá tr ị IS là 0.2
- Đối vớ i thuật toán WF thì ta có thêm hệ số alpha là hệ số làm tr ơ n trong phươ ng pháp ướ c lượ ng tỉ số Priori SNR.
-Đối vớ i thuật toán SS thì có hệ số Gramma là hệ số quyết định nhiễu sẽ
đượ c tr ừ theo biên độ hay năng lượ ng. Ta chọn giá tr ị Gramma là 1 tức là thuật
toán Subtraction sẽ tr ừ nhiễu theo biên độ.
4.6.4.1 Đánh giá thuật toán vớ i các hệ số dự đoán ban đầu
H ệ số IS=0.2, NoiseMargin=3
Đánh giá OE
Sau khi thực hiện thuật toán SS và WF vớ i các thông số alpha=0.9,
gamma=1, NoiseMargin=3,IS=0.2 ta có đồ thị của đánh giá bằng SNR, LLR, IS,
WSS như sau
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 63/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 63
Hình 4.11 Đồ thị đ ánh giá Objective vớ i hệ số IS=0.2, NoiseMargin=3
Theo đồ thị ta có các nhận xét như sau :
Đối vớ i thông số đánh giá SNR cho ta thấy tỉ số SNR đã có tăng hơ n so vớ i
file chưa xử lý. Chứng tỏ thuật toán đã loại tr ừ môt phần nhiểu ra khỏi file sạch.
Nhưng đối vớ i so sánh IS, LLR, WSS thì ta lại thấy file chưa xử lý lại có k ết quả
tốt hơ n file đã xử lý. Do đánh giá IS, LLR, WSS là so sánh khoảng cách phổ giữa
file đã xử lý và file sạch r ồi tính giá tr ị trung bình nên ta có thể dự đoán là năng
lượ ng của file đã xử lý lệch r ất nhiều vớ i file sạch có thể do thuật toán tồi hoặc là
năng lượ ng tín hiệu sạch bị nén một phần .
Đánh giá SE
Sau khi kiểm tra các file đầu ra bằng phươ ng pháp nghe thử ta có các nhậnxét sau đây: Một số file đầu ra của các thuật toán SS và WF có mức độ nén nhiễu
khác cao dẫn tớ i việc mất một phần tiếng nói.
K ế t luận và t ố i ư u các thông số cho thuật toán VAD
Qua các nhận xét về đánh giá OE và SE ta rút ra k ết luận như sau:
Do thuật toán VAD vớ i các thông số đề ra là IS=0.2 và NoiseMargin=3 là
không tốt nên một phần âm thanh bị ướ c lượ ng là nhiễu nên đã bị thuật toán nén
đi dẫn tớ i việc mất năng lượ ng của phần âm thanh sạch.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 64/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 64
Đối vớ i thông số IS ta phải thay đổi như sau : Do đoạn lặng trong file sạch
chỉ nằm trong khoảng 0.15s đến 0.2s. Nếu ta để 0.2 là quá lớ n đối vớ i một sô file
nên một phần năng lượ ng tiếng nói trong những file nay sẽ đượ c thuật toán VAD
xem là nhiễu vì thế một phần tiếng nói sẽ bị loại bỏ. Đó là một hạn chế của thuật
toán VAD đượ c dùng trong đề tài : giữ cứng giá tr ị IS( đoạn im lặng) để cài đặt
nhiễu là không phù hợ p cho tất cả mọi file âm thanh.
Đối vớ i thông số NoiseMargin: Vì ta chọn mức ngưỡ ng để nhận biết nhiễu
là 3dB là khá lớ n nên tươ ng tự như giá tr ị IS vớ i mức ngưỡ ng như vậy một phần
tín hiệu sạch sẽ bị loại bỏ do khác gần vớ i nhiễu dù IS có tối ưu thế nào đi nữa.
Qua thực nghiệm ta có hệ số NoiseMargin tối ưu là 2. Đó là giá tr ị mà tín hiệu
sạch không bị ướ c lượ ng là nhiễu.
Vậy các giá tr ị tối ưu cho thuật toán VAD là : hệ số IS phải điều chỉnh lại là
0.15s, hệ số NoiseMargin là 2.
H ệ số IS=0.15 ,hệ số NoiseMargin=2
Đánh giá OE
Sau khi thuật hiện lại thuật toán SS và WF vớ i hệ số IS=0.15,hệ số NoiseMargin=2 ta có đồ thị đánh giá IS, SNR, WSS, LLS như sau :
Hình 4.12 Đồ thị đ ánh giá Objective vớ i hệ số IS=0.15, NoiseMargin=2.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 65/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 65
Ta nhận thấy thông số SNR tươ ng tự như tr ườ ng hợ p IS = 0.2 và
NoiseMargin=2. Nhưng ta các giá tr ị LLR và IS của so sánh tín hiệu đã xử lý
bằng SS và WF đã giảm, trong đó giá tr ị IS đã giảm đáng k ể.Đặc biệt vớ i thuật
toán SS giá tr ị IS đã xuống dướ i ngưỡ ng của file nhiễu. Điều đó chứng tỏ các
thông số này thật sự tốt. Nhưng các giá tr ị IS còn rât lớ n đối vớ i thuật toán WF
và các mức SNR 0dB và 10dB và các giá tr ị IS của thuật toán Wiener vẫn còn
nằm trên giá tr ị IS của file chưa xử lý và file sạch.
Đánh giá SE
Sau khi nghe thử các file đầu ra của thuật toán SS và thuật toán WF. Ta
nhận thấy thuật toán SS thật sự làm viêc tốt đã hạ đượ c mức nhiễu của các file
âm thanh. Nhưng đối vớ i thuật toán WF mặc dù đã hạ đượ c mức nhiễu của các
file âm thanh nhưng một số file vẫn bị mất tiếng nói điều đó chứng tỏ hệ số của
thuật toán WF chưa tốt.
K ế t luận
K ết hợ p giữa nhận xét trong OE và SE ta có k ết luận là vớ i hệ số IS=0.15
và NoiseMargin=2 thì thuật toán VAD làm việc thật sự tối ưu cho nhiễu xe hơ i.Và hệ số của thuật toán Wiener chưa tối ưu đó chính là hệ số alpha.
4.6.4.2 Tối ư u hệ số alpha cho thuật toán WF
Ta đánh giá hệ số alpha cho thuật toán WF qua các tr ườ ng hợ p hệ số
alpha=0.5, 0.8,0.9 vớ i IS=0.15 và NoiseMargin = 2 để chọn ra tr ườ ng hợ p tốt
nhất.
Đánh giá objective
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 66/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 66
Hình 4.14 Đồ thị đ ánh giá objective vớ i hệ số alpha=0.5, 0.8,0.9 vớ i
IS=0.15 và NoiseMargin = 2
Qua đồ thị SNR ta nhận thấy hệ số alpha càng lớ n thì mức nhiễu bị nén
càng lớ n (tỉ số SNR lớ n). Qua đồ thị IS ta thấy hệ số alpha càng nhỏ thì tác động
vào file tỉ số SNR càng lớ n càng tốt. Giá tr ị alpha=0.9 tác động vào file có
SNR=10 dB cho ra file output có khoảng cách phổ xa hơ n so vớ i file sạch và file
nhiễu. Còn lại các giá tr ị alpha khác và alpha=0.9 vớ i các mức file nhiễu có tỉ số
SNR khác đều cho ra k ết quả tốt hơ n so vớ i file sạch và file nhiễu.Và hệ số alpha
bằng 0.5 có vẻ r ất tốt trên đồ thị is đặc biêt là vớ i file nhiễu có tỉ số SNR=15dB
tác động r ất ổn định (variant nhỏ). Đánh giá subjective
Qua việc kiểm tra subjective ta nhận thấy vớ i hệ số alpha=0.5 tác động r ất
ổn định và tốt vớ i file nhiễu có mức SNR=15dB cho ra file r ất sạch. Nhưng vớ i
các mức dB khác thì ko tốt bằng so vớ i các hệ số alpha khác, nhiễu còn tươ ng đối
nhiều.Đối vớ i hệ số alpha là 0.9 thì vớ i mức file nhiễu có SNR=10dB tác động
không tốt, một số file cả tín hiệu sạch cũng bị nén.
K ế t luận
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 67/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 67
Qua các nhận xét về đánh giá SE và OE ta rút ra k ết luận là hệ số alpha=0.8
là hệ số tối ưu nhất cho tất cả các tr ườ ng hợ p có thể nó nén nhiễu không nhiều
bằng hệ số alpha nhưng không nén luôn tín hiệu sạch, bảo đảm tín hiệu vẫn còn
nghe tốt, nhiễu bị hạ xuống tươ ng đối nhiều.
Ta có thêm nhận xét về cách đánh giá OE là không phải lúc nào cũng hoàn
toàn chính xác như đối vớ i hệ số alpha=0.5 trên đồ thị IS nó là tốt nhất nhưng vớ i
việc kiểm tra bằng SE thì nó chỉ tốt nhất trong tr ườ ng hợ p 15dB hay đối vớ i đồ
thị SNR thì hệ số alpha tốt nhất nhưng có một số tr ườ ng hợ p tín hiệu sạch đã bị
nén luôn.
4.6.4.3 Hệ số gamma cho thuật toán SS
Vì thuật toán SS là thuật toán tr ừ nhiễu nên ta có 2 cách tr ừ nhiễu là tr ừ
theo năng lượ ng và tr ừ theo biên độ nên ta cung cấ p hệ số gamma nếu gamma=1
thì tr ừ theo biên độ gamma =2 thì tr ừ theo năng lượ ng. Sau đây ta sẽ đánh giá và
tìm ra cách tr ừ nào là tốt nhất( gamma=1 hay 2).
Đánh giá OE
Hình 4.15 Đồ thị đ ánh giá objective vớ i hệ số gamma = 1 và gamma = 2.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 68/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 68
Ta nhận thấy đối vớ i cả thông số SNR và IS thì hệ số gamma=2 tức là tr ừ
theo năng lượ ng đều tốt hơ n ngoại tr ừ đối vớ i file nhiễu có SNR là 10dB.Và
gamma=1 hay gamma = 2 đều đưa ra đồ thị tốt hơ n đồ thị giữa file nhiễu vớ i file
sạch
Đánh giá SE
Sau khi kiểm tra SE ta nhận thấy r ằng đối vớ i hệ số gamma=2 tức là tr ừ
theo năng lượ ng thì nhiễu bị nén r ất ít, file đầu ra không tốt bằng hệ số
gamma=1.
K ế t luận
Sau khi so sánh OE và SE ta có k ết luận là mặc dù trên đồ thị phản ánh hệ
số gamma=2 tốt hơ n nhưng trên thực tế thì hệ số gamma=1 mớ i tốt hơ n.Chứng tỏ
việc đánh giá OE như nói ở trên không phải lúc nào cũng đúng.
Ta chọn hệ số gamma tối ưu là 1.
4.6.4.4 Đánh giá thuật toán sau khi đã tối ư u
Sau khi thực hiện một loạt các hệ số thử nghiêm ta chọn ra hệ số tối ưu là :
-Thuật toán VAD: hệ số IS=0.15, NoiseMargin = 2.-Thuật toán WF hệ số alpha=0.8.
-Thuật toán SS tr ừ theo biên độ.
Và việc đánh giá OE chỉ đánh giá về mặt toán không phải lúc nào cũng
đúng , đánh giá OE phải đi kèm vớ i đánh giá SE.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 69/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 69
Hình 4.16 Đồ thị đ ánh giá vớ i IS=0.15 NoiMargin= 2 và alpha = 0.8 cho
thuật toán WF, gama=1 cho thuật toán SS.
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trườ ng nhiễu khác
Đánh giá OE
Thực hiện nghe đối vớ i tín hiệu đã qua xử lý thấy r ằng một số file tín hiệu
có những đoạn chỉ nghe đượ c nhiễu chứ không nghe đượ c tiếng nói. Điều này
đượ c giải thích là do nhiễu ngườ i nói có năng lượ ng nhiễu tươ ng đươ ng vớ i năng
lượ ng tiếng nói, trong một số file thì tín hiệu tiếng nói có mức năng lượ ng thấ p
hơ n mức năng lượ ng của nhiễu nên đoạn tiếng nói đó bị tr ừ mất chỉ còn lại nhiễu.
Đồ th ị
Áp dụng các thông số tối ưu đối vớ i nhiễu xe hơ i cho nhiễu ngườ i nói xungquanh có đồ thị đánh giá như sau
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 70/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 70
Hình 4.17 Đồ thị đ ánh giá OE vớ i nhiễ u ng ườ i nói xung quanh.
Nhận xét
Nhận xét theo đồ thị đối vớ i cả bốn phép đánh giá ta thấy đối vớ i nhiễu
ngườ i nói xung quanh thì SS có vẻ xử lý tốt hơ n WF. Nhưng đối vớ i cả ba phươ ng pháp đánh giá đầu tiên thì cả ba giá tr ị WSS,
LLR, IS của các tín hiệu đã đượ c xử lý so vớ i tín hiệu sạch lại không tốt bằng giá
tr ị của tín hiệu nhiễu chưa xử lý so vớ i tín hiệu sạch (so sánh của tín hiệu đã xử
lý có giá tr ị lớ n hơ n).
Riêng vớ i phép đánh giá IS ta thấy thuật toán xử lý nhiễu có tác động tốt
đối vớ i nhiễu 0dB và 5dB. Bên cạnh đó variant còn lớ n vì có một số file có giá tr ị
so sánh lớ n hơ n giá tr ị của các file khác r ất nhiều (điều này cũng xảy ra đối vớ icar noise) đượ c thể hiện trong bảng giá tr ị IS [matlab file]. Lý giải cho điều này
là do một số tín hiệu bị nhiễu đột biến.
Đánh giá SE
Khi thực hiện nghe đối vớ i các file âm thanh bị nhiễu ngườ i nói xung quanh
đượ c xử lý bằng SS và WF thì có một số đoạn tiếng nói bị mất, chỉ nghe đượ c
nhiễu chứ không nghe đượ c tiếng nói.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 71/76
Chươ ng 4: Thực hiện và đánh giá các thuật toán
SVTH: Nguyễn Thị Ngọc Diệ p Trang 71
Điều này đượ c lý giải là do nhiễu ngườ i nói xung quanh có mức năng lượ ng
tươ ng đươ ng vớ i mức năng lượ ng của tiếng nói nên một số file âm thanh có đoạn
tiếng nói có mức năng lượ ng thấ p hơ n mức năng lượ ng của nhiễu thì tiếng nói đó
sẽ bị tr ừ mất chỉ còn lại nhiễu.
Nhận xét chung
Khi đem các thông số tối ưu để xử lý nhiễu xe hơ i áp dụng vớ i ngườ i nói
xung quanh thì k ết quả không tốt.
Đối vớ i nhiễu ngườ i nói xung quanh thì thuật toán SS tác động tớ t hơ n WF.
4.6.5 K ết luận chươ ng
Qua k ết quả đánh giá bằng OE và SE đưa ra đượ c k ết luận là :
- Đối vớ i từng loại nhiễu khác nhau thì tác động của các thuật toán tăng
cườ ng là khác nhau.
- Đối vớ i từng mức nhiễu khác nhau thì thuật toán cũng tác động cũng
khác nhau.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 72/76
Đồ án tốt nghiệ p
SVTH: Nguyễn Thị Ngọc Diệ p Trang 72
TÀI LIỆU THAM KHẢO
[1]. Ramabadran, T.,Ashley, J., and McLaughin, M.(1997), Background noise
suppression for speech enhancement and coding, Proc. IEEE Workshop Speech
Coding Telecommun.
[2]. Ths.Hoàng Lê Uyên Thục, Giáo trình xử lý tín hiệu số, Đại học Bách Khoa –
Đại học Đà Nẵng.
[3].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement
algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I.
[4]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.
[5]. Long, M. (2005), Dinner Conversation (An oxymoron?), Acoustics
Today,l(1), pp. 25-27.
[6]. Lombard, E.(1911), Le signe de lelevation de la voix, Ann. Mal. Oreil.
Larynx.,37, 101-119.
[7]. Nguyễn Quốc Trung, Xử lý tín hiệu số - tậ p 1, NXB Khoa học k ĩ thuật.
[8]. Lim, J. and Oppenheim, A.V.(1979), Enhancement and bandwidth
compression of noisy speech, Proc. IEEE, 67(12),pp. 1586-1604.[9]. Weiss, M., Aschkenasy, E., and Parsons, T.(1974), Study and the
development of the INTEL technique for improving speech intelligibility,
Technical Report NSC-FR/ 4023.
[10]. Boll, S.F. (1979), Suppression of acoustic noise in speech using spectral
subtraction, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120.
[10]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 46-57.
[11] “Methods for Subjective Determination of Transmission Quality”, ITU_T
Recommendation P.800, August 1996.
[12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press,
Taylor and Francis Group.
[13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”,
Signal Processing and Speech Communication Lab, Technical University Graz.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 73/76
Đồ án tốt nghiệ p
SVTH: Nguyễn Thị Ngọc Diệ p Trang 73
[14] Hansen J. and Pellon B. , “An effective quality evaluation protocol for
Speech Enhancement algorithms”, Proc. Int Conf. Spoken Language Process,
1998.
[15] http://en.wikipedia.org/wiki/Code_Excited_Linear_Prediction
[16] Beey Y. , Shpiro Z. , Simchony T. , Shatz L. and Piasetzky J., “An efficient
variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel
Pekker, 1990.
[17] Yi Hu and Philipos C. Loizou, “Evaluation of Objective Quality Measures
for Speech Enhancement”, IEEE.
[18] Klatt D., “Prediction of perceived phonetic distance from critical band
spectra”, Proc IEEE Int. Conf. Acoust. Speech Signal Process.
[19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low
bit_rate Speech Coding systems”, IEEE J, Sel. Areas Commun.
[20] Quackenbush S., Barnwell T. and Clements M., “Objective Measure of
Speech Quality”, Englewood Cliffs NJ: Prenticư Hall.
[21]. Boll, S.F(1979), Suppression of acoustic noise in speech using spectralsubtraction, IEEE Trans. Acoust. Speech Signal Process., 27(2), 113-120.
[22]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase
spectrum in human listening tests, Speech Commun., 45(2), 153-170.
[23]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the
Development of the INTEL Technique for Improving Speech Intelligibility,
Technical Report NSC-FR/4023, Nicolet Scientific Corporation.
[24]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing
of Speech Signals, New York : IEEE Press.
[25]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction
using reduced delay convolution and adaptive averaging, IEEE Trans. Speech
Audio Process., 9(8), 799-807.
[26]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100.
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 74/76
Đồ án tốt nghiệ p
SVTH: Nguyễn Thị Ngọc Diệ p Trang 74
[27]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase
spectrum in human listening tests, Speech Commun., 45(2), 153-170.
[28]. Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise
Suppression EEE Trans. Acoustics, Speech and Signal Processing , vol. assp-28,
no. 2, april 1980.
[29]. Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-
Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoustics,
Speech and Signal Processing , vol. 32, no. 6, pp. 1109–1121, December 1984.
[30]. P. Scalart and J. Vieira-Filho, “Speech enhancement based on a priori signal
to noise estimation,” in Proc. 21st IEEE Int. Conf. Acoust. Speech Signal
Processing , Atlanta, GA, May 1996, pp. 629–632.
[31]. Dominic K. C. Ho, Speech Enhancement : concept and methodology, Demo
prepared by Tong Wang, University of Missouri-Columbia.
[32] http://www.utdallas.edu/~loizou/speech/noizeus/
5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com
http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 75/76
Đồ án tốt nghiệ p
SVTH: Nguyễn Thị Ngọc Diệ p Trang 75
K ẾT LUẬN ĐỒ ÁN VÀ HƯỚ NG PHÁT TRIỂN ĐỀ TÀI
Chất lượ ng của tiếng nói bị suy giảm do sự tác động của nhiễu trong môi
tr ườ ng xung quanh là một vấn đề quan tr ọng cần phải đượ c giải quyết. Việc tìm
ra các phươ ng pháp để triệt nhiễu và giảm nhiễu trong tiếng nói luôn luôn đề tài
đượ c quan tâm r ất nhiều. Trong các dịch vụ truyền thông vớ i phươ ng tiện ngôn
ngữ là tiếng nói thì việc tăng cườ ng, cải thiện chất lượ ng tiếng nói đã bị nhiễu là
r ất thiết, giúp cho ngườ i nghe có thể nghe rõ và đúng những gì ngườ i nói đã nói.
Đồ án đã thực hiện đượ c các vấn đề :
- Tìm hiểu và nghiên cứu các phươ ng pháp cải thiện chất lượ ng tiếng
nói, nhưng tậ p trung vào 2 thuật toán đã có trong Speech enhancement
là : Spectral Subtraction và Wiener Filtering
- Xây dựng đượ c chươ ng trình thực hiện xử lý nhiễu trong các file âm
thanh đã bị nhiễu dựa trên 2 thuật toán : Spectral Subtraction và
Wiener Filtering.
- Thực hiện và đánh giá tính hiệu quả của 2 thuật toán trong các môi
tr ườ ng nhiễu và mức độ nhiễu khác nhau, từ đó đưa ra các biện pháptối ưu hóa các thuật toán. K ết quả đạt đượ c cho thấy WF là thuật toán
giảm nhiễu tốt hơ n SS. Các thuật toán giảm nhiễu có hiệu quả khác
nhau đối vớ i từng môi tr ườ ng nhiễu khác nhau
Tuy nhiên đồ án vẫn chưa giải quyết hết đượ c các vấn đề trong Speech
enhancement nên hướ ng phát triển của đề tài trong tươ ng lai sẽ là :
- Tìm hiểu, nghiên cứu và xây dựng các chươ ng trình thực hiện xử lý
nhiễu trong tiếng nói dựa trên các thuật toán khác trong Speech
enhancement.
- Nghiên cứu và đưa ra thuật toán mớ i về xử lý nhiễu và triệt nhiễu trong
Speech enhancement.
Phát triển chươ ng trình đã thực hiện đối vớ i các dịch vụ ứng dụng thờ i gian
thực và các dịch vụ trong l ĩ nh vực truyền thông đa phươ ng tiện như : thoại, âm
nhạc, truyền hình hội nghị.