Do an Tot Nghiep Xu Ly Tieng Noi

5/12/2018 Do an Tot Nghiep Xu Ly Tieng Noi - slidepdf.com

http://slidepdf.com/reader/full/do-an-tot-nghiep-xu-ly-tieng-noi 1/76

Đồ án tốt nghiệ p PDF by http://www.ebook.edu.vn

SVTH: Nguyễn Thị Ngọc Diệ p Trang 1

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lậ p – Tự do – Hạnh phúc

LỜ I CAM ĐOAN

Kính g ử i: Hội đồng bảo vệ đồ án tốt nghiệ p Khoa Điện tử _ Viễn thông _

Tr ườ ng Đại học Bách Khoa Đà Nẵng.

Em tên là: Nguyễn Thị Ngọc Diệ p

Hiện đang học lớ p 04ĐT1- Khoa: Điện tử - Viễn thông – Tr ườ ng: Đại học

Bách Khoa Đà Nẵng.

Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép

của bất cứ đồ án hoặc công trình đã có từ tr ướ c.

Sinh viên thự c hiện

Nguyễn Thị Ngọc Diệ p





MỤC LỤC

LỜI CAM ĐOAN .................................................................................................. 1 MỤC LỤC .............................................................................................................. 2 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾ NG ANH ........ 8 MỞ ĐẦU .............................................................................................................. 10 CHƯƠ NG 1: TỔ NG QUAN VỀ NÂNG CAO CHẤT LƯỢ NG TIẾ NG NÓI ... 13

1.1 Giớ i thiệu chươ ng ................................................................................ 13

1.2 Nâng cao chất lượ ng tiếng nói là gì ? .................................................. 13 1.3 Lý thuyết về tín hiệu và nhiễu ............................................................. 15 1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu ................................................... 15 1.3.1.1 Tín hiệu .............................................................................................. 15 1.3.1.2 Nguồn tín hiệu .................................................................................... 15 1.3.1.3 Hệ thống và xử lý tín hiệu .................................................................. 16 1.3.1.4 Phân loại tín hiệu ................................................................................ 16 1.4 Lý thuyết về nhiễu ............................................................................... 17 1.4.1 Nguồn nhiễu ....................................................................................... 17 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi tr ườ ng khác nhau ..... 19 1.5 Tín hiệu r ờ i r ạc theo thờ i gian ............................................................. 20 1.5.1 Tín hiệu bướ c nhảy đơ n vị ................................................................. 21 1.5.2 Tín hiệu xung đơ n vị .......................................................................... 21 1.5.3 Tín hiệu hàm mũ ................................................................................ 21 1.5.4 Tín hiệu hàm sin r ờ i r ạc ..................................................................... 21 1.6 Phép biến đổi Fourier của tín hiệu r ờ i r ạc DTFT ................................ 22 1.6.1 Sự hội tụ của phép biến đổi Fourier ................................................... 22





1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier ..................................... 22 1.6.3 Phép biến đổi Fourier ngượ c .............................................................. 23 1.6.4 Các tính chất của phép biến đổi Fourier ............................................ 23 1.6.5 Phân tích tần số (phổ) cho tín hiệu r ờ i r ạc ......................................... 24 1.6.6 Phổ tín hiệu và phổ pha ...................................................................... 25 1.7 Các thuật toán sử dụng nâng cao chất lượ ng tiếng nói ........................ 26 1.7.1 Tr ừ phổ ............................................................................................... 26 1.7.2 Mô hình thống kê ............................................................................... 26 1.8 Tín hiệu tiếng nói................................................................................. 26 1.9 Cơ chế tạo tiếng nói ............................................................................. 28 1.9.1.1 Bộ máy phát âm của con ngườ i .......................................................... 28 1.9.2 Mô hình k ỹ thuật của việc tạo tiếng nói ............................................. 28 1.9.3 Phân loại âm ....................................................................................... 29 1.9.4 Thuộc tính âm học của tiếng nói ........................................................ 29 1.10 K ết luận chươ ng .................................................................................. 29

CHƯƠ NG 2 : ĐÁNH GIÁ CHẤT LƯỢ NG TIẾ NG NÓI .................................. 30 2.1 Giớ i thiệu chươ ng ................................................................................ 30 2.2 Phươ ng pháp đánh giá chủ quan .......................................................... 30 2.2.1 Các phươ ng pháp đánh giá tuyệt đối .................................................. 31 2.2.1.1 Phươ ng pháp đánh giá tuyệt đối ACR ............................................... 31 2.2.2 Các phươ ng pháp đánh giá tươ ng đối ................................................ 31 2.2.2.1 Đánh giá bằng phươ ng pháp so sánh các mẫu tín hiệu ...................... 31 2.2.2.2 Phươ ng pháp đánh giá theo sự suy giảm chất lượ ng ......................... 32

2.3 Phươ ng pháp đánh giá khách quan ...................................................... 33





2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung ..................................... 33 2.3.2 Đo khoảng cách phổ dựa trên LPC .................................................... 35 2.3.2.1 Phươ ng pháp đo LLR ......................................................................... 35 2.3.2.2 Phươ ng pháp đo IS ............................................................................. 36 2.3.2.3 Phươ ng pháp đo theo khoảng cách cepstrum ..................................... 36 2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con ngườ i ................... 37 2.3.3.1 Phươ ng pháp đo Weighted Spectral Slope ......................................... 37 2.3.3.2 Phươ ng pháp đo Bark Distortion ....................................................... 38 2.3.3.3 Phươ ng pháp đánh giá cảm nhận chất lượ ng thoại PESQ ................. 39 2.4 K ết luận chươ ng .................................................................................. 39

CHƯƠ NG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER

FILTERING ......................................................................................................... 41 3.1 Giớ i thiệu chươ ng ................................................................................ 41 3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering ........ 41 3.3 Thuật toán Spectral Subtraction .......................................................... 41 3.3.1 Giớ i thiệu chung ................................................................................. 41 3.3.2 Spectral subtraction đối vớ i phổ biên độ ........................................... 42 3.3.3 Spectral subtraction đối vớ i phổ công suất ........................................ 43 3.4 Thuật toán Wiener Filtering ................................................................ 45 3.4.1 Giớ i thiệu chung ................................................................................. 45 3.4.2 Nguyên lý cơ bản của Wiener Filtering ............................................. 46 3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói ................ 48 3.5.1 Phân tích tín hiệu theo từng frame ..................................................... 48 3.5.2 Overlap và Adding ............................................................................. 49





3.6 Ướ c lượ ng và cậ p nhật nhiễu ............................................................... 50 3.6.1 Voice activity detection ..................................................................... 51 3.6.2 Quá trình ướ c lượ ng và cậ p nhật nhiễu .............................................. 51 3.7 K ết luận chươ ng .................................................................................. 52

CHƯƠ NG 4: THỰ C HIỆ N VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN .................. 53 4.1 Giớ i thiệu chươ ng ................................................................................ 53 4.2 Quy trình thực hiện và đánh giá thuật toán ......................................... 53 4.3 Lưu đồ thuật toán Spectral Subtraction ............................................... 55 4.4 Lưu đồ thuật toán Wiener Filtering ..................................................... 56 4.5 Thực hiện thuật toán ............................................................................ 57 4.6 Đánh giá chất lượ ng tiếng nói đã đượ c xử lý ...................................... 59 4.6.1 Cơ sở dữ liệu cho việc đánh giá ......................................................... 59 4.6.2 Tổng quan về quy trình đánh giá ....................................................... 59 4.6.3 Kiểm tra độ tin cậy của các phươ ng pháp đánh giá ........................... 60 4.6.4 Thực hiện đánh giá ............................................................................. 62 4.6.4.1 Đánh giá thuật toán vớ i các hệ số dự đoán ban đầu ........................... 62 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF ............................................... 65 4.6.4.3 Hệ số gamma cho thuật toán SS......................................................... 67 4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu ................................................. 68 4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi tr ườ ng nhiễu khác..... 69 4.6.5 K ết luận chươ ng ................................................................................. 71 TÀI LIỆU THAM KHẢO ............................................................................... 72

K ẾT LUẬ N ĐỒ ÁN VÀ HƯỚ NG PHÁT TRIỂ N ĐỀ TÀI ............................... 75

PHỤ LỤC ............................................................................................................. 76





DANH MỤC CÁC HÌNH VẼ VÀ BẢNG

Hình 1.1 Tín hiệu tiếng nói [2]. ........................................................................... 15 Hình 1.2 Dạng và sự phân bố phổ năng lượ ng trung bình nhiễu trên xe [4]. ...... 18 Hình 1.3 Dạng và sự phân bố phổ năng lượ ng trung bình của nhiễu trên tàu [4].

.............................................................................................................................. 18 Hình 1.4 Dạng và sự phân bố phổ năng lượ ng trung bình của nhiễu trong nhà

hàng[4]. ................................................................................................................ 19 Hình 1.5 Mức nhiễu và tiếng nói (đượ c đo bằng SPL dB) trong các môi tr ườ ng

khác nhau [4]. ....................................................................................................... 20 Hình 1.6 Mẫu tiếng nói “eee” đượ c lấy mẫu vớ i tần số lấy mẫu 8kHz [11]. ...... 25 Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và

dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er”

trong từ “her” [11]. ............................................................................................... 27 Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]. .......................................... 28 Hình 1.9 mô hình k ỹ thuật tạo tiếng nói[11]. ...................................................... 28 Hình 1.10 bảng phân loại âm vị trong tiếng Anh của ngườ i Mỹ [11] ................. 29 Bảng 2.1.Thang điểm đánh giá chất lượ ng tiếng nói theo MOS [12] .................. 31 Bảng 2.4. Thang điểm đánh giá chất lượ ng tín hiệu tiếng nói theo CCR ............ 32 Bảng 2.5. Thang đánh giá DCR ........................................................................... 32 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF .............................................. 41 Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. ........................... 45 Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. ........................................ 48 Hình 3.4 Phân tích tín hiệu thành các frame [31]. ............................................... 49 Hình 3.5 quá trình thực hiện overlap và adding [32]. ......................................... 50 Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cườ ng ............................ 53 Hình 4.2 Lưu đồ thuật toán SS ............................................................................ 55 Hình 4.3 Lưu đồ thuật toán WF ........................................................................... 56 Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch ........................................ 57 Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơ i vớ i SNR = 10dB ........ 57





Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơ i bằng

SS vớ i SNR = 10dB. ............................................................................................ 58 Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơ i bằng

WF vớ i SNR = 10dB. ........................................................................................... 58 Hình 4.8 Quy trình thực hiện đánh giá ................................................................ 60 Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối vớ i nhiễu xe hơ i ...... 61 Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối vớ i nhiễu ngườ i nói

xung quanh ........................................................................................................... 61 Hình 4.11 Đồ thị đánh giá Objective vớ i hệ số IS=0.2, NoiseMargin=3 ............ 63 Hình 4.12 Đồ thị đánh giá Objective vớ i hệ số IS=0.15, NoiseMargin=2. ......... 64 Hình 4.14 Đồ thị đánh giá objective vớ i hệ số alpha=0.5, 0.8,0.9 vớ i IS=0.15 và

NoiseMargin = 2 .................................................................................................. 66 Hình 4.15 Đồ thị đánh giá objective vớ i hệ số gamma = 1 và gamma = 2. ........ 67 Hình 4.16 Đồ thị đánh giá vớ i IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật

toán WF, gama=1 cho thuật toán SS. ................................................................... 69 Hình 4.17 Đồ thị đánh giá OE vớ i nhiễu ngườ i nói xung quanh. ....................... 70





DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG

ANH

Từ viết

tắtTiếng Anh Ngh ĩ a tiếng Việt

SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu

PC Personal Computer Máy tính cá nhân

SPL Sound Pressure Level Mức áp suất của âm thanh

MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung

bình bình phươ ng

SVD Singular Value Decomposition Phép phân tích giá tr ị đơ n

DFT Discrete Fourier Transform Phép biến đổi Fourier r ờ i r ạc

FFT Fast Fourier Transform Phép biến đổi Fourier nhanh

DTFT Discrete-Time Fourier TransformPhép biến đổi Fourier của tín

hiệu r ờ i r ạc.

ZT Z Transform Phép biến đổi Z

ROC Region of Convergence Miền hội tụ

IDTFT Inverse Discrete Fourier

Transform

Phép biến đổi ngượ c Fourier

r ờ i r ạc

LTI Linear Time-Invariant Hệ thống tuyến tính và bất

biến theo thờ i gian

ITU-T InternationalTelecommunicationsUnion-Telecommunication

Hiệ p hội tiêu chuẩn viễnthông quốc tế

ACR Absolute Categories Rating Đánh giá theo giá tr ị tuyệt đối

MOS Mean Opinion ScoresĐánh giá theo quan điểm

ngườ i nghe

CCR Comparison Category Rating Đánh giá bằng cách so sánh

DCR Degradation Category Rating Đánh giá suy giảm chất lượ ng





SE Subjective Evaluation Đánh giá chủ quan

OE Objective Evaluation Đánh giá khách quan

IS Itakura_Saito

LLR Log likehook Raito

WSS Weighted Spectral Slope Đo theo tr ọng số của phổ

LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính

VAD Voice Activity DetectionThăm dò sự hoạt động của

tiếng nói

Speech Enhancement Nâng cao chất lượ ng tiếng nói

SS Spectral Subtraction

Thuật toán giảm nhiễu tín

hiệu tiếng nói bằng phươ ng

pháp tr ừ phổ.

WF Wiener Filter


hiệu tiếng nói bằng cách sử

dụng bộ lọc Wiener.

Statistical-model-based


hiệu tiếng nói dựa trên

nguyên lý thống kê

FrameKhung tín hiệu.

Hamming Cửa sổ Hamming

Overlap và Adding Xế p chồng và cộng





MỞ ĐẦU

Trong cuộc sống, tiếng nói đóng một vai trò r ất quan tr ọng đối vớ i con

ngườ i. Cùng vớ i tiếng nói là sự xuất hiện của r ất nhiều các loại dịch vụ thoại như

ngày nay. Tuy nhiên việc bảo toàn đượ c tín hiệu tiếng nói trên các dịch vụ này là

điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưở ng

của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà

các thuật toán về Speech Enhancement ra đờ i. Tuy không thể bảo toàn đượ c y

nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cườ ng

đượ c chất lượ ng tiếng nói và giảm bớ t nhiễu nền để tín hiệu sau khi xử lý đến

ngườ i nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bở i nhiễu

đối vớ i ngườ i nghe. Vì vậy, Speech Enhancement đóng một vai trò r ất quan tr ọng

trong l ĩ nh vực thoại.

Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech

Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu

quả của các thuật toán đó trong môi tr ườ ng thực tế.

Để thực hiện đượ c đồ án, nhóm đã phân chia thành 3 phần tươ ng ứng vớ i 3thành viên :

- Nguyễ n Ng ọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói

sử dụng phươ ng pháp Spectral Subtraction.

- Nguyễ n Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử

dụng bộ lọc Wiener.

- Nguyễ n Thị Ng ọc Diệ p : nghiên cứu và thực hiện các phươ ng pháp đánh

giá từ các k ết quả đạt đượ c của 2 thuật toán trên trong môi tr ườ ng thực tế.

Để thực hiện đượ c nội dung phần của em thì đồ án của em đượ c k ết cấu

thành 2 phần, gồm 5 chươ ng :

Phần 1 : Lý thuyết

Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói. Chươ ng này giớ i

thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các





loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giớ i

thiệu khái quát về một số thuật toán trong Speech Enhancement .

Chươ ng 2 : Đánh giá chất lượ ng tiếng nói. Chươ ng này giớ i thiệu một số

phươ ng pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm

có đánh giá chủ quan và đánh giá khách quan.

Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chươ ng

này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.

Phần 2 : Thực hiện và đánh giá

Chươ ng 4 : Thực hiện và đánh giá thuật toán. Chươ ng này trình bày các k ết

quả nhóm đã làm đượ c gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai

thuật toán đã nghiên cứu ở chươ ng 3. Đồng thờ i so sánh k ết quả thu đượ c bằng

cách dùng các phươ ng pháp đánh giá đã đượ c giớ i thiệu ở chươ ng 2

Phươ ng pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực

hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các k ết quả đạt đượ c sau khi

xử lý, sau đó sử dụng các phươ ng pháp đánh giá khách quan để đánh giá tính

hiệu quả của các thuật toán xử lý trong môi tr ườ ng thực tế.Đồ án của nhóm đã thực hiện đượ c 2 thuật toán xử lý tiếng nói trong

Speech Enhancement và đưa ra đượ c các k ết quả đánh giá khách quan làm cơ sở

để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mớ i trong đồ án

của nhóm so vớ i các đồ án đã có tr ướ c trong cùng chủ đề nghiên cứu.



Chươ ng 1 : Tổng quan về nâng cao chất lượ ng tiếng nói


CHƯƠ NG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢ NG TIẾNG NÓI

1.1 Giớ i thiệu chươ ng

Nội dung của chươ ng trình bày mục đích của nâng cao chất lượ ng tiếng nói

là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc

điểm cuả tín hiệu tiếng nói. Chươ ng này còn giớ i thiệu khái quát về các thuật

toán sử dụng trong speech enhancement.

1.2 Nâng cao chất lượ ng tiếng nói là gì ?

Nâng cao chất lượ ng tiếng nói liên quan đến việc cải thiện cảm nhận đối vớ i

tiếng nói bị suy giảm chất lượ ng do sự có mặt của nhiễu trong tiếng nói. Trong

hầu hết các ứng dụng, thì mục đích của nâng cao chất lượ ng tiếng nói là sự cải

thiện chất lượ ng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải

thiện về chất lượ ng mà tốt thì nó làm giảm đi sự khó khăn cho ngườ i nghe khi

nghe và trong nhiều tr ườ ng hợ p nó còn giúp cho ngườ i nghe có thể nghe trong

môi tr ườ ng có nhiễu vớ i mức độ cao và nhiễu đó tồn tại trong thờ i gian dài. Các

thuật toán âng cao chất lượ ng tiếng nói làm giảm và nén nhiễu nền đến một mứcđộ nào đó và nó đượ c xem như là các thuật toán nén nhiễu.

Trong nhiều tr ườ ng hợ p, sự cần thiết của việc tăng cườ ng trong tín hiệu

tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh

hưở ng bở i nhiễu trong các kênh truyền thông. Có r ất nhiều k ịch bản yêu cầu đặt

ra đối vớ i Speech enhancement trong nhiều tr ườ ng hợ p khác nhau, ví dụ đối vớ i

thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưở ng nhiễu

nền từ ô tô, nhà hàng,.. khi truyền đến đích. Chính vì vậy mà các thuật toán trong

nâng cao chất lượ ng tiếng nói có thể đượ c sử dụng để cải thiện chất lượ ng của

tiếng nói tại điểm thu, mặt khác, nó có thể đượ c sử dụng trong các khối tiền xử lý

của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1]. Khi

nhận dạng tiếng nói, tiếng nói bị nhiễu đượ c tiền xử lý bở i các thuật toán nâng

cao chất lượ ng tr ướ c khi đượ c nhận dạng. Trong thông tin liên lạc hàng không,

các k ỹ thuật nâng cao tiếng nói cần đượ c sử dụng để cải thiện chất lượ ng và tính





dễ nghe của tiếng nói của phi công bị ảnh hưở ng bở i nhiễu trong buồng lái. Vì

vậy mà nâng cao chất lượ ng tiếng nói cũng r ất cần thiết trong thông tin liên lạc

của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một

vùng nào đó thì nó sẽ đượ c truyền đến tất cả các vùng khác. Các thuật toán nâng

cao chất lượ ng tiếng nói đượ c sử dụng như tiền xử lý hoặc làm sạch nhiễu trong

tiếng tr ướ c khi đượ c khuếch đại.

Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cườ ng

tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phươ ng diện lý

tưở ng, thì chúng ta mong muốn Speech enhancement cải thiện đượ c cả chất

lượ ng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên phươ ng

diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện đượ c chất

lượ ng của tiếng nói. Nó có thể làm giảm đượ c nhiễu nền trong tiếng nói nhưng

nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm

đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết k ế một thuật

toán Speech enhancement phải đảm bảo nén đượ c nhiễu và không đượ c gây ra

méo trong sự cảm nhận tín hiệu tiếng nói.Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc

r ất lớ n vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu

và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone

và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc đượ c xem như

tín hiệu tiếng nói, nó tuỳ thuộc vào môi tr ườ ng ta đang xét, nó có thể đượ c xem

như là sự tranh chấ p giữa các speaker. Đặc tính âm nhiễu có thể đượ c cộng thêm

vào tín hiệu sạch nếu âm thanh đượ c hình thành trong căn phòng bị dội âm thanh.

Hơ n nữa, nhiễu có thể có tính tươ ng quan hoặc không tươ ng quan về mặt thống

kê vớ i tín hiệu sạch. Số lượ ng microphone cũng có khả năng ảnh hưở ng đến tính

hiệu quả của các thuật toán Speech enhancement.





1.3 Lý thuyết về tín hiệu và nhiễu

1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu

1.3.1.1 Tín hiệu

Tín hiệu(signal) dùng để chỉ một đại lượ ng vật lý mang tin tức. Về mặt toán

học, ta có thể mô tả tín hiệu như một hàm theo biến thờ i gian, không gian hay các

biến độc lậ p khác. Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo

biến thờ i gian t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu

là hàm theo hai biến độc lậ p x và y, trong đó x và y biểu diễn cho hai tọa độ trong

mặt phẳng [2].

Hai tín hiệu trong ví dụ trên về lớ p tín hiệu đượ c biểu diễn chính xác bằng

hàm theo biến độc lậ p. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại

lượ ng vật lý và các biến độc lậ p thườ ng r ất phức tạ p nên không thể biểu diễn tín

hiệu như trong hai ví dụ vừa nêu trên.

Hình 1.1 Tín hiệu tiế ng nói [2].

Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo

thờ i gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó đượ c biểu diễn

như hình trên.

1.3.1.2 Nguồn tín hiệu

Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào

đó. Ví dụ tín hiệu tiếng nói đượ c tạo ra băngg cách ép không khí đi qua dây thanh





âm. Một bức ảnh có đượ c bằng cách phơ i sáng một tấm phim chụ p một cảnh/đối

tượ ng nào đó. Quá trình tạo tín hiệu như vậy thườ ng liên quan đến một hệ thống,

hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ

thống là hệ thống phát âm, gồm môi, r ăng, lưỡ i, dây thanh…Kích thích liên quan

đến hệ thống đượ c gọi là nguồn tín hiệu. Như vậy ta có nguồn tiếng nói, nguồn

ảnh và các nguồn tín hiệu khác.

1.3.1.3 Hệ thống và xử lý tín hiệu

H ệ thố ng là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.

Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin đượ c gọi là một hệ

thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói r ằng

đã xử lý tín hiệu đó. Trong tr ườ ng này, xử lý tín hiệu liên quan đến lọc nhiễu ra

khỏi tín hiệu mong muốn.

X ử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán

đượ c thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức

chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơ i này đến nơ i khác.

Ở đây ta cần lưu ý đến định ngh ĩ a hệ thống, nó không chỉ đơ n thuần là thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự k ết hợ p giữa phần cứng và

phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là

phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt

các phép toán thực hiện bở i chươ ng trình phần mềm. Khi xử lý bằng các bộ vi xử

lý-hệ thống bao gồm k ết hợ p cả phần cứng và phần mềm, mỗi phần thực hiện các

công việc riêng nào đó.

1.3.1.4 Phân loại tín hiệu

Các phươ ng pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào

đặc điểm của tín hiệu. Có những phươ ng pháp riêng áp dụng cho một loại tín

hiệu nào đó. Do vậy, tr ướ c tiên ta cần xem qua cách phân loại tín hiệu liên quan

đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại :

- Tín hiệu nhiều hướ ng và tín hiệu đa kênh

- Tín hiệu liên tục và tín hiệu r ờ i r ạc





- Tín hiệu biên độ liên tục và tín hiệu biên độ r ờ i r ạc

- Tín hiệu xác định và tín hiệu ngẫu nhiên

1.4 Lý thuyết về nhiễu

1.4.1 Nguồn nhiễu

Nhiễu một hiện thực, nó tồn tại ở mọi nơ i, trên đườ ng phố, trên xe, trong

văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên

đườ ng, tiếng ồn trên các công tr ườ ng xây dựng, tiếng ồn phát ra từ các quạt chạy

trong PC, chuông điện thoại…, nó tồn tại vớ i các hình dạng và hình thức khác

nhau trong cuộc sống hằng ngày của chúng ta.

Nhiễu có thể hình thành ở một nơ i cố định, và không thay đổi theo thờ i

gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể

không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của

nhiều ngườ i xen lẫn vớ i nhiều cách khác nhau vớ i tiếng ồn phát ra từ nhà bế p.

Các đặc tính về phổ cũng như thờ i gian của nhiễu trong nhà hàng thay đổi không

theo quy luật nên việc nén nhiễu trong các môi tr ườ ng có nhiễu thay đổi như vậy

sẽ khó khăn hơ n nhiều so vớ i các nguồn nhiễu đứng yên không thay đổi.Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ

và sự phân bố của năng lượ ng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bở i

gió thì năng lượ ng của nó tậ p trung ở tần số thấ p dướ i 500Hz. Nhưng đối vớ i

nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượ ng của nó đượ c phân bố

trên một dải tần số r ộng [3].





Hình 1.2 Dạng và sự phân bố phổ nă ng l ượ ng trung bình nhiễ u trên xe [4].

Hình 1.3 Dạng và sự phân bố phổ nă ng l ượ ng trung bình của nhiễ u trên

tàu [4].





Hình 1.4 Dạng và sự phân bố phổ nă ng l ượ ng trung bình của nhiễ u trong

nhà hàng[4].

1.4.2 Nhiễu và mứ c tín hiệu tiếng nói trong các môi trườ ng khác nhau

Điểm tớ i hạn trong việc thiết k ế các thuật toán của Speech enhancement là

sự nhận biết dải biến thiên của tiếng nói và mức độ cườ ng độ nhiễu trong môi

tr ườ ng thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín

hiệu trên nhiễu(SNR) đượ c bắt gặ p trong môi tr ườ ng thực tế. Điều này r ất quan

tr ọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong

việc nén nhiễu và cải thiện chất lượ ng của tiếng nói trong dải biến thiên của mức

SNR.Mức độ của tiếng nói và nhiễu đượ c đo lườ ng bằng mức độ âm thanh. Phép

đo lườ ng ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound

pressure level)[4]. Khoảng cách giữa ngườ i nói và ngườ i nghe cũng ảnh hưở ng

đến mức cườ ng độ âm thanh, nó tươ ng ứng vớ i phép đo đượ c thực hiện khi

microphone đượ c đặt tại những vị trí có khoảng cách khác nhau. Khoảng cách

đặc tr ưng trong giao tiế p face-to-face là 1m, khi khoảng cách đó tăng gấ p đôi thì

mức cườ ng độ âm giảm đi 6 dB[6].





Hình bên dướ i này là sự tổng hợ p về mức độ âm trung bình giữa tiếng nói

và nhiễu trong các môi tr ườ ng khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các

môi tr ườ ng như phòng học, trong nhà ở , trong bệnh viện và trong các toà nhà.

Trong các môi tr ườ ng khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi

biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB

SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi tr ườ ng

này là 5 đến 15 dB. Mức độ âm của nhiễu r ất cao trong các môi tr ườ ng ở tàu điện

ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của

tiếng nói trong các môi tr ườ ng này cũng đạt mức đó, nên mức tỷ số SNR trong

các môi tr ườ ng này gần như là 0 dB.

Hình 1.5 M ứ c nhiễ u và tiế ng nói ( đượ c đ o bằ ng SPL dB) trong các môi

tr ườ ng khác nhau [4].

1.5 Tín hiệu rờ i rạc theo thờ i gian

Tín hiệu r ờ i r ạc theo thờ i gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu

liên tục theo thờ i gian xa(t) vớ i chu k ỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T).

Ta có

xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1)

Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá

tr ị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng

0. Trong nhiều sách về xử lý tín hiệu số, ngườ i ta quy ướ c: khi biến nguyên thì





biến đượ c đặt trong dấu ngoặc vuông và khi biến liên tục thì đượ c đặt trong dấu

ngoặc tròn. Từ đây tr ở đi, ta ký hiệu tín hiệu r ờ i r ạc là: x[n].[7]

Một số tín hiệu r ờ i r ạc cơ bản

1.5.1 Tín hiệu bướ c nhảy đơ n vị

u[n] =⎩⎨⎧

<

≥

0,2

0,1

n

n(1.2)

Tín hiệu bướ c nhảy dịch chuyển có dạng sau:

u[n - no] =⎩⎨⎧

<

≥

non

non

,0

,1(1.3)

1.5.2 Tín hiệu xung đơ n vị

⎩⎨⎧

≠

==

0,0

0,1][

n

nnδ (1.4)

Tín hiệu xung dịch chuyển có dạng sau

⎩⎨⎧

≠

==−

non

nonnon

,0

,1][δ (1.5)

Chúng ta có thể biểu diễn tín hiệu r ờ i r ạc theo thờ i gian x[n] thông qua tínhiệu xung đơ n vị như sau

x[n] = ∑∞

−∞=

−

k

k nk x ][][ δ (1.6)

1.5.3 Tín hiệu hàm mũ

x[n] = C.an (C,a : là những hằng số) (1.7)

Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]

Tín hiệu hàm mũ phía trái : x[n] = C.an

.u[-n]1.5.4 Tín hiệu hàm sin rờ i rạc

∞<<∞−+= n fn An x )2cos(][ θ π (1.8)

A : là biên độ của tín hiệu sin

θ : pha ban đầu của tín hiệu sin

f : tần số số, f = s F

F , F : là tần số của tín hiệu, Fs : tần số lấy mẫu

-0.5 < f < 0.5





1.6 Phép biến đổi Fourier của tín hiệu rờ i rạc DTFT

Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó

đượ c dùng trong tr ườ ng hợ p dãy r ờ i r ạc dài vô hạn và không tuần hoàn.

DTFT : ∑∞

−∞=

Ω−=Ω

n

n jen x X ][)( (1.9)

Ta nhận xét thấy r ằng tuy tín hiệu r ờ i r ạc trong miền thờ i gian nhưng DTFT

lại liên tục và tuần hoàn trong miền tần số.

DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phứ c

(complex spectrum) hay ngắn gọn là phổ của tín hiệu r ờ i r ạc x[n].

1.6.1 Sự hội tụ của phép biến đổi Fourier

Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi

∞<∑∞

−∞=

Ω−

n

n jen x ][ (1.10)

Ta luôn luôn có :

∑∑∑∑

∑∑

∞

−∞=

∞

−∞=

Ω−

∞

−∞=

Ω−

∞

−∞=

Ω−

∞

−∞=

Ω−

∞

−∞=

Ω−

≤

≤

≤

nn

n j

n

n j

n

n j

n

n j

n

n j

n xen x

en xen x

en xen x

|][|][

|||][|][

][][

(1.11)

Như vậy, nếu x[n] thoả điều kiện ∑∞

−∞=n

n x |][| <∞ thì biến đổi Fourier hội tụ [7].

1.6.2 Quan hệ giữ a biến đổi Z và biến đổi Fourier

Biểu thức tính ZT là: ∑∞

−∞=

−=

n

n z n x z X ][)( (1.12)

Giả sử ROC có chứa đườ ng tròn đơ n vị. Tính X(Z) trên đườ ng tròn đơ n vị,

ta đượ c

)(][)( Ω==∑∞

−∞=

Ω−

=Ω X en x z X

n

n j

e z j (1.13)

Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đườ ng tròn đơ n vị.

Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :





Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín

hiệu đó có chứa đườ ng tròn đơ n vị.

1.6.3 Phép biến đổi Fourier ngượ c

- Biểu thức tính biến đổi Fourier ngượ c

Ta thấy X(Ω ) là một hàm tuần hoàn vớ i chu k ỳ π 2 , do Ω je tuần hoàn vớ i

chu k ỳ π 2 ΩΩ+ΩΩ

=== j j j j j eeeee π π 2)2( (1.14)

Do đó dải tần số của tín hiệu r ờ i r ạc là một dải tần bất k ỳ r ộng 2π , thườ ng

chọn là: ),( π π − hay (0,2π ).

Vậy ta có thể khai triển X(Ω ) thành chuỗi Fourier trong khoảng

( ),π π − hay )2,0( π nếu điều kiện tồn tại của X(Ω ) thoả mãn. Các hệ số Fourier là

x[n], ta có thể tính đượ c x[n] từ X(Ω ) theo cách sau:

Nhân 2 vế của biểu thức DTFT vớ i l je Ω

π 21

r ồi lấy tích phân trong khoảng

( ),π π − tacó

][21][][

21)(

21 )( l xd en xd een xd e X

nl j

n

l j

n

n jl j=⎥

⎦

⎤⎢⎣

⎡Ω=Ω⎥

⎦

⎤⎢⎣

⎡=ΩΩ ∫∑∫ ∑∫

−

−Ω∞

−∞=−

Ω∞

−∞=

Ω−

−

Ωπ

π

π

π

π

π π π π

(1.15)

Thay l = n và thay cận tích phân, không nhất thiết phải là ( ),π π − mà chỉ cần

khoảng giữa cân trên và dướ i là 2π , ta đượ c biểu thức tính biến đổi Fourier

ngượ c (IDTFT) như sau

∫ ΩΩ= Ω

π π 2

)(21][ d e X n x n j (1.16)

Ta có thể tính IDFT bằng hai cách : một là tính tr ực tiế p tích phân trên, hai

là chuyển về biến đổi Z r ồi tính như biến đổi Z ngượ c. Tuỳ vào từng tr ườ ng hợ p

cụ thể mà ta chọn phươ ng pháp nào cho thuận tiện.

1.6.4 Các tính chất của phép biến đổi Fourier

Tính tuyế n tính )()(][][ 2121 Ω+Ω↔+ bX aX nbxnax

(1.17)





Tính d ịch thờ i gian

(1.18)

Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thờ i gian sẽ không ảnh

hưở ng biên độ của DTFT, tuy nhiên pha đượ c thêm một lượ ng.

Tính d ịch t ần số / đ iề u chế

)(2

1)(2

1][)cos(

)(][

)(][

000

00

Ω+Ω+Ω−Ω↔Ω

Ω−Ω↔

Ω↔

Ω

X xn xn

X n xe

X n x

n j (1.18)

Như vây, việc điều chế gây ra dịch tần số[12].

Tính chậ p thờ i gian

Tươ ng tự như biến đổi Z, vớ i biến đổi Fourier ta cũng có:

)()(][*][ 2121 ΩΩ ⎯→← X X n xn x F (1.19)

Tính nhân thờ i gian ∫ −Ω↔

π

λ λ λ π

2

2121 )()(2

1][].[ d X X n xn x (1.20)

1.6.5 Phân tích tần số (phổ) cho tín hiệu rờ i rạc

Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ

như, tín hiệu sin chỉ có duy nhất một tần số đơ n, trong khi nhiễu tr ắng chứa tất cả

các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấ p, trong khi

sự biến thiến nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng

hạn, nó chứa tất cả tần số và cả tần số cao.

Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín

hiệu. Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của

các sóng sin riêng có thể k ết hợ p lại hợ p vớ i nhau tạo ra xung vuông. Thông tin

này quan tr ọng vì nhiều lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ

cho ta biết các đặc tr ưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay

hơ n. Để dự đoán các ảnh hưở ng của bộ lọc trên tín hiệu, cần phải biết không chỉ

bản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa.





1.6.6 Phổ tín hiệu và phổ pha

Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ

pha (phase spectrum). Phổ biên độ chỉ ra độ lớ n của từng thành phần tần số. Phổ

pha chỉ quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ

tín hiệu r ờ i r ạc không tuần hoàn là DTFT.

Để tính phổ tín hiệu , ta qua hai bướ c : một là tính DTFT của tín hiệu – là

X(Ω ), hai là tính biên độ và pha của X(Ω )

)()()( ΩΩ=Ω

θ je X X (1.21)

ở đây |X(Ω )| là phổ biên độ và θ (Ω ) là phổ pha.Ta dễ dàng chứng minh đượ c r ằng đối vớ i tín hiệu thực, phổ biên độ là một

hàm chẵn theo tần số Ω và phổ pha là một hàm lẻ theo Ω .

Do đó, nếu biết phổ X(Ω ) trong khoảng 0 đếnπ , ta có thể suy ra phổ trong

toàn dải tần số. Để dễ giải thích phổ, tần số số Ω từ 0 đến π thườ ng đượ c chuyển

đổi thành tần số tươ ng tự từ 0 đến f s/2 nếu tần số lấy mẫu là f s.

Hình 1.6 M ẫ u tiế ng nói “eee” đượ c l ấ y mẫ u vớ i t ần số l ấ y mẫ u 8kHz [11].





1.7 Các thuật toán sử dụng nâng cao chất lượ ng tiếng nói

1.7.1 Trừ phổ

Spectral-subtraction (SS) hay còn gọi là tr ừ phổ là một thuật toán giảm

nhiễu đơ n giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cậ p nhật

nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của

tín hiệu. Và nhiễu đó sẽ đượ c tr ừ vớ i tín hiệu có nhiễu, k ết quả là tín hiệu của

chúng ta sau khi xử lý bằng thuật toán này sẽ đượ c loại đi nhiễu và xét trên

phươ ng diện lý tưở ng thì nó là tín hiệu sạch. SS lúc ban đầu đượ c đề xuất bở i

Weiss[8] trong miền tươ ng quan, và sau đó đượ c đề xuất bở i Boll [9] trong miền

chuyển đổi Fourier.

1.7.2 Mô hình thống kê

Vấn đề của nâng cao chất lượ ng tiếng nói là phải đề ra đượ c khung mô tả

mang tính thống kê. Nó là một tậ p các phép đo tươ ng ứng vớ i hệ chuyển đổi

Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra đượ c một phươ ng

thức ướ c lượ ng tuyến tính hoặc phi tuyến các tham số có lợ i, đó là hệ chuyển đổi

của tín hiệu sạch. Hai thuật toán đượ c sử dụng đó là thuật toán Wiener vàminium mean-squared error(MMSE)[10].

1.8 Tín hiệu tiếng nói

Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượ ng thay đổi theo

thờ i gian. Tuy nhiên khi khảo sát trong một khoảng thờ i gian đủ ngắn (khoảng 10

đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi.





Hình 1.7 Dạng sóng tín hiệu tiế ng nói của câu “The wife helped her

husband” và d ạng sóng của phụ âm “f” trong t ừ “wife, d ạng sóng của đ oạn

nguyên âm “er” trong t ừ “her” [11].

Dạng sóng của tín hiệu có thể đượ c chia thành một số phân đoạn tươ ng ứng

vớ i các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như

tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu

Những kiểu của đoạn tiếng nói_chu k ỳ, nhiễu, khoảng lặng… thườ ng đượ ctìm thấy trong tiếng nói trôi chảy vớ i sự thay đổi về cườ ng độ, khoảng thờ i gian

và đặc tính phổ.





1.9 Cơ chế tạo tiếng nói

1.9.1.1 Bộ máy phát âm của con ngườ i

Hình 1.8 mặ t cắ t d ọc của cơ quan t ạo tiế ng nói [11].

1.9.2 Mô hình k ỹ thuật của việc tạo tiếng nói

Hình 1.9 mô hình k ỹ thuật t ạo tiế ng nói[11].





1.9.3 Phân loại âm

Các âm trong tiếng Anh đượ c phân loại gồm: nguyên âm và nguyên âm đôi,

bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.

Hình 1.10 bảng phân loại âm vị trong tiế ng Anh của ng ườ i M ỹ [11]

1.9.4 Thuộc tính âm học của tiếng nói

Tín hiệu tiếng nói là tín hiệu tươ ng tự, biểu diễn cho thông tin về mặt ngôn

ngữ và đượ c thể hiện bằng các âm vị khác nhau. Số lượ ng các âm vị tuỳ thuộc

vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượ t quá 50. Đối vớ i từng

loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợ p các âm vị tạo nên âm tiết.

Âm tiết đóng vai trò một từ tr ọn vẹn mang ngữ ngh ĩ a.

1.10 K ết luận chươ ng

Chươ ng này đã trình bày đượ c mục đích chính của speech enhancement là

triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội

dung của chươ ng cũng đã nêu rõ đượ c các loại nhiễu xuất hiện trong từng môi

tr ườ ng cụ thể để từ đó chúng ta có tìm ra đượ c thuật toán xử lý thích hợ p ứng vớ i

mỗi tr ườ ng hợ p cụ thể.



Chươ ng 2 : Đánh giá chất lượ ng tiếng nói


CHƯƠ NG 2 : ĐÁNH GIÁ CHẤT LƯỢ NG TIẾNG NÓI


Cho đến nay đã có r ất nhiều thuật toán nâng cao chất lượ ng tiếng nói, nhưng

làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấ p các phươ ng

pháp đánh giá khác nhau đượ c sử dụng để đánh giá hiệu quả của thuật toán nâng

cao tiếng nói

Đánh giá chất lượ ng có thể thực hiện bằng cách sử dụng phươ ng pháp đánh

giá theo cảm nhận của ngườ i nghe theo một thang đo đã đượ c xác định tr ướ c(Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu

(Objective Evaluation_ OE). Dù OE có giá tr ị thì nó vẫn phải tươ ng quan vớ i

cảm nhận của ngườ i nghe

Phần này sẽ cung cấ p một cái nhìn tổng quan về các phươ ng pháp đánh giá

chất lượ ng của tiếng nói đã đượ c xử lý

2.2 Phươ ng pháp đánh giá chủ quan

Đánh giá chất lượ ng chủ quan là đánh giá chất lượ ng dựa trên cảm nhận

nghe của con ngườ i đối vớ i tiếng nói

Chất lượ ng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất

thì chất lượ ng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin

cậy.Nó chỉ đóng vai trò phần nào trong k ỹ thuật đánh giá vì mỗi cá nhân ngườ i

nghe có những tiêu chuẩn riêng về chất lượ ng “tốt” hay “xấu”, chất lượ ng là k ết

quả của sự cảm nhận và phán đoán chủ quan của ngườ i nghe, dẫn đến sự chênhlệch lớ n trong k ết quả đánh giá. Chất lượ ng có r ất nhiều chỉ tiêu không thể đếm

hết đượ c. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tậ p

trung vào một số chỉ tiêu chất lượ ng tiếng nói.

Đánh giá chất lượ ng tiếng nói là một công việc đầy khó khăn do tính đa chỉ

tiêu và tính chủ quan cao. Có một số lượ ng lớ n các đặc tr ưng để đánh giá khi

thực hiện phươ ng pháp nghe chủ quan này. Để k ết quả đánh giá là đáng tin cậy

thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa





trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ

ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối

và Tươ ng đối. Sự đánh giá dựa trên các thang điểm chuẩn đã đượ c đề ra trong

chuẩn ITU-T Rec.P.800[11]

2.2.1 Các phươ ng pháp đánh giá tuyệt đối

2.2.1.1 Phươ ng pháp đánh giá tuyệt đối ACR

ACR đượ c sử dụng r ộng rãi. ITU-T[11] đã khuyến nghị dùng phươ ng

pháp này trong hầu hết các ứng dụng. Thang đo đượ c khuyến là

Mean Opinion Scores (MOS)

Đượ c mô tả trong khuyến nghị P.800 của ITU-T, MOS là một

phép đo chất lượ ng thoại nổi tiếng. Đây là một phươ ng pháp đo chất

lượ ng mang tính chất chủ quan. Có hai phươ ng pháp kiểm tra là đánh

giá đàm thoại và đánh giá độ nghe.

Bảng 2.1.Thang đ iể m đ ánh giá chấ t l ượ ng tiế ng nói theo MOS [12]

Score Quality of the Speech Level of Distortion

5 Excellent Imperceptible4 Good Just perceptible, but not annoying

3 Fair Perceptible and slight annoying

2 Poor Annoying but not Objectinable

1 Bad Very annoying and Objectionable

2.2.2 Các phươ ng pháp đánh giá tươ ng đối

Nhìn chung phươ ng pháp đánh giá này có độ nhạy cao hơ n đối vớ i sự suy

giảm chất lượ ng của tín hiệu đã qua xử lý

2.2.2.1 Đánh giá bằng phươ ng pháp so sánh các mẫu tín hiệu

Dạng đơ n giản nhất của phươ ng pháp này là thích nghe mẫu nào hơ n

Preference test hay còn gọi là so sánh đánh giá theo từng cặ p tín hiệu Paired

Comparison Test . Đối vớ i phươ ng pháp này thì ngườ i nghe sẽ đượ c nghe hai mẫu

thoại và sẽ đánh giá thích mẫu tín hiệu nào hơ n





Đánh giá bằng cách so sánh Comparison Category Rating (CCR) đượ c

khuyến nghị bở i ITU-T để đánh giá các hệ thống dùng nâng cao chất lượ ng tiếng

nói. [13]

Bảng 2.4. Thang đ iể m đ ánh giá chấ t l ượ ng tín hiệu tiế ng nói theo CCR

Theshold Test hay còn gọi là Isopreference Test là một biến thể của

Preference Test. Phươ ng pháp này là so sánh tín hiệu đã qua xử lý vớ i tín hiệu

gốc chuẩn mà độ suy giảm chất lượ ng của nó có thể đượ c kiểm soát. Đượ c đề ratrong chuẩn ITU-T Rec.P.810

2.2.2.2 Phươ ng pháp đánh giá theo sự suy giảm chất lượ ng

Đánh giá sự suy giảm chất lượ ng Degradation Category Rating (DCR) Sự

giảm sút về chất lượ ng của tín hiệu đã qua xử lý so vớ i tín hiệu chất lượ ng cao

chưa qua xử lý đượ c xác định qua năm thang điểm

Bảng 2.5. Thang đ ánh giá DCR

Rating Degradation

1 Very annoying

2 Annoying

3 Sightly annoying

4 Audible but not annoying

5 Inaudible

Rating Quality of Speech

3 Much better

2 Better

1 Slightly Better

0 About the Same

-1 Slightly Worse

-2 Worse

-3 Much Worse





2.3 Phươ ng pháp đánh giá khách quan

Đánh giá chất lượ ng khách quan là phươ ng pháp đánh giá chất lượ ng dựa

trên các phép đo thuộc tính của tín hiệu

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từ ng khung

Đo SNR trên từng khung trong miền thờ i gian là một trong những phươ ng

pháp đánh giá về mặt toán đơ n giản nhất. Để phươ ng pháp này có hiệu quả thì

điều quan tr ọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thờ i

gian và độ lệch pha hiện tại phải đượ c hiệu chỉnh chính xác. SNRseg đượ c xác

định như sau

[12] (2.1)

Trong đó : tín hiệu gốc (tín hiệu sạch)

: tín hiệu đã đượ c tăng cườ ng

N: chiều dài khung (thườ ng đượ c chọn từ 15-20ms)

M: số khung của tín hiệuMột vấn đề tiềm ẩn vớ i phươ ng pháp đánh giá SNRseg là năng lượ ng của

tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn

hội thoại) sẽ r ất bé, dẫn đến k ết quả là giá tr ị của ai số SNRseg lớ n làm sai lệch

toàn bộ đánh giá. Phươ ng án giải quyết duy nhất là loại tr ừ những khung lặng

trong biểu thức trên bằng cách đo mức năng lượ ng trong thờ i gian ngắn nén giá

tr ị SNRseg ngưỡ ng đến một giá tr ị bé. Nếu giá tr ị SNRseg đượ c giớ i hạn trong

khoảng [-10dB, 35dB] [14] sẽ tránh đượ c việc cần phải dùng bộ tách tín hiệu

thoại và khoảng lặng

Sự xác định tr ướ c của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã đượ c

xử lý. Ta có thể dùng tín hiệu đượ c xử lý qua bộ lọc dự đoán thườ ng đượ c sử

dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử

lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ





lọc[16]. Sự ướ c tính SNR này mang lại hệ số tươ ng quan cao đối vớ i các phươ ng

pháp đánh giá chủ quan

Một cách xác định SNRseg khác đượ c đề xuất bở i Richards [17] trong đó

hàm log có thay đổi so vớ i công thức 3.1

(2.2)

Như vậy có thể tránh đượ c các giá tr ị sai lệch lớ n trong suốt các khoảng

lặng của tín hiệu tiếng nói. Chú ý r ằng giá tr ị nhỏ nhất có thể đạt đượ c của

SNRsegR bây giờ là 0 thì đã tốt hơ n nhiều so vớ i những giá tr ị âm vô cùng. Ư u

điểm chính của việc xác định tr ướ c phân đoạn SNR là tránh đượ c việc cần thiết

phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng

Đo SNR cho từng khung có thể đượ c mở r ộng trong miền tần số theo

(2.3)

Trong đ ó B j : Tr ọng lượ ng tại dải tần số thứ j

K : Số dải tần

M : Tổng số khung tín hiệu

F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã đượ c khuếch đại tại

dải

lần thứ j và khung thứ m

: Dãy tín hiệu đã đượ c tăng cườ ng qua lọc khuếch

đại ở cùng một dải tần vớ i F(m,j) Ư u điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền

thờ i gian tăng thêm tính linh động của việc phân bố tr ọng số của phổ khác nhau

cho những dải tần khác nhau

Một cách khác, tr ọng số của mỗi dải có thể thu đượ c bằng cách dùng

phươ ng pháp phân tích hồi quy, còn gọi là phươ ng pháp đánh giá chủ quan biến

đổi tần số. Bằng cách này , tr ọng số có thể đượ c chọn để có hệ số tươ ng quan lớ n

nhất giữa đánh giá khách quan và đánh giá chủ quan. Vớ i phươ ng pháp này, tổng





của K (cho mỗi dải) của các phươ ng pháp đánh giá khách quan khác nhau và D j

đượ c ướ c tính cho mỗi dãy, tại D j đượ c cho như sau[12]

(2.4)

Tr ọng lượ ng tối ưu cho mỗi D j của mỗi dải đạt đượ c khi dùng phươ ng

pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần

số:

(2.5)

: Các hệ số hồi quy, D j : đượ c cho bở i (3.4), K là số dải .Phân tích hồi

quy không tuyến tính cũng có thể đượ c sử dụng như một cách để chuyển hóa

đánh giá khách quan biến đổi tần số

2.3.2 Đo khoảng cách phổ dự a trên LPC

LPC (Linear Prediction Coefficient)s :Hệ số dự đoán tuyến tính

Gồm các phươ ng pháp phổ biến là LLR ( Log Likelihood Ratio) , IS (Itakura

Saito) và đo theo khoảng cách cepstrum2.3.2.1 Phươ ng pháp đo LLR

(2.6)

:hệ số LPC của tín hiệu sạch

:hệ số của tín hiệu đã đượ c

tăng cườ ng chất lượ ng

R x là (p+1)*(p+1)ma tr ận tự tươ ng quan(Toeplitz) của tín hiệu sạch

Biểu thức trên đượ c viết lại trong miền tần số như sau[9]

[17] (2.7)

và lần lượ t là phổ của và . Biểu thức trên chỉ ra sự

khác nhau giữa phổ tín hiệu và phổ tăng cườ ng có ảnh hưở ng nhiều hơ n khi





lớ n, thườ ng gần vớ i đỉnh tần số formant. Do đó, cách đo này xác

định sự khác nhau vị trí của đỉnh tần số formant

2.3.2.2 Phươ ng pháp đo IS

Đo IS đượ c xác định như sau

[12] (2.8)

và lần lượ t là hệ số khuếch đại của tín hiệu sạch và tín hiệu

tăng cườ ng. Hệ số khuếch đại có thể đượ c tính như sau:

(2.9)

chứa hệ số tự tươ ng quan của

tín hiệu sạch (nó cũng là hàng đầu tiên của ma tr ận tự tươ ng quan )

2.3.2.3 Phươ ng pháp đo theo khoảng cách cepstrum

Không giống vớ i đo LLR, IS chú tr ọng sự khác nhau giữa hệ số khuếch đại

, sự khác nhau về mức phổ của tín hiệu sạch và tín hiệu tăng cườ ng. Bên cạnh đócũng có thể là hạn chế của đánh giá IS, sự khác nhau giữa các mức phổ có tác

động nhỏ đến chất lượ ng[18]

Hệ số LPC cũng có thể xuất phát từ khoảng cách đo đượ c dựa trên hệ số

cepstrum. Khoảng cách này quy định sự ướ c lượ ng khoảng cách log của phổ của

giữa hai phổ tín hiệu. Hệ số cepstrum có thể thu đượ c từ phép đệ quy hệ số LPC

{a j} sử dụng công thức sau

(2.10)

Vớ i p là bậc của phân tích LPC .Phép đo dựa trên hệ số cepstrum có thể

đượ c tính như sau [19]

(2.11)





Vớ i và lần lượ t là hệ số của tín hiệu sạch và tín hiệu đã đượ c

tăng cườ ng

2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con ngườ i

Những phươ ng pháp đánh giá đã đượ c đề cậ p trên đượ c ưa dùng vì tính đơ n

giản để thực hiện và dễ dàng đánh giá. Tuy nhiên, khả năng dự đoán chất lượ ng

chủ quan của chúng thì hạn chế khi mà các phươ ng pháp xử lý tín hiệu đó không

tính đến phạm vi nghe của con ngườ i.

2.3.3.1 Phươ ng pháp đo Weighted Spectral Slope

Phươ ng pháp đánh giá này đượ c tính bở i dốc phổ đầu tiên đượ c tìm thấycủa mỗi dải phổ. Xét C x(k) là phổ dải tớ i hạn của tín hiệu sạch và là của tín

hiệu tăng cườ ng, xét trong đơ n vị dB. Phươ ng trình sai phân bậc nhất đượ c dùng

để tính độc dốc phổ đượ c cho như sau:

(2.12)

Vớ i và lần lượ t biểu diễn cho độ dốc dải tần thứ k của tín hiệu

sạch và tín hiệu tăng cườ ng. Sự khác nhau giữa các độ dốc phổ phụ thuộc vào

tr ọng số một là dải tần gần vớ i đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớ n nhất của

phổ. Tr ọng số của dải thứ k , ký hiệu W(k) đượ c tính như sau

[12] (2.13)

độ r ộng loga lớ n nhất của phổ trong tất cả các băng, là giá tr ị

của đỉnh gần vớ i băng k nhất, và , là hằng số có đượ c bằng phép

phân tích hồi quy để cực đại hóa sự tươ ng quan giữa đánh giá chủ quan và giá tr ị

của đánh giá khách quan. Vớ i những thí nghiệm đã đượ c thực hiện thì ngườ i ta

tìm đượ c sự tươ ng quan lớ n nhất sẽ có đượ c vớ i =20 và =1[18]





Phép đo WSS tính cho mỗi khung của tín hiệu thoại:

(2.14)

Vớ i L là số lượ ng dải tớ i hạn

Giá tr ị WSS đượ c tính bằng cách lấy trung bình các giá tr ị WSS thu đượ c từ

các khung trong câu

WSS là phươ ng pháp đánh giá khá hấ p dẫn bở i vì nó không đòi hỏi phải có

formant rõ ràng. Nó chú ý tớ i vị trí đỉnh phổ và ít nhạy cảm vớ i các đỉnh xung

quanh cũng như các chi tiết của phổ ở các vùng thấ p. Đánh giá LPC cơ bản (ví dụ

như đánh giá LLR) nhạy vớ i các tần số formant khác, nhưng cũng nhạy vớ i sự thay đổi biên độ và sự thay đổi độ nghiêng phổ. Không có gì là bất ngờ khi đánh

giá WSS mang lại một sự tươ ng quan lớ n ( ρ=0.74) hơ n đánh giá LPC, vớ i sự

đánh giá chất lượ ng chủ quan của tiếng nói bị giảm chất lượ ng bở i sự mã hóa[20]

2.3.3.2 Phươ ng pháp đo Bark Distortion

Phươ ng pháp đánh giá WSS là bướ c đầu làm mẫu cho việc làm thế nào để

con ngườ i nhận biết đượ c tiếng nói, đặc biệt là nguyên âm. Các phươ ng pháp

đánh giá sau này càng dựa vào sự xử lý âm thanh của tai ngườ i, cách mà thính

giác con ngườ i xử lý âm thanh và nhiễu. Những phươ ng pháp đánh giá mớ i này

đã dựa trên những lậ p luận sau:

1. Sự phân tích tần số của tai ngườ i là không thay đổi, tức là sự phân

tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số

tuyến tính

2. Độ nhạy của tai ngườ i phụ thuộc vào tần số âm thanh

3. Âm thanh to tươ ng ứng vớ i độ mạnh của tín hiệu trong miền phi

tuyến tính

Thính giác con ngườ i phỏng theo một loạt biến đổi của tín hiệu âm thanh.

Cả tín hiệu gốc và tín hiệu đã qua xử lý phải tr ải qua hàng loạt các biến đổi này,

dẫn đến cái gọi là phổ âm lượ ng. Đánh giá BSD sử dụng khoảng cách giữa các

phổ này như là đánh giá chất lượ ng chủ quan





2.3.3.3 Phươ ng pháp đánh giá cảm nhận chất lượ ng thoại PESQ

Trong các phươ ng pháp đánh giá OE thì PESQ là phươ ng pháp đánh giá

phức tạ p nhất và đượ c khuyến nghị bở i ITU_T cho đánh giá chất lượ ng thoại

băng hẹ p (3,2KHz) và là một phươ ng pháp đánh giá khách quan có tính tươ ng

quan cao vớ i đánh giá theo cảm nhận của ngườ i nghe


Chươ ng này đã trình bày một số phươ ng pháp đánh giá chất lượ ng tiếng nói

sau khi xử lý giảm nhiễu bằng các thuật toán tăng cườ ng tiếng nói. Các đánh giá

SE đượ c giớ i thiệu gồm có các phươ ng pháp đánh giá tuyệt đối và đánh giá tươ ng

đối. Các phươ ng pháp đánh giá OE đượ c trình bày chính trong chươ ng này gồm :

Đo SNRseg, đánh giá LLR, IS và WSS, trong phần này cũng đã giớ i thiệu sơ bộ

về BSD và PESQ



Chươ ng 3 : Thuật toán Spectral Subtraction và Wiener Filtering


CHƯƠ NG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER

FILTERING


Nội dung của chươ ng này trình bày nguyên lý chung của thuật toán Spectral

– subtraction và Wiener filtering,nguyên lý cơ bản của từng thuật toán, các bướ c

thực hiện cần thiết để phân tích liên k ết tín hiệu, đề cậ p đến vấn đề ướ c luợ ng

nhiễu, vấn đề này ảnh hưở ng r ất lớ n đến quá trình xử lý

3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering

Trong đồ án này, chúng tôi đã dựa trên các cở sở lý thuyết của các thuật toán đã

có trong speech enhancement, và đã lựa chọn ra 2 thuật toán đó là : Spectral

subtraction và Wiener filter để sử dụng làm thuật toán xử lý triệt nhiễu.

Sơ đồ khối chung cho cả 2 thuật toán :

Hình 3.1 S ơ đồ khố i cho hai thuật toán SS và WF

Cả 2 thuật toán Spectral subtraction và Wiener filter chỉ khác nhau ở khối

hàm xử lý triệt nhiễu, tất cả các khối còn lại thì giống nhau.3.3 Thuật toán Spectral Subtraction

3.3.1 Giớ i thiệu chung

Spectral – subtraction là thuật toán đượ c đề xuất sớ m nhất trong các thuật

toán đượ c sử dụng để giảm nhiễu trong tín hiệu. Đã có r ất nhiều bài luận mô tả

các biến thể của thuật toán này so vớ i các thuật toán khác. Nó dựa trên một

nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt đượ c mục đích

ướ c lượ ng phổ của tiếng nói sạch bằng cách tr ừ đi phổ của nhiễu vớ i phổ của

Phân tích tínhiệu thành các

frame FFT

Ướ c lượ ngnhiễu

Hàm xử lý

giảm nhiễu

Tín hiệu bị

nhiễu

IDFT

Overlap và

addingTín hiệu

sạch





tiếng nói đã bị nhiễu. Phổ của nhiễu có thể đượ c ướ c lượ ng, cậ p nhật trong nhiều

chu k ỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ đượ c thực hiện đối vớ i

nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ

không thay đổi đáng k ể giữa các khoảng thờ i gian cậ p nhật. Việc tăng cườ ng tín

hiệu đạt đượ c bằng cách tính IDFT(biến đổi Fourier r ờ i r ạc ngượ c) của phổ tín

hiệu đã đượ c ướ c lượ ng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là

một phép tính ướ c lượ ng đơ n giản vì nó chỉ gồm biến đổi DFT thuận và DFT

ngượ c.

Quá trình xử lý hiệu đơ n giản như vậy phải tr ả một cái giá, nếu quá trình xử

lý không đượ c thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo.

Nếu như việc lấy hiệu quá lớ n thì có thể loại bỏ đi một phần thông tin của tiếng

nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn đượ c giữ lại

trong tín hiệu. Có r ất nhiều phươ ng pháp đượ c đề xuất để giảm đi hầu hết méo

trong quá trình xử lý tiếng nói bằng spectral subtraction[21], và trong số đó cũng

có một vài tr ườ ng hợ p bị loại bỏ.

3.3.2 Spectral subtraction đối vớ i phổ biên độ Giả thiết r ằng y[n] là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n]

và tín hiệu nhiễu d[n]:

y[n] = x[n] + d[n] (3.1)

Thực hiện biến đổi Fourier r ờ i r ạc cả 2 vế,ta đượ c

)()()( ω ω ω D X Y += (3.2)

Chúng ta có thể biểu diễn Y(ω ) dướ i dạng phức như sau:)(|)(|)( ω φ

ω ω y jeY Y = (3.3)

Khi đó |Y(ω )| là biên độ phổ, và )(ω φ y là pha của tín hiệu đã bị nhiễu.

Phổ của tín hiệu nhiễu D(ω ) có thể đượ c biểu diễn dạng biên độ và pha:)(|)(|)( ω φ ω ω d j

e D D = (3.4)

Biên độ phổ của nhiễu |D(ω )| không xác định đượ c, nhưng có thể thay thế

bằng giá tr ị trung bình của nó đượ c tính trong khi không có tiếng nói(tiếng nói bị

dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu





)(ω φ y , việc làm này không ảnh hưở ng đến tính dễ nghe của tiếng nói [22], có thể

ảnh hưở ng đến chất lượ ng của tiếng nói là làm thay đổi pha của tiếng nói nhưng

cũng chỉ vài độ.

Khi đó chúng ta có thể ướ c lượ ng đượ c phổ của tín hiệu sạch:

)(|])(||)([|)( ω φ ω ω ω y j

e DY X ∧∧

−= (3.5)

ở đây | )(ω ∧

D | là biên độ phổ ướ c lượ ng của nhiễu đượ c tính trong khi không

có tiếng nói hoạt động. Ký hiệu""∧

để chỉ r ằng giá tr ị đó là giá tr ị ướ c tính gần

đúng. Tín hiệu tiếng nói đượ c tăng cườ ng có thể đạt đượ c bằng cách r ất đơ n giản

là biến đổi IDFT của )(ω ∧

X .

Cần chú ý r ằng biên độ phổ của tín hiệu đã đượ c tăng cườ ng là

|))(||)(|(|)(| ω ω ω DY X −= , có thể bị âm do sự sai sót trong việc ướ c lượ ng phổ của

nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên chúng cần phải đảm bảo

r ằng khi thực tr ừ hai phổ thì phổ của tín hiệu tăng cườ ng |X(ω )| luôn luôn không

âm. Giải pháp đượ c đưa ra để khắc phục điều này là chỉnh lưu bán sóng hiệu của phổ, nếu thành phần phổ nào mà âm thì chúng ta sẽ gán nó bằng 0:

⎪⎩

⎪⎨⎧

≠

>−=

,0

|)(||)(|,|)(|)()(^^

ω ω ω ω ω DY DY

X (3.6)

Phươ ng pháp xử lý bằng chỉnh lưu bán sóng là một trong những cách để

đảm bảo cho |X(ω )| không bị âm.

3.3.3

Spectral subtraction đối vớ i phổ công suấtThuật toán Spectral subtraction đối vớ i phổ biên độ có thể đượ c mở r ộng

sang miền phổ công suất. Vì trong một vài tr ườ ng hợ p, nó có thể làm việc tốt vớ i

phổ công suất hơ n là vớ i phổ biên độ. Lấy phổ công suất của tín hiệu bị nhiễu

trong một khoảng ngắn, chúng ta bình phươ ng |Y(ω )|, ta đượ c:

{ })()(Re.2)()(

)()()(.)()()()(

*22

**222

ω ω ω ω

ω ω ω ω ω ω ω

D X D X

D X D X D X Y

++=

+++=(3.7)





| )(ω D |2, X(ω ). )(ω ∗ D và )().( ω ω D X ∗ không thể tính đượ c một cách tr ực

tiế p và xấ p xỉ bằng E{| )(ω D |2}, E{ X(ω ). )(ω ∗ D } và E{ )().( ω ω D X ∗ }, khi đó

E[.] là toán tử k ỳ vọng. Bình thườ ng thì E{| )(ω D |2} đượ c ướ c lượ ng khi không

có tiếng nói hoạt động và đượ c biểu thị là | )(ω ∧

D |2. Nếu chúng ta thừa nhận d[n] =

0 và không có một sự tươ ng quan nào vớ i tín hiệu sạch x[n], thì E{

X(ω ). )(ω ∗ D } và E{ )().( ω ω D X ∗ } xem là 0. Khi đó phổ công suất của tín hiệu

sạch có thể tính đượ c như sau

2^

22^

|)(||)(||)(| ω ω ω DY X −= (3.8)Công thức trên biểu diễn thuật toán tr ừ phổ công suất. Như công thức trên,

thì phổ công suất đượ c ướ c lượ ng 2|)(| ω ∧

X không đượ c đảm bảo luôn là một số

dươ ng, nhưng có thể sử dụng phươ ng pháp chỉnh lưu bán sóng như đã trình bày ở

trên. Tín hiệu đượ c tăng cườ ng sẽ thu đượ c bằng cách tính IDFT của

|)(| ω ∧

X (bằng cách lấy căn bậc hai của |)(| ω ∧

X 2 ), có sử dụng pha của tín hiệu

tiếng nói bị nhiễu. Chú ý r ằng, nếu chúng ta lấy IDFT cả hai vế của công thức

(4.8) trên thì ta có một phươ ng trình tươ ng tự trong miền tự tươ ng quan:

)()()( ^^^^ mr mr mr dd

yy xx

−= (3.9)

Khi đó )(^^ mr xx

, )(mr yy , )(^^ mr dd

là các hệ số tự tươ ng quan của tín hiệu sạch,

tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã đượ c ướ c lượ ng [23,24].

Công thức (1) có thể đượ c viết theo dạng sau:

222^

|)(|)(|)(| ω ω ω Y H X = ( 3.10)

Khi đó:2

2^

|)(|

|)(|1)(

ω

ω ω

Y

D H −= (3.11)

Trong lý thuyết hệ thống tuyến tính, H(ω ) là hàm truyền đạt của hệ thống.

Trong lý thuyết của Speech enhancement, chúng ta xem H(ω ) là hàm độ lợ i hay

hàm nén. Và H(ω ) là một số thực và luôn luôn dươ ng, và có giá tr ị nàm trong





phạm vị 1)(0 ≤≤ ω H . Nếu nó có giá tr ị âm là do có sai sót trong quá trình ướ c

lượ ng phổ của nhiễu. H(ω ) đượ c gọi là hàm nén là vì nó cho ta biết tỷ số giữa

phổ công suất của tín hiệu đượ c tăng cườ ng vớ i phổ công suất của tín hiệu bị

nhiễu. Hình dạng của hàm nén là một đặc tr ưng duy nhất của mỗi thuật toán

Speech enhancement.

Chính vì vậy mà chúng ta thườ ng so sánh các thuật toán bằng cách so sánh

các đáp ứng của hàm nén của chúng. Hệ số H(ω ) có giá tr ị thực nên biến đổi

IDFT là h[n] đối xứng vớ i nhau qua điểm 0 và không nhân quả. Trong miền thờ i

gian thì h[n] đượ c xem là một bộ lọc không nhân quả [25]. Nên sẽ có một

phươ ng pháp đượ c đề xuất để hiệu chỉnh hàm H(ω ) để đáp ứng của nó tr ở thành

bộ lọc nhân quả trong miền thờ i gian.

Tr ườ ng hợ p chung thì thuật toán Spectral subtraction có thể đượ c biểu diễn:

p p p DY X |)(||)(||)(|^^

ω ω ω −= (3.12)

Trong đó p là số mũ công suất, vớ i p = 1 là đó là phươ ng pháp tr ừ phổ biên

độ điển hình, p = 2 là phươ ng pháp tr ừ phổ công suất.

Sơ đồ khối của thuật toán Spectral Subtraction :

Hình 3.2 S ơ đồ khố i của thuật toán Spectral subtraction [26].

3.4 Thuật toán Wiener Filtering

3.4.1 Giớ i thiệu chung

Thuật toán Spectral Subtraction dựa chủ yếu vào tr ực giác và kinh

nghiệm.Chính xác hơ n thuật toán này đượ c phát triển dựa trên một nhiễu có thật

Tín hiệu bị nhiễu FFT |.| p

Ướ c lượ ng, cậ pnhật nhiễu

Pha của

tín hiệu

|.|1/p IFFTTín hiệu sau khităng cườ ng

+)(ω Y

- p D |)(|

^

ω





đượ c cộng vào và tín hiệu sạch đượ c ướ c lượ ng một cách đơ n giản bằng cách tr ừ

đi phổ của nhiễu từ phổ của tính hiệu tiếng nói có nhiễu. Vớ i cách làm này tín

hiệu tiếng nói sạch không thể có đượ c bằng cách tối ưu nhất. Để khắc phục

nhượ c điểm này ta sử dụng thuật toán Wiener Filtering (WF).

WF là thuật toán đượ c sử dụng r ộng rãi trong nâng cao chất lượ ng tiếng nói.

Nguồn gốc cơ bản của thuật toán WF là tạo ra tín hiệu tiếng nói sạch bằng cách

nén nhiễu. Ướ c lượ ng đượ c thực hiện bằng cách hạ thấ p sai số bình phươ ng trung

bình (Mean Square Error) giữa tín hiệu mong muốn và tín hiệu ướ c lươ ng.

3.4.2 Nguyên lý cơ bản của Wiener Filtering

Giả thiết r ằng y[n] là tín hiệu vào đã bị nhiễu, nó là tổng của tín hiệu sạch

và tín hiệu nhiễu d[n]:

y[n]=x[n]+d[n] (3.13)

Thực hiện biến đổi Fourier r ờ i r ạc cả 2 vế,ta đượ c

)()()( ω ω ω D X Y += (3.14)

Chúng ta có thể biểu diễn Y(ω ) dướ i dạng phức như sau:

)(|)(|)( ω φ ω ω y jeY Y = (3.15)

Khi đó |Y(ω )| là biên độ phổ, và )(ω φ y là pha của tín hiệu đã bị nhiễu.

Phổ của tín hiệu nhiễu D(ω ) có thể đượ c biểu diễn dạng biên độ và pha:)(|)(|)( ω φ ω ω d j

e D D = (3.16)

Biên độ phổ của nhiễu |D(ω )| không xác định đượ c, nhưng có thể thay thế

bằng giá tr ị trung bình của nó đượ c tính trong khi không có tiếng nói(tiếng nói bị

dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu)(ω φ y , việc làm này không ảnh hưở ng đến tính dễ nghe của tiếng nói [27], có thể

ảnh hưở ng đến chất lượ ng của tiếng nói là làm thay đổi pha của tiếng nói nhưng

cũng chỉ vài độ.

Ta có thể ướ c lượ ng đượ c biên độ của phổ tín hiệu sạch )(ω ∧

X từ Y(ω ) bằng

một hàm phi tuyến đượ c xác định như sau :

)(/)()( ω ω ω Y X G∧

= (3.17)





)(ω G có thể đượ c áp dụng theo Wiener Filtering [28]:

})({})({

})({

)( 22

2

ω ω

ω

ω D E S E

S E

G+

= (3.18)

Trong đó )(ω s P và )(ω d P là phổ công suất của tin hiệu sạch.

Đặt Priori SNR và Posteriori SNR như sau[11]:

})({

})({2

2

ω

ω

D E

S E SNR pri = (3.19)

})({

})({2

2

ω

ω

D E

Y E SNR post =

(3.20)

Một khó khăn trong các thuật toán nâng cao chất lượ ng tiếng nói là ta

không có tín hiệu tr ướ c tín hiệu sạch s[n] nên ta không thể biết phổ của nó. Do đó

ta không thể tính đượ c priSNR mà trong các hệ thống nâng cao chất lượ ng giọng

nói thì priSNR là tham số r ất cần thiết để ướ c lượ ng tín hiệu sạch.Trong các hệ

thống nâng cao chất lượ ng giọng nói có thể ướ c lượ ng đượ c pri

SNR và post

SNR

bằng cách cho các thông số thích hợ p vào các phươ ng trình sau[12]:

21

)()1()()( ϖ λ ω λ ω t t

d

t

d D P P −+=

−∧∧

(3.21)

)(

})({2

ω

ω

t

d

post

P

Y E SNR

∧

= (3.22)

)(

)(1)()1()(

21^

ω

ω

β ω β ω

d

t

t

post

t

pri

P

S

SNR P SNR∧

−

∧∧

+⎥⎦

⎤⎢⎣

⎡−−= (3.23)

Trong đó P[.] là hàm chỉnh lưu bán sóng có dạng như sau:

⎩⎨⎧

≠

>=

,0

0,)(

X X X P (3.24)

Và và chỉ số t [.] để tín hiệu tại khoảng thờ i gian đang xử lý.





Trong phươ ng trình nếu cho hệ số β ta có thể ướ c lượ ng đượ c priSNR bằng

post SNR . Trong thực tế hệ số β =0.98 r ất tốt cho các tín hiệu có SNR<4dB.

Từ phươ ng trình (3.18) và (3.19) có )(ω G theo WF như sau:

pri

pri

SNR

SNRG

+=

1)(ω (3.25)

Sơ đồ khối của thuật toán Wiener Filtering:

Hình 3.3 S ơ đồ khố i của thuật toán Wiener Filtering.

3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói

3.5.1 Phân tích tín hiệu theo từ ng frame

Do tín hiệu cần xử lý của chúng ta là tín hiệu liên tục, nên khi chúng ta biến

đổi FFT tr ực tiế p tín hiệu từ miền thờ i gian mà không thông qua một quá trình

tiền xử lý nào tr ướ c đó thì tín hiệu sau khi đượ c biến đổi FFT sẽ biến đổi nhanh,lúc đó chúng ta không thể thực hiện đượ c các thuật toán xử lý triệt nhiễu trong tín

hiệu vì khi đó tín hiệu đượ c xem là động.

Chính vì vậy, tín hiệu của chúng ta cần phải đượ c phân tích thành những

khung tín hiệu(frame) liên tục trong miền thờ i gian tr ướ c khi chuyển sang miền

tần số bằng biến đổi FFT. Khi tín hiệu đượ c phân tích thành các frame liên tục,

thì trong từng frame, tín hiệu của chúng ta sẽ biến đổi chậm và nó đượ c xem là

Tín hiệu bị nhiễu FFT |.|2

Ướ c lượ ng, cậ pnhật nhiễu

Pha củatín hiệu

|.|1/2 IFFTTín hiệu sau khi

tăng cườ ng

)(ω Y

PrioriSNR

Hàm xử lýgiảm

nhiễuWF

priSNR

p D |)(|

^

ω





t ĩ nh. Nếu tín hiệu đượ c phân tích theo từng frame thì khi đó các thuật toán xử lý

triệt nhiễu trong tín hiệu mớ i có thể thực hiện đượ c một cách hiệu quả. Và cách

phân tích tín hiệu của chúng ta là “frame by frame”.

Để thực hiện việc phân tích tín hiệu thành các frame, cần sử dụng các loại

cửa sổ thích hợ p. Ở đây, chúng ta sử dụng cửa sổ Hamming, vớ i N = 256 mẫu

trong từng frame :

1,...,0,)/)12cos((.85185.01 −=+− N k N k π (3.27)

Hình 3.4 Phân tích tín hiệu thành các frame [31].

3.5.2 Overlap và Adding

Sau khi phân tích tín hiệu thành các frame liên tục trong miền thờ i gian

bằng cửa sổ Hamming, nếu các frame này liên tục vớ i nhau và không theo một

điều kiện nào cả thì khi thực hiện biến đổi FFT thì vô tình chúng ta đã làm suy

giảm tín hiệu do Hamming là cửa sổ phi tuyến.

Nên khi thực hiện phân tích tín hiệu thành các frame thì yêu cầu đặt ra là

các frame phải sắ p xế p chồng lên nhau, gọi là “overlap”. Việc xế p chồng các

frame vớ i nhau sẽ đượ c thực hiện theo một tỷ lệ chồng lấ p thích hợ p, thông

thườ ng là 40% hoặc 50%.

Sau khi các frame tín hiệu đượ c xử lý triệt nhiễu trong miền tần số, các

frame này đượ c liên k ết lại nhau bằng phươ ng pháp thích hợ p vớ i phươ ng pháp

phân tích tín hiệu thành các frame ở đầu vào gọi là “adding”.

N : kích thướ c của frame

m : số lượ ng frame





Tậ p hợ p các mẫu tín hiệu trong cùng một frame sau khi đượ c phân tích ở

đầu vào gọi là một “segment”. Vớ i cách thực hiện phân tích và liên k ết các frame

bằng phươ ng pháp overlap và adding thì tín hiệu của chúng ta thu đượ c sau khi

xử lý triệt nhiễu sẽ không bị méo dạng và sẽ không xuất hiện hiện tượ ng “giả

nhiễu”.

Hình 3.5 quá trình thự c hiện overlap và adding [32].

3.6 Ướ c lượ ng và cập nhật nhiễu

Phươ ng thức ướ c lượ ng nhiễu có thể ảnh hưở ng lớ n đến chất lượ ng của tín

hiệu sau khi đượ c tăng cườ ng. Nếu nhiễu đượ c ướ c lượ ng quá nhỏ thì nhiễu sẽ

vẫn còn trong tín hiệu và nó sẽ đượ c nghe thấy, còn nếu như nhiễu đượ c ướ c

lượ ng quá lớ n thì tiếng nói sẽ bị méo, và làm sẽ làm tính dễ nghe của tiếng nói bị

ảnh hưở ng. Cách đơ n giản nhất để ướ c lượ ng và cậ p nhật phổ của nhiễu trong

đoạn tín hiệu không có mặt của tiếng nói sử dụng thuật toán thăm dò hoạt động

của tiếng nói (voice activity detection - VAD). Tuy nhiên phươ ng pháp đó chỉ

thoả mãn đối vớ i nhiễu không thay đổi(nhiễu tr ắng), nó sẽ không hiệu quả trong

các môi tr ườ ng thực tế (ví dụ như nhà hàng), ở những nơ i đó đặc tính phổ của

nhiễu thay đổi liên tục. Trong mục này chúng ta sẽ đề cậ p đến thuật toán ướ c

lượ ng nhiễu thay đổi liên tục và thực hiện trong lúc tiếng nói hoạt động, thuật

toán này sẽ phù hợ p môi tr ườ ng có nhiễu thay đổi cao.





3.6.1 Voice activity detection

Quá trình xử lý để phân biệt khi nào có tiếng nói hoạt động, khi nào không

có tiếng nói (im lặng) đượ c gọi là sự thăm dò hoạt động của tiếng nói – Voice

activity detection (VAD). Thuật toán VAD có tín hiệu ra ở dạng nhị phân quyết

định trên một nền tảng frame-by-frame, khi đó frame có thể xấ p xỉ 20-40 ms.

Một đoạn tiếng nói có chứa tiếng nói hoạt động thì VAD = 1, còn nếu tiếng nói

không hoạt động hay đó chính là nhiễu thì VAD = 0.

Có một vài thuật toán VAD đượ c đưa ra dựa trên nhiều đặc tính của tín

hiệu. Các thuật toán VAD đượ c đưa ra sớ m nhất thì dựa vào các đặc tính như

mức năng lượ ng, zero-crossing, đặc tính cepstral, phép đo khoảng cách phổ

Itakura LPC, phép đo chu k ỳ.

Phần lớ n các thuật toán VAD đều phải đối mặt vớ i vấn đề là điều kiện SNR

thấ p, đặc biệt khi nhiễu bị thay đổi. Một thuật toán VAD có độ chính xác trong

môi tr ườ ng thay đổi không thể đủ trong các ứng dụng của Speech enhancement,

nhưng việc ướ c lượ ng nhiễu một cách chính xác là r ất cần thiết tại mọi thờ i điểm

khi tiếng nói hoạt động [26].3.6.2 Quá trình ướ c lượ ng và cập nhật nhiễu

Nhiễu sẽ đượ c ướ c lượ ng lúc ban đầu bằng cách lấy trung bình biên độ phổ

của tín hiệu bị nhiễu

∑−

=

=

1

0

)(1

)(M

i

ii Y M

D ω ω (3.28)

Sau đó, sử dụng phươ ng pháp VAD để nhận biết các frame tiế p theo, frame

nào là frame nhiễu và sẽ cậ p nhật nhiễu đó cho các frame tiế p theo. Để có thể

nhận biết đượ c frame nào là nhiễu thì chúng ta thực hiện so sánh biên độ phổ của

nhiễu đượ c ướ c lượ ng vớ i biên độ phổ của tín hiệu bị nhiễu :

ω ω

ω

π

π

π

d D

Y T

i

i∫− −

= |)(

)(|

21

log201

(3.29)

Nếu dBT 12−≤ thì frame đó không phải là frame có tiếng nói, khi đó ta có

thể cậ p nhật lại nhiễu đã đượ c ướ c lượ ng tr ướ c đó.






Nội dung của chươ ng giúp nguyên lý chung của thuật toán Spectral –

Subtraction và Wiener Filtering. Để hai thuật toán có thể thực hiện đượ c thì cần

phải phân tích tín hiệu thành các frame và các frame phải xế p chồng lên nhau, và

sau khi các frame đượ c xử lý trong miền tần số và chuyển đổi về lại miền thờ i

gian thì các frame đó phải đượ c liên k ết lại vớ i nhau theo đúng phươ ng pháp

tươ ng ứng vớ i phươ ng pháp phân tích tín hiệu ở đầu vào, quá trình đó gọi là

overlap và adding. Chính điều đó sẽ làm cho tín hiệu của chúng ta sau khi xử lý

triệt nhiễu sẽ không bị méo, đảm bảo chất lượ ng của tiếng nói. Nội dung của

chươ ng cũng trình bày vấn đề ướ c lượ ng nhiễu, đây là cái chính mà speech

enhancement cần giải quyết, nó quyết định tính hiệu quả của thuật toán và chất

lượ ng của tiếng nói sau khi xử lý triệt nhiễu.



Chươ ng 4: Thực hiện và đánh giá các thuật toán


CHƯƠ NG 4: THỰ C HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN


Dựa vào lý thuyết đã nghiên cứu đượ c, chươ ng này đã xây dựng các lưu đồ

thuật toán và thực hiện các thuật toán giảm nhiễu mô phỏng bằng Matlab, sau đó

đánh giá các k ết quả thu đượ c chủ yếu bằng phươ ng pháp đánh giá Objective

Measure

4.2 Quy trình thự c hiện và đánh giá thuật toán

Hình 4.1. S ơ đồ thự c hiện và đ ánh giá thuật toán t ă ng cườ ng

Xây d ự ng thuật toán : dựa trên các cơ sở toán học, các phép biến đổi trong

miền thờ i gian và tần số đối vớ i xử lý tín hiệu số để xây dựng nên các thuật toán

xử lý nhiễu trong tiếng nói.

Triể n khai trên Matlab: từ thuật toán đã xây dựng đượ c, thực viết mã nguồn

bằng ngôn ngữ lậ p trình và sử dụng các công cụ trên Matlab tạo nên chươ ng trình

thực hiện xử lý nhiễu trong tiếng nói trên nền Matlab.

Xây dựng các thuật toán

Triển khai thuật toán trên Matlab

Thực hiện xử lý tiếng nói bằngcác thuật toán giảm nhiễu

Thực hiện các thuật toán đánhgiá dựa trên các k ết quả đạt đượ c

sau khi xử lý

Nhận xét đánh giá





Thự c hiện xử lý tiế ng nói bằ ng các thuật toán: thực hiện xử lý triệt nhiễu

trong các file âm thanh bị nhiễu bằng chươ ng trình đã xây dựng ở trên.

Thự c hiện các phươ ng pháp đ ánh giá d ự a trên các k ế t quả đạt đượ c sau khi

xử lý : sau khi các file âm thanh bị nhiễu vớ i các mức độ và loại nhiễu khác nhau

đã đượ c xử lý triệt nhiễu, cùng vớ i các file âm thanh sạch tươ ng ứng, ta sử dụng

các phươ ng pháp đánh giá của Speech enhancement để thực kiểm tra, đánh giá

tính hiệu của thuật toán.

Nhận xét đ ánh giá: từ các k ết quả sau khi thực hiện các phươ ng pháp đánh

giá đã có ở trên, đưa ra các k ết luận đánh giá : thuật toán nào thích hợ p cho loại

nhiễu nào, vớ i mức độ bao nhiêu, thuật toán nào có khả xử lý nhiễu tốt hơ n trong

mọi tr ườ ng hợ p.





4.3 Lư u đồ thuật toán Spectral Subtraction

Hình 4.2 Lư u đồ thuật toán SS

Tính lại mức nhiễu N

End

I=I+1;nhậ p frame tiế p theo

Begin

Phân chia Frame tín hiệu đầuvào

Tinh cong suat nhieu trung binh N banđầu

I=0;Nhậ p frame đầu tiên

VAD

X(:,i)=Beta*Y(:,i)

D=YS(:,i)-N; % Thực hiện tr ừ phổ

X(:,i)=max(D,0);

Y=biến đổi FFT cho các frame

X =

X =

S

Đ

SpeechFlag==0?

S

I<number of frame

Thực hiên IFFT và nối các

frame

Đ





4.4 Lư u đồ thuật toán Wiener Filtering

Hình 4.3 Lư u đồ thuật toán WF

Tính lại mức nhiễu trung bình

End

I=I+1;nhậ p frame tiế p theo

Begin

Phân chia Frame tín hiệu đầu

vào

Tinh cong suat nhieu trung bình N ban

đầu

SpeechFlag==0?

I=0;Nhậ p frame đầu tiên

VAD

Tính Priori SNR

Y=biến đổi FFT cho các frame

Tính Gain Function G

X(:,i)=G.*Y(:,i);tin hiệu sạch

X

=X

=

Đ

S

Đ

Đ

I<number of frame

Thực hiên IFFT và nối các

frame X





4.5 Thự c hiện thuật toán

Chúng ta thực hiện xử lý các file âm thanh bị nhiễu, vớ i 2 loại nhiễu đó là

nhiễu do tiếng xe hơ i và nhiễu do ngườ i nói xung quanh tươ ng ứng vớ i SNR

=10dB

Dạng sóng và phổ của tín hiệu sạch:

Hình 4.4 d ạng sóng và spectrogram của tín hiệu sạch

Dạng sóng và spectrogram của tín hiệu bị nhiễ u xe hơ i vớ i SNR = 10dB

- Tr ướ c khi xử lý nhiễu:

Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễ u xe hơ i vớ i SNR = 10dB

- Sau khi xử lý triệt nhiễu bằng thuật toán Spectral Subtraction





Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễ u xe hơ i

bằ ng SS vớ i SNR = 10dB.

- Sau khi xử lý bằng thuật toán Wiener filtering

Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễ u xe hơ i

bằ ng WF vớ i SNR = 10dB.

Nhận xét sơ bộ

Sau khi nghe các file âm thanh của tín hiệu sạch, tín hiệu sau khi xử lý

nhiễu, dựa trên dạng sóng và spectrogram của tín hiệu sạch, tín hiệu sau khi xử lý

triệt nhiễu bằng 2 thuật toán SS và WF, ta có thể đưa ra một số nhận xét như sau

• Cả hai thuật toán đều có thể xử lý triệt nhiễu tốt hơ n ở môi tr ườ ng

có SNR cao hơ n, và xử lý tốt hơ n đối vớ i tín hiệu bị nhiễu biến đổi

chậm và có phân bố đều.





• Cả hai thuật toán đều có tính hiệu quả giống nhau đối vớ i nhiễu ở

mức SNR thấ p, nhưng đối vớ i môi tr ườ ng có SNR cao hơ n thi thuật

toán Wiener xử lý triệt nhiễu tốt hơ n.

• Nhìn chung thì thuật toán WF xử lý triệt nhiễu tốt hơ n so vớ i SS

4.6 Đánh giá chất lượ ng tiếng nói đã đượ c xử lý

4.6.1 Cơ sở dữ liệu cho việc đánh giá

Là 30 câu thoại đượ c ghi âm trong phòng thí nghiệm theo chuẩn của IEEE

[32] là tín hiệu thoại sạch. Mỗi câu trung bình khoảng 2s. Nội dung các câu đều

có sự cân bằng về mặt ngữ âm nên có thể thấy đượ c sự tác động của thuật toán

lên tất cả các âm vị có thể có trong tín hiệu thoại

Các tín hiệu thoại đó sau đó đượ c cộng nhiễu vào ( gồm có loại nhiễu có

trong thế giớ i thực, vớ i các tỷ số SNR khác nhau. Như vậy ta đã có sẵn tín hiệu

sạch và tín hiệu bị nhiễu theo chuẩn chung.

Hai loại nhiễu đượ c dùng là: nhiễu xe hơ i (car noise) đượ c dùng làm dữ liệu

chính để xử lý và đánh giá, và nhiễu do những ngườ i nói xung quanh (babble

noise) để kiểm tra tác động của thuật toán trong môi tr ườ ng nhiễu khác, vớ i cácSNR 0dB, 5dB, 10dB, 15dB.

Sau khi tăng chất lượ ng tiếng nói từ các tín hiệu tiếng nói bị nhiễu bằng các

thuật toán đã nghiên cứu là SS và WF, có đượ c tín hiệu tiếng nói đã đượ c tăng

cườ ng. Như vậy ta có đượ c cơ sở dữ liệu cho việc đánh giá chất lượ ng của tín

hiệu tiếng nói sau khi đã đượ c tăng cườ ng.

4.6.2 Tổng quan về quy trình đánh giá

Để đánh giá chất lượ ng tiếng nói sau khi đã xử lý sử dụng cả hai phươ ng

pháp đánh giá dựa trên chất lượ ng do ngườ i nghe cảm nhận đượ c (SE) và đánh

giá dựa trên các phép đo thuộc tính của tín hiệu (OE). Trong đồ án này phươ ng

pháp đánh giá chính đượ c dùng là OE, SE đượ c dùng làm phươ ng pháp đánh giá

bổ sung và đượ c thực hiện bở i các thành viên trong nhóm thực hiện .

Do đặc tính của các thuật toán giảm nhiễu đượ c sử dụng trong đề tài là có

các thống số ảnh hưở ng đến cách thức xử lý nếu chỉnh các thông số này ta sẽ có





các k ết quả khác nhau có thể tốt, có thể xấu đối vớ i một file âm thanh. Để có thể

có các thông số tốt nhất và có các nhận xét về tính ổn định, thuật toán tốt hay xấu

ta phải thực hiện quá trình tinh chỉnh thông số để đượ c các k ết quả khác nhau từ

đó so sánh và đưa ra các thông số tối ưu nhất có thể. Quá trình này là thực hiện

đánh giá thuật toán.

Hình 4.8 Quy trình thự c hiện đ ánh giá

4.6.3 Kiểm tra độ tin cậy của các phươ ng pháp đánh giá

Các đánh giá OE đượ c dùng là : SNRseg, IS, LLR, WSS.

Kiểm tra độ ổn định của các phươ ng pháp đánh giá trên bằng cách so sánh

tín hiệu tiếng nói bị nhiễu xe hơ i và nhiễu ngườ i nói xung quanh chưa đượ c xử lý

vớ i tín hiệu sạch

Các thuật toán giảm nhiễu

Nhận xét

Đánh giá SEĐánh giá OE

Chỉnh sửa các thông số của

thuật toán giảm nhiễu

Tiếng nói đã đợ c

giảm nhiễu

Tín hiệu sạch





Hình 4.9. Đồ thị kiể m tra độ ổ n định của đ ánh giá OE đố i vớ i nhiễ u xe hơ i

Hình 4.10. Đồ thị kiể m tra độ ổ n định của đ ánh giá OE đố i vớ i nhiễ u ng ườ i

nói xung quanh

K ết quả kiểm tra cho thấy





Đối vớ i đánh giá SNRseg đồ thị đi lên theo chiều tăng dần của SNR

Đối vớ i đánh giá LLR, IS và WSS thì đồ thị có hướ ng đi xuống và

variance cũng giảm dần theo chiều tăng dần của SNR chứng tỏ phổ

của tín hiệu có SNR cao gần vớ i phổ tín hiệu sạch hơ n

Qua kiểm tra thấy đượ c các phươ ng pháp đánh giá trên đều ổn định và đủ

tin cậy để thực hiện đánh giá đối vớ i các tín hiệu tiếng nói đã qua xử lý.

4.6.4 Thự c hiện đánh giá

Trong quá trình nghiên cứu và triển khai thuật toán ta nhận thấy các thông

số sau ảnh hưở ng lớ n đến thuật toán:

- NoiseMargin :là ngưỡ ng để nhận biết nhiễu trong VAD .Mặc định của

thuật toán Noise margin sẽ là 3db.

- IS :hệ số chỉ thờ i gian không có tiếng nói đầu tiên trong mỗi file âm

thanh đượ c dùng để tính toán nhiễu ban đầu. Do khi kiểm tra những đoạn im lặng

ban đầu trong các file sạch ta nhận thấy r ằng đối vớ i từng file thì từ 0.15s đến

0.2s là những đoạn im lặng.Ta lựa giá tr ị IS là 0.2

- Đối vớ i thuật toán WF thì ta có thêm hệ số alpha là hệ số làm tr ơ n trong phươ ng pháp ướ c lượ ng tỉ số Priori SNR.

-Đối vớ i thuật toán SS thì có hệ số Gramma là hệ số quyết định nhiễu sẽ

đượ c tr ừ theo biên độ hay năng lượ ng. Ta chọn giá tr ị Gramma là 1 tức là thuật

toán Subtraction sẽ tr ừ nhiễu theo biên độ.

4.6.4.1 Đánh giá thuật toán vớ i các hệ số dự đoán ban đầu

H ệ số IS=0.2, NoiseMargin=3

Đánh giá OE

Sau khi thực hiện thuật toán SS và WF vớ i các thông số alpha=0.9,

gamma=1, NoiseMargin=3,IS=0.2 ta có đồ thị của đánh giá bằng SNR, LLR, IS,

WSS như sau





Hình 4.11 Đồ thị đ ánh giá Objective vớ i hệ số IS=0.2, NoiseMargin=3

Theo đồ thị ta có các nhận xét như sau :

Đối vớ i thông số đánh giá SNR cho ta thấy tỉ số SNR đã có tăng hơ n so vớ i

file chưa xử lý. Chứng tỏ thuật toán đã loại tr ừ môt phần nhiểu ra khỏi file sạch.

Nhưng đối vớ i so sánh IS, LLR, WSS thì ta lại thấy file chưa xử lý lại có k ết quả

tốt hơ n file đã xử lý. Do đánh giá IS, LLR, WSS là so sánh khoảng cách phổ giữa

file đã xử lý và file sạch r ồi tính giá tr ị trung bình nên ta có thể dự đoán là năng

lượ ng của file đã xử lý lệch r ất nhiều vớ i file sạch có thể do thuật toán tồi hoặc là

năng lượ ng tín hiệu sạch bị nén một phần .

Đánh giá SE

Sau khi kiểm tra các file đầu ra bằng phươ ng pháp nghe thử ta có các nhậnxét sau đây: Một số file đầu ra của các thuật toán SS và WF có mức độ nén nhiễu

khác cao dẫn tớ i việc mất một phần tiếng nói.

K ế t luận và t ố i ư u các thông số cho thuật toán VAD

Qua các nhận xét về đánh giá OE và SE ta rút ra k ết luận như sau:

Do thuật toán VAD vớ i các thông số đề ra là IS=0.2 và NoiseMargin=3 là

không tốt nên một phần âm thanh bị ướ c lượ ng là nhiễu nên đã bị thuật toán nén

đi dẫn tớ i việc mất năng lượ ng của phần âm thanh sạch.





Đối vớ i thông số IS ta phải thay đổi như sau : Do đoạn lặng trong file sạch

chỉ nằm trong khoảng 0.15s đến 0.2s. Nếu ta để 0.2 là quá lớ n đối vớ i một sô file

nên một phần năng lượ ng tiếng nói trong những file nay sẽ đượ c thuật toán VAD

xem là nhiễu vì thế một phần tiếng nói sẽ bị loại bỏ. Đó là một hạn chế của thuật

toán VAD đượ c dùng trong đề tài : giữ cứng giá tr ị IS( đoạn im lặng) để cài đặt

nhiễu là không phù hợ p cho tất cả mọi file âm thanh.

Đối vớ i thông số NoiseMargin: Vì ta chọn mức ngưỡ ng để nhận biết nhiễu

là 3dB là khá lớ n nên tươ ng tự như giá tr ị IS vớ i mức ngưỡ ng như vậy một phần

tín hiệu sạch sẽ bị loại bỏ do khác gần vớ i nhiễu dù IS có tối ưu thế nào đi nữa.

Qua thực nghiệm ta có hệ số NoiseMargin tối ưu là 2. Đó là giá tr ị mà tín hiệu

sạch không bị ướ c lượ ng là nhiễu.

Vậy các giá tr ị tối ưu cho thuật toán VAD là : hệ số IS phải điều chỉnh lại là

0.15s, hệ số NoiseMargin là 2.

H ệ số IS=0.15 ,hệ số NoiseMargin=2

Đánh giá OE

Sau khi thuật hiện lại thuật toán SS và WF vớ i hệ số IS=0.15,hệ số NoiseMargin=2 ta có đồ thị đánh giá IS, SNR, WSS, LLS như sau :

Hình 4.12 Đồ thị đ ánh giá Objective vớ i hệ số IS=0.15, NoiseMargin=2.





Ta nhận thấy thông số SNR tươ ng tự như tr ườ ng hợ p IS = 0.2 và

NoiseMargin=2. Nhưng ta các giá tr ị LLR và IS của so sánh tín hiệu đã xử lý

bằng SS và WF đã giảm, trong đó giá tr ị IS đã giảm đáng k ể.Đặc biệt vớ i thuật

toán SS giá tr ị IS đã xuống dướ i ngưỡ ng của file nhiễu. Điều đó chứng tỏ các

thông số này thật sự tốt. Nhưng các giá tr ị IS còn rât lớ n đối vớ i thuật toán WF

và các mức SNR 0dB và 10dB và các giá tr ị IS của thuật toán Wiener vẫn còn

nằm trên giá tr ị IS của file chưa xử lý và file sạch.

Đánh giá SE

Sau khi nghe thử các file đầu ra của thuật toán SS và thuật toán WF. Ta

nhận thấy thuật toán SS thật sự làm viêc tốt đã hạ đượ c mức nhiễu của các file

âm thanh. Nhưng đối vớ i thuật toán WF mặc dù đã hạ đượ c mức nhiễu của các

file âm thanh nhưng một số file vẫn bị mất tiếng nói điều đó chứng tỏ hệ số của

thuật toán WF chưa tốt.

K ế t luận

K ết hợ p giữa nhận xét trong OE và SE ta có k ết luận là vớ i hệ số IS=0.15

và NoiseMargin=2 thì thuật toán VAD làm việc thật sự tối ưu cho nhiễu xe hơ i.Và hệ số của thuật toán Wiener chưa tối ưu đó chính là hệ số alpha.

4.6.4.2 Tối ư u hệ số alpha cho thuật toán WF

Ta đánh giá hệ số alpha cho thuật toán WF qua các tr ườ ng hợ p hệ số

alpha=0.5, 0.8,0.9 vớ i IS=0.15 và NoiseMargin = 2 để chọn ra tr ườ ng hợ p tốt

nhất.

Đánh giá objective





Hình 4.14 Đồ thị đ ánh giá objective vớ i hệ số alpha=0.5, 0.8,0.9 vớ i

IS=0.15 và NoiseMargin = 2

Qua đồ thị SNR ta nhận thấy hệ số alpha càng lớ n thì mức nhiễu bị nén

càng lớ n (tỉ số SNR lớ n). Qua đồ thị IS ta thấy hệ số alpha càng nhỏ thì tác động

vào file tỉ số SNR càng lớ n càng tốt. Giá tr ị alpha=0.9 tác động vào file có

SNR=10 dB cho ra file output có khoảng cách phổ xa hơ n so vớ i file sạch và file

nhiễu. Còn lại các giá tr ị alpha khác và alpha=0.9 vớ i các mức file nhiễu có tỉ số

SNR khác đều cho ra k ết quả tốt hơ n so vớ i file sạch và file nhiễu.Và hệ số alpha

bằng 0.5 có vẻ r ất tốt trên đồ thị is đặc biêt là vớ i file nhiễu có tỉ số SNR=15dB

tác động r ất ổn định (variant nhỏ). Đánh giá subjective

Qua việc kiểm tra subjective ta nhận thấy vớ i hệ số alpha=0.5 tác động r ất

ổn định và tốt vớ i file nhiễu có mức SNR=15dB cho ra file r ất sạch. Nhưng vớ i

các mức dB khác thì ko tốt bằng so vớ i các hệ số alpha khác, nhiễu còn tươ ng đối

nhiều.Đối vớ i hệ số alpha là 0.9 thì vớ i mức file nhiễu có SNR=10dB tác động

không tốt, một số file cả tín hiệu sạch cũng bị nén.

K ế t luận





Qua các nhận xét về đánh giá SE và OE ta rút ra k ết luận là hệ số alpha=0.8

là hệ số tối ưu nhất cho tất cả các tr ườ ng hợ p có thể nó nén nhiễu không nhiều

bằng hệ số alpha nhưng không nén luôn tín hiệu sạch, bảo đảm tín hiệu vẫn còn

nghe tốt, nhiễu bị hạ xuống tươ ng đối nhiều.

Ta có thêm nhận xét về cách đánh giá OE là không phải lúc nào cũng hoàn

toàn chính xác như đối vớ i hệ số alpha=0.5 trên đồ thị IS nó là tốt nhất nhưng vớ i

việc kiểm tra bằng SE thì nó chỉ tốt nhất trong tr ườ ng hợ p 15dB hay đối vớ i đồ

thị SNR thì hệ số alpha tốt nhất nhưng có một số tr ườ ng hợ p tín hiệu sạch đã bị

nén luôn.

4.6.4.3 Hệ số gamma cho thuật toán SS

Vì thuật toán SS là thuật toán tr ừ nhiễu nên ta có 2 cách tr ừ nhiễu là tr ừ

theo năng lượ ng và tr ừ theo biên độ nên ta cung cấ p hệ số gamma nếu gamma=1

thì tr ừ theo biên độ gamma =2 thì tr ừ theo năng lượ ng. Sau đây ta sẽ đánh giá và

tìm ra cách tr ừ nào là tốt nhất( gamma=1 hay 2).

Đánh giá OE

Hình 4.15 Đồ thị đ ánh giá objective vớ i hệ số gamma = 1 và gamma = 2.





Ta nhận thấy đối vớ i cả thông số SNR và IS thì hệ số gamma=2 tức là tr ừ

theo năng lượ ng đều tốt hơ n ngoại tr ừ đối vớ i file nhiễu có SNR là 10dB.Và

gamma=1 hay gamma = 2 đều đưa ra đồ thị tốt hơ n đồ thị giữa file nhiễu vớ i file

sạch

Đánh giá SE

Sau khi kiểm tra SE ta nhận thấy r ằng đối vớ i hệ số gamma=2 tức là tr ừ

theo năng lượ ng thì nhiễu bị nén r ất ít, file đầu ra không tốt bằng hệ số

gamma=1.

K ế t luận

Sau khi so sánh OE và SE ta có k ết luận là mặc dù trên đồ thị phản ánh hệ

số gamma=2 tốt hơ n nhưng trên thực tế thì hệ số gamma=1 mớ i tốt hơ n.Chứng tỏ

việc đánh giá OE như nói ở trên không phải lúc nào cũng đúng.

Ta chọn hệ số gamma tối ưu là 1.

4.6.4.4 Đánh giá thuật toán sau khi đã tối ư u

Sau khi thực hiện một loạt các hệ số thử nghiêm ta chọn ra hệ số tối ưu là :

-Thuật toán VAD: hệ số IS=0.15, NoiseMargin = 2.-Thuật toán WF hệ số alpha=0.8.

-Thuật toán SS tr ừ theo biên độ.

Và việc đánh giá OE chỉ đánh giá về mặt toán không phải lúc nào cũng

đúng , đánh giá OE phải đi kèm vớ i đánh giá SE.





Hình 4.16 Đồ thị đ ánh giá vớ i IS=0.15 NoiMargin= 2 và alpha = 0.8 cho

thuật toán WF, gama=1 cho thuật toán SS.

4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trườ ng nhiễu khác

Đánh giá OE

Thực hiện nghe đối vớ i tín hiệu đã qua xử lý thấy r ằng một số file tín hiệu

có những đoạn chỉ nghe đượ c nhiễu chứ không nghe đượ c tiếng nói. Điều này

đượ c giải thích là do nhiễu ngườ i nói có năng lượ ng nhiễu tươ ng đươ ng vớ i năng

lượ ng tiếng nói, trong một số file thì tín hiệu tiếng nói có mức năng lượ ng thấ p

hơ n mức năng lượ ng của nhiễu nên đoạn tiếng nói đó bị tr ừ mất chỉ còn lại nhiễu.

Đồ th ị

Áp dụng các thông số tối ưu đối vớ i nhiễu xe hơ i cho nhiễu ngườ i nói xungquanh có đồ thị đánh giá như sau





Hình 4.17 Đồ thị đ ánh giá OE vớ i nhiễ u ng ườ i nói xung quanh.

Nhận xét

Nhận xét theo đồ thị đối vớ i cả bốn phép đánh giá ta thấy đối vớ i nhiễu

ngườ i nói xung quanh thì SS có vẻ xử lý tốt hơ n WF. Nhưng đối vớ i cả ba phươ ng pháp đánh giá đầu tiên thì cả ba giá tr ị WSS,

LLR, IS của các tín hiệu đã đượ c xử lý so vớ i tín hiệu sạch lại không tốt bằng giá

tr ị của tín hiệu nhiễu chưa xử lý so vớ i tín hiệu sạch (so sánh của tín hiệu đã xử

lý có giá tr ị lớ n hơ n).

Riêng vớ i phép đánh giá IS ta thấy thuật toán xử lý nhiễu có tác động tốt

đối vớ i nhiễu 0dB và 5dB. Bên cạnh đó variant còn lớ n vì có một số file có giá tr ị

so sánh lớ n hơ n giá tr ị của các file khác r ất nhiều (điều này cũng xảy ra đối vớ icar noise) đượ c thể hiện trong bảng giá tr ị IS [matlab file]. Lý giải cho điều này

là do một số tín hiệu bị nhiễu đột biến.

Đánh giá SE

Khi thực hiện nghe đối vớ i các file âm thanh bị nhiễu ngườ i nói xung quanh

đượ c xử lý bằng SS và WF thì có một số đoạn tiếng nói bị mất, chỉ nghe đượ c

nhiễu chứ không nghe đượ c tiếng nói.





Điều này đượ c lý giải là do nhiễu ngườ i nói xung quanh có mức năng lượ ng

tươ ng đươ ng vớ i mức năng lượ ng của tiếng nói nên một số file âm thanh có đoạn

tiếng nói có mức năng lượ ng thấ p hơ n mức năng lượ ng của nhiễu thì tiếng nói đó

sẽ bị tr ừ mất chỉ còn lại nhiễu.

Nhận xét chung

Khi đem các thông số tối ưu để xử lý nhiễu xe hơ i áp dụng vớ i ngườ i nói

xung quanh thì k ết quả không tốt.

Đối vớ i nhiễu ngườ i nói xung quanh thì thuật toán SS tác động tớ t hơ n WF.

4.6.5 K ết luận chươ ng

Qua k ết quả đánh giá bằng OE và SE đưa ra đượ c k ết luận là :

- Đối vớ i từng loại nhiễu khác nhau thì tác động của các thuật toán tăng

cườ ng là khác nhau.

- Đối vớ i từng mức nhiễu khác nhau thì thuật toán cũng tác động cũng

khác nhau.



Đồ án tốt nghiệ p


TÀI LIỆU THAM KHẢO

[1]. Ramabadran, T.,Ashley, J., and McLaughin, M.(1997), Background noise

suppression for speech enhancement and coding, Proc. IEEE Workshop Speech

Coding Telecommun.

[2]. Ths.Hoàng Lê Uyên Thục, Giáo trình xử lý tín hiệu số, Đại học Bách Khoa –

Đại học Đà Nẵng.

[3].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement

algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I.

[4]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.

[5]. Long, M. (2005), Dinner Conversation (An oxymoron?), Acoustics

Today,l(1), pp. 25-27.

[6]. Lombard, E.(1911), Le signe de lelevation de la voix, Ann. Mal. Oreil.

Larynx.,37, 101-119.

[7]. Nguyễn Quốc Trung, Xử lý tín hiệu số - tậ p 1, NXB Khoa học k ĩ thuật.

[8]. Lim, J. and Oppenheim, A.V.(1979), Enhancement and bandwidth

compression of noisy speech, Proc. IEEE, 67(12),pp. 1586-1604.[9]. Weiss, M., Aschkenasy, E., and Parsons, T.(1974), Study and the

development of the INTEL technique for improving speech intelligibility,

Technical Report NSC-FR/ 4023.

[10]. Boll, S.F. (1979), Suppression of acoustic noise in speech using spectral

subtraction, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120.

[10]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 46-57.

[11] “Methods for Subjective Determination of Transmission Quality”, ITU_T

Recommendation P.800, August 1996.

[12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press,

Taylor and Francis Group.

[13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”,

Signal Processing and Speech Communication Lab, Technical University Graz.





[14] Hansen J. and Pellon B. , “An effective quality evaluation protocol for

Speech Enhancement algorithms”, Proc. Int Conf. Spoken Language Process,

1998.

[15] http://en.wikipedia.org/wiki/Code_Excited_Linear_Prediction

[16] Beey Y. , Shpiro Z. , Simchony T. , Shatz L. and Piasetzky J., “An efficient

variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel

Pekker, 1990.

[17] Yi Hu and Philipos C. Loizou, “Evaluation of Objective Quality Measures

for Speech Enhancement”, IEEE.

[18] Klatt D., “Prediction of perceived phonetic distance from critical band

spectra”, Proc IEEE Int. Conf. Acoust. Speech Signal Process.

[19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low

bit_rate Speech Coding systems”, IEEE J, Sel. Areas Commun.

[20] Quackenbush S., Barnwell T. and Clements M., “Objective Measure of

Speech Quality”, Englewood Cliffs NJ: Prenticư Hall.

[21]. Boll, S.F(1979), Suppression of acoustic noise in speech using spectralsubtraction, IEEE Trans. Acoust. Speech Signal Process., 27(2), 113-120.

[22]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase

spectrum in human listening tests, Speech Commun., 45(2), 153-170.

[23]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the

Development of the INTEL Technique for Improving Speech Intelligibility,

Technical Report NSC-FR/4023, Nicolet Scientific Corporation.

[24]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing

of Speech Signals, New York : IEEE Press.

[25]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction

using reduced delay convolution and adaptive averaging, IEEE Trans. Speech

Audio Process., 9(8), 799-807.

[26]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100.





[27]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase

spectrum in human listening tests, Speech Commun., 45(2), 153-170.

[28]. Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise

Suppression EEE Trans. Acoustics, Speech and Signal Processing , vol. assp-28,

no. 2, april 1980.

[29]. Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-

Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoustics,

Speech and Signal Processing , vol. 32, no. 6, pp. 1109–1121, December 1984.

[30]. P. Scalart and J. Vieira-Filho, “Speech enhancement based on a priori signal

to noise estimation,” in Proc. 21st IEEE Int. Conf. Acoust. Speech Signal

Processing , Atlanta, GA, May 1996, pp. 629–632.

[31]. Dominic K. C. Ho, Speech Enhancement : concept and methodology, Demo

prepared by Tong Wang, University of Missouri-Columbia.

[32] http://www.utdallas.edu/~loizou/speech/noizeus/





K ẾT LUẬN ĐỒ ÁN VÀ HƯỚ NG PHÁT TRIỂN ĐỀ TÀI

Chất lượ ng của tiếng nói bị suy giảm do sự tác động của nhiễu trong môi

tr ườ ng xung quanh là một vấn đề quan tr ọng cần phải đượ c giải quyết. Việc tìm

ra các phươ ng pháp để triệt nhiễu và giảm nhiễu trong tiếng nói luôn luôn đề tài

đượ c quan tâm r ất nhiều. Trong các dịch vụ truyền thông vớ i phươ ng tiện ngôn

ngữ là tiếng nói thì việc tăng cườ ng, cải thiện chất lượ ng tiếng nói đã bị nhiễu là

r ất thiết, giúp cho ngườ i nghe có thể nghe rõ và đúng những gì ngườ i nói đã nói.

Đồ án đã thực hiện đượ c các vấn đề :

- Tìm hiểu và nghiên cứu các phươ ng pháp cải thiện chất lượ ng tiếng

nói, nhưng tậ p trung vào 2 thuật toán đã có trong Speech enhancement

là : Spectral Subtraction và Wiener Filtering

- Xây dựng đượ c chươ ng trình thực hiện xử lý nhiễu trong các file âm

thanh đã bị nhiễu dựa trên 2 thuật toán : Spectral Subtraction và

Wiener Filtering.

- Thực hiện và đánh giá tính hiệu quả của 2 thuật toán trong các môi

tr ườ ng nhiễu và mức độ nhiễu khác nhau, từ đó đưa ra các biện pháptối ưu hóa các thuật toán. K ết quả đạt đượ c cho thấy WF là thuật toán

giảm nhiễu tốt hơ n SS. Các thuật toán giảm nhiễu có hiệu quả khác

nhau đối vớ i từng môi tr ườ ng nhiễu khác nhau

Tuy nhiên đồ án vẫn chưa giải quyết hết đượ c các vấn đề trong Speech

enhancement nên hướ ng phát triển của đề tài trong tươ ng lai sẽ là :

- Tìm hiểu, nghiên cứu và xây dựng các chươ ng trình thực hiện xử lý

nhiễu trong tiếng nói dựa trên các thuật toán khác trong Speech

enhancement.

- Nghiên cứu và đưa ra thuật toán mớ i về xử lý nhiễu và triệt nhiễu trong

Speech enhancement.

Phát triển chươ ng trình đã thực hiện đối vớ i các dịch vụ ứng dụng thờ i gian

thực và các dịch vụ trong l ĩ nh vực truyền thông đa phươ ng tiện như : thoại, âm

nhạc, truyền hình hội nghị.





PHỤ LỤC

Toàn bộ mã nguồn của chươ ng trình thực hiện đượ c lưu tr ữ trên đĩ a CD

đính kèm.

Do an Tot Nghiep Xu Ly Tieng Noi

Documents

Transcript of Do an Tot Nghiep Xu Ly Tieng Noi