12 장 . 음성 신호처리

31
Circuits & Systems La 1 12 장 . 장장 장장장장 12.1 장 12.2 장장장장 장장 12.3 장장 장장 12.4 장장 장장장 12.5 장장 장장

description

12 장 . 음성 신호처리. 12.1 개 요 12.2 음성생성 모델 12.3 음성 합성 12.4 음성 부호화 12.5 음성 인식. 12.1 개 요. 인간의 음성 -. 가장 간단한 정보전달 수단 -. 비방향성 -. 영상과 비교하여 입출력 장치가 간단 음성 신호처리 -. 디지털 기술을 이용한 해석으로 급속한 발전 음성 신호처리 구분 -. 음성분석 : 음성의 특징파악을 목적으로 각종 파라메타를 추출 -. 음성부호화 : 전송이나 저장을 목적으로 각종 파라메타를 추출 - PowerPoint PPT Presentation

Transcript of 12 장 . 음성 신호처리

Page 1: 12 장 .   음성 신호처리

Circuits & Systems Lab.

1

12 장 . 음성 신호처리

12.1 개 요

12.2 음성생성 모델

12.3 음성 합성

12.4 음성 부호화

12.5 음성 인식

Page 2: 12 장 .   음성 신호처리

Circuits & Systems Lab.

2

12.1 개 요 인간의 음성 -. 가장 간단한 정보전달 수단 -. 비방향성 -. 영상과 비교하여 입출력 장치가 간단

음성 신호처리 -. 디지털 기술을 이용한 해석으로 급속한 발전 음성 신호처리 구분 -. 음성분석 : 음성의 특징파악을 목적으로 각종 파라메타를 추출 -. 음성부호화 : 전송이나 저장을 목적으로 각종 파라메타를 추출 -. 음성합성 : 기계가 사람에게 응답하는 시스템으로 각종 파라메타를 저장하였다가 필요시 합성파형 신호를 재생 ( 파형부호화방식 / 스펙트럼부호화방식 ) -. 음성인식 : 음성로부터 특징 파라메타를 추출하여 단어의 특징을 매칭 -. 음성품질향상 : 잡음제거

Page 3: 12 장 .   음성 신호처리

Circuits & Systems Lab.

3

12.2 음성생성 모델

그림 12. 1 발성기관 개략도

남성 :70~150[Hz]여성 :200~350[Hz]

성도의 단면적의 형태는 음향관의 공진주파수를 결정 : 성대파가 성도를 통과할 때 그 주파수 성분 중에서 성도의 공진주파수와 유사한 성분은 강조되어 그 결과 음운성이 부여되어 언어음으로서의 음성이 발생

Page 4: 12 장 .   음성 신호처리

Circuits & Systems Lab.

4

12.2 음성생성 모델

유성음 : 성대의 진동 동반 ( 주기성 ) 무성음 : 성대의 진동 없음 ( 비주기성 )

음성파형• 쉼 (pause) 구간 : 신호가 거의 zero• 음성구간 -. 유성음 : 大진폭으로 피치를 주기적으로 반복하는 준 정상적 파형 -. 무성음 : 음성파형이 小진폭의 랜덤파형으로 백색잡음과 유사

그림 12. 2 음성의 생성모델

Page 5: 12 장 .   음성 신호처리

Circuits & Systems Lab.

5

12.2 음성생성 모델

그림 12. 3 음성생성의 디지털 모델

(12-1)

(12-2)

Page 6: 12 장 .   음성 신호처리

Circuits & Systems Lab.

6

12.2 음성생성 모델

백색 잡음 (White noise)

① 백색의 빛은 모든 주파수의 빛을 고르게 포함한다는 것에서 유래

② 유효 주파수 대역내의 모든 주파수에 대하여 레벨이 거의 고른 잡음

③ 전기 회로 등에서 나오는 열잡음을 말함

Page 7: 12 장 .   음성 신호처리

Circuits & Systems Lab.

7

12.3 음성합성1. 음성합성 모델

선형필터모델 -. 백색잡음 또는 주기적인 펄스열이 시간에 따라 변화한다고 가정 -. 혼합된 음원 ( 유성마찰음 , 비음 ) 에 대한 고려가 없음

멀티펄스 선형 예측 부호화 (Linear Predictive Coding:LPC) 모델 -. 선형필터모델의 단점 개선 -. 펄스와 백색잡음을 여러 개의 펄스열로 대신 -. 펄스의 크기와 위치는 원래의 음성신호와 합성된 신호간의 차이를 최소화하는 값으로 선택 -. 비교적 적은 개수의 펄스로 좋은 음질의 합성음이 가능

확률적 음원 (Stochastic excitation) 모델 -. 백색 가우시안 분포를 갖는 코드북 (codebook) 으로부터 적절한 판단기준을 설정하여 음성신호와 합성음간의 차이를 최소화하는 음원을 선택

Page 8: 12 장 .   음성 신호처리

Circuits & Systems Lab.

8

12.3 음성합성2. 음성합성 기술

음성합성 : 입력된 문장이나 명령에 따라 미리 저장된 단위를 조합하여 합성음을 출력 -. 음성응답시스템 : 제한된 어휘에 대해 단어나 구 , 절 등의 조합으로 합성 -. 문장음성시스템 : 음절이나 음소 , diphone 등으로부터 운율적 처리과정을 통해 문장을 합성

음성을 부호화하여 저장하는 방법에 따른 합성기 (mixer) 의 구분 -. 파형 부호화 : 높은 음질을 요하는 제한된 어휘합성시스템을 시간영역에서 합성 -. 신호원 부호화 : 무제한 어휘합성 시스템에서 적절한 매개변수를 사용하여 파형의 주파수 특성을 재생

Page 9: 12 장 .   음성 신호처리

Circuits & Systems Lab.

9

파형 부호화 : Nyquist 주파수로 음성신호를 표본화하여 PCM, log PCM, ADPCM, ADM, SBC(Sub Banding Coding) 또는 APC(Adaptive Predictive Coding) 를 써서 부호화 한 후 저장하였다가 필요한 어휘를 꺼내어 연결시켜 합성음을 만드는 방법

Zero cross -. 음성파형을 4∼10[kHz]로 샘플링하고 각 시점의 값이 양 (plus)일 때는 1, 음 (minus)일 때는 -1 로 근사 -. 장점 : 컴퍼레이터와 입출력포트 하나씩만 있으면 마이크로컴퓨터 등으로 간단히 분석 , 합성에 대한 실험을 할 수 있다 -. 단점 : 음성파형을 1 의 두 값으로 표현하기 때문에 당연히 S/N 이 나쁘고 잡음 속에 음성이 파묻혀 있다는 느낌이 든다

12.3 음성합성

Page 10: 12 장 .   음성 신호처리

Circuits & Systems Lab.

10

PCM(pulse code modulation) -. 오디오 분야에서 많이 사용하는 방식 -. 음성을 A/D 변환하여 양자화한 데이터를 D/A 변환해서 파형을 재생 -. 합성 음성에 포함된 오차는 양자화 오차 뿐이므로 충실도가 아주 높은 합성이 가능하다 . 그 대신 비트율이 대단히 높아진다 . -. 예 ) 샘플링 주파수를 8[kHz], 양자화 정밀도를 8[bit]로 하면 8000 * 8 = 64[kbit/sec]가 된다 . 이것은 2764 EPROM 인 칩을 1개 사용했을 경우 약 1초 정도의 합성이 가능한데 현재는 대용량 ROM 이 많이 출하되어 수십 초에 이르는 합성도 가능하다 .

12.3 음성합성

( 파형 부호화에 의한 합성은 알고리듬이 간단하며 복호화된 합성음의 음질은 좋지만 데이터 베이스의 양이 문제가 된다 . 또한 작은 단위의 연결에 의한 합성이 어려워 제한된 단어의 합성이 요구되는 음성 응답시스템에 많이 사용되고 있으나 무제한 어휘합성에는 부적당 )

Page 11: 12 장 .   음성 신호처리

Circuits & Systems Lab.

11

신호원 부호화

: 음성생성 모델에 근거를 둔 합성방법으로 음원의 특성과 음성의 스펙트럼을

재생하는데 목표를 둔다 . 신호원 부호화 방식으로 channel bank, formant, L

PC,

PARCOR, LSP, Cepstrum 등이 있다 .

12.3 음성합성

Page 12: 12 장 .   음성 신호처리

Circuits & Systems Lab.

12

3. 선형 예측법

12.3 음성합성

음성샘플을 x(i), (i=1,2, … ,n) 로 표시하면 음성파형과 이웃한 샘플간에 상관관계가 높음을 알 수 있다 . 즉 , x(n) 은 과거의 샘플 x(n-1), x(n-2), … ,x(n-M)과 어떠한상관을 가지므로 다음과 같이 과거의 M 개 샘플들과 선형결합으로 예측할 수 있다 . 선형 예측치

예측 오차신호

(12-3)

(12-4)

여기서 각 샘플들에 곱하여지는 계수 를 선형 예측계수라한다 . 이 선형 예측계수들은 예측 오차신호의 평균자승치가 최소가 되도록 정한다 .이때 는 상관행렬에 의한 방정식으로 주어진다 .

Page 13: 12 장 .   음성 신호처리

Circuits & Systems Lab.

13

12.3 음성합성

식 (12.4) 에서 예측 오차신호 f(n) 을 입력으로 하고 음성파형 x(n)을 출력으로 하는 필터의 입출력관계를 구해 보면 필터의 전달함수는 다음과 같이 전극 (all pole) 형태로 된다 .

(12-5)

식 (12.5) 의 디지털필터 -. 원리적으로는 항상 안정 -. 계수 감도가 높고 계수 오차 및 계수 양자화에 의해 불안정

Page 14: 12 장 .   음성 신호처리

Circuits & Systems Lab.

14

12.3 음성합성

선형 예측계수의 값은 분석 차수에 의존

-. 예 ) 차수 M 이 8에서 10으로 되면 만 구하면 되는

것이

아니고 , 처음부터 다시 계산을 하여야 한다 . -. 따라서 선형예측법에 의한 분석합성은 보통은 편상관 (PARtial CORrelation:PARCOR) 분석합성의 형태로 하는 경우가 많다 .

예측 오차신호는 일반적으로 복잡한 파형이 되지만 , 유성음 구간에는 거의 주기적이고 무성음 구간에는 불규칙적 ( 백색잡음 ) 으로 , 예측이 잘 되었을 경우에는 그 스펙트럼의 포락선은 거의 평탄한 형태로 된다 . => 이러한 필터의 진폭특성은 음성 스펙트럼의 포락 혹은 성도의 특성을 나타내게 된다 .

Page 15: 12 장 .   음성 신호처리

Circuits & Systems Lab.

15

12.3 음성합성 PARCOR 계수를 구하는 방법

음성파형에 대하여 시각 n 에서의 값 x(n) 이 x(n-1), x(n-2), …, x(n-m) 에 의해예측되는 것처럼 시간적으로 역의 관계에 있는 시각 n-(m+1) 에서의 값도 예측 가능하다 . 통상 전자를 전방 ( 前方 ) 예측 , 후자를 후방 ( 後方 )예측이라고 부른다 . 전방예측에 대한 예측계수를 이라 하면 예측치 및 예측오차 은 각각 다음과 같이 된다

(12-6)

(12-7)

Page 16: 12 장 .   음성 신호처리

Circuits & Systems Lab.

16

12.3 음성합성

후방예측에 대한 예측계수를 이라 하면 예측치 및 예측오차 은 각각 다음과 같이 된다

위의 식에서 전방 예측계수 과 후방 예측계수 는 음성의 상관함수에 의해 결정되는데 , 양자는

(12-8)

(12-9)

(12-10)

와 같은 관계가 있다

Page 17: 12 장 .   음성 신호처리

Circuits & Systems Lab.

17

12.3 음성합성

식 (12-7) 과 (12-9) 로부터 은 과 의선형결합으로 표시할 수 있다 . 즉 ,

이 때

이다 . where, : 반사계수

(12-11)

(12-12)

Page 18: 12 장 .   음성 신호처리

Circuits & Systems Lab.

18

12.3 음성합성

그림 12.4 PARCOR 합성필터의 기본단위

PARCOR 합성필터는 그림 12.4 에서 보는 것처럼 식 (12.12) 에 기초를 둔 격자 필터를 사용한다

PARCOR 계수 은

으로 되어 합성필터는 항상 안정하다

(12-13)

Page 19: 12 장 .   음성 신호처리

Circuits & Systems Lab.

19

12.3 음성합성 선형 예측법

-. 음성의 생성 모델이 전극 모델로 되어 있고 , 모델 계수의 결정을 위한 평가기준으로 예측오차의 단순한 형태인 자승평균 오차로 하고 있기

때문에 음성의 성질을 중시한 방법이라고는 할 수 없다 .

-. 그러나 분석합성을 위한 계산이 간단하고 하드웨어도 간단하며 합성 음성의 품질도 전체적으로 뛰어나 음성의 분석합성방법에서 중요한 위치를 차지하고 있다

PARCOR 분석을 보다 개량한 분석법 : 복합 정현파모델 분석법이나 선 스펙트럼쌍 (line spectrum pair) 등이 제안되어 있지만 , 이러한 것도 선형예측법 , PARCOR 분석법과 마찬가지로 성도의 공진 특성에 기초를 둔 분석법으로 계산량이 많아지기 때문에 실시간 처리를 위해서는 전용하드웨어로 하든가 고속의 DSP 를 이용해야만 한다

Page 20: 12 장 .   음성 신호처리

Circuits & Systems Lab.

20

12.4 음성부호화 아날로그 음성파형을 디지털화하는 기술

• 파형부호화 방식 -. 음성파형을 샘플링하여 양자화 -. 전송속도 : 16~64[kbps] -. 음질이 우수하여 일반 음성통신에 많이 사용• 보코딩 방식 -. 음성의 주기와 성도의 계수 등 음성의 특징만 추출하여 전송한 후 수신측에서 음성을 재생 -. 전송속도 : 50[bps]~4.8[kbps] -. 부호기가 복잡하고 음질에 문제점

• 혼합부호화 방식 -. 파형부호화 방식과 보코딩 방식의 이점만 사용 -. 전송속도 : 4.8~16[kbps] -. 모뎀을 사용해서 기존의 아날로그 회선으로 전송 가능 -. 음질은 일반적으로 파형부호화 방식보다는 떨어짐

Page 21: 12 장 .   음성 신호처리

Circuits & Systems Lab.

21

12.4 음성부호화1. 파형부호화 방식

선형 PCM 방식 -. 양자화 폭을 어떤 상수로 고정하여 선형으로 양자화하여 부호화 -. 파형부호화 방식 중 가장 많이 사용 -. 음성신호를 부호화하는데 있어 개념적으로 가장 간단한 방식 -. 제한된 대역폭 (300~3,400[Hz]) 의 음성을 8[kHz]로 표본화해서 레벨로 양자화한 뒤 부호화하여 64[kbps]로 송신

log PCM 방식

-. 대수적으로 일정하게 양자화하여 부호화 -. 선형 양자기에 비해 성능이 우수

적응형 PCM 방식

-. 양자화 폭을 고정하지 않고 신호의 크기에 적응하여 폭이 변하는 방식

-. 입력신호의 진폭에 따라 양자화기의 최소 및 최고 레벨을 조절해

줌으로써 PCM 의 성능을 향상

82

Page 22: 12 장 .   음성 신호처리

Circuits & Systems Lab.

22

12.4 음성부호화

예측 부호화 방식 -. 음성의 대역폭 축소를 위하여 음성신호의 여분을 이용 -. 과거에 들어온 음성신호의 샘플들로부터 다음에 들어올 신호의 크기를 예측하여 실제 입력 신호로부터 빼 줌으로써 오차신호를 발생시켜 이 신호를 양자화하여 전송 -. 이 오차신호의 진폭은 입력 음성신호의 진폭보다 훨씬 작기 때문에 그 만큼 양자화 레벨수도 줄어든다 -. ADPCM(Adaptive Differential Pulse Code Modulation), ADM(Adaptive Delta Modulation)

Page 23: 12 장 .   음성 신호처리

Circuits & Systems Lab.

23

12.4 음성부호화2. 보코딩 방식

그림 12.5 보코더 구조

전송속도 2.4~4.8[kbps]

Page 24: 12 장 .   음성 신호처리

Circuits & Systems Lab.

24

LPC 보코더 -. 일반적으로 음성신호와 같이 상호관계가 강한 신호는 일정한 수의 이전 샘플들로부터 다음 샘플의 값을 예측할 수 있다 . -. 예측되어지는 샘플들의 값은 이전 샘플값들의 선형결합으로 얻어진다 . -. 이때 예측 계수들은 음성샘플들의 예측된 값과 실제값의 오차를 최소화 시킴으로서 얻을 수 있다 -. 전송속도가 2.4[kbps] 일 경우 다른 보코딩 방식보다 음질이 우수 -. 주변환경에 잡음이 심하거나 음파왜곡이 있을 경우 음질이 급격히 저하

formant 보코더 -. 전송속도 500~1,200[bps] -. 유성음과 무성음의 구별 및 피치 주기를 찾는 점에서 LPC 보코더와 동일 -. 선형 예측계수 대신 주파수 영역에서의 공진점 즉 포만트의 주파수 및 그 진폭을 추출하여 전송함으로써 전송속도를 500[bps] 까지 낮추는 것이 가능

12.4 음성부호화

Page 25: 12 장 .   음성 신호처리

Circuits & Systems Lab.

25

3. 혼합부호화 방식

12.4 음성부호화

시간영역 부호기 -. 잔차구동형 선형예측 보코더 (Residual Excited LPC vocoder:RELP) -. 적응 예측부호기 (Adaptive Predictive Coder:APC) 주파수영역 부호기 -. SC(Subband Coder) -. ATC(Adaptive Transform Coder)

① 저역의 파형은 양자화오차의 범위내에서 정확히 재생된다 .

② 선형 예측분석보다 전대역의 스펙트럼 정보가 능률적으로 표현된다 .③ 피치 추출 , 유성음과 무성음의 판단이 불필요하기 때문에 주위 잡음의 추출 , 오차에 의한 품질열화를 막을 수 있다 .

장점

단점 : 시스템이 복잡

종류

: 펄스와 잡음을 음원으로하는 보코더 방식과 파형부호화 방식을 조합

Page 26: 12 장 .   음성 신호처리

Circuits & Systems Lab.

26

12.5 음성인식1. 음성인식의 단위

표 12.1 음성인식 단위의 장점과 단점

Diphone : 자음과 모음이 연결된 상태에서 각 음소의 중심에서 다음 음소의 중심까지

Page 27: 12 장 .   음성 신호처리

Circuits & Systems Lab.

27

12.5 음성인식2. 음성인식 시스템

대상구간의 음성구간 / 무음성구간의 구분 -. 음성인식 시스템의 성능 좌우

음성구간의 검출을 위한 수식

는 음성의 표본값

: 각 프레임의 대수 에너지와 미리 정해놓은 문턱치와 비교하여 문턱치를 넘는 구간이 음성으로서 타당한 길이 이상 계속될 때 음성으로 간주

음향 처리부 -. 음성인식을 하기 전에 연속음성으로부터 각각의 음운에 대응하는 이산적인 구분화 작업과 각 구간에 대한 음운 기호를 대응시키는 작업 ( 음운식별 )

Page 28: 12 장 .   음성 신호처리

Circuits & Systems Lab.

28

12.5 음성인식

그림 12.6 단어음성의 인식시스템

1) 단어음성 인식

단어의 수가 많은 경우

단어의 수가 적은 경우

DP(Dynamic Programming) 매칭법 : 발성의 길이가 서로 다른 두 개의 패턴 , 즉 표준패턴과 입력패턴을 최적으로 비선형 신축에 의해서 두 개의 패턴간의 유사도를 알아보는 방법

Page 29: 12 장 .   음성 신호처리

Circuits & Systems Lab.

29

12.5 음성인식2) 연속음성 인식

음성의 이해시스템 -. 연속음성에서는 몇 개의 단어가 연속으로 되어 있고 단어간의 경계도 명확하지 않을 뿐 아니라 단어를 구성하는 음절 혹은 음소의 계속 시간은 극히 짧고 그 음도 아주 애매한 경우가 많다 -. 이와 같은 음성을 분석하여 음성 하나하나를 정확히 인식하는 것은 극히 어렵기 때문에 화자를 한정하지 않을 경우의 자동인식은 거의 불가능하다 -. 그러나 목적에 따라서는 음성 하나하나 혹은 단어 하나하나 정확히 인식하지 못하더라도 음의 메시지 내용이 판단가능하다면 충분한 경우도 있다 -. 이와 같이 화자가 전달하고자 하는 의미의 내용을 이해시키고자 하는 것

연속음성의 인식시스템 -. 음성의 이해시스템과 마찬가지로 구문 ( 構文 ) 정보나 의미정보 등의 언어정보를 적극적으로 이용한 귀환에 의해 단어 레벨이나 구문 레벨에서의 에러정정 혹은 예측 등을 한다

Page 30: 12 장 .   음성 신호처리

Circuits & Systems Lab.

30

12.5 음성인식

DP 매칭법을 연속음성에 적용시킬 경우 단어 내에서 시간구조의 비선형 신축문제와 단어들간의 조합 문제가 대두된다 . => 이를 위하여 DP 매칭의 연속화가 필요한데 일반적으로 많이 사용되고 있는 것은 2단 DP 법과 연속 DP 법이다

그림 12.7 연속음성의 인식시스템

Page 31: 12 장 .   음성 신호처리

Circuits & Systems Lab.

31

12.5 음성인식3) 화자의 인식

그림 12.8 화자 인식시스템

화자의 조합 ( 照合 ) : 발성이 본인인가 아닌가 구별 . -. 서명 , 인감 , 신분증명서 그리고 면허증 등을 자신의 소리로 대신 화자추정 : 이미 등록되어 있는 음성 등록자 중에서 누구인가를 결정 . -. 범죄수사에서 전화 등으로부터 녹음된 음성을 다수의 용의자로부터 찾아내고자 하는 것이 화자의 추정이다 .

언어 정보에 대한 음성 인식시스템은 개인성 (personality) 의 영향을 가능한 제거할 필요가 있지만 , 화자 인식에서는 오히려 개인성을 중시하여 서로 다른 화자에 대해서는 차이가 크고 동일 화자에 대해서는 차이가 나지 않는 특징을 이용할 필요가 있다