2002. 2. 19 서강대 컴퓨터학과 이경님

15
2002. 2. 19 서서서 서서서서서 서서서 서서서서서서서 서서서 서서서 서서서 서서서서

description

음운변화현상을 반영한 한국어 발음열 자동생성. 2002. 2. 19 서강대 컴퓨터학과 이경님. 차례. 서론 한국어의 발음 변화 관련연구 한국어 음운변화 현상 분석 발음열 자동 생성 시스템 형태음운론적 분석에 기반한 문자열 - 발음열 자동변환 결론 및 향후 과제. 문자열. 감기. 솜이 불. 솜이. ( 음소 문맥 : ㅁ + ㄱ ). ( 음소 문맥 : ㅁ + ㅇ ). 발음열. 감기. 감끼. 솜니 불. 소미. ( 형태소 : 명사 ). ( 형태소 : 어간 + 어미 ). - PowerPoint PPT Presentation

Transcript of 2002. 2. 19 서강대 컴퓨터학과 이경님

Page 1: 2002. 2. 19 서강대 컴퓨터학과 이경님

2002. 2. 19

서강대 컴퓨터학과이경님

음운변화현상을 반영한 한국어 발음열 자동생성

Page 2: 2002. 2. 19 서강대 컴퓨터학과 이경님

2

Sogang University

SLP Laboratory

차례 서론 한국어의 발음 변화 관련연구 한국어 음운변화 현상 분석 발음열 자동 생성 시스템

– 형태음운론적 분석에 기반한 문자열 - 발음열 자동변환

결론 및 향후 과제

Page 3: 2002. 2. 19 서강대 컴퓨터학과 이경님

3

Sogang University

SLP Laboratory

한국어의 발음 변화 발음 변화 예제

– 학생 [ 학쌩 ], 학문 [ 항문 ], 법학 [ 버팍 ] – 신라 [ 실라 ], 음운론 [ 음운논 ]– 감기 ( 명사 ) [ 감기 ], 감기 ( 어간 + 어미 ) [ 감끼 ]– 겨울나그네 [ 겨울라그네 ] – 너는 산을 , 나는 바다를 [ 너는 사늘 , 나는 바다를 ]– 사적 ( 史蹟 ) [ 사적 ], 사적 ( 史的 ) [ 사쩍 ]

감기( 음소 문맥 : ㅁ + ㄱ )

감기 감끼( 형태소 : 명사 ) ( 형태소 : 어간 + 어미 )

솜이불

( 음소 문맥 : ㅁ + ㅇ )

솜니불 소미( 형태소 : 복합명사 ) ( 형태소 : 명사 + 조사 )

솜이문자열

발음열

Page 4: 2002. 2. 19 서강대 컴퓨터학과 이경님

4

Sogang University

SLP Laboratory

발음열 자동 생성의 필요성 음성 인식기

– 학습용 말뭉치 생성– 인식용 발음 사전 생성

음성 합성기– 입력 문장에 대해 발음열로 자동 변환 필요

수작업으로 인한 소비 시간의 절약 시스템 확장시 일관성 유지

Page 5: 2002. 2. 19 서강대 컴퓨터학과 이경님

5

Sogang University

SLP Laboratory

관련 연구 서강대 ( 규칙 기반 발음열 생성 )

– 전재훈 , 위선희 , 정민화 , “Generating Pronunciation Dictionary by Analyzing Phonological Variations Frequently Found in Spoken Korean”, International Conference on Speech Processing, 1997.

– 전재훈 , 차선화 , 정민화 , 박준 , 황규웅 , “Generating Korean Pronunciation Variants by Multistage Applications of Phonological Rules”, International Conference on Spoken Language Processing, 1998.

– 차선화 , 정민화 , “TTS 시스템을 위한 한국어 발음열 자동 생성” , 음성통신 및 신호처리 워크샵 , 1998.

– 이경님 , 전재훈 , 정민화 , “ 한국어 연속음성 인식을 위한 발음열 자동 생성” , 한국 음향학회지 , 2001.

Page 6: 2002. 2. 19 서강대 컴퓨터학과 이경님

6

Sogang University

SLP Laboratory

독일어 영역– M.-B. Wesenick , “Automatic Generation of German

Pronunciation Variants”, International Conference on Spoken Language Processing, 1996.

• 독일어에서 약 1500 개의 변이음 규칙을 이용하여 문자열을 발음열로 변환

한국어 영역– 김병창 , 이원일 , 이근배 , 이종혁 , “ 한국어 TTS

를 위한 무제한 단어 자소열 - 음소열 변환” , HCI’98 학술대회 , 1998.

• 형태소 - 음소열 말뭉치 CCV 음운변화 규칙 형태소 내부의 발음열 생성

• 형태소 - 음소열 메타사전 형태소 경계의 발음열 생성• 영역 전환시 , 새로운 영역의 형태소 - 음소열 말뭉치 필요

Page 7: 2002. 2. 19 서강대 컴퓨터학과 이경님

7

Sogang University

SLP Laboratory

한국어의 음운 변화 과정

학교

하꾜 (Ø+ㄲ)

학꾜 (ㄱ+ㄲ)

HH AA KQ KK J OW

입력(문자열)

음소 변동 규칙

변이음 규칙

출력(발음열)

ㄱㄱ++ㄱㄱ ( (음소음소 문맥문맥))필수 규칙

수의 규칙

학꾜 (ㄱ+ㄲ)

HH AA KK J OW

ㄱㄱ++ㄲㄲ ( (음소음소 문맥문맥))

Page 8: 2002. 2. 19 서강대 컴퓨터학과 이경님

8

Sogang University

SLP Laboratory

음운 변화 규칙 음소 변동 규칙

– 필수 음소 변동 규칙 • 반드시 적용되어야 하는 음운 변화 규칙• 형태소 내부 / 복합어 경계 / 어절 내부 / 형태소간 / 동사 어간 어미 경

계 / 어절 경계에 적용되는 음소 변동 규칙 틀

– 수의적 음소 변동 규칙• 발화의 형태에 따라 선택적으로 적용되는 규칙

변이음 규칙– 음소가 발화되는 위치에 따른 변이음 실현

음소 문맥에 따른 규칙 적용– 음절경계에서 규칙이 적용될 앞 음절 초성과 뒷 음절 종성의 음소

쌍을 음소 문맥으로 정의

Page 9: 2002. 2. 19 서강대 컴퓨터학과 이경님

9

Sogang University

SLP Laboratory

음소 변동 규칙 규칙번호 규칙의 종류 예제 세부

규칙수

1 음절말 중화 앞압 ( ㅍㅂ ) 179

2 자음군 단순화 흙흑 ( ㄺㄱ ) 256

3 격음화 ( 기식음화 ) 좋던조턴 ( ㅎ + ㄷ d+ ㅂ ) 21

4 연음규칙 밥이바비 ( ㅂ + ㅇ d+ ㅂ ) 42

5 유음화 난로날로 ( ㄴ + ㄹㄹ + ㄹ ) 10

6 장애음의 비음화 국물궁물 ( ㄱ + ㅁㅇ + ㅁ ) 34

7 유음의 비음화 담력담녁 ( ㅁ + ㄹㅁ + ㄴ ) 19

8 구개음화 굳이구지 ( ㄷ + ㅇ d+ ㅈ ) 3

9 경음화 국밥국빱 ( ㄱ + ㅂㄱ + ㅃ ) 136

10 종성 ㅎ - 탈락 좋은조은 ( ㅎ + ㅇ d+ ㅇ ) 1

11 ㄴ - 첨가 솜이불솜니불 ( ㅁ + ㅇ ㅁ +ㄴ )

30

12 동일 조음위치 자음탈락 주먹코주머코 ( ㄱ + ㅋ d+ㅋ )

7

13 중복 자음화 재빨리잽빨리 (Φ+ ㅃㅂ +ㅃ )

6

14 변자음화 감기강기 ( ㅁ + ㄱㅇ + ㄱ ) 17

15 초성 ㅎ - 탈락 시험시엄 (Φ+ ㅎ Φ+d) 5

16 자음 첫소리 ‘의’ 모음화 희망히망 ( ㅢㅣ ) 18

17 용언의 활용형 ‘져 , 쪄 , 쳐’의 모음화

가져가저 ( ㅕㅓ ) 3

상태전이 형태 규칙틀 사용

• 필수음운변동 규칙 - 1~11 번 규칙 - 16~17 번 규칙

• 수의적 음운변동 규칙 - 12~15 번 규칙

Page 10: 2002. 2. 19 서강대 컴퓨터학과 이경님

10

Sogang University

SLP Laboratory

세부 음소 변동 규칙 표현 예 : 장애음의 비음화 규칙 일부 ( 총 34 중 3 개 )

형태소 내부 음소 변동 규칙 틀의 일부 예제

음소문맥 변환코드 적용범위 L3 R1 L3 R1

규칙번호

세부규칙번호 어/형/복/내/수/다

ㄱ ㄴ ㅇ ㄴ 1 111100

ㄱ ㅁ ㅇ ㅁ 2 001100

ㄲ ㄴ ㅇ ㄴ

6

3 111100

19 개의가능한 초성

27 개의 가능한 종성

적용 규칙 번호

적용 플래그

ㅆ ㅇ ㅈn p s

8.1ㄷ

0.09.30

n n nㄹ

d d d2.40 2.42 9.35ㄺ

2.52 2.53 9.100

Page 11: 2002. 2. 19 서강대 컴퓨터학과 이경님

11

Sogang University

SLP Laboratory

발음열 자동 생성 알고리즘

필수음소변동규칙

조합형 예외사전

텍스트 분석 및 전처리

예외사전 검색

형태소 태그 ?

명사(default)프로세서

복합어프로세서

조사프로세서

어간프로세서

어미프로세서

1 차 변형된 음소열

수의적 음소변동 적용

변이음 규칙 적용

텍스트 입력

최종 결과 출력(Phonetic Transcription)

• 적용된 변이음 규칙 - 유성음화 , 무파화 , 구개음화

형태음운론적 분석에 기반한 문자열 - 발음열 자동변환

• 다중 발음열 생성

( 형태소 분석 결과 이용 )

• 음소 문맥별 세부 규칙수 총 787 개

( 필수 752 + 수의 35)

Page 12: 2002. 2. 19 서강대 컴퓨터학과 이경님

12

Sogang University

SLP Laboratory

음소 변동 규칙 적용 과정

입력 : 신발을 신고 걸어 간다입력 : 신발을 신고 걸어 간다

S I Y N B AA R( )신바ㄹ

S I Y M B AA R( )심바ㄹ

WW L( )을

SS I Y N( )씬

S I Y NX( )싱

KK OW( )꼬

G AX R( )거ㄹ

AX( )어

G AA( )가

N D AA( )ㄴ다

/ ncn신발 / j co을 / pvg신 / ecc고 / pvg걷 / ecs어 / pvg가 / efㄴ다

변자음화 연음 경음화 - ㄷ 불규칙처리

변자음화 연음

Page 13: 2002. 2. 19 서강대 컴퓨터학과 이경님

13

Sogang University

SLP Laboratory

입출력 예제단위 입력형태 출력형태

( 디코딩 & 사전표제어 단위 )

단어 하한가에 백칠십주를매수하겠습니다

[ 하한까 ] HH AA HI AA N KK AA[ 에 ] EY[ 백칠씹 ] P EH KQ CH IY L SS IY PQ[ 주 ] Z UW[ 를 ] R WW L[ 매수 ] M EH S UW[ 하 ] HH AA[ 겓씀니다 ] K EY TQ SS WW M N IY D AA

어절 하한가에백칠십주를매수하겠습니다

[ 하한까에 ] HH AA HI AA N KK AA EY[ 백칠씹쭈를 ] P EH KQ CH IY PQ ZZ UW[ 매수하겓씀니다 ] M EH S UW HI G EY TQ SS WW M N IY D AA

태깅된 어절

하한가 /ncn+ 에 /jca170/nnn+ 주 /nbu+ 를 /jco매수 /ncpa+ 하 /xsv+ 겠 /ep 습니다 /ef

전처리기 동작후 입력하한가 /ncn+ 에 /jca백 /nnc+ 칠십 /nnc+ 주 /nbu+ 를 /jco매수 /ncpa+ 하 /xsv+ 겠습니다 /ef

[ 하한까 ] HH AA HI AA N KK AA[ 에 ] EY[ 백 ] P EH KQ CH IY [ 칠씹 ] CH IY L SH IY PQ[ 쭈 ] ZZ UW[ 를 ] R WW L[ 매수 ] M EH S UW[ 하 ] HI AA[ 겓씀니다 ] G EY TQ SS WW M N IY D AA

문장 하한가에 백칠십주를 매수하겠습니다

[ 하한가에 ] HH AA HI AA N KK AA EH[ 백칠씹쭈를 ] B EH KQ CH IY L SS IY PQ ZZ UW R WW L[ 매수하겓씀니다 ] M EH S UW HI G EY TQ SS WW M N IY D AA

Page 14: 2002. 2. 19 서강대 컴퓨터학과 이경님

14

Sogang University

SLP Laboratory

결론 발음열 생성 시스템의 장점

– 어절 , 언절 , 문장 등 다양한 입력에 대해 발음열로 변환– 형태소 경계 및 어절 경계에서의 음운 변화 현상 반영– 음성 인식 및 합성에 유용

요약– 형태음운론을 반영한 발음열 자동 생성– 형태소 분석기 통합을 통한 사용자 편의성 도모– 불규칙 처리를 통한 오류 감소– 실험을 통한 예외 사전 축소 , 규칙 안정화– 최적의 발음 사전 구축

Page 15: 2002. 2. 19 서강대 컴퓨터학과 이경님

15

Sogang University

SLP Laboratory

결론 향후 과제

– 생략과 축약이 빈번한 대화체의 음운 변이를 위한 형태소 분석 필요

– 발음열 학습을 통한 최적 발음열 생성• 발음열 변환기를 통한 표준 발음열 생성• 음성 데이터 전사 수작업을 통한 실제 발화 발음열

획득• 표준 발음열과 실제 발화 발음열을 사용한 학습• 학습 결과를 음성 사전에 반영