TTS 技術の概要

21
TTS 技技技技技 1. TTS 技技 2. TTS 技技技技技 3. TTS 技技技技技技技 4. 技技技技 5. F0 技技技 6. 技技技技 7. 技技技技技技 8. 技技技技技技技技技技技技技技技技技技技技 9. Tone Sequence Theory 10. ToBI 技技 J-ToBI 11. 技技技技 12. 技技技技 13. 技技技技技技 14. PSOLA 15. 技技技技技技技技技技 16. TTS 技技技技技 17. TTS 技技技技技技技技 技技 技技 06/30/2000

description

TTS 技術の概要. 桜井 淳宏 06/30/2000. 1. TTS とは 2. TTS 技術の応用 3. TTS システムの流れ 4. 基本概念 5. F0 モデル 6. 韻律記号 7. 規則音声合成 8. 統計的手法に基づくイントネーションモデル 9. Tone Sequence Theory 10. ToBI 及び J-ToBI 11. 音声合成 12. 合成方式 13. 波形編集方式 14. PSOLA 15. フォルマント合成方式 16. TTS 技術の評価 17. TTS 技術の現在と未来. TTS(テキスト音声変換). - PowerPoint PPT Presentation

Transcript of TTS 技術の概要

Page 1: TTS 技術の概要

TTS 技術の概要

1. TTS とは2. TTS 技術の応用3. TTS システムの流れ4. 基本概念5. F0 モデル6. 韻律記号7. 規則音声合成8. 統計的手法に基づくイントネーションモデル9. Tone Sequence Theory10. ToBI 及び J-ToBI11. 音声合成12. 合成方式13. 波形編集方式14. PSOLA15. フォルマント合成方式16. TTS 技術の評価17. TTS 技術の現在と未来

桜井 淳宏 06/30/2000

Page 2: TTS 技術の概要

TTS(Text-to-Speech)

TTS System入力文 出力音声

TTS(テキスト音声変換)

TTS 技術の応用現在•E-mail の自動読み上げ•手足が忙しいときの自動読み上げ•WWW コンテンツの読み上げ•文章作成の支援ツール•言語教育•お年寄りや障害者の支援ツール•自動車環境内のヒューマンインタフェース

将来•対話システム(音声認識システムとの組合わせ)•自動通訳システム

テキスト 概念

Page 3: TTS 技術の概要

入力文

テキスト解析

形態素解析構文解析

音韻処理・韻律処理

音韻記号列+韻律記号列の生成

音声合成

波形編集またはフォルマント合成

音声信号

TTS システムの流れ

読み形態素情報アクセント型

単語辞書文法

アクセント辞書韻律ルール

音声データベース

音韻記号列韻律記号列

Page 4: TTS 技術の概要

基本概念(1):モーラ、アクセント型

トモダチ

フジサン

イロガミ

カガリビ

オトート

0型

1型

2型

3型

4型

平板型

中高型

尾高型

Page 5: TTS 技術の概要

基本概念(2):分節的特徴&韻律的特徴

分節的特徴( segmental features ):音韻記号( phonological symbol )に置き換えられる

韻律的特徴( prosodic features ):声の抑揚を表し、物理的には次の特徴量として表現される

基本周波数パターン( F0 パターン)音素の持続時間の推移パワーパターン

(韻律的特徴は超分節適特徴ともいわれる)

マイクロプロソディ:観測できるが、聴覚的には意味のない小さな変動

Page 6: TTS 技術の概要

Easy Q&A

質問 Q1 : What is アクセント核( accent nucleus )?

質問 Q2 :モーラ数が n のとき、アクセント型は何個あり得ますか?

Page 7: TTS 技術の概要

F0 Contour Model

lnF0(t) lnF

minApiGpi(t T )

i 1

IAaj{Gaj(t T

1j)

j 1

JGaj(t t

2j)}i

0

G tt

t

G tt

t

piit it

ajjt jt

( )exp( ) ( )

( )

( )min[ ( ) exp( ), ] ( )

( )

0

0 0

1 1 0

0 0

Page 8: TTS 技術の概要

Type of Command Symbol Initial Value

Phrase Command P1P2P3P0 (reset)

0. 350.250. 15

Accent Command(flat type)

FHFLFLL

0. 50.250.10

Accent Command(rise-and-fall type)

DHDLDLLA0 (reset)

0. 50.350. 15

韻律記号

Page 9: TTS 技術の概要

規則音声合成

入力文

形態素解析韻律結合音韻結合

フレーズ境界決定

音韻記号韻律記号

音声合成

音声

「昔話」むかし 普通名詞0型

はなし普通名詞0型

P1 mu DH ka shi ba A0 na shi P0

P1, FL, A0: 韻律記号mu, ka, shi, ba, na: 音韻記号

読み形態素アクセント型

構文解析

単語辞書 アクセント型辞書

Page 10: TTS 技術の概要

演習問題

長崎は今日も雨だった

Page 11: TTS 技術の概要

統計的手法に基づくイントネーションモデル

規則音声合成の問題点

•イントネーションに関するルールにはヒューリスティックな部分が大きい•ルールの作成が困難•新しいシステムの作成に伴うコストが高い

統計的な手法の導入

•ヒューリスティックスを統計的手法に置き換える•規則化できない部分も学習可能

Page 12: TTS 技術の概要

Prosodic Database

Statistical TrainingTTS intonation m

odel

TextSpeechLinguistic featuresProsodic features

TTS IntonationModel

Text TTS System F0 contour (intonation)

統計的手法に基づくイントネーションモデル

1) Training

2) Synthesis

Page 13: TTS 技術の概要

Tone Sequence Theory

Prosodic word (BI=2)

Intermediate phrase (BI=3)

Intonational phrase (BI=4)

L+H*

L*+H

H+L*

H*+L

L*

H*

%H

%L

H-

L-

H%

L%

Initial boundarytones

Pitch accenttones

Phrase accenttones

Final boundarytones

Page 14: TTS 技術の概要

ToBI 及び J-ToBI

韻律的特徴の記述法記述はあくまでも定性的

4つの層orthographic tiertone tierbreak index tiermiscellaneous tier

ToBIに基づくイントネーションモデルまずデータベースを作成統計的な手法で F0 range を求めるToBI に基づく韻律イベントと F0 range をもとに、 target point を決定Target point を直線、スプラインなどで補完する

問題点ラべリング作業が大変F0パターンを生成できるが、物理的根拠がない

Page 15: TTS 技術の概要

音声合成

韻律記号

音韻記号 合成器 音声

歴史1791年: von Kempelen による機械式音声合成器1939年: Dudley による Voder1970年: Klatt によるフォルマント合成器1984年: F0 生成モデル(藤崎&広瀬)1986年: PSOLA(Charpentier, F. and Moulines, E.)1995年: CHATR(Black,A. and Campbell,N.)

Page 16: TTS 技術の概要

合成方式

フォルマント合成方式音声信号の共振周波数を実現する方式

波形編集方式波形データベースから音声を切り取ってつなぐ方式

その他声道アナログ合成方式パラメータ結合方式( LPC )Sinusoidal Modeling

Page 17: TTS 技術の概要

波形編集方式

韻律記号音韻記号

音声データベース

音声単位選択

音韻環境(前後の音素)接続環境( F0, パワー)

音声単位の加工、接続 (PSOLA等 )

音声

Page 18: TTS 技術の概要

PSOLA

Pitch-Synchronous Overlap-Add

a) Original

b) F0 increase

c) Duration increase

利点:簡単速い

欠点:Pitch Marking が必要合成単位の接続にクリップ音が生じる

Page 19: TTS 技術の概要

GLOTTALGENERATOR

FRICATIVEGENERATOR

IMPULSEGENERATOR

AF

AS

AG

AN

AA

+

NASAL PATH

VOWEL PATH

FRICATIVE PATH

STOP PATH

+

F0

OUTPUT

フォルマント合成方式

Page 20: TTS 技術の概要

TTS 技術の評価ガイドライン:JEIDA Guideline for Speech Synthesizer Evaluation, 3/95

テキスト解析の評価•漢字かな変換•形態素解析の誤り

明瞭制•音素・単語・文

自然性•韻律的特徴•分節的特徴•好ましさ

Page 21: TTS 技術の概要

TTS 技術の現在と未来 入力文

テキスト分析

形態素解析構文解析

音韻処理・韻律処理

音韻記号列や韻律記号列の生成

音声合成

波形編集またはフォルマント合成

音声信号

読み形態素情報アクセント型

単語辞書文法

アクセント辞書韻律ルール

音声データベース

音韻記号列韻律記号列

•形態素解析とテキスト分析•コーパスを用いた音韻・韻律情報の生成•合成単位の選択・接続方式•音声分析と生成モデル(フォルマント方式)•対話音声の韻律的特徴(感情、卓立など)•アプリケーション(対話システム、音声認識技術との組合わせ)•評価•etc., etc.