Řečové technologie – výzkum a využití

Honza ČernockýBUT Speech@FIT

Fakulta informačních technologií VUT v Brně

ZRE #1, 14.2.2014

Page 2: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 2/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 3: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 3/54

Kdo jsme - Speech@FIT

• Skupina založena v 1997 (1 člověk)• ~20 lidí v 2012

• Fakultní posice

• Výzkumníci na projektech

• PhD a mladší studenti

• Podpora

Bosses:

Výzkum:Lukáš Burget

Management:Honza Černocký

Guru:Hynek

Heřmanský

Page 4: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 4/54

• Faculty (faculty members, research funds)• EU projects (FP[4567])

• Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weKnowIt, DIRAC, GLOCAL

• Running: ApiMod• US funding – Air Force EOARD, IARPA,

DARPA• Local funding agencies - Grant Agency of

CR, Technology Agency of CR, Ministries of Education, Trade and Commerce, Defense, Interior

• IT4I supporting academia-industry cooperation

Funding ~ 1 M$ / year – the usual slide

Page 5: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 5/54

Steel and soft …

HW • Blade centers with 2400

CPU cores+ Many more computers

in class-rooms+ GPUs

• >120 TB of disk space• Professional

administration by Center of Computing Resources.

SW• commercial (Matlab)• free (HTK, SGE)• own (TNet, STK,

KALDI)

Page 6: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 6/54

Co děláme ?

Automatická extrakce informací ze spontánní řeči

Rozpoznávání mluvčího

Rozpoznávání pohlaví

Rozpoznávání jazyka

Rozpoznávání řeči

Identita

Pohlaví

Jazyk

Přepis

Jan Novák

Muž nebo žena

Angličtina ? Němčina ?

Sejdeme se u Pavouka.

Detekce klíčových slov

Detekce “Pavouk”

Řeč

7/54

Evaluace

• “Úspěšnost 100% ? Jasně!” … pokud si sami definujeme data, podmínky a evaluační metriky.

• NIST – agentura vlády USA http://www.nist.gov/speech • Pravidelné „benchmark campaigns“ – evaluace – řečových

technologií• Všichni účastníci mají ta samá data a stejný časový rámec na

jejich zpracování a zaslání výsledků => objektivní hodnocení• Výsledky a detaily systémů jsou diskutovány na NIST

workshopech • BUT Speech@FIT se účastní …

• Transcription 2005, 2006, 2007, 2009 • Language ID 2003, 2005, 2007, 2009, 2011• Speaker Verification 1998, 1999, 2006, 2008, 2010, IARPA 2011• Spoken term detection 2006

• Proč to děláme? • Porovnání s ostatními, zajištění (občas i definice ) „state of the

art“• Nechceme dělat hovadiny, které lidé vyzkoušeli a nefungovaly.

Page 8: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 8/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 9: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 9/54

Trochu detailněji – jak se dělá rozpoznávač ?

• Podle obecného receptu z jakékoliv knihy o detekci nebo rozpoznávání …

Nasbírat data

Zvolit parametry

Zvolit model

Natrénovat model

Evaluaovat klasifikátor

Apriorní znalost problému

nasazení

Page 10: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 10/54

Klasifikace a rozpoznávání

IKR pondělí 13:00 do 16:00, D0206

Lukáš Burget

Page 11: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 11/54

A co je výsledkem ?

Už jste asi viděli …

Výpočet příznaků

Vyhodnocení pravděpodobnos

tí nebo věrohodností

(skóre hypotéz)

Modely

“Dekódování”vstup rozhodnutí

Page 12: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 12/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 13: Řečové technologie – výzkum a využití

13/54

Nejjednodušší případ – rozpoznávání pohlaví (GID)• Nejjednuší aplikace pro

implementaci, trénování a nasazení.

• … a také nejpřesnější (>96% na reálných kanálech)

• Omezení vyhledávacího prostoru na 50%

Page 14: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 14/54

Jak se dělá ?

Vyhodnocení GMM skóreMFCC

vstup

Gaussian Mixture

models – kluci, holky

Rozhodnutí

kluk, holka

Page 15: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 15/54

Parametry – Mel frekvenční cepstrální koeficienty

• Signál není stacionární => rámce

• A slyšení není lineární – banka filtrů a log.

Page 16: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 16/54

Matice parametrů O – sada čísel každých 10ms

Page 17: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 17/54

Vyhodenocení skóre kluků a holek

• Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami

• Vyhodnocení modelu nad maticí parametrů O:

Page 18: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 18/54

Rozhodnutí - „dekódování“

Page 19: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 19/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 20: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 20/54

Rozpoznávání mluvčího

• Verifikace• Je pan Vopička v nahrávce opravdu pan Vopička ?• Enrollment• Test

• Identifikace• Mám nahrávku, kdo to je ?

• Search• Najít pana Vopičku v tisících hovorů

Identifikace i search se dají převést na N krát verifikaci.

Page 21: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 21/54

Základní schéma

• 2 hypotézy• H0: mluvčí v testovací nahrávce není ten,

kterého jsme viděli v enrollmentu. • H1: mluvčí v testovací nahrávce je ten, kterého

jsme viděli v enrollmentu.

• Log likelihood ratio

Page 22: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 22/54

Parametry

Page 23: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 23/54

GMM

• Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami

• Vyhodnocení modelu nad maticí parametrů O:

Page 24: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 24/54

UBM – background model

• Na co je ?• Produkuje likelihood hypotézy H0 „toto není cílový

mluvčí“ – nutné pro normalizaci. • Adaptuje se z něj model cílového mluvčího,

protože pro plné trénování není dost cílových dat.

• Jak se trénuje ? • Ideálně na nahrávkách všech >8.000.000.000 lidí,

každý z několika různých kanálů. • Reálně na stovkách mluvčích z dostupných

databází (LDC, dotrénování na cílová data).

Page 25: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 25/54

Inter-session variability

• Popsaný systém • dokáže postavit průměrně zdatný student s Matlabem za půl dne

(IKR). • Bude uspokojivě fungovat, pokud bude koherence mezi

enrollmentem a testováním.

• ALE ONA NENÍ - Inter-session variabilita• Variabilita mluvčího

• Jazyk• Emoce, stres, Lombard effect• Zdravotní stav • Obsah promluvy, atd

• Variabilita mimo mluvčího• Šum• Přenosový kanál – mikrofon, kodek, záznamové zařízení…

• Toto vše snižuje přesnost systému.

• Vyhrává ten, kdo• Dokáže lépe popsat DOBROU VARIABILITU (rozdíly mezi mluvčími)• Dokáže lépe zničit ŠPATNOU (inter-session) VARIABILITU

Page 26: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 26/54

Boj s inter-session variabilitou

Front-end processing

Target modelTarget model

Background model

LR scorenormalization

Adapt

Feature domain Model domain Score domain

• Noise removal

• Tone removal

• Cepstral mean subtraction

• RASTA filtering

• Mean & variance normalization

• Feature warping

• Speaker Model Synthesis

• Eigenchannel compensation

•Joint Factor Analysis

• Nuisance Attribute Projection

• Z-norm

• T-norm

• ZT-norm

•Feature Mapping

•Eigenchannel adaptation in feature domain

2006

Page 27: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 27/5427

Vysoká inter-session

variabilita

Vysoká variabilita

mezi m

luvčími

UBM

Model cílového mluvčího

Příklad: jedna Gaussovka s 2D parametry

Princip kompensace ŠPATNÉ variability 1.

Page 28: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 28/5428

Vysoká inter-session

variabilita

Vysoká variabilita

mezi m

luvčími

UBM

Target speaker model Test data

Rozpoznávání: nech oba modely pohybovat ve směru vysoké inter-session variability a nastav je tak, aby dávaly co nejvíce pro testovací data

Princip kompensace ŠPATNÉ variability 2.

Page 29: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 29/54

Boj s inter-session variabilitou

Front-end processing

Target modelTarget model

Background model

LR scorenormalization

Adapt

Feature domain Model domain Score domain

• Noise removal

• Tone removal

• Cepstral mean subtraction

• RASTA filtering

• Mean & variance normalization

• Feature warping

• Speaker Model Synthesis

• Eigenchannel compensation

•Joint Factor Analysis

• Nuisance Attribute Projection

• Z-norm

• T-norm

• ZT-norm

•Feature Mapping

•Eigenchannel adaptation in feature domain

2008

Page 30: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 30/54

Od složitého k jednoduchému – total variability

• i-vectors• Zjednodušená verze JFA, s jediným podprostorem, který

definuje celkovou variabilitu (nerozlišujeme dobrou a špatnou)

• Podobně jako u speaker/channel faktorů nám jde o representaci nahrávky pomocí malého počtu parametrů.

• Už při jednoduchém skórování pomocí skalárního součinu i-vektorů dostáváme výsledky lepší než plná JFA

• iVectors?

2009-2010

i-vectors !

Page 31: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 31/54

Od jednoduchého zase ke složitému - PLDA

• Probabilistic LDA• i-vectors jsou samy modelovány pomocí

zjednodušené verze JFA. • Inspirace [Prince ’07] PLDA pro verifikaci obličejů

• Model, který umožňuje• Rychlé skórování

• Nejprve extrakce i-vectoru – “voice/print”• Pak jednoduché srovnání

• Symetrické skórování – enrollment vs. test => skóre pro pár dvou nahrávek

• Funguje pro krátké nahrávky• Velmi zajímavé pro masivní zpracování dat

• N nahrávek proti M mluvčím, Speaker clustering • Dříve: 10ky – 100ky párů nahrávka/model za 1s na

1 CPU• Nyní: desetitisíce• Dá se ořezat, dokonce máme demo na mobilu.

Page 32: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 32/54

NIST SRE 2006 - STBU

• BUT

• STBU consortium • BUT• Spescom

datavoice• TNO

Page 33: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 33/54

NIST SRE 2008

Page 34: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 34/54

NIST SRE 2010

ABC systém: • Agnitio (Jižní

Afrika)• BUT• CRIM (Kanada)

2012 (také ABC)• Také moc dobré!

Page 35: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 35/54

NIST SRE 2012

ABC system

Page 36: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 36/54

Jak to ?

• Umíme teorii klasifikace a rozpoznávání vzorů. • Jsme v kontaktu s lidmi, kteří jsou světovými

špičkami – Patrick Kenny, Niko Brümmer, další. • dokážeme rychle implementovat nové nápady,

a testovat• Analyzujeme výsledky a přemýšlíme o nich• Dokážeme se dívat mimo obor (uvnitř

zpracování řeči – rozpoznávání jazyka, přepis, detekce klíčových slov) i jinde (grafika - Prince) a rychle aplikovat nápady.

• A máme hodně POČÍTAČŮ, takže kolegy občas pobijeme HRUBOU SILOU.

Page 37: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 37/54

Spolupráce v rozpoznávání mluvčího

Komunita• NIST SRE 2010 workshop na FITu. • Odyssey 2010: The Speaker and Language

Recognition Workshop také na FITu. • BOSARIS – 5ti týdenní výzkumný workshop v

červenci (incl. Patrick Kenny a Niko Brümmer) také na FITu.

• Software pro svět: • JFA demo na http://speech.fit.vutbr.cz/software • BOSARIS toolkit

http://speech.fit.vutbr.cz/workshops/bosaris2010

• Lidi, co se jezdí naučit JFA, i-vectors, a spol.

Page 38: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 38/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 39: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 39/54

Identifikace jazyka - LID

• Jakým jazykem se mluvilo

LID

Page 40: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 40/54

Dva hlavní přístupy

• Akustika – zase Gaussovky …

• Fonotaktika – fonémový rozpoznávač + fonotaktický model.

Page 41: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 41/54

Na čem trénovat LID ?

• Nahrávky (mnoho) daného jazyka. • Možnost automatického získávání

• detekce telefonních hovorů v internetových archívech vysílání

• Pomoc LDC pro NIST LRE 2008• Projekt US Air Force EOARD. • Dá se i u klienta na ostrých datech.

• Současná práce• JFA, i-vectors a spol. – i v LID je nutné bojovat s

inter-session (a tentokrát i s inter-speaker) variabilitou.

Page 42: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 42/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 43: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 43/54

Přepis řeči na text

• Voice2text V2T• Speech2text S2T• Large vocabulary continuous speech recognition

LVCSR

Výpočet příznaků

Vyhodnocení pravděpodobnos

tí nebo věrohodností

(skóre hypotéz)

Akustické modely

“Dekódování”vstup rozhodnutí

Jazykový model

Výslovnostní slovník

Rozponávací SÍŤ

Page 44: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 44/54

Rozpoznávací síť

Page 45: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 45/54

Na čem se trénuje V2T ?

• Závislé na jazyce a na doméně • Problémem je fonetická sada a slovník

• Snaha o přístupy, které budou pracovat automaticky

Korpus mluvené řeči + textové popisy

Fonetická sada, výslovnostní slovník

Textový korpus

Systém pro rozpoznávání řeči

Page 46: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 46/54

BABEL

• IARPA projekt • Jazyky pro 2013

• Cantonese• Turkish• Pashto• Tagalog• Surprise - Vietnamese

• 2014• Bengali• Assamese• Zulu• Haiti Creole• Lao

• Surprise ??

Page 47: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 47/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 48: Řečové technologie – výzkum a využití

48/54

Přístupy• Akustický KWS• Prohledávání výstupu LVCSR • Prohledávání výstupu LVCSR s

pod-slovními (sub-word) jednotkami

Detekce klíčových slov - KWS

• Co ? Kde ? S jakou konfidencí ? • Model klíčového slova vs. anti-model.

Volby:• Jaký je požadovaný poměr

mezi rychlostí a přesností ?• Bude se zpracovávat jen

jednou (taktické aplikace) nebo prohledávat (intelligence) ?

• Vadí nám slova mimo slovník - Out of Vocabulary (OOV) words?

Page 49: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 49/54

Akustika

není problém s OOVs Indexování není možné až 0.01xRT Nemá sílu jazykového

modelu, problém s krátkými slovy.

• Model klíčového slova proti modelu pozadí

• Bez modelu jazyka

Page 50: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 50/54

Prohledávání výstupu LVCSR

rychlost vyhledávání přesnější na častých

slovech limitován slovníkem LVCSR

vocabulary – OOV problém LVCSR je složitější a

pomalejší než jen akustika.

• LVCSR, pak vyhledávání• V 1-best nebo lattici. • Možnost indexování !

Page 51: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 51/54

Prohledávání výstupu LVCSR + sub-words

Zachována rychlost vyhledávání

Zachována přesnost na častých slovech.

Dají se vyhledávat OOV – bez nového zpracování dat!

LVCSR a indexování jsou složitější.

• LVCSR se slovy a pod-slovními jednotkami

• Indexování slov i pod-slovních jednotek

Page 52: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 52/54

Agenda

• skupina Speech@FIT• klasifikace a rozpoznávání vzorů• jak to funguje - detekce pohlaví• rozpoznávání mluvčího• identifikace jazyka• přepis řeči na text• detekce klíčových slov• organisace a projekty

Page 53: Řečové technologie – výzkum a využití

ZRE#1, Honza Černocký 14.2.2014 53/54

Výzkum, vývoj a produktizace a jejich výstupy

Výzkum

Vývoj technologií

Vývoj produktů

• Články, reporty, experimentální kód (Matlab, C++, lepidlo ve skriptech), datové soubory• Cílem je přesnost • Opakovatelnost, stabilita, rychlost, dokumentace

• Cílem je stabilita (zpracování chyb, verifikace kódu, testování na různých úrovních)• Pravidelné vývojové cykly a plánování• Dobře definovaná rozhraní (APIs)• Dokumentace

• Integrace s dalšími technologiemi • Zaměření na funkcionalitu integrovaného řešení • Uživatelská rozhraní