NTNU Telecommunications
Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status
Magne H. Johnsen, Teleteknikk
NTNU Telecommunications
Hva inngår i taleteknologi
• Talekoding
• Talesyntese
• Talegjenkjenning
• Talebaserte dialogsystemer
• Andre felt:– Talergjenkjenning (stemmegjenkjenning)
– Taleanalyse og taleforbedring
– Språkbank/databaser
NTNU Telecommunications
Samarbeid og finansiering
• Finansiering : – NFR, Telenor FoU, NRK, ...
• Faglig samarbeid : – Telenor FoU
– SINTEF
– NTNU
NTNU Telecommunications
Historikk - talekoding
• Perioden 1975 – 1990
• Hva er talekoding:– Metoder for komprimering av digitalisert tale
anvendt innen telefoni og lignende.
• Eksempler på arbeid ved NTNU/SINTEF:– GSM (mobiltelefoni)
– Bildetelefon
– INMARSAT (maritim satelitt-telefon)
NTNU Telecommunications
Historikk – talesyntese (TTS)
• Perioden 1985-1990 & 2003-2006– Hva er talesyntese : Tekst til tale
– Eksempel på arbeid :
» Første versjon av Talsmann
– Framtidig arbeid:
» KUNSTI- FONEMA 2003 -2006
NTNU Telecommunications
Historikk talegjenkjenning
• Perioden 1985 – nå– Hva er talegjenkjenning : Tale til tekst
og/eller mening
– Eksempler på arbeid :» Teksting av direktesendte TV-programmer
» Diverse gjenkjennere i TABUSS/SPODIS dialogsystemet
– Framtidig arbeid :
» MOBEL 2002-2004
» BRAGE 2002-2006
NTNU Telecommunications
Historikk dialogsystemer
• Perioden 1997 – nå
• Hva er et dialogsystem:– Menneske – maskin kommunikasjon
– Talebasert brukergrensesnitt
– Lingvistisk og semantisk kunnskap!
• Eksempler på arbeid:– TABUSS/SPODIS
• Framtidig arbeid– BRAGE 2002 - 2006
NTNU Telecommunications
Talesyntese - FONEMA
• Dagens TTS for norsk er for dårlig for mange anvendelser.
• Datadrevet bølgeformsyntese gir bedre løsning.
• Talestil, dialekt, ”personlighet” etc. i den syntetiserte talen påvirkes av tale-databasen.
• Metoden krever innsamling og bearbeiding av store mengder taledata.
NTNU Telecommunications
Mål for FONEMA
• Lingvistisk modell for prosodi i norsk til bruk i talesyntese
• Automatiserte prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser
• En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse
• En demonstrator med stemmer tilpasset noen ulike anvendelser
• Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk (dialekter)
NTNU Telecommunications
Teksting av direktesendte TV-programmer- et tilbud for hørselshemmede
TV studio Kommentator rom
Tekst-TV
Gjenkjenner
NTNU Telecommunications
Systembeskrivelse
• Den første storvokabular gjenkjenner for kontinuerlig tale på norsk!
• Åpent vokabular(OOV rate for testsett: 5.6%)
• Splitting av sammensatte ord(reduserer OOV rate fra 5.6% til 2.2%)
• Bigram språkmodell(enkel statistisk metode)
– Estimer sannsynligheten til ordpar P(ord2=Jagland | ord1=Torbjørn) = 80% P(ord2=Berntsen | ord1=Torbjørn) = 5% P(ord3=Nordgård | ord1=Torbjørn)= ?% . . . . . . . . .
• Leksikon:15 K ord basert på tekst-TV
• Taler-tilpasning
• Tilpasset programtypen’Nyheter og politikk’
• Tilpasset bokmål
NTNU Telecommunications
Tale- og tekst-databaser
Datasett #Timer Type #Talere
Trening 19 lest + spontan 50
Test 3,5 spontan 6
Adapsjon 6 lest + spontan 6
~1,5 mill. ord (~85 K forskjellige) redigert underteksting hentet hovedsaklig fra Dagsrevyen
NTNU Telecommunications
Resultater for uerfarne kommentatorer
68
76
69
80
54
72
53
83
7377
71
78
50
55
60
65
70
75
80
85
90
95
100
DV HH HK IS KB TH
Andel korrekte ord
Før adapsjon
Etter adapsjon
% k
orr
ekte
o
rd
Taler ID
NTNU Telecommunications
Resultater for uerfarne talere
• Tilsvarende for en erfaren taler :
– 90% etter adapsjon
68
76
69
80
54
72
53
83
7377
71
78
50
55
60
65
70
75
80
85
90
95
100
DV HH HK IS KB TH
Andel korrekte ord
Før adapsjon
Etter adapsjon
% k
orr
ekte
o
rd
Taler ID
NTNU Telecommunications
Evaluering av resultatene
• Eksempel for en uerfaren taler IS:– 32% av setningene er korrekte
– 32% inneholder feil, men er fullt forståelige (semantisk)
– 36% kan ikke brukes
• Ikke praktisk brukbar pga.:– Total tidsforsinkelse var for stor
– “Kritiske feil” MÅ unngås!
» Hun er i Brussel......
» Hun er en trussel......
– Ytelsen bør opp fra ca. 90% til minst 95% korrekt for ord
» Bl.a. Ved hjelp av trigram språkmodell
NTNU Telecommunications
SPODIS 1997 -2001• Prosjektdeltakere:
• Institutt for teleteknikk
• Lingvistisk institutt
• Institutt for datateknikk og informasjonsvitenskap
• SINTEF Tele og data
• Samarbeid med Telenor FoU
• Oppbygging av generisk kunnskap og verktøy for talebaserte dialogsystemer
• Utvikle prototyp for talebasert informasjonssystem for busstransport
• Produsere 3 doktorgrader
NTNU Telecommunications
Talebasert bussrute dialogsystem - tlf. 73 51 78 30
• En talegjenkjenner vil :• gjøre feil • gi flere forslag til tekst.
• Lingvistisk og semantisk analyse kan:• detektere og korrigere ordfeil. • velge riktig forslag til tekst • trekke ut meningen (brukers
hensikt).• Dialog manager skal:
• Huske dialogens historie og prediktere/velge neste ’tema’
• huske all informasjon som er gitt av brukeren.
• forme systemets respons til bruker
• trekke ut ønsket informasjon fra databasen.
Tale-gjenkjenner
Lingvistiskog semantisk
analyse
Dialogmanager
Tale-syntese
Hvor vil dureise fra?
Når går neste buss til byen?
Dialog-system
Data
NTNU Telecommunications
BRAGE 2002 - 2006
• Prosjektdeltakere : som SPODIS
• Utvikle og utteste teori og verktøy for gjenkjenning av norsk spontan tale.
• Utvikle talesentriske multimodale bruker-grensesnitt til menneske-maskin dialoger.
• Utvikle automatiske metoder for komplisert dialog-beskrivelse og-håndtering
• Demonstrere anvendelser basert på framtidens ’mobiltelefoner’
• Utdanne 4 doktorgrads-kandidater
NTNU Telecommunications
Spontan tale er forskjellig fra tekst!
• Bakgrunnsstøy
• Flere informasjoner
• ’Dobbelt-samtale’
• Spontan diktering
NTNU Telecommunications
Teknologistatus - talegjenkjenning
• Spontane dialoger omtrent som samtaler mellom fremmede?
12
7
16
19
31
0
5
10
15
20
25
30
35
Tallstrenger Styring ogkontroll
Diktering -begrensetdomene
TV -nyhetssending
Samtale(fremmede)
Samtale(venner)
Ord
feilra
te [
%]
NTNU Telecommunications
Talesentrisk multimodalt dialogsystem
(foil fra Eurescom-prosjektet MUST)
PSTN
Tabulib C++Library
GUI
Phone
ASR
TTS
Telephone(GSM)
Dialogue/ContextManager
WWWHTTP
DB
Pocket PC
Mobile MultimodalTerminal
Application Server
(W)LAN/TCP/IP
NTNU Telecommunications
Dialoger og naturlig språk
• Talegjenkjenningsmål:– Akseptabel ytelse for spontan tale til dialog-formål
– Suksess-rate viktigere enn ordfeil-rate!
• Dialogmål:– Hvor generelle dialoger klarer en beskrive/programmere?
– Kan en utnytte dette til å lage gode dialog-strukturer?
– Hvordan takle feil i talegjenkjenner?
• Lingvistiske mål:– Hva skiller nedskrevet spontan tale fra tekst?
– Hvordan modellere forskjellen?
– Robust parsing av spontan tale
Top Related