College taal & spraaktechnologie arjan van hessen

Post on 04-Jul-2015

404 views 1 download

description

Slides van het college van Arjan van Hessen over Taal- en Spraaktechnologie

Transcript of College taal & spraaktechnologie arjan van hessen

Arjan van Hessen

Onderzoek naar Mens-Machine Interactie (Embodied Agents) en de ontsluiting van

gesproken documenten mbv Taal- en Spraaktechnologie

Selfservice via de telefoon en de ontsluiting van gesproken

documenten mbv Taal- en Spraaktechnologie

Het standaardiseren (van zowel data als tools om hiermee om te gaan) van talige,

wetenschappelijke data voor de geesteswetenschappen.

• Inleiding

– Hoe zit het met de menselijke Taal en Spraak?

– Wat is Taal- en Spraaktechnologie (TST)?

• Werkende applicaties

– Klassieke spraakherkenning

– Geavanceerde spraakherkenning

– Self-service

– Spraakanalyse

• (Nabije) toekomst

De ontwikkeling van de menselijke taal (of spraak) is waarschijnlijk 100.000 jaar geleden begonnen.

Daar vóór hadden de menselijke kaak, de mond en de larynx de verkeerde vorm om woorden te vormen. Iets dat we nu nog bij de apen zien.

• Het pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.

-3300 schrift

-10.000 landbouw

-100.000 spraak

NU

Communicatie

Geur Lichaamstaal Geluiden

Taal (abstract)

Spraak

Schrift

Dieren

Mensen

• Het menselijke communicatie systeem kenmerkt zich door een hoge mate van redundantie. We kunnen woorden weglaten, verkeerde woorden uitspreken, mompelen. Ook kunnen we spreken op feestjes met veel achtergrondlawaai. Toch lukt het communiceren meestal wel.

• Willen we natuurlijk met machines kunnen communiceren, dan moeten we dit gedrag (tenminste deels) inbouwen.

• In een steeds complexere wereld waarin het belang van snel juiste informatie krijgen of geven steeds groter wordt en waarin de overvloed aan informatie voor een soort informatie-infarct zorgt, is TST een noodzakelijkheid geworden.

• Gebruikers gaan er steeds meer vanuit dat ze altijd toegang kunnen krijgen tot “hun bestanden”. Uiteraard via het Web maar ook via de telefoon.

• Lang wachten, frequent doorverbinden, het herhalen van eerder gegeven informatie en andere “vervelende” zaken worden steeds minder geaccepteerd.

• Het herkennen van de beller wordt gezien als een standaard commodity: zit immers op elke mobiel.

TAAL- & SPRAAKTECHNOLOGIE

Hoe werkt het en wat kun je ermee?

OCR ASR

interpretatie

actie

CR-tekst

Optical

Character

Recognition

Automatic

Speech

Recognition

OCR ASR

interpretatie

actie

CR-tekst

Twente Nieuws Corpus: >600M woorden uit 10-jaar PCM-kranten, Autocues, Tijdschriften

Spraak is meer dan de omzetting van een reeks klanken in letters

Wat zegt U? Wat bedoelt U?

/A/ /p/ /@/ /l/ /A/ /p/ /@/ /l/ /t/ /j/ /@/

appel appeltje

• Internet zal veranderen van een opzoek medium in een antwoordgevend medium

Web

1.0/2.0

Marietje

24 jaar Wierden

Artiest

marietje@roodhaar.

org

0621 888 146

Etc.

Vuurrode/rode haren/haar van de meisjes/vrouwen/dames/wijven

Mooie /schitterende /wonderschone /prachtige Ferrari

het rode haar van het meisje

Rode Ferrari, mooie meisje

Web 3.0

(QA)

herkennen

genereren

begrijpen

1950-2000

2000 - nu

TAAL- & SPRAAKTECHNOLOGIE

Werkende en bijna werkende TST-toepassingen

Dictation

Voice

Information Retrieval

Mens-Machine-Communicatie

Emotie detectie:Lachen/Huilen

Spoken Document Retrieval

Web

Mobile

ContactCenter

Natural Language Search

TST

Identificatie / verificatie

Taal- en

Spraaktechnologie

• Desktop

– Dictation

– Handsfree Command&Control

– Warehouse applications

Tekst processing

Originele script TV uitzending

Conversie naar sound only

Spraak/niet-spraak

Oplijning

Spreker clustering

Dag schat, hard gewerkt vandaag?

Uit te spreken tekst

0

50

100

150

200

250

300

350

1 2 3 4 5 6 7 8 9 10

0

50

100

150

200

250

300

350

400

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

OT-tijd

ER-tijd

0

50

100

150

200

250

300

350

400

1 2 3 4 5 6 7

OT-tijd

NEON-tijd

ER-tijd

NEON manier

Klassieke manier

NEON manier Klassieke manier

Buchenwald

H.M. Koningin

Wilhelmina

Tweede feministische golf

Herinneringen aan Indonesië WFH

Joods Historisch

Veteranen Instituut

Iedere dag wordt het 8-uurjournaal opgenomen en,

na afloop, door de spraakherkenner gehaald. De

herkende tekst kan doorzocht worden. Wordt een

woord gevonden, dan wordt het bijbehorende

fragment met een screendump getoond. Er kan

alleen gezocht worden in de journaals van de laatste

twee weken.

Beluisterde fragmenten kunnen op hun beurt

gekoppeld worden aan kranten artikelen van

Volkskrant, NRC, Trouw en Parool.

KlantContact

van nummer tot toestel van klant tot agent

IVR SPRAAK IP-Telefonie

29

10.000.000 x Selfservice

Zoeken in Video en Audio

Analyse van gesprekken/spraak

Postcode huisnummer spraakherkenning

Plaats, gemeente en

stationsnamen

Open vraag spraakherkenning 2.000.000

Classificaties

50.000 uur spraakanalyse

200.000 uur Spraakherkenning

60.000 woorden Nederlands

14+netnummer 100 gemeenten

mobiel, vast?

Internet of Telefoon?

088, 090x, 0800 of 14xyz

wie?

waarom?

wat mag?

Selfservice of live?

CTI en Kennis

waarvoor?

hoe was het?

Van?

Via?

Naar?

Identificatie :

Classificatie :

Ruling :

Routeren :

Werkplek :

Registratie :

KTO :

van klant

tot agent

1

2

3

4

5

6

7

“Spreek de gemeentenaam in”

Iedere gemeente is straks bereikbaar via 14+netnummer

1 Bereikbaar onder 1 nummer

14 033

Amersfoort

Nijkerk

Bunschoten

Scherpenzeel

Leusden

Woudenberg

0900 8844

‘’Uw abonnement moet worden verlengd we hebben nu een speciale actie…’’

2

‘’ Mijn postcode

is 7521 PT ’’

2

3 NL taal 60.000

woorden

Zorg en verzekering

termen

CZ tekst Internet folders

Welkom bij de gemeente. Zegt u het maar! In de Open vraag spraakherkenning DEMO worden alle vragen waarvoor burgers bellen naar de gemeente

herkend en naar de juiste afdeling worden doorverbonden. Denkt u daarbij aan onderstaande onderwerpen:

• Adres- en contactgegevens • Afvalstoffen • Bestemmingsplan • Gemeentelijke belastingen • Hondenbelasting • Afvalstoffenheffing • Rioolheffing • Paspoorten

• Rijbewijzen • Identiteitskaarten • Melding openbare ruimte • Openingstijden • Persoonsadministratie • Bouwvergunningen • Parkeervergunningen • Kapvergunningen

• Koopzondagen • WMO • WOZ • Inkomen en bijstand • Ongediertebestrijding • Schuldhulpverlening • Verkiezingen • Woonruimte

053 demo 80 35

3

• Snellere en betere classificatie t.o.v. keuzemenu’s

• Betere benutting van bestaande en nieuwe selfservice applicaties

• Verbetering van de (eerste) routering /vermindering herroutering

• Klanten hoeven niet te onthouden wat ze ook al weer moesten doen/zeggen

• Positief effect op de One Call Resolution

• Positieve invloed op de klanttevredenheid en werknemerstevredenheid

• Snel inspelen op ad hoc ontwikkelingen en calamiteiten

• Geeft bellers de mogelijkheid om in eigen woorden een vraag te stellen

• Kosten efficiënt

4

CTI en Kennis

“Heeft mijn reisverzekering een annuleringsdekking vanwege de aswolk?”

naam Jan jansen

adres Colosseum 42

7521 PT Enschede

telefoon 053 488 99 00

e-mail jan@jansen.nl

Polis nr. 123456789

Product Reisverzekering

CRM

5

kennis

A. Loonontwikkeling

B. 55-plussers

C. Metaalbouw

D. Nederland

E. Geboren

Loonontwikkeling

55-plussers

Metaalbouw

Nederland

Geboren

QA1

QA2

QA3

QAN

QA12

AQ3

QA9

QA8

QA6

QA2 QA10

QA5

QA4

mens

Extra vraag

mobiel, vast?

Internet of Telefoon?

088, 090x, 0800 of 14xyz

wie?

waarom?

wat mag?

Selfservice of live?

CTI en Kennis

waarvoor?

hoe was het?

Van?

Via?

Naar?

Identificatie :

Classificatie :

Ruling :

Routeren :

Toestel :

Registratie :

KTO :

van klant

tot agent 6

7

Vooronderzoek Go /NoGo Ontwerp

ImplementatieGefaseerde

uitrolFinetuning

Het project

Datum en

tijd CLI nummer

vd beller

DDI nummer

gebeld

IVR Keuzes

WACHT tijd

Agent tijd

Inhoud TEXT

Emotie

6

Ik heb een vraag over mijn studie

financiering?

Telefonie netwerk

Contact center Centrale ACD

Voice Recorder

1 2

U spreekt met OCW DUO waarmee kan

ik u helpen?

Datum en

tijd

CLI nummer

vd beller

DDI nummer

gebeld IVR Keuzes

WACHT tijd

Agent tijd

Inhoud TEXT

‘Emotie’

Spraak Analyse

DB

“Welkom. Voor vragen over uw studiefinanciering toets 1…”

“een ogenblik geduld nog. …”

“Goedendag u spreekt met DUO Waarmee kan ik u helpen?”

“Ja met Jansen, kunt u me meer vertellen over de

studie loting………… …………………………………………………………………………………………

……………………………..…..”

Wachtmuziek

een Live medewerker

IVR teksten DTMF toontjes

Wachtmuziek en melding

het gesprek van klant en

agent

IVR Keuzes

WACHT tijd

Agent tijd

Inhoud TEXT

Signaalanalyse +1 - Piek +1 - Cross talk +1 - Stilte

‘Emotie’ score

60.000 Woorden en dialoog NL

IB-Groep DUO jargon

IB-Groep DUO Contact

statistiek

E-mail Gesprekken

Taalmodel

DUO IB-Groep

Site

Letterlijk gesproken tekst (handmatig getranscribeerd)

“Uh ik ben ingeschreven en uh

Krijg ik vanaf augustus nu al studiefinanciering?

En wat is het bedrag dan precies?”

Door de spraakherkenner herkend.

“euro heb ingeschreven en

u krijg vanavond augustus al studiefinanciering

En wat hut bedrag dan premies”

7

Open vraag spraakherkenning Met een groot aantal producten en de wens om één nummer te gaan communiceren, was een traditioneel keuzemenu voor AEGON niet meer toereikend. Klanten kunnen daarom tegenwoordig hun vraag aan AEGON inspreken, waarna ze direct met de juiste medewerker worden doorgeschakeld. In deze presentatie wordt u meegenomen in het proces van het idee tot een succesvolle implementatie van deze open vraag spraakherkenning oplossing.

RechtSpraakHerkenning: Taal- en spraaktechnologie in de Nederlandse rechtbanken In de Nederlandse rechtbanken worden regelmatig geluidsopnames gemaakt van de rechtszittingen ter ondersteuning van de rechters en de griffiers. In het STEVIN project RechtSpraakHerkenning laten we zien dat met behulp van taal- en spraaktechnologie de rechters, griffiers en officieren van justitie hun werk efficiënter kunnen uitvoeren. De griffiers worden ondersteund bij het uitwerken van de processen-verbaal en rechters en officieren van justitie krijgen gereedschappen om snel te zoeken en navigeren in de gemaakte opnames, waarbij zelfs automatisch een gesproken samenvatting kan worden gegenereerd.

Oplijnen van ondertitels in TV programma's bij de NPO en VRT Van de uitgezonden Nederlandstalige TV programma’s moet het overgrote deel voorzien worden van ondertiteling. Het oplijnen ofwel het plaatsen van de juiste teksten op het juiste moment is een uitermate tijdrovend proces. Bij de NPO en de VRT is een project uitgevoerd om dit proces te optimaliseren. Door het toepassen van geavanceerde taal- en spraaktechnologie blijkt dat dit proces maar liefst 40% efficiënter kan.

Spraakanalyse in het Contact Center van DUO voorheen IB-Groep Met behulp van Spraakanalyse krijgen organisaties meer inzicht in de inhoud van telefonisch klantcontact. Met Spraakanalyse worden telefoongesprekken in het contact center opgenomen en met taal- en spraaktechnologie ver­werkt en geanalyseerd op basis van de inhoud en “emotie” van het gesprek. Deze kennis kan worden gebruikt om de klantinteractieprocessen te optimaliseren en de klantvriendelijkheid te vergroten. Aan de hand van de ‘DUO - IBGroep casus’ laten we de onbegrensde mogelijkheden van Spraakanalyse zien.

WAT VINDEN DE KLANTEN/GEBRUIKERS ER EIGENLIJK VAN?

‘’ Mijn postcode

is 7521 PT ’’

1.4M

service- calls /jaar

Bezorg 61%

Anders 39%

klachten

685K

incidentele klachten /jaar

Service niveau op 0900-8844 is bepalend voor het eindoordeel

0900-8844 8844

De Politie over spraakherkenning bij 0900-8844: •Een concept dat schittert in zijn eenvoud •Een verrassend snelle implementatie •Een uitkomst die direct al een groot succes is •Een besparing die oploopt tot acht ton op jaarbasis •Een mooi succes in tijden waarin we het geld goed kunnen gebruiken (aldus korpschef politie - Intake en Noodhulp) •De druk op de centrale van het KLPD is daarmee aanzienlijk – ik zou bijna zeggen: rigoureus – verminderd.

Kans op fouten sterk verkleind

Op 7 mei is er achter vier van de 14+netnummers Antwoord© een sterk verbeterde spraakkeuze techniek geïntroduceerd: Drechtsteden (14 078), Deventer/Olst-Wijhe (14 0570), regio Nijmegen (14 024) en Breda/Etten-Leur (14 076). De kans op fouten in de herkenning van de gemeentenamen die door burgers worden ingesproken als zij het 14+netnnummer Antwoord© bellen, is hiermee sterk verkleind. Uitgebreide tests door de gemeenten lieten een erg positief beeld zien. Ook na het openstellen van de nummers voor burgers is de eerste indruk dat er inderdaad sprake is van een grote verbetering in de herkenning. Burgers komen hierdoor sneller en makkelijker dan voorheen bij de goede gemeente terecht.

Gemeenten werken hard aan hun bereikbaarheid. In het kader van de telefonische bereikbaarheid is een landelijk nummer ingevoerd, dat bestaat uit 14 en het netnummer. Dit nummer zorgt ervoor dat alle gemeenten één herkenbare telefonische ingang krijgen. Voor de gemeente Heumen draait u dus het nummer 14 024. Dat geldt ook voor andere gemeenten met dit netnummer, zoals Nijmegen, Wijchen en Beuningen. U wordt dan verbonden met een spraakcomputer, die u vraagt duidelijk de gemeentenaam in te spreken. Er is uitvoerig getest met de spraakcomputer en de resultaten zijn nagenoeg perfect. Mocht er onverhoopt toch iets misgaan met de spraakherkenning, dan wordt u automatisch doorverbonden met de gemeente Nijmegen, die u weer doorverbindt naar de gemeente van uw keuze.

14 XYZ

• Multimodaliteit

• Verschillende modaliteiten (telefoon, spoken-chat, text-chat, mail,

web-form) zullen steeds meer doorelkaar gebruikt worden, hoewel

ieder medium zijn eigen gebruikers EN zijn eigen gebruik zal kennen.

• CC-agents zullen in toenemende mate de verschillende modaliteiten

(door elkaar) moeten kunnen gebruiken.

• Uiteindelijk communiceren we met tekst, spraak, video, links en

documenten door elkaar heen. Goede agents moeten zich dus in

woord EN spraak goed kunnen uitdrukken.

• Wordt er door elkaar gesproken?

• Wordt de luidheid van de spraak snel hoger?

• Worden er onwelvoegelijke woorden gebruikt?

• Vragen worden herleid tot de N-best passende voorbeeld vragen. Deze worden teruggegeven en de gebruiker kiest dan de juiste vraag.

• It’s not speech Recognition

• It’s not searching

• It’s Artificial Intelligence

• Jeopardy

– Verzin de juiste vraag die bij een gegeven antwoord hoort

– IBM’s Watson liep rondjes rond de ex-wereldkampioen en degene die tot nu toe er het meeste geld mee had gewonnen

Geheel natuurlijke Mens-Machine

Interactie

Gesproken en visueel overdraagbare

informatie

Band mens-avatar

Stel dat een computer

zo reageert….

VRAGEN?

Einde, klaar, finito, ready, fin, ende