Voip2day Verbio 201511

56
erbio VoIP2Day 2015 Pablo Gil Robiou Tendencias y aplicaciones prácticas sobre tecnologías del habla

Transcript of Voip2day Verbio 201511

PowerPoint Presentation

erbioVoIP2Day 2015

Pablo Gil Robiou

Tendencias y aplicaciones prcticas sobre tecnologas del habla

[NLP]Procesamiento deLenguaje Natural

El procesamiento del lenguaje natural es un campo que rene a las ciencias de la computacin, la inteligencia artificial y la ligstica. Estudia las interacciones entre las computadoras y el lenguaje humano.

En el futuro prximo todos vosotros vais a confiar en la tecnologa de reconocimiento de voz para poder interactuar con cualquier dispositivo cada da. Esta tecnologa se va a propagar de tal manera que probablemente se usar la voz como uno de los mtodos ms intuitivos para interactuar con cualquier dispositivo.Esta tecnologa y su potencial han estado a la vuelta de la esquina todos estos aos, pero por algn motivo que ahora veremos no ha llegado a superar las expectativas que tenamos sobre la misma.2

AntesPocoAvanceExpectativasFrustradasPoca PrecisinTecnologaNo embebidaPocasAplicaciones

3

https://youtu.be/CA4h59JbsD8Antes

4

ltimos 18 mesesGranAvanceExpectativasAltasMejorPrecisinTecnologaembebidaAlgunasAplicaciones

5

https://youtu.be/3JsN56-6wjQ

ltimos 18 meses

6

Presente y FuturoAvanceVertiginosoExplosinBig Data

Nuevos Dispositivos

InteraccinRpidaDemocratizacin y Uso Masivo

7

Crculo Virtuoso

Mejora Continua

8

Crculo Virtuoso Lenguaje Natural

Adopcin y uso

Ms datos

Mejor rendimiento

Redes Neuronales

BIData Mining

9

A continuacin mostramos el Portfolio de Soluciones sobre Lenguaje NaturalSoluciones Empticas

10

Contenido propuestoSntesisde Voz

Reconocimiento de VozPortalesde VozContact Centers

Biometra Vocal

11

[TTS]Sntesis de voz

12

Wolfgang von Kempelen

Speaking Machine

Sir Charles Wheatstone

Improved Replica

Alexander Graham Bell

Experiments and Research Telephone

Bell Telephone Laboratory Homer Dudley

The Vocoder The Voder - Electric1769Sntesis de Voz [Historia]1

2

3

4

183718761937

13

DEC based on Dennis Klatts work

DECtalk Stephen Hawking

HMM-based Speech Synthesis System (HTS)

Flexibility, quality, naturalness

Yamaha VocaloidUTAU (2008)

Singer voices and music synthesizer

Deep Learning-based Speech Synthesis

Conditional distribution of acoustic features given linguistic features1984Sntesis de Voz [Historia]5

6

7

8

199920042006

14

Casos PrcticosSntesis de Voz

MegafonaAeropuertos, medios de transporte, ascensores, sistemas de gestin de turnos Ayuda en la navegacinSistemas GPS para la conduccinTelefonaSistemas de IVR con requerimiento y entrega de informacinWearables, Connected-HomeSmartwatches, google glass, smart-tv, etc.AsistentesGoogle Now, Siri, CortanaAyuda en la lecturaE-books para invidentesAprendizaje nuevos idiomas

RetosSntesis de Voz

Diferentes estados de nimo (espectogramas)

Fuente: TUB emotional database

Sntesis de Voz Ajustes y mejoras [TTS]

SSMLTTS soporta las etiquetas definidas dentro del estndar SSML (Speech Synthesis Markup Language) a travs de las cuales podemos indicar al motor la forma como queremos sintetizar una palabra o conjunto de ellas.

EtiquetaDescripcin

Reproduccin de ficheros (PCM lineal 16 bits)Seleccin de aspectos semnticoslanguagevoiceprosodysay-asbreakaudioemphasis

age, gender, namePitch, range, rate, volumedate, time, digits, telephone

Seleccin del idioma de sntesisSeleccin del tipo de locutorSeleccin de la intensidad de la vozSeleccin de aspectos prosdicosGestin de pausas

VerbioPrompt(Por favor\, tras or la seal\, diga dgito a dgito \, la siguiente secuencia: ${DIGITS:0:1}${DIGITS:1:1}${DIGITS:2:1}${DIGITS:3:1} .,${TTS},${SPK},v)

17

RetosSntesis de Voz

Tener cada uno su propia voz sinttica (hoy en da posible pero a un coste elevado)Contemplar riesgos potenciales para evitar fraude y suplantacin de identidadGenerar una voz sinttica personal y multiidiomaContemplar diferencias fonticas y prosdicas (como la entonacin) entre idiomasExpresar diferentes estados de nimo con resultado realista, bien alterando la prosodia mediante procesado digital de la seal (DSP) o mediante uso de diferentes unidades fonticas.

[ASR]Reconocimientode voz

19

Info gramatical Contienen informacin acerca de las estructuras gramaticales ms probables en el entorno de trabajo.Info estadsticaContienen informacin de probabilidades de que una palabra preceda o suceda a otra palabra.Info contextualComplementan al odo para que el motor de reconocimiento determine cul ha sido la locucin pronunciada.Los modelos lingsticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestin de la decisin a tomar ante ambigedades acsticas, pues contienen informacin lingstica contextual para el entorno de trabajo.

El modelo lingstico010203Reconocimiento de Voz Fundamentos tecnolgicos [ASR]Los modelos acsticos son el odo del motor de reconocimiento.Estn basados en modelar los semi-fonemas del idioma de trabajo a partir de tcnicas de procesado de la seal, principalmente en el dominio espectral, que extraen sus particularidades nicas.Cada semi-fonema es un modelo matemtico que representa las caractersticas acsticas nicas del fonema en cuestin en presencia de otro fonema concreto anterior o posterior.

El modelo acstico

al restaurantecorrercomer coser

Ayer fu a comer al restaurante Gramticas deterministas (ABNF, XML)

Modelos Estadsticos del Lenguaje (SLM)

A%

Ayer fu a

20

Distintos TiposReconocimiento de Voz

Reconocimiento discretoCapaz de reconocer palabras o frases cortas dichas tal y como se espera, sin incluir discurso anterior o posterior.Reconocimiento continuoCapaz de reconocer palabras y expresiones en cualquier punto de la conversacin, no afectando al reconocimiento lo que se dice antes o despus de la expresin.Reconocimiento de lenguaje naturalBasado en transcripcin, que a su vez se fundamenta sobre modelos estadsticos del lenguaje, que toman en cuenta la distribucin de probabilidades sobre secuencias de palabras.EjemploComercial, marketing, tcnico, recursos humanosEjemploconsultar el estado de mi cuenta, realizar una transferencia, revisar una factura, darme de bajaEjemploMi queja con el servicio viene porque llevo dos semanas esperando a que me llegue el pedido. Me dijeron que tardara una semana en llegar, pero ya han pasado dos y estoy muy disgustada porque nadie se ha puesto en contacto conmigo todava

Casos PrcticosReconocimiento de Voz

Transcripcin y DictadoInformes, Actas, Eventos, Noticiarios, Apariciones pblicas y actos de prensa Cualquier escenario en el que se requiera pasar del canal hablado al escritoAyuda en la navegacinSistemas GPS para la conduccinMviles conectados mediante bluetoothTelefonaSistemas de IVR con requerimiento y entrega de informacinAsistentesGoogle Now, Siri, CortanaAplicaciones mviles para ejecutar acciones transaccionalesAyudaAprendizaje Nuevos idiomasAccesibilidad y ayuda para discapacitados

Wearables, Connected-HomeSmartwatches, google glass, smart-tv, etc.

RetosReconocimiento de Voz Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento Dependiente del LocutorIgualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento Dependiente del ContextoNivelar avances para distintos IdiomasNivelar mejoras para diferentes canalesMejorar el reconocimiento con ruido y para personas con diferentes caractersticas prosdicas (como el acento)

[ASR/TTS]Portales de Voz

24

Portales de VozEstrategias de dilogo [ASR/TTS]Se anuncian las respuestas posibles a cada pregunta, lo que implica lentitud en las transaccionesFlujo SecuencialLa mquina conduce el dilogo: el usuario no puede tomar la iniciativa en ningn momentoRigidez ante casos de error, llevando a la frustracin del usuario

25

Portales de VozEstrategias de dilogo [ASR/TTS]Las preguntas pueden ser ms abiertas, permitiendo introducir ms de un dato por preguntaDilogo AcotadoEl dilogo se adapta a la experiencia del usuarioEstrategias de confirmaciones implcitas y prompts dinmicosSe podrn tratar los datos agrupados (ms de un dato en la respuesta) y desordenados, e incluso permitir al usuario corregir informacin anteriormente entregada, con dilogo adaptativo en funcin de las circunstancias

26

Portales de VozEstrategias de dilogo [Verbio ASR/TTS]Apoyado por reconocimiento y basado en patrones estadsticos, formula preguntas abiertas y toma decisiones dinmicamente en funcin de la respuestaDilogo LibreAlgoritmo de decisin complejoSe persigue agilizar an ms el proceso para todos los usuarios, sin penalizar a los espordicos respecto a la estrategia guiada

Sistema experto que interacciona con el usuario de forma similar a como lo hara un humano

27

Pregunta abiertaDesplegar un servicio telefnico automatizado del tipo say anything, donde el usuario podr responder abiertamente y con lenguaje natural a la pregunta inicial En qu puedo ayudarle?.Ms de 60 operativasEl sistema deber comprender el motivo por el cual llama el usuario y etiquetar dicha llamada con la categora correcta entre las ms de 60 existentes.Recuperacin de metadatosNo se trata de implementar un servicio de Call Steering (redireccin de llamadas). El sistema deber tener la capacidad de obtener informacin relevante para la operativa seleccionada, con objeto de no repreguntarla posteriormente al usuario.Redireccin a IVRCuando el sistema haya comprendido el motivo de la llamada, y tras haber extrado la informacin disponible, redirigir al usuario hacia la rama del IVR correspondiente.Experiencia conversacionalSe persigue ofrecer al usuario una experiencia conversacional soportada en el estado del arte del NLP (Lenguaje Natural), no slo en la pregunta abierta sino tambin en la automatizacin de la operativa posterior.Servicio altamente autoatendidoSe busca la reduccin de los costes de atencin telefnica, y se persigue que el portal de voz tenga la capacidad de resolver la operativa demandada por el usuario sin ser necesaria la intervencin de un agente.Portales de VozLenguaje Natural [ASR/TTS]

?[A]

28

Los portales de Voz del pasado han hecho un uso deficiente de la tecnologa, buscando principalmente reducir costesIVRs al servicio de las empresasPortales de Voz - PasadoObjetivo 1 - Disminuir necesidad de Agentes (Costes)Objetivo 2 Generar Ingresos para sufragar Costes (902)Objetivo 3 Disuadir al cliente de llevar a cabo ciertas operativas

Los portales de Voz del presente buscan potenciar una imagen positiva de la empresa o, al menos, no potenciar una imagen negativaIVRs al servicio de las empresas y sus clientesPortales de Voz - PresenteObjetivo 1 Automatizar con calidadObjetivo 2 Conseguir promotores y prescriptoresObjetivo 3 Optimizacin y mejora continua

Los portales de Voz del futuro sern sistemas expertos capaces de ejecutar transacciones y solucionar incidencias de forma (casi) tan eficiente como un humanoIVRs al servicio de sus clientesPortales de Voz - FuturoObjetivo 1 Parte del Plan de Marketing. Orientacin al clienteObjetivo 2 Transacciones rpidas, sencillas, cmodas y resolutivasObjetivo 3 Poltica de 0 clientes insatisfechos. Seguimiento

[Speech & Text Analytics]ContactCenters

32

Contact CentersMulticanalidad [Speech Analytics]Mvil App./SMSTelfonoE-mailWEB/Chat/IM

Redes SocialesFax/Carta

33

Los Contact Centers buscan la excelencia a travs de mtricas tales como el Nivel de Servicio y Encuestas de Calidad (NPS)Pasado, presente y futuroContact CentersPasado Atender/Emitir llamadas por canal telefnicoProductividadPresente Atender/Emitir eventos por mltiples canales de contactoExperiencia de Usuario (Calidad, Satisfaccin, FCR, T resolucin)Futuro Convergencia y Seguimiento, Deslocalizacin y CloudExperiencia multicanal y personalizada para cada cliente

Para mejorar la calidad hay que empezar planificndola, asegurando que los procesos la cumplen y monitorizando que el resultado final es el esperadoEl grado en el que un conjunto de caractersticas inherentes cumple con los requisitosQu es calidad?Planificar la calidad (Diseo de procesos, argumentario, objeciones)Aseguramiento de la calidad (checklists, auditoras)Control de Calidad (encuestas de satisfaccin, mistery shopping)

Speech AnalyticsUn vistazo sobre el resultado de recopilar informacin, clasificarla, medirla y cruzarla

IdeaPartiendo de: - audios pregrabados para su posterior procesado - conversaciones telefnicas en tiempo real (pinchadas o intervenidas)

36

Voz del Cliente

37

Quality Assurance

38

Cumplimiento Normativa

39

Cruce de la informacin unidimensional recabada en:Voz del ClienteQuality AssuranceCumplimiento de la NormativaCon las diferentes categoras identificadas como motivos de la llamada, para conocer en qu medida se ven impactados los diferentes KPIs definidos y acordados con el cliente (FCR, Transfer, Script Compliance, Cross Selling), con navegacin en profundidad y filtros de servicio, agente, supervisor, destino y llamante.

Solucin

40

Caso prctico [Verbio SA]

Anlisis multidimensional

41

Text Analytics se usa tambin para generar modelos lingsticos y estadsticos usando tcnicas de aprendizaje automtico con el fin de relacionar la informacin para aportar conocimiento con fines predictivos o resolutivosProcesamiento del Lenguaje Natural Predecir y Solucionar Problemas de NegocioText AnalyticsCategorizacin, clustering, taxonomasExtraccin de datos de negocio, resmenesSentiment Analysis

Procesamiento del Lenguaje Natural Predecir y Solucionar Problemas de NegocioText AnalyticsCRM Analytics - TranscripcinSocial Media Analytics + Sentiment AnalysisIntencin de Compra, Prediccin de rotacin de clientes, Riesgo para la Reputacin

[Speaker Recognition]Biometra Vocal

44

Para generar la huella vocal se usar entrenamiento implcito o explcitoLa huella vocal es tan fiable como la huella dactilar o el escner de irisSistemas de BiometraVerificacin Autenticacin, Firma Vocal, Prueba de VidaIdentificacin y Clustering Lucha contra el FraudeIndexacin Separacin de locutores por marcas de tiempo

Cmo evitar que nos engaen? Previendo las tcnicas y poniendo los mediosDefensas antispoofingSistemas de BiometraAnti ReproduccinAnti RepeticinDesafo dinmico

RetosBiometra de Voz

Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser sustituido por la voz)Obtener validez legal al nivel del certificado electrnico para la firma digital de documentosIntegracin multidispositivo para acceso a diferentes servicios IoTMitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia

[Aplicaciones Prcticas sobre Tecnologas del Habla]Complementos

48

49

Asistentes Virtuales

Pasado: Asistentes Virtuales para EmpresasIkeaVuelingEroski

Presente: Asistentes Virtuales para Mvil, PCGoogle NowCortanaSiri

Futuro: Asistentes en Hogar, Wearables y en IoTAmazon EchoUbi + Samsung SmartThings

50

Traduccin Simultnea

Pasado: Traduccin de Texto On-lineGoogle Translator

Presente: Traduccin de Texto y Voz en tiempo Real p2pSkype TranslatorTraduccin de Mensajes (Realidad Aumentada) en tiempo RealGoogle Translate (Mvil)

Futuro: Traduccin de Imgenes/Voz automtica Mass-media

51

52

Wearables

Pasado: Pulsmetro, GPS, Podmetro, GoPro, cascos BT, alarmas

Presente: Smartwatches, Google Glass, Cmaras, eHealh, VR

Futuro: Microchip interno, Casco Inflable, Smart Clothing, lentillas AR

53

Retos

Unique ID: Utilizar mecanismos biomtricos combinados

Lenguaje Verbal + No Verbal: Analizar las emociones mediante la voz y signos del cuerpo

Prediccin: Alertas automticas que nos avisen de:OportunidadesRiesgosFuturos problemas

54

55

Gracias!

56

null33254.133null231668.67