Síntese de voz utilizando avatares GPVoz Gabriel de Albuquerque Styve Stallone.
Transcript of Síntese de voz utilizando avatares GPVoz Gabriel de Albuquerque Styve Stallone.
Síntese de voz utilizando avatares
GPVoz
Gabriel de AlbuquerqueStyve Stallone
Roteiro
O que foi feito na áreaPotenciais parceirosPossíveis soluções para o problema
O que foi feito na área
DOXVOX desenvolvido na UFRJ, utiliza a síntese de difones. Gratuito e Open Souce.
síntese de difones é baseada em concatenação de difones, que são pequenas seqüências de áudio que amostram a transição da metade de um fonema para a metade de outro.
O mecanismo utiliza-se de uma tabela onde são guardados grafemas e seus respectivos fonemas. Palavras que fogem a regra podem ser guardadas por inteiro.
Um dos sistemas de acessibilidade mais usados no país.
O que foi feito na area
UFRGS , desenvolveu o Spoltech Buscava tornar o CSLU toolkit, desenvolvido no (CSLU),
localizado no Oregon Graduate Instítute funcional para o nosso português brasileiro;
CSLU toolkit: " um sistema que torna possível a criação de sistemas de processamento de fala de maneira simples, disponibilizando, inclusive, uma ferramenta visual para concepção rápida e intuitiva de aplicações de síntese e reconhecimento de fala.“
Buscou parceria com os desenvolvedores do CSLU toolkit; Parceria gerou resultados, a síntese já opera em português
e o reconhecimento já atinge 98% de acerto ao reconhecer dígitos.
Potenciais parceiros
Na UFRGS, aluno está desenvolvendo um projeto de leitor de livros com o sintetizador de voz Open Souce eSpeek.UFRJ criadora do DOXVOXA UFRGS depois da parceria com a CSLU, reforçou a necessidade de buscar parcerias com outras instituições.
Possível solução
Módulos Text-To-Speech
O modulo TTS faz a transformação de texto para fala. Atualmente existem muitos sintetizadores disponíveis no mercado.Podemos dividir o modulo TTS em 2 partes A primeira parte pega o texto e transforma em uma seqüências de fonemas (pode ser uma tabela de associação), também faz a conversão de datas, números e demais símbolos para fonemas.A segunda parte que através da seqüência de fonemas e parâmetros como intensidade e duração, realiza a síntese da voz.
Pré-processamento sintese vozTexto
Tabela de conversão grafema – fonema (DOXVOX)
Módulos Extração do Fonema
O Modulo Extração de Fonemas é um reconhecedor de padrões, que podemos dividir em também duas partes.O modulo de extração de características que ao receber o arquivo de áudio, captura as informações mais importantes para o reconhecimento. EX: Taxa que o sinal cruza o eixo horizontal, distancia entre picos.
O outro módulo é um módulo de comparação que irá usar um algoritmo para comparar com padrões previamente treinados. ( Redes Neurais, Quantização Vetorial, etc)Deixaremos como próximo passo o estudo das técnicas de reconhecimento de padrões.
Voz FonemaExtração de Parametos comparação
Modulo TTS e Extração do fonemas
Resumidamente o primeiro módulo realiza a síntese, e o segundo modulo realiza um reconhecimento.Mais em todos os mecanismos de síntese já está embutida a parte que faz a tradução de grafemas para fonemas (tabelas de conversão).Podemos utilizar dessa tabela para obter os fonemas resultantes sem precisar do segundo modulo.
Modulo TTS e Extração do fonemas
Módulos Interpretação do Visema
O módulo interpretação faz a associação de um fonema recebido pelo modulo extração do fonema com o visema correspondente no banco de visemas.Uma simplificação utilizada na pratica, é fazer os visemas para representar apenas sons de vogais.
Módulo Animação
O modulo de animação receberá os visemas e sua intensidade e duração.Visemas alem dos movimentos labias, podem representar expressões. Ex: surpresaPara isso o texto precisa ser adaptado para conter informações emocionais.