Descrever Voz em Sinais de Música
Transcript of Descrever Voz em Sinais de Música
Descrever Voz em Sinais de Música
Pedro Luís Allegro
Faculdade de Engenharia da Universidade do Porto
Departamento de Engenharia Electrotécnica e de Computadores
Rua Roberto Frias, s/n, 4200-465 Porto, Portugal
Fevereiro de 2008
Descrever Voz em Sinais de Música
Pedro Luís Allegro
Aluno de Engenharia Electrotécnica e de Computadores pela Faculdade de Engenharia da Universidade do Porto
Trabalho realizado no âmbito da disciplina de Preparação da Dissertação,
do 1º semestre, do 5º ano, do Mestrado Integrado em Eng. Electrotécnica e
de Computadores da Faculdade de Engenharia da Universidade do Porto,
leccionada por José António Ruela com a orientação de Fabien Gouyon.
Faculdade de Engenharia da Universidade do Porto
Departamento de Engenharia Electrotécnica e de Computadores
Rua Roberto Frias, s/n, 4200-465 Porto, Portugal
Janeiro 2008
Resumo
Este relatório aborda interessantes perspectivas e técnicas de análise de sinais de música.
Este campo tem conhecido um enorme crescimento pois a musica cada vez mais faz parte do dia a
dia de muitas pessoas. Com o desenvolvimento das tecnologias como leitores portáteis de música e
aumento de tráfego da Internet, a musica ganhou um lugar de destaque pois torna-se fácil ouvir as
musicas que mais desejamos. Com o crescente interesse da população em aplicações de música,
cresceu também a necessidade de inovação. O objectivo deste campo de estudo será fornecer aos
utilizadores o máximo de informação sobre cada música podendo ser usada em seu benefício.
Neste relatório serão explicadas técnicas de análise de voz em músicas. A preponderância da voz
em músicas é sobejamente conhecida pois a voz é um instrumento extremamente versátil que pode
acompanhar qualquer registo musical. Torna-se por isso crítico que se criem técnicas robustas de
análise desta componente vocal tão importante na música.
A separação de sons para os humanos é fácil e simples mas para uma máquina esse processo não é
linear. Será interessante criar esta ponte aproximando estas duas realidades.
Abstract
This report focuses on some interesting perspectives and analysis techniques used on music signals.
This field has grown enormously in past few years due to the role that music plays in the daily life
of so many people. With the development of technologies such as portable music players and the
increase of internet transfer data rates, music has know a popularity increase because it becomes
easier to listen to the songs we like the most. With the increasing interest of general population in
music applications came the need for innovation on this field. The objective of this field is to supply
the users with the maximum information possible about each song so they can benefit from it. In
this report some voice analisys techniques in music will be explained.
The importance of voice in music is very well known because it is a very flexible instrument that
can accompain any type of music. Thus it becomes critical that several robust analisys technique are
created to wthdraw information about this important component of music.
The separation of sounds comes easy for humans but for a machine its by no means a simple task. It
would be interesting to bring these two realities closer together.
Índice
1. Introdução 1
1.1 Enquadramento.................................................................................................................... 1
1.2 Objectivos............................................................................................................................ 3
1.3 Estrutura do Relatório.......................................................................................................... 4
2. Análise de voz em sinais de música 5
2.1 Separação de voz dos sinais de música ............................................................................... 5
2.1.1 Processamento de sinal de entrada................................................................................ 6
2.1.2 Extracção de características .......................................................................................... 8
2.1.3 Classificação ............................................................................................................... 13
2.1.4 Outros métodos ........................................................................................................... 24
2.2 Analise de sinais de voz .................................................................................................... 30
2.2.1 Identificação do cantor................................................................................................ 30
2.2.2 Identificação de mudanças de orador.......................................................................... 32
2.2.3 Sistema de procura de timbres de voz similares ......................................................... 34
2.2.4 Aglomeração de músicas segundo o seu cantor.......................................................... 35
3. Implementações previstas 37
4. Planificação do trabalho de dissertação 40
5. Conclusões 42
LISTA DE FIGURAS VII
Lista de Figuras
FIGURA 1:ESTRUTURA SINGULAR DA SEPARAÇÃO DOS SINAIS DE VOZ............................................. 6
FIGURA 2:ESTRUTURA TRIPLA DA SEPARAÇÃO DOS SINAIS DE VOZ.................................................. 6
FIGURA 3:EXEMPLO DE UM FILTRO CHEBYCHEV .............................................................................. 7
FIGURA 4:DISTRIBUIÇÃO DE 2 COEFICIENTES MFCC PARA 3 INSTRUMENTOS ............................... 14
FIGURA 5: REPRESENTAÇÃO TRIDIMENSIONAL DE 2 MFCC PARA 3 INSTRUMENTOS .................... 15
FIGURA 6: ESQUEMA DE UM MODELO HMM................................................................................... 16
FIGURA 7: EXEMPLO 2-D DO ALGORITMO DE DECISÃO SVM ......................................................... 17
FIGURA 8:EXEMPLO DE UMA REDE NEURONAL .............................................................................. 18
FIGURA 9: PROBABILIDADE DE TRANSIÇÃO DE NOTA ..................................................................... 20
FIGURA 10:MODELOS DO CLASSIFICADOR HMM ........................................................................... 23
FIGURA 11:ESQUEMA FUNCIONAL DO MÉTODO DE CORTES NORMALIZADOS ................................ 24
FIGURA 12:MATRIZ HWPS PARA DUAS FONTES HARMÓNICAS ...................................................... 27
FIGURA 13:ESQUEMA DO SEPARADOR DE VOZ EM MÚSICAS ........................................................... 28
FIGURA 14:PLANO DE TRABALHOS DE SEPARAÇÃO DE VOZ............................................................ 41
FIGURA 15:PLANO DE TRABALHOS DA ANÁLISE DE VOZ................................................................. 41
LISTA DE TABELAS VIII
Lista de Tabelas
TABELA 1:SECÇÕES DE MÚSICAS..................................................................................................... 22
TABELA 2:RESUMO DE IMPLEMENTAÇÕES PREVISTAS PARA SEPARAÇÃO DE VOZ ......................... 39
GLOSSÁRIO IX
Glossário
Query by humming – É um sistema que aceita um input (uma query) e compara-a com um base de
dados existente. O sistema em resposta fornece uma lista classificada de músicas semelhantes à
requerida (input). Um exemplo deste sistema é o Pandora da Music Genome Project.
STFTs – Short Time Fourier Transform calcula uma distribuição de um sinal de entrada como uma
sequência de espectros de segmentos do sinal. A função retorna um gráfico tempo (xx) -frequência
(yy) com a amplitude a ser representada nos eixos dos zz.
PLP – Perceptual linear predictive coding é uma técnica de análise de voz que utiliza 3 conceitos da
psicoacustica para derivar uma estimativa do espectro auditivo:
• Resolução espectral da banda crítica
• Curva de intensidade semelhante
• Lei do poder da intensidade
Depois de processadas estas análises o resultado é aproximado por um método de auto regressão
criando o modelo dos pólos.
LPC – Linear Predictive Coding é uma ferramenta muito utilizada em processamento de áudio que
representa o envelope espectral numa forma comprimida (coeficientes) usando informação do
modelo de predição linear.
MFCC – Mel-Frequency Cepstral Coefficients são coeficientes que são derivados dum tipo de
representação cepstral do sinal de áudio. As bandas de frequência são posicionadas na escala loga-
rítmica para melhor se aproximarem do sistema auditivo humano permitindo assim um melhor pro-
cessamento de informação.
MIDI - Musical Instrument Digital Interface é uma tecnologia padronizada de comunicação de ins-
trumentos musicais e equipamentos electrónicos possibilitando que uma composição musical seja
executada, transmitida ou manipulada por qualquer dispositivo que reconheça esse padrão
LSP – Line Spectral Pairs representam os coeficientes LPC e possuem propriedades que os torna
superiores à quantização directa destes.
GLOSSÁRIO X
DFT – Discrete Fourier Transform, transforma uma função (que é normalmente no domínio do
tempo) para uma função no domínio das frequências.
Capítulo 1
1. Introdução
1.1 Enquadramento
O trabalho descrito neste relatório insere-se na área de MIR (Music information retrieval).
MIR é a ciência interdisciplinar de retirar informação de músicas. É talvez um conceito ainda pouco
conhecido devido à sua relativamente recente criação, apesar deste facto tem conhecido um grande
crescimento nos últimos tempos principalmente devido às suas potencialidades em aplicações aca-
démicas, industriais e de entretenimento. Ao grande crescimento testemunhado nesta área não será
alheio o facto de todos os seus membros trocarem informações criando um sistema de entreajuda
em que todos saem beneficiados.
Muitas áreas da MIR estão já bastante desenvolvidas, contudo a que será aqui estudada carece de
análises verdadeiramente eficientes.
A área alvo deste relatório é a extracção de informação de voz presente em músicas. A voz como
componente importante de músicas pode ajudar a fornecer informações sobre a mesma.
A música está de facto a tornar-se um dos tipos de dados mais importantes da Internet, mas não é
apenas nesta área que a musica é relevante, em muitos sistemas multimédia esta ganha preponde-
rância crescente.
Apesar destas necessidades as técnicas de análise de voz permanecem pouco desenvolvidas não
ajudando como poderiam ao desenvolvimento da MIR.
Certo tipo de análises beneficiariam bastante com a correcta segmentação de voz nas músicas, são
exemplos delas:
• Identificação do cantor
• Identificação de múltiplos cantores
• Transcrição da melodia vocal
CAPÍTULO 1: INTRODUÇÃO 2
• “Query by humming”
• Transcrição de letras
• Reconhecimento automático de letras e seu alinhamento (ex. Karaoke)
• Qualidade do cantor
• Selecção ou passagem automática para segmentos diferentes das musicas duma aplicação de
som
• Estilo musical
• Identificação do idioma
Como esta área de análise de voz da MIR está ainda em recente desenvolvimento, as técnicas exis-
tentes ainda não são muito robustas. Existem vários tipos de técnicas de análise.
Existem análises que dependem de informação inerente à música que lhes tem que ser fornecida,
como por exemplo:
• Género musical (música popular, rock, jazz, etc.)
• Sexo do cantor
• Número de cantores
Este tipo de análises devido à sua especificidade e conhecimento das músicas a analisar podem de
facto revelar-se ferramentas poderosas de extracção de voz. Contudo a sua fraqueza reside na
dependência de informação para poder funcionar correctamente. Se a informação for processada
pelo próprio algoritmo aumenta a complexidade e tempo de resposta do mesmo, se não o fizer con-
diciona o input pois este tem de conter informações específicas (requeridas pelo algoritmo) sobre a
música a analisar.
Alguns tipos de análises são bastante eficientes mas têm um tempo de resposta demasiado elevado
para análises em tempo real devido à carga computacional exigida.
A maioria dos métodos de análise estudados não estão preparados para identificação de múltiplos
cantores, o que pode induzir em erro o algoritmo.
Um problema comum é o do acompanhamento musical. De facto alguns géneros musicais possuem
um acompanhamento instrumental muito diversificado e/ou forte que dificulta a identificação da
voz.
Outro problema comum para todos os métodos será certamente a presença de ruído excessivo no
sinal de entrado. Contudo algumas análises lidam melhor com este problema do que outras pois
conseguem distinguir o que é essencial do que é ruído.
CAPÍTULO 1: INTRODUÇÃO 3
1.2 Objectivos
O objectivo deste projecto é criar módulos de software que identifiquem e analisem automaticamen-
te voz em músicas polifonicas.
Os módulos de software a ser criados serão integrados no software opensource MARSYAS. O seu
nome vem de “Musical Analysis, Retrieval and Synthesis for Áudio Signals” e é um software open-
source para criação de protótipos com o objectivo de se poderem fazer experimentações fáceis com
análise e síntese de sinais áudio. Já existem diversos blocos que simulam a maioria dos algoritmos
já publicados na área de computação de áudio. Os módulos a implementar serão programados na
linguagem C++.
Para ser possível identificar e analisar músicas é necessário criar técnicas robustas de processamen-
to de sinais de voz. Algumas técnicas candidatas serão descritas numa fase posterior deste relatório.
Quando escolhidas as técnicas estas terão de ser testadas para se avaliar o seu rendimento. Uma boa
escolha para testar a eficácia destas técnicas é a ferramenta MATLAB que é muito forte em proces-
samento de sinais.
Finalmente será necessário que o sistema funcione duma maneira automática. Para tal é necessário
que o programa aprenda a funcionar e mais importante a tomar decisões por ele. Para este efeito
utiliza-se o conceito de machine learning. Este sistema é um sub-campo da inteligência artificial
dedicado ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender, isto
é, que permitam ao computador aperfeiçoar seu desempenho em alguma tarefa pois está constante-
mente a aperfeiçoar-se automaticamente.
Para a implementação de machine learning será usado o software WEKA.
WEKA é um software opensource de machine learning escrito em Java que provém de “Waikato
Environment for Knowledge Analysis”. Contém uma colecção de algoritmos de machine learning
para manipulação de dados.
O objectivo específico deste relatório consiste no estudo de métodos utilizados para a extracção de
informação de voz em sinais de músicas.
CAPÍTULO 1: INTRODUÇÃO 4
1.3 Estrutura do Relatório
Este trabalho encontra-se estruturado em 5 capítulos dos quais, o primeiro é composto por esta
introdução ao trabalho.
O segundo capítulo está dividido em 2 secções. A primeira secção explica como pode ser realizada
a separação de voz em sinais de música. A segunda secção apresenta algumas técnicas de análise de
sinais de voz.
No terceiro capítulo são apresentados os métodos que serão alvo de estudo aprofundado durante a
dissertação.
No quarto capítulo é apresentado o plano de trabalhos da dissertação.
No quinto e último capítulo estão presentes as conclusões.
Capítulo 2
2. Análise de voz em sinais de música
Os temas abordados em seguida debruçam-se mais sobre como melhor preparar os sinais de música
para a análise de voz posterior. Alguns destes métodos de análise dos sinais de voz serão explicados
posteriormente como por exemplo identificação do cantor ou detecção de mudança de cantor. Para
se fazer estas análises com sucesso, é necessário identificar a parte vocal da música para a voz não
ser confundida com outros sons. Como uma boa separação do sinal de voz é essencial torna-se obri-
gatório encontrar um método robusto. Alguns dos métodos apresentados em seguida podem conter a
solução para este problema.
2.1 Separação de voz dos sinais de música
Esta secção separa nos sinais de música as secções que contêm voz das que não contêm voz. As
secções que contêm voz poderão conter instrumentos e as secções de não-voz contêm instrumentos
e pausas.
A separação pode ser atingida utilizando métodos bastante distintos. Em seguida será explicado
cada um deles mais pormenorizadamente.
A maioria dos investigadores utilizam estruturas aproximadas nomeadamente com módulos de
extracção de características (com respectivo processamento de sinal) e de classificação. Os módulos
de extracção de características e de classificação estão interligados pois a classificação baseia-se nas
características extraídas para tomar decisões.
Outros investigadores optam por realizar apenas algoritmos de processamento de sinal evidenciando
zonas de voz em detrimento das zonas de música.
Resumindo, os métodos investigados utilizam uma das duas estruturas:
1) Processamento de sinal
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 6
Figura 1:Estrutura singular da separação dos sinais de voz
2) Processamento de sinal – Extracção de características – Classificação
Figura 2:Estrutura tripla da separação dos sinais de voz
2.1.1 Processamento de sinal de entrada
O objectivo desta secção pode ser de isolar a voz e sinais de música como produto final ou então de
realçar certos aspectos do sinal de entrada fornecendo o resultado do processo à secção de extracção
de características que poderá desta maneira realizar o seu papel com maior rendimento.
Primeiro serão explicados 2 métodos que utilizam apenas processamento de sinal como identifica-
dor de voz em músicas. Os métodos que utilizam processamento do sinal de entrada como auxilia-
dor da secção de extracção de características serão explicados na respectiva secção da extracção de
características.
2.1.1.1 Filtro Chebychev e Inverse Comb Filter
Em [2] o autor utiliza primeiro um filtro chebychev seguido de outro inverse comb filterbank.
Como o objectivo é detectar regiões de voz, um bom método será identificar energia presente na
gama de frequências onde a voz se espalha. Deste modo a voz pode passar enquanto que sons que
caiam noutras zonas são atenuados. Para este efeito usou-se um filtro Chebychev (IIR) de ordem 12.
Estes filtros possuem uma banda de passagem e uma banda de atenuação. Têm a característica de
minimizarem o erro entre as características do filtro idealizado e o actual apesar de possuir ripples
na banda de passagem. Um exemplo destes filtros pode ser visto na figura seguinte.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 7
Figura 3:Exemplo de um filtro Chebychev [http://pt.wikipedia.org/wiki/Filtro_Chebyshev]
Este filtro consegue eliminar alguns instrumentos, porém como há instrumentos que se colocam na
mesma gama de frequências que a voz é necessário separá-los. Neste exemplo o autor utiliza uma
detecção de harmonicidade para combater esse problema. Este processo baseia-se o facto de 90%
do canto ser constituído por sons vozeados. Os sons vozeados são altamente harmónicos, o que sig-
nifica que existe energia a múltiplos de frequência da energia fundamental (pitch).
Além do referenciado, os outros sons que poderão aparecer não são tão harmónicos e não se espa-
lham no espectro da mesma maneira. Para explorar esta diferença o autor utiliza um inverse comb
filterbank para detectar grandes quantidades de energia harmónica.
Os filtros comb operam adicionando uma parte desfasada do sinal a si mesmo causando interferen-
cia construtiva e destrutiva. Surgem por isso zonas onde o sinal aparece amplificado e zonas onde
ele é bastante atenuado dando a aparência de um pente (comb).
2.1.1.2 Redução do acompanhamento musical
Em [6] o autor executa inicialmente uma redução de acompanhamento tentando potenciar a extrac-
ção das características vocais que servirá para criar vectores de características de voz. Estes vecto-
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 8
res servirão para comparação com uma base de dados identificando assim cantores com as mesmas
características vocais.
Este método reduz influências negativas de acompanhamentos musicais. Ressíntetizando o sinal de
voz considerando a sua estrutura harmónica.
Este método consiste em 3 etapas:
1) Estimar a frequência fundamental da melodia vocal usando Goto´s PreFEst.
2) Extrair a estrutura harmónica correspondente da melodia.
3) Ressíntetizar o sinal de áudio correspondente à melodia usando síntese sinusoidal.
PreFEst estima a F0 mais predominante dentro duma gama de frequências limitada já que se sabe
que a melodia tem as estruturas harmónicas predominantes nas médias e altas-frequências.
Usando a F0 estimada pode-se extrair a amplitude dos componentes da frequência fundamental e
dos componentes harmónicos. Para cada componente permite-se uma margem de erro e extrai-se o
máximo local de amplitude.
Por fim utiliza-se um modelo sinusoidal para ressíntetizar o sinal de áudio da melodia usando as
estruturas harmónicas obtidas anteriormente. Variações na fase são aproximadas usando uma fun-
ção quadrática para que as frequências variem linearmente. Variações na amplitude também são
aproximadas usando uma função linear.
2.1.2 Extracção de características
A extracção de características tem por objectivo extrair informação dos sinais de música para forne-
cer dados para os classificadores processarem.
Para os dados serem correctamente extraídos é necessário preparar os sinais a serem analisados.
Esta preparação é feita de varias formas dependendo do método a aplicar.
Uma correcta extracção das características pretendidas é fundamental para o sucesso do método já
que são estas que traduzem a constituição do sinal de entrada.
Em seguida serão apresentadas algumas técnicas utilizadas para a extracção de características.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 9
2.1.2.1 Estimação dos múltiplos de frequência
Em [5] o autor baseia-se na estimação dos múltiplos de frequência fundamental (pitch). Este consi-
dera que uma melodia é uma sequência organizada e consecutiva de notas e pausas, onde uma nota
tem um pitch, um início e um fim.
Tendo em conta estas considerações, o papel do extractor de característica é fornecer dados que
permitam que a frequência fundamental (F0) e o início de uma nota sejam bem estimados.
Pode-se falar em 4 etapas para esta secção:
1) O sinal de entrada é passado inicialmente por um filtro de 70 canais.
2) Os sinais sub-banda são comprimidos, rectificados e filtrados com um filtro passa-baixo.
3) Na terceira etapa são calculadas as STFTs (Short Time Fourier Transforms) nas bandas e
são somados no espectro para análise posterior.
4) A 4ª etapa está dividida em dois processos:
• Estimação de F0
• Estimador de acentuação para inicio de notas
A secção de processamento estende-se até ao ponto número 3. A secção de extracção de caracterís-
ticas é a etapa numero 4.
As F0 são estimadas uma de cada vez por meio de filtros comb no domínio das frequências. O esti-
mador é usado para analisar o sinal áudio fazendo overlaping de frames em 92,9ms com 23,2ms de
intervalo entre inícios de frames sucessivos.
O estimador de acentuação junta quatro canais, soma os sinais e é decimado por 4.
Como já foi referido as informações retiradas nesta secção servirão de input para a secção seguinte
(classificação).
2.1.2.2 Posterior Probability Features
Em [9] o autor utiliza um modelo duma rede acústica treinada para descriminar entre classes fonéti-
cas de voz baseadas em inglês para criar um vector de PPFs (Posterior Probabitlity Features). Para
um discurso o posteriograma tem uma reacção por frame a cada som. Regiões que não são de dis-
curso normalmente mostram uma fraca reacção a vários fonemas ao mesmo tempo já que a correcta
classificação é incerta.
Nesta secção faz-se a modelização directa das características básicas das PPFs que servirão de
objecto de análise para a secção de classificação.
As características específicas investigadas foram:
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 10
1) Coeficientes PLP (Perceptual Linear Predictive) cepstrais de ordem 12 com deltas e duplos
deltas.
2) Vector Full log-PPF – É um vector de 54 dimensões para cada frame que contenham as pré-
não-linearidades da camada de output da rede neuronal que são aproximadamente os loga-
ritmos das probabilidades posteriores de cada classe fonética.
3) Semelhança dos logs – PPF nas classes de “canto” e “instrumentos”-É calculada a seme-
lhança do vector de 54 dimensões sobre a total covariância multidimensional gaussiana
derivada dos exemplos de treino de canto e instrumentos e usamos os logaritmos destas
semelhanças PPF para modelização subsequente.
4) Semelhança dos coeficientes cepstrais sobre 2 classes – Os coeficientes cepstrais de 39
dimensões são avaliados sobre modelos gaussianos singulares das 2 classes para produzir
vectores PPF.
5) Probabilidade logarítmica de fundo – A classe de fundo foi treinada para responder a não-
voz e já que o seu valor é 1-∑ (probabilidades de todas as classes de voz). Como tal é um
bom indicador da presença ou ausência de voz.
6) Entropia do classificador – É calculada a entropia por frame das probabilidades posteriores.
Este valor deve ser baixo quando o classificador está confiante que o som pertence a uma
determinada classe fonética.
7) Dinamismo – A média da soma quadrada da diferença entre PPFs adjacentes temporalmente.
Como a fala causa rápidas transições nas fonéticas posteriores, este valor será maior para
voz do que para outros sons.
2.1.2.3 HA-LFPC
A técnica apresentada em [12] baseia-se na observação de que músicas populares têm uma estrutura
definida por: intro, verso, chorus, bridge e outro. Diferentes secções mostram diferentes caracterís-
ticas por isso parece lógico que os modelos estatísticos de zonas vocais e não-vocais sejam consti-
tuídas sobre cada uma delas.
É implementado um MM-HMM (Multi Modal Hidden Markov Model) para desafiar as variações
intra e inter músicas. Este método é seguido duma técnica de bootstraping para aumentar o rendi-
mento.
Nesta secção em particular, o sinal de áudio é dividido em frames do tamanho de uma batida para
extrair informação na forma de detecção de nota quádrupla (musicas normalmente possuem 4 tem-
pos). Esta teoria suporta que dentro deste tempo a musica é quasi-estacionária pois as mudanças
ocorrem usualmente em tempos de batida.
Após a divisão, o sinal sofre uma atenuação harmónica. Este processo considera que cada música
tem uma nota principal. Usando esta informação pode-se atenuar apenas os padrões harmónicos que
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 11
originam das notas de pitch da nota principal. Para o efeito, utiliza-se um filtro triangular para ate-
nuar muito o sinal em zonas de frequências harmónicas regulares e pouco em zonas irregulares.
Quanto maior for o desvio, menos o sinal é atenuado. Após a atenuação, sinais não-vocais têm uma
energia inferior à dos sinais de voz.
Após a atenuação, cada frame é filtrado por um filtro passa-banda de 130Hz a 16KHz. Aqui termina
a secção de processamento de sinal na qual o sinal de entrada ficou preparado para ser analisado.
Em seguida são calculados os HA-LFPC (Harmonic Attenuated Log Frequency Power Coeffi-
cients), que indicam a distribuição de energia ao longo das sub-bandas. Conclui-se que os segmen-
tos vocais têm uma energia relativamente superior do que segmentos não-vocais.
A secção seguinte deste método é a da classificação que será explicada posteriormente.
Em [8] o autor sugere a análise de 13 características que podem revelar-se valiosas na distinção de
voz em sinais de música. Esta extracção de características não é precedida de segmentação e forne-
ce informação importante para os classificadores. As características fornecidas aos classificadores
são transformadas para a escala logarítmica pois permite uma melhor distribuição, ou seja, uma
análise mais fácil.
Das 13 características, 5 são de variância pois se um selector dá valores muito diferentes para dis-
curso vozeado e não-vozeado mas ser constante para instrumentos, o que é importante é a diferença
de voz para não-voz, ou seja a variância em vez do próprio selector.
2.1.2.4 Modulação de energia a 4Hz
A voz tem um pico de modulação de energia por volta dos 4Hz que tende a ser superior ao da músi-
ca. O autor utiliza uma porção do algoritmo MFCC para converter o sinal de áudio em 40 canais.
Extrai-se a energia em cada banda, filtra-se cada canal com um filtro de segunda ordem de frequên-
cia central de 4Hz e posteriormente é calculada a STE (Short Time Energy). A energia em cada
canal é normalizada e somada. Os resultados comprovam que a voz tende a possuir uma modulação
de energia superior a 4Hz.
2.1.2.5 Percentagem de frames de baixa energia
A distribuição de energia para voz tende mais para as baixas frequências do espectro (possui mais
“quiet frames”). A percentagem é calculada com a razão de frames com energia quadrada média
menor que 50% da energia quadrada média numa janela de 1 segundo.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 12
2.1.2.6 Ponto espectral de mudança
Distingue sons vozeados de sons não-vozeados. Sons não vozeados têm uma alta proporção de
energia contida nas altas-frequências ao contrário dos sons vozeados que estão localizados nas bai-
xas frequências. Além disso as frequências atingidas pela musica são mais altas do que as atingidas
pela voz.
2.1.2.7 Centróide espectral
O ponto de balanço da distribuição espectral de energia. Muitas músicas contem sons percussivos
que ao incluírem ruído de alta-frequência colocam a média espectral mais alta. Além do mais, as
energias de excitação podem ser superiores para musica do que para voz. Esta medida fornece ainda
diferentes resultados para sons vozeados e não-vozeados.
2.1.2.8 Fluxo espectral
A norma do vector da diferença da amplitude espectral entre frames consecutivos. A música tem um
ritmo de mudança de sons superior e sofre mais mudanças drásticas frame a frame em comparação
com a voz. O valor do fluxo espectral é superior para músicas do que para voz.
2.1.2.9 ZCR (Zero Crossing Rate)
O numero de vezes que o sinal cruza o eixo dos xx no domínio dos tempos para cada frame.
2.1.2.10 Magnitude residual da ressíntese cepstrum
A norma do vector residual depois da análise cepstral, suavização e ressíntese. Se se fizerem estas
operações obtêm-se melhores resultados para sons não-vozeados pois estes sons encaixam melhor
no filtro harmónico single source em comparação com a música.
2.1.2.11 Impulso métrico
Usa autocorrelação passa banda para determinar o grau de ritmo numa janela de 5 segundos. Con-
segue distinguir onde existe uma batida condutora forte no sinal. Este processo baseia-se na obser-
vação de que batidas fortes causam modulações rítmicas de grande largura de banda, ou seja, vêem-
se sempre as mesmas regularidades rítmicas. O algoritmo divide o sinal em 6 bandas diferentes e
encontra os picos nos envelopes em cada um deles seguido duma procura de modulação rítmica em
cada canal usando autocorrelação. Por fim basta comparar banda por banda e ver com que frequên-
cia se encontra o mesmo padrão de picos de autocorrelação.
As restantes 5 características para analise são as de variância que já foram mencionadas e são cons-
tituídas por:
• Variância: Ponto espectral de mudança.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 13
• Variância: Centróide espectral.
• Variância: Fluxo espectral.
• Variância: ZCR.
• Variância: Magnitude residual da ressíntese cepstrum.
2.1.3 Classificação
A classificação é a fase terminal de qualquer método. Nesta fase tomam-se decisões baseadas em
toda a informação analisada e processada em fases anteriores.
A classificação processa-se de maneira diferente para cada método pois depende do objectivo deste
e de todas as etapas que a antecederam. Pode-se dizer que a classificação adapta-se ao tipo de infor-
mações que a etapa de extracção de características lhe fornece.
Aqui abordaremos alguns processos de classificação tentando fazer uma ligação com as secções
mencionadas anteriormente.
2.1.3.1 GMM
Um Gaussian mixture model (GMM) é um modelo estocástico, que modela classes.
GMM utiliza múltiplos gaussianos para tentar capturar cada classe de treino. É um modelo muito
flexível que se pode adaptar a qualquer distribuição de informação. Os pontos de teste são classifi-
cados por meio duma função discriminadora de máxima verosimilhança calculada pelas distâncias
aos múltiplos gaussianos de cada classe.
O objecto de interesse de um modelo estocástico é o cálculo da chamada probabilidade a posteriori,
que pode ser calculada através da fórmula de Bayes.
Caso o elemento observado não corresponde a um único elemento, mas sim a uma sequência de
vectores, então, para uma sequência de T vectores, considerando a ocorrência de cada observação
como um evento independente, podemos construir uma regra de decisão para o problema através da
maximização da probabilidade a posteriori.
A decisão é feita, então baseada nas funções densidade de probabilidade (fdps) dos vectores. A
função da etapa da modelagem em um sistema é a de criar uma estimação a priori dessas fdps. Isso
é feito através de um algoritmo de re-estimação de parâmetros. De entre eles, o mais usado é o algo-
ritmo de Baum-Welch, também conhecido como Forward-Backward algorithm ou algoritmo de
avanço-retorno.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 14
Os modelos GMMs podem ser, então, definidos como na equação seguinte:
• Ci representa uma classe (Para um modelo com um total de M classes i = 1...M);
• o representa uma observação (vector observado);
• p(o| Ci) é a chamada probabilidade condicional;
• P(Ci) é a chamada probabilidade a priori.
A probabilidade condicional p(ot| Cj) é substituída por p(o| λj), onde λj é um modelo GMM para a
classe Cj e é, então escrita como uma mistura de gaussianas multivariadas, onde ci representa o
peso de cada gaussiana na mistura e N (ot ; µi ; Σi) representa uma gaussiana multivariada, com
vectores de médias e variâncias µi e Σi , respectivamente.
A título de exemplo consideremos 3 instrumentos aos quais procuramos associar duas característi-
cas, neste caso dois coeficientes MFCC.
Figura 4:Distribuição de 2 coeficientes MFCC para 3 instrumentos [http://cnx.org/content/m13205/latest/#id7661804]
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 15
Como se pode observar pela Figura 4:Distribuição de 2 coeficientes MFCC para 3 instrumentos
[http://cnx.org/content/m13205/latest/#id7661804],existem diferenças de características em cada
instrumento.
O GMM detecta padrões nestas características e fornece uma regra de decisão como demonstrado
na Figura 5 .GMM diz-nos qual o instrumento que tocou a nota baseando-se no pico mais alto da
distribuição.
Figura 5: Representação tridimensional de 2 MFCC para 3 instrumentos [http://cnx.org/content/m13205/latest/#id7661804]
2.1.3.2 HMM
Hidden Markov Model (HMM) é um modelo estatístico que contém um número finito de estados
que têm associada uma distribuição de probabilidade. Em cada estado, o resultado pode ser gerado
de acordo com a distribuição de probabilidade associada. As transições entre estados são governa-
das por um conjunto de probabilidades chamadas probabilidades de transição.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 16
Figura 6: Esquema de um modelo HMM[http://en.wikipedia.org/wiki/Hidden_Markov_model]
• x— estados
• y — possiveis observações
• a— probabilidade de transição de estado
• b — probabilidades dos outputs
2.1.3.3 Vizinho mais próximo
Este algoritmo é simples e tem uma performance alta.
O algoritmo do vizinho mais próximo não possui informação a priori acerca das distribuições dos
exemplos de treino. Este algoritmo exige o treino de casos positivos e negativos. Cada amostra é
classificada calculando a distância ao caso de treino mais próximo. O sinal do ponto mais próximo
determina a classificação do ponto analisado.
Existem alternativas dentro deste algoritmo como é o caso dos K-vizinhos mais próximos onde para
cada ponto são analisados os k vizinhos mais próximos sendo a média dos valores a classificação do
ponto de teste.
2.1.3.4 SVM
Support Vector Machine(SVM) é um algoritmo de predição de decisão que classifica dados em
grupos. É baseado no conceito de planos de decisão nos quais dados de treino são mapeados num
plano de dimensão superior e separados por um plano definindo uma ou mais classes.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 17
Um exemplo simples pode ser visto na figura seguinte na qual os quadrados representam uma clas-
se, os círculos outra classe. SVM cria um plano de decisão que neste caso é uma linha simples e
separa as duas classes:
Figura 7: Exemplo 2-D do algoritmo de decisão SVM [http://cnx.org/content/m13131/latest/]
2.1.3.5 Redes Neuronais
As redes neuronais artificiais (Artificial Neural Networks) são modelos computacionais criados
com o intuito de emular o funcionamento do cérebro humano. Pretende-se, à imagem do cérebro,
que as ANN tenham capacidade de aprendizagem, de adaptação e de generalização.
As redes neuronais com ligações para a frente constituem uma classe especial de ANN, nas quais
todos os neurónios de uma determinada camada l estão ligados a todos os neurónios da camada l-1.
Como se verifica na Figura 8:exemplo de uma Rede Neuronal[Sistemas de Classificação Musical
com Redes Neuronais], uma rede com ligações para a frente é constituída tipicamente por uma
camada de entrada, que corresponde aos dados que entram na rede, uma camada escondida cujos
neurónios recebem os dados produzidos pelos neurónios da camada de entrada e uma camada de
saída, cujos neurónios recebem dados da camada escondida e que correspondem à saída da rede.
A estrutura fundamental numa rede neuronal é o neurónio. Cada neurónio é estimulado ou seja,
recebe sinais dos neurónios vizinhos, enviando sinais após processamento, para outros neurónios.
Os resultados de saída da rede neuronal dependem dos dados de entrada, dos valores iniciais dos
parâmetros da rede e da relação entre os próprios neurónios. Essa relação, como se visualiza por
exemplo na Figura 8 para o s-ésimo neurónio da camada escondida, é representada pelo produto da
matriz de pesos que incide nesse neurónio. Para ajustar esses pesos para que a rede produza os
melhores resultados de validação possíveis, é necessário que a rede seja devidamente treinada.
No processo de treino, a rede irá ajustar os seus parâmetros (W e b) de forma a que, no final, os
dados de entrada sejam correctamente mapeados nos dados de saída. No exemplo, cada entrada da
rede é um vector com as 40 características extraídas do sinal de música e cada saída desejada tem o
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 18
valor 1 para o género musical correcto e zero para os restantes (Figura 8:exemplo de uma Rede
Neuronal[Sistemas de Classificação Musical com Redes Neuronais]). Na Figura 8, temos uma
matriz de entrada de dimensão 40x120, na qual cada linha corresponde a uma determinada caracte-
rística extraída e cada coluna corresponde ao vector de características de uma determinada música
utilizada para treinar a rede. Na mesma figura está definida a matriz das saídas desejadas para a
rede. Tem a dimensão 3x120 e cada coluna tem a informação sobre o género musical para a música
correspondente da matriz de entrada: todas as linhas têm valor zero, excepto para a linha correspon-
dente à classe correcta, que tem valor um.
Figura 8:exemplo de uma Rede Neuronal[Sistemas de Classificação Musical com Redes
Neuronais]
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 19
2.1.3.6 Exemplos do uso de classificadores
A) Transcrição da melodia vocal
A Classificação em [5] é constituída por 2 níveis de análise:
• Modelização acústica de baixo nível
• Modelização musical de alto nível
O modelo acústico pretende capturar o conteúdo acústico do canto enquanto que o modelo musical
tenta implementar informação sobre intervalos melódicos típicos.
Modelo Acústico
O modelo de evento de nota utiliza HMM. É atribuída uma nota HMM a cada nota MIDI estimada.
Utilizando as informações extraídas na secção anterior é possível construir o vector de observação.
Este vector é constituído por:
• Diferença F0 – Entre a F0 medida e a do pitch nominal da nota modelada.
• O respectivo valor de saliência.
• A diferença de onset de F0.
• A intensidade do onset de F0.
• O valor do sinal de acentuação.
O autor utiliza a diferença de F0 como característica pois desta maneira apenas um conjunto de
parâmetros HMM necessitam de ser treinados. Apesar de se ter uma nota HMM para cada pitch
nominal, partilham todos os mesmos parâmetros de treino.
É utilizado o GMM para modelizar segmentos onde nenhuma nota estiver presente (pausas). O vec-
tor de observação para pausas consiste na máxima saliência e intensidade do onset em cada frame.
O modelo GMM é constituído por quatro componentes treinado em segmentos não melódicos.
As verosimilhanças logarítmicas observadas para este modelo são escaladas na mesma escala dinâ-
mica do modelo de notas multiplicando por uma constante obtida experimentalmente.
Modelo Musical
Estimação de Alcance de notas.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 20
Tem como objectivo constringir o possível alcance de pitch das notas. Como as melodias normal-
mente estão num raio curto, este método faz com que seja mais robusto contra notas muito altas ou
muito baixas. O autor utiliza uma escala da nota MIDI 44 até à 84.
O procedimento proposto usa a máxima saliência de F0 estimada em cada frame. Se a sua estimati-
va está entre valores MIDI 50 a 74 e a sua saliência é superior a 1.0, a estimativa é considerada
valida. É calculada a média do peso da saliência dos F0s válidos para obter a média do alcance de
notas.
Em 95% das canções todas as notas de referência estão cobertas pelo alcance estimado.
Estimação de nota
O modelo de música controla transições entre modelo de notas e de descanso. Esta modelização
baseia-se no facto de que algumas sequências de notas são mais normais do que outras numa deter-
minada nota musical. Uma nota musical é definida pela escala de notas básicas usadas numa can-
ção. O modelo encontra a nota relativa mais provável usando um método de estimação.
O método produz verosimilhanças diferentes para diferentes notas das F0 estimadas para quais o
valor da saliência é maior do que um threshold fixo. O par de notas relativo mais provável é estima-
do para todo o sinal e é usado para escolher a probabilidade de transição entre modelos de notas e
modelo de repouso.
A probabilidade de transições entre notas HMM é estimada usando uma grande base de dados de
melodias. A Figura 9 mostra a probabilidade de transição entre notas. Como passo opcional de pro-
cessamento posterior pode-se usar uma correcção glissando. Este termo refere-se a um deslizamento
da frequência fundamental até ao pitch nominal.
Figura 9: Probabilidade de transição de nota [M. Ryynänen and A. Klapuri,2006]
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 21
Encontrar o melhor caminho e pós-processamento
O modelo de notas e de descanso formam uma rede de modelos onde as transições de repouso e de
nota são controlados pelo modelo musical. É utilizado o algoritmo de Viterbi para encontrar o
caminho mais provável na rede de modelos. É de referir que este modelo cria simultaneamente as
etiquetas das notas de pitch, os onsets e offsets das notas.
B) Discriminador voz/música
Em [8] Autor compara 4 métodos de classificação. Os classificadores utilizam os vectores de 13
características obtidos na secção anterior como input.
MAP Gaussiana Multidimensional
Para avaliar o peso de cada característica usa-se a classificação multidimensional MAP (Maximum
a Posteriori) Gaussiana, modelando cada classe (voz e música) como pontos aglomerados num
espaço de características (por exemplo um espaço de 13 dimensões). São criadas estimativas de
médias de parâmetros e covariância dentro de cada classe numa fase de treino. Este treino serve
para estimar parâmetros que possam ser usados na fase de classificação de novas amostras basean-
do-se na sua proximidade à média de cada classe.
Gaussian Mixture Model
O modelo GMM trata cada classe como a união de vários aglomerados Gaussianos no espaço de
características. Esta aglomeração pode ser derivada iterativamente pelo algoritmo EM. Ao contrário
do classificador MAP, os aglomerados individuais não são representados com as matrizes de cova-
riância mas apenas com as suas aproximadas diagonais.
GMM utiliza uma estimativa de verosimilhanças para cada modelo que mede quão bem um novo
ponto se insere nos aglomerados Gaussianos. Um novo ponto é então atribuído à classe que tiver o
melhor modelo (o mais provável) para o mesmo.
K Vizinhos mais próximos
O vizinho mais próximo coloca o ponto de treino no espaço de características. Para classificação
examinamos o ponto mais próximo do inserido e atribui-se a mesma classe do outro.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 22
Neste método faz-se uma votação entre os k vizinhos mais próximos para determinar a classe do
ponto analisado.
K-d vizinhos mais próximos
É uma variante do classificador anterior na medida em que a votação é feita entre os pontos vizi-
nhos que fazem parte da árvore de partição k-d. Estes pontos estão próximos uns dos outros mas
não são necessariamente os vizinhos mais próximos.
C) Detecção de voz em músicas
O autor utiliza em [12] um classificador MM-HMM seguido de um verificador de decisão e por fim
um processo de bootstraping para criar modelos específicos de voz e não-voz para cada música.
Classificador MM-HMM
Uma observação importante é que segmentos vocais e não-vocais demonstram variações nas carac-
terísticas das canções. Por exemplo, a força do sinal em secções diferentes (chorus, intro, etc.) é
normalmente diferente.
Intro Baixa energia
Chorus Energia mais forte
Verse Energia média e arranjo musical mais completo (mais instrumentos)
Bridge Energia média e arranjo musical mais completo (mais instrumentos)
Outro Normalmente tem um fade-out e repete alguma frase do chorus
Tabela 1:Secções de músicas
O tempo e intensidade são atributos importantes para a variação inter-canções, por isso está integra-
do nos modelos a estrutura da canção, a variação intra-musica e inter-musica.
Os dados de treino vocais e não-vocais são:
• Tipo de secção (Intro, verse, etc).
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 23
• Tempo.
• Intensidade.
Um modelo é criado para cada classe, perfazendo um total de 40 modelos, 20 para vocal e 20 para
não-vocal.
Figura 10:Modelos do classificador HMM [T. L. Nwe, A. Shenoy, and Y. Wang, Singing voice
detection in popular music, 2004]
Vários modelos para cada classe formam um espaço de modelização HMM para assegurar uma
mais correcta modelização em comparação com o modelo singular.
Verificação da classificação
A canção foi segmentada como foi explicado anteriormente, contudo alguns destes segmentos
podem estar mal classificados. Nesta etapa é avaliada a segurança da classificação medindo a dife-
rença da pontuação para os outros competidores. Usa-se a informação do vizinho no modelo HMM
para determinar as propriedades da possível fonte competidora. É executado um teste para criar um
resultado de confiança que é comparado com um threshold para reter apenas as frames que tenham
alta confiança de serem classificadas de vocais e não-vocais.
Processo de bootstrapping
As frames com alta confiança que são retidas na etapa anterior são usadas para criar modelos vocais
e não-vocais com um processo bootstrapping para aumentar a exactidão. Desta maneira o algoritmo
torna-se adaptável (a cada musica) e é capaz de atingir uma exactidão superior.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 24
2.1.4 Outros métodos
2.1.4.1 Cortes normalizados
Este método presente em [11] tenta separar a melodia predominante (normalmente é a voz) sem
recorrer a estimativa de pitch ou a qualquer informação prévia relativa à música.
Este método foi utilizado como sendo independente, não recorrendo a processos como por exemplo
a segmentação.
Utiliza-se uma técnica de aglomeração espectral que tenta agrupar ou separar sons baseando-se em
características do sistema auditivo humano. Este tem a capacidade de ouvir diferentes sons numa
mistura complexa como é por exemplo a musica. O sistema auditivo agrupa sons baseando-se em
vários factores como por exemplo:
• Similaridade
• Proximidade
• Harmonicidade
É legítimo então criar um sistema que também faça a aglomeração de sons em pacotes que tenham
origem na mesma fonte.
Neste método utiliza-se o corte normalizado como técnica de aglomeração.
A Figura 11 representa o esquema do funcionamento deste método.
Figura 11:Esquema funcional do método de Cortes Normalizados [Mathieu Lagrange, Luís Gusta-vo Martins, Jennifer Murdoch and George Tzanetakis,2002]
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 25
D) Analise sinusoidal
Inicialmente faz-se uma análise sinusoidal que tem por objectivo representar o sinal de entrada
como uma soma de sinusóides caracterizadas por amplitudes, frequências e fases. Uma prática
comum é segmentar o sinal de maneira a que esses parâmetros sejam considerados constantes em
cada frame.
São utilizadas frames de 46ms com hop size de 11ms para estimar os picos sinusoidais recorrendo
ás STFT (Short Time Fourier Transforms).
Em seguida é calculado para cada frame um número variável de picos correspondendo ao máximo
local do espectro.
E) Janelas de textura
Depois de calculados os picos para cada frame, faz-se a aglomeração destes em frequência e tempo
em janelas de textura. As janelas de textura têm 150ms e equivalem a 10 frames.
O algoritmo de rastreio parcial procura os parâmetros sinusoidais de frame para frame e determina
quando grupos começam e terminam. Desta maneira é possível fazer a ligação entre picos ao longo
do tempo.
F) Critério de corte normalizado
O critério de agrupamento foi criado com o objectivo de melhorar o algoritmo de rastreio. É traçado
um gráfico sobre cada janela de textura e este é particionado usando o critério global de corte nor-
malizado. Cada partição é um conjunto de picos que estão agrupados de maneira a que a similarida-
de dentro dela seja maximizada e minimizada em relação a outras partições.
G) Computação de Similaridade
A Computação de similaridade define a medida de similaridade entre 2 picos que deve ser alta para
picos harmonicamente relacionados e baixa para picos não harmonicamente relacionados.
Utiliza-se uma nova medida de similaridade chamada Harmonically Wraped Peak Similarity
(HWPS) que tem por objectivo tirar vantagem da flexibilidade duma similaridade harmonicamente
relacionada entre picos considerando não só picos isolados como também toda a informação espec-
tral associada aos restantes picos. Esta medida pode ser usada entre picos da mesma frame como em
picos de frames diferentes.
HWPS designa a cada pico um padrão espectral que captura informação sobre o espectro em rela-
ção ao respectivo pico. O grau de correspondência de dois padrões é usado como medida de compa-
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 26
ração entre dois picos usando-se assim mais informação espectral do que apenas a amplitude e fre-
quência.
O objectivo é que a semelhança entre dois picos pertencentes à mesma estrutura harmónica seja
maior do que a semelhança entre picos pertencentes a estruturas harmónicas diferentes.
Este processo está dividido em 3 etapas:
1) Padrão espectral desfasado.
2) Espaço de Wrapped Frequency.
3) Similaridade de cosseno discreto.
A primeira etapa descreve o conteúdo espectral usando estimativas da frequência e amplitude do
máximo local do espectro de energia (pico). Fornece-se a cada pico um determinado padrão espec-
tral. Este padrão espectral é essencialmente um desfasamento do conjunto de picos de frequência da
janela. Observa-se que 2 picos de frames diferentes mas da mesma janela terão padrões bastante
similares pois os parâmetros espectrais variam lentamente ao longo do tempo.
A segunda etapa usa uma medida para estimar se 2 picos pertencem à mesma fonte harmónica
medindo a correlação entre os respectivos padrões espectrais. Para o conseguir altera-se o padrão
espectral dos picos de maneira a que o valor da correlação seja mais alto para picos que pertençam
ao mesmo complexo harmónico do que picos que pertençam a fonte harmónicas diferentes.
A última etapa correlaciona 2 padrões “Wrapped” para obter a medida de HWPS entre 2 picos cor-
respondentes. Esta correlação pode ser conseguida discretizando os padrões num histograma balan-
ceado de amplitudes.
H) Aglomeração Espectral
A informação correspondente a cada fonte harmónica é particionada em aglomerados pelo método
de corte normalizado. A informação é modelizada num gráfico que indica a similaridade entre os
nós i e j como se pode ver pela Figura 12.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 27
Figura 12:Matriz HWPS para duas fontes harmónicas [Mathieu Lagrange, Luís Gustavo Martins, Jennifer Murdoch and George Tzanetakis,2002]
A partição é conseguida dividindo recursivamente os componentes até ficarem n componentes
completos.
I) Selecção de aglomerados espectrais
De todos os aglomerados identificados pelo critério de corte normalizado, queremos seleccionar
apenas aqueles que contenham sinais de voz. Como estes aglomerados correspondem a uma fonte
harmónica predominante, devem ser densos no espaço de características. Os picos da mesma fonte
tentem a ser muito semelhantes com outros picos pertencentes à mesma fonte, principalmente em
relação à harmonicidade. Sabendo isto é possível usar o calculo de similaridades sabendo que terá
valores altos para picos pertencentes à mesma fonte harmónica.
Por fim os picos correspondentes aos aglomerados seleccionados são usados para ressíntetizar o
sinal de voz recorrendo a osciladores sinusoidais.
2.1.4.2 Separador de voz em músicas
O método que será explicado em seguida utiliza uma estrutura diferente das que já foram mencio-
nadas. Em [3] (em [10] o mesmo método é utilizado) é realizada inicialmente uma separação do
sinal de voz que não será definitiva servindo apenas como auxiliar do processo de detecção da
envolvente espectral. Depois de detectada a envolvente espectral são extraídas características que
serão analisadas pelo classificador à semelhança dos métodos já explicados. Na secção de extracção
de características são criadas unidades T-F que serão explicadas posteriormente. Finalmente o clas-
sificador separa definitivamente o sinal de voz do sinal de música.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 28
Figura 13:Esquema do separador de voz em músicas
A) Separação inicial
O autor utiliza inicialmente um detector/particionador de mudanças espectrais seguido dum classifi-
cador de segmentos vocais/não-vocais.
Este processo baseia-se no facto de que quando um som entra na música produz alterações signifi-
cativas no espectro de frequências. Normalmente a voz junta-se a um acompanhamento musical em
tempo de batidas que produzem uma grande alteração no espectro de frequências.
O detector calcula a distância euclidiana no domínio complexo entre o valor espectral esperado e o
observado. Diferenças espectrais significativas traduzem-se como picos no gráfico de distâncias. De
acordo com estes picos o sinal é particionado.
Depois de particionado, cada segmento é classificado de vocal e não-vocal de acordo com a sua
verosimilhança. Para o classificador são usados os MFCCs (Mel Frequency Cepstral Coefficients)
como características de análise e GMM (Gaussian Mixture Model) como classificador.
B) Detecção da envolvente espectral
Alguns Investigadores optam por realizar uma detecção da envolvente espectral para ajudar tanto no
ajustamento da separação em sinais de voz e música como na extracção de características para pos-
terior classificação.
A detecção da envolvente espectral serve para detectar o pitch de voz predominante. A envolvente
espectral correctamente detectada pode fornecer preciosa informação para análises posteriores.
No entanto, a detecção da envolvente espectral da voz é bastante difícil quando esta está acompa-
nhada de instrumentos. Para combater esta fragilidade usa-se a já mencionada separação do sinal
em segmentos voz e não-voz. Após a obtenção de segmentos de voz a extracção da envolvente
espectral destes torna-se mais fácil.
Inicialmente, o algoritmo decompõe a porção vocal nos seus componentes de frequência com um
filterbank de 128 canais. Em seguida é calculado para cada canal e para cada frame um correlogra-
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 29
ma normalizado para se obterem informações de periodicidade. Os picos do correlograma contêm a
informação de periodicidade, contudo devido à presença de instrumentos podem ocorrer erros.
Para atenuar estes erros, o HMM observa a probabilidade de hipótese de pitch analisando informa-
ção de todos os canais e retira os pitch improváveis. Para reduzir a interferência de outros sons har-
mónicos, HMM segue até 2 contornos de pitch.
Finalmente o algoritmo de Viterbi selecciona o contorno mais verosímil.
C) Extracção de características
Em seguida o autor cria unidades T-F (Time-Frequency), retira informação destas e fornece-a à
secção de classificação.
A extracção de características tem como entrada o contorno da envolvente espectral mais verosímil
calculado pelo módulo de detecção da envolvente espectral.
As unidades T-F são criadas passando a envolvente espectral por um filtro gammatone de 128
canais dividindo-o depois em frames de 16ms com 50% de overlap.
Para cada unidade T-F são extraídas:
• Energia
• Autocorrelação
• Correlação com canais cruzados
• Correlação com envelope de canais cruzados
Na fase seguinte o algoritmo forma segmentos unindo unidades T-F contínuas baseando-se na sua
continuidade temporal e correlação de canal cruzado. Apenas as unidades T-F com energia e corre-
lação de canal cruzado elevadas são consideradas.
As características de cada unidade são o input da secção de classificação deste método que será
discutida posteriormente.
D) Classificação
A etapa de classificação recebe as características de unidades T-F calculadas na etapa anterior.
Comparando a informação de periodicidade local indicada na autocorrelação duma unidade T-F à
periodicidade estimada da voz no mesmo frame, cada unidade é catalogada de:
• Voz dominante
• Instrumento dominante
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 30
É usada a envolvente espectral detectada numa secção anterior para classificar cada unidade T-F.
Filtros que respondam a múltiplos harmónicos terão as suas respostas moduladas em amplitude.
Para resolver este problema dos harmónicos, o algoritmo extrai o rácio de modulação de amplitude
(AM) para cada unidade e compara-o com o rácio AM com o período estimado do pitch. Esta reso-
lução do problema foi apenas mencionada em [3].
No último passo deste algoritmo, segmentos onde a maioria das unidades é classificada de voz
dominante são agrupados formando o sinal de voz.
2.2 Analise de sinais de voz
Depois de realizada com sucesso a separação da voz nos sinais de música é possível aplicar técnicas
de análise de sinais de voz para obter diversas informações como por exemplo:
• Identificação do cantor
• Identificação de múltiplos cantores
• Transcrição de letras
• Reconhecimento automático de letras e seu alinhamento (ex. Karaoke)
• Qualidade do cantor
• Estilo musical
• Identificação do idioma
Em seguidas serão apresentadas 4 técnicas de análise de sinais de voz:
1) Identificação do cantor
2) Identificação de mudanças de orador
3) Extracção do timbre vocal para comparação com outras musicas
4) Aglomeração de músicas segundo o seu cantor
2.2.1 Identificação do cantor
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 31
Em [2] o autor primeiro utiliza uma segmentação que separa o sinal de música em secções vocais e
não-vocais e que já foi explicado na secção 2.1.1.1.
Este sistema tenta identificar automaticamente o cantor extraindo características da voz em músicas
e comparando-as com uma base de dados.
A extracção de características é feita por meio de análises LPC (Linear Predictive Coding) e War-
ped LPC.
O objectivo da análise LPC é obter uma estimativa do sinal baseado em x análises anteriores. Para o
caso foram usados 12 coeficientes. Esta análise é semelhante a um filtro da fonte onde o ar é modu-
lado para formar os sons pretendidos. Os coeficientes obtidos podem ser usados para determinar a
localização dos pólos que normalmente corresponde à localização das formantes do tracto vocal.
O problema desta análise é que trata todas as frequências numa escala linear. Contudo o ouvido
humano não ouve todos os sons da mesma maneira o que leva investigadores a sugerir que se faça
um reajustamento da escala.
A análise Warped LPC faz precisamente essa conversão de frequências baseando-se na escala de
Bark. Esta é uma escala psicoacustica que mede a sonoridade nas primeiras 24 bandas criticas da
audição.
O autor utilizou cada uma das análises em separado e um método que unia as duas análises. Na fase
de testes ficou provado que a melhor solução é usar as duas análises (LPC e Warped LPC).
A classificação foi realizada utilizando 2 classificadores previamente treinados:
• GMM(Gaussian Mixture Model)
• SVM(Support Vector Machine)
Para determinar os parâmetros gaussianos que melhor modelizam cada classe usa-se a EM (maxi-
mização esperada). EM é um algoritmo iterativo que converge em parâmetros que são localmente
óptimos de acordo com a função de verosimilhança logarítmica. É também útil realizar a PCA
(Analise de Princípios de Componentes) antes de EM pois normaliza a informação facilitando o
papel do mesmo. PCA é uma rotação Multidimensional da informação no eixo de máxima variân-
cia.
SVM baseia-se em técnicas de redução de erros estatísticos aplicado a um domínio de machine
learning. SVM funciona computando um hiperplano óptimo que consegue separar linearmente 2
classes de informação. Estes hiperplanos simplificam-se num conjunto de multiplicadores Lagrange
para cada caso de treino. O conjunto de pontos dentro dos vectores dimensionais de treino Lagran-
ges diferentes de zero são os SV (vectores de suporte). A máquina guarda os SVs e aplica-os a novo
sinal de teste para futura classificação.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 32
2.2.2 Identificação de mudanças de orador
Em [7] o autor apresenta 3 sistemas de identificação de mudança de orador baseados em BIC (Bayesian Information Criterion).
O primeiro investiga as características do AudioSpectrumCentroid e do AudioWaveformEnvelope,
aplica em seguida um threshold dinâmico e um esquema de fusão. Finalmente é aplicado o BIC.
O segundo sistema é um sistema em tempo real que utiliza os line spectral pairs e o BIC para vali-
dação dum eventual ponto de mudança de orador.
O terceiro método utiliza a distância euclidiana e a estatística Hotelling T2 seguido do BIC.
BIC é um critério estatístico para escolha de modelos. Este algoritmo mede o peso do favorecimen-
to de um modelo em relação a outro.
2.2.2.1 1º Sistema
Este sistema divide o sinal de entrada em pedaços de potêncial mudança de orador. Em seguida o
sinal é analisado em várias etapas para determinar se os pontos detectados correspondem realmente
a mudanças de orador. Após cada etapa o número de pedaços diminui aumentando também o tama-
nho de cada um. Quanto maior cada pedaço, maior é a performance pois existe mais informação
para analisar, minimizando por isso os erros.
O sistema é constituído por 10 etapas que realizam testes diferentes de mudança de orador:
1) MFCCs para as 4 primeiras etapas
5) Máxima magnitude DFT
6) STE (Short Time Energy)
7) MFCCs
8) AudioSpectrumCentroid
9) Máxima magnitude DFT
10) AudioWaveformEnvelope
Todos os oradores são representados com uma densidade de probabilidade que está constantemente
a ser renovada devido ao aumento dos pedaços. O thresholding dinâmico refere-se apenas a caracte-
rísticas escalares como a magnitude máxima da DFT, STE e AudioWaveformEnvelope.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 33
2.2.2.2 2º Sistema
Este sistema faz uma amostragem do sinal de entrada a 8khz e aplica pré-enfase. Em seguida o sinal
é dividido em frames de análise de 25ms sem overlap e são extraídos coeficientes LSP de ordem 10.
A detecção de mudança de orador é executada usando o cálculo da distância entre segmentos de voz
consecutivos. Cada segmento é constituído por 55 frames. Assumindo que os coeficientes LSP
seguem uma distribuição gaussiana cada segmento pode ser modulado por um sistema gaussiano.
É utilizado um threshold automático que se baseia nos valores das N distâncias anteriores entre
segmentos.
Para reduzir falsos alarmes é utilizado o BIC que faz a validação de potenciais pontos de mudança
de orador.
2.2.2.3 3º Sistema
Este sistema está dividido em 3 módulos. No primeiro módulo são investigadas 24 características e
é aplicado um algoritmo de selecção que escolhe as 5 melhores características a serem usadas. Estas
são:
• Média da magnitude da DFT
• Delta AudioEnvelopeWaveform
• Media da STE
• AudioEnvelopeWaveform
• Magnitude delta da DFT
Cada sinal é segmentado em janelas de duração de 2 segundos e as características são calculadas
para 2 janelas adjacentes. É utilizado um threshold ad-hoc para determinar se existe um ponto de
mudança entre as janelas.
No segundo modulo são usadas MFCCs como características juntamente com a distância euclidiana
seguido da estatística Hotelling T2 .
No módulo final é implementada a BIC que produz o conjunto final de pontos de mudança de ora-
dor.
Conclui-se que o primeiro sistema é mais exacto mas tem um tempo de execução elevado. O segun-
do sistema favorece operações em tempo real mas não obtém resultados tão seguros como o primei-
ro. O terceiro sistema tenta compensar entre os 2 primeiros.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 34
2.2.3 Sistema de procura de timbres de voz similares
Em [6] o autor desenhou um sistema que procura por canções numa base de dados que tenham tim-
bres vocais semelhantes. O autor consegue atingir este objectivo comparando vectores que contêm
as características dos sinais de voz de cada música.
O sinal de entrada é inicialmente trabalhado no sentido de reduzir o acompanhamento musical para
as características vocais serem mais fáceis de extrair. Este processo foi explicado em 2.1.1.2.
O sinal ressíntetizado serve de input para esta secção. Aqui será submetido a dois tipos de análise:
• Extracção de LPMCCs (LPC-derived Mel Cepstral Coefficients)
• Extracção de ∆F0
Estas duas analisem são realizadas separadamente mas contribuem ambas para a construção do vec-
tor de características que será usado na secção de classificação.
A extracção de LPMCCs trabalha sobre os envelopes espectrais da voz pois sabemos que é aqui que
as suas características estão espelhadas. O autor refere que se poderia usar MFCC (Mel Frequency
Cepstral Coefficients) mas este não representa as características com tanto sucesso.
A extracção de ∆F0 representa a dinâmica das trajectórias de F0 pois o canto tende a possuir varia-
ções temporais na sua frequência fundamental.
A classificação é realizada utilizando um selector de frames seguros.
Como a F0 da melodia é estimada como a mais predominante em cada frame, a ressíntese dos sinais
de áudio podem conter sons vocais e/ou instrumentais. Conclui-se por isso que poderão existir
regiões pouco seguras onde os outros acompanhamentos musicais são predominantes.
A secção de escolha segura de frames remove estas frames pouco seguros recorrendo a um método
de thresholding.
Para se proceder a esta separação utilizam-se 2 modelos gaussianos:
• GMM λv Vocal – É treinado em vectores de características extraídas de secções vocais
• GMM λn Não-vocal – É treinado nos vectores extraídos de secções intermédias.
É difícil escolher um threshold universal para uma grande variedade de músicas pois este pode ser
muito alto para algumas músicas e demasiado baixo para outras. Definimos por isso o threshold
como sendo dependente das canções de maneira a que uma percentagem fixa dos frames duma can-
ção sejam escolhidos como seguros.
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 35
Após serem escolhidos os frames seguros é possível proceder ao cálculo de similaridade. Este cál-
culo utiliza os vectores de características da música escolhida fazendo uma distribuição de probabi-
lidade usando GMM. Deste modo é possível comparar esta música às que se encontrem na base de
dados.
2.2.4 Aglomeração de músicas segundo o seu cantor
Em [14] o autor utiliza um classificador estatístico com modelos paramétricos treinados usando um
acompanhamento vocal para realizar a segmentação do sinal de música.
O classificador consiste num processador de sinal que converte ondas digitais e vectores espectrais
seguido dum processador estatístico que modeliza, iguala e toma decisões. Possui 2 fases, a de trei-
no e a de teste.
Durante a fase de treino a base de dados da música forma 2 modelos (vocal e não-vocal) GMM.
Durante o teste existe varias combinações de tomada de decisões:
1) Baseadas em frames
2) Segmentos de comprimento fixo
3) Segmentos homogéneos
Decisão baseada em frames
Usando um threshold, o decisor pode hipotizar se a frame é vocal ou não-vocal.
Decisão baseada em segmentos de comprimento fixo
Como melhoramento do exemplo anterior, podemos designar uma classificação por segmento.
Acumulando as semelhanças de frames ao longo do período conseguem-se resultados estatistica-
mente mais seguros. Contudo segmentos longos correm o risco de cruzar múltiplas fronteiras
vocais/não-vocais.
Decisão baseada em segmentos homogéneos
Podem-se obter melhores resultados se se juntarem segmentos adjacentes que não cruzem fronteiras
vocais/não-vocais. Faz-se a aglomeração de vectores dando a cada frame um índex associado ao
vector de características. A cada segmento é dada o majorante do índex dos seus frames constituin-
CAPÍTULO 2: ANÁLISE DE VOZ EM SINAIS DE MÚSICA 36
tes e segmentos adjacentes são juntados como um segmento homogéneo. A classificação é feita por
segmento homogéneo por meio dum threshold.
Após a segmentação segue-se a extracção das características a analisar.
Com o objectivo de agrupar os segmentos por cantor, as características deste devem ser destiladas
da mistura e acompanhamento. O autor utiliza GMMs para criar um modelo que analisa os segmen-
tos vocais e não vocais criando vectores para cada um deles.
Finalmente para comparar e aglomerar os cantores, cada gravação é actualizada contra cada modelo
solo de cada cantor. Da secção anterior são criados um modelo solo e outro de fundo. Usando o
modelo a solo com a porção vocal da gravação é calculada a aproximação.
Capítulo 3
3. Implementações previstas
O objectivo principal deste projecto é criar um método eficaz de separação de voz em sinais de
música. Como tal os primeiros esforços serão gastos no desenvolvimento desse método.
Se for possível criar um bom método de separação de voz em sinais de músicas o passo seguinte
será a análise de métodos que permitam extrair informações do sinal de voz para diferentes objecti-
vos como por exemplo identificação do cantor, identificação de mudanças de orador, extracção do
timbre vocal para comparação com outras musicas ou aglomeração de músicas segundo o seu can-
tor.
Para a separação de voz será necessário estudar 3 campos distintos:
1) Windowing ou divisão do sinal de entrada em frames de análise
2) Extracção de características
3) Classificação
Pretende-se encontrar uma configuração para cada um dos campos que beneficie a performance do
sistema. Será preciso analisar cada um dos campos separadamente e em seguida realizar as várias
combinações possíveis medindo os resultados.
Para o primeiro campo pretende-se descobrir qual a divisão que melhor potência a extracção de
características ou permite um melhor rendimento dos classificadores. As frames podem ser dividi-
das em frames fixos de vários comprimentos ou então podem ser usados frames dinâmicos que se
ajustam a cada sinal de música. Exemplos desta última divisão foram usados em [12] onde o autor
dividiu o sinal de entrada em frames correspondentes ao tempo de batida.
Para o segundo campo é necessário estudar diversas características de maneira a determinar a sua
utilidade para os classificadores. Além de medir a utilidade deve-se também encontrar os algoritmos
de processamento de sinal que melhor ajudem a extrair cada característica. Algumas das caracterís-
ticas a serem estudadas já foram mencionadas neste relatório, são elas:
CAPÍTULO 3: IMPLEMENTAÇÕES PREVISTAS 38
• Coeficientes PLP[9]
• HA-LFC[12]
• Modulação de energia a 4Hz[8]
• Percentagem de frames de baixa energia[8]
• Ponto espectral de mudança[8]
• Centroíde espectral[8]
• Fluxo espectral[8]
• ZCR[8]
• Magnitude residual da ressíntese cepstrum[8]
• Impulso métrico[8]
Para o campo da classificação à imagem dos campos anteriores o uso de um certo classificador pode
aumentar a performance final, por isso o ideal será testar vários tipos de classificadores. O estudo de
classificadores como GMM, HMM, SVM e Redes Neuronais parecem ser as escolhas mais adequa-
das.
Para cada classificador sugere-se a criação de um modelo de classificação geral de voz. No entanto
existem zonas onde a classificação é incerta podendo resultar em erros. Para evitar este problema é
possível criar diferentes modelos (mais específicos) onde estes pontos obtenham uma classificação
superior e possam ser classificados com segurança. Alguns deste modelos podem ser relativos ao
género musical e/ou à secção da música[12].
• Género Musical. As características do cantor e da própria música variam para cada estilo
musical. Alguns exemplos de estilos musicais a serem criados:
o Rock
o Jazz
o Pop
o Opera
• Secções de música:
o Intro
o Verso
o Chorus
o Bridge
CAPÍTULO 3: IMPLEMENTAÇÕES PREVISTAS 39
o Outro
Resumindo, na tabela seguinte encontram-se os estudos a realizar.
Campo Estudos
Windowing Frames fixos ou dinâmicos e qual o tamanho
Extracção de características Quais as relevantes e qual o respectivo processamento de sinal
Classificação Qual classificador e quais os modelos para cada um deles
Tabela 2:Resumo de Implementações previstas para separação de voz
Capítulo 4
4. Planificação do trabalho de disserta-ção
Como referi no capítulo anterior a dissertação pode ser dividida em duas etapas, a de separação de
voz dos sinais de música e análise dos sinais de voz.
Além destas duas etapas existem mais quatro objectivos que tem de ser cumpridos:
• Pagina web – Servirá para apresentar o projecto e para registar a evolução do mesmo.
• Relatório de Progresso – A ser entregue até ao fim das 4 primeiras semanas este relatório
servirá para determinar se o projecto está dentro dos prazos previstos e se o plano de estudos
previsto deve ser alterado. Alem disso este relatório poderá servir para alterar ou adicionar
alguns objectivos.
• Relatório Final – A versão final, após aprovação, será impressa, assinada pelo candidato e
pelo júri e arquivada no SDI .
• Apresentação Final – Apresentação pública do trabalho de investigação ou projecto final,
em formato de workshop, eventualmente acompanhado de uma sessão de posters ou de
outras formas de apresentação multimédia.
Em seguida apresentarei os plano de trabalhos em separado para cada etapa apesar de ambas faze-
rem parte dos objectivos da dissertação.
CAPÍTULO 4: PLANIFICAÇÃO DO TRABALHO DE DISSERTAÇÃO 41
Para a separação de voz dos sinais de música segue-se o seguinte plano :
Figura 14:Plano de trabalhos de separação de voz
Para a etapa de análise de sinais de voz o plano de trabalhos é o seguinte:
Figura 15:Plano de trabalhos da análise de voz
Capítulo 5
5. Conclusões
Pela análise dos métodos utilizados por alguns investigadores é possível verificar que a separação
de voz em sinais de música está ainda pouco desenvolvida. Existem muitos métodos mas nenhum
deles pode ser considerado de ideal. Apesar deste facto é possível que com o aprofundamento da
análise de algum deles ou a integração com outro método seja possível obter melhores resultados.
A falta de um separador de voz robusto afecta a performance dos métodos de análise de voz pois o
sinal de entrada pode conter informações que não sejam relativas à voz (instrumentos, ruído). Por
muito fiáveis que sejam estes métodos, se o sinal de entrada não for de qualidade, naturalmente que
erros surgirão como por exemplo erro na identificação do cantor ou detecção errada de mudança de
orador. Torna-se por isso essencial que se concentrem atenções na criação de um método robusto de
separação de voz antes de se proceder ao melhoramento de técnicas de análise de voz.
O uso de algoritmos de processamento de sinais como ferramenta única de separação de voz
demonstraram ser algo limitados, sendo a sua performance inferior a outros métodos de separação
aqui apresentados. Um dos seus problemas é o uso de um threshold fixo que cria uma zona de incer-
teza já que alguns segmentos são escolhidos perto do limite podendo por isso ser mal classificados.
Esta falha pode ser compensada pela utilização de classificadores que conseguem medir o peso de
cada valor de cada característica diminuindo a incerteza.
Referências Bibliográficas
[1] Martín Rocamora, Perfecto Herrera. Comparing audio descriptors for singing voice detection in
music audio files. Instituto de Ingeniería Eléctrica – Facultad de Ingenier´ıa de la Universidad de la
República.
[2] Kim, Y. E. and Whitman, B. P. (2002). Singer identification in popular music recordings using
voice coding features. In Proceedings of International Conference on Music Information Retrieval,
pages 164–169.
[3] Y.Li and D.Wang, Singing voice separation from monaural recordings in Proc. of Int.Conf. on
Music Information Retrieval (ISMIR), 2006.
[4] Emanuele Pollastri ,Some Considerations About Processing Singing Voice for Music Retrieval .
Dipartimento di Scienze dell’Informazione Università degli Studi di Milano
[5] M. Ryynänen and A. Klapuri, Transcription of the singing melody in polyphonic music in Proc. Int.
Conf. Music Inform. Retrieval, 2006.
[6] Hiromasa Fujihara and Masataka Goto, A Music Information Retrieval System Based on Singing
Voice Timbre. National Institute of Advanced Industrial Science and Technology (AIST)
[7] Automatic Speaker Segmentation using Multiple Features and Distance Measures: A Comparison
of three Approaches .Margarita Kotti, Emmanouil Benetos, Constantine Kotropoulos Department of
Informatics, Aristotle Univ. of Thessaloniki. Luís Gustavo P. M. Martins, Jaime Cardoso INESC Porto,
Porto.
[8] E. Scheirer and M. Slaney. Construction and evaluation of a robust multifeature speech/music
discriminator .Proc. ICASSP, Munich, April 1997.
[9] A. L. Berenzweig and D. P. W. Ellis, Locating Singing Voice Segments Within Music Signals.
Presented at IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz,
NY, 2001.
[10] Li, Y. and Wang, D. (2007). Separation of singing voice from music accompaniment for monaural
recordings. IEEE Transactions on Audio, Speech and Language Processing.
[11] Mathieu Lagrange, Member, IEEE, Luis Gustavo Martins, Jennifer Murdoch, Student Member,
IEEE, and George Tzanetakis, Member, IEEE. (2002).Normalized Cuts for Predominant Melodic
Source Separation.
[12] T. L. Nwe, A. Shenoy, and Y. Wang, Singing voice detection in popular music in Proc. 12th
Annu. ACM Int. Conf. Multimedia, 2004, pp.
[13] Davide Rocchesso and Pietro Polotti (2007), Sound to Sense, Sense to Sound A State of the Art in
Sound and Music Computing
[14] Wei-Ho Tsai, Hsin-Min Wang, Dwight Rodgers, Shi-Sian Cheng, and Hung-Ming Yu. Blind
Clustering of Popular Music Recordings Based on Singer Voice Characteristics . Institute of
Information Science, Academia Sinica Nankang, 115, Taipei, Taiwan, Republic of China