Malcangi - Informatica applicata al suono OCR.pdf

7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf

http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 1/241

al Suono



Altri libri della collana:

M. Malcangi - “Elaborazione Numerica del segnale - Digital Signal Processing:

teoria e pratica”

k



Informatica Applicata al SuonoIndice

ì.2.

3.

4.5.

6.

7.

8.

9.

10.11.12.

..............................................................5

Fondamenti di acustica........................... 7

Fondamenti di psicoacustica................... 25

Digitalizzazione del suono....................... 47

Analisi del suono....................................... 65

Modifica del suono................ 99

Sintesi del suono........................................ 137

Analisi e sintesi della voce............ .......... 161

Compressione del suono......................... 17 5

Spazializzazione del suono...................... 19 5

Architetture DSP per l’audio.................. 205

Bibliografia................................................

241

Prof. Mario Malcangi

malcangi@dico. unimi. it

Prefazione

Il contenuto di questo corso è il risultato della sintesi di numerose argomentazioni,distribuite su altrettanto numerose pubblicazioni, relative alle molteplici discipline che

della problematica dell’elaborazione dell’informazione delconcorrono alla

segnale audio (suono): matematica, teoria dei segnali, acustica e psicoacustica, teoria dei

sistemi, elaborazione numerica dei segnali, architetture speciali di elaborazione del

segnale numerico, ecc. Rimando quindi ai riferimenti in bibliografia per un

approfondimento relativo ai fondamenti delle suddette tematiche di base.

L’obiettivo del corso è di offrire allo studente le conoscenze necessarie e sufficienti per

affrontare la progettazione di applicazioni audio digitali (incluse le applicazioni vocali)

con un approccio di natura sistemistica, avvalendosi delle conoscenze informatiche,

nonché delle necessarie conoscenze matematiche e fisiche di base.

Algoritmi e modelli di elaborazione del segnale sono una importante componente di

conoscenza di base per chi deve affrontare lo studio dell’audio digitale. Queste

conoscenze devono essere completate sia dal punto di vista della specificità della natura

dell’audio digitale, sia esplorando le problematiche implementative.

Lo studio delle architetture di calcolo orientate aH’elaborazione numerica del segnale

(DSP) è un’altra importante componente di conoscenza di questo corso. L’audio digitale

implica un’attività di elaborazione numerica del segnale molto intensiva econseguentemente, la scelta della giusta architettura di calcolo numerico per realizzare

una specifica applicazione è una conoscenza che lo studente deve avere per essere

preparato a soddisfare le richieste applicative dell’industria dell’audio digitale.



;

\ '

i ■



Introduzione

00101001010001

00101001001010

00101000100101

01010001011101

10010100010010


malcangi@flico. unimU t

27/01/2004 Copyright 2002-2003


IntroduzioneLa tecnologia audio originariamente è di natura analogica, in quanto analogica è la natura

del suono e dei suoi meccanismi naturali di produzione. La variazione di tensione

elettrica che viene prodotta in uscita da un microfono non è altro che un’analogia

elettronica della variazione di pressione delParia che caratterizza il suono che raggiunge

il microfono medesimo.

La tecnologia audio analogica, pur avendo raggiunto livelli di qualità sufficienti a

soddisfare le esigenze applicative professionali e di consumo, ha evidenziato notevoli

limiti applicativi, soprattutto nell’integrazione con altre tecnologie come lacomunicazione o l’automazione. La degradazione del segnale audio, ad esempio, non può

_ess.ere_adeguatamente controllata ne! dominio analogico,, quindi la comunicazione

dell’informazione audio diventa problematica con le grandi distanze.

La tecnologia audio digitale, grazie all’applicazione delle metodologie di elaborazione

numerica dell’informazione, ha consentito di superare queste limitazioni intrinseche

dell’elaborazione analogica del segnale audio, aprendo un ventaglio di applicazioni

virtualmente illimitato.

Le applicazioni della tecnologia audio digitale sono numerose e sempre più diffuse in uncotesto ove la tecnologia dell’informazione mette a disposizione piattaforme di

computing sempre più potenti e adatte a soddisfare esigenze applicative emergenti come

l’audio su Internet, le interfaccie uomo-macchina avanzate, i sistemi multimedia, i

dispositivi di comunicazione portatili, ecc.

Per approfondimenti: [Watkinson 01].



;r,i . -N. ^

V,

•« M * Ju w pW - Jp « * * p »»W1« *1»«' a ia * 1Ï" ■' ÍIV • ' °



Fondamenti di acustica

27/01/2004 • Copyright 2002-2003 7


I suoni si manifestarla sotto forma di fenomeno acustico (meccanico). Tale

fenomeno è determinato dalla vibrazione ^ corpi nell* aria.II suono è il risultato della modifica dello stato di equilibrio dello stato gassoso

(aria) che caratterizza un ambiente (aperto o chiuso).

I principi di acustica descrivono la natura e le caratteristiche del suono

relativamente alle generazione e alla propagazione nello spazio.

La conoscenza di tali principi consente di modellizzare sistemi di produzionesintetica del suono intesa a simulare la generazione di suoni naturali (per esempio

un sistema di sintesi vocale) oppure di progettare strumenti per la produzione di

suoni non naturali (per esempio un pianoforte).

Sempre grazie alla conoscenza dei principi di acustica, è

l’effetto di propagazione del suono nello spa

naturali (ad esempi lleco) in ambienti ove il fenomeno non può manifestarsi

neturalmente, oppure progettare sistemi che consentono di produrre effetti dispazializzazione non ottenibili in natura.

Per approfondimenti: [Olson 67]



Fondamenti di acusticaNatura del suono

27/01/2004 Copyright 2002-2003


8

Il suono è il fenomeno di compressione e rarefazione che determina un’azione

co (ad esempio l’aria). Il suono è anche la

dalla percezione del fenomeno di compressione e

rarefazione dell’aria in prossimità dell’organo uditivo.

Il suono viene prodotto quando un oggetto meccanico si mette in movimento

determinando una modifica dello stato di quiete degli ambienti gassosi, fluidi o

liquidi in cui è immerso. In natura i suoni vengono prodotti da fenomeni tipici

dell’ambiente (ad esempio le foglie che messe in movimento dal vento urtano tra

loro e strisciano sul terreno).

I suoni possono essere anche prodotti da sistemi artificiali creati dall’unomo (ad

esempio il suono prodotto da un motore di automobile). Gli strumenti

sono ipiù importanti sistemi di produzione di suoni artificiali in quanto •-consentono di controllare in maniera quasi completa tutti i parametri acustici.— —rni mininmi mi mi ■■,,, ,i—m*M»**niit1fr'r‘ l'Il H»' ni mijniiifHiiitninÉMni ri -

fl ' ' '

I suoni sono parte integrante dell’ambiente entro cui viviamo, in parte graditi

(voce, musica,...), in parte utili (campanello, sirena, ecc.), in parte sgraditi

(rumori).

L’aspetto più importante del suono è la sua natura di segnale, cioè di

informazione acustica. L’informazione che caratterizza il suono è codificata

nella cosiddetta onda sonora.

L’onda sonora è il mezzo di trasporto dell’informazione acustica e consiste didi compressione e di rarefazione del mezzo trasmissivo in cui si propaga. Le

infinite modalità di conformazione dell’onda sonora consentono le altrettanto

infinite possibilità di produzione dei suoni.



Fondamenti di acusticaParametri fisici del suono

27/01/2004 Copyright 2002-2003


Velocità di propagazione del suono

Il suono si propaga in un gas (ad esempio nell’aria) a una definita velocità.

Lunghezza d ’onda e velocità di propagazione

La velocità di propagazione di un’onda sonora può essere derivata dalla

lunghezza d’onda e dalla frequenza. La lunghezza d’onda di un suono è la

distanza che il suono percorre per completare un ciclo completo di compressione

e rarefazione. La frequenza è il numero di cicli al secondo che si osservano in un

punto determinato dello spazio (ad esempio il punto di ascolto).

I suoni si propagano a velocità differenti se caratterizzati da frequenze differenti.

Intensità sonora

L’onda sonora trasporta energia. Tale energia viene chiamata “intensità sonora”.

L’intensità di un campo sonoro è l ’energia trasmessa per unità di tempo in una

specifica direzione attraverso un’area unitaria normale a questa direzione.

DeciBel

Il suono ha una gamma di potenza o di intensità cosi ampia che risulta

conveniente utilizzare una scala di misura condensata.

Il Bel è l’unità base di suddivisione di una scala logaritmica che rappresenta il

rapporto tra due differenti misure. Il deciBel (dB) è un decimo di Bel.



Fondamenti di acusticaEffetti della propagazione del suono

27/01/2004 Copyright 2002-2003 10


La velocità del suono nell’aria dipende fondamentalmente dalla pressione, dalla

temperatura e dalla densità del gas entro cui si propaga. Data la natura fisica complessa

dei gas e dei solidi, il suono è soggetto a più o meno rilevanti effetti di distorsione

dell’informazione originaria che trasporta, tanto che al punto di ascolto può essere

percepita una informazione anche molto differente da quella originata alla sorgente.

Il suono è un processo di compressione e rarefazione del gas in cui si propaga (che da ora

in poi per semplicità chiamiamo aria). La compressione delfaria porta al suo

riscaldamento, mentre la rarefazione delfaria porta al suo raffreddamento. Dato che la

velocità di propagazione del suono nell’aria dipende dalla temperatura dell’aria stessa, ne

deriva un effetto di autodistorsione dal suono provocato dalla fase di compressione che

porta ad un aumento di velocità e alla fase di rarefazione che porta ad una diminuzione

della velocità. Ne consegue una distorsione della forma d’onda del suono, tanto maggiore

quanto maggiore è la sua intensità.

Questo fenomeno di distorsione si complica ulteriormente in rapporto alla complessitàdel suono. Le alte frequenze hanno una velocità leggermente superiore a quella delle

basse frequenze, quindi a lunga distanza si manifesta un fenomeno di distorsione del

rapporto di fase tra le componenti frequenziali, che porta conseguentemente ad una

distorsione della forma d’onda.

I fenomeni di distorsione dell’informazione audio dovute alla propagazione del suono

nell’aria, dal punto di vista strettamente della catena audio sono rigorosamente da evitare.

Dal punto di vista della percezione uditiva sono invece una importante componente

informativa che consente alla persona di dedurre informazioni di natura spaziale. Ad

esempio, il fatto che un applauso in una sala da concerto venga percepito come un

crepitio, è dovuto alla distorsione della forma d’onda del suono determinata dal rapportovelocità/intesità. Un altro effetto è quello della percezione della distanza della sorgente

fornita proprio dalla distorsione di fase.



Fondamenti di acusticaPotenza e Intensità in dB

27/01/2004 • Copyright 2002-2003 11


Potenza e intensità sonora sono parametri con una gamma di variabilitàestremamente ampia (approssimativamente 1:1.000.000 relativamente alla

percezione uditiva).

La rappresentazione in dB consente di comprimere la dinamica numerica della

misura in maniera tale da rendere più semplice la realizzazione della

strumentazione di misura e della rappresentazione grafica del suono (VU-meters,

equalizzatori grafici, ecc.).

La percezione uditiva del suono è di natura logaritmica, relativamente al livello di pressione sonora (SPL). Allo scopo di mettere in relazione la percezione

uditiva con le misure audio del livello del segnale audio misurato dalle

apparecchiature, è stata adottata per una misura logaritmica chiamata deciBel

(dB).

La misura dell’intensità può essere rappresentata in modalità relativa,

adimensionale e non lineare.

L’adimensionalità si ottiene mettendo in rapporto due misure omogenee tra loro

(cioè misurate con la stessa unità di misura).

La relatività si ottiene rapportando una misura generica ad una misura di

riferimento (ad esempio la massimma o la minima intensità udibile).

La non linearità si ottiene applicando una trasformazione non lineare (non

proporzionale) alla misura. Nel caso della misura in dB si utilizza la

trasformazione logaritmica in quanto di natura logaritmica è la percezione

dell’intensità.



Fondamenti di acusticaDeciBel

Attenuazione

0dB

-6

-12

-18

-24

-30

EquaLfzzazione Amplificazione

+ 6dB = x 2

+12

+6-6dB = x 0.5

0dB

-6

-12

-18

+30

+24

+18

+12

+6

0dB

27/01/2004 Copyright 2002-2003


12

La misura in deciBel (dB) è la più importante tra le misure audio non lineari,

relative e adimensionali. La trasformazione non lineare si ottiene tramiteapplicazione della funzione logaritmo base 10.

La misura in dB può essere facilmente ricondotta alla misura lineare

considerando che il raddoppio di una misura è pari a +3 dB se questa riguarda la

potenza (P) oppure pari a + 6 dB se questa riguarda l’intensità (V). Viceversa, il

dimezzamento di una misura è pari a -3 dB se questa riguarda la potenza, oppure

pari a -6 dB se questa riguarda l’intensità.

Nella strumentazione elettronica che tratta segnali (amplificatori, registratori,

filtri, ecc.), la misura dell’intensità del segnale viene rappresentata in dB. E’importante osservare che 0 dB non significa intensità nulla, ma intensità pari al

riferimento.

La misura in dB è relativa al riferimento e conseguentemente si caratterizzano le-v - M[| — I I a 99 ^ 9 _ L w — i

differenti scale di misura dell’intensità (o della potenza):

•Amplificazione: è una scala di ampiezza in dB prevalentemente positiva; 0 dB

ha il significato di nessuna amplificazione;

•Attenuazione: è una scala di ampiezza in dB prevalentemente negativa; 0 dB ha

il significato di nessuna attenuazione;

•Equalizzazione: è una scala di ampiezza in dB sia positiva che negativa; 0 db ha

il significato di segnale non equalizzato;



Fondamenti di acusticaDecibel (cont.)

Sistema con

perdita

+6 dB

Sistema con

guadagno

27/01/2004 Copyright 2002-2003


13

Il riferimento nella misura in dB è implicito ma non omissibile, cioè deve essere

comunque noto a chi utilizza tale misura. In alcuni casi in cui il riferimento è

standard, questo viene evidenziato in modo che sia noto comunque.

Riferimento pari a 1 milliWatt su 600 Ohm: dB(m)

Riferimento pari a 1 Watt: dB(W)

Nelle misure audio, a differenza di quelle telecom (nel cui ambito è stata definita

la misura in dB), non vi è un’impedenza di riferimento non esist, quindi la misura

della potnza non ha senso. Conseguentemente i segnali audio vengono misurati intensione (Volts), utilizzando come riferimento 0,775 Volts, quindi le misure

vengono espresse in dB(u).

I sistemi audio possono operare sul segnale audio in ingresso in maniera neutra

(senza perdita, cioè senza attenuazione), oppure con perdita o guadagno.

segnale audio in uscita cumula tutti questi effetti in forma

Quando il segnale audio è misurato in dB, allora le perdite o i guadagni sul

segnale di ingresso vengono calcolati in termini additivi (in conseguenza della

proprità dei logaritmi: log (AxB) 0 log(A)+log(B)).



Fondamenti di acusticaMisure acustiche


Le misure acustiche sono intese alla valutazione quantitativa del livello di pressione

sonora (SPL). La misura viene eseguita in dB utilizzando come riferimento la pressione

0,00002 Pascals rms. In questo caso la misura in dB viene identificata come dB(SPL).

Quando le misure acustiche riguardano l’impressione soggettiva della percezione

dell’intensità sonora (per esempio nelle misure di qualificazione dei livelli di

inquinamento acustico), allora si utilizza un filtro di ponderazione prima di eseguire le

misure. Il filtro di ponderazione riproduce la risposta in frequenza dell’orecchio umano

(tipicamente più sensibile alle frequenze medie). Il filtraggio di ponderazione più comune

è quello cosiddetto “a pesatura A” (A-weighting), da cui deriva il termine dB(A).

Quando per le misure si utilizzano apparecchiature che possono evidenziare perdita di

intensità per inserzione (insertion loss), allora è necessario eseguire la calibrazione

della catena di misura eseguendo il cosiddetto “audio level metering”. L’aggiustamento

della catena di misura viene eseguito in modo che il segnale audio non subisca né perdita,

ne guadagno nell’attraversamento. Dato che è difficile che un sistema si comporti

uniformemente a tutte le frequenze, viene eseguita la calibrazione della catena di misura

in modo tale che applicato in ingresso un tono puro a 1000 Hz con intensità pari a 0

dB(u), questo risulti in uscita sempre a 0 dB(u), cioè senza perdita.

IVU (Volume Unit) meters sono gli strumenti di misura più comuni presenti sulle

apparecchiature audio (ad esempio i registratori a nastro magnetico) che consentono di

valutare visivamente se il segnale di ingresso arriva all’apparecchiatura senza perdita (o

guadagno). Questi non sono altro che voltmetri per corrente alternata (AC) con risposta

logaritmica. La risposta logaritmica comporta che la deflessione dell’indicatore (ago,

barra, ecc.) sia proporzionale al volume percepito. La posizione 0 dB di un VU meter

indica la condizione di assenza di perdita per inserzione, quindi la condizione ottimale di

misura.



Fondamenti di acusticaTono puro

27/01/2004 Copyright 2002-2003


15

Il suono più semplice è il cosiddetto tono puro. Questo è un suono caratterizzato

da un’unica frequenza, quella determinata dalla durata di una completa

oscillazione (periodo).

Il tono puro non esiste come tale in natura. C’è un solo strumento, il diapason,

capace di produrre un tono quasi puro.

La forma d’onda del tono puro coincide con la funzione trigonometrica Asen(a),

cioè, la forma d’onda che si otterrebbe riportando su un piano cartesiano la

proiezione di un punto che mota a velocità costante su una circonferenza diraggio A. La velocità di rotazione co=a/t determina la frequenza di ripetizione del

ciclo oscillatorio (numero di periodi al secondo), considerando che co=2rtf.

Il tono puro può essere prodotto artificialmente da qualsiasi strumento capace di

generare una funzione sinusoidale. Il più comune degli strumenti è l’oscillatore

sinusoidale elettronico.

Il tono puro o sinusoidale ha un’importanza fondamentale nello studio

dell’acustica in quanto contiene in se stesso un’informazione frequenziale unica.

Per esempio, il tono puro a 1000 Hz di una specifica intensità (0 dB(u)) viene

utilizzato per calibrare la catena di registrazione o di misura fonica,



I segnali audio trasportano informazioni che possono essere visualizzate in forma diretta o

indiretta nel tempo o in alternativa nel dominio della frequenza.

Sia nel dominio temporale, sia nel dominio frequenziale, le informazioni del segnale

audio sono le stesse, cambia solo la forma di rappresentazione.Si definisce forma d’onda la variazione di ampiezza nel tempo caratteristica del

fenomeno acustico. Quella sinusoidale è ad esempio la forma d’onda caratteristica del

tono puro.

•L’oscillogramma è la rappresentazione grafica della forma d’onda nel dominio del

tempo.

•Lo spettrogramma è la rappresentazione grafica della forma d’onda nel dominio delle

frequenze.

<i* « r

I segnali audio si suddividono in periodici e aperiodici, in rapporto alla natura della

forma d’onda. Quando la forma d’onda è ripetitiva nel tempo, allora il segnale audio è di

natura periodica, altrimenti è di natura aperiodica. Il tono puro è un esempio di segnale

audio periodico.

Per i segnali periodici si definisce periodo (T) il tempo di ripetizione della forma d’onda.

II periodo è direttamente misurabile nel dominio del tempo. Il numero di periodi al

secondo (CPS) è la misura della velocità di ripetizione del segnale audio, cioè la sua

frequenza. La frequenza non è direttamente misurabile nel dominio del tempo, ma

indirettamente tramite la relazione F=l/T. La frequenza è invece direttamente misurabilenel dominio delle frequenze.



Fondamenti di acusticaSuoni complessi

I suoni reali hanno forma d’onda variamente modulata in ampiezza. Qualsiasi formad’onda, in accordo con la teoria dell’analisi armonica di Fourier, è una composizione

lineare di toni puri di varia ampiezza, frequenza e fase.

I suoni complessi si suddividono in due categorie fondamentali:

•Suoni periodici

•Suoni aperiodici

I suoni periodici evidenziano una ripetitività della forma d’onda. Questa ripetitivitàidentifica il periodo, quindi la frequenza fondamentale (F0=l/T).

In accordo con la teoria dell’analisi armonica di Fourier, i suoni periodici sono

caratterizzati, oltre che dalla frequenza fondamemntale, anche da una ulteriore sequenza

di frequenze in rapporto armonico con la fondamentale (2,3,4, . . n volte la frequenza

fondamentale).

La sequenza di frequenze determinata dalla periodicità e dalla morfologia della forma

d’onda, porta alla rappresentazione nel dominio delle frequenze dei suoni periodici detta

uspettro armonico”.

I suoni aperiodici, non evidenziano periodicità nella forma d’onda, quindi non hanno una

frequenza fodamentale caratterizzante. Lo spettro non è dunque di natura armonica,

quindi le componenti frequenziali possono assumere qualsiasi valore diverso dalla

sequenza armonica.

I suoni periodici non esistono in natura come tali. Questi possono essere generati solo

artificialmente con apparecchiature elettroniche. In natura esistono comunque suoni

molto simili a quelli periodici, cioè quasi periodici (sono ad esempio quasi periodici i

fonemi che compongono le parole e i suoni della maggior parte degli strumenti musicali).



Fondamenti di acusticaStrumenti di misura

Oscilloscopio FF -------------- r?-------------------- "— "—

___________________________________________________________________________

1 1..... .

____________________________

.

: • ^Y ' ' '*r T>'Vrf Jf i ’ "■ '1‘.'VfcXÌfl\ ‘‘i , ' y,' * " ________________ ;__________________________ S ______ — _____ i _ _____________________ _ —

Analizzatore di spettro

27/01/2004 Copyright 2002-2003Prof. Mario Malcangi

18

I segnali audio possono essere visualizzati nel dominio del tempo con svariate

tecniche di rappresentazione grafica. Le più efficaci e versatili sono quelle dinatura elettronica (in particolare quelle basate su computer).

Gli strumenti elettronici, in particolare quelli basati su computer, consentonoanche la rappresentazione grafica del segnale audio nel dominio delle frequenze.

La rappresentazione grafica del segnale audio consente la misura direttadell ’ informazione.

Nel dominio temporale, lo strumento principale di rappresentazione grafica emisura dell’informazione audio è l’oscilloscopio; nel dominio è l’analizzatore di spettro.

Entrambi questi strumenti sono utilizzati per lo sviluppo di applicazioni dielaborazione del segnale audio e sono disponibili in versione digitale sotto formadi applicativi software PC desktop opportunamente corredati di schede add-oncapaci di digitalizzare, elaborare e visualizzare in tempo reale il segnale.

MATLAB (Signal Processing Tool Box) e altri applicativi software consentonodi rappresentare graficamente il segnale, di misurarne le informazioni e diottenere rappresentazioni molto complesse come ad esempio quellatridimensionale.



L’informazione nei segnali audio è nella variazione d’ampiezza nel tempo della

forma d’onda. Tale informazione varia istante per istante ed è rappresentata

matematicamente come funzione continua del tempo (ampiezza istantanea):

Aj = A(t)

La rappresentazione deH’informazione di segnale richiede dunque la valutazione

di infiniti valori di ampiezza, uno per ogni istante di tempo.

Vi sono varie misure sintetiche dell’ampiezza di un segnale audio intese a fornireuna informazione finalizzata e sintetica:

•Ampiezza massima: ampiezza massima (positiva o negativa) raggiunta dal

segnale audio durante il periodo i misura;

•Ampiezza picco-picco: escursione massima di ampiezza raggiunta dal segnale

audio (massima dinamica) durante il periodo di misura;

•Ampiezza media: media temporale delle ampiezze istantanee del segnale

(offset) durante il periodo di misura;

•Ampiezza efficace (RMS): ampiezza effettiva, indice della potenza efficace del

segnale durante il periodo di misura.



Fondamenti di acusticaParametri nel dominio della frequenza

A(t) = • sin(2 Tift+tp

f =irr Periodo

27/01/2004 Copyright 2002-2003


L’informazione audio è codificata in termini di variazione di ampiezza (del

parametro fisico) nel tempo. Il tempo (come anche lo spazio) è una variabileindipendente, e quindi poco c’è da dire a tale proposito.

La variazione di ampiezza nel tempo può essere misurata in termini di frequenza

e di fase.

La frequenza misura la rapidità di variazione dell’ampiezza nel tempo. Se la

variazione è rapida, la frequenza è alta, se la variazione è lenta, la frequenza è

bassa.

La frequenza è definita come numero di variazioni nel tempo e la sua misura è

l’Hertz (Hz), cioè il numero di variazioni al secondo. Ne consegue che la

variazione di ampiezza ha una durata T (Periodo) pari a: T=l/Frequenza.

Questa relazione lega la durata della variazione alla frequenza e viceversa:

Frequenza = 1/T.

L’unità di misura dell’ Hz è [sec'1].

Un’altra importante informazione indice della variabilità dell’ampiezza nel tempo

è la fase. La variazione di ampiezza del segnale audio evidenzia variazioni in

aumento (fase di compressione) e in diminuzione (fase di rarefazione)dell’ampiezza.

La fase è una infonnazione relativa alla variazione di ampiezza del segnale audio.

In particolare la fase iniziale indica, in quale stato di compressione o rarefazione

era il segnale audio all’inizio della sua generazione.



Fondamenti di acusticaNatura frequenziale del suono

27/01 /2004 • Copyright 2002-2003 21


L’informazione dei segnali audio è codificata in termini di variazione d ’ampiezza

nel tempo. Questa variazione porta alla determinazione della cosiddetta forma

d’onda.

La forma d’onda (e quindi l’informazione del segnale) è, in accordo con la teoria

armonica di Fourier, la sovrapposizione lineare (proporzionale) di segnali

elementari (toni puri sinusoidali) di varia frequenza, ampiezza e fase.

La distribuzione nello spazio frequenziale delle componenti sinusoidali per uno

specifico segnale audio porta alla definizione dello spettro.

L’intervallo di esistenza delle componenti sinusoidali determina la cosiddetta

banda frequenziale.

La differenza tra la massima frequenza e la minima frequenza del segnale

audio definisce la dimensione della banda frequenziale, cioè la larghezza di

banda.

Fondamentalmente, il segnale audio in generale ha una larghezza di banda

massima pari alla capacità massima (teorica) di percezione uditiva umana (da 16

a 16000 Hz).

La larghezza di banda di uno specifico segnale audio è strettamente legata alla

sua natura fisica. Ad esempio, i segnali audio vocali (parlato) si caratterizzano ad

esempio per una larghezza di banda stretta (da 300 a 3000 Hz), mentre i segnali

audio musicali si caratterizzano per una larghezza di banda larga (da 20 a 20000

Hz).



Fondamenti di acusticaModello armonico di Fourier

A(+ r/?.)

/

Modello matematico del segnale audio

27/01 /2004 Copyright 2002-2003 22

Prof. Mario Malcangi*III

Il modello matematico, noto come Analisi Armonica di Fourier, è un importante

strumento di rappresentazione della natura informativa dei segnali con natura periodica o

quasi periodica. L’estensione dell’analisi armonica di Fourier, la Trasformata di Fourier, consente di ottenere la rappresentazione del segnale nel dominio frequenziae per

segnali di natura aperiodica e di generalizzare il concetto di frequenza in termini di

velocità di variazione dell’ampiezza del segnale.

I segnali audio sono variazioni di un parametro fisico (pressione deH’aria) rispetto ad un

altro parametro fisico indipendente (il tempo).

Dei segnali audio sarebbe virtualmente possibile fornire il modello matematico in termini

di funzione matematica che mette in relazione la variazione di ampiezza della pressione

dell’aria con il tempo:

A = f(t)

Tranne che in casi semplici, i suoni reali (voce, musica, rumori, ecc.) sono difficilmente

modellizzabili tramite una funzione matematica.4

II modello matematico è uno strumento utilissimo per l’elaborazione dell’informazione

del segnale audio. Purtroppo, tranne che in pochissimi casi, per la quasi totalità dei

segnali audio non è derivabile una funzione matematica rappresentativa.

Quando non è possibile ricavare la funzione matematica che rappresenta esattamente il

segnale audio si utilizzano tecniche che portano alla formulazione della funzione

matematica approssimata, ad esempio utilizzando l’approssimazione polinomiale.

Il modello armonico di Fourier è uno degli strumenti di modellazione matematica del

segnale audio più efficaci in quanto vicino sia alla natura fisica dei segnali audio e dei

relativi sistemi di elaborazione , sia al modello uditivo e percettivo dell’uomo.



*-• H

’ . »

\1 V f



Fondamenti di psicoacustica

27/01/2004’ Copyright 2002-2003 25


L’orecchio umano è un sistema complesso di trasformazione del fenomeno

acustico in fenomeno percettivo. Il suo funzionamento è ampiamente non linearein quanto non esiste ima corrispondenza diretta o proporzionale tra i parametri

fisici del suono e le relative sensazioni percettive. Parametri fisici come la

frequenza e 1’ intensità, indipendenti tra loro nel dominio acustico, risultano

interdipendenti tra loro nel dominio della percezione acustica.

La psicoacustica tratta la relazione che lega il fenomeno acustico alla percezione

che ne deriva l’individuo. A differenza dei principi di acustica, i principi di

psicoacustica sono derivabili esclusivamente in termini di campionamentostatistico di un numero elevato di individui quando riferiscono in merito alla

sensazione percepita quando sono sottosti a determinati stimoli acustici.

Alla percezione acustica contribuiscono vari livelli di elaborazione del segnale

audio, nell’orecchio esterno e medio in termini esclusivamente meccanici,

nell’orecchio interno in termini elettrochimicomeccanici e sulla corteccia

cerebrale (area uditiva) in tennini elettrochimici. A queste trasformazioni di

natura fisiologiche del suono si aggiunge anche la componente psicologica e

culturale dell’individuo che inducono trasformazioni estremamente complesse

alla percezione uditiva.

La psicoacustica fornisce dunque importanti informazioni relativamente alla

relazione che lega il fenomeno acustico alla percezione.



Dall’acustica alla psicoacusticaI parametri del suono

Frequenza (Pitch)

.T I100

1000

10000 Hz

dB

120

90 -

60 -

30 -

0

Intensità (Loudness)

Forma d’onda (Timbro)

Durata

27/01/2004 Copyright 2002-2003


26

Il suono esiste nella dimensione fisica (acustica) e come tale ha caratteristiche fisiche

specifiche:

•Frequenza: numero di cicli (oscillazioni complete) per unità di tempo

•Intensità: energia trasmessa per unità di tempo in una specifica direzione

•Forma d’onda: struttura frequenziale del suono

•Durata: intervallo di tempo di persistenza del suono

•Dinamica: variazione dell’intensità del suono caratterizzata essenzialmente da tre fasi,

eventualmente ripetute più volte, l’attacco, la tenuta e il decadimento.

Il suono fisico è percepito dal sistema uditivo e da questo è condizionato. Il sistema di

percezione uditiva non è lineare, per cui non esiste una perfetta corrispondenza tra lanatura e l’entità dei parametri acustici e quelli percepiti attraverso il sistema uditivo. Per

questo motivo, relativamente alla percezione uditiva, è stato definito il modello

psicoacustico del suono. La psicoacustica, come l’acustica, studia e definisce i parametri

costitutivi del suono, dal punto di vista percettivo. I parametri del suono non sono stimati

tramite strumenti, come in acustica, ma tramite la valutazione soggettiva. La

pisicoacustica definisce quindi la relazione tra i parametri acustici del suono e come

questi (in media) sono percepiti dagli esseri umani. I parametri psicoacustici che

consentono di descrivere compiutamente un suono sono:

•Pitch: sensazione di altezza del suono legata alla frequenza

•Loudness: sensazione quantitativa del suono legata all’intensità

•Timbro: sensazione di identificazione della natura del suono legata alla forma d’onda

(struttura frequenziale)

•Durata-Dinamica: caratteristica percettiva che contribuisce all’identificazione del

timbro.



Dall’acustica alla psicoacusticaI limiti della percezione uditiva

Gamma della percezione frequenziale

0 dB = 0,000204 dyne/cm2 (Pascal rms)

dB130

120

no

10090

80

70

60

50

40

30

20

IO> 0

Sirena a pochi metri di distanza

----------------------------- Soglia del dolore

Concerto rock

Concerto musica classica (fortissimo)

Cabina di un aereo

Conversazione vivace

Città di notte

Parlato sussurrato

Foglie che rotolano

--------------------------------- Soglia di udibilità

Gamma di percezione deirintcnsità

27/01/2004 Copyright 2002-2003


27

una

Il suono è un fenomeno acustico che esiste indipendentemente dall’uomo e dalla sua

capacità di percepirlo. La percezione uditiva del suono, oltre a comportare distorsioni

dell’informazione audio, ne limita il campo di esistenza in conseguenza della naturameccanica, biologica e neurale del sistema uditivo. I due parametri fondamentali del

suono, la frequenza e l’intensità, sono limitati entro una determinata gamma,

rispettivamente, di percezione della frequenza e di percezione dell’intensità.

La percezione della frequenza è mediamente compresa tra 16 e 16000 Hz.

La percezione delFintensità è compresa tra 0 e 120 dR.

In particolare, 0 dB corrisponde alla minima pressione acustica che produce

sensazione di intensità, pari a 0,000204 dyne/cm2.

Questi limiti di estensione del campo uditivo, tipici dell’udito normale (non patologico),implicano che non vi è alcuna percezione acustica al di fuori di tali limiti ma non

necessariamente che non esista il fenomeno acustico. Va osservato che la natura dei limiti

del campo uditivo frequenziale sono differenti da quelli della percezione delFintensità.

Mentre nel primo caso il superamento del limite superiore implica solo la scomparsa

della sensazione, nel secondo caso implica una intensa sensazione di dolore. Se il

fenomeno acustico di intensità superiore a 120 dB dura per un tempo limitato e non è

superiore di olre 20 dB a tale soglia, interviene un meccanismo di protezione dell’organo

uditivo (saturazione) che porta ad una sordità temporanea. Se il tempo di stimolo ad oltre

120 dB è prolungato nel tempo e soprattutto se supera molto tale soglia (oltre i 140 dB),allora l’organo uditivo subisce danni irreversibili che portano alla sordità permanente.

Oltre queste limitazioni di estensione della percezione dei parametri acustici, vi sono altre

limintazioni legate alla risoluzione e alla nrecisione di nercezione dei narametri acustici.

limitazioni

descritte di seguito.



Fondamenti di psicoacusticaSistema uditivo

Corteccia cerebrale

Finestra

ovaleCanale

uditivo

Orecchio

medio

Orecchio

esterno


Padiglione

1l ‘‘M|l▼Ai| !Ili 1

Il !»•Hn 4é

Area uditiva

Fibre nervose

Frequenze (Hz)

<N^

Orecchio

interno

Il sistema uditivo è un meccanismo molto complesso capace di trasformare il suono in percezione uditiva.

Esso consiste di una parte di un sottosistema di natura prevalentemente trasduttiva (cioèdi trasformazione da segnale acustico a segnale elettrochimico), l’orecchio, e una parte dinatura neurale, la corteccia cerebrale, capace di trasformare le informazionielettrochimiche in sensazioni percettive acustiche di base (pitch, laudness, ecc.) ecomplesse (struttura musicale, parlato, ecc.).

L’orecchio convoglia le onde sonore attraverso la sezione esterna (orecchio esterno - padiglione e canale uditivo) portandole a sollecitare la membrana del timpano.

Dalla membrana del timpano inizia l’orecchio medio ove, un sistema di trasmissione

meccanico (catena degli ossicini - martello, incudine e staffa) porta la vibrazioneacustica alla finestra ovale.

La finestra ovale è l ’inizio dell’orecchio interno. Questo è costituito da vari organi, di cuila coclea è quella preposta alla trasformazione della vibrazione di natura meccanica inimpulsi elettrochimici che verranno inviati alla corteccia cerebrale attraverso il nervoacustico.

é

Sulla corteccia cerebrale vi sono le aree sensoriali, cioè aree neurali che si sonospecializzate (durante l’evoluzione biologica) nella trasformazione degli stimoli sensitiviin percezione. Si tratta di aree distinte, una per ogni tipo di sensazione sensoriale (visiva,

uditiva, olfattiva, tattile e gustativa). L’area sensoriale uditiva è dedicata allatrasformazione degli stimoli provenienti dall’organo uditivo attraverso le fibre nervose del nervo acustico in percezioni acustiche primarie. Altre aree della corteccia cerebralesono dedicate all’elaborazione di queste percezioni primarie ad alto livello. Ad esempio,l’area del parlato è dedicata alla trasformazione testo-voce, alla identificazione del

parlatore, alla comprensione del parlato, ecc.



Fondamenti di psicoacusticaSistema uditivo (cont.)

Elico trema Membrana di Reissner

Membrana tettonaScala vestibolare

Scala media

Membrana basilare

Finestra ovale

Scala timpanica

Apice

16 Hz

Finestra rotonda Sviluppo della membrana basilare lungo la coclea

27/01/2004 Copyright 2002-2003


29

La coclea è un organo a forma di tubo avvolto a spirale, delimitato ad un estremo da due

membrane (la finestra ovale e la finestra rotonda) alla estremità basale (quella

collegata alla catena degli ossicini) e chiusa alPaltro estremo (apice).Per tutta la sua lunghezza la coclea è divisa in tre sezioni (scala vestiboli, scala media e

scala timpani) da due membrane, la membrana basilare e la membrana di Reissner.

La scala vestibuli e la scala timpani sono collegate tra loro all’estremità apicale della

coclea da una piccola apertura, Pelicotrema. Nella sezione intermedia (scala media) vi è

un’altra membrana (membrana tettoria) su cui sono impiantate le cellelule cibate, una

sorta di trasduttori microfonici. Il suono aereo proveniente dall’orecchi esterno,

trasformato in vibrazione meccanica nell’orecchio medio, si propaga nel fluido contenuto

nella coclea, inducendo vibrazioni della membrana basilare. La vibrazione della

membrana basilare è rilevata dall’organo del Corti. Questo si sviluppa per tutta la lunghezza della coclea. Nell’organo del Corti vi sono le cellule cibate, capaci sia di

generare che di rilevare le vivrazioni. operando la trasduzione da vibrazione meccanica a

sequenza di impulsi elettrochimici trasmessi alla corteccia cerebrale tramite le fibre del

nervo acustico. Ogni cellula cibata è collegata ad una fibra nervosa. La deflessione della

ciglia (una sorta di pelo) della cellula provoca l’attivazione della fibra nervosa ad essa

connessa producendo l’impulso che perviene ai neuroni della corteccia cerebrale. Le

cellule cibate sono distribuite per tutta la sua lunghezza della coclea (circa 35 mm) e sono

collegate a circa 4000 fibre nervose che si raccolgono in un fascio che costituisce il nervo

acustico (circa 1 mm di diametro). La distribuzione percettiva delle frequenze lungo lo

sviluppo della coclea (dalla finestra ovale alla fine) è logaritmica e decrescente da 16000

a 16 Hz circa. Il meccanismo di trasduzione della coclea è capace di distinguere circa

1500 frequenze separate, quindi è un sistema ad elevata risoluzione frequenziale. Sia la

frequenza che l’intensità sono trasdotte in forma non lineare (logaritmica).



Fondamenti di psicoacusticaSistema uditivo (cont.)

27/01/2004 Copyright 2002-2003 30


Il sistema uditivo è molto complesso in quanto preposto a svolgere svariate funzioni:

orientamento, identificazione delle sorgenti sonore, comprensione del parlato, finizione

della musica, ecc. Durante il processo evolutivo il sistema uditivo ha sviluppato la

struttura e la funzionalità necessaria a svolgere queste funzioni in maniera ottimale. La

duplicazione dell’apparato uditivo, oltre a soddisfare una esigenza di ridondanza, è

finalizzata alla percezione spaziale: data la distanza tra i due apparati uditivi e il diverso

posizionamento rispetto alla sorgente, il cervello riceve le necessarie informazioni per

localizzare la sorgente audio in termini di distanza e posizione. Le informazioni che

contribuiscono alla determinazione della distanza e della posizione della sorgente audio

sono la fase e la struttura frequenziale del suono. La distanza tra l’orecchio destro e

quello sinistro (una ventina di centimetri) implica che lo stesso suono perviene ad ogni

orecchio in tempi diversi, quindi con fase di oscillazione differente. Inoltre,

l’orientamento della testa rispetto alla sorgente consente di determinare la posizioneradiale della sorgente rispetto al punto di percezione (frontale, laterale, posteriore, ecc.).

L’orientamento della testa rispetto alla sorgente provoca un effetto di mascheramento,

tanto da modificare in maniera selettiva la struttura frequenziale del suono, in particolare

attenuando le alte frequenze. Il cervello elabora in maniera combinata le informazioni di

differenza di fase e di mascheramento selettivo delle alte frequenze, determinando in tal

modo l’esatta posizione spaziale della sorgente. Il ritardo di percezione tra le due

orecchie (Inter-Aural Delay, IAD) per una variazione di fase di 1 grado è di circa 10

microsecondi. Il più piccolo ritardo percepibile è di 6 microsecondi. I ritardi di fase sono

utili per la percezione spaziale solo alle basse frequenze, mentre il mascheramento è

efficace solo alle alte frequenze. La percezione spaziale funziona comunque bene su tuttoil campo uditivo grazie alla complessità dell’informazione audio (timbro e dinamica).

L’informazione che perviene al cervello è molto complessa essendo coinvolti centinaia di

recettori acustici che trasmettono, attraverso le fibre del nervo acustico, al cervello

informazioni differenziate tra orecchio destro e orecchio sinistro.



Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch

Come già evidenziato nelle descrizione della fisiologia delPorecchio, la struttura della

coclea, in particolare della membrana basilare e dell’organo del Corti, è tale da consentirela percezione della frequenza. Il meccanismo di percezione della frequenza dei suono

tramite il sistema uditivo non è lineare ed è soggetto, a livello fisiologico, ad una serie di

limitazioni legate alla natura degli apparati ad essa preposti.

La membrana basilare, nel suo sviluppo inverso (dalla apice alla base), è l’equivalente di

un asse frequenziale a distribuzione logaritmica. Questa fisologica della membrana

basilare è tale da comportare una sensazione di crescita proporzionale della frequenza in

occorrenza del raddoppio fisico della stessa (ottava), in pratica, la distanza frequenziale

tra 220 e 440 Hz viene percepita uguale a quella tra 440 e 880 Hz oppure tra 1000 e 2000

Hz.

Un altro fattore che influenza la natura della percezione della frequenza è il meccanismo

stesso di eccitazione delle cellule cibate. La membrana basilare, quando viene eccitata da

un suono ad una certa frequenza, forma un inviluppo di vibrazioni nell’intorno della

effettiva frequenza del suono. Ciò significa che la singola frequenza attiva oltre alla

cellula cibata rivelatrice di quella frequenza, anche le cellule cibate limitrofe. La singola

frequenza produce a livello sensoriale uno stimolo frequenziale multiplo, che il cervello

elabora comunque come singola percezione frequenziale.

La non linerità della distribuzione frequenziale, il numero finito di recettori e la strutturaasimmetrica della membrana basilare sono i principali fattori che influenzano la natura

della percezione della frequenza e che determinano alcuni importanti caratteristiche

percettive come il mascheramento delle frequenze durante la percezione di strutture

frequenziali complesse.

Si definisce pitch (altezza) la sensazione uditiva che consente di assegnare ad un suono,

una posizione su una scala frequenziale (ad esempio quella musicale).



Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch (cont.)

AF/F I l

5 0 1 0 0 1000 1 0 0 0 0

Frequenza (Hz)

27/01/2004 Copyright 2002-2003


32

Il limite inferiore di percezione del pich è la frequenza più bassa che fornisce al

soggetto la sensazione di percepire un tono. Tale limite è soggettivo e dipende

anche da altri fattori fisici oltre la frequenza, come l’intensità e la natura della

forma d’onda del suono (struttura ffequenziale).

In condizioni particolarmente favorevoli, alcuni individui sono riusciti a

percepire toni fino a 12 cicli al secondo (Hz).

Il limite superiore di percezione del pitch determina la massima frequenza

percepibile. Anche questo limite è di natura soggettivo e diminuisce al crescere

dell’età. All’età di 40 anni, senza aver subito particolari danni al sistema uditivo,

il limite massimo di percezione del pitch è di circa 15000 cicli al secondo (Hz).Un importante aspetto legato alla percezione del pitch è il livello di

discriminazione. Due toni frequenzialmente molto vicini tra loro non

necessariamente sono percepiti in forma distinta.4 « ?

Il test di discriminabilità del pitch viene eseguito generando due toni a frequenze

sufficientemente diverse tra loro da essere distintamente percepibili dal soggetto.'

La distanza ffequenziale viene gradualmente ridotta fino a quando il soggetto

riferisce di percepire un unico tono.

Il test di discriminabilità del pitch viene eseguito per tutte le frequenze e per varilivelli di intensità, determinando un diagramma che evidenzia la natura

psicoacutica della percezione del pitch. L’orecchio è maggiormente capace di

discriminare il pitch alle alte frequenze rispetto alle basse frequenze ( e

Biddulph, Journal o f Acoustical Socie ty o f America, Voi. n. 2, P ari 1, pa g.

275, 1931).



-o‘IgCl,«§§:aO*5,

•cs<1>s

K *

§s

I


14001

1200

1000

16 31 62 125 25 0 500 1000 2000 4000 8000 16000

Frequenza (Hz)

27/01/2004 Copyright 2002-2003

Prof. Mario Malcangì

33

La maggiore discriminabilità del pitch alle alte frequenze rispetto alle basse

frequenze è anche evidenziata dal grafico cumulativo delle differenze di pitch

appena udibili: a circa 500 cicli al secondo la curva ha una crescita più rapida inquanto aumenta il numero di differenze appena percepibili.

Il totale delle differenze di pitch appena percepibili è circa 1400.

Considerando che gli intervalli di pitch della scala musicale sono solo 120, è

evidente che la musica tradizionale occidentale sfrutta pochissimo della capacità

percettiva dell’orecchio umano relativamente al pitch (Lewis, U niversity o f Jowa Studies in Ps ycio log y o f Music, voi. 4, 1937).

La discriminazione del pitch è discreta in quanto la quantità di cellule ciliate

distribuite lungo la membrana basilare è finita. Ciò non significa che sono

percepibili solo un numero finito di frequenze, ma che la variazione da un pitch

al successivo non è continua.

La maggiore discriminabilità del pitch tra 500 e 4000 Hz è dovuta allo sviluppo biologico dell’organo uditivo relativamente alla banda frequenziale di esistenza

del parlato.




27/01/2004 Copyright 2002-2003


34

Un altro fattore che condiziona la percezione del pitch è la durata. Il sistema

uditivo necessita di una certa durata minima del tono perché sia percepito come

tale.Se la durata è inferire al minimo necessario, allora invece di percepire un tono

viene percepito un rumore vagamente somigliante a un tono. Per durate

brevissime la percezione è simile ad un click.

La durata minima di un tono, perché possa essere percepito come tale, dipende

dalla frequenza.

Osservando il grafico della minima durata del tono perché risulti percepibile il

pich, si evince che alle alte frequenze sono necessari più cicli che alle bassefrequenze per avere la percezione corretta del tono. Ciò è conseguenza del fatto

che è necessaria una durata minima del tono perchè si attivi la percezione del^ * f

pitch. Questa durata minima è di circa 13 ms (Turnbull, Jo urn al o f Expl.

Psy cholo gy, Voi. 34, pag. 302, 1944).

J

Questa caratteristica percettiva dipende dalla natura della risposta dinamica della

membrana basilare. La risposta di eccitazione della membrana basilare ad uno

stimolo sonoro di piccola durata con attacco e decadimento rapido (burst)evidenzia un tempo di attacco e decadimento lento dovuto alle caratteristiche

risonanti dell’orecchio. Uno stimolo audio troppo corto non consente all’orecchio

di arrivare allo stato stazionario, quindi ad uno stato necessario alla formazione

della completa sensazione uditiva.



Fondamenti di psicoacusticaBanda critica - Battimenti

tempo

Spetto a risoluzione

infinitesimaperiodo

battimento

Spetto a risoluzione finita

frequenza frequenza

frequenza battimento

(fittizia)

/ transizione

tono singolo tono singolo due toni distinticon battimento aspro dolci

—

0 distanza frequenziale

27/01/2004 Copyright 2002-2003


36

La membrana basilare è il meccanismo dell’apparato uditivo più complesso relativamente

alla trasformazione del fenomeno della vibrazione acustica in informazioni per il sistema

nervoso. Una delle caratteristiche più importanti del meccanismo di funzionamento della

membrana basilare è quello della trasformazione tempo-frequenza, realizzato attraversola generazione di un inviluppo oscillatorio della membrana. Questo meccanismo

evidenzia un funzionamento di natura discreta, nel senso che la singola frequenza

(informazione infinitesima) necessita che una porzione finita di membrana basilare si

ponga in oscillazione. Ne consegue che la risoluzione frequenziale è finita e non

infinitesima. Questa natura funzionale della membrana basilare porta alla definizione

della banda critica, cioè della minima porzione di membrana basilare che deve mettersi

in vibrazione per produrre la percezione di un tono.

I battimenti sono uno degli effetti psicoacustici derivanti dalla natura discreta della

percezione del pitch. Due toni puri, alla medesima frequenza producono un effetto percettivo del pitch chiamato, con terminologia musicale, unisono (percezione di un

unico tono puro). Se le frequenze dei due toni puri differisce leggermente, si produce un

effetto di modulazione d’ampiezza determinato dal leggero sfasamento dei due toni puri.

Ne deriva la percezione di un unico tono accompagnato dalla percezione di un una bassa

frequenza (battimento). Tenendo ferma la frequenza di uno dei due toni puri e

aumentando la frequenza del secondo tono puro, la percezione del battimento permane

per un certo intervallo frequenziale (10-15 Hz). Continuando ad aumentare aumentare la

distanza frequenziale tra i due toni puri, la percezione del battimento scompare, ma non si

percepisce ancora in modo distinto i due toni puri ma ancora un unico tono aspro. Solo

dopo aver superato una certa distanza frequenziale i due toni vengono percepiti inmaniera separata con una sensazione dolce. Ciò avviene quando è stata superata la

dimensione della banda critica e quindi sulla membrana basilare si sono potuti formare

due inviluppi oscillatori distinti, cioè non interferenti.



L’intensità (loudness) è la sensazione soggettiva di percezione uditiva prodotta

dall’ampiezza del suono.

Come per gli altri parametri percettivi, la percezione dell’intensità non è lineare e

dipende anche da altri parametri del suono, principalmente la frequenza.

L’unità di misura dell’intesità è il phon. Questa è numericamente uguale al

valore in dB prodotto dalla pressione sonora (SPL) di un tono puro alla frequenza

di 1000 Hz.

Alle altre frequenze la scala acustica in SPL e quella psicoacustica in phon non

sono coincidenti. 1000 Hz non è una coicidenza tra suono fisico e percezione, ma

semplicemente un punto di riferimento per costruire una scala di misura

(psicoacustica) della percezione dell’intensità.

Il sone è un’altra scala di misura psicoacustica dell’intensità. 1 sone viene

definita come la sensazione di loudness prodotta da un tono puro di 1000 Hz e 40

dB di ampiezza (riferita alla soglia di udibilità, SPL).

La natura soggettiva di queste unità di misura dell’intensità è evidente nel

diagramma che rapporta la misura in sone a quella in phone.1

1sone e i phon non sono due misure coincidenti della loudness, nel senso che non

esiste una relazione lineare (proporzionale) tra queste due misure psicoacustiche

(Fletcher, Journal o f Acoustical S ocie ty o f America, Voi. 9, n. 4, pag. 275, 1938).



Fondamenti di psicoacusticaPercezione dell’intensità (loudness) (cont.)

Pressione acustica (dB SPL)

27/01/2004 Copyright 2002-2003 38


La percezione dell’intensità è sostanzialmente lineare fino a 8000 Hz, nel senso

che fino a questa frequenza un aumento di pressione acustica determina un

aumento proporzionale di sensazione di intensità (dB).

La funzione di corrispondenza tra intensità acustica e intensità psicoacustica è

differente per ogni frequenza fino a 8000 Hz, ma sempre decrescente al crescere

della frequenza.

Oltre gli 8000 Hz l’orecchio manifesta un comportamento insolito. La sensazione

di intesità che ne deriva a parità di intensità acustica è inferiore a quella chederivava da una frequenza inferiore.

y

••

L’orecchio, oltre gli 8000 Hz denuncia un calo di capacità percettiva

dell’intensità.

Per produrre la stessa sensazione di intensità di un tono puro a 8000 Hz e 80 dB

(SPL), un tono puro a 10000 Hz deve avere una intensità acustica di 90 dB(SPL), cioè deve circa quattro volte maggiore in ampiezza.

(Fletcher, Journa l o f Acoustical Socie ty o f Amer ica, Voi. n.




1000 10000

Frequenza (Hz)

27/01/2004 Copyright 2002-2003


La più chiara dimostrazione della variabilità percettiva della loudness rispetto alla

frequenza è il diagramma di Fletcher e Munson. Le curve di questo diagramma sono

isofone, cioè descrivono come un tono puro deve essere amplificato o attenuato peressere percepito a tutte le frequenze con pari sensazione di intensità. Ogni curva è stata

generata per un livello di loudness in phon.

Prima di tutto si può notare che a 1000 Hz la scala di intensità in dB e quella di loudness

in phon coincidono (proprio per la definizione di phon).

Si può osservare anche che da 100-200 a 6000-8000 Hz Porecchio è particolarmente

sensibile. Sopra e sotto queste frequenze la sensibilità dell’orecchio diminuisce, cioè,

bisogna che l’intensità sia superiore a quella equivalente che si vuole percepire in

funzione dell’intensità SPL del suono.

A circa 5000 Hz Porecchio manifesta un comportamento risonante del meato

(amplificazione dell’ampiezza del fenomeno di eccitazione). Un’altra risonanza, meno

marcata si manifesta a circa 13 kHz.

(Fletcher e Munson, Journal of Acoustical Society o f America, Voi. 5, n. 2, pag. 82,

1933).

Una delle principali conseguenze di questa risposta in frequenza dell’orecchio è che alle

basse e alle alte frequenze vi è perdità nella percezione dell’intensità. Questo fenomeno,

combinato a quello simile manifestato dalle apparecchiature elettroacustiche (microfoni,

amplificatori, altoparlanti, ecc.) implica di intervenire sull’intensità SPL del suono per

non perdere in qualità di riproduzione audio a larga banda. I cosiddetti controlli di

loudness servono proprio a questo scopo, in quanto intervengono automaticamente

quando la dinamica diventa povera.




cq

a ,aS,asK

«•a

c§

S40 100 1000 10000

Frequenza (Hz)

27/01/2004 Copyright 2002-2003


40

Un altro aspetto della percezione della loudness è di natura differenziale. Le

variazioni minime di intensità percepibili dipendono dalla frequenza e dal livello

stesso di intensità. Si osserva ancora una volta che l’orecchio è particolarmente

sensibile alle variazioni di intensità intorno ai 3000 Hz.

(Fletcher, Speech and H earin g in Com munication, D. Van N ostrand

Ine., Princeton, 1953).

L’intensità è una percezione di natura strettamente soggettiva, molto difficile da

misurare. La risposta in frequenza dell’orecchio è estremamente dipendente dalla

frequenza. Dal punto di vista strettamente musicale l’orecchio non è un sistema

audio perfetto, anzi, esattamente il contrario. In realtà, il sistema uditivo non è

nato per ascoltare la musica o far godere l’uomo della bellezza dei suoni.

L’evoluzione biologica dell’apparato uditivo è di natura sensoriale e finalizzato

alla sopravvivenza. La sensazione dell’intensità serve soprattutto a orientarsi

nell’ambiente e a riconoscere la natura delle sorgenti sonore.

La musica, a differenza delle sorgenti audio naturali, è artificiale, quindi stimola

sensazioni e percezioni che non necessariamente sono in accordo con la natura

dell’evoluzione biologica dell’uomo. Mentre la musica tradizionale si è

sviluppata sostanzialmente in accordo con la natura percettiva del sistema

uditivo, quella elettronica e digitale ha esplorato spazi sonori prima sconosciutialla percezione uditiva. La conoscenza della psicoacustica in tale fase della storia

della musica moderna è stata una componente culturale importante per i

musicisti.



Fondamenti di psicoacusticaMascheramento uditivo

10000

Frequenza (Hz)

27/01/2004 Copyright 2002-2003


41

Il mascheramento è un fenomeno di percezione uditiva in cui un tono di bassa intensità

non è percepito in presenza di un tono ad esso prossimo e di elevata intensità.

Questo fenomeno è conseguenza delle bande critiche che caratterizzano il funzionamento

della membrana basilare. L’inviluppo oscillatorio che viene generato da un tono integra

la sollecitazione del tono stesso e di altri eventuali toni ad esso frequenzialmente

prossimi. Se quest’ultimi sono caratterizzati da minore intensità rispetto a quello

principale, la loro sollecitazione risulta inglobata in quella principale.

Ovviamente, allontanandosi frequenzialmente dal tono ad elevata intensità, questo effetto

di integrazione deH’oscillazione della membrana basilare diventa sempre più blando e

conseguentemente diminuisce l’effetto di mascheramento.

sensazione di percezione uditiva in presenza di un tono. La soglia di mascheramento è

una modifica dinamica della soglia statica di udibilità, conseguente dalla presenza di un

tono di elevata intensità ad una specifica frequenza.

Questa caratteristica percettiva uditiva viene correntemente sfruttata per ridurre il numero

di bit di quantizzazione nella codifica audio numerica attraverso un processo chiamato

noise shaping.



Il timbro è la percezione psicoacustica più complessa, in quanto basata su

molteplici informazioni. Fondamentalmente, la percezione del timbro è legata

alla struttura armonica (frequenziale) del suono: ampiezza, frequenza e fase di

tutte le componenti frequenziali (toni puri).

In realtà la struttura frequenziale dei suoni varia dinamicamente, quindi le

componenti frequenziali cambiano nei rapporti di ampiezza e di fase. La

percezione uditiva del timbro porta all’identificazione della natura del suono da

parte del soggetto: il suono di pianoforte viene percepito diverso da quello di

violino.

La percezione del timbro non è percezione di frequenza, bensì di struttura

frequenziale. Infatti, a parità di altezza, è possibile distinguere tra due strumenti

musicali differenti.

In realtà, l’orecchio umano è molto più raffinato e quindi capace di discriminare*

la natura della sorgente audio nell’ambito della stessa tipologia di sorgente.

L’esempio più ovvio è quello della capacità di discriminare tra due differenti

persone di identico sesso che pronunciano la stessa parola o frase.

Un altro esempio è la capacità di distinguere tra due suoni di pari altezza e

intensità, generati dallo stesso strumento: il suono LA=440 Hz prodotto dalla

corda LA del violino e quello prodotto dalla corda RE dello stesso violino sono

effettivamente discriminabili.

(Olson, Music, Physycs and Engineering, Dover Publications, 1967).



Fondamenti di psicoacusticaTimbro

Frequenza Hz

27/01/2004 Copyright 2002-2003 43


La percezione del timbro dipende anche dall’intensità del suono. L’orecchio ha

un meccanismo di funzionamento di natura non lineare, quindi produce altri toni

in aggiunta a quelli propri del suono che riceve.

Ad esempio, se ad un individuo viene fornito un tono puro, questo percepisce

insieme a questo altri toni (armoniche) differenti da quello originario, generati

dall’orecchio stesso.

Un altro esempio, già discusso, è quello di due toni con altezza molto prossima-

La percezione uditiva rivela la presenza di un gruppo di altri toni aggiuntivi, dati

dalla somma e dalla differenza dei due toni originari.La percezione dei toni aggiuntivi è tanto maggiore tanto quanto più elevata è

1’ intensità. La soglia di creazione dei toni aggiuntivi varia con la frequenza,

risultando più elevata alle alte frequenze

Wegel e Lane, Physics Review, voi. 23 , n. 2, pag. 266, 19

La percezione del timbro è strettamente dipendente dalla natura funzionale della

membrana basilare, in particolare dalla dimensione della banda critica. I toni

complessi consistono della combinazione lineare di numerosi toni puri, quindi

pongono in oscillazione la membrana basilare in più punti contemporaneamente.

L’effetto di mascheramento delle componenti ffequenziali di un tono complesso

si manifesta quando si producono oscillazioni che ricadono nella stessa banda

critica.

La sensazione di asprezza o dolcezza di un tono complesso deriva dalla struttura

frequenziale del suono, in rapporto alla dislocazione delle bande critiche della

membrana basilare.



Fondamenti di psicoacusticaDurata

dB

- 21

-3

ÜÜûif' •l»'"-i 1 ï .KieJI uliiii! jùu.11

4 ( 4 .

»•1•

ftr*i w::Aiiii i:’!r «* f 1

fINf»• I1• 1 ilü•»w

.i! -m »Ijllf : Organo M

r*111ili¡fu'ni; N

l'M‘ivV a m.™

f M»• v;i m* i •••!«Y«tFlit

.«•i»-ili Miti wil luWMrf.fi ' %Jfl|f 1 *• fli::4Yn’lì

V Iti• f *VIÌm'M’ y rf ir• r1 1J

V«

0 1 2

dB fi1

4 V M_l__

~rr

—

** i of.- .n i ! im r«»i

m« *w 1Pian of or t e l i l i f ’ fai. Ir

«•»

'7¡í i q-T,11-'- r*»l !i 3 i Jcj-ii i**

—

* io n ;i tr L'.ifli ' • • , ¡ ¡i •* ** * • , 'ti1 iM, ] IIV. ..j Wl p i.i.t, éfbli*, ; ... i» l ,\

1 H* flïltt M l i *i - MnL liltfH

dB i » • A , 4 *4 l é I t t i I â *ê J •i - * |4 *> I 4 4 * • # M * ' 1 lK •V f

(*»li»irifft' 1 I f f l l f f

dB

-30

fi •

H Ht Z."

MM

• r

/

§w

Æ

4

/

7

r

0

sec

sec

sec

sec

27/01/2004 Copyright 2002-2003


44

La durata contribuisce alla formazione della percezione del pitch. In particolare è

stato già evidenziato che, se il suono dura pochi cicli, la percezione del timbro è

alterata. Vi è quindi una dipendenza della percezione dalla durata minima del

suono.

La percezione uditiva si è sviluppata per essere efficiente nella percezione

spaziale, cioè in ambiente riverberante. Pochi cicli di oscillazione non sono

sufficienti alla formazione della percezione completa.

La dinamica di intensità è un fattore fondamentale di caratterizzazione timbricafinalizzata al riconoscimento della fonte di generazione del suono. Attacco e

decadimendo di un suono sono fasi transitorie di evoluzione dell’ampiezza del

fenomeno oscillatorio acustico che non solo implicano semplicemente l’aumento

e la diminuzione di intensità del suono, ma anche sua continua variazione in

termini di struttura frequenziale.

Inoltre, molti fenomeni acustici si caratterizzano proprio in quanto hanno una

specifica natura di attacco e/o di decadimento: il pianoforte ha un attacco rapidomentre l’organo ha un attacco lento.

A parità di struttura frequenziale, questa differenza è essenziale per la

discriminazione timbrica.



Fondamenti di psicoacusticaPerdita uditiva

Il sistema uditivo è soggetto a perdita di efficienza legata all’invecchiamento. La

perdita uditiva si manifesta dai 30 anni in su ed è particolarmente evidente da 50

anni in su.

La perdita uditiva si misura in dB equivalenti all’amplificazione necessaria per

ottenere la sensazione uditiva normale.

A 50-60 armi la perdita uditiva può raggiungere i 30 dB, cioè, è necessario

raddoppiare almeno 5 volte l’intensità di un suono (per esempio il parlato) per

dare l’impressione alla persona di sentire normalmente.

La perdita uditiva riguarda soprattutto le alte frequenze.

La misura della perdita uditiva si ottiene da un test clinico audiometrico che

consente di ottenere la curva soggettiva di perdita uditiva (audiogramma) su tutto

il campo frequenziale.

Lo strumento che consente di fare questa misura si chiama audiometro.

(Olson, Music, Physycs and Engineering, Dover Publications, 1967)



■ ■



Digitalizzazione del suono

00101001010001

00101001001010

00101000100101

01010001011101

10010100010010

27/01/2004 Copyright 2002-2003


47

La digitalizzazione del suono è il processo che consente di rappresentare il

segnale audio sotto forma numerica, quindi adatta ad essere memorizzato,

elaborato e trasmesso tramite sistemi di natura digitale come le memorie binarie, i

computer numerici e le linee di comunicazione digitali.

La rappresentazione numerica del suono implica perdita di informazione sia in

termini di frequenza che in termini di ampiezza.

Il teorema del campionamento fissa le regole per garantire la corretta

rappresentazione dell’informazione del segnale audio nel dominio tempodiscreto.

Il principio della quantizzazione consente di rappresentare il segnale audio

campionato nel dominio numerico a precisione finita.

Il teorema del campionamento e il principio della quantizzazione forniscono le

regole per la corretta digitalizzazione del segnale audio sotto determinate

condizioni. Tali condizioni possono non essere attuabili nella pratica, quindi è

necessaria un’attenta conoscenza della natura di tali regole per determinare lenecessarie condizioni di pratica applicabilità.

Per approfondimenti: [Malcangi 03]



Digitalizzazione del suonoNatura e trasformazione dei suoni*I

LMnformazione, nel mondo fisico acustico, esiste sotto forma di segnale audio. Il

segnale audio è la variazione di un parametro fisico (pressione) rispetto ad un altro

parametro fisico di natura indipendente (tempo e spazio).

I segnali audio, essendo portatori di informazione, sono oggetto di elaborazione da parte

dei sistemi, in particolare quelli di natura elettronica. Ne consegue la necessità di

trasformazione da natura meccanica del segnale audio in natura elettronica analoga.

Analogici sono definiti quindi i segnali nella loro rappresentazione elettronica. In

particolare, segnale analogico è sinonimo di segnale contìnuo. La discretizzazione del

segnale analogico porta alla definizione di segnale digitale (segnale numerico).

La trasduzione è il meccanismo che consente di trasformare un segnale fisico qualsiasi in

segnale elettrico e viceversa. In particolare, la trasduzione da natura fisica qualsiasi a

natura elettrica si ottiene con i cosiddetti sensori, mentre la trasduzione da natura elettricaa natura fisica qualsiasi si ottiene con gli attuatori.

Per esempio, per trasformare il segnale audio (natura meccanica) in segnale elettrico, si

usa il microfono (sensore meccano-elettrico), mentre, per trasformare il segnale elettrico

in segnale acustico, si usa l’altoparlante (attuatore elettro-meccanico).

La trasduzione è esclusivamente una trasformazione di natura fisica, quindi nulla cambia

relativamente airinfoimazione di segnale.

I sistemi elettronici consentono di elaborare V informazione di segnale, estraendo parte

dell’informazione, eliminando informazioni non desiderate, modificando

quantitativamente tale informazione, ecc.

La voce, per esempio è un segnale che contiene informazioni di basso livello (intensità) e

di alto livello (parole, frasi, ecc.). Il riconoscimento automatico del parlato è un esempio

di elaborazione del segnale.



Digitalizzazione del suonoDall’onda acustica al segnale elettrico

Suono acustico fisso

27/01/2004 • Copyright 2002-2003 49

Prof. Mario Malcangi*Il

Il microfono è il principale trasduttore per la trasformazione del suono dalla sua

natura originaria meccanica a quella elettrica. La trasduzione in segnale elettricodel suono è essenziale dato che la quasi totalità dei sistemi di elaborazione del

suono è di natura elettronica.

Il principio di trasduzione microfonica del suono è abbastanza semplice. La

variazione di pressione dell’aria prodotta dal suono (compressione e rarefazione)

viene utilizzata come mezzo per agire su un dispositivo o componente dotato di

proprietà meccano-elettrica.

Un sistema abbastanza semplice è quello che utilizza il principio di induzione

elettromagnetica. La pressione acustica viene utilizzata per far muovere un

magnete all’interno di un campo magnetico. La variazione di campo magnetico

segue quella dell’onda acustica del suono. Tale variazione induce su un filo di

rame una corrispondente variazione di corrente. Tale corrente variabile è una

copia trasdotta della pressione variabile del suono, cioè è la copia elettronica del

suono.



Digitalizzazione del suonoDal segnale elettrico all’onda acustica

Su ono e l e t tr i co Suon o acust i co

27/01 /2004 Copyright 2002-2003 50

Prof. Mario MalcangiIl

Il suono in forma elettrica è utile per essere trattato dalle apparecchiature

elettroniche, ma non è percepibile in tale forma dall’orecchio. Ecco dunque la

necessità di un sistema inverso di trasduzione, di natura elettro-meccanica, che

consenta di trasformare le variazioni di tensione elettrica in variazioni di pressione acustica.

L’altoparlante è il più importante di questi sistemi di trasduzione. Il principio di

funzionamento è simile a quello del microfono.

Ad esempio, una corrente variabile applicata ad un filo elettrico induce un campo

magnetico identicamente variabile neH’intomo del filo stesso. Il campo

magnetico è in grado di opporsi con forza ad un altro campo magnetico opposto.

Quindi, se a un magnete sottoposto al campo variabile si applica una membrana

(cono), è possibile trasformare la variazione di campo magnetico in variazione di pressione acustica equivalente.



Digitalizzazione del suonoAnalogico e digitale

0 1 2 3 5 1 0 - 3 - 1 18 24

Analogico Digitale

27/01/2004 Copyright 2002-2003


51

La trasduzione è un processo che crea un’analogia tra la rappresentazioneacustica del suono e la rappresentazione elettrica equivalente. Per questo motivo

il suono, nella sua natura fisica, viene classificato con il termine analogico.

In realtà, il termine analogico ha assunto un significato particolare in quanto

contrapposto a digitale. In tal senso il termine analogico ha un sinonimo più

significativo, il termine continuo.

Il suono esiste in natura in forma analogica (continua) e può essere trasdotto in

forma elettrica, continuando a mantenere la natura continua. Il suono analogico

può essere trasformato in digitale quando viene discretizzato, cioè scomposto in piccole unità e codificato in forma numerica.



Digitalizzazione del suonoCampionamento

I segnali analogici sono continui, costituiti da infinite variazioni di ampiezza nel

tempo. Per essere elaborati da sistemi di natura discreti e numerici come i

computer, i segnali continui necessitano di una trasformazione (discretizzazione)in modo da ricondurre ad una quantità finita le variazioni continue di ampiezza

che li caratterizza.

II processo di discretizzazione del segnale rispetto al tempo si chiama

campionamento. Il campionamento di un segnale continuo si ottiene

“fotografando” il segnale ad istanti di tempo regolari (intervalli di

campionamento) e considerando il valore di ampiezza all’istante in cui avviene il

campionamento come valore (attendibile) dell’ampiezza fino al successivo

campionamento.

La perdita di informazione conseguente alla discretizzazione operata con il

campionamento non è significativa sotto determinate condizioni.

Il teorema del campionamento stabilisce le regole del corretto campionamento.



Il campionamento è un processo che consente di passare dalla rappresentazione

continua del segnale alla rappresentazione discreta.

Un segnale campionato è una sequenza discreta di valori di ampiezza, misurati a

intervalli regolati di tempo.

Il teorema di Shannon (teorema del campionamento) fissa le regole del corretto

campionamento per non avere perdite di informazione.

Il campionamento porta alla discretizzazione del tempo in termini di intervalli di

campionamento (Ts).

Il tempo può essere espresso come sequenza di n intervalli di campionamento,

vale quindi la relazione

, = n T s

Dato un intervallo di campionamento n, ristante di tempo cui si riferisce è ad

esso proporzionale sulla base della dimensione dell’intervallo stesso: n diventa la

variabile discreta del tempo. Ts è una costante che consente di legare il tempo

discreto n al tempo continuo t.



Digitalizzazione del suonoCampionatore

Segnale originarioCampionatore

(Sampler) Segnale PCM

campionamento

27/01/2004 Copyright 2002-2003


54

Il campionatore è un interruttore elettronico comandato da un temporizzatore. Iltemporizzatore chiude periodicamente Pinterruttore a intervalli costanti di

campionamento Ts. L’intervallo di chiusura dovrebbe essere idealmente infinitesimo* madi fatto ha una durata finita, anche se brevissima. Tale intervallo determina il tempo di

campionamento, un brevissimo intervallo durante il quale il segnale in ingresso al

campionatore viene trasferito in uscita. Durante tale intervallo di tempo l’uscita del

campionatore riporta un segnale di ampiezza identica a quella del segnale d’ingresso.

Durante il restante tempo, fino al prossimo intervallo di campionamento, l’ampiezza del

segnale d’uscita del campionatore è nulla, essendo Pinterruttore aperto.

Dal punto di vista matematico, il campionamento è il prodotto Ira la funzione segnale A(t)

da campionare e la funzione di campionamento s(t). Si tratta di un processo di

modulazione, in particolare della modulazione a impulsi (Pulse Code Modulation«, PCM).

La funzione s(t) è una sequenza periodica di impulsi 8(t) (Dirac):

s(t)= ...+5(t-2ts)+5(t-ts)+5(t)+5(t+ts)H-S(t-2ts)+ ...

Poiché il prodotto tra una funzione qualsiasi A(t) e la funzione di Dirac S(t+nts) vale

A(nts), cioè l’ampiezza del segnale all’istante nts (istante di campionamento), il prodotto

tra la funzione di campionamento s(t) per la funzione qualsiasi A(t) è una sequenza di

impulsi modulata secondo l’inviluppo di ampiezza di A(t):

.. .+ A(-2ts)8(t- 2ts)+ A(-ts)S(t-ts)+ A(0)S(t)+A(ts)S(Hts)+ A(2ts)S(t-2ts)+ ...cioè

• ••+ A(-2t )+ A(-ts)+ A(0)+A(ts)+ A(2ts)+ ...



Digitalizzazione del suonoPerdita di informazione

27/01/2004 Copyright 2002-2003


55

La perdita di informazione dovuta al processo di campionamento non è

significativa se si campiona ad una velocità almeno doppia rispetto a quella della più rapida delle variazioni d’ampiezza contenute nel segnale stesso (frequenza

massima). Il teorema del campionamento impone che la frequenza di

campionamento deve essere almeno doppia rispetto alla massima frequenza di

segnale:

F >2Fs maxIl

Il campionamento di un segnale porta alla perdita delle informazioni che hanno

frequenza superiore a quella del processo di campionamento medesimo.

Il campionatore deve operare ad una frequenza superiore al doppio (almeno) della

frequenza massima del segnale per preservare tutte le informazioni di frequenza

del segnale oggetto di campionamento.

II teorema del campionamento garantisce la corretta rappresentazione

deirinformazione frequenziale del segnale, ma non quella d’ampiezza e di

fase.

Per garantire una adeguata rappresentazione dell’informazione di ampiezza e di

fase bisogna sovracampionare, cioè campionare a frequenze superiori, anche

molto superiori, rispetto a quella della frequenza massima del segnale.



Digitalizzazione del suonoTeorema del Campionamento

La non corretta esecuzione del processo di campionamento porta ad un insidioso

effetto di distorsione dell’informazione chiamato “aliasing”.

Le frequenze di segnale oltre la metà della frequenza di campionamento vengono

distorte in conseguenza del processo di campionamento. La distorsione (aliasing)

consiste in un effetto di rallentamento delle frequenze presenti oltre la frequenza

massima stabilita dal teorema del campionamento.

L’aliasing è conseguenza del sottocampionamento delle componenti armoniche

del segnale che superano la metà della frequenza di campionamento. La

frequenza alias è paria alla differenza tra il valore della frequenza di

campionamento e il valore della frequenza reale:

f aliasf - f

s reale

Concluso il processo di campionamento, le frequenze distorte non sono più

distinguibili da quelle non distorte e quindi il campionamento del segnale in tal

caso non è reversibile.



Digitalizzazione del suonoEvitare (’aliasing

27/01/2004 Copyright 2002-2003 57


I segnali reali sono a banda infinita, ma nella pratica vengono considerati a

banda limita. Quando si realizza un’applicazione di elaborazione del segnaleaudio, si focalizza l’attenzione sull’informazione di segnale significativa per

quella specifica applicazione.

Per esempio, la voce è un segnale audio (banda fino a 20000 Hz), ma di fatto

l’informazione necessaria al 1’intellegibilità del parlato è limitata alla banda fino a

3000 Hz. Un sistema di campionamento dovrebbe utilizzare una frequenza di

campionamento molto superiore a 4000 Hz (maggiore del doppio della frequenza

massima di segnale). Campionare a 8000 Hz (come di fatto avviene nella

telefonia digitale) è sufficiente. 8000 Hz è una frequenza di campionamentoabbastanza superiore al doppio della frequenza massima di segnale vocale, in

accordo con il teorema del campionamento.

Rispettare il teorema del campionamento garantisce la corretta rappresentazione

delle frequenze fino a quella massima di segnale, ma nulla garantisce in merito

alle frequenze superiori a quella massima. Poiché il campionatore non sopprime

le frequenze oltre quella massima ma, purtroppo, le distorce (rallentandole), è

necessario limitare la banda del segnale da campionare alla frequenza massima

utile. Tale limitazione di banda si ottiene tramite filtraggio passa-basso, dettoanche filtraggio anti-aliasing, in quanto previene il fenomeno di distorsione

frequenziale (aliasing) conseguente al campionamento.



Digitalizzazione del suonoEvitare ¡’aliasing (cont.)

27/01/2004 Copyright 2002-2003 58


Il fenomeno dell’aliasing frequenziale durante il processo di campionamento è

dovuto al fatto che la banda del segnale campionato viene replicata infinite volte.

Ogni replica della banda di segnale, ovvero del suo spettro, ha come riferimento

tutti i multipli interi della frequenza di campionamento.

La banda base gravita intorno alla frequenza zero. Le altre bande sono collocate

sui multipli interi della frequenza di campionamento, cioè Fs, 2FS, 3FS, 4FS,... e

sono una perfetta replica di quella base.

Le repliche della banda base possono sovrapporsi ad essa e alle altre. E’ proprio

questa sovrapposizione che produce il fenomeno delFaliasing. Le frequenze delle

bande superiori a quella base si ritrovano di fatto in banda base per

sovrapposizione, quindi producono distorsione frequenzaiale (armonica). Il punto

di separazione tra le bande multiple è proprio la metà della frequenza di

campionamento.)

Se il segnale a banda estesa viene limitato entro una frequenza massima non

superiore alla metà della frequenza di campionamento, allora la sovrapposizione

tra la banda base e le bande replicate non avviene e quindi non vi è aliasing.



Digitalizzazione del suonoQuantizzazione

27/01/2004 Copyright 2002-2003


hold

I 1 [ I l i3 ! :

i ;I

:

1

r 1

I [ 1f 9

! i«• •• •: :

" •

• •• êI

i i ;

«

;i ! ;

f ! il ;

i i a! i l i ] ! I i è •• •ft ft

1 1 1 1 0 1 2 2 3 3 3 2 2 2 2

22 = 4 livelli di quantizzazione2 bit

Il segnale campionato (PCM), per essere trattato da un elaboratore numerico (computer),

necessita di essere sottoposto ad un processo di quantizzazione. L’ampiezza dei campioni

del segnale sono infatti valori a precisione infinita (rappresentabile cioè con numeri reali),mentre il calcolatore è in grado di rappresentare solo numeri a precisione finita (anche se

elevata).

La quantizzazione è il processo che consente di passare dalla precisione infinita alla

precisione finita (numero finito di cifre) nella rappresentazione numerica.

Questo processo implica perdita di informazione. La perdita d’informazione si manifesta

sotto forma di rumore.

fi campionamento consente di fissare l’ampiezza del segnale in istanti discreti di tempo

(istanti di campionamento).La digitalizzazione del segnale (quantizzazione) consiste nel trasformare in numeri

(binari) a precisione finita il valore (a precisione infinita) dell’ampiezza di ogni campione

Il numero di cifre binarie (bit) utilizzato per quantizzare numericamente l’ampiezza di

ogni campione determina il numero di livelli di quantizzazione. Per eseguire l’operazione

di quantizzazione, l’ampiezza del campione deve essere mantenuta costante per tutto il

tempo necessario al completamento del processo di quantizzazione. Ciò viene ottenuto

aggiungendo al campionatore un elemento di memoria analogica, il condensatore. Questo,

quando l’interruttore del campionatore è chiuso, memorizza l’ampiezza del campione

corrente. Quando l’interruttore si apre, il condensatore mette a disposizione delquantizzatore tale informazione in maniera stabile, fino al successivo campionamento. Il

quantizzatore inizia il processo di quantizzazione dopo il tempo di campionamento e deve

completarlo prima che termini l’intervallo di campionamento. Il campionatore, insieme al

condensatore, realizza un sistema di campionamento e tenuta, da cui il nome

Sample&Hold.



Digitalizzazione del suonoErrore di quantizzazione

Errore di

SQNR

dBB

SQNRm = 6 . 5

rapporto Segnale/Rumore di quantizzazione

deciBelnumero di bit utilizzali per quantizzare

27/01/2004 Copyright 2002-2003


60

informazione

rappresentazione di valori reali con un numero finito di cifre. La quantizzazione produce

determinatoampiezza

a altro segnale (rumore) che si somma linearmente al segnale

rumore di quantizzazione è di natura statistica (rumore bianco)

quindi non separabile dal segnale quantizzato.

rumore

numerica. Per ogni cifra binaria utilizzata

quantizzazione si produce un miglioramento di 6 dB del rapporto segnale/rumore di

quantizzazione.

il rumore di quantizzazione non è eliminabile, può essere solo minimizzato.

Per ogni applicazione va stabilita la quantità minima di cifre che garantisce l’inefficacia

del rumore di quantizzazione sull’informazione contenuta nel segnale.4 ' V? v

Per esempio, la musica è un segnale audio, quindi l’informazione in essa contenuta è

percepita attraverso il sistema uditivo. Il sistema uditivo ha una sensibilità media che in

termini di rapporto segnale/rumore è stimata in circa 90 dB (consente di distinguere un

rumore in presenza di segnale quando il segnale ha un’ampiezza circa 65000 volte

superiore a quella del rumore). Ciò significa che, un rumore con un’ampiezza 90 dB

inferiore a quella del segnale non è percepibile (effetto mascheramento). Quindi, se il

rapporto segnale/rumore di quantizzazione (SQNR) prodotto nella digitalizzazione

della musica è superiore a 90 dB, il rumore di quantizzazione di fatto non è rilevante in

quanto non percepibile. Nell’esempio specifico, sono sufficienti 16 bit (6 x 16 = 96dB) di

quantizzazione per garantire un rapporto segnale/rumore non peggiore di quello tipico dei

sistemi audio analogici.



Digitalizzazione del suonoRapporto segnale/rumore di quantizzazione

A ASQNR = 20 logl0 -= 2 0 ì o g . - f - - = 20 log,0V = 205 log,02 = 20x0.301 s 65

% 2"B : numero di bit di quantizzazione 2D: numero di livelli di quantizzazione

27/01/2004 Copyright 2002-2003 61


Il rapporto segnale/rumore di quantizzazione (SQNR), calcolato in dB viene

determinato rapportando la massima escursione di segnale (segnale picco-picco)alla massima ampiezza di rumore (Q).

La massima ampiezza di rumore Q è legata al numero di bit di codifica utilizzato

e all’ampiezza picco-picco:

Q = V 2B

Il numero di bit di quantizzazione determina la quantità di livelli diquantizzazione applicati alla gamma di ampiezza picco-picco.



Il rapporto segnaie/rumore di quantizzazione (SQNR) viene determinato rapportando la

massima dinamica di segnale alla massima dinamica di rumore.

Il rumore di quantizzazione è a dinamica costante. La massima dinamica del rumore è

infatti determinata dal rapporto tra la massima dinamica del segnale e il numero di livelli

di quantizzazione (2B). Il segnale può essere a dinamica variabile. Ciò implica che il

SQNR calcolato nella condizione di massima dinamica del segnale non sia effettivamente

tale quando il segnale riduce la sua dinamica.

Per esempio, supponiamo di scegliere di quantizzare con 16 bit un segnale audio per

garantire un SQNR di 96 dB. Se il segnale dimezza la sua dinamica, il SQNR teorico di

96 dB diventa un SQNR reale di 90 dB: il bit più significativo dei 16 bit di

quantizzazione non viene mai utilizzato, quindi la quantizzazione reale è a 15 bit.

Poiché ogni bit porta un contributo di +6dB per il SQNR, la perdita di un bit comporta un

contributo di -6dB. Se il segnale si porta a un quarto della dinamica, vengono persi 2 bit

di quantizzazione, quindi 12 dB per il SQNR, e così via.4 V• |

La quantizzazione non lineare consente di evitare che le piccole dinamiche siano

quantizzate con un numero di bit inadeguato rispetto alle specifiche applicative. La

suddivisione in livelli di quantizzazione della gamma dinamica non è lineare (di solito

logaritmica), tale cioè da assegnare una maggiore quantità di livelli di quantizzazione ai

bassi livelli di dinamica e una minor quantità agli alti livelli di dinamica.

Per esempio, per un segnale che varia in ampiezza tra -HO e -10, di 16 bit di

quantizzazione, si può assegnarne 1 bit per la quantizzazione del segnale che varia tra

+10 e +5 (-10 e -5) e 15 bit di quantizzazione per i segnali che variano tra +5 e -5;

successivamente si può assegnare 1 bit di quantizzazione per i segnali che variano tra +5

e +2,5 (-5 e -2,5) e 14 bit di quantizzazione per i segnali che variano tra +2,5 e -2,5; e

così via fino ad assegnare tutti i bit di quantizzazione disponibili.



.

. .

-

. w

’ ' i .



Analisi del suono

27/01/2004 Copyright 2002-2003


65

L’analisi del suono consente di entrare nella microstnittura informativa del suono

per ottenerne la sua rappresentazione analitica. Le componenti informative del

segnale, misurate tramite le tecniche di analisi, sono la base di conoscenza checonsente di estrapolare modelli per la modifica dell’informazione acustica e per la

sua sintesi.

Quella di Fourier è la più importante delle tecniche di analisi frequenziale del

segnale audio, sia per la vicinanza al modello percettivo del suono, sia anche per

la relativa semplicità del modello matematico che ne consente una facile e

immediata aDDlicazione di natura numerica. La conoscenza del modello

armonica

corretta messa in opera, per evitare di generare insidiosi artefatti che inquinano la

misura dell’informazione di segnale.

La variabilità dinamica del segnale audio, sia quello musicale che quello vocale,

impone l’adeguamento delle condizioni stazionarie di validità dell’analisi

armonica di Fourier alla dinamica del segnale audio. L’analisi armonica di

Fourier a tempo breve è un esempio di adattamento dinamico di un modello di

analisi stazionario, quale è quello dell’analisi armonica di Fourier.

Altre tecniche di analisi sono proposte per l’estrazione delle caratteristiche

informative del segnale audio allo scopo di ottenere una estrazione mirata di

specifiche informazioni (ad esempio le formanti fonetiche), oppure permaggiormente avvicinarsi al modello fisico del suono.




Analisi del suonoComponente frequenziale

I segnali audio, anche quando si tratta di suoni, difficilmente sono modellizzabili

con una funzione matematica. Le trasformate sono un potente strumentomatematico che consente di ottenere un modello di rappresentazione

dell’informazione di segnale che ne semplifica la trattazione. La semplificazione

consiste soprattutto nella individuazione di funzioni matematiche elementari

(segnali elementari) che, combinati in forma lineare, consentono di rappresentare

una funzione complessa (segnale complesso).

La trasformata di Fourier consente di rappresentare un segnale qualsiasi come

somma lineare di segnali sinusoidali. I segnali elementari per la trasformata di

Fourier sono isegnali sinusoidali,

detti anche,componenti frequenziali del

segnale, cioè in campo audio, i toni puri.



Analisi del suono

Secondo la teoria dell’analisi armonica di Fourier, i segnali complessi possono

essere scomposti in una serie di segnali elementari sinusoidali, di variaampiezza, frequenza e fase. Questa scomposizione è unica e quindi utilizzabile

per codificare l’informazione di segnale in un altro dominio diverso da quellotemporale, il dominio frequenziale.



Analisi del suonoStruttura frequenziale

27/01/2004 Copyright 2002-2003 68


Il tono puro (sinusoidale) è il caso più semplice di informazione audio in quanto

caratterizzata da una singola frequenza (in accordo con il modello percettivo e

con la teoria dell’analisi frequenziale di Fourier).Qualsiasi altro suono che non abbia le caratteristiche informative del tono puro

viene definito complesso, in quanto costituito dalla somma di più toni puri.




27/01/2004 Copyright 2002-2003


69

Il suono complesso, in accordo con la teoria dell’analisi armonica di Fourier, è

sempre scomponibile in termini di toni puri, ognuno di ampiezza, frequenza e

fase differente. In particolare, se il tono complesso è periodico, le componenti

frequenziali esistono solo in corrispondenza dei multipli della frequenza

fondamentale determinata dal periodo di ripetizione della forma d’onda del tono

complesso.




27/01/2004 Copyright 2002-2003


70

Si definisce prima armonica (fondamentale) il tono puro caratterizzato da un

periodo uguale a quello di ripetizione del tono complesso. La seconda armonica

ha frequenza doppia della prima, la terza tripla della prima, ecc.

La prima armonica in un tono periodico è sempre presente. Le armoniche

successive possono anche non essere presenti in corrispondenza di tutti i multipli

della frequenza fondamentale.



Il modello frequenziale è fondamentale per la descrizione analitica della natura

dell’informazione del suono. Grazie al modello frequenziale è possibile ottenereuna descrizione analitica del suono che consente di trattare l’informazione audio

per realizzare applicazioni come la compressione, la trasmissione, la

spazializzazione, la sintesi e il riconoscimento automatico.

Il modello temporale e il modello frequenziale del suono sono strettamente legati

tra loro dal sistema delle trasformate. In particolare, la trasformata di Fourier

consente di ottenere un modello di rappresentazione in frequenza del suono

particolarmente vicino al modello percettivo (psicoacustico).



La rappresentazione cosiddetta “spettro” deriva dall’analisi armonica del tono

complesso. Ogni componente armonica del suono viene riportata su un piano

cartesiano ampiezza-frequenza. In questa rappresentazione grafica ognicomponente armonica del suono viene rappresentata da un segmento verticale

(linea spettrale) di ampiezza pari all’ampiezza massima (positiva) della

componente stessa. La posizione sull’asse frequenziale è pari all’inverso del

periodo della componente.



Analisi del suonoSpettro di alcuni suoni

tono puro

t

rumore

x

impulso

>t

treno di impulsi

-----► i m i .t

-11t

impulso di durata finita A A

>t

27/01/2004 Copyright 2002-2003

Prof. Mario Malcangi73

Ogni suono ha la sua propria struttura armonica. Tale struttura armonica (spettro

frequenziale) rappresenta completamente il suono stesso, evidenziando

soprattutto le caratteristiche frequenziali.

Il tono puro per definizione ha uno spettro costituito da una sola linea spettrale

(per definizione), e ha una forma d’onda di natura sinusoidale.

Il suono determinato dall’onda quadra ha una struttura frequenziale

caratterizzata dalla fondamentale e da una serie (teoricamente infinita) di

componenti frequenziali di ampiezza decrescente al crescere della frequenza.

Un caso particolare di suono è il rumore bianco. Questo è un suono

caratterizzato da una forma d’onda la cui ampiezza varia in modo completamentecasuale (a distribuzione statistica uniforme). Lo spettro corrispondente è

altrettanto casuale nella sua composizione armonica (in ampiezza e in frequenza).Il termine rumore è conseguenza del fatto che questo suono nella maggior parte

dei casi è indesiderato.

Un altro suono particolare è l’impulso (click). Questo è un suono di durata

infinitesima e ampiezza finita. Lo spettro di questo suono è altrettanto particolare

in quanto contiene tutte le componenti frequenziali a tutte le frequenze a partire

da zero e con ampiezza costante.Una variante dell’impulso è il treno di impulsi, cioè una ripetizione periodica diimpulsi. Lo spetto corrispondente è un treno di armoniche distanziate tra loro inmaniera uniforme.

Una ulteriore variante dell’impulso è l’impulso di durata finita. Lo spettrocorrispondente è la funzione sen(x)/x.



Analisi del suonoEsempi di spettri di segnale vocale

27/01/2004 Copyright 2002-2003


L’analisi frequenziale del segnale è una tecnica che consente di ottenere la

distribuzione deH’ampiezza e della fase delle componenti sinusoidali in funzione

della frequenza. Il risultato dell’analisi frequenziale è lo spettro di ampiezza e di

fase. Lo spettro del segnale consente di ottenere informazioni quantitativamente

precise circa la struttura frequenziale del segnale, non evidenziabile nella

rappresentazione temporale del segnale, sia grafica che matematica.

Ad esempio, una vocale “O” si distingue nettamente da una vocale “E” se si

osserva lo spettro frequenziale di ampiezza. I picchi dello spettro indicano la

dominanza a tali frequenze. La differente posizione e ampiezza dei principali

picchi connota una vocale rispetto ad un’altra. Mentre il segnale vocale nel

dominio temporale è apparentemente molto variabile, nel dominio frequenzialerisulta molto stabile, ovviamente per la stessa informazione. Ad esempio,

vocalizzando una “E” in tutte le maniere possibili (cupa, brillante, rauca,

interrogativa, esclamativa, imperativa, ecc.) notiamo una significativa variabilità

dell’oscillogramma ma una sostanziale stabilità dello spettrogramma.



Analisi del suonoAlcune formule utili

A sin( cat + <j>)~ a cos( + sin( cat)

Piano complesso Coordinate polari e cartesiane

Ini = Immaginario

Re = Reale

Z^are A A ) M M J .

A = V a 2 + b 2 = tan 1 — a

a -- A sin (j) b = A cos (/)

Formula di Eulero

27/01/2004 Copyright 2002-2003


75

L’informazione elementare codificata dalle componenti sinusoidali è l’ampiezza

dell’oscillazione ad una specifica frequenza e la relativa fase.

La rappresentazione della componente sinusoidale, che consente di costruire lo

spettro di ampiezza e di fase, è dunque la seguente:

A(t)= A sin(cdt+(j)())=Asin(27i:f+(j)0)

La trasformata di Fourier consente di rappresentare un segnale complesso in

termini di combinazione di segnali elementari, i segnali sinusoidali. Essendo un

algoritmo matematico, non usa rappresentare il segnale sinusoidale nella sua

natura fisica, bensì nella forma matematica. La trasformata di Fourier calcola la

componente frequenziale sinusoidale come un punto del piano dei numeri

complessi, quindi in termini di “parte reale” e “parte immaginaria”. Da questa

rappresentazione cartesiana della componente sinusoidale è necessario passare

alla rappresentazione polare, evidenziando modulo (ampiezza) e fase della

componente sinusoidale.



/\nan si uci suuiiu*IFourier: Serie e Trasformata

“ • •--- ----^ .

Serie di Fourier Trasformata di Fourier

+CO

x ( i ) = Ik - ~ oo

Diretta-foc

X ( a ) = ^ x(t) e-Ja,dt

-00

T

- H—

c k = — | x ( t ) e ~ J(kr'¥ ) d t

T i2

Inversa

1 +00

x (t) = \x ( c o ) e jm‘da)

—00

T = — = — : periodo

«o /o

a > =

27/01/2004 Copyright 2002-2003 76Prof. Mario Malcangi

Il punto di partenza per l’analisi dei segnali è la serie di Fourier. Questa,consente di calcolare la serie dei coefficienti di ampiezza delle componentiarmoniche di un segnale di natura continua e periodica.

I segnali periodici si caratterizzano per una forma d’onda che si ripete, sempre

uguale a se stessa, per tutto il tempo di esistenza del segnale. Ad esempio, ilsegnale sinusoidale è un segnale periodico.

Per i segnali reali, l’analisi armonica di Fourier non è applicabile in quanto isegnali reali non sono perfettamente periodici (la periodicità è un’astrazionematematica). Inoltre, l’elaborazione numerica del segnale riguarda i segnalidiscreti (campionati).

La serie di Fourier ha comunque un equivalente, chiamata trasformata di

Fourier, applicabile ai segnali di natura non periodica. La trasformata di Fourier

è infatti un’estensione della serie di Fourier considerando il periodo dioscillazione del segnale di durata infinita.

La trasformata di Fourier consente di calcolare le ampiezze delle componentiarmoniche del segnale, non necessariamente periodico, a tutte le frequenze, dazero fino a infinito. T



DTFT: Trasformata Tempo Discreto di Fourier

Trasformata Continua di Fourier Trasformata Tempo Discreto di Fourier

Diretta DirettaA —

- t - 3 0

X (at)= jx ( t )e -J*‘dt

- H x >

X (co) = X — OO

— OU

&Inversa

Inversa — s*(») = d - J . X ( a ì e ‘~d ( a )

x(t)= ¡X - 0 0

---------------------/

- H »

x ( r ì ) = YJx( t ) S ( tn = - o o

co = 2izf t -nTs

27/01/2004 Copyright 2002-2003 77


Sia la serie che la trasformata di Fourier operano su segnali continui. Cosa

succede se il segnale è a tempo discreto, cioè campionato?

Un segnale x(t) campionato è rappresentabile come sequenza x(n) di campioni

derivata dal processo di campionamento, quindi è rappresentabile come

combinazione lineare di impulsi unitari 5(t-nTs) modulati in ampiezza dalla

sequenza x(n), cioè:

x(t) = 2 x(t)8(t-nTs)

La trasformata di Fourier è quindi applicabile anche a un segnale tempo discreto

x(n).

Il modello di trasformata che ne deriva è detta DTFT, cioè Trasformata Tempo

Discreto di Fourier. Questa somiglia alla trasformata di Fourier, tranne che nella

versione diretta esegue la sommatoria al posto dell’integrale, come conseguenza

della natura discreta del segnale x(n).

Lo spettro X(co) è comunque continuo e conseguentemente la trasformata inversa

DTFT utilizza l’integrale e non la sommatoria.

La trasformata DTFT è quindi applicabile nei sistemi campionati (ad esempio i

sistemi CCD), consentendo l’applicazione dell’analisi frequenziale di Fourier in

sistemi discreti ma non numerici, i sistemi tempo discreti.



Analisi del suonoDFT: Trasformata Discreta di Fourier

Trasformata Tempo Discreto di Fourier Trasformata Discreta di Fourier

Diretta+O0

Diretta N - 1 7

X ( k ) = Y J x ( n ) e N

X (co) = Y, x ( n ) e ~ Jùm

n=0

-00 I I 0 V * t

o V J • • • N *

1

Inversa = > Inversa

x ( n ) = — | X (co)eJ,md (cu)2 K -n

1 //_] J2nkn

x ( n ) ~ J ^ X ( k ) e N N -=o

n = 0 , 1 , 2 , . . . , N - \

co-27tf t~nTs

27/01/2004 Copyright 2002-2003 78


La trasformata di Fourier opera su segnali continui, con operatori matematici

continui e produce risultati continui. La natura discreta e finita del computer non

consente l’implementazione dell’analisi frequenziale sotto tali condizioni. La

trasformata di Fourier tempo discreto (DTFT) in parte risolve questo problema inquanto capace di trattare i segnali campionati, quindi è un buon punto di partenza

per pervenire alla versione discreta della trasformata di Fourier (DFT).

Per passare dalla DTFT alla DFT sono necessari due passaggi, uno che limita il

numero di campioni oggetto di trasformazione da infinito a N e un altro che

discretizza la variabile frequenza co.

Eseguendo queste trasformazioni si ottiene la trasformata discreta di Fourier

(DFT), un modello matematico discreto per l’analisi frequenziale del segnale,

idoneo a essere implementato su computer, in particolare sui digitai signal processor (DSP) per applicazioni real-time di natura embedded.

J

v

E’ interessante osservare che la discretizzazione della trasformata di Fourier

impone un’artificiosa periodicità del segnale. La DFT opera su una sequenza

finita N di campioni del segnale prelevati da una sequenza infinita o di lunghezza

superiore. Ciò implica una forzatura sulla natura del segnale, che, come si vedrà

in seguito, comporterà degli artefatti nei risultati di analisi e delle opportune

strategie di minimizzazione di tali artefatti (finestratura).



Analisi del suonoDFT: notazione

27/01/2004- Copyright 2002-2003 79


La DFT consente di rappresentare i segnali discreti (campionati) con una

semplice sommatoria di prodotti. Si tratta quindi di un algoritmo di

elaborazione numerica molto semplice dal punto di vista della struttura di calcolo

(facile da codificare in termini di programmazione), ma estremamente intensivo

dal punto di vista computazionale (difficile da eseguire in tempo reale).

Per esempio, per analizzare un secondo di segnale vocale campionato a 8000 Hz,

con la DFT è necessario eseguire, tra le altre operazioni, almeno 8000 x 8000 =

64.000.000 di moltiplicazioni e somme in un secondo !!! Considerando la

moltiplicazione e somma una sola istruzione (come è per i DSP), sarebbe

necessaria una potenza di calcolo di oltre 64 MIPS (Milioni di Istruzioni Per

Secondo) solo per eseguire la DFT in tempo reale ! ! !



Analisi del suonoD F T : c o d i f i c a

avi ,A'.li iicilff khiVWiM •

Hi RV| IliWlM4»d' ***' --’u .itili

m i , • W t r i i i W . f l i t /

Iri îT , HI* rUiH

Iti

t M i

fo r ( i=0 ; i< N - l ; i-H-).

T O ; ,)

In -llr IT' »'■li1* *“ih 1

* «ItiM»•%*"! gXMif »r l'ir

n i

M*

X'HI Kmik .

ì t . - t i l¡in .:

v 2 - l ; I+ +)

t 1;V'- K:flli, --u ìli' "1fr., - ■ :(;.i -nil1 I,;,VI|,n;¡JiM|l* .1 ; ■r ..• -||1| J : -

I l I I I f f

1 l”!1'*) »I •

♦H*M

. ( i F ì , ; r

riH4*

l l l l Y ! » ! ►tri r.

» . » I

IH 1Vr - 11!

t i . l i a I

M||| *4

I'1.1 M »

t»

ti: ih

I MW* I*i l i » ' I » 1 , 1 1 !

min'1!h I • . I i .

% •* »

i 1*'., i'.'LLr;H

'|l H»' ivJlèlf

Jcl rii

Mm!«.,!M •I’ìmi'Un‘.| *v

Pittif o r ( i= 0 ; i < N / 2 - l; i+ + )

f o r (j = 0 ; j< N - l ;i - H - )

*iM T.*’»

Il t

• 4«

I liti DFT inversa

m .

\y imhi11 ! ' ■ i i m . *

i l\ Il |. nl.Ui.l'lr

* rv

•I I

V |V M I4 é â â ( f t é 1 •I I .

à i r

. « M i FUI

II«111 {x ( j ) = x ( j) + X R ( i ) * c o s (3 . 1 4 1 5 9 * I * J / N ) + X I (i )* s i n (3 . 1 4 1 5 9 * I * J / N ) ;

}


• I l P

m p m m t m a rn i ... " » si<i

DFT direttaf o r ( |= 0 ; j < N / 2 - l

{X R Ü ) = X R ( j )+ x ( i )* c o s ( 3 .1 4 1 5 9 * I * J / N ) /( N / 2 ) ;

X I ( j ) = X I ( j) + x ( i ) * s in ( 3 . 1 4 1 5 9 * I * J / N ) / ( N / 2 ) ;f >i

_Ll”t *J 1*1fe ì O .

I” ' ! '

80

La codifica della DFT è abbastanza semplice in quanto consiste di un ciclo per il

calcolo della singola componente frequenziale inserito in un altro ciclo cheindicizza tutte le possibili frequenze.

La DFT inversa è altrettanto semplice in termini di codifica.



Analisi del suonoTrasformata Veloce di Fourier (FFT)*Il

La trasformata veloce di Fourier (Fast Fourier Transform, FFT) è una versione

ottimizzata ed efficiente della trasformata discreta di Fourier (DFT) per il calcolo

dello spettro del suono eseguendo un numero inferiore di calcoli.Il concetto fondamentale su cui si basa la velocità della FFT è che una DFT può

essere scomposta in DFT applicate a porzioni di segnale inferiori. Il numero di

calcoli eseguito da una DFT partizionata in DFT di ridotte dimensioni è inferiore

a quello dell’equivalente DFT non partizionata.

L’applicazione esaustiva della scoposizione della DFT in DFT di minore

dimensione e l’applicazione estensiva di proprietà intrinseche come ad esempio la

simmetria, portano alla formulazione di un modello di calcolo veloce ed efficiente

della trasformata di Fourier discreta, chiamato FFT.Se una DFT richiede un tempo di calcolo proporzionale al quadrato del numero di

campioni corrispondenti alla finestra di segnale da analizzare, la FFT è

proporzionale al numero di campioni moltiplicato il logaritmo (base 2) di tale

numero.



1

Analisi del suonoCodifica della trasformata Veloce di Fourier (FFT)

Bi t

Reversing

FFT(À, M, N)

complex A(N)> U, W, T

{ N-Z**M

NV2-N/2

N M l- N -l

J - l

> for (I«l; icNMl; I++)

{ if(I <J )

{ T=A(J)

A(J) - A(I)

A(I)**T

K = NV2

}while (K < J)

{ J = J -K

K = K/2

)J = J + K

Passo

Butterfly

Gruppo

PI - 3.141592653889793

for (L - 1; L < M; L++)

1LE - 2"*L

LEI = LE/2

U- (1,0; 0,0)W =>eomplcx(cn»(Pl/LEl), *ln((PT/LE1))

— ► for (J » 1; J < LEI; J++)

— ► for (I - J; T< N; I - I+LE)

l IP “ I + LEI

T » A(IP) * U

A (IP) - A(I) - T

A(I) = A(I) + T

u=u*w

}

> »}


82

algoritmo della trasformata veloce di Fourier di quattro nuclei di calcolo.

Il bit-reversing è un’operazione preliminare di scombinazione (scrambling) dei dati diinfattiefficientemente i calcoli. Questo ordinamento consiste nell’indicizzare i dati (campioni di

numericainvertendo

terminecampioni

Indice lineare Indice bit-reversed

0 000 000 01 001 100 4

2 010 010 V

2

3 Oli 110 6

4 100 001 1

5 101 101 5

6 110 011 3

7 111111

7

Gli altri tre nuclei di calcolo rappresentano l’effettivo calcolo della trasformata veloce diFourier, basata su una doppia iterazione (Passo e Gruppo) che ingloba una terzaiterazione, cioè il nucleo di calcolo (FFT kernel) chiamato Butterfly.



La periodicità (perfetta) della forma d ’onda è un concetto astratto in quanto non è

possibile produrre un suono assolutamente stabile in termini di frequenza e di

ampiezza.

Il tono puro (sinusoidale) è quindi un modello teorico.



Analisi del suonoFinestratura: quasi periodicità

Ampiezza

Tempo

27/01/2004

Ripetizione della forma d’onda con

variazioni di ampiezza e frequenza

Copyright 2002-2003


84

' 9

La quasi periodicità è una caratteristica dei suoni generati dalla maggior parte

formaO L J L W A A A W A t / J L m u u i v ^ x * ^ - -------- ^ --------- -------- ~ -------------- ----------------------------------------------------------

ripetitività tali per cui vi sono piccole variazioni del periodo di oscillazione e

forma

sostanzialmente stazionario.



r

Analisi del suonoFinestratura: ipotesi di stazionarietà

Per eseguire l’analisi del suono è necessario disporre di un segmento temporale

del suono più o meno ampio. L’ampiezza temporale di tale segmento è

significativa relativamente alla precisione stessa dell’analisi.

L’analisi del suono si basa sull’ipotesi di stazionarietà dello spettro. L’ipotesi di

stazionarietà implica che lo spettro del suono sia stabile (statico). Questa ipotesi

implica che la forma d ’onda sia perfettamente periodica con durata del periodo

pari alla durata del segmento considerato.

Poiché ciò non è vero in assoluto in quanto è plausibile solo la quasi periodicità,

ne consegue che il suono oggetto di analisi può essere più o meno differente

rispetto a quello originario.



Analisi del suonoFinestratura: periodicità indotta

27/01/2004 Copyright 2002-2003


86

La finestratura del suono finalizzata all’analisi implica artefatti che possono

produrre risultati di analisi anche molto differenti da quelli reali. La distorsione

delle informazioni frequenziali conseguenti alla finestratura viene determinata (tt segnale audio per derivare il segmento

una

forma d’onda che porta quindi ad una



Analisi del suonoFinestratura: prodotto e convoluzione

27/01/2004 Copyright 2002-2003


87

L’analisi del segnale può essere applicata solo ad una porzione limitata di suono.

L’operazione di estrazione di una porzione limitata di suono implica

un’operazione di finestratura.

L’operazione di finestratura applicata ad un suono corrisponde al prodotto tra il

suono da analizzare e un suono particolare con forma d’onda rettangolare di

ampiezza minima nulla (0) e di ampiezza massima unitaria (1). Questo suono

(finestra) è un impulso unitario di durata finita, quindi con funzione spettro

sen(x)/x.

Il prodotto nel dominio del tempo corrisponde alla convoluzione nel dominio

delle frequenze. Lo spettro della finestra si propaga quindi su ognuna delle

componenti ffequenziale del suono finestrato, producendo uno spettro risultate

fatto non di impulsi di frequenza come ci si aspetterebbe in accordo con l’analisi

armonica di Fourier, ma di una serie di campane in corrispondenza degli impulsi

di frequenza, cioè la combinazione dello spettro del segnale con quello della

finestra.



Analisi del suonoFinestratura: campana e ripple

Dominio temporale inio frequenziale

27/01/2004 Copyright 2002-2003

Profi Mario Malcangi

88

La finestratura di una porzione di suono produce implicitamente sullo spettro

reale ima serie di artefatti di cui i più rilevanti sono la dilatazione a campana

dell ’ impulso frequenziale e la serie di oscillazioni laterali (ripples) cheaffiancano la campana principale.

Il primo ripple, dopo la campana si presenta, dal punto di vista spettrale, come

una rilevante distorsione armonica.

La larghezza della campana porta invece al mascheramento delle componenti

frequenziali effettive del segnale molto prossime e di piccola ampiezza rispetto

ad altre componenti di grande ampiezza.

La tecnica di finestratura (windowing) è finalizzata a minimizzare queste

distorsioni armoniche



Opportune funzioni di finestratura possono minimizzare i ripple e restringere le

campane prodotte dall’azione di finestratura. Si tratta delle cosiddette finestre“cosenate”, caratterizzate fondamentalmente da una ampiezza quasi nulla in

corrispondenza degli estremi e un’ampiezza unitaria al centro. L’ampiezza quasi

nulla agli estremi serve a minimizzare il drastico effetto di troncamento implicato

dalla finestra rettangolare.

Le finestre cosenate consentono di ridurre la larghezza della campana e di ridurre

l’ampiezza del primo ripple, in modo da migliorare il rapporto segnale/rumore tra

la componente frequenziale e il rumore costituito dai ripple.

Lo svantaggio è quello che il segnale in prossimità degli estremi della finestra èfortemente attenuato, quindi sarà scarsamente rappresentato nello spettro.



La risoluzione frequenziale dipende dalla dimensione temporale della finestra di

analisi.In particolare, la risoluzione frequenziale è inversamente proporzionale alla

dimensione temporale della finestra di analisi.

La minima frequenza misurabile è F = 1/T, ove T è la dimensione temporale della

finestra di analisi.

Le altre frequenze misurabili sono solo tutti i multipli interi della frequenza

minima, fino ovviamente alla frequenza massima prevista dal teorema del

campionamento (metà della frequenza di campionamento).



Analisi del suonoModello stazionario

»«•••••••••• t •*••• *•••••*«•

27/01/2004 Copyright 2002-2003


91

L’analisi frequenziale del suono è di natura stazionaria. Ciò implica che lo

spettro risultante si riferisce a tutta la porzione di segnale inclusa nella finestra.

Se una componente armonica del suono varia in ampiezza e posizione

frequenziale, questa non può essere misurata in termini analitici in quanto non

esiste alcun riferimento temporale relativamente a ognuna delle componenti.



Analisi del suonoModello stazionario a tempo breve

( « > • • •• • • M • « r * * t u a l l l t i l I • a M M »

» * » • • ft « V

i l I I I

W /*

27/01/2004 Copyright 2002-2003


92

Per applicare la tecnica di analisi frequenziale del suono è necessario determinare

gli intervalli di tempo in cui il suono è stazionario (quasi stazionario). La finestra

di analisi non deve superare il massimo intervallo di stazionarietà del suono, in

modo da poter considerare lo spettro risultante corrispondente ad una porzione di

suono stazionario.



Analisi del suonoAnalisi dinamica

»* »* % »*

///• * # V M 4 Y *

ÌVAVW*

l l ' v

. « f ik A / M £ , t A Ì M i A l ' T r •77f H f * . > V * * .

f t t f i t t l i f c

27/01/2004- Copyright 2002-2003 93Prof. Mario Malcangi

L’analisi a finestre (stazionarie) del suono porta ad una rappresentazione dello

spettro in funzione anche del tempo, producendo una rappresentazionetridimensionale. La dimensione temporale tiene conto della successione neltempo delle finestre applicate al suono.

è



Analisi del suonoSonogramma

27/01/2004 Copyright 2002-2003


La rappresentazione tridimensionale dello spettro può essere effettuata su due

dimensioni quantitative (tempo-frequenza) più una terza dimensione qualitativa

(ampiezza). Si tratta del sonogramma. L’ampiezza della componentefrequenziale viene rappresentata in termini di scala di colori (scala di grigio).



Analisi del suonoEsempio: suono armonico (violoncello)

r

27/01/2004 Copyright 2002-2003 95


Il suono di violoncello è di natura armonica, cioè la frequenza delle sue componenti

spettrali sono multipli interi della frequenza fondamentale. Ciò è conseguenza della

natura della sorgente, la corda vibrante.

La corda vibrante produce una suono caratterizzato da una frequenza fondamentale e una

successione armonica di frequenze con ampiezza decrescente rispetto alla fondamentale,

quindi molto simile al suono con forma d’onda a dente di sega.

Il suono prodotto dalla corda vibrante viene modificato dalla caratteristica risonante della

tavola e cassa armonica dello strumento, portando così alla determinazione del timbro

dello strumento.

La modalità di eccitazione della corda porta ad una continua variabilità della forma

d’onda, quindi dello spettro. In particolare, la fase di attacco è un elemento connotantedel timbro.

L’analisi del suono di uno strumento armonico, come ad esempio il violoncello, può

riguardare le caratteristiche timbriche stazionarie al fine di determinare la

caratterizzazione frequenziale. In tal caso di estrae una porzione del segnale audio nella

fase stazionaria (tenuta).

Le fasi di attacco e di decadimento dell’oscillazione non sono significative nella

determinazione della caratteristica timbrica dello strumento di base dello strumento

(caratteristiche di risonanza), anche se sono significative per caratterizzare la modalità di

eccitazione della sorgente (corda).

L’analisi frequenziale delle fasi di attacco e di decadimento richiede una tecnica di analisi

frequenziale a tempo breve (short-term Fourier analysis), in modo da poter ben

rappresentare le informazioni spettrali variabili nel tempo.



Analisi del suonoEsempio: suono inarmonico (tamburo)

0

Onda stazionaria 0 -

00 dB “I

Spettro stazionario

0

27/01/2004

0.152 0.155 0.158 0.161 0.164t(ms)

1.25 2.5 3.75 5.0 6.25f (kHz)

Copyright 2002-2003


96

inarmonica

vibrante) produce una componente fondamentale di frequenza abbastanza bassa earmonico

fondamentale e di ampiezza decrescente.

In questo caso le fasi di attacco, tenuta e decadimento sono difficilmente

categorizzabili. La forma d’onda è continuamente variabile, quindi, quali

porzione del suono di tamburo viene analizzata, lo spettro ottenuto non èr a nn re se n t a t i vo de l l a na t u ra timbrica dello strumento.



Modifica del suono

27/01 /2004 Copyright 2002-2003 99


Modificare un suono può essere necessario per vari motivi: per eliminare del

rumore, per simulare un effetto ambiente, per amplificarlo, per identificare

infonnazioni nascoste, ecc.

L’analisi frequenziale consente di ottenere le necessarie infonnazioni per

consentire azioni di modifica. Il filtraggio è la tecnica fondamentale di modifica

della struttura informativa (frequenziale) del suono operando nel dominio

temporale.




Modifica del suonoNatura filtrante dei sistemi

27/01/2004 Copyright 2002-2003


Il filtraggio è un operazione di elaborazione del segnale che consente di

modificare lo spettro di un segnale qualsiasi in maniera mirata.

Tutti i sistemi producono sul segnale trattato un ’azione di filtraggio.

Possiamo dire che il filtraggio è un funzionamento intrinseco dei sistemi, di

natura passiva quando non è desiderato (ad esempio per gli amplificatori), oppure

di natura attiva quando è desiderata (ad esempio i filtri veri e propri).

Quanto detto sopra evidenzia che il filtraggio è allo stesso tempo uno strumento

di elaborazione del segnale e un comportamento dei sistemi. Da ciò si deduce che

è possibile utilizzare la natura filtrante di un sistema per correggere l’azione

filtrante di un altro sistema.

Perché un sistema si comporta da filtro?

Qualsiasi segnale che attraversa un sistema (ingresso/uscita) subisce un’azione di

ritardo che dipende dalla natura dei componenti presenti in tale sistema. Il ritardo

non è altro che un differimento nel tempo del segnale. Se il segnale entra in un

sistema all’istante t, all’uscita del sistema possiamo osservare un effetto

conseguente solo dopo un certo intervallo di tempo.

L’effetto del ritardo, applicato ad un segnale variabile nel tempo, produce effetti

differenti a seconda della velocità di variazione del segnale. Poiché ogni segnalecomiesso, secondo la teoria di Fourier, è composto da segnali elementari

sinusoidali di varia frequenza ampiezza e fase, il ritardo produce un effetto

differenziato su ognuna delle componenti frequenziali, portando così alla

modifica della struttura ffequenziale del segnale, quindi alla modifica

dell’informazione di segnale.



Modifica del suonoNatura filtrante dei sistemi (cont.)

27/01/2004 Copyright 2002-2003 101


Il ritardo del segnale implica un fenomeno combinatorio che può amplificare una

componente frequenziale (aumento di ampiezza) oppure attenuarla.Ad esempio, un semplice sistema che combina il segnale diretto con quello

ritardato di un certo intervallo di tempo, è un filtro in quanto amplifica le

componenti a bassa frequenza e attenua quelle ad alta frequenza. In particolare,

alle basse frequenze l’efFetto del ritardo produce un effetto di amplificazione del

segnale di ingresso in quanto al nodo di somma pervengono due segnali quasi

identici, la cui somma produce un segnale di ampiezza circa doppia rispetto a

quello di ingresso (amplificazione). Alle alte frequenze il segnale di uscita è di

ampiezza inferiore a quello di ingresso e, in particolare quando il ritardo è pari

alla metà del periodo della componente frequenziale, al nodo di somma sono

presenti il segnale diretto e il suo equivalente in completa opposizione d ’onda,

determinando un segnale di uscita di ampiezza nulla.

Il filtro dell’esempio cancella le frequenze con periodo multiplo del doppio del

ritardo di sistema.

In generale, questo sistema ha una caratteristica di filtraggio che da 0 alla

frequenza 1/(2KR) modifica lo spettro del segnale in ingresso in maniera

progressiva fino ad annullare l ’ampiezza della componente di frequenza l/(2kR).



Modifica del suonoNatura filtrante dei sistemi (cont.)

Cosine Comb

27/01/2004 Copyright 2002-2003


Si definisce funzione di trasferimento l’azione di un sistema sul segnale di

ingresso per determinare il segnale di uscita. A parte il caso dell’amplificatore

ideale, tutti gli altri sistemi si caratterizzano con un’azione di modificadell’ampiezza in modo selettivo rispetto alla frequenza. La funzione di

trasferimento rappresenta completamente la natura filtrante dei sistemi.

Nel primo esempio il segnale viene combinato con il segnale diretto. La funzione

di trasferimento evidenzia una natura filtrante di tipo “elimina banda” multiplo,

con frequenza centrale eliminata pari a (K+0.5/R).

Nel secondo esempio il segnale viene combinato con il segnale diretto. La

funzione di trasferimento evidenzia una natura filtrante di tipo “elimina banda”

multiplo, con frequenza centrale eliminata pari a (K/R).

••



Modifica del suonoUso del dominio frequenziale

L’informazione nei segnali è nella struttura frequenziale. Quando tale struttura si

modifica, si modifica l’informazione contenuta nel segnale.

La struttura frequenziale del segnale può essere modificata variando

selettivamente l’ampiezza (ed eventualmente la fase) di ogni componente. Questa

variazione equivale alla variazione d’ampiezza che produce un amplificatore che

processa un segnale. L’amplificatore amplifica, per definizione, tutte le

componenti frequenziali del segnale in uguale misura e quindi non modifica

rinformazione del segnale solo in termini di volume. .

Quando del segnale sono modificate le componenti frequenziali in maniera

differenziata, allora non si parla di amplificazione, bensì di filtraggio.Tutti i sistemi hanno caratteristiche filtranti (anche se modeste). Ad esempio, un

canale trasmissivo (il doppino telefonico) si comporta come un filtro in quanto

modifica la struttura ffequanziale del segnale che Tattraversa.

Dal punto di vista temporale il filtraggio produce una modifica della forma

d’onda, mentre dal punto di vista frequenziale produce una modifica dello spettro.



Modifica del suonoModifica della struttura frequenziale del suono

V,(t)

R

vu

27/01/2004 Copyright 2002-2003


104

Il filtraggio dei segnali continui (analogici) si ottiene tramite sistemi elettronici

basati su componenti di natura capacitiva e/o induttiva. Questi componenti

elettronici si differenziano dagli altri (ad esempio le resistenze) in quanto dotati di

“memoria”. Il condensatore è ad esempio un sistema elettronico che può

memorizzare un’informazione sotto forma di carica elettrica. Inoltre, questi

componenti elettronici hanno un comportamento selettivo dipendente dal tempo

(quindi dalla frequenza).

Grazie a queste proprietà, opportuni circuiti elettronici basati su condensatori e

induttori consentono di realizzare i cosiddetti filtri.

Un segnale che attraversa un filtro è modificato nella sua struttura frequenziale.

I filtri sono utilizzati per modificare appositamente la struttura frequenziale del

segnale allo scopo di elaborare l’informazione in esso contenuta.

Ad esempio, i filtri sono utilizzati nell’elaborazione del segnale audio (musicale)

per separare l ’informazione a bassa frequenza da quella ad alta frequenza per

realizzare i cosiddetti cross-over, ovvero il sistema che consente di ripartire

correttamente il segnale tra altoparlanti a bassa frequenza (woofer) da quelli ad

alta frequenza (tweeter).



Un filtro si caratterizza tramite la funzione di trasferimento. Questa descrive

come l’ampiezza del segnale viene modificata in funzione della frequenza. La

funzione di trasferimento si ottiene tramite uno studio in regime variabile,

utilizzando la trasformata di Laplace e la trasformata di Fourier.



Il segnale quando attraversa un sistema subisce un’azione di modifica della struttura

frequenziale, ovvero viene filtrato. La natura del filtraggio subito dal segnale è

completamente descritta dalla funzione di trasferimento.La funzione di trasferimento è definita come rapporto tra segnale filtrato (segnale di

uscita) e segnale prima del filtraggio (segnale di ingresso). Essendo il filtraggio un

processo che agisce modificando le componenti frequenziali, la funzione di trasferimento

è definita nel dominio delle frequenze, cioè come rapporto tra lo spettro del segnale

filtrato (di uscita) e lo spettro del segnale non filtrato (di ingresso).

La funzione di trasferimento descrive completamente il comportamento del filtro nella sue

capacità di modifica selettiva delle frequenze del segnale e quindi è anche chiamata

“risposta in frequenza”.

La funzione di trasferimento del filtro, detta anche caratteristica, è rappresentata

attraverso un diagramma descritto nel dominio delle frequenze.

I parametri caratterizzanti un filtro sono tutti inclusi nella sua funzione di trasferimento:

• Banda passante: è l’intervallo frequenziale entro cui le componenti frequenziali del

segnale non sono modificate;

• Banda attenuante: è l’intervallo frequenziale entro cui le componenti frequenziali del

segnale sono modificate;

•Frequenza di taglio: è la frequenza in cui avviene il passaggio tra banda passante e

banda attenuante;

•Pendenza della banda attenuante: è l’entità di attenuazione della banda attenuante;



I filtri possono essere caratterizzati da una funzione di trasferimento qualsiasi, ma

nella pratica si utilizzano principalmente filtri con funzioni di trasferimentoabbastanza semplici.

• Passa basso: attenua le frequenze alte e lascia inalterate quelle basse

•Passa alto: attenua le frequenze basse e lascia inalterate quelle alte

•Passa banda: attenua le frequenze alte e basse al di fuori di una banda centrale

che lascia inalterata;

•Elimina banda (notch): attenua le frequenze in una banda centrale, lasciandoinalterate quelle al di fuori di tale banda;

•Filtro multibanda (pettine): si comporta come un filtro passa banda oppure

elimina banda multiplo;

Un filtro con una funzione di trasferimento qualsiasi è ottenibile da una opportuna

composizione lineare serie e/o parallelo di filtri di base.



Modifica del suonoFiltri digitali

y(n) = a0 x(n) + a1x(n-1) + a2 x(n-2)

x(n)

x(n)

► T

x(n-1)

► ZT x(n-2)

r

a0 x(n) a1x(n-1) a2 x(n-2)

< £ > a0x(n) +a1x(n-1)< D *y(n)

x(n) è il segnale di Ingresso campionato: x(0) a t = 0, x(1) a t =Ts, x(2) a t = 2 Ts ...

Ts : periodo di campionamento = 1/F8

an =coefficenti del filtro

Z"1= ritardo unitario(restituisce in uscita il campione entrante dopo un periodo di campionamento)

27/01/2004 Copyright 2002-2003 108

componenti digitali le stesse funzioni dei componenti analogici.

La memoria digitale (numerica) consente di memorizzare i campioni del segnale

filtraggio. La moltiplicazione digitale (numerica) consente di modulare l’azione

delle memorie in maniera da simulare la diversa capacità di memorizzazione di

carica di condensatori di differente capacità.

del modello algoritmico: si tratta di una semplice sommatoria di prodotti. Inoltre,

filtro apre innumerevoli possibilità applicative, prima impossibili da realizzarecon la componentistica analogica.


I filtri digitali derivano dai filtri analogici in quanto è possibile emulare con i

per ottenere 1’ elaborazione differita nel tempo, in accordo con il meccanismo di

L’aspetto più attrattivo della realizzazione digitale dei filtri sta nella semplicità

la possibilità di rappresentare attraverso il firmware la struttura funzionale del



Modifica del suonoModello matematico dei filtri digitali

y(n) =

27/01/2004 Copyright 2002-2003 109

Prof. Mario MalcangiI

La funzione di trasferimento dei filtri è calcolata attraverso un processo chiamato

risposta in frequenza. La risposta in frequenza si ottiene computando lo spettro

del segnale di uscita del filtro quando il segnale di ingresso è un impulso(risposta all’impulso).

I filtri digitali, in base alla natura della risposta all’impulso, si classificano in due

tipologie fondamentali: IIR e FIR.

I filtri IIR (Infinite Impulse Response) derivano direttamente dal modello

analogico. Si caratterizzano per la durata infinita del segnale di risposta

all’impulso.

I filtri FIR (Finite Impulse Response) non hanno un corrispettivo analogico,

quindi sono realizzabili solo nel dominio digitale. La risposta all’impulso in

questo caso è di durata finita.

v - i

Ya(j)x(ny=o

Risposta finita

all’impulso

FIR

M

+ 'Lb(k)y(n k=1

Retroazione

Risposta infinita

airimpulso

IIR



Modifica del suonoModello grafico dei filtriI

I filtri possono essere rappresentati anche tramite schemi funzionali (grafici) che

traducono in termini di blocchi di elaborazione di base il modello matematico

discreto.

La rappresentazione matematica è utile alla progettazione di natura firmware

dell’algoritmo, soprattutto quando si utilizzano architetture di calcolo sequenziali

o a limitato parallelismo interno. La rappresentazione matematica dell’algoritmo

non evidenzia i parallelismi computazionali intrinseci dell’algoritmo.

La rappresentazione grafica dell’algoritmo consente invece di evidenziare i

parallelismi esecutivi e quindi, in una eventuale realizzazione hardware, di

sfruttarli adeguatamente in modo da ottenere le migliori prestazioni esecutive

possibili.

Osservando ad esempio il modello grafico del filtro, si rileva 1’esistenza di

parallelismi esecutivi sia nella componente diretta (componente FIR), sia in

quella di retroazione. Tutti i prodotti tra i campioni e i coefficienti possono essere

eseguiti in parallelo (contemporaneamente) se si dispone di tanti moltiplicatori

indipendenti, quanti ne sono rappresentati nello schema funzionale del filtro, e di

due sommatoli a ingressi multipli.



La convoluzione è un algoritmo matematico fondamentale per la realizzazione

dei filtri. La convoluzione è anche fondamentale per capire il meccanismo delfiltraggio.

Prima di introdurre l’algoritmo della convoluzione, è necessario definire il

concetto di “sistema lineare”.

Un sistema lineare è un sistema che evidenzia tre importanti proprietà:

omogeneità, additività e invarianza rispetto ai ritardi.

1sistemi perfettamente lineari non esistono, né possono essere realizzati. Esistono

però i sistemi “quasi lineari”, cioè con comportamento molto vicino a quello

lineare, tanto da poter essere correttamente (utilmente) considerati lineari. I filtriFIR e IIR sono sistemi lineari.

Per verificare se un sistema è lineare, è sufficiente verificare sperimentalmente

che soddisfi le tre suddette condizioni.

La condizione di omogeneità si verifica applicando in ingresso un segnale x(n) e

misurando la corrispondente uscita y(n). Se applicando un segnale kx(n) l’uscita

è ky(n), con k costante, allora il sistema ha la caratteristica di omogeneità.



Modifica del suonoNatura lineare di un sistema (additività)

27/01 /2004 Copyright 2002-2003 112


La condizione di additività si verifica applicando in ingresso un segnale x j (n) e

misurando la corrispondente uscita y,(n), quindi applicando in ingresso un

segnale x2(n) e misurando la corrispondente uscita y2(n). Se applicando un

segnale somma (o differenza) di Xj(n) e x2(n) l’uscita è pari a y,(n)+y2(n) (y((n)-y2(n)), allora il sistema ha la caratteristica di additività (sovrapposizione degli

effetti).



Modifica del suonoNatura lineare di un sistema (invarianza per i ritardi)

27/01/2004 Copyright 2002-2003 113


La condizione di invarianza per i ritardi si verifica applicando in ingresso un

segnale x(n) e misurando la corrispondente uscita y(n). Se applicando un segnale

x(n) ritardato di k campioni l’uscita è y(n) ritardata di k campioni, allora il

sistema ha la caratteristica di invarianza per i ritardi.



Modifica del suonoFunzione Delta (Segnale Impulso)

La funzione Delta (segnale impulso), ha una notevole importanza per lo studio e

ampiezza 1per una durata infinitesima all’istante t e ampiezza zero per qualsiasialtro istante di tempo. L’equivalente discreto x(n)=S(k) ha ampiezza 1 al k-esimo

campione e zero per tutti gli altri campioni diversi da k. L’indice di

campionamento k in corrispondenza del quale si manifesta l’ampiezza unitaria

della funzione Delta identifica il ritardo.

Ad esempio, 8(3) ha ampiezza 1 in corrispondenza del campione 3 e zero in

corrispondenza di qualsiasi altro campione.

L’impulso ha una importante proprietà nel dominio ffequenziale: il suo spettro è

una costante di ampiezza unitaria. Dunque, il segnale impulso può essereutilizzato per studiare i sistemi lineari (i filtri lineari) in quanto si comporta come

la costante 1 nell’algebra lineare: 1 x h = h.



Modifica del suonoScomposizione di un segnale qualsiasi in impulsi

Un segnale qualsiasi x(n) può essere scomposto in una composizione lineare di

impulsi di opportuna ampiezza e ritardo. E’ esattamente quello che accade

quando un segnale qualsiasi viene campionato.

Moltiplicando un impulso 8(k) per ima costante m, si ottiene un impulso di

ampiezza m. Poiché un segnale campionato x(n) è una sequenza di impulsi di

ampiezza pari all’ampiezza del campione e di ritardo pari all’istante di

campionamento, sommando insieme tanti impulsi modulati con 1’ ampiezza dei

campioni di x(n) ritardati dell’indice di campionamento, si ottiene x(n).



Modifica del suonoRisposta alFimpulso

5 (n) h(n)

T“ T >

n

5 (n) = [0 ,0 ,0 , 1 ,0 ,0 ,0 ,0 , 0 ]

h(n) = [0 ,0 ,0 , 1 .3 ,-0 .3 ,-0 .2 ,-0 . 1 ,0 ,..., 0 ]

27/01/2004 Copyright 2002-2003 116


Ogni sistema che riceve in ingresso un segnale x(n) risponde in uscita con un

segnale y(n). y(n) è il segnale x(n) modificato dalle caratteristiche funzionali delsistema.

Quando un sistema riceve in ingresso un impulso S(n), questo risponde in uscita

con una segnale h(n). Il segnale h(n) è la cosiddetta “risposta all’impulso”.

Quando il sistema è lineare, la risposta all’impulso ha sempre la medesima forma

d’onda a meno di un fattore di scala (omogeneità) e di ritardo (invarianza rispetto

ai ritardi).



Modifica del suonoConvoluzione: dominio del tempo

Î1-

PT I— r T *

n

1-

0

x(n)

I I I I

n

y(n)

n

1-

+

1-

0

1-

0

y(n-l)=x(l)*h(n)

Iînîî►

ny(n-3)=x(3)*h(n)

î î 11 > *ny(n)=x(n)*b(n)

T

y ( n ) = x ( r ì ) *h(rì) = V x{m)h{n —m)

ri ' "*■' n

m= 0


117

Poiché un segnale qualsiasi x(n) è una combinazione lineare di impulsi modulatinel tempo e nei ritardi, l’uscita y(n) del sistema è la somma delle singole risposte

all’impulso prodotte da ogni impulso che compone il segnale x(n) (principio diadditi vità).

Se h(n) è la risposta all’impulso unitario 5(0), h(n-m) è la risposta all’impulsounitario 8(m). Modulando 5(m) con l’ampiezza dell’m-esimo campione x(m) siottiene la singola risposta x(m)h(n-m). La somma di tutte le singole risposteall’impulso produce l’uscita y(n).

Questa sommatoria è la convoluzione, sinteticamente rappresentata da unasterisco (*).

Un sistema (filtro) si caratterizza dunque tramite la risposta all’impulso. Quandoriceve in ingresso un segnale, convolve questo per la risposta all’impulso che lacaratterizza e produce in tal modo la relativa uscita.



Modifica del suonoConvoluzione: dominio della frequenza

o

k T— r>

A

X(k) ------- ► H(k) ------- ► Y(k)

1t —1—111►

k - 1 Hi—r

k

Y ( k ) X ( k ) H ( k )

27/01/2004 Copyright 2002-2003


Una importantissima proprietà della convoluzione è la seguente: il prodotto di

convoluzione nel dominio del tempo corrisponde nel dominio frequenziale a un

semplice prodotto aritmetico, e viceversa, cioè, il prodotto di convoluzione neldominio frequenziale corrisponde nel dominio del tempo a un semplice prodotto

aritmetico.

Ciò significa che lo spettro X(k) del segnale di ingresso x(n) viene moltiplicato

per lo spettro H(k) della risposta all’impulso h(n), producendo in tal modo lospettro Y(k) del segnale di uscita y(n).



Uno dei principali vantaggi della convoluzione nel dominio delle frequenze è la

possibilità di ottenere con estrema semplicità Foperazione inversa, la deconvoluzione.

Poiché la convoluzione consente di ottenere il segnale di uscita y(n) quando sono noti il

segnale di ingresso x(n) e la risposta all’impulso, la deconvoluzione consente di ottenere

il segnale di ingresso x(n) che avrebbe prodotto il segnale di uscita y(n) se x(n) fosse

applicato in ingresso ad un sistema con risposta all’impulso h(n).

In certe applicazioni è noto il segnale di uscita e le caratteristiche del sistema che l’ha

generato, ma non è noto il segnale di ingresso. Per ottenere il segnale originario x(n) è

sufficiente eseguire la deconvoluzione, cioè il rapporto tra lo spettro del segnale y(n) e

quello della risposta all’impulso h(n).

La deconvoluzione è una specie di “macchina del tempo” in quanto consente di tornarericostruire

;o Caruso. !

strumentazioni

Purtroppo

anni, quindi non è possibile eseguire una replica.

La deconvoluzione non può resuscitare Caruso, ma può “resuscitarne”, o meglio

ricostruirne, la voce originaria. Essendo ancora esistenti gli strumenti di registrazione

originari, è possibile ottenere la funzione h(n) e quindi il suo spettro H(k). Il segnale

registrato y(n) viene convertito in spettro Y(k). Tramite la deconvoluzione si ottieneX(k), cioè lo spettro del segnale originario x(n) che Caruso aveva prodotto quando fu

registrato agli inizi del ‘900.



Modifica del suonoRisposta in frequenza

Un’altra importante implicazione della convoluzione nel dominio delle frequenze

è la cosiddetta “risposta in frequenza”.

H(k), lo spettro della risposta all’impulso, è il rapporto tra lo spettro di uscita

Y(k) e lo spettro di ingresso X(k). Se il segnale di ingresso è un impulso, il suo

spettro è una costante (1). Ne consegue che H(k) è uguale a Y(k) quando in

ingresso il sistema riceve un impulso, cioè, lo spettro della risposta all’impulso è

la risposta in frequenza del sistema.

La risposta in frequenza di un sistema descrive come il sistema modifica

l’ampiezza (e la fase) di ogni componente spettrale del segnale di ingresso in

corrispondenza di ogni frequenza.



Modifica del suonoFiltraggio (dominio del tempo)

Il filtraggio è la modifica dell’ampiezza e della fase delle componentifrequenziali di un segnale. La convoluzione è un algoritmo che consente direalizzare il filtraggio. È sufficiente conoscere di un filtro la risposta all’impulsoh(n). Il prodotto implementa il filtro.



La dimostrazione evidente del fatto che la convoluzione è di fatto un algoritmo di

filtraggio è nel dominio delle frequenze. Qualsiasi componente frequenziale del

segnale di ingresso viene modulata in accordo con la caratteristica della risposta

in frequenza H(k), quindi il segnale di ingresso viene filtrato.



Modifica del suonoRisposta finita all’impulso

27/01/2004 Copyright 2002-2003 123


Grazie all’algoritmo della convoluzione possiamo realizzare virtualmente

qualsiasi tipo di filtro, basta conoscere del filtro che interessa realizzare la sua

risposta all’impulso h(n).

Se si tratta di un filtro esistente, ad esempio un filtro analogico che si vuole

realizzare in digitale, è sufficiente fornire in ingresso a tale filtro un impulso e

digitalizzarne la risposta. Questa è h(n), che inserita nel prodotto di

convoluzione, consente di realizzare l’equivalente digitale del filtro analogico.

Se invece vogliamo ottenere un filtro con una determinata risposta in frequenza,

allora è sufficiente definire H(k) e calcolarne la trasformata di Fourier inversa perottenere h(n), la risposta alPimpulso. Il filtro desiderato viene implementato

tramite la convoluzione.

La risposta all’impulso nei filtri è di durata infinita, cioè h(n) è una sequenza di

lunghezza infinita. La conseguenza è che il calcolo della convoluzione è di

durata infinita, quindi impossibile da realizzare in termini numerici, cioè con un

sistema di calcolo discreto come il calcolatore numerico.

La risposta all’impulso può essere considerata di durata finita comunque dopo un

certo tempo, in quanto le variazioni di ampiezza diventano talmente piccole da

essere trascurabili.

Il filtri FIR (Finite Impulse Response) si basano sull’algoritmo della

convoluzione nell’ipotesi di risposta al l’impulso finita.



Modifica del suonoEffetti della risposta finita all’impulso

b(t)t

27/01/2004 Copyright 2002-2003


Rendere finita una risposta all’impulso infinita comporta delle conseguenze sulla

natura della risposta in frequenza del filtro.

Se di una risposta all’impulso infinita si ignora una parte, considerandola finita^la risposta in frequenza reale evidenzia delle oscillazioni laterali (ripple) che la

risposta in frequenza ideale non presentava. Ciò comporta che non vi è una

perfetta corrispondenza alle specifiche funzionali del filtro e quindi la necessità

di operare in modo da minimizzare gli scostamenti del comportamento reale

rispetto a quello ideale.



Modifica del suonoEsempio di restauro di segnale

Segnale contaminato

27/01/2004 Copyright 2002-2003 125


Una delle più semplici applicazioni del filtraggio FIR è il “moving average”.

Questo filtro consiste semplicemente della media di M campioni:

y(n) = l/M[x(n)+x(n-l)+x(n-2)+ ... +x(n-M)]

Anche se non evidente, la risposta all’impulso di questo filtro è h(n) = [1/M, 1/M,

1/M,. . . , 1/M], una sequenza di lunghezza M.

Questo filtro è utile per la riduzione del rumore a larga banda, in particolare per

la ricostruzione di segnali digitali che attraversano sistemi rumorosi.

Computazionalmente il moving average è un filtro estremamente economico in

quanto non contiene moltiplicazioni (tranne quella per il reciproco del numero di

campioni mediato), quindi può essere implementato anche su processori CISC.



Modifica del suonoMoving average: risposta in frequenza

La risposta in frequenza del filtro moving average è di natura passa-basso. I

parametri del filtro, frequenza di taglio, pendenza, ecc., sono determinati dalla

lunghezza della risposta all’impulso, cioè, in questo caso, dal numero di campionimediato.



Modifica del suonoW indo wed-Sy nc

Per ottenere un filtro passa basso con le desiderate caratteristiche di risposta in

frequenza si può partire dalla definizione della risposta in frequenza H(k) e

quindi, tramite la trasformata inversa di Fourier, ottenere h(n) da inserire nel

modello di filtraggio basato sulla convoluzione.

La risposta in frequenza di un filtro ideale passa basso è una funzione H(k) che

vale 1 fino alla frequenza di taglio e 0 dalla frequenza di taglio in poi (funzione

impulso di durata finita).

La trasformata inversa di Fourier di H(k) è h(n) = sen(x)/x, cioè la funzione sync.



Modifica del suonoWindowed-Sync

A A Risposta all’impulso ideale

00 o

X

+ oo

0 t

AFinestra

o

o t

A f Risposta all’impulso reale

1

o

o t

^ | Risposta in frequenza reale

1

o

f f


128

La funzione h(n) = sen(x)/x è di durata infinita e necessita di essere troncata. Iltroncamento netto della risposta all’impulso provoca una modifica della risposta

in frequenza ideale. Sia nella banda passante, sia in quella attenuante, compaionodei ripple. La banda di transizione si estende. La pendenza aumenta. Agli estremidella banda di transizione vi sono delle sovraelongazioni.




1

o

A Risposta all’irapuJ Iso ideiile

/ \/v , J \ r V v V V

—

X

A a Rispo sta all’impulso reale

o

1

0

Finestra

Risposta in frequenza reale

27/01/2004 Copyright 2002-2003


129

Gli effetti del troncamento della risposta all’impulso possono essere minimizzati.

Il troncamento di fatto è una operazione di finestratura. Come già osservatonell’analisi del segnale, la finestratura netta è il prodotto tra il segnale da limitare

in durata e la funzione finestra rettangolare. Se la funzione finestra è progressiva

e non netta come quella rettangolare, allora gli effetti del troncamento vengono• •

minimizzati.

Da ciò deriva il nome wìndowed-sync per questa tipologia di filtri passa basso.




Blackman : w{n) - 0.42 - 0.5cos(2;m./2Àf +1) + 0.08cos(4^7z/2M +1) - M< n < + M

27/01 /2004 Copyright 2002-2003 130Prof. Mario Malcangi

Le tipiche finestre utilizzate per i filtri windowed-sync sono quelle cosenate diHamming e Blackman.



La trasformata Z è un caso di trasformazione di dominio di rappresentazione del

segnale più ampio di quello della DFT (Trasformata Discreta di Fourier). Infatti,

mentre la DFT moltiplica e somma i campioni di segnale per un particolarevalore complesso (e"jo)), la trasformata Z può utilizzare per z un qualsiasi valore

complesso. In particolare, quando z = e‘j®allora la trasformata Z coincide con la

DFT.

La trasformata Z, essendo un caso più ampio di trasformazione di dominio di

rappresentazione del segnale, consente di fornire maggiori informazioni circa la

natura del segnale stesso.



Modifica del suonoEffetti del ritardo

4|< j)>11 “JIJI ! if tinnì i

m i H » » ? n » •

IV iV ' - I. ir i n i l if » • "

f i l i

l ' r - i f * . ' !4 . | | i . 4 U t y . £

♦ . 1 . I S . | l i

f V | J f ' M » I | J

, r > i• l i » I * i f * <

à I a

i i t . J l i l U I é - S i

Rifilili® t i I .

1nu* ,.uuf.. .‘lii'ifi.t r

1 H ' ......

t i , d r i l l i v *

i : nil :. m i ' :'id':rN“' i l . 1 ' ' ! e3 » J I » * »

V i!

ex[Ll (i] 'rii/

V f ' * J

1 f v 9 1 V f Thè* «

'» * ìl ï I I f ! f â / » r » ï f ï ¡ 1 m U f V è l l l Y ! ”

i - l , ’ ' ' l ' “ ' - I . - , - 1 . 1 ’ . Y ' [ , . 1 1 1 , 1 1 h u i n > * i . ; | r ' i l , "

ï Ih »»M'ini ï HHi Imj ,* * tf»i. * . W 1 n u f I ' J r .1 r . i i I i M ï i j » ,

M *

I 4* ï i». J i ]Im iì 11Mi WhM*. Ui I 11» » 4 , j i l ¡ A h u f

z*1. 11r j ':ir '• •';jyr,ii..1

| f ? » « -w j ì«I »

e( * T)

- n » «..."j'iifi-eJ à i i i 1 « j I

à i » . I t i è ) U i l • è I M I a

Mr .. viyii:.•1 f 4H‘ * H Mi • ♦ .. -, “ * ,

r y - \ r , - 2 T - 3 t - 4

'à i* V 1 ' , ' M , / i

. 1 1 4 . I l i :i'M- n

'rt uniti-"MlpiV! •

.K ' W f ” 1 4 » - f

" i t I I m a'iliIU II] Iï i i , • i . ï > :

" . p .

i i f v W i r Iï . I i i ï l u

\ rftlLli ï fi\f\\ * ti

.

•»• 1 1 .

' i m i

feïS'âfei* ?*$■ • ] f M | | | f f f .

n i . i m a l i ï »?

m r

T , J r ?

1 , 4 1 I I l | f 1 1

m » f . ' * 1 ; i

Futuror a t

i ¡Ilo,:..il

a li

llJirfni I‘IMif - “li1” r ï

* ?» li

. | J 1 là J ï . U . l u p / J l F i l j r i i (

: 111.i,iI 4

• 4 4 I I I I

••a

*ifylHi *jVJ l L , i V i l ^ i |. i ,

ï*

" H I *

è. «Passato

V F.'JI '¡l|r ** m » * ¡ r

. Il I II •» U rI ï I ». ’ «i. \

P I

.

Predizioniil i . r ■ " ”

1

I I

' i t i a

ViiwbiÌT“♦ a

p i u »

»♦' PIMlJW

¡•ì*1' ir 1*n¡'ti’ï » i l »IIIIII ,9f*Tlllf*VUVi

---- ►'Ü1 1 1 .

Ritardiï

, i * S i '

k !r,,.|i

”,1 ’ -'Ni ï, J .i Vìi' •.•.r *I Vili llfflflri I (•

m

I II

li’ilI I l a n , i l

A, I


132

Questo effetto di ritardo del segnale, per i sistemi digitali, cioè che trattanosegnali campionati, il ritardo è un multiplo del tempo di campionamento Tc>

quindi nTc, e conseguentemente l’esponenziale complesso nel dominio dellefrequenze è e snTc. Considerando esTc = z, i termini z"n rappresentano i ritardidigitali (z_1è il ritardo unitario, pari ad un intervallo di campionamento)..-1

Conseguentemente, i termini zn sono predizioni, cioè anticipi di presentazione inuscita.



I filtri IIR (Infinite Impulse Response) si caratterizzano per la durata infinita

della risposta all’impulso. A differenza dei filtri FIR che richiedono ilcampionamento della risposta all’impulso, i filtri IIR producono la risposta

all’impulso attraverso la retroazione. Questa caratteristica consente di ottenere, in

forma numerica, la stessa funzionalità dei filtri analogici. La trasformata Z ed

altri metodi matematici (ad esempio la trasformata Bilineare) consentono di

modellizzare i filtri analogici per ottenerne l’equivalente modello IIR numerico.

I filtri IIR hanno il vantaggio di essere molto compatti dal punto di vista

computazionale e facilmente parametrizzabili rispetto ai filtri FIR. Per contro

possono essere instabili, difficili da controllare in termini di aritmetica a virgolafissa, non controllabili nella fase e numericamente ingestibili se di ordine troppo

elevati.



Modifica del suonoFiltro Passa Basso —Primo ordine

27/01/2004 Copyright 2002-2003 1 3 4


Il più semplice dei filtri IIR è il filtro RC.

Utilizzando la trasformata Z è possibile derivare l’equivalente numerico del filtro

analogico RC.



Sintesi del suono

27/01/2004 Copyright 2002-2003


La sintesi del suono è alla base di numerose applicazioni di audio digitale, dalla

realizzazione di strumenti musicali elettronici alla realizzazione di sistemi di

sintesi automatica del parlato. Tutte le metodologie di base, analisi e filtraggio,

concorrono alla implementazione delle principali tecniche di sintesi.

Per approfondimenti: [Moorer 77], [Moorer 75a], [Moorer 75b].



Sintesi del suonoModellazione

x ( n T s) oppure x ( n ) , N < n < N 2 ? n e l

T: perìodo di campionamento

27/01/2004 Copyright 2002-2003


138

La sintesi digitale dei suoni consiste nel generare la sequenza di numeri x(n) che

un convertitore analogico-digitale produrrebbe in uscita se in ingresso ricevesse il

suono che si intende sintetizzare.

La sintesi digitale dei suoni può essere ottenuta nel dominio del tempo oppure nel

dominio delle frequenze.

Nel dominio del tempo la sintesi digitale del suono può essere realizzata tramite

la rappresentazione matematica discreta del suono, oppure tramite un modello di

generazione numerica dei campioni del suono da sintetizzare.

4



Il tono puro è un suono che, in accordo con il modello armonico di Fourier, ècostituito da un’unica componente fìrequenziale, ovvero quella pari all’inverso del

suo periodo di oscillazione.

Ad esempio, un tono puro è quello prodotto dall’oscillazione di un diapason.

Questo strumento analogico è uno dei pochissimi che è effettivamente in grado di

generare un suono sinusoidale “quasi puro”.

Il modello numerico del tono puro è derivabile da quello continuo, sostituendo

alla variabile tempo continuo t la variabile tempo discreto (t = nTs ):

A(t) = A • sin(27tF nTs + (p0)

La sequenza N di campioni, equivalente a quella ottenibile campionando per NTS

secondi un suono sinusoidale di ampiezza A, frequenza F, fase iniziale (p0, è

ottenibile a controllo di programma come segue:

for (n=0; n<N; n++)

x(n) = A*sin(2PI*F*n*TC + FI)



Sintesi del suonoTono puro (cont.)

27/01/2004 Copyright 2002-2003 140


Il suono sinusoidale (tono puro) è un processo ciclico, ovvero i valori numerici

che ne rappresentano il campionamento si ripetono ciclicamente. I valori

numerici (campioni) del suono sinusoidale possono essere derivati dalladiscretizzazione della funzione trigonometrica seno. E’ sufficiente discretizzare

un singolo ciclo in quanto i successivi cicli sono una ripetizione identica dei

valori numerici del primo ciclo (funzione periodica).

Ciò porta al modello di generatore sinusoidale Look-Up Table (LUT): un periodo

della forma d’onda sinusoidale viene memorizzato in un blocco di memoria,

quindi tali valori vengono estratti (letti) ciclicamente e inviati a intervalli di

campionamento (Tc) al convertitore D/A.




tempo

tempo

Tabella

LUT

27/01/2004 Copyright 2002-2003


141

1 campioni sinusoidali contenuti in una tabella (blocco di memoria) letti tutti in

sequenza e ciclicamente consentono di generare una frequenza pari all’invero del

periodo determinato dal numero di intervalli di campionamento necessari per la

completa lettura della tabella: F ^ l/f S Tc).

Ulteriori frequenze (fondamentali) possono essere generate dalla medesima

tabella utilizzando opportunamente le tecniche di decimazione e di

interpolazione. Ad esempio, una decimazione 2:1 porta ad ottenere una frequenza

fondamentale pari al doppio di quella ottenibile dalla lettura 1:1 della tabella: F,=

2 Fj=l/(4 Tc).



Sintesi del suonoLook-up table (LUT)

yr

Tabella

Controllo

ampiezza

0 *

27/01/2004 Copyright 2002-2003


La sintesi di segnali look-up table (a forma d’onda memorizzata), consente di

generare qualsiasi suono si cui si conosca la forma d’onda di base.




27/01/2004 Copyright 2002-2003


143

L’implementazione di un generatore LUT è relativamente semplice in quanto

implica l’utilizzo di una porzione di memoria (tabella) per contenere i campionidella sinusoide, di un meccanismo programmabile di indirizzamento per la

generazione della frequenza desiderata e di un moltiplicatore per il controllo

dell’ampiezza della sinusoide generata prima che venga fornita al convertitore

D/A.

Questo meccanismo di base può essere esteso con facilità quando viene

implementato in termini di programmazione per avere il completo controllo della

generazione (frequenza, ampiezza e fase). Inoltre, essendo un modulo software,

può essere replicato più volte per ottenere un banco di generatori combinabili traloro tramite un mixer.



Sintesi del suonoCaratteristica dinamica del suono (es. clarinetto)

attaccotenuta

decadimento

0

0-

--------1- 1

0 0.15: __

0.155

0 dB -,

0.158 0.161 0.164t (ms)

fondamentale

1

- I r _ L ±l±id ULl — _

0 1.25 2.5 3.75 5.0 6.25f (kHz)

27/01/2004 Copyright 2002-2003


Il modello stazionario di sintesi non è adeguato alla sintesi di suoni reali,

soprattutto quelli prodotti dagli strumenti musicali.I suoni reali si caratterizzano prima per la modulazione d’ampiezza: l’ampiezza

del segnale varia in continuazione durante tutta la sua manifestazione.

L’andamento di questa caratteristica viene descritta tramite l’inviluppo di

ampiezza.

L’inviluppo di ampiezza caratterizza il suono attraverso le tre fasi principali:

attacco, tenuta e decadimento.

Durante la fase di attacco e decadimento lo spettro del suono è scarsamente

stazionario. Dutante la fase di tenuta lo spettro del suono è abbastanzastazionario.



Sintesi del suonoDinamica dell’ampiezza (es. clarinetto)

27/01/2004 Copyright 2002-2003


145

L’inviluppo di ampiezza di un suono reale non è riconducibile ad una semplice

segnale

unaattacco e decadimento al suono stazionario. Ogni componente frequenziale d

suono è sottoposta ad una specifica modulazione d’ampiezza.

L’analisi frequenziale di un suono di uno strumento evidenzia una differente

variabilità dell’ampiezza delle componenti ffequenziali: globalmente le

componenti seguono l’andamento di massima dell’inviluppo d’ampiezza del

suono, ognuna con una sua specifica caratteristica.



Sintesi del suonoJitter della frequenza (es. clarinetto)

F(kHz)

0

0 100 200 300 400 t (ms)

27/01/2004 Copyright 2002-2003


146

Le componenti del suono, oltre a caratterizzarsi per una specifica variabilità

d’ampiezza, si caratterizzano anche per una specifica variabilità della frequenza,

cioè la frequenza caratteristica della singola componente del suono risultamodulata in ampiezza.

Il processo di variazione nel tempo della frequenza della componente è

descrivibile in termini di inviluppo, in questo caso si parla di inviluppo di

frequenza.

Ogni componente si caratterizza per un suo specifico inviluppo di frequenza, che

comunque globalmente segue di massima un andamento globale caratteristico

proprio dello specifico suono.



Sintesi del suonoPrime due componenti di un suono di clarinetto

Prima armonica Seconda arm onica

CÖ

¡3<Dcl

a

s<Dicr ,e

t em po

tem po

27/01/2004 Copyright 2002-2003


147

La sintesi del suono implica il completo controllo di ogni singola componente in

termini di variabilità dell’ampiezza e della frequenza, per tutta la duratacomplessiva del suono.



Sintesi del suonoSintesi additiva basata su LUT

27/01/2004 Copyright 2002-2003 148


La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si

conosce la struttura armonica. Ogni componente armonica può essere sintetizzatada un generatore LUT. Ogni sintetizzatore LUT può essere controllato in

ampiezza, frequenza e fase in maniera dinamica.



Sintesi del suonoSintesi additiva (cont.)

Amp 1

Freq 1

OOO

27/01/2004 Copyright 2002-2003


149

La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si

conosce la struttura armonica. Ogni componente armonica può essere sintetizzata

da un generatore LUT. Ogni sintetizzatore LUT può essere controllato inampiezza, frequenza e fase in maniera dinamica.



Sintesi del suonoSintesi additiva

É A t ( n ) s i n {n T \ k a j , + 2 ^ F 1( n ) ] } k = \

n: indice di campionamento (t=nTs)Ts: periodo di campionamento (Ts=l/Fs)

pulsazione della fondamentale in radianti (co j =2nf j)f x: frequenza della fondamentalek: indice di armonica

Ak(n): variazione ampiezza dell’armonica k al tempo nTsM: numero totale delle armonicheFk(n): deviazione della frequenza della k-esima armonica al tempo nTs


La sintesi additiva è una tecnica di generazione di suoni che opera nel dominio

del tempo sulla base di informazioni acquisite in fase di analisi ffequenziale:ampiezza, frequenza e fase delle componenti frequenziali di un suono.

La sintesi additiva è di natura armonica, nel senso che le frequenze dellecomponenti sono multiplo della frequenza fondamentale del suono oggetto disintesi.

Questo modello di sintesi additiva consente di includere informazioni relativealla variabilità dell’ampiezza e della frequenza delle componenti armoniche.Ak(n) e Fk(n) sono infatti due funzioni discrete del tempo che descrivono, per

ogni componente armonica k, come, campione per campione, rispettivamentel’ampiezza o la fase della componente varia.

Ak(n) rappresenta l’inviluppo d’ampiezza della k-esima componente del suonooggetto di sintesi. Con tale funzione è quindi rappresentare, componente per

* • ' j •

componente, l’esatta dinamica (attacco, tenuta e decadimento) che caratterizza unsuono reale (ad esempio un suono di pianoforte oppure di tromba). QuestocontrolIa.dell3_diuamica di amqiezza effettuato nel dominio delle frequenze èmolto più realistico del controllo della dinamica del suono effettuato nel dominiodel tempo, in quanto nei suoni fisici ogni componente armonica ha una sua

specifica dinamica d’ampiezza che contribuisce alla caratterizzazione timbrica.

Poiché i suoni fisici non sono perfettamente armonici ma quasi armonici, lasintesi additiva prevede, tramite la funzione Fk(n) di includere questeinformazioni di scostamento della componente dal rapporto armonico.



Sintesi del suonoSintesi additiva (cont.)

n + N - \

X x (m )sm (2 7 T

m -n F

m ) b k{ n )

n+ N - 1

x{m)cos(2;rm = n

F

m)

A («) = J a 2k (n ) + b] (ri) O Xn ) , m , ( « ) x

tan (—---- ) bX

F M 1 d d k ( n )

2 TC d t

27/01/2004 Copyright 2002-2003


151

La sintesi additiva basata sull’analisi implica l’estrazione delle informazioni

Ak(n) e Fk(n) dal suono x(m) che si desidera sintetizzare. Queste informazioni

non sono derivabili tramite un opportuno adattamento dell’analisi armonica di

Fourier [Moorer 75a] [Moorer 75b].

La finestra di analisi è uguale al numero di campioni del periodo fondamentale

della forma d’onda del suono oggetto di analisi. Ciò implica una stima

preventiva e molto precisa della frequenza fondamentale (pitch) del suono. Le

componenti calcolate sono la fondamentale e tutte le sue armoniche (multipli

interi della fondamentale).

La finestra di analisi di N campioni viene spostata nel tempo di un campione per

volta, in modo da campionare l’inviluppo dello spettro del suono a intervalli di

campionamento, quindi con la massima risoluzione temporale consentita dalla

frequenza di campionamento.

In tal modo si ottiene la parte reale bk(n) e la parte reale ak(n) dello spettro del

suono, da cui vengono derivate l’ampiezza Ak(n) e la fase Sk(n).

\ ( n ) .



Sintesi del suono

Sorgente ar onica

Sintesi sottratti va

ÀAAAÀAAAA

x ( n ) = (?!«,*(« - Z - k )

7 = 0 &=1

ak, bk : coefficenti del filtro con fun zione di tra sferim ento H(z)G : guadagno globales(n): segna le sorgentey(n): segnale sintetizzato___________________________________________________


La sintesi sottrattiva è un processo inverso rispetto a quello della sintesi additiva:invece di aggiungere componenti partendo dalla completa assenza di armoniche,

si sottraggono (modificano) componenti armoniche da un segnale particolarmentericco di componenti frequenziali (il rumore bianco per ottenere suoni inarmonicie aperiodici o il treno di impulsi per ottenere suoni armonici e periodici).



Sintesi del suonoSintesi FM (Modulazione di frequenza)

Deviazione Frquenza

modulante (ß)

27/01/2004 Copyright 2002-2003


153

La modulazione di frequenza (FM) è una tecnica di generazione dei segnali che

ottimizza la problematica della sintesi dei suoni soprattutto quando la complessità

del suono è tale da rendere impraticabile sia la tecnica additiva, sia la tecnicasottrattiva, come appunto avviene per la generazione dei suoni di natura

musicale.

La sintesi FM consente di generare suoni con spettri frequenziali molto complessi

e soprattutto dinamici, ovvero con frequenze, ampiezze e fasi che variano con

continuità per tutta la durata del suono.

Per ottenere la modulazione FM è sufficiente disporre di due generatori

sinusoidali controllabili in ampiezza e frequenza e combinabili opportunamente

tra loro proprio secondo uno schema di modulazione di frequenza.

E5proprio questa semplicità del modello di sintesi a rendere la tecnica FM molto

comptetitiva (soprattutto in termini computazionali) rispetto alle altre tecniche,

soprattutto in applicazioni di natura aduio musicale, ove la complessità e la

dinamica spettrale dei suoni da produrre è talmente elevata da rendere proibitiva

l’applicazione di qualsiasi altra tecnica tranne appunto la FM.

I



Sintesi del suonoSintesi FM: modello matematico

/ ( t )= A [sin a t + I sin f it]

A : ampiezza di picco

I : indice di modulazione

a : frequenza portante (carrier) in rad/s

P : frequenza modulante in rad/s

27/01/2004 Copyright 2002-2003 154


La sintesi FM (Frequency Modulation) dei suoni è una tecnica non basata

sull’analisi del suono per ottenere i dati necessari alla generazione. Questa

caratteristica è indubbiamente vantaggiosa rispetto alla sintesi additiva e

sottrattiva basata sull’analisi, ma anche uno svantaggio in quanto non vi è diretta

corrispondenza tra i parametri di controllo della modulazione FM e la natura del

suono che si vuole generare. Tranne che per casi semplici, è difficile se non

impossibile stabilire a priori quali possano essere i corretti parametri di

modulazione FM per ottenere uno specifico suono complesso e dinamico.

La tecnica FM consiste nel variare la frequenza istantanea di un’onda portante

(solitamente un’onda sinusoidale) in funzione dell’andamento di un’altra onda

detta modulante. Nelle applicazioni di telecomunicazione l’onda modulante è il

segnale radio che si vuole trasmettere, mentre nelle applicazioni audio l’onda

modulante ha la funzione di produrre componenti armoniche laterali rispetto alla

frequenza della portante, ottenendo così da un semplice segnale sinusoidale un

segnale ricco di armoniche.



Sintesi del suonoSintesi FM: funzione dell’indice di modulazione

27/01/2004 Copyright 2002-2003


155

La proliferazione delle componenti frequenziali nella sintesi FM audio è

controllata dall’indice di modulazione. Quando l’indice di modulazione è nullo

(1=0), non vi è modulazione e lo spettro del segnale consiste di una solafrequenza, quella della portante: il segnale sintetizzato è un tono puro (sinusoide).

Quando I è diverso da zero, al crescere dell’indice di modulazione viene sottratta

crescente energia alla portante. Tale energia sotratta alla portante viene

distribuita su un numero crescente di componenti frequenziali laterali (side

frequency). Dunque, il suono da corposo diventa sempre più sottile al crescere di

I.

Le componenti frequenziali laterali si manifestano a intervalli regolari dipendenti

dalla frequenza di modulazione.

Lo spettro risultante dipende quindi dall’indice di modulazione relativamente alla

larghezza di banda e dalla frequenza di modulazione relativamente alla

distribuzione frequenziale.

La banda totale è circa pari a 2(d+m), ove d è la deviazione di frequenza ed m è

la frequenza di modulazione.



Sintesi del suonoFunzioni di Bessel

11

0.5 —-

0

Indice di modulazione

0.5

0

Componenti laterali di 4° ordine (J4)

0.5 -f----------------------------------

0


Componenti laterali di 3° ordine (JQ




27/01/2004 Copyright 2002-2003


156

L’ampiezza della portante e delle componenti laterali del segnale FM è

determinata dalle funzioni di Bessel il cui argomento è l’indice di

modulazione I. Osservando le funzioni di Bessel per i vari ordini si puòcapire la ragione dell’arricchimento frequenziale determinato dal crescere

dell’indice di modulazione. In particolare, eseguendo l’espansione

trigonometrica della modulazione di frequenza [Abramawitz 65] si ottiene:

f(t)= A {J0(I) sinat + Jj(I)[sin(a+fi)t-sin(a-(3)t] +J2(I)[sin(a+2/3)t+sin(a-

Tale identità trigonometrica consente di evincere che la sintesi FM è in

grado di produrre sequenze di componenti che, sotto determinate

condizioni possono essere in rapporto armonico. Ciò accade in particolare

quando il rapporto tra la frequenza portante fc e la frequenza modulante fm

è un numero razionale.

Per esempio, quando fc=fm allora:

J5(I)sin(4fJ+...



Sintesi del suonoSintesi FM: modello discreto

x ( n ) = A { n ) sin[ 2 n f n T t + 7(«)sin( 2 jrfmnT

A(n): ampiezza globale (inviluppo)

I(n): indice di modulazione

fc : frequenza portante (carrier)

fm : frequenza modulante

Ts : periodo di campionamento

27/01/2004 Copyright 2002-2003 157


La sintesi FM di suoni complessi, come ad esempio quelli degli strumenti

musicali implica un controllo variabile dell’ampiezza di picco A e dell’indice dimodulazione I. Entrambi questi fattori di controllo della dintesi FM sono funzioni

del tempo, cioè A(t) e I(t).

Il modello discreto della sintesi FM si ottiene discretizzando queste funzioni e le

funzioni sinusoidali portante e modulante.

La funzione A(n) controlla l’inviluppo di ampiezza del suono (attacco, tenuta e

decadimento). Questa è una funzione lentamente variabile (rispetto alla velocità

di variazione della portante), quindi viene campionata a bassa frequenza.

La funzione I(n) controlla la dinamica delle componenti spettrali. Questa è una

funzione lentamente variabile (rispetto alla velocità di variazione della

modulante), quindi viene campionata a bassa frequenza.

La portante e la modulante vengono campionate alla frequenza di

campionamento determinata dalla frequenza massima di banda che si vuole

ottenere, tipicamente nel caso audio oltre i 40000 Hz.



Sintesi del suonoEsempio 1

il ir ooctfo'*.'m r M w j x s . h *

o o . 0 0 . 0 0 . 4 :* r f T ' dc ocoìm.-0 V V V , W r 3 * ï ' T

. * i V > C S > » > 0

f T [ ì O Ó O f l .Q Ì > } ! fi

& Ö . Ö O 0 0 , 1 * 4

> X » . ^ p . ìK > . O C i f

2496Ufi&n Ì A % 9

fllKHäHtem


In questo esempio di sintesi FM l’ampiezza A(n) della portante viene tenutacostante, mentre l’indice di modulazione viene fatto crescere in maniera costante.

La frequenza della portante è uguale a quella della modulante e ciò consente diavere uno spettro armonico e monolaterale (one-sided).

Lo spettro risultante è dinamico, anche in assenza della modulazione diampiezza, in quanto l’armonica fondamentale, al crescere dell’indice dimodulazione tende ad attenuarsi, mentre le armoniche superiori, assenti nella faseiniziale, si evidenziano per valori alti dell’indice di modulazione.

L’indice di modulazione controlla la struttura frequenziale sia in termini direlazione tra la fondamentale e le armoniche successive, sia in termini didinamica delle armoniche, quindi consente di costruire la base timbrica delsuono.

Le famiglie di strumenti musicali (a corda, a fiato, a percussione, ecc.) hannosostanzialmente la stessa base timbrica (struttura armonica stazionaria), e sidifferenziano per la differente dinamica (attacco, tenuta e decadimento).



Sintesi del suonoEsempio 2

Mi*nil ir Wli Irli "*

I » * ! ùn (>$.**.?ìi l J iy oooooo;m

|||If WWW7*l l r 0 0 . 0 0 , 0 0 . 5 M

r f o d o o û ô , 2 < ô • *

« O . O O . O f r ,« * * ; -

oo.oo.oo.Ui4iil.lLJl_.J_.B ill

A n

27/01/2004 Copyright 2002-2003

Prof. Mario Malcangi*III

La funzione di modulazione di ampiezza A(n) consente di conferire al suono

prodotto dalla modulazione di frequenza controllata dalla funzione indice di

modulazione I(n) la specificità dello strumento musicale nel contesto di unafamiglia di strumenti.

I suoni prodotti dagli strumenti musicali, in particolare quelli armonici, si

caratterizzano per una specifica dinamica d’ampiezza

In questo secondo esempio viene simulato il suono di una tromba modellando

con A(n) il suo tipico inviluppo di ampiezza (attacco non molto rapido, una

tenuta leggermente decrescente e un decadimento un po ’ più lento dell ’ attacco) e

la struttura ffequenziale facendo evolvere l’indice di modulazione in modo simile

all’inviluppo di ampiezza A(n).

II risultato della sintesi è abbastanza buono in quanto la percezione uditiva del

timbro di uno strumento come la tromba è chiara. Ovviamente si percepisce la

natura sintetica in quanto mancano caratteristiche di variabilità casuale tipiche

dello strumento reale. La sintesi FM da sola non è in grado di conferire al suono

tali caratteristiche naturali, ottenibili comunque introducendo altri elementi di

modulazione, ad esempio della frequenza della fondamentale durante la fase

iniziale dell’attacco.



Analisi e sintesi della voce

L’elaborazione del segnale vocale è un caso particolare della problematica più

ampia dell’elaborazione del segnale audio. Le problematiche di elaborazione

dell’informazione di segnale vocale sono più complesse di quelle

dell’elaborazione del segnale audio in generale in quanto la natura

dell’informazione codificata nel segnale vocale è di complessità superiore

rispetto a quella del segnale del segnale audio, anche rispetto all’audio musicale.

Il parlato, codificato nel segnale vocale, è un’informaione strutturata con

caratteristiche informative di segnale elementari (ampiezze e frequenze) e

caratteristiche di segnale complesse (fonemi, articolazione, prosodia, parole,

frasi, semantica, ecc.).

Le principali applicazioni, la sintesi e il riconoscimento del parlato, fanno

riferimento alle tecniche di analisi, modifica e sintesi dei segnali, oltre che ad

altre tecniche come la programmazione dinamica e la modellazione dei sistemi,

per risolvere le più o meno complesse problematiche implicate.

Per approfondimenti: [O’Shaughnessy 87)



Analisi e sintesi della voceCampi Applicativi

27/01/2004 Copyright 2002-2003 162

Prof. Mario Malcangi *Il

La gamma applicativa dell’elaborazione del segnale vocale è molto ampia e

fondamentalmente articolata sui tra filoni fondamentali: sintesi, riconoscimento e

codifica.Il riconoscimento si riferisce sia al messaggio verbale, sia alla natura

identificativa del parlatore (impronta vocale) per applicazioni biometriche.

La sintesi si riferisce alla generazione automatica del parlato, in particolare

partendo dal testo alfanumerico. La sintesi è anche alla base delle tecniche di

compressione in quanto necessarie per la ricostruzione del segnale vocale

compresso.

La codifica è la tecnica che consente di realizzare applicazioni come la

comunicazione e la memorizzazione del segnale vocale, oltre a rappresentare la base per la compressione dell’informazione di segnale vocale.



Analisi e sintesi della voceSistema fonatorio

27/01 /2004 Copyright 2002-2003 163


La voce ha origine dalla compressione e successiva emissione di aria che avviene

nei polmoni e transita nella trachea. Successivamente nella laringe, che contienele corde vocali, si genera il segnale acustico (onda di pressione) che può essere di

due tipi diversi:

- vocalizzato: si genera un treno d’impulsi caratterizzato da una determinata

frequenza di ripetizione (fondamentale, pitch, 80-160 Hz per la voce maschile,

160-400 Hz per quella femminile), determinata dalla tensione delle corde vocali,

che viene controllata in retroazione attraverso l’udito e il cervello;

-non vocalizzato: si genera rumore ad ampio spettro per la non chiusura delle

cartilagini di tenuta delle corde vocali.Il

Il segnale acustico viene poi modulato nel tratto vocale dalla forma del tubo

acustico data, fondamentalmente, dalla lingua. Ogni particolare forma del tratto

vocale ha delle frequenze naturali che producono dei picchi, sempre a talifrequenze, nel suono uscente dalla bocca, le fo rm anti .

Il contenuto energetico del segnale acustico è è concentrato principalmente

durante la fase di vocalizzazione.



Analisi e sintesi della voceDigitalizzazione

Segnale

vocale

analogico

ao

60

*o

20

I • : » ’

—Filtraggio

Passa-Basso

0-4 kHz•

èèfj»iif Ti r

r ' » t * I

I

»•:. r.. i«Ifj,V w'

27/01/2004

oooFrequenza (Hz)

' V.

i'.

Lr/iITlJlmi in. 7 Ti, '

c,fili],Ilf.'l

v

a mp tonarne-æ m à / m ‘’’Mi

8 kHz

ntoV!!*

1

.•I».

I*|i »à4iI il -1 VI- ‘II 1 1 1 1 .1 • . . é ìffel: I

Quantizsazione

Lineare/non lineare

7-16 bitni:■Mi

Sistema di conversione A/D della voce

Copyright 2002-2003Prof. Mario Malcangi

Segnale

vocale

digitale

164

Il segnale vocale è caratterizzato da componenti frequenziali significative nella banda 100-3000 Hz. La frequenza di campionamento viene quindi fissata a 8KHz.

La gamma dinamica è contenuta entro i 60-70 dB. Il numero di bit diquantizzazione può essere fissato da un minimo di 7 ad un massimo di 16 bit.



Analisi e sintesi della vocePreeenfasi

Lo spettro del segnale vocale si caratterizza per un rapido decadimento delle alte

frequenze. Ciò impedisce agli algoritmi di modellazione del tratto vocale, in

particolare la LPC, di operare in maniera efficace. Per aumentare l’efficacia diquesti algoritmi, è opportuno processare preventivamente il segnale vocale con

un filtro di pre-enfasi:

H(z) = 1-az"1

ovvero

y(n) = x(n)-ax(n-1) a=0,9375



Analisi e sintesi della voceShort-term Fourier analysis

X ( n ) - ¿ y v ( / z -m)x(m)e~J 50%di sovrapposizione

w(n)= 0 .54 -0 .4 6 cos r2rcn

27/01/2004 Copyright 2002-2003


166

La trasformazione tempo-frequenza di Fourier viene applicata ad una porzione di

segnale di 10-20 millisecondi.

Per minimizzare V effetto della finestratura viene usata la finestra di Hamming.La sovrapposizione (al 50%) delle finestre è necessaria per minimizzare l’effetto

di attenuazione del segnale ai margini della finestra.



Analisi e sintesi della vocePitch, formanti e zero-crossing rate

n- ly . .. *■, 1 •' • ,nf.' Il 4 , ■ ,1. I M M,.. Il " ' ICiMmsl!* . I. ,l ''ll'V 1•! *v 111 ** m■ . i r l i •• \ , * ; j i v , . . ’ . u J 1

......................... V • • h . .. .. .................................................

/ \/ \ / \ -/ \ / \ A/ \ / « mm m \ / \

• f *1" - 11

r i te'iw P•* TPMT’

•r ih

i *ii « t ••

, 1V'ihrCil4,r i-

Il segnale vocale è costituito da due entità informative fondamentali: il pitch e le

formanti. Queste due informazioni sono sovrapposte tra loro, quindi nonfacilmente identificabili (e quindi separabili) sia nel dominio del tempo, sia nel

dominio delle frequenze. Queste due informazioni di segnale sono il risultato del

prodotto tra il segnale di eccitazione e la risposta in frequenza del tratto vocale.

Questo prodotto corrisponde nel dominio temporale alla convoluzione: lo spettro

presenta il pitch distribuito sulle formanti.



Analisi e sintesi della voceAutocorrelazione

L’autocorrelazione (caso particolare della correlazione) è un algoritmo

matematico particolarmente utile per evidenziare la presenza di pitch nel segnalevocale ed eventualmente misurarlo (calcolo del periodo di ripeticione, cioè della

frequenza): la funzione di autocorrelazione di una porzione di segnale vocale

R(k) presenta un massimo assoluto per k = 0 e una serie di massimi relativi per k

>0.

I massimi relativi sono indicativi della presenza di pitch e la posizione k è indice

di periodo di ripetizione (frequenza) del pitch.



Analisi e sintesi della voceLinear Predictive Coding (LPC)

• La codifica predittiva lineare (LPC)consente di stimare un modello deltratto vocale in termini di parametri diun filtro

• Il tratto vocale viene modellizzatocome un filtro IIR a soli poli

H ( z ) = i ^ = --------9.--------1+ axz A +... + a p[z~P

x(n) = Gs (n) - aty( n -1) - . . . - a py ( n - p )

• Il segnale vocale è una combinazionelineare dei campioni precedenti e dei

segnale di eccitazione: i coefficenti

cambiano fraine per trame

tempo

27/01 /2004 • Copyright 2002-2003 169


La codifica predittiva lineare (LPC) è un importante algoritmo che consente di

stimare il contenuto informativo relativo alle formanti. Essendo le formanti le

risonanze caratteristiche del tratto vocale, la LPC consente di modellizzare iltratto vocale in termini di filtro equivalente.



Analisi e sintesi della voceCepstrum

e(n) = sorgente di eccitazione

v(n) = risposta tratto vocale

x(n)=segnale vocale

x(n)=e(n)*v(n) - convoluzione

X(k)= spettro del segnale vocale

X(k)=E(k)V(k) - prodotto

log(EV) = log(E)+log(V)

1 I

cM) = — ¿log|X(A:)|e "iv

Il termine CEPSTRUM deriva dalla

parafrasi di SPECTRUM, e diconseguenza tutti gli altri termini:

Quefrency Frequency

Rahmonics Harmonics

Gamnitude Magnitude

Saphe Phase

Lifter Filter

Short-pass Lifter Low-pass FilterLong-pass Lifter High-Pass Filter

27/01 /2004 Copyright 2002-2003


Il Cepstrum è un algoritmo di analisi del segnale, derivato dalla trasformata di

Fourier, capace di evidenziare allo stesso tempo sia il pitch che l’inviluppo delleformanti del segnale vocale, cioè la frequenza della sorgente di eccitazione e

l’ampiezza e la frequenza delle formanti.



Analisi e sintesi della voceSintesi

27/01/2004 Copyright 2002-2003 171


Avendo a disposizione un modello di analisi del segnale vocale capace di

evidenziare e misurare le informazioni vocali caratteristiche, è possibile costruire

un sistema di sintesi artificiale del segnale vocale basato fondamentalmente sudue generatori di segnale (armonico e inarmonico), un sistema di commutazione

tra i due generatori e un sistema di filtraggio programmabile che modellizza

dinamicamente il tratto vocale durante le fasi di fonazione.



Analisi e sintesi della voceRiconoscimento

Le informazioni ottenute con le varie tecniche di analisi possono essere utilizzate

per realizzare applicazioni di riconoscimento automatico del parlato.

Ad esempio, se si programma un filtro con le informazioni relative ad una

porzione di segnale vocale, in modo che questo sia caratterizzato da ima risposta

in frequenza inversa di quella che corrispondentemente aveva il tratto vocale

durante la fonazione di tale porzione di segnale, applicando in ingresso a tale

filtro una porzione di segnale vocale qualsiasi, il segnale di uscita conseguente è

indicativo della identità (similarità) di tale segnale rispetto a quello di

modellazione. Se in ingresso si applica lo stesso segnale vocale utilizzato per

modellizzare il filtro inverso, l’uscita (residuo) è un segnale nullo.

Il modello di riconoscimento stima la natura del segnale residuo per decidere in

merito al riconoscimento.

La programmazione del filtro inverso corrisponde alla fase di addestramento dei

sistemi di riconoscimento automatico del parlato.



Analisi e sintesi della voceDynamic Time Warping (DTW)

27/01/2004 Copyright 2002-2003 173


Il segnale vocale ha caratteristiche dinamiche particolarmente variabili: la

fonazione della stessa parola può avvenire lentamente o rapidamente. Ciò rende

particolarmente difficoltosa l’attività di confronto tra il profilo informativo della parola da riconoscere e quella di riferimento (modello, template).

La programmazione dinamica è una delle tecniche utilizzate per il confronto

dinamico di sequenze simili dal contenuto informativo, ma dilatati (o compressi)

rispetto al tempo.



i



Compressione del suono

27/01/2004- Copyright 2002-2003


La compressione del suono è fondamentale per ottenere applicazioni che consentono di

comunicare e/o memorizzare informazioni audio in maniera efficiente. Il segnale audiocontiene molta ridondanza informativa, che opportunamente identificata, può essere

rimossa allo scopo di ridurre la quantità di informazione codificata.

Esistono numerose metodologie per la riduzione della ridondanza di informazione nel

segnale audio allo scopo di ottenere la cosiddetta compressione del segnale. La scelta di

una metodologia di compressione, tra le svariate disponibili, dipende da diversi fattori, tra

cui importanti sono la complessità computazionale e la qualità della riproduzione.

La complessità computazionale di solito cresce al crescere del rapporto di compressione e

ovviamente incide sulle prestazioni real-time del sistema. Nel dominio del tempo la

complessità computazionale è medio-bassa, mentre nel dominio delle frequenze la

complessità è medio-alta.

La qualità della riproduzione di un segnale audio compresso (previa decompressione)

cresce con il bit-rate, quindi non è possibile in generale abbassare il bit-rate senza

degradare il segnale. Malgrado questo inevitabile effetto collaterale, il degrado del

segnale conseguente alla compressione e successiva decompressione del segnale audio,

può essere non percepibile.

Ci sono metodologie di compressione che comunque non comportano perdita di

informazioni (lossless) e quindi consentono di ricostruire il segnale originario, ache secon una certa aggiunta di rumore, mentre altre metodologie comportano perdita di

informazioni del segnale, non più recuperabili dopo la decompressione (lossy).

1metodi lossless ottengono rapporti di compressione inferiori a quelli lossy.

Per approfondimenti: [AA.VY. 96], [Jayant 97].



Compressione del suonoBit rate

Formato audio (dinamica tipica)

Frequenza di campionamento

Gammafrequenziale

Bit rate kbit al secondo

Telefonia (48 dB)

CD (96 dB)

DAT (96 dB)

8 kHz

44.1 kHz

48 kHz

200-3400 Hz

20-20000 Hz

20-20000 Hz

64 kbps

1411,2 kbps

1536 kbps

27/01/2004 Copyright 2002-2003 176


La misura dell’informazione codificata in forma numerica è fondamentale per la

valutazione della complessità deH’informazione in rapporto allo spazio che essa

occupa quando viene memorizzata e al tempo che impiega per essere trasmessa.La misura dell’informazione del segnale numerico consiste nel numero di simboli

al secondo necessari per la sua codifica. Data la natura binaria della codifica

numerica del segnale, la misura dell’informazione è in termini di bit al secondo

(bps, bit/s). Questa misura si chiama bit rate.

Il bit rate dipende principalmente dalla banda frequenziale e dalla dinamica tipica

del segnale, quindi si ottiene dal prodotto della frequenza di campionamento per

il numero di bit di quantizzazione. Questo è il bit rate di base, che, come accade

per esempio per il CD, va ulteriormente moltiplicato per il numero di canali(destro e sinistro), per determinare l’effettivo bit rate di sistema e quindi, in

questo caso, la quantità di memoria CDROM necessaria per una specifica durata

dell’informazione audio oggetto di registrazione su tale media. — - * «



Compressione del suonoAlgoritmi e standard di codifica

Standard Algoritmo Applicazione Bit rate (kbps)

CCITT G.711 A/Mu Law PCM Telefonia fissa64CCITT G.721 ADPCM Telefonia fissa 32

CCITT G.722 Subband ADPCM Teleconferenza 32-64

ITU-T G.728 LD-CELP Telefonia fissa 16

TIA IS-54 VSELP Telefonia mobile 0.8-8.5

TIA IS-96 QCELP Telefonia mobile 8

ETSI GSM VSELP Telefonia mobile 5.6

NSA FS1015 LPC10E Telefonia sicura 2.4

NSA FS1016 CELP Telefonia sicura 4.8

ISO MPEG-1 Musicam/ASPEC Audio (stereo) 128-384

ISO MPEG-2 Vari Audio (5 canali) 320-384

27/01/2004 Copyright 2002-2003 177


La codifica del segnale audio digitale è finalizzata a ridurre la quantità di

informazione codificata eliminando le ridondanze. Vari algoritmi di codificasono stati studiati e implementati a questo scopo sia per le applicazioni vocali che

per le applicazioni audio a larga banda.

Quando questi algoritmi sono stati utilizzati in applicazioni di ampia portata,

come la telefonia, la radiocomunicazione e la memorizzazione sui media, le

principali organizzazioni di standardizzazione sono intervenute per definire

specifici modelli applicativi di riferimento.

Soprattutto in campo telefonico, fino a tempi molto recenti, NordAmerica e

Giappone (TIA, JDC, ecc.) hanno definito propri standard, mentre l’Europa(CCITT, ecc.) ha invece definito i propri.

Vari sono stati gli algoritmi di codifica messi in campo in tali standard, con

l’obiettivo comune di ottenere il bit rate più basso possibile compatibilmente con

il minimo livello accettabile di degrado dell’informazione di segnale.



Compressione del suonoCompressione della dinamica

27/01 /2004 Copyright 2002-2003


La compressione della dinamica contribuisce a migliorare il rapporto di

compressione nei sistemi di codifica in quanto migliora il rapporto

segnale/rumore per i piccoli segnali, quindi consente di diminuire i bit di codifica

senza peggiorare il rapporto segnale/rumore di quantizzazione.



Compressione del suonoPulse Code Modulation (PCM)

...in

. . .no

...101

...100

...Oli

...010

...001

...000

..100 ...101 ...101 ...100 ...010 ...001 ...000

A

¡

^ r —

»//

té ■>■

S ___ ■ -

\> 1v iV*•

i --------------1— — r ~ — r ~ — i— ! — i --------------1--------------r

1 0 1 1 0 1 0 * * * •

Q n

Voce analogica cam pionata a 8 kHz e qu antizza ta a 8 bit

Musica analogica cam pionata a 44,1 kHz e qu antizza ta a 16 bit

64000 bit/s

705600 bit/s

Bit Rate

27/01/2004- Copyright 2002-2003


179

*

Il punto di partenza è il segnale campionato e quantizzato correttamente. Questo

segnale viene chiamato Pulse Code Modulation (PCM).I 4 ^

La quantità di informazione che caratterizza il segnale PCM si misura in termini

di bit rate, cioè di numero di bit codificati al secondo, moltiplicando il numero di

campionamenti al secondo (frequenza di campionamento) per il numero di bit di

quantizzazione utilizzato.

Il segnale audio, codificato PCM, in accordo con il teorema del campionamento e

il principio di quantizzazione, contiene tutte le informazioni necessarie a

garantire la perfetta ricostruzione analogica del segnale audio originario.

Anche quando la frequenza di campionamento e il numero di bit di

quantizzazione sono minimi ripsetto a quanto imposto dal teorema del

campionamento e il principio di quantizzazione per garantire l’integrità

dell’informazione di segnale, il segnale PCM contiene comunque ridondanza di

informazione. Tale informazione ridondante può essere eliminata, ottenendo

conseguentemente una riduzione nella codifica, cioè alla riduzione del bit-rate.



Compressione del suonoPCM non lineare

27/01/2004 Copyright 2002-2003


La codifica PCM utilizza un modello di quantizzazione lineare, cioè il gradino di

quantizzazione è uniforme per tutta la dinamica del segnale. Per questo motivo e

per distinguerla da altre varianti della codifica PCM, viene chiamata PCM

lineare.

La codifica PCM lineare garantisce il rapporto segnale/rumore che deriva dal

numero B di bit di codifica utilizzato (circa 6B dB) solo se il segnale è

costantemente alla massima dinamica. Tale rapporto risulta invece inferiore se la

dinamica del segnale codificato è infreriore a quella massima.

Per garantire anche ai minimi livelli di dinamica del segnale il rapporto

segnale/rumore minimo previsto per una specifica applicazione (per esempio 48

dB per le applicazioni vocali e 96 dB per le applicazioni audio) è necessario

utilizzare un numero superiore di bit di quantizzazione, cioè è necessario

sovradimensionare la codifica. Ciò comporta un aumento del bit rate e quindi un

peggioramento delle condizioni applicative.

Allo scopo di tenere basso il bit rate ed allo stesso tempo mantenere elevato il

rapporto segnale/rumore si opera la compressione della dinamica durante la

codifica PCM, ottenendo la cosiddetta codifica PCM non lineare.

Ad esempio, la codifica PCM non lineare a 8 bit della voce campionata a 8 kHz

garantisce lo stesso rapporto segnale/rumore della codifica PCM lineare di a 12

bit, mantenendo il bit rate a 64000 bit/s, cioè quello del PCM lineare a 8 bit.



Compressione del suonoPCM non lineare: A-Law e Mu-Law

A-Law

Mu-Law

F(x) = Sgn(x)1+ ln( j4|x |)

=Sgn

(x)

F(x) = Sgn(x)

1+

A 3

In A

t

1+ ln^

ln(l -f Mu!X|)

ln(l + À/w)

A< X <1

0< <

1 A

0 < x < 1

x : segnale di ingresso

sgn( x) : segno di x

x : valore assoluto di x

Mu ¡costante 255 (definita da AT & T)A : 87.6 (definita dal CCITT)


181

Vi sono due codifice PCM non lineari standard, definite appositamente per lacomunicazione vocale digitale: A-Law e Mu-Law.

Si tratta di due codifìche PCM non lineari, definite come standard di codificadigitale della voce nelle applicazioni telefoniche digitali rispettivamente perl’Europa e per il nord America/Giappone, che differiscono tra loro solo per il

profilo della curva di compressione della dinamica.



«

Compressione del suonoDominio temporale (lossless): Modulazione Delta (DM)

Voce analogica c am piona ta a 8 kHz e quan tizzata a 1 bit DM c==:i> 8000 bit/s

M usica analogica cam pio na ta a 44,1 kHz e qu an tizza ta a 1 bit 44100 bit/s

Bit Rate

27/01/2004 Copyright 2002-2003 182


Una delle tecniche più semplici di compressione nel dominio temporale del

segnale PCM consiste nella codifica differenziale, cioè dell’incremento

(decremento) di ampiezza del campione. Gli incrementi dell’ampiezza dei

campioni hanno una dinamica inferiore a quella della dinamica assoluta di

ampiezza, quindi necessitano di meno bit di quantizzazione a parità di rumore di

quantizzazione. Un caso limite della codifica incrementale è la modulazione

delta (DM). Questa prevede un incremento (decremento) di ampiezza fissa (pari

ad un solo livello di quantizzazione), richiedendo solo un bit di codifica.

La tecnica di compressione DM è molto efficace se il segnale da codificare (e

comprimere) varia lentamete rispetto al campionatore. Se la variabilità del

segnale è elevata, il quantizzatore a 1bit non riesce a seguire adeguatamente lavariazione di ampiezza del segnale, introducendo un elevato livello di errore di

codifica. Aumentando la frequenza di campionamento, la codifica DM migliora,

ma peggiora il bit-rate che si avvicina a quello PCM.1«

Questa tecnica di compressione del segnale è comunque la base per la

costruzione di modelli di compressione nel dominio temporale più efficaci, come

ad esempio la tecnica ADPCM (Adaptive Differential PCM),Capace di garantire

un bit rate inferiore a quello PCM, pur mantenendo una qualità di segnale

paragonabile.



Compressione del suonoDominio temporale (lossless): PCM Differenziale (DPCM)

M

x' (n) = J^hrs ( n - r ) r=1

27/01/2004 Copyright 2002-2003 183


A parità di rappoto segnale/rumore, la codifica DPCM (Differential PCM ) è

una estensione del delta modulation, in quanto si utilizza la quantizzazione a più

livelli invece della quantizzazione a due livelli del DM. Il sistema di codifica èesattamente lo stesso del DM: un predittore stima un valore di ingresso x’(n) che

comparato a quello reale x(n) produce una differenza d(n) che viene quantizzata

secondo uno schema a più livelli.

La codifica DPCM, a parità di numero di bit di quantizzazione, consente di

ottenere un rapporto segnale/rumore di quantizzazione superiore a quello del

PCM, a costo ovviamente di un aumento della complessità del sistema.



La codifica differenziale consente di ridurre la ridondanza di informazione del

segnale audio analogico in quanto codifica la variazione di ampiezza del segnale.

La variazione di ampiezza del segnale richiede meno bit di codifica

dell’ampiezza stessa.

Per segnali a dinamica costante è possibile stabilire a priori quanti livelli di

quantizzazione utilizzare per la codifica, ma questa condizione è poco ricorrente.

Voce e musica presentano dinamiche e statistiche di segnale molto variabili.

L’utilizzo di livelli di quantizzazione di ampiezza variabile consente di adattare

al meglio la codifica in funzione della variabilità del segnale.

La codifica adattativa, cioè che adatatta i parametri di codifica in funzione della

natura del segnale consente di conferire alla codifica DPCM un livello di qualità

paragonabile a quello PCM pur diminuendo significativamente il bit rate.

I quantizzatori adattativi (ADPCM) permettono di migliorare le prestazioni di

rapporto segnale/rumore dei quantizzatori non adattativi dai 3 ai 7 dB.



Compressione del suonoDominio frequenziale (lossless): Vocoder

m

X«) G

-1 s(n )

1+qz'

-P

x (n ) = G i r i ) - a xy { n -1 y (n )

S o r g e n t e a r m o n i c a

A A A A A A A A A

s(n)

S o r g e n t e in a r m o n i c a G

M o d e l lo d i

Sintes i

H(z)

y(n)

27/01/2004 Copyright 2002-2003


185

I sistemi di compressione del segnale audio nel dominio delle frequenze

possono produrre un rapporto di compressione particolarmente elevato,

soprattutto quando si basa sulla modellazione del sistema di produzione delsegnale audio. Un esempio molto significativo di questa tecnica di compressione

riguarda il segnale vocale.

La tecnica si chiama Vocoder (Voice Coder/Decoder) e consiste nella

modellazione del sistema fonatorio, in particolare del tratto vocale, in modo tale

da estrarre solo le informazioni strettamente legate al parlato, eliminando quelle

di natura ambientale. Questa modellazione avviene nel dominio delle frequenze

(estrazione delle formanti e del pitch) utilizzando in fase di analisi varie tecniche

di analisi/sintesi come per esempio la codifica predittiva lineare (LPC) oppure i banchi di filtri, e in fase di sintesi la tecnica sottrattiva. Il pitch viene invece

stimato con varie tecniche di analisi come per esempio l’autocorrelazione.

Con la tecnica vocoding, intervalli di 10-20 ms di segnale vocale campionati a

8.000 Hz (80-160 campioni) e quantizzati a 8 bit (640-1280 bit) richiedono poche

decine di bit di codifica in quanto si tratta di codificare solo una decina di

parametri caratteristici (formanti, pitch ed energia). In tal modo si ottiene un

elevatissimo fattore di compressione, molto superiore a quello ottenibile con la

più efficiente delle tecniche di codifica nel dominio del tempo.

Per esempio, la voce codificata PCM (8 kHz, 8 bit) richiede un bit rate di 64

kbit/s. Questo può essere ridotto solo fino a 16 kbit/s con la codifica ADPCM,

mentre con un vocoder LPC si può arrivare fino a 1,2 kbit/s (LPC-10).



Compressione del suonoDominio frequenziale (lossless): codifica in sottobande (SBC)

X ( n )

t1 1

1

C o d i f ic a t o r e n

27/01/2004 Copyright 2002-2003


186

La compressione del segnale audio nel dominio del tempo non può essere spinta

oltre quanto ottenibile con i modelli differenziali adattativi. Molta della

ridondanza è legata alla struttura frequenziale, evidenziabile quindi solo tramite

un modello analitico operante nel dominio frequenziale.

La codifica in sottobande (SBC) è un esempio di tecnica in cui la codifica

differenziale viene applicata al segnale scomposto in bande frequenziali.



La combinazione della tecnica SBC e della tecnica di compressione della

dinamica consente di ottenere ottimi risultati di compressione dell’informazionedi segnale. Il filtraggio a bande consente di applicare sistemi di compressione

della dinamica differenziati in conseguenza della differente natura dinamica del

segnale nelle varie bande frequenziali.



Co

r<3'S§

Compressione del suonoModello percettivo

f

—

100

f ì l ì

Tr - —

ièfV it i

iU&iriiAfc*ái? i * • i l 4 A'

(I l

I . Il

p«<:

» ’V i -u* h

*• 4 * ■ '

«i n

i

: L

-l *I

f II

» I . »

—

^ V

• ? M I

14«

••

M I .ft

I

w| in

14 L

r i ^

*njdi-* K M » 1 ,

irti') ‘t'H'fiu . i

¡li ÍH!! ‘¡'i4! i*r

; m ii

, i ,

In i!

I . - » .

' 1 1 1 .

m

•il» •?»mi li t V

120«Alt»4« lift«*

!!»■JL • fL —il .

■ •I

fJlV4P _ I

8 0 ^ I 1- M

-----------------------------

ir i n i

*I " I I

:il Ihi m i .

ß. i . u r

l ! ì \ V

:ili»

* ? - Ir4

lì .1

r * - » I

lili"f V

il

li! I li

li'

i ' l l

I

. • I u <

V ’

I —

il 11 i'.. »J..HII lltl* I,* IPJI

—

-*r«ii

1000 10000Frequenza (Hz)


188

La dinamica percettiva dell’orecchio è variabile in funzione della frequenza edel contenuto frequenziale, cioè della natura del segnale audio considerato. In

particolare esiste un fenomeno di mascheramento tra segnale audio e rumore e trale singole componenti frequenziali del segnale audio.

Il mascheramento tra segnale audio e rumore avviene quando il segnale audio haun livello di ampiezza tale da rendere non percepibile un rumore additivo. E’

proprio su questo principio di mascheramento che si basa la scelta dei bit nellacodifica PCM (quantizzazione) nelle applicazioni vocali o audio digitali.

Nella codifica PCM non si tiene conto della caratteristica dinamica della percezione e quindi della variabilità statica e dinamica della percezione e quindidell’effetto di mascheramento: il numero di bit di codifica è fisso e massimizzato

sul caso della massima dinamica percettiva dell’orecchio (120 dB a 1000 Hz).

Il modello percettivo tiene conto invece della variabilità della dinamica percettivadell’orecchio che varia da un minimo di 70 a un massimo di 120 dB. Ciò implicache un tono a 100 Hz può essere codificato con circa 6 bit in meno di quellinecessari per un tono a 1000 Hz, ottenendo lo stesso rapporto segnale/rumore alivello percettivo. Un’altra conseguenza è quella per cui un tono a 100 Hz puòessere accompagnato da un rumore a banda stretta (intorno a 100 Hz) fino a 40dB senza che risulti percepibile.

Entrambe queste due osservazioni portano al concetto di modellazione delrumore (noise shaping) e di codifica percettiva (perceptual coding).



Compressione del suonoSoglie di mascheramento

dB

SMR

SQNR

NMR

Tono mascherante

Banda critica

Soglia di mascheramento

Livello del rumore di quantizzazione

Hz

27/01/2004- Copyright 2002-2003


189

L’effetto di mascheramento è conseguenza della natura della membrana basilare

e nel meccanismo di trasformazione delle vribrazioni acustiche in impulsi nervositrasmessi all’area della percezione uditiva, cioè le cosiddette bande critiche. Il

mascheramento tra toni dominanti e toni sottostanti avviene nell’ambito della

banda critica.

Relativamente alla quantizzazione, vengono definiti, in aggiunta al rapporto

segnale/rumore di quantizzazione (SQNR), anche un rapporto

segnale/mascheramento (SMR) e rapporto rumore/mascheramento (NMR).

Questi rapporti sono la base per la costruzione del modello percettivo finalizzato

alla codifica ottimale della sorgente audio. Il segnale audio mascherato puòessere il rumore di quantizzazione oppure altre componenti frequenziali del

segnale audio stesso. La codifica percettiva ha come obiettivo quello di allocare i

bit di quantizzazione in maniera dinamica, in modo da ottenere un bit-rate medio

inferiore alla codifica PCM.

Per ottenere il massimo risultato, i rapporti SMR e NMR vengono calcolati per

ognuna delle bande critiche. A tale scopo si analizza il segnale per mezzo di un

banco di filtri fisiologici con banda passante distribuita in accordo con la scala

Bark.



Compressione del suonoMPEG Audio (lossy)

27/01/2004 Copyright 2002-2003 190


La codifica MPEG Audio è uno standard di codifica audio definito dalla ISO

(International Standard Organization) nell’ambito MPEG (Moving Pictures

Expert Group) nell’ambito del più ampio obiettivo di definizione di uno standarddelle immagini in movimento con audio associato per media di memorizzazione

digitale fino a 1,5 MHz.

La codifica MPEG Audio è rappresentativa della classe dei sistemi di

compressione con perdita di informazione lossy). In questo caso la riduzione

della quantità di informazione codificata si basa sul modello percettivo (derivato

dal modello psicoacustico). L’informazione viene ripartita in bande per poter

applicare il modello percettivo che mette in relazione la percezione del pitch con

l’intensità e a frequenza.Lo standard MPEG Audio consiste di tre livelli (layer), ognuno dei quali consente

di ottenere prestazioni crescenti di qualità del segnale codificato a costo di una

crescente complessità computazionale e di sistema.

I bit rate audio supportati sono 32000, 44100, 48000 e bit-rate variabili tra 32 e

192000 bit/s per i canali audio monofonici.

Lo standard prevede varie configurazioni di canale singolo e doppio, oltre alla

modalità stereo e stereo congiunto.



Compressione del suonoMPEG Audio (lossy)

27/01/2004 Copyright 2002-2003 191


Il segnale PCM viene scomposto da un banco di 32 filtri passa banda in

altrettante sottobande. Lo stesso segnale PCM viene processato

contemporaneamente da un modello psicoacustico. Tale modello, previa analisi

in frequenza del segnale PCM, calcola il rapporto tra l ’energia di segnale e le

soglie di mascheramento definite per ognuna delle sottobande.

I rapporti energia/soglia di mascheramento consentono di pilotare un sottosistema

di quantizzazione variabile. Questo, in funzione delle informazioni del modello

psicoacustico, decide quale fattore di scala e quanti bit applicare nella codifica

del segnale.

Dati non di segnale (ancillary data) possono essere inseriti nello sequenza di bit

di codifica (bitstream) per codificare informazioni ausiliarie.



Compressione del suonoMPEG Audio (lossy): banco di filtri

y , { n ) = Z Z A ( n , k ) [ C { k + 6 4 i ) * x ( k + 64Q]¿=0 j=0

A ( n , k ) = cos[( 2 + !)(£ - 16)(;r /64 )]

n: indice di sottobanda (0..31)

t : ind ice del temp o (mu ltiplo intero di 32 periodi di campio name nto)

y( (n ) : cam pion e di uscita del filtro al tempo t per la sottobanda n

C (.) : finestra di analisi (51 2 campioni)

x(.) : segnale di ingresso (512 campioni)

A(n,k ): matrice di analisi

27/01/2004 Copyrigh t 2002-2003


La suddivisione in bande su cui si basa la codifica MPEG Audio viene ottenuta

tramite un filtro polifase. Questo processa 512 campioni di segnale PCM

finestrato per mezzo di una finestra di 512 campioni definita dallo standard.

Il filtro polifase opera come un banco di 32 filtri equamente distanziati in

frequenza tanto in modo formare 32 sottobande della banda totale del segnale

audio da codificare (a 48 kHz ogni banda è ampia 750 Hz).

Il segnale in uscita di ogni filtro passa banda così ottenuto viene campionato ai

limiti di applicabilità del teorema del campionamento attraverso un processo di

decimazione.

Dato che la matrice di analisi consiste di coefficenti derivati dal campionamentodella funzione coseno, è evidente che il filtro polifase non è altro che una variante

della trasformata di Fourier, e ciò spiega la necessità della finestratura.



Spazializzazione del suono

27/01/2004 Copyright 2002-2003


195

La dimensione spaziale del suono è integrate della dimensione temporale.

L’informazione spaziale consente all’individuo di percepire la posizione nello

spazio della sorgente sonora e quindi di orientarsi nello spazio sulla base della

percezione acustica.

La generazione di spazi e ambienti virtuali è possibile modellizzando gli spazi

reali e realizzando sistemi di elaborazione del segnale in cui sono trasferibili gli

elementi che caratterizzano la natura spaziale degli ambienti.



Spazializzazione del suonoEchi e riverberi

27/01/2004 Copyright 2002-2003


La percezione della componente spaziale del segnale audio è basata sulla capacità

del sistema uditivo di misurare e correlare in maniera molto raffinata le

differenze temporali di arrivo delle singole sorgenti sonore alla posizione

dell’individuo. In paricolare, ogni sorgente sonora in campo chiuso produce sia

un suono diretto, sia vari suoni indiretti podotti dalle riflessioni del suono diretto

sulle pareti dell’ambiente.

Il suono diretto è il primo a raggiungere l’ascoltatore. Successivamente arrivano

le prime riflessioni. Queste possono essere percepite come echi se vi è un minimo

intervallo temporale di arrivo rispetto al suono diretto.

Al suono diretto e alle prime riflessioni si aggiungono le riflessioni multiple(indirette) dovute a ripetuti rimbalzi sulle pareti del segnale diretto prima che

questo si direzioni verso il punto di ascolto. Queste riflessioni indirette sono

temporalmente molto ravvicinate tra loro e numerose, dando la sensazione

percettiva acustica dell’effetto “riverbero”.



Suono diretto, prime riflessioni (echi) e riflessioni multiple (riverbero) hanno una

caratteristica di distribuzione temporale caratterizzata da ritardi crescenti con

intensità delle singole componenti decrescenti in intensità.

Un sistema di generazione artificiale della componente spaziale del suono si basa

essenzialmente su un sistema di ritardi programmabili e di ricombinazione.



Per identificare la natura spaziale degli ambienti in cui si propaga il suono si

utilizza la tecnica della risposta all’impulso. Propagando un suono impulsivo inun ambiente questo produce una risposta audio che codifica la caratteritica

specifica dell’ambiente. Questa evidenzia una serie di caratteristiche acutiche

tipiche dell’ambiente come le dimensioni, le caratteristiche riflessive, le

caratteristiche di assorbimento, ecc.

Una sala da concerto evidenzia un intervallo evidente tra l’arrivo del suono

diretto al punto di ricezione e l’arrivo delle prime riflessioni, nonché una

notevole lunghezza della durata della risposta. Questo intervallo è quasi assente

in ambienti di piccole dimensioni (casa, auto, ecc.) e particolarmente breve è ladurata della risposta all’impulso.

Dalla risposta all’impulso si può derivare la caratteristica di spazializzazione che

consente di pilotare un modello di simulazione artificiale della spazializzazione

del suono.



La generazione dell’eco è particolarmente semplice in quanto è sufficiente

disporre di una linea di ritardo e di un attenuatore. Particolarmente semplice è

questo modello di generazione dell’eco nel dominio digitale, in quanto la linea diritardo è realizzata tramite memoria (buffer circolari, FIFO).

L’eco semplice si basa su un modello diretto (feed-foreward), mentre l’eco

multiplo si basa su un modello retroazionato (feed-back).



Spazializzazione del suonoRiverbero

27/01/2004 Copyright 2002-2003


200

Per la generazione del riverbero è necessario un sistema di ritardi e attenuazioninon uniforme, in modo da conferire naturalezza al segnale d’uscita arricchito

dell’effetto riverbero. La linea di ritardo in questo caso deve essere

programmabile in modo da conferire ad ogni componente di spazializzazione il

giusto ritardo e attenuazione per caratterizzare uno specifico ambiente.



Spazializzazione del suonoRiveberatori All-Pass

Ingresso Uscita

Ingresso Uscita

27/01/2004 Copyright 2002-2003


Data la natura complessa e molteplice dell’effetto di riverbero, vi sono sistemi

derivati dal modello di filtraggio e capaci di produrre un effetto simile a quello

che si otterrebbe utilizzando una linea di ritardo programmabile con attenuatori.

I filtri passa tutto (all-pass) sono i componenti base dei riverberatori complessi.Questi sono controllabili tramite due parametri, il ritardo e l’attenuazione.

Ponendo in serie una sequenza di riverberatori all-pass opportunamente

programmati su tali parametri e combinando l’uscita di questa serie con il suono

diretto, si ottiene un sistema di riverberazione compatto ed efficiente. I parametri

possono essere derivati dalla risposta all’impulso di un ambiente quando si vuole

simulare un ascolto che offra le stesse caratteristiche spaziali dell’ambiente di

riferimento (ad esempio una specifica sala da concerto).



Spazializzazione del suonoEffetto coro

L’effetto coro è una situazione audio simile a quella del reverbero non

determinate daH’ambiente ma dalla presenza contemporanea di molteplici

sorgenti sonore tutte uguali tra loro. In pratica si tratta della diffemte percezione

acustica fornita da un singolo strumento rispetto a numerosi identici strumento

(ad esempio 100 violini che suonano lo stesso brano contemporaneamente,

oppure cento persone (coro) che canta la stessa melodia).

L’effetto coro viene determinato da piccole variazioni di intensità e di frequenza

delle singole sorgenti. Tale effetto può essere simulato con buona

approssimazione realizzando un banco parallelo di ritardi programmabili (da 10 a

50 ms) e di guadagno variabile.



Architetture DSP per l’audio

M / W V wrMÎÏil/ litUj òii.i.

00101001010001

00101001001010

00101000100101


205

L’elaborazione numerica del segnale audio è un’attività computazionalmente

intensiva. Malgrado i notevoli progressi in termini di velocità di elaborazione dei processori CISC (Complex Istruction Set Computer), l ’elevatissima quantità dicalcoli (moltiplicazioni e somme) richiesti dagli algoritmi di elaborazionenumerica del segnale audio è tale da non lasciare spazio alle inefficienzecomputazionali dei processori CISC e portare inevitabilimente all’utilizzo di

processori RISC (Reduced Istruction Set Computer) di natura ApplicationSpecific Set Computer (ASSP), in particolare i processori digitale di segnale(Digital Signal Processor, DSP).



Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali

D bus

ALU

Am2903

Iv<

J A - . .

Y bus

27/01/2004

Data

MemoryMultiplier

______ ¥ _______

DAC

t____ t t

D L M S&H

LPF

analog voutput

Copyright 2002-2003


HPit

206

Intorno agli anni ’80, Dean Wallraff della Digital Music Systems Ine., realizzò il primo

microcomputer capace di elaborare il segnale audio in forma numerica e in tempo-reale. Il

primo esemplare di questa innovativa macchina di calcolo numerico specificamente

pensata per l ’applicazione audio fu acquistata dal LIM, il Laboratorio di Informatica

Musicale dell ’Università degli Studi di Milano creato da Goffredo Haus proprio in quegli

anni. Grazie alla disponibilità di questa macchina fu possibile realizzare le prime

applicazioni di Computer Music ove la produzione e l’elaborazione di suoni avveniva in

tempo reale.

Il DMX-1000 fu basato sulla più innovativa delle tecnologie di microcomputing allora

disponibili: il bit-slice AM29xx. Questa tecnologia, realizzata dall’Advanced Micro

Devices (AMD), oltre ad essere ultraveloce (tecnologia ECL), era anche modulare. La

CPU, cosiddetta slice, era a 4 bit, quindi molto piccola, ma componibile a piacere per

ottenere architetture di qualsiasi dimensione. Nel caso del DMX-1000 fu adottata

un’architettura a 16 bit (quattro slice da quattro bit) per soddisfare le esigenze

dell’elaborazione del segnale audio digitale di qualità professionale.* ;

Le CPU AM29xx adottavano, per la prima volta integrandola su chip, l’architettura

Harvard, cioè la completa separazione tra memoria di programma e memoria dati.

Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al

pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,

inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit

della TRW) e il convertitore analogico-digitale a 16 bit (Burr-Brown).

Nel DMX-1000 il parallelismo esecutivo (in modalità pipelining) era totale: l ’accesso alla

memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire

contemporaneamente, grazie alla istruzione a campi paralleli di cui disponeva questo

processore.



Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali (cont.)

27/01/2004 Copyright 2002-2003 207


La CPU AM29xx adottava, per la prima volta integrandola su chip, 1’ architettura

Harvard, cioè la completa separazione tra memoria di programma e memoria dati.

Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al

pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,

inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit

della TRW) e il convertitore analogico-digitale a 16 bit (Datel).

Nel DMX-1000 il parallelismo esecutivo (in modalità pipelining) era totale: l ’accesso alla

memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire

contemporaneamente, grazie alla istruzione (a 32 bit) a campi paralleli di cui disponeva

questo processore.

Grazie a queste soluzioni sia tecnologiche (microelettroniche) che d’architettura di

elaborazione, il DMX-1000 era in grado di implementare a 19,3 kHz di campionamento

uno dei seguenti gruppi di strumenti oppure una loro combinazione:

•24 oscillatori table look-up semplici

•16 oscillatori table look-up modulabili in ampiezza (AM)

•8 oscillatori modulabili in frequenza (FM)

•20 filtri del primo ordine• 10 filtri del secondo ordine

•30 generatori di rumore bianco

Un vero portento nell’era dei microprocessori a 8 bit (Intel 8080)!!!



3.******ÇQt*T*QV • v / » n '. W A v /

•V.V •>%W /A


* 1 . 1

t v P . ^ r* I I I ^ , a ä

1 2 - b it M u l ti p li e r- A c c u m u l a to r

27/01/2004 Copyright 2002-2003


• w . v - 4 * »# W V A ' V , V A %V * . w w * . t ~^ " • 1

TOC***MCU

^ ----- O OUTrw « M

• • •' A M A W J P * M W • • * * / * « W - »v * a f M * *

V , > w * * r * ■ I

. . . . . ^ M v m W . w X

Il DMX-1000, dal punto di vista dell’architettura dei sistemi digitai audio, era innovativo

sia per l’adozione dell’architettura Harvard (adottando la tecnologia bit-slice AM2910)

per implementare il pipelining esecutivo delle istruzioni, sia per l’adozionedell’architettura MAC (Multiply-Accumulate) per implementare il pipelining esecutivo

sui dati (adottando il moltiplicatore-accumulatore TRW).

In figura è riportata un’immagine del chip MAC della TRW in package DIP (Dual-In-

Line) di ben 64 piedini, risultando uno dei componenti più complessi dell’intero DSP

DMX-1000.

Questo dispositivo, realizzato in tecnologia ECL, dissipava una enorme quantità di

potenza elettrica (dell’ordine dei Watt) e conseguentemente di calore, tanto da necessitare

di un voluminoso dissipatore che impedisse la distruzione termica del dispositivo.




x (n ) / A

/

/ V V

"'1

MEMORIA PROGRAMMA

(0) CLR ,X0,B„S azzera il puntatore ai parametri

(1)(2)

NXTMOVD ,„D,X

punta al successivocopia l’ampiezza da [0] a X

(3)(4)

NXTMOVD ,X1,B,D

punta al successivocarica SI in XI

(5) ADDDA X1,X1,B,D,WY somma SI a Phase e memorizza in Phase, mette in Y

(6)(7)

NOPMOVD ,„N,DAC

aspetta il risultato dal moltiplicatoretrasferisce il risultato della moltiplicazione al DAC

MEM ORIA DATI

[0] Ampiezza ; controllo ampiezza

m SI 1

fl; controllo frequenza

[2] Fase ; fase dell’oscillatore

27/01/2004 Copyright 2002-2003

Prof. Mario Maicangi

209

Grazie al pipelining esecutivo, il DMX 1000 consentiva di implementare con

poche istruzioni generatori o modificatori digitali di segnale audio. In questoesempio (oscillatore a rampa lineare controllabile in frequenza, ampiezza e fase),

è evidente il considerevole parallelismo che, nell’istruzione (5) si evidenzia al

massimo livello (somma, trasferimento in memoria e moltiplicazione).

Ogni istruzione necessita di un solo ciclo istruzione per essere eseguita, quindi,

questa codifica dell’oscillatore a rampa (dente di sega) sono necessari 7 cicli

istruzione per produrre un campione di segnale.

Fissata la frequenza di campionamento e la frequenza di clock del processore,

dividendo la seconda per la prima, è possibile ricavare il numero massimo digeneratori di questo tipo eseguibili in tempo reale da parte di questo processore

(circa 50).



Architetture DSP per l’audioLimitazioni dell’architettura Von Neuman

Un solo bus per accedere alla memoria dati e di programma

Microcode

Sequencer

Microcode

ROM

Bus Indirizzi

Bus Dati

Registri ALU

Sequenza di programma

Memoria

Dati/Programma

Fetch Decodifica Fetch Esecuzione Fetch

istruzione istruzione operando operazione operando

Ciclo istruzione

Più cicli di clock per una istruzione

27/01/2004 Copyright 2002-2003


210

Un processore tradizionale (architettura Von Neuman) non è in grado di

eseguire algoritmi di elaborazione numerica dei segnali in tempo-reale in quantonon è ottimizzato relativamente alla esecuzione veloce di operazioni MAC

(Moltiplicazione e Somma/Accumulo).

La limitazione fondamentale dell’architettura Von Neuman, tipica dei processori

utilizzati nelle applicazioni gestionali o non real-time (ad esempio il Personal

Computer) è nel bus unico attraverso cui va condiviso l’accesso alla memoria sia

per le informazioni di programma, sia per le informazioni dati.

Altre limitazioni riguardano lo scarso parallelismo interno essendo stata

privilegiata in tali processori la scelta del set istruzioni esteso (CISC).



Sequenza dì

programma

in pipelining

Architetture DSP per l’audioVantaggi dell’architettura Harvard

Un bus per acced ere alla memoria programmi

Memoria

Programma

Memoria

Dati

Un bus per accedere alla memoria dati

FI : Fetch Istruzione

DI : Decodifica Istruzione

FO : Fetch Operandi EO : Esecuzione Operandi

▼ Is truzioni

27/01/2004 Copyright 2002-2003


211

L’architettura Harvard, tenendo separato il bus di accesso alla memoria di programma da quello di accesso alla memoria di dati, consente di accelerarenotevolmente il processo di elaborazione eliminando i tempi morti legati

all’attesa di risorse condivise (il bus).

La separazione del bus dati da quello di programma consente di realizzare ilcosiddetto pipelining, ovvero una sorta di parallelizzazione della fase di accessoalle istruzioni con quella di accesso ai dati, ottenendo idealmente il raddoppiodella velocità di elaborazione a parità di clock.

I DSP (Digital Signal Processor) si basano sull’architettura Harvard oltre adaltre soluzioni molto sofisticate di architettura d’elaborazione allo scopo di

minimizzare il tempo di calcolo necessario al completamento di un algoritmo di

elaborazione numerica del segnale.I DSP sono anche macchine RISC (Reduced Istruction Set Computer), quindi

capaci di eseguire tutte o quasi le istruzioni in un solo ciclo istruzione (due ciclidi clock (x2) o eventualmente anche in un solo ciclo di clock (xl)).

L’area di silicio risparmiata grazie al set ridotto di istruzioni è impiegata per

portare il parallelismo esecutivo alle estreme conseguenze, ovvero una interaMAC eseguita in un solo ciclo istruzione, incluse tutte le operazioni connesse,come il load e lo store degli operandi e l’aggiomamento degli indirizzi di

memoria per l’accesso ai dati dell’operazione, ecc.



Architetture DSP per l’audioMotorola DSP56300

>¿0*1h »o*

6ÇIIntonaco

£551*w*d&c<*

Peripherale «pan al o« Area

SiîTchorvicîOMA Unti

Extwaa»Bu**«£*»<*««4

ICentri

2 4 - B l t

3PW300C ore

BOOttSf

Coftì«*

M*rrîc*y

exTAI&00fftf*Ç rtro*UM

> W ^ 1 M « *• Pror vm| |Doc**)*

CkiCkCancro io? FrçgiSm P/ùqrhm| Aderta»,G#riG*‘tìrtc«r

24*2**6*'*$$-*>*JMCTvmò -5&-b»i J'TAO

CdAftJttcr r hii tkw ì sa w

MOODrHKüOMttMÌMS*MOOA’inoX


^ ì.’vi ___

^ r S i WÄK*4CS>ftm 24 XOmtft I VpAtA

or RAM RAM(3Û7 2 4* nd 2 0 4 * * 2 4 \ i0A* A 24

ÈnntrucLfcan ICacao

§ « £ I B M :

IntorrxMDflt*8U$

S W i T O r i

PINIYr

Data

Motorola ha introdotto negli anni ’80 l’architettura DSP56000, un DSPmonolitico a 24 bit fixed-point, studiato appositamente per l’implementazioneefficiente di algoritmi di elaborazione numerica del segnale in tempo reale in

banda audio (fino a 20 kHz). In particolare, questa architettura, basata sulmodello computazionale Harvard, è stata ottimizzata per ottenere il massimo

parallelismo esecutivo per uno stadio di calcolo dell’algoritmo di filtraggio FIR:

ajX(n-i)

Apparentemente si tratta di un semplice prodotto. In realtà nasconde numeroseoperazioni:

•prodotto tra un coefficiente a., e un campione x(n-i)

•accumulo con i prodotti (i-1)-esimi

•fetch di un nuovo coefficiente e un nuovo campione per (i+l)-esimi prodotti

•aggiornamento dei puntatori di accesso ai coefficienti e ai campioni

•controllo del possibile overflow (aritmetica di saturazione)

•controllo del possible underflow aritmetico

•altre operazioni di controllo numerico (arrotondamento, scaling, ecc.).



Architetture DSP per l’audioMotorola DSP56300 (cont.)

ki5lnic*ion

1024 24\Peripheral

Exp* h«fo n Aree

Äc*Jrt*UÜ a n o t e H o o

Unii

S*XCh»JV*Ç<*>MA Unii

24-Blt

SP3O3Ô0Cor® C on t/ C fi -Cftcr.«

C e n i m i

Intorno*Oft«6m»

seifen i M*rrxx»y

EXT At

C>C#Aöen***** : Pro«««; ; v,ZÒ>wJIntsrrwl W~*k Dea**»Cs««««« *

■ , PtüäMm,!-* ! Add.**»

Çâ m£$K» 34 * :Î4 •*■5« '•<•'A-** MAC

Two 5®>bii A«r«>Trolraîeni5®bil BiiwWSMfcM

JTJKt

mod STrooMOfXvTfiöfiMODULSMOOArthÜÄ

t i r — 1 —

Tnpi* HOU ess» 3C1 TVnor Ww fiw*

h m

M orto#

XAO ¡1 FAB iti

M f É •» A A A * « . a

h$S£TPINIT3ÌMT


Tutte queste operazioni, per operare in tempo reale, devono essere eseguite in unsolo ciclo di clock. L’architettura DSP56000 realizzava in tal modo, oltre al parallelismo esecutivo delle istruzioni, anche un elevato parallelismo esecutivosui dati, sempre in pipelining. In particolare l’architettura DSP56000implementava in pieno parallelismo:

•una doppia memoria dati (memoria X e memoria Y) con triplo bus di accesso parallelo (bus x, bus y e global bus)

•un doppio accumulatore a 56 bit

•una unità MAC (Multiply-ACcumulate)

•una unità aritmetica di indirizzamento (ARU)

•altre unità di controllo (controllo della saturazione, scaling automatico, ecc.).

L’architettura DSP56000 consentiva dunque di implementare una TAP di filtro

FIR con una sola istruzione (due cicli di clock), ottenendo quindi la massima prestazione possibile da una macchina Harvard.

L’evoluzione dell’architettura DSP56000 trova oggi la sua massima realizzazionenell’architettura DSP56300. Questo, mantenendo tutte le caratteristiche originariedel DSP56000, ha introdotto alcuni nuovi elementi di architettura di elaborazionee alcune importanti innovazioni tecnologiche come l’esecuzione delle istruzioniin un solo ciclo di clock (xl), rispetto all’architettura precedente che richiedevadue cicli di clock per istruzione (x2).




Operation

Instruction Cycle

1 2 3 4 5 6 7 8 9 10 11

Fetch 1 n1 n2 n3 n3e n4 n5 n6 07 n8 n9 nIO

Fetch 2 n1 n2 n3 n3e n4 05 06 07 n8 n9

Decode n1 n2 n3 n3e n4 o5 06 07 08

Address Gen 1 r t f n2 r>3 n3e n4 n5 06 n7

Address Gen 2 n l n2 03 rt3e n4 ri5 n6

Execute 1 n1 n2 n3 o3e 0 4 n5

Execute 2 n1 n2 n3 n3e n4

27/01/2004 Copyright 2002-2003


214

Il pipelining esecutivo delle istruzioni nell’architettura DSP56300 è stato portato

a 7 stadi (dai 3 stadi di pipelining dell’architettura 56000).

In stato di full-pipeline, l’architettura DSP56300 esegue l’equivalente di 7

istruzioni RISC in parallelo.




PipelineStage

Description of Pipeline Stage

PreFetch-l • Address generation for P rogram Fetch♦Increment PC

PreFetch-ll • Instruction word read from memory

Decode • Instruction Decode

Address Gen-I •Address generation for Data Load/Store operations

Address Gen-I 1 •Address pointer update

Execute-1 •Read source operands to Multiplier and Adder• Read source register for memory store operations•Multiply• Write destination register for memory load operations

Execute-Il * Read source operands for Adder if written by previous ALU operation•Add

f

•Write Adder results to the Adder destination operand• Write Multiplier results to the Multiplier destination operands

27/01/2004 Copyright 2002-2003 215


La fase di fetch delle istruzioni è stata scomposta in due fasi indipendenti in

quanto richiedono l’accesso a risorse indipendenti.

Lo stesso è stato fatto per la generazione degli indirizzi e per l’esecuzione sui

dati.



Architetture D SP per l’audioMotorola DSP56300

M«/K0for

UHr»<wÿr**tiMiu fbf#*«JW0Octjtetot

fycaniMMi<>r«nun&jndrmUh?

AtamtutiMär Sh*fi«w

27/01/2004 Copyright 2002-2003


Fido

Per ottenere il parallelismo esecutivo sui dati, l’architettura DSP56300 ha

implementato un sofisticato sistema di pipelining delle unità esecutive, ALU,

Moltiplicatore e Barrei Shifter, tramite l’utilizzo di vari registri dati che si

interpongono tra le unità esecutive.




I registri dati dell’architettura DSP56300 sono dimensionati per operare in

aritmetica fixed-point a 24 bit, senza perdita di dati in underflow e in overflow. I

registri sono tutti a doppia precisione (48 bit) e in particolare l’accumulatore èdotato di 8 bit di estensione per contenere 1’overflow, per un totale di 56 bit (da

cui è stato derivato il nome di questa famiglia di DSP).




Signed Multiplication N x N 2N ~ 1Bits

Integer

1 s I I s _ l

1 Signed Multiplier 1

r s i r r - .MSP ! LSP » 1

♦ -4 2N - 1Product

* ------------------ Sign Extension

4 --------------------------2N Bits----------------------

Fractional

r S | 1 s □

1 Signed Multiplier 1

| S- MSP i LSP | ~5~1

4 — '' 2N - 1Product ■ I» T

Zero Fill — ■

^ ------------------------- 2N Bits----------------------* *

27/01/2004 Copyright 2002-2003 218

Prof. Mario Mal cangi

L’architettura DSP56300 è fixed-point, quindi consente di operare sui dati sia

interi, sia reali. I dati reali sono rappresentati e trattati in virgola fissa, in

notazione cosiddetta Q23 (23 bit di parte frazionaria e nessun bit di parte intera).




Low Address ALU -----

XAÖ VAÖ PA8

High Address ALU

NO MO

N1 M1

N2 M2

N3 M3

I Tnple Multiplexer jï

AddressALU

r EP r ~ 1 RO R4

R1 R5[/ R2 R6 \

R3 R7

Add re ss

ALU

M4 N4

M5 N5

M6 N6

M7 N7

27/01/2004 Copyright 2002-2003


219

Il DSP56300 dispone di una efficiente unità aritmetica di indirizzamento. Questa

è in grado di eseguire il calcolo contemporaneo di due indirizzi di fetch dei dati

dalle due memorie X e Y, oltre ad eseguire l’indirizzamento modulo (buffering

circolare) e l ’indirizzamento offset, oltre all’indirizzamento non lineare (bit

reversing) necessario per l’esecuzione efficiente deH’algoritmo FFT.



Architetture DSP per l’audioSaturazione e overflow

Segnale di Input Glpped Output

Senza saturazione Con la saturazione

A = +0.9999...

ì

|Errore| = 1.0 ¡Errorc| = 0.00..01


220

Nei sistemi di elaborazione analogici il segnale, quando supera la portata picco- picco di ampiezza del dispositivo cui è applicato, satura e produce una distorsionearmonica nel segnale processato.

Nei sistemi di elaborazione digitali del segnale, quando l’ampiezza dei campionisupera la capacità di rappresentazione numerica del numero di bit adottati dallaspecifica architettura di elaborazione, è prodotto un effetto chiamato overflow.Questo effetto, se non gestito, produce come risultato un ribaltamento in negativo(in positivo) di un numero positivo (negativo), cioè il wraparound dellarappresentazione numerica a precisione finita.

Per i segnali digitali il wraparound è un effetto disastroso in quanto introduce neisegnale una grave distorsione dell’informazione e un comportamento anomalo deisistemi cui il segnale distorto è applicato.

L’overflow numerico del segnale va opportunamente gestito in modo che non si produca mai (aumentando la capacità di rappresentazione numerica) oppure che si produca nella stessa maniera della saturazione analogica.

L’architettura DSP56300 implementa in hardware il controllo della

saturazione (aritmetica di saturazione).



Architetture DSP per l’audioCodifica DSP56300 Filtro FIR

y(n ) = b(pc(n)+ b ;x(n -l)+ byc(n-2)+ b3x(n-3)+ ...+ b ^ n - N - l )

C L R A

R E P # N - 1

M A C X 0 ,Y 0 ,A

M A C R X 0 .Y 0 ,A

X 0 , X : ( R 0 ) +

X : ( R 0 ) + , X 0

(RO)-

Y : ( R 4 ) + , Y 0

Y : ( R 4 ) + , Y 0

Xmem Ymem

O-N-l m — * x(n) «*----- R4 Aif,

Campionix(n-l) b,

Coefficienti

di x(n-2) b2 delsegnale filtro

x(n-3)

«• •

b3...

27/01/2004 Copyright 2002-2003


221

L’architettura DSP56300 consente di codificare i filtri FIR con il massimo

dell’efficienza. Il kernel del filtro FIR consiste infatti di una sola istruzione.Questa istruzione realizza completamente uno stadio computazionale del filtro

FIR (TAP), da eseguire tante volte quanti sono in totale gli stadi del filtro

(numero di TAP). Le altre istruzioni sono di inizializzazione (CLR A e REP #N-

1) o di completamento (MACR X0.Y0,A (R0)-) e sono eseguite

una sola volta.

; Salva il campione corrente acquisito dal D/A

CLR A X0,X:(R0)+ Y:(R4)+,Y0

; Ripete l’istruzione seguente N-l volteREP #N-1

; Kernel del fitro FIR

MAC X0,Y0,A X:(R0)+,X0 Y:(R4)+,Y0

; Il risultato finale in accumulatore viene arrotondato

; R0 viene posizionato sulla locazione del campione uscente

MACR X0.Y0,A (R0)-

I

Durante l’esecuzione del kernel del filtro FIR non vi è esecuzione di istruzioni di

controllo. Quindi, per un’esecuzione monoprocessore, l’implementazione di un

FIR sull’architettura DSP56300 raggiunge il massimo dell’efficienza.



Architetture DSP per l’audioCodifica DSP56300 Filtro IIR

y(n ) —2{a. [x(n)+ 2x(n-J)+ x(n-2)]+cy(n-l)~ by(n-2) }

M PY X 0, Y 1, A X :(R 0) + ,X 0 Y :(R 4) + ,Y 0

M A C X 0,Y 0,A X :(R 0) + ,X 0 Y :(R 4 ),Y 0

M AC XO,Y0,A X :(R 0) + ,X 0 Y :(R 5) + ,Y 0

M AC X 0 , Y 0 , A X :(R 0 )+ ,X 0 Y :(R 5 ),Y 0

M AC X 0 , Y 0 , A X :(R 0) + ,X 0 Y 1,Y :(R 4)

M OV E A ,X I A ,Y :(R 5)

M0=4

Coefficienti

delfiltro

RO

Xmem Ymem

► 2a x(n-l)

a x(n-2)

c y(n-l)-b

a y(n-2)

R4

R5

M4=l

Campionidi

segnale

M5=l

27/01/2004 Copyriglit 2002-2003


222

L’implementazione dei filtri IIR è tanto efficiente sull’architettura DSP56300

quanto quella dei filtri FIR. Ciò grazie soprattutto alla doppia memoria dati (X eY) e all’unità di indirizzamento. La codifica del filtro IIR consiste infatti di tante

istruzioni quante sono le moltiplicazioni presenti nel kernel del filtro più una

istruzione per trasferire il risultato finale y(n). Nessuna istruzione di controllo

viene utilizzata durante l’esecuzione del kernel del filtro.

; Y 1=x(n)

;X0=aMPY X0,Y1,A X:(R0)+,X0 Y:(R4)+,Y0 ;A=ax(n)

MAC X0,Y0,A X:(R0)+,X0 Y:(R4),Y0 ; A=A+2ax(n-1)

MAC X0,Y0,A X:(R0)+,X0 Y:(R5)+,Y0 ;A=A+ax(n-2)

MAC X0,Y0,A X:(R0)+,X0 Y:(R5),Y0 ; A=A+cy(n-1)

MAC X0,Y0,A X:(R0)+,X0 Y1,Y:(R4) ;A=A-by(n-2)

MOVE A,XI

A,Y :(R5) ;y(n)=2A (scaling-up attivo)

;X 1=y(n)

Anche in questo caso, considerando la soluzione monoprocessore, la codifica è la

più efficiente possibile.



Architetture DSP per l’audio16-falt data busses Texas Instrumets TMS320C55x

B Buw fCoefflclanfi

ReglMrelntygoQß

Shifter

Splittable

dràMGoda

CABEAB

5 Address BussesBAB

DAB

FAB 24-bit

'"ÂWeïïiô -


223

L’architettura Harvard consente di ottenere la massima efficienza esecutiva per

gli algoritmi di elaborazione del segnale in quanto ottimizzata per l’esecuzionedella somma di prodotti, base computazionale della maggior parte di talialgoritmi.

Qualche altro piccolo miglioramento è ancora ottenibile con l’architetturaHarvard, aumentando ulteriormente le unità esecutive parallele, come ad esempioha fatto Texas Instruments nell’architettura TMS320C55x.

Nell’architettura C55x, evoluzione dell’architettura C54x, all’unità MAC è stataaffiancata una unità ALU, rendendo disponibile cosi l’istruzione FIR, capace di

eseguire contemporaneamente una SOMMA, un PRODOTTO e unACCUMULO, in pratica, di eseguire due TAP di filtro FIR per ciclo istruzione.

Malgrado questi altri possibili miglioramenti, il livello di parallelismo esecutivodell’architettura Harward non può essere ragionevolmente spinto oltre.



Architetture DSP per l’audioAnalog Devices SHARC

C O RE P R O C E S S O R

rm in IWÄTHUCT10KC A C H E

* 3 I 4 M IT

i» * o ù * a .M

S S Q O t l t C t R

rw AODHCîia ou

OUA&DKES3SUS

BUSCONNECT!

(PMTi

P M DATA OUS

DM DATA BU

M U L I

DATAtieaiBVEH

P I L I

<PZ*\ tu * 4o-&»r

m \

f «ARREL1 fjtIPT«*

O U A L - P O R T E D S R AM

TW O mO tP C H O E K TD U A L - P O U T E D B L O C K *

P R O C E S S O R P O R TA D O f l D A T A

?R3 I/OFORTDATA ADDÌI

s

Il A

SE

Iz

»iz0 A Q R E L

«H iP TE f l

DATAneai5reo

PILEiPBy»

1» V4O-0IT HULT

AL U

rTH

rAl

J T A O

TE ST AI M U L A T I ON

E X T E R N A L

PORT

MuuiPMncESaonINTERFACE

I HO*r ftO*T j

fOPRECilCTEWa

< # r , M o * y m a p p k o )

C O N T R O L .

STATUS, ADATAÄUFFENS

DMACONTROLLER

/ 1 _K UNK POf»r»w

r /o PROCESSOR


224

La natura degli algoritmi di elaborazione numerica del segnale è ad elevato parallelismo. Tutte le TAP di un filtro FIR, ad esempio, possono essere eseguitecontemporaneamente in quanto sono indipendenti nei dati. Altri algoritmi, adesempio la FFT, evidenziano blocchi computazionali da eseguire in sequenza. I

blocchi computazionali sono ad elevato parallelismo interno.



Architetture DSP per l’audioAnalog Devices SHARC

AD SP 21160

Link

Port

ExternalPort

27/01/2004 Copyright 2002-2003


225

Il multiprocessing è una soluzione al problema dell’esecuzione efficiente degli

algoritmi di elaborazione numerica del segnale. Ad esempio, utilizzando due

processori DSP Harvard è possibile dimezzare il tempo di esecuzione di un

algoritmo codificato per un singolo DSP. Utilizzandone quattro è possibile

ridurre ad un quarto il tempo di esecuzione, e così via, fino ad utilizzare tanti

DSP in parallelo quanti sono i blocchi computazionali eseguibili

contemporaneamente.

La soluzione ottimale per il parallelismo esecutivo degli algoritmi di

elaborazione numerica del segnale è piuttosto complessa da realizzare e da

programmare. Tale soluzione è affrontabile in maniera ragionevole a tre livelli :

•A grana grossa (architettura multiprocessor)

•A grana media (architettura VLIW)

•A grana fine (architettura sistolica)

Analog Devices, con la realizzazione del DSP SHARC (Super Harvard

ARCchitecture), ha messo a disposizione una soluzione efficiente per

l’interconnessione parallela. Tale soluzione consiste di link seriali di

comunicazione dati che consentono a tali DSP di scambiare dati durante

l’esecuzione parallela di un algoritmo.



Architetture DSP per l’audioTexas Instrumets C6000

Memoria

Esterna

27/01/2004 Copyright 2002-2003

Prof. Mario Mal cangi

Periferiche

226

Le architetture multiprocessor richiedono la progettazione parallela degli

algoritmi di elaborazione numerica del segnale, evidenziando i parallelismi

esecutivi, procedendo all’allocazione dei processori, temporizzando, ecc.

L’architettura VLIW (Very Long Instruction Word) utilizza la soluzione

mutiprocessor (più unità di elaborazione in parallelo) gestendo internamente le

problematiche di scheduling delle istruzioni, di sincronizzazione, ecc.

L’architettura VLIW esegue N istruzioni in parallelo considerandole come

un’unica istruzione. Il programmatore scrive il codice come se si tratta di un

monoprocessore. L’architettura VLIW esegue come se si tratta di un

multiprocessore.

Texas Instruments ha realizzato il TMS320C6000, un processore RISC basato

sull’architettura di calcolo VLIW, ottimizzato per l’esecuzione di algoritmi di

elaborazione numerica del segnale.



Architetture DSP per l’audio

Register File ATexas Instrumets C6000

AO

A l

A2A3

A4A5

A6

A l

A15

32-bits

a

X .S

contatoreprodotto

M Y

Scapi]

&x[nj X

&Y••

.D

loop:

[A2]

Memoria Dati

40

Y = I a * xn Ann = 1

MVK .s 40, A2

L D H .D *A5++, A0

L D H .D *A6++, Al

MPY .M A0, Al, A3

ADD .L A4, A3, A4

SUB .L A2, 1, A2

B .S loop

S T H .D A4, *A7

27/01/2004 Copyright 2002-2003


227

La CPU del DSP C6000 consiste di quattro unità esecutive indipendenti:

*.S

*.L

'.D

Le quattro unità esecutive utilizzano un set di 16 registri di uso generale per i dati

e gli indirizzi.




Register File A

AO

Al

A2

A3

A4

A15

27/01/2004

Register File B

Copyright 2002-2003


BO

B1

B2

B3

B4

B15

228

La struttura di elaborazione è completamente duplicata. La memoria dati è

condivisa. Il set dei 16 registri è duplicato, quindi ad uso esclusivo delle singole

strutture di elaborazione.




Tipologia Numero cicli Cicli di attesa

Istruzionesingolo ciclo

Uno Zero

[IMPY Due Uno

[Load

i-

Cinque Quattro

[Branch Sei Cinque

27/01/2004 Copyright 2002-2003 229


Il DSP ad architettura VLIW C6000 è fondamentalmente di tipo RISC, quindi la

maggior parte delle istruzioni richiede un solo ciclo istruzione econseguentemente nessun ciclo di attesa delle risorse.

Fanno eccezione solo l’istruzione IMPY (Moltiplicazione Intera) che necessita di

un ciclo di attesa, l’istruzione LOAD che ne richiede 4 e l’istruzione BRANCH

che ne richiede cinque.




ProgramFetch

PG PS PW PR

(1) (2) (3) (4)

Decode

DP DC

(5) (6)

Execute

E l E2 E3 E4 E5 E6

(7) (8) (9) (10) (11) (12)

Stati di attesa per i risultati ritardati

27/01/2004 Copyright 2002-2003


230

Il pipelining esecutivo delle istruzioni è molto esteso nell’architettura C6000.

La fase di fetch dell’istruzione è suddivisa in quattro fasi indipendenti, tutte

parallelizzabili in quanto richiedono risorse differenti e capaci di operare

indipendentemente in parallelo.

La fase di decodifica è scomposta in 2 sottofasi.

La fase di esecuzione è sudivisa in 6 sottofasi, in conseguenza del caso peggiore

di esecuzione delle istruzioni, cioè il BRANCH.



27/01/2004


f ^ k 'Wlfo

* >

_______

• t / T l T Ì n - * : . '

rSSzP a LÌ I v . U\

.DIT MA ♦Mi1 l'ì

NO P

1 ' M 1

1* A

Wl(l _ ____

■

• figli

T T

faii!

ncuu’uqi, IÙ*'rm

HOT «

DI A4,*A7

Copyright 2002-2003 231Prof. Mario Malcangi

Un filtro FIR, codificato per un’architettura VLIW C6000, richiede in totale 18istruzioni, di cui 11 nel ciclo.




Codice

L’architettura VLIW C6000 esegue contemporaneamente 8 istruzioni semplici

per volta. Ciò viene ottenuto estraendo ed assemblando pacchetti di 8 istruzionida 32 bit in un’unica istruzione da 256 bit.




External

Interface

Il bus istruzioni è quindi ampio 256 bit, rendendo così possibile il fetch di una

istruzione VLIW con un solo accesso alla memoria di programma.




DMA

Serial Port

Memoria«

I •

Esterna

Host Port

Boot Load

Timers

Pwr DownControl Regs

D (32)

11

y EMIF

.DI ,D2

.MI .M2

.LI .L2

.SI .S2

27/01/2004 Copyright 2002-2003 234


Come nell’architettura Harvard, l’architettura C6000 tiene separata la memoriadati dalla memoria di programma.



Architetture DSP per l ’audioTexas Instrumets C6000

Sequenziale

27/01/2004 Copyright 2002-2003


CompletamenteParallelo

Una sequenza di programma può essere eseguita con totale parallelismo se

vengono sfruttate opportunamente le risorse del processore.

Una singola unità esecutiva impone una notevole limitazione al parallelismo

quando sono da eseguire istruzioni che accedono alla stessa risorsa. Ad esempio,

due somme di seguito non possono essere eseguite contemporaneamente in

quanto entrambe richiedono l’ALU (.L unii), ma se si dispone di due ALU

indipendenti (.LI e 1,2), allora è possibile eseguire in parallelo le due operazioni,

quindi in metà tempo.

L’esecuzione completamente parellela di 8 istruzioni in una architettura WLIV

come quella C6000 equivale all’esecuzione di una sola istruzione di

un’architettura Harvard o RISC.



Architetture DSP per l’audioSTMicroelectronics Nomadik

G PIO x76Timers

Watchdog

MART x2

MSP

(AC97J2S.S P\ )MMMMàBflInterrupt

Controller

Bridge

Color LCD Ctrl Display I/F

Camera U f BAM/ROM

Secured16 Channel

DMA Ctrl

I2C x2Bridge

Video Smart

Accelerator Audio Smart

Accelerator

27/01/2004 Copyright 2002-2003


236

La piattaforma multimédia-computing Nomadik di STMicroelectronics è

un’architettura di elaborazione distribuita che utilizza processori di segnale

specializzati e un processore RISC ARM926E-JS per supportare in manieraefficiente le applicazioni multimedia (audio-video).

Il processore ARM926EJ-S svolge la funzione di CPU host per l’intera

piattaforma di computing multimedia. Si tratta di una CPU RISC a 32 bit

operante a 350 MHz in tecnologia CMOS 0,13 micron. Questo core include una

memory management unit (MMU), 32 kbyte di cache istruzioni, 16 kbyte di

cache dati, un moltiplicatore 16x32 bit per eseguire in un solo ciclo istruzione le

operazioni MAC.

L’istruzione MAC singolo ciclo, e una serie di altre estensioni DSP, consentono aquesto processore RISC di eseguire abbastanza efficientemente anche algoritmi

DSP di piccola e media complessità computazionale.

La piattaforma Nomadik include due acceleratori computazionali di natura DSP,

uno per la componente applicativa digitai audio, l’altra per la componente

applicativa digitai video.

L’acceleratore audio è un DSP completamente programmabile in C, mentre

l’acceleratore video è una soluzione mista hardware-software. Questi acceleratori

consentono di eseguire ad altissima velocità la generazione e la registrazionevideo consumando pochissima potenza elettrica, oltre a eseguire applicazioni

come il content playback e la comunicazione audiovisiva bidirezionale.

L’accesso alla memoria di questi acceleratori computazionali avviene tramite

DMA, quindi non penalizzano l’operatività della CPU RISC.




MMDSP+Instruction

RAMSlave AHB

_____________________ _____________________________________

(P icture Input

Formating)

(Picture Post

Processing)

(VideoCodec Unit)

Master

AHB

u W I t f

U l 1I I •m ai

111 c u l l i !It

Host Data

Bus

CCP/CCIR656

Video l/F

fv Accelerator Data Bus

27/01/2004- Copyright 2002-2003


237

La minimizzazione della memoria è l’obiettivo primario nella realizzazione del

processore video. Nel caso del processore video integrato nella piattaforma Nomadik si utilizzano solo 48 kbyte di memoria interna SRAM per il trame-

grabbing e la finestra di ricerca, contro i 1200 kbyte richiesti normalmente.

Oltre alla data RAM, il processore video dispone della istruction RAM e del core

VLIW MMDSP+ (Multi-Media DSP Plus) operante a 200 MHz, con un solo

ciclo di clock per istruzione e doppia modalità computazionale (fixed-point a

16/24 bit e floating-point a 32 bit).

Operatori hardwired vengono utilizzati congiuntamente al core MMDSP+ per

garantire le prestazioni di elaborazione digitale dell’informazione video intermini deterministici.



Architetture D SP per l’audioSTMicroelectronics Nomadik

Slave AHB

ARMDMA

l/F

.......

l-Cache

DMA

XD Bus

DMA

Master AHB

. . . . I . l l i l ,

238

L’acceleratore audio integra MMDSP+. Questo esegue le funzioni codificate in

una libreria digitai audio software (MP3, MIDI, SRS, WOW, ecc.).



27/01/2004


Parlphorab

Accelerator*

Physical DriversPhysical te Driver«

«HI

CommonMCU Cora

' *! [Irti- - ¡J f], f »¿¿I

»peripherals«ulti media pertetberefa

i u . A l J t r -

v . v .

feliii

Tkt ’■

1 im a s r i r i T i

* •Btfr

Copyright 2002-2003 239


STMicroelectronics e Texas Instruments hanno attuato una iniziativa congiunta

per la creazione di uno standard di interfaccia hardware e software chiamataOMAPI (Open Mobile Application Processor Interface). Questa interfaccia vieneadottata dalla piattaforma Nomadik allo scopo di facilitare nello sviluppo di

applicazioni audio/video di natura mobile, quindi con stringenti requisiti dicompattezza dell’applicazione finale.

Questo standard di interfaccia consente di mappare la parte hardware attraverso

uno strato di astrazione software in modo che l’applicazione finale non debba

eseguire chiamate dirette ad uno specifico sistema operativo.



27/01/2004 Copyright 2002-2003 241


[AA.W. 96] Standards in Computer Generated Music, multiplatform mixed mode CD-

ROM (Macintosh, Windows, Unix + CD-DA tracks), G. Haus & L Pighi Editors,

IEEE Computer Society Press, 1996.

[Abramowitz 65] Abramowitz - “Handbook of mathematical functions”, DoverPublications, New York, 1965.

[Jayant 97] N. Jayant - “Signal Compression: Coding of speech, audio, text, image and

video”, World Scientific Publishing, Singapore, 1997.

[Malcangi 03] M. Malcangi - “Elaborazione Numerica del Segnale - Digital Signal

Processing: teoria e pratica”, Ed. Libreria CLUP, Milano 2003.

[Moorer 75a] J. A. Moorer- “On the segmentation and analysis of continuous musical

sound by digital computer”, Standford University, report number STAN-M-3.

[Moorer 75b] J. A. Moorer - “The synthesis of complex audio spectra by means ofdiscrete summation formulae”, Standford University, report number STAN-M-5.

[Moorer 77] A. Moorer - “Signal Processing aspects of computer music - A survey”,

Computer Music Journal, February, 1977.

[Olson 67] H. F. Olson - “Music, physics and engineering”, Dover Publications, New

York, 1967.

[O’Shaughnessy 87] D. O’Shaughnessy - “Speech sommunication - Human and

machine”, Addison-Wesley, Reading (MA), 1987.

[Watkinson 01] J. Watkinson - “The art of digital audio”, Focal Press, Oxford (MA),

2001.



Mario Malcangi (www.dico.unimi.it), laureato in Ingegneria Elettronica presso il Politecnico di

Milano, è docente presso il DICo (Dipartimento di Informatica e Comunicazione) delPIJniversità

degli Studi di Milano (www.dico.ummi.it),

Dal 1980 è attivo nella ricerca finalizzata a IP applicazióne della metodologia delPelaborazioneT - •

numerica del segnale (digitai signal processing) in ambito industriale, con particolare attenzione

all’audio e alla voce.^ « » • • • • • • *

Negli anni ’90 ha esteso l’attività di ricerca alle metodologie sofi computing (reti neurali, logicafiizzy e algoritmi genetici) per affrontare problematiche di natura non lineare, soprattutto per

applicazioni di riconoscimento di pattern.

Campi di competenza sono Paudio digitale, P.elaborazione del segnale vocale e la biometrica.

E’ responsabile del laboratorio DSP&RTS (Digital Signal Processing & Real-Time Systems -

www.dsp-rts.dico.unimi.it) e delle attività digitai audio del LIM (Laboratorio di Informatica

http://www.dico.unimi.it/

http://www.dico.ummi.it/

http://www.dsp-rts.dico.unimi.it/

http://www.dsp-rts.dico.unimi.it/

http://www.dico.ummi.it/

http://www.dico.unimi.it/

Malcangi - Informatica applicata al suono OCR.pdf

Documents

Transcript of Malcangi - Informatica applicata al suono OCR.pdf