Malcangi - Informatica applicata al suono OCR.pdf
Transcript of Malcangi - Informatica applicata al suono OCR.pdf
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 1/241
al Suono
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 2/241
Altri libri della collana:
M. Malcangi - “Elaborazione Numerica del segnale - Digital Signal Processing:
teoria e pratica”
k
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 3/241
Informatica Applicata al SuonoIndice
ì.2.
3.
4.5.
6.
7.
8.
9.
10.11.12.
..............................................................5
Fondamenti di acustica........................... 7
Fondamenti di psicoacustica................... 25
Digitalizzazione del suono....................... 47
Analisi del suono....................................... 65
Modifica del suono................ 99
Sintesi del suono........................................ 137
Analisi e sintesi della voce............ .......... 161
Compressione del suono......................... 17 5
Spazializzazione del suono...................... 19 5
Architetture DSP per l’audio.................. 205
Bibliografia................................................
241
Prof. Mario Malcangi
malcangi@dico. unimi. it
Prefazione
Il contenuto di questo corso è il risultato della sintesi di numerose argomentazioni,distribuite su altrettanto numerose pubblicazioni, relative alle molteplici discipline che
della problematica dell’elaborazione dell’informazione delconcorrono alla
segnale audio (suono): matematica, teoria dei segnali, acustica e psicoacustica, teoria dei
sistemi, elaborazione numerica dei segnali, architetture speciali di elaborazione del
segnale numerico, ecc. Rimando quindi ai riferimenti in bibliografia per un
approfondimento relativo ai fondamenti delle suddette tematiche di base.
L’obiettivo del corso è di offrire allo studente le conoscenze necessarie e sufficienti per
affrontare la progettazione di applicazioni audio digitali (incluse le applicazioni vocali)
con un approccio di natura sistemistica, avvalendosi delle conoscenze informatiche,
nonché delle necessarie conoscenze matematiche e fisiche di base.
Algoritmi e modelli di elaborazione del segnale sono una importante componente di
conoscenza di base per chi deve affrontare lo studio dell’audio digitale. Queste
conoscenze devono essere completate sia dal punto di vista della specificità della natura
dell’audio digitale, sia esplorando le problematiche implementative.
Lo studio delle architetture di calcolo orientate aH’elaborazione numerica del segnale
(DSP) è un’altra importante componente di conoscenza di questo corso. L’audio digitale
implica un’attività di elaborazione numerica del segnale molto intensiva econseguentemente, la scelta della giusta architettura di calcolo numerico per realizzare
una specifica applicazione è una conoscenza che lo studente deve avere per essere
preparato a soddisfare le richieste applicative dell’industria dell’audio digitale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 4/241
;
\ '
i ■
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 5/241
Introduzione
00101001010001
00101001001010
00101000100101
01010001011101
10010100010010
Prof. Mario Malcangi
malcangi@flico. unimU t
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
IntroduzioneLa tecnologia audio originariamente è di natura analogica, in quanto analogica è la natura
del suono e dei suoi meccanismi naturali di produzione. La variazione di tensione
elettrica che viene prodotta in uscita da un microfono non è altro che un’analogia
elettronica della variazione di pressione delParia che caratterizza il suono che raggiunge
il microfono medesimo.
La tecnologia audio analogica, pur avendo raggiunto livelli di qualità sufficienti a
soddisfare le esigenze applicative professionali e di consumo, ha evidenziato notevoli
limiti applicativi, soprattutto nell’integrazione con altre tecnologie come lacomunicazione o l’automazione. La degradazione del segnale audio, ad esempio, non può
_ess.ere_adeguatamente controllata ne! dominio analogico,, quindi la comunicazione
dell’informazione audio diventa problematica con le grandi distanze.
La tecnologia audio digitale, grazie all’applicazione delle metodologie di elaborazione
numerica dell’informazione, ha consentito di superare queste limitazioni intrinseche
dell’elaborazione analogica del segnale audio, aprendo un ventaglio di applicazioni
virtualmente illimitato.
Le applicazioni della tecnologia audio digitale sono numerose e sempre più diffuse in uncotesto ove la tecnologia dell’informazione mette a disposizione piattaforme di
computing sempre più potenti e adatte a soddisfare esigenze applicative emergenti come
l’audio su Internet, le interfaccie uomo-macchina avanzate, i sistemi multimedia, i
dispositivi di comunicazione portatili, ecc.
Per approfondimenti: [Watkinson 01].
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 6/241
;r,i . -N. ^
V,
•« M * Ju w pW - Jp « * * p »»W1« *1»«' a ia * 1Ï" ■' ÍIV • ' °
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 7/241
Fondamenti di acustica
27/01/2004 • Copyright 2002-2003 7
Prof. Mario Malcangi
I suoni si manifestarla sotto forma di fenomeno acustico (meccanico). Tale
fenomeno è determinato dalla vibrazione ^ corpi nell* aria.II suono è il risultato della modifica dello stato di equilibrio dello stato gassoso
(aria) che caratterizza un ambiente (aperto o chiuso).
I principi di acustica descrivono la natura e le caratteristiche del suono
relativamente alle generazione e alla propagazione nello spazio.
La conoscenza di tali principi consente di modellizzare sistemi di produzionesintetica del suono intesa a simulare la generazione di suoni naturali (per esempio
un sistema di sintesi vocale) oppure di progettare strumenti per la produzione di
suoni non naturali (per esempio un pianoforte).
Sempre grazie alla conoscenza dei principi di acustica, è
l’effetto di propagazione del suono nello spa
naturali (ad esempi lleco) in ambienti ove il fenomeno non può manifestarsi
neturalmente, oppure progettare sistemi che consentono di produrre effetti dispazializzazione non ottenibili in natura.
Per approfondimenti: [Olson 67]
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 8/241
Fondamenti di acusticaNatura del suono
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
8
Il suono è il fenomeno di compressione e rarefazione che determina un’azione
co (ad esempio l’aria). Il suono è anche la
dalla percezione del fenomeno di compressione e
rarefazione dell’aria in prossimità dell’organo uditivo.
Il suono viene prodotto quando un oggetto meccanico si mette in movimento
determinando una modifica dello stato di quiete degli ambienti gassosi, fluidi o
liquidi in cui è immerso. In natura i suoni vengono prodotti da fenomeni tipici
dell’ambiente (ad esempio le foglie che messe in movimento dal vento urtano tra
loro e strisciano sul terreno).
I suoni possono essere anche prodotti da sistemi artificiali creati dall’unomo (ad
esempio il suono prodotto da un motore di automobile). Gli strumenti
sono ipiù importanti sistemi di produzione di suoni artificiali in quanto •-consentono di controllare in maniera quasi completa tutti i parametri acustici.— —rni mininmi mi mi ■■,,, ,i—m*M»**niit1fr'r‘ l'Il H»' ni mijniiifHiiitninÉMni ri -
fl ' ' '
I suoni sono parte integrante dell’ambiente entro cui viviamo, in parte graditi
(voce, musica,...), in parte utili (campanello, sirena, ecc.), in parte sgraditi
(rumori).
L’aspetto più importante del suono è la sua natura di segnale, cioè di
informazione acustica. L’informazione che caratterizza il suono è codificata
nella cosiddetta onda sonora.
L’onda sonora è il mezzo di trasporto dell’informazione acustica e consiste didi compressione e di rarefazione del mezzo trasmissivo in cui si propaga. Le
infinite modalità di conformazione dell’onda sonora consentono le altrettanto
infinite possibilità di produzione dei suoni.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 9/241
Fondamenti di acusticaParametri fisici del suono
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
Velocità di propagazione del suono
Il suono si propaga in un gas (ad esempio nell’aria) a una definita velocità.
Lunghezza d ’onda e velocità di propagazione
La velocità di propagazione di un’onda sonora può essere derivata dalla
lunghezza d’onda e dalla frequenza. La lunghezza d’onda di un suono è la
distanza che il suono percorre per completare un ciclo completo di compressione
e rarefazione. La frequenza è il numero di cicli al secondo che si osservano in un
punto determinato dello spazio (ad esempio il punto di ascolto).
I suoni si propagano a velocità differenti se caratterizzati da frequenze differenti.
Intensità sonora
L’onda sonora trasporta energia. Tale energia viene chiamata “intensità sonora”.
L’intensità di un campo sonoro è l ’energia trasmessa per unità di tempo in una
specifica direzione attraverso un’area unitaria normale a questa direzione.
DeciBel
Il suono ha una gamma di potenza o di intensità cosi ampia che risulta
conveniente utilizzare una scala di misura condensata.
Il Bel è l’unità base di suddivisione di una scala logaritmica che rappresenta il
rapporto tra due differenti misure. Il deciBel (dB) è un decimo di Bel.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 10/241
Fondamenti di acusticaEffetti della propagazione del suono
27/01/2004 Copyright 2002-2003 10
Prof. Mario Malcangi
La velocità del suono nell’aria dipende fondamentalmente dalla pressione, dalla
temperatura e dalla densità del gas entro cui si propaga. Data la natura fisica complessa
dei gas e dei solidi, il suono è soggetto a più o meno rilevanti effetti di distorsione
dell’informazione originaria che trasporta, tanto che al punto di ascolto può essere
percepita una informazione anche molto differente da quella originata alla sorgente.
Il suono è un processo di compressione e rarefazione del gas in cui si propaga (che da ora
in poi per semplicità chiamiamo aria). La compressione delfaria porta al suo
riscaldamento, mentre la rarefazione delfaria porta al suo raffreddamento. Dato che la
velocità di propagazione del suono nell’aria dipende dalla temperatura dell’aria stessa, ne
deriva un effetto di autodistorsione dal suono provocato dalla fase di compressione che
porta ad un aumento di velocità e alla fase di rarefazione che porta ad una diminuzione
della velocità. Ne consegue una distorsione della forma d’onda del suono, tanto maggiore
quanto maggiore è la sua intensità.
Questo fenomeno di distorsione si complica ulteriormente in rapporto alla complessitàdel suono. Le alte frequenze hanno una velocità leggermente superiore a quella delle
basse frequenze, quindi a lunga distanza si manifesta un fenomeno di distorsione del
rapporto di fase tra le componenti frequenziali, che porta conseguentemente ad una
distorsione della forma d’onda.
I fenomeni di distorsione dell’informazione audio dovute alla propagazione del suono
nell’aria, dal punto di vista strettamente della catena audio sono rigorosamente da evitare.
Dal punto di vista della percezione uditiva sono invece una importante componente
informativa che consente alla persona di dedurre informazioni di natura spaziale. Ad
esempio, il fatto che un applauso in una sala da concerto venga percepito come un
crepitio, è dovuto alla distorsione della forma d’onda del suono determinata dal rapportovelocità/intesità. Un altro effetto è quello della percezione della distanza della sorgente
fornita proprio dalla distorsione di fase.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 11/241
Fondamenti di acusticaPotenza e Intensità in dB
27/01/2004 • Copyright 2002-2003 11
Prof. Mario Malcangi
Potenza e intensità sonora sono parametri con una gamma di variabilitàestremamente ampia (approssimativamente 1:1.000.000 relativamente alla
percezione uditiva).
La rappresentazione in dB consente di comprimere la dinamica numerica della
misura in maniera tale da rendere più semplice la realizzazione della
strumentazione di misura e della rappresentazione grafica del suono (VU-meters,
equalizzatori grafici, ecc.).
La percezione uditiva del suono è di natura logaritmica, relativamente al livello di pressione sonora (SPL). Allo scopo di mettere in relazione la percezione
uditiva con le misure audio del livello del segnale audio misurato dalle
apparecchiature, è stata adottata per una misura logaritmica chiamata deciBel
(dB).
La misura dell’intensità può essere rappresentata in modalità relativa,
adimensionale e non lineare.
L’adimensionalità si ottiene mettendo in rapporto due misure omogenee tra loro
(cioè misurate con la stessa unità di misura).
La relatività si ottiene rapportando una misura generica ad una misura di
riferimento (ad esempio la massimma o la minima intensità udibile).
La non linearità si ottiene applicando una trasformazione non lineare (non
proporzionale) alla misura. Nel caso della misura in dB si utilizza la
trasformazione logaritmica in quanto di natura logaritmica è la percezione
dell’intensità.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 12/241
Fondamenti di acusticaDeciBel
Attenuazione
0dB
-6
-12
-18
-24
-30
EquaLfzzazione Amplificazione
+ 6dB = x 2
+12
+6-6dB = x 0.5
0dB
-6
-12
-18
+30
+24
+18
+12
+6
0dB
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
12
La misura in deciBel (dB) è la più importante tra le misure audio non lineari,
relative e adimensionali. La trasformazione non lineare si ottiene tramiteapplicazione della funzione logaritmo base 10.
La misura in dB può essere facilmente ricondotta alla misura lineare
considerando che il raddoppio di una misura è pari a +3 dB se questa riguarda la
potenza (P) oppure pari a + 6 dB se questa riguarda l’intensità (V). Viceversa, il
dimezzamento di una misura è pari a -3 dB se questa riguarda la potenza, oppure
pari a -6 dB se questa riguarda l’intensità.
Nella strumentazione elettronica che tratta segnali (amplificatori, registratori,
filtri, ecc.), la misura dell’intensità del segnale viene rappresentata in dB. E’importante osservare che 0 dB non significa intensità nulla, ma intensità pari al
riferimento.
La misura in dB è relativa al riferimento e conseguentemente si caratterizzano le-v - M[| — I I a 99 ^ 9 _ L w — i
differenti scale di misura dell’intensità (o della potenza):
•Amplificazione: è una scala di ampiezza in dB prevalentemente positiva; 0 dB
ha il significato di nessuna amplificazione;
•Attenuazione: è una scala di ampiezza in dB prevalentemente negativa; 0 dB ha
il significato di nessuna attenuazione;
•Equalizzazione: è una scala di ampiezza in dB sia positiva che negativa; 0 db ha
il significato di segnale non equalizzato;
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 13/241
Fondamenti di acusticaDecibel (cont.)
Sistema con
perdita
+6 dB
Sistema con
guadagno
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
13
Il riferimento nella misura in dB è implicito ma non omissibile, cioè deve essere
comunque noto a chi utilizza tale misura. In alcuni casi in cui il riferimento è
standard, questo viene evidenziato in modo che sia noto comunque.
Riferimento pari a 1 milliWatt su 600 Ohm: dB(m)
Riferimento pari a 1 Watt: dB(W)
Nelle misure audio, a differenza di quelle telecom (nel cui ambito è stata definita
la misura in dB), non vi è un’impedenza di riferimento non esist, quindi la misura
della potnza non ha senso. Conseguentemente i segnali audio vengono misurati intensione (Volts), utilizzando come riferimento 0,775 Volts, quindi le misure
vengono espresse in dB(u).
I sistemi audio possono operare sul segnale audio in ingresso in maniera neutra
(senza perdita, cioè senza attenuazione), oppure con perdita o guadagno.
segnale audio in uscita cumula tutti questi effetti in forma
Quando il segnale audio è misurato in dB, allora le perdite o i guadagni sul
segnale di ingresso vengono calcolati in termini additivi (in conseguenza della
proprità dei logaritmi: log (AxB) 0 log(A)+log(B)).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 14/241
Fondamenti di acusticaMisure acustiche
Prof. Mario Malcangi
Le misure acustiche sono intese alla valutazione quantitativa del livello di pressione
sonora (SPL). La misura viene eseguita in dB utilizzando come riferimento la pressione
0,00002 Pascals rms. In questo caso la misura in dB viene identificata come dB(SPL).
Quando le misure acustiche riguardano l’impressione soggettiva della percezione
dell’intensità sonora (per esempio nelle misure di qualificazione dei livelli di
inquinamento acustico), allora si utilizza un filtro di ponderazione prima di eseguire le
misure. Il filtro di ponderazione riproduce la risposta in frequenza dell’orecchio umano
(tipicamente più sensibile alle frequenze medie). Il filtraggio di ponderazione più comune
è quello cosiddetto “a pesatura A” (A-weighting), da cui deriva il termine dB(A).
Quando per le misure si utilizzano apparecchiature che possono evidenziare perdita di
intensità per inserzione (insertion loss), allora è necessario eseguire la calibrazione
della catena di misura eseguendo il cosiddetto “audio level metering”. L’aggiustamento
della catena di misura viene eseguito in modo che il segnale audio non subisca né perdita,
ne guadagno nell’attraversamento. Dato che è difficile che un sistema si comporti
uniformemente a tutte le frequenze, viene eseguita la calibrazione della catena di misura
in modo tale che applicato in ingresso un tono puro a 1000 Hz con intensità pari a 0
dB(u), questo risulti in uscita sempre a 0 dB(u), cioè senza perdita.
IVU (Volume Unit) meters sono gli strumenti di misura più comuni presenti sulle
apparecchiature audio (ad esempio i registratori a nastro magnetico) che consentono di
valutare visivamente se il segnale di ingresso arriva all’apparecchiatura senza perdita (o
guadagno). Questi non sono altro che voltmetri per corrente alternata (AC) con risposta
logaritmica. La risposta logaritmica comporta che la deflessione dell’indicatore (ago,
barra, ecc.) sia proporzionale al volume percepito. La posizione 0 dB di un VU meter
indica la condizione di assenza di perdita per inserzione, quindi la condizione ottimale di
misura.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 15/241
Fondamenti di acusticaTono puro
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
15
Il suono più semplice è il cosiddetto tono puro. Questo è un suono caratterizzato
da un’unica frequenza, quella determinata dalla durata di una completa
oscillazione (periodo).
Il tono puro non esiste come tale in natura. C’è un solo strumento, il diapason,
capace di produrre un tono quasi puro.
La forma d’onda del tono puro coincide con la funzione trigonometrica Asen(a),
cioè, la forma d’onda che si otterrebbe riportando su un piano cartesiano la
proiezione di un punto che mota a velocità costante su una circonferenza diraggio A. La velocità di rotazione co=a/t determina la frequenza di ripetizione del
ciclo oscillatorio (numero di periodi al secondo), considerando che co=2rtf.
Il tono puro può essere prodotto artificialmente da qualsiasi strumento capace di
generare una funzione sinusoidale. Il più comune degli strumenti è l’oscillatore
sinusoidale elettronico.
Il tono puro o sinusoidale ha un’importanza fondamentale nello studio
dell’acustica in quanto contiene in se stesso un’informazione frequenziale unica.
Per esempio, il tono puro a 1000 Hz di una specifica intensità (0 dB(u)) viene
utilizzato per calibrare la catena di registrazione o di misura fonica,
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 16/241
I segnali audio trasportano informazioni che possono essere visualizzate in forma diretta o
indiretta nel tempo o in alternativa nel dominio della frequenza.
Sia nel dominio temporale, sia nel dominio frequenziale, le informazioni del segnale
audio sono le stesse, cambia solo la forma di rappresentazione.Si definisce forma d’onda la variazione di ampiezza nel tempo caratteristica del
fenomeno acustico. Quella sinusoidale è ad esempio la forma d’onda caratteristica del
tono puro.
•L’oscillogramma è la rappresentazione grafica della forma d’onda nel dominio del
tempo.
•Lo spettrogramma è la rappresentazione grafica della forma d’onda nel dominio delle
frequenze.
<i* « r
I segnali audio si suddividono in periodici e aperiodici, in rapporto alla natura della
forma d’onda. Quando la forma d’onda è ripetitiva nel tempo, allora il segnale audio è di
natura periodica, altrimenti è di natura aperiodica. Il tono puro è un esempio di segnale
audio periodico.
Per i segnali periodici si definisce periodo (T) il tempo di ripetizione della forma d’onda.
II periodo è direttamente misurabile nel dominio del tempo. Il numero di periodi al
secondo (CPS) è la misura della velocità di ripetizione del segnale audio, cioè la sua
frequenza. La frequenza non è direttamente misurabile nel dominio del tempo, ma
indirettamente tramite la relazione F=l/T. La frequenza è invece direttamente misurabilenel dominio delle frequenze.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 17/241
Fondamenti di acusticaSuoni complessi
I suoni reali hanno forma d’onda variamente modulata in ampiezza. Qualsiasi formad’onda, in accordo con la teoria dell’analisi armonica di Fourier, è una composizione
lineare di toni puri di varia ampiezza, frequenza e fase.
I suoni complessi si suddividono in due categorie fondamentali:
•Suoni periodici
•Suoni aperiodici
I suoni periodici evidenziano una ripetitività della forma d’onda. Questa ripetitivitàidentifica il periodo, quindi la frequenza fondamentale (F0=l/T).
In accordo con la teoria dell’analisi armonica di Fourier, i suoni periodici sono
caratterizzati, oltre che dalla frequenza fondamemntale, anche da una ulteriore sequenza
di frequenze in rapporto armonico con la fondamentale (2,3,4, . . n volte la frequenza
fondamentale).
La sequenza di frequenze determinata dalla periodicità e dalla morfologia della forma
d’onda, porta alla rappresentazione nel dominio delle frequenze dei suoni periodici detta
uspettro armonico”.
I suoni aperiodici, non evidenziano periodicità nella forma d’onda, quindi non hanno una
frequenza fodamentale caratterizzante. Lo spettro non è dunque di natura armonica,
quindi le componenti frequenziali possono assumere qualsiasi valore diverso dalla
sequenza armonica.
I suoni periodici non esistono in natura come tali. Questi possono essere generati solo
artificialmente con apparecchiature elettroniche. In natura esistono comunque suoni
molto simili a quelli periodici, cioè quasi periodici (sono ad esempio quasi periodici i
fonemi che compongono le parole e i suoni della maggior parte degli strumenti musicali).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 18/241
Fondamenti di acusticaStrumenti di misura
Oscilloscopio FF -------------- r?-------------------- "— "—
___________________________________________________________________________
1 1..... .
____________________________
.
: • ^Y ' ' '*r T>'Vrf Jf i ’ "■ '1‘.'VfcXÌfl\ ‘‘i , ' y,' * " ________________ ;__________________________ S ______ — _____ i _ _____________________ _ —
Analizzatore di spettro
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
18
I segnali audio possono essere visualizzati nel dominio del tempo con svariate
tecniche di rappresentazione grafica. Le più efficaci e versatili sono quelle dinatura elettronica (in particolare quelle basate su computer).
Gli strumenti elettronici, in particolare quelli basati su computer, consentonoanche la rappresentazione grafica del segnale audio nel dominio delle frequenze.
La rappresentazione grafica del segnale audio consente la misura direttadell ’ informazione.
Nel dominio temporale, lo strumento principale di rappresentazione grafica emisura dell’informazione audio è l’oscilloscopio; nel dominio è l’analizzatore di spettro.
Entrambi questi strumenti sono utilizzati per lo sviluppo di applicazioni dielaborazione del segnale audio e sono disponibili in versione digitale sotto formadi applicativi software PC desktop opportunamente corredati di schede add-oncapaci di digitalizzare, elaborare e visualizzare in tempo reale il segnale.
MATLAB (Signal Processing Tool Box) e altri applicativi software consentonodi rappresentare graficamente il segnale, di misurarne le informazioni e diottenere rappresentazioni molto complesse come ad esempio quellatridimensionale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 19/241
L’informazione nei segnali audio è nella variazione d’ampiezza nel tempo della
forma d’onda. Tale informazione varia istante per istante ed è rappresentata
matematicamente come funzione continua del tempo (ampiezza istantanea):
Aj = A(t)
La rappresentazione deH’informazione di segnale richiede dunque la valutazione
di infiniti valori di ampiezza, uno per ogni istante di tempo.
Vi sono varie misure sintetiche dell’ampiezza di un segnale audio intese a fornireuna informazione finalizzata e sintetica:
•Ampiezza massima: ampiezza massima (positiva o negativa) raggiunta dal
segnale audio durante il periodo i misura;
•Ampiezza picco-picco: escursione massima di ampiezza raggiunta dal segnale
audio (massima dinamica) durante il periodo di misura;
•Ampiezza media: media temporale delle ampiezze istantanee del segnale
(offset) durante il periodo di misura;
•Ampiezza efficace (RMS): ampiezza effettiva, indice della potenza efficace del
segnale durante il periodo di misura.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 20/241
Fondamenti di acusticaParametri nel dominio della frequenza
A(t) = • sin(2 Tift+tp
f =irr Periodo
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
L’informazione audio è codificata in termini di variazione di ampiezza (del
parametro fisico) nel tempo. Il tempo (come anche lo spazio) è una variabileindipendente, e quindi poco c’è da dire a tale proposito.
La variazione di ampiezza nel tempo può essere misurata in termini di frequenza
e di fase.
La frequenza misura la rapidità di variazione dell’ampiezza nel tempo. Se la
variazione è rapida, la frequenza è alta, se la variazione è lenta, la frequenza è
bassa.
La frequenza è definita come numero di variazioni nel tempo e la sua misura è
l’Hertz (Hz), cioè il numero di variazioni al secondo. Ne consegue che la
variazione di ampiezza ha una durata T (Periodo) pari a: T=l/Frequenza.
Questa relazione lega la durata della variazione alla frequenza e viceversa:
Frequenza = 1/T.
L’unità di misura dell’ Hz è [sec'1].
Un’altra importante informazione indice della variabilità dell’ampiezza nel tempo
è la fase. La variazione di ampiezza del segnale audio evidenzia variazioni in
aumento (fase di compressione) e in diminuzione (fase di rarefazione)dell’ampiezza.
La fase è una infonnazione relativa alla variazione di ampiezza del segnale audio.
In particolare la fase iniziale indica, in quale stato di compressione o rarefazione
era il segnale audio all’inizio della sua generazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 21/241
Fondamenti di acusticaNatura frequenziale del suono
27/01 /2004 • Copyright 2002-2003 21
Prof. Mario Malcangi
L’informazione dei segnali audio è codificata in termini di variazione d ’ampiezza
nel tempo. Questa variazione porta alla determinazione della cosiddetta forma
d’onda.
La forma d’onda (e quindi l’informazione del segnale) è, in accordo con la teoria
armonica di Fourier, la sovrapposizione lineare (proporzionale) di segnali
elementari (toni puri sinusoidali) di varia frequenza, ampiezza e fase.
La distribuzione nello spazio frequenziale delle componenti sinusoidali per uno
specifico segnale audio porta alla definizione dello spettro.
L’intervallo di esistenza delle componenti sinusoidali determina la cosiddetta
banda frequenziale.
La differenza tra la massima frequenza e la minima frequenza del segnale
audio definisce la dimensione della banda frequenziale, cioè la larghezza di
banda.
Fondamentalmente, il segnale audio in generale ha una larghezza di banda
massima pari alla capacità massima (teorica) di percezione uditiva umana (da 16
a 16000 Hz).
La larghezza di banda di uno specifico segnale audio è strettamente legata alla
sua natura fisica. Ad esempio, i segnali audio vocali (parlato) si caratterizzano ad
esempio per una larghezza di banda stretta (da 300 a 3000 Hz), mentre i segnali
audio musicali si caratterizzano per una larghezza di banda larga (da 20 a 20000
Hz).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 22/241
Fondamenti di acusticaModello armonico di Fourier
A(+ r/?.)
/
Modello matematico del segnale audio
27/01 /2004 Copyright 2002-2003 22
Prof. Mario Malcangi*III
Il modello matematico, noto come Analisi Armonica di Fourier, è un importante
strumento di rappresentazione della natura informativa dei segnali con natura periodica o
quasi periodica. L’estensione dell’analisi armonica di Fourier, la Trasformata di Fourier, consente di ottenere la rappresentazione del segnale nel dominio frequenziae per
segnali di natura aperiodica e di generalizzare il concetto di frequenza in termini di
velocità di variazione dell’ampiezza del segnale.
I segnali audio sono variazioni di un parametro fisico (pressione deH’aria) rispetto ad un
altro parametro fisico indipendente (il tempo).
Dei segnali audio sarebbe virtualmente possibile fornire il modello matematico in termini
di funzione matematica che mette in relazione la variazione di ampiezza della pressione
dell’aria con il tempo:
A = f(t)
Tranne che in casi semplici, i suoni reali (voce, musica, rumori, ecc.) sono difficilmente
modellizzabili tramite una funzione matematica.4
II modello matematico è uno strumento utilissimo per l’elaborazione dell’informazione
del segnale audio. Purtroppo, tranne che in pochissimi casi, per la quasi totalità dei
segnali audio non è derivabile una funzione matematica rappresentativa.
Quando non è possibile ricavare la funzione matematica che rappresenta esattamente il
segnale audio si utilizzano tecniche che portano alla formulazione della funzione
matematica approssimata, ad esempio utilizzando l’approssimazione polinomiale.
Il modello armonico di Fourier è uno degli strumenti di modellazione matematica del
segnale audio più efficaci in quanto vicino sia alla natura fisica dei segnali audio e dei
relativi sistemi di elaborazione , sia al modello uditivo e percettivo dell’uomo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 23/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 24/241
*-• H
’ . »
\1 V f
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 25/241
Fondamenti di psicoacustica
27/01/2004’ Copyright 2002-2003 25
Prof. Mario Malcangi
L’orecchio umano è un sistema complesso di trasformazione del fenomeno
acustico in fenomeno percettivo. Il suo funzionamento è ampiamente non linearein quanto non esiste ima corrispondenza diretta o proporzionale tra i parametri
fisici del suono e le relative sensazioni percettive. Parametri fisici come la
frequenza e 1’ intensità, indipendenti tra loro nel dominio acustico, risultano
interdipendenti tra loro nel dominio della percezione acustica.
La psicoacustica tratta la relazione che lega il fenomeno acustico alla percezione
che ne deriva l’individuo. A differenza dei principi di acustica, i principi di
psicoacustica sono derivabili esclusivamente in termini di campionamentostatistico di un numero elevato di individui quando riferiscono in merito alla
sensazione percepita quando sono sottosti a determinati stimoli acustici.
Alla percezione acustica contribuiscono vari livelli di elaborazione del segnale
audio, nell’orecchio esterno e medio in termini esclusivamente meccanici,
nell’orecchio interno in termini elettrochimicomeccanici e sulla corteccia
cerebrale (area uditiva) in tennini elettrochimici. A queste trasformazioni di
natura fisiologiche del suono si aggiunge anche la componente psicologica e
culturale dell’individuo che inducono trasformazioni estremamente complesse
alla percezione uditiva.
La psicoacustica fornisce dunque importanti informazioni relativamente alla
relazione che lega il fenomeno acustico alla percezione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 26/241
Dall’acustica alla psicoacusticaI parametri del suono
Frequenza (Pitch)
.T I100
1000
10000 Hz
dB
120
90 -
60 -
30 -
0
Intensità (Loudness)
Forma d’onda (Timbro)
Durata
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
26
Il suono esiste nella dimensione fisica (acustica) e come tale ha caratteristiche fisiche
specifiche:
•Frequenza: numero di cicli (oscillazioni complete) per unità di tempo
•Intensità: energia trasmessa per unità di tempo in una specifica direzione
•Forma d’onda: struttura frequenziale del suono
•Durata: intervallo di tempo di persistenza del suono
•Dinamica: variazione dell’intensità del suono caratterizzata essenzialmente da tre fasi,
eventualmente ripetute più volte, l’attacco, la tenuta e il decadimento.
Il suono fisico è percepito dal sistema uditivo e da questo è condizionato. Il sistema di
percezione uditiva non è lineare, per cui non esiste una perfetta corrispondenza tra lanatura e l’entità dei parametri acustici e quelli percepiti attraverso il sistema uditivo. Per
questo motivo, relativamente alla percezione uditiva, è stato definito il modello
psicoacustico del suono. La psicoacustica, come l’acustica, studia e definisce i parametri
costitutivi del suono, dal punto di vista percettivo. I parametri del suono non sono stimati
tramite strumenti, come in acustica, ma tramite la valutazione soggettiva. La
pisicoacustica definisce quindi la relazione tra i parametri acustici del suono e come
questi (in media) sono percepiti dagli esseri umani. I parametri psicoacustici che
consentono di descrivere compiutamente un suono sono:
•Pitch: sensazione di altezza del suono legata alla frequenza
•Loudness: sensazione quantitativa del suono legata all’intensità
•Timbro: sensazione di identificazione della natura del suono legata alla forma d’onda
(struttura frequenziale)
•Durata-Dinamica: caratteristica percettiva che contribuisce all’identificazione del
timbro.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 27/241
Dall’acustica alla psicoacusticaI limiti della percezione uditiva
Gamma della percezione frequenziale
0 dB = 0,000204 dyne/cm2 (Pascal rms)
dB130
120
no
10090
80
70
60
50
40
30
20
IO> 0
Sirena a pochi metri di distanza
----------------------------- Soglia del dolore
Concerto rock
Concerto musica classica (fortissimo)
Cabina di un aereo
Conversazione vivace
Città di notte
Parlato sussurrato
Foglie che rotolano
--------------------------------- Soglia di udibilità
Gamma di percezione deirintcnsità
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
27
una
Il suono è un fenomeno acustico che esiste indipendentemente dall’uomo e dalla sua
capacità di percepirlo. La percezione uditiva del suono, oltre a comportare distorsioni
dell’informazione audio, ne limita il campo di esistenza in conseguenza della naturameccanica, biologica e neurale del sistema uditivo. I due parametri fondamentali del
suono, la frequenza e l’intensità, sono limitati entro una determinata gamma,
rispettivamente, di percezione della frequenza e di percezione dell’intensità.
La percezione della frequenza è mediamente compresa tra 16 e 16000 Hz.
La percezione delFintensità è compresa tra 0 e 120 dR.
In particolare, 0 dB corrisponde alla minima pressione acustica che produce
sensazione di intensità, pari a 0,000204 dyne/cm2.
Questi limiti di estensione del campo uditivo, tipici dell’udito normale (non patologico),implicano che non vi è alcuna percezione acustica al di fuori di tali limiti ma non
necessariamente che non esista il fenomeno acustico. Va osservato che la natura dei limiti
del campo uditivo frequenziale sono differenti da quelli della percezione delFintensità.
Mentre nel primo caso il superamento del limite superiore implica solo la scomparsa
della sensazione, nel secondo caso implica una intensa sensazione di dolore. Se il
fenomeno acustico di intensità superiore a 120 dB dura per un tempo limitato e non è
superiore di olre 20 dB a tale soglia, interviene un meccanismo di protezione dell’organo
uditivo (saturazione) che porta ad una sordità temporanea. Se il tempo di stimolo ad oltre
120 dB è prolungato nel tempo e soprattutto se supera molto tale soglia (oltre i 140 dB),allora l’organo uditivo subisce danni irreversibili che portano alla sordità permanente.
Oltre queste limitazioni di estensione della percezione dei parametri acustici, vi sono altre
limintazioni legate alla risoluzione e alla nrecisione di nercezione dei narametri acustici.
limitazioni
descritte di seguito.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 28/241
Fondamenti di psicoacusticaSistema uditivo
Corteccia cerebrale
Finestra
ovaleCanale
uditivo
Orecchio
medio
Orecchio
esterno
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
Padiglione
1l ‘‘M|l▼Ai| !Ili 1
Il !»•Hn 4é
Area uditiva
Fibre nervose
Frequenze (Hz)
<N^
Orecchio
interno
Il sistema uditivo è un meccanismo molto complesso capace di trasformare il suono in percezione uditiva.
Esso consiste di una parte di un sottosistema di natura prevalentemente trasduttiva (cioèdi trasformazione da segnale acustico a segnale elettrochimico), l’orecchio, e una parte dinatura neurale, la corteccia cerebrale, capace di trasformare le informazionielettrochimiche in sensazioni percettive acustiche di base (pitch, laudness, ecc.) ecomplesse (struttura musicale, parlato, ecc.).
L’orecchio convoglia le onde sonore attraverso la sezione esterna (orecchio esterno - padiglione e canale uditivo) portandole a sollecitare la membrana del timpano.
Dalla membrana del timpano inizia l’orecchio medio ove, un sistema di trasmissione
meccanico (catena degli ossicini - martello, incudine e staffa) porta la vibrazioneacustica alla finestra ovale.
La finestra ovale è l ’inizio dell’orecchio interno. Questo è costituito da vari organi, di cuila coclea è quella preposta alla trasformazione della vibrazione di natura meccanica inimpulsi elettrochimici che verranno inviati alla corteccia cerebrale attraverso il nervoacustico.
é
Sulla corteccia cerebrale vi sono le aree sensoriali, cioè aree neurali che si sonospecializzate (durante l’evoluzione biologica) nella trasformazione degli stimoli sensitiviin percezione. Si tratta di aree distinte, una per ogni tipo di sensazione sensoriale (visiva,
uditiva, olfattiva, tattile e gustativa). L’area sensoriale uditiva è dedicata allatrasformazione degli stimoli provenienti dall’organo uditivo attraverso le fibre nervose del nervo acustico in percezioni acustiche primarie. Altre aree della corteccia cerebralesono dedicate all’elaborazione di queste percezioni primarie ad alto livello. Ad esempio,l’area del parlato è dedicata alla trasformazione testo-voce, alla identificazione del
parlatore, alla comprensione del parlato, ecc.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 29/241
Fondamenti di psicoacusticaSistema uditivo (cont.)
Elico trema Membrana di Reissner
Membrana tettonaScala vestibolare
Scala media
Membrana basilare
Finestra ovale
Scala timpanica
Apice
16 Hz
Finestra rotonda Sviluppo della membrana basilare lungo la coclea
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
29
La coclea è un organo a forma di tubo avvolto a spirale, delimitato ad un estremo da due
membrane (la finestra ovale e la finestra rotonda) alla estremità basale (quella
collegata alla catena degli ossicini) e chiusa alPaltro estremo (apice).Per tutta la sua lunghezza la coclea è divisa in tre sezioni (scala vestiboli, scala media e
scala timpani) da due membrane, la membrana basilare e la membrana di Reissner.
La scala vestibuli e la scala timpani sono collegate tra loro all’estremità apicale della
coclea da una piccola apertura, Pelicotrema. Nella sezione intermedia (scala media) vi è
un’altra membrana (membrana tettoria) su cui sono impiantate le cellelule cibate, una
sorta di trasduttori microfonici. Il suono aereo proveniente dall’orecchi esterno,
trasformato in vibrazione meccanica nell’orecchio medio, si propaga nel fluido contenuto
nella coclea, inducendo vibrazioni della membrana basilare. La vibrazione della
membrana basilare è rilevata dall’organo del Corti. Questo si sviluppa per tutta la lunghezza della coclea. Nell’organo del Corti vi sono le cellule cibate, capaci sia di
generare che di rilevare le vivrazioni. operando la trasduzione da vibrazione meccanica a
sequenza di impulsi elettrochimici trasmessi alla corteccia cerebrale tramite le fibre del
nervo acustico. Ogni cellula cibata è collegata ad una fibra nervosa. La deflessione della
ciglia (una sorta di pelo) della cellula provoca l’attivazione della fibra nervosa ad essa
connessa producendo l’impulso che perviene ai neuroni della corteccia cerebrale. Le
cellule cibate sono distribuite per tutta la sua lunghezza della coclea (circa 35 mm) e sono
collegate a circa 4000 fibre nervose che si raccolgono in un fascio che costituisce il nervo
acustico (circa 1 mm di diametro). La distribuzione percettiva delle frequenze lungo lo
sviluppo della coclea (dalla finestra ovale alla fine) è logaritmica e decrescente da 16000
a 16 Hz circa. Il meccanismo di trasduzione della coclea è capace di distinguere circa
1500 frequenze separate, quindi è un sistema ad elevata risoluzione frequenziale. Sia la
frequenza che l’intensità sono trasdotte in forma non lineare (logaritmica).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 30/241
Fondamenti di psicoacusticaSistema uditivo (cont.)
27/01/2004 Copyright 2002-2003 30
Prof. Mario Malcangi
Il sistema uditivo è molto complesso in quanto preposto a svolgere svariate funzioni:
orientamento, identificazione delle sorgenti sonore, comprensione del parlato, finizione
della musica, ecc. Durante il processo evolutivo il sistema uditivo ha sviluppato la
struttura e la funzionalità necessaria a svolgere queste funzioni in maniera ottimale. La
duplicazione dell’apparato uditivo, oltre a soddisfare una esigenza di ridondanza, è
finalizzata alla percezione spaziale: data la distanza tra i due apparati uditivi e il diverso
posizionamento rispetto alla sorgente, il cervello riceve le necessarie informazioni per
localizzare la sorgente audio in termini di distanza e posizione. Le informazioni che
contribuiscono alla determinazione della distanza e della posizione della sorgente audio
sono la fase e la struttura frequenziale del suono. La distanza tra l’orecchio destro e
quello sinistro (una ventina di centimetri) implica che lo stesso suono perviene ad ogni
orecchio in tempi diversi, quindi con fase di oscillazione differente. Inoltre,
l’orientamento della testa rispetto alla sorgente consente di determinare la posizioneradiale della sorgente rispetto al punto di percezione (frontale, laterale, posteriore, ecc.).
L’orientamento della testa rispetto alla sorgente provoca un effetto di mascheramento,
tanto da modificare in maniera selettiva la struttura frequenziale del suono, in particolare
attenuando le alte frequenze. Il cervello elabora in maniera combinata le informazioni di
differenza di fase e di mascheramento selettivo delle alte frequenze, determinando in tal
modo l’esatta posizione spaziale della sorgente. Il ritardo di percezione tra le due
orecchie (Inter-Aural Delay, IAD) per una variazione di fase di 1 grado è di circa 10
microsecondi. Il più piccolo ritardo percepibile è di 6 microsecondi. I ritardi di fase sono
utili per la percezione spaziale solo alle basse frequenze, mentre il mascheramento è
efficace solo alle alte frequenze. La percezione spaziale funziona comunque bene su tuttoil campo uditivo grazie alla complessità dell’informazione audio (timbro e dinamica).
L’informazione che perviene al cervello è molto complessa essendo coinvolti centinaia di
recettori acustici che trasmettono, attraverso le fibre del nervo acustico, al cervello
informazioni differenziate tra orecchio destro e orecchio sinistro.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 31/241
Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch
Come già evidenziato nelle descrizione della fisiologia delPorecchio, la struttura della
coclea, in particolare della membrana basilare e dell’organo del Corti, è tale da consentirela percezione della frequenza. Il meccanismo di percezione della frequenza dei suono
tramite il sistema uditivo non è lineare ed è soggetto, a livello fisiologico, ad una serie di
limitazioni legate alla natura degli apparati ad essa preposti.
La membrana basilare, nel suo sviluppo inverso (dalla apice alla base), è l’equivalente di
un asse frequenziale a distribuzione logaritmica. Questa fisologica della membrana
basilare è tale da comportare una sensazione di crescita proporzionale della frequenza in
occorrenza del raddoppio fisico della stessa (ottava), in pratica, la distanza frequenziale
tra 220 e 440 Hz viene percepita uguale a quella tra 440 e 880 Hz oppure tra 1000 e 2000
Hz.
Un altro fattore che influenza la natura della percezione della frequenza è il meccanismo
stesso di eccitazione delle cellule cibate. La membrana basilare, quando viene eccitata da
un suono ad una certa frequenza, forma un inviluppo di vibrazioni nell’intorno della
effettiva frequenza del suono. Ciò significa che la singola frequenza attiva oltre alla
cellula cibata rivelatrice di quella frequenza, anche le cellule cibate limitrofe. La singola
frequenza produce a livello sensoriale uno stimolo frequenziale multiplo, che il cervello
elabora comunque come singola percezione frequenziale.
La non linerità della distribuzione frequenziale, il numero finito di recettori e la strutturaasimmetrica della membrana basilare sono i principali fattori che influenzano la natura
della percezione della frequenza e che determinano alcuni importanti caratteristiche
percettive come il mascheramento delle frequenze durante la percezione di strutture
frequenziali complesse.
Si definisce pitch (altezza) la sensazione uditiva che consente di assegnare ad un suono,
una posizione su una scala frequenziale (ad esempio quella musicale).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 32/241
Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch (cont.)
AF/F I l
5 0 1 0 0 1000 1 0 0 0 0
Frequenza (Hz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
32
Il limite inferiore di percezione del pich è la frequenza più bassa che fornisce al
soggetto la sensazione di percepire un tono. Tale limite è soggettivo e dipende
anche da altri fattori fisici oltre la frequenza, come l’intensità e la natura della
forma d’onda del suono (struttura ffequenziale).
In condizioni particolarmente favorevoli, alcuni individui sono riusciti a
percepire toni fino a 12 cicli al secondo (Hz).
Il limite superiore di percezione del pitch determina la massima frequenza
percepibile. Anche questo limite è di natura soggettivo e diminuisce al crescere
dell’età. All’età di 40 anni, senza aver subito particolari danni al sistema uditivo,
il limite massimo di percezione del pitch è di circa 15000 cicli al secondo (Hz).Un importante aspetto legato alla percezione del pitch è il livello di
discriminazione. Due toni frequenzialmente molto vicini tra loro non
necessariamente sono percepiti in forma distinta.4 « ?
Il test di discriminabilità del pitch viene eseguito generando due toni a frequenze
sufficientemente diverse tra loro da essere distintamente percepibili dal soggetto.'
La distanza ffequenziale viene gradualmente ridotta fino a quando il soggetto
riferisce di percepire un unico tono.
Il test di discriminabilità del pitch viene eseguito per tutte le frequenze e per varilivelli di intensità, determinando un diagramma che evidenzia la natura
psicoacutica della percezione del pitch. L’orecchio è maggiormente capace di
discriminare il pitch alle alte frequenze rispetto alle basse frequenze ( e
Biddulph, Journal o f Acoustical Socie ty o f America, Voi. n. 2, P ari 1, pa g.
275, 1931).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 33/241
-o‘IgCl,«§§:aO*5,
•cs<1>s
K *
§s
I
Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch (cont.)
14001
1200
1000
16 31 62 125 25 0 500 1000 2000 4000 8000 16000
Frequenza (Hz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangì
33
La maggiore discriminabilità del pitch alle alte frequenze rispetto alle basse
frequenze è anche evidenziata dal grafico cumulativo delle differenze di pitch
appena udibili: a circa 500 cicli al secondo la curva ha una crescita più rapida inquanto aumenta il numero di differenze appena percepibili.
Il totale delle differenze di pitch appena percepibili è circa 1400.
Considerando che gli intervalli di pitch della scala musicale sono solo 120, è
evidente che la musica tradizionale occidentale sfrutta pochissimo della capacità
percettiva dell’orecchio umano relativamente al pitch (Lewis, U niversity o f Jowa Studies in Ps ycio log y o f Music, voi. 4, 1937).
La discriminazione del pitch è discreta in quanto la quantità di cellule ciliate
distribuite lungo la membrana basilare è finita. Ciò non significa che sono
percepibili solo un numero finito di frequenze, ma che la variazione da un pitch
al successivo non è continua.
La maggiore discriminabilità del pitch tra 500 e 4000 Hz è dovuta allo sviluppo biologico dell’organo uditivo relativamente alla banda frequenziale di esistenza
del parlato.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 34/241
Fondamenti di psicoacusticaDiscriminazione della frequenza - Pitch (cont.)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
34
Un altro fattore che condiziona la percezione del pitch è la durata. Il sistema
uditivo necessita di una certa durata minima del tono perché sia percepito come
tale.Se la durata è inferire al minimo necessario, allora invece di percepire un tono
viene percepito un rumore vagamente somigliante a un tono. Per durate
brevissime la percezione è simile ad un click.
La durata minima di un tono, perché possa essere percepito come tale, dipende
dalla frequenza.
Osservando il grafico della minima durata del tono perché risulti percepibile il
pich, si evince che alle alte frequenze sono necessari più cicli che alle bassefrequenze per avere la percezione corretta del tono. Ciò è conseguenza del fatto
che è necessaria una durata minima del tono perchè si attivi la percezione del^ * f
pitch. Questa durata minima è di circa 13 ms (Turnbull, Jo urn al o f Expl.
Psy cholo gy, Voi. 34, pag. 302, 1944).
J
Questa caratteristica percettiva dipende dalla natura della risposta dinamica della
membrana basilare. La risposta di eccitazione della membrana basilare ad uno
stimolo sonoro di piccola durata con attacco e decadimento rapido (burst)evidenzia un tempo di attacco e decadimento lento dovuto alle caratteristiche
risonanti dell’orecchio. Uno stimolo audio troppo corto non consente all’orecchio
di arrivare allo stato stazionario, quindi ad uno stato necessario alla formazione
della completa sensazione uditiva.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 35/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 36/241
Fondamenti di psicoacusticaBanda critica - Battimenti
tempo
Spetto a risoluzione
infinitesimaperiodo
battimento
Spetto a risoluzione finita
frequenza frequenza
frequenza battimento
(fittizia)
/ transizione
tono singolo tono singolo due toni distinticon battimento aspro dolci
—
0 distanza frequenziale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
36
La membrana basilare è il meccanismo dell’apparato uditivo più complesso relativamente
alla trasformazione del fenomeno della vibrazione acustica in informazioni per il sistema
nervoso. Una delle caratteristiche più importanti del meccanismo di funzionamento della
membrana basilare è quello della trasformazione tempo-frequenza, realizzato attraversola generazione di un inviluppo oscillatorio della membrana. Questo meccanismo
evidenzia un funzionamento di natura discreta, nel senso che la singola frequenza
(informazione infinitesima) necessita che una porzione finita di membrana basilare si
ponga in oscillazione. Ne consegue che la risoluzione frequenziale è finita e non
infinitesima. Questa natura funzionale della membrana basilare porta alla definizione
della banda critica, cioè della minima porzione di membrana basilare che deve mettersi
in vibrazione per produrre la percezione di un tono.
I battimenti sono uno degli effetti psicoacustici derivanti dalla natura discreta della
percezione del pitch. Due toni puri, alla medesima frequenza producono un effetto percettivo del pitch chiamato, con terminologia musicale, unisono (percezione di un
unico tono puro). Se le frequenze dei due toni puri differisce leggermente, si produce un
effetto di modulazione d’ampiezza determinato dal leggero sfasamento dei due toni puri.
Ne deriva la percezione di un unico tono accompagnato dalla percezione di un una bassa
frequenza (battimento). Tenendo ferma la frequenza di uno dei due toni puri e
aumentando la frequenza del secondo tono puro, la percezione del battimento permane
per un certo intervallo frequenziale (10-15 Hz). Continuando ad aumentare aumentare la
distanza frequenziale tra i due toni puri, la percezione del battimento scompare, ma non si
percepisce ancora in modo distinto i due toni puri ma ancora un unico tono aspro. Solo
dopo aver superato una certa distanza frequenziale i due toni vengono percepiti inmaniera separata con una sensazione dolce. Ciò avviene quando è stata superata la
dimensione della banda critica e quindi sulla membrana basilare si sono potuti formare
due inviluppi oscillatori distinti, cioè non interferenti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 37/241
L’intensità (loudness) è la sensazione soggettiva di percezione uditiva prodotta
dall’ampiezza del suono.
Come per gli altri parametri percettivi, la percezione dell’intensità non è lineare e
dipende anche da altri parametri del suono, principalmente la frequenza.
L’unità di misura dell’intesità è il phon. Questa è numericamente uguale al
valore in dB prodotto dalla pressione sonora (SPL) di un tono puro alla frequenza
di 1000 Hz.
Alle altre frequenze la scala acustica in SPL e quella psicoacustica in phon non
sono coincidenti. 1000 Hz non è una coicidenza tra suono fisico e percezione, ma
semplicemente un punto di riferimento per costruire una scala di misura
(psicoacustica) della percezione dell’intensità.
Il sone è un’altra scala di misura psicoacustica dell’intensità. 1 sone viene
definita come la sensazione di loudness prodotta da un tono puro di 1000 Hz e 40
dB di ampiezza (riferita alla soglia di udibilità, SPL).
La natura soggettiva di queste unità di misura dell’intensità è evidente nel
diagramma che rapporta la misura in sone a quella in phone.1
1sone e i phon non sono due misure coincidenti della loudness, nel senso che non
esiste una relazione lineare (proporzionale) tra queste due misure psicoacustiche
(Fletcher, Journal o f Acoustical S ocie ty o f America, Voi. 9, n. 4, pag. 275, 1938).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 38/241
Fondamenti di psicoacusticaPercezione dell’intensità (loudness) (cont.)
Pressione acustica (dB SPL)
27/01/2004 Copyright 2002-2003 38
Prof. Mario Malcangi
La percezione dell’intensità è sostanzialmente lineare fino a 8000 Hz, nel senso
che fino a questa frequenza un aumento di pressione acustica determina un
aumento proporzionale di sensazione di intensità (dB).
La funzione di corrispondenza tra intensità acustica e intensità psicoacustica è
differente per ogni frequenza fino a 8000 Hz, ma sempre decrescente al crescere
della frequenza.
Oltre gli 8000 Hz l’orecchio manifesta un comportamento insolito. La sensazione
di intesità che ne deriva a parità di intensità acustica è inferiore a quella chederivava da una frequenza inferiore.
y
••
L’orecchio, oltre gli 8000 Hz denuncia un calo di capacità percettiva
dell’intensità.
Per produrre la stessa sensazione di intensità di un tono puro a 8000 Hz e 80 dB
(SPL), un tono puro a 10000 Hz deve avere una intensità acustica di 90 dB(SPL), cioè deve circa quattro volte maggiore in ampiezza.
(Fletcher, Journa l o f Acoustical Socie ty o f Amer ica, Voi. n.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 39/241
Fondamenti di psicoacusticaPercezione dell’intensità (loudness) (cont.)
1000 10000
Frequenza (Hz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La più chiara dimostrazione della variabilità percettiva della loudness rispetto alla
frequenza è il diagramma di Fletcher e Munson. Le curve di questo diagramma sono
isofone, cioè descrivono come un tono puro deve essere amplificato o attenuato peressere percepito a tutte le frequenze con pari sensazione di intensità. Ogni curva è stata
generata per un livello di loudness in phon.
Prima di tutto si può notare che a 1000 Hz la scala di intensità in dB e quella di loudness
in phon coincidono (proprio per la definizione di phon).
Si può osservare anche che da 100-200 a 6000-8000 Hz Porecchio è particolarmente
sensibile. Sopra e sotto queste frequenze la sensibilità dell’orecchio diminuisce, cioè,
bisogna che l’intensità sia superiore a quella equivalente che si vuole percepire in
funzione dell’intensità SPL del suono.
A circa 5000 Hz Porecchio manifesta un comportamento risonante del meato
(amplificazione dell’ampiezza del fenomeno di eccitazione). Un’altra risonanza, meno
marcata si manifesta a circa 13 kHz.
(Fletcher e Munson, Journal of Acoustical Society o f America, Voi. 5, n. 2, pag. 82,
1933).
Una delle principali conseguenze di questa risposta in frequenza dell’orecchio è che alle
basse e alle alte frequenze vi è perdità nella percezione dell’intensità. Questo fenomeno,
combinato a quello simile manifestato dalle apparecchiature elettroacustiche (microfoni,
amplificatori, altoparlanti, ecc.) implica di intervenire sull’intensità SPL del suono per
non perdere in qualità di riproduzione audio a larga banda. I cosiddetti controlli di
loudness servono proprio a questo scopo, in quanto intervengono automaticamente
quando la dinamica diventa povera.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 40/241
Fondamenti di psicoacusticaPercezione dell’intensità (loudness) (cont.)
cq
a ,aS,asK
«•a
c§
S40 100 1000 10000
Frequenza (Hz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
40
Un altro aspetto della percezione della loudness è di natura differenziale. Le
variazioni minime di intensità percepibili dipendono dalla frequenza e dal livello
stesso di intensità. Si osserva ancora una volta che l’orecchio è particolarmente
sensibile alle variazioni di intensità intorno ai 3000 Hz.
(Fletcher, Speech and H earin g in Com munication, D. Van N ostrand
Ine., Princeton, 1953).
L’intensità è una percezione di natura strettamente soggettiva, molto difficile da
misurare. La risposta in frequenza dell’orecchio è estremamente dipendente dalla
frequenza. Dal punto di vista strettamente musicale l’orecchio non è un sistema
audio perfetto, anzi, esattamente il contrario. In realtà, il sistema uditivo non è
nato per ascoltare la musica o far godere l’uomo della bellezza dei suoni.
L’evoluzione biologica dell’apparato uditivo è di natura sensoriale e finalizzato
alla sopravvivenza. La sensazione dell’intensità serve soprattutto a orientarsi
nell’ambiente e a riconoscere la natura delle sorgenti sonore.
La musica, a differenza delle sorgenti audio naturali, è artificiale, quindi stimola
sensazioni e percezioni che non necessariamente sono in accordo con la natura
dell’evoluzione biologica dell’uomo. Mentre la musica tradizionale si è
sviluppata sostanzialmente in accordo con la natura percettiva del sistema
uditivo, quella elettronica e digitale ha esplorato spazi sonori prima sconosciutialla percezione uditiva. La conoscenza della psicoacustica in tale fase della storia
della musica moderna è stata una componente culturale importante per i
musicisti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 41/241
Fondamenti di psicoacusticaMascheramento uditivo
10000
Frequenza (Hz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
41
Il mascheramento è un fenomeno di percezione uditiva in cui un tono di bassa intensità
non è percepito in presenza di un tono ad esso prossimo e di elevata intensità.
Questo fenomeno è conseguenza delle bande critiche che caratterizzano il funzionamento
della membrana basilare. L’inviluppo oscillatorio che viene generato da un tono integra
la sollecitazione del tono stesso e di altri eventuali toni ad esso frequenzialmente
prossimi. Se quest’ultimi sono caratterizzati da minore intensità rispetto a quello
principale, la loro sollecitazione risulta inglobata in quella principale.
Ovviamente, allontanandosi frequenzialmente dal tono ad elevata intensità, questo effetto
di integrazione deH’oscillazione della membrana basilare diventa sempre più blando e
conseguentemente diminuisce l’effetto di mascheramento.
sensazione di percezione uditiva in presenza di un tono. La soglia di mascheramento è
una modifica dinamica della soglia statica di udibilità, conseguente dalla presenza di un
tono di elevata intensità ad una specifica frequenza.
Questa caratteristica percettiva uditiva viene correntemente sfruttata per ridurre il numero
di bit di quantizzazione nella codifica audio numerica attraverso un processo chiamato
noise shaping.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 42/241
Il timbro è la percezione psicoacustica più complessa, in quanto basata su
molteplici informazioni. Fondamentalmente, la percezione del timbro è legata
alla struttura armonica (frequenziale) del suono: ampiezza, frequenza e fase di
tutte le componenti frequenziali (toni puri).
In realtà la struttura frequenziale dei suoni varia dinamicamente, quindi le
componenti frequenziali cambiano nei rapporti di ampiezza e di fase. La
percezione uditiva del timbro porta all’identificazione della natura del suono da
parte del soggetto: il suono di pianoforte viene percepito diverso da quello di
violino.
La percezione del timbro non è percezione di frequenza, bensì di struttura
frequenziale. Infatti, a parità di altezza, è possibile distinguere tra due strumenti
musicali differenti.
In realtà, l’orecchio umano è molto più raffinato e quindi capace di discriminare*
la natura della sorgente audio nell’ambito della stessa tipologia di sorgente.
L’esempio più ovvio è quello della capacità di discriminare tra due differenti
persone di identico sesso che pronunciano la stessa parola o frase.
Un altro esempio è la capacità di distinguere tra due suoni di pari altezza e
intensità, generati dallo stesso strumento: il suono LA=440 Hz prodotto dalla
corda LA del violino e quello prodotto dalla corda RE dello stesso violino sono
effettivamente discriminabili.
(Olson, Music, Physycs and Engineering, Dover Publications, 1967).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 43/241
Fondamenti di psicoacusticaTimbro
Frequenza Hz
27/01/2004 Copyright 2002-2003 43
Prof. Mario Malcangi
La percezione del timbro dipende anche dall’intensità del suono. L’orecchio ha
un meccanismo di funzionamento di natura non lineare, quindi produce altri toni
in aggiunta a quelli propri del suono che riceve.
Ad esempio, se ad un individuo viene fornito un tono puro, questo percepisce
insieme a questo altri toni (armoniche) differenti da quello originario, generati
dall’orecchio stesso.
Un altro esempio, già discusso, è quello di due toni con altezza molto prossima-
La percezione uditiva rivela la presenza di un gruppo di altri toni aggiuntivi, dati
dalla somma e dalla differenza dei due toni originari.La percezione dei toni aggiuntivi è tanto maggiore tanto quanto più elevata è
1’ intensità. La soglia di creazione dei toni aggiuntivi varia con la frequenza,
risultando più elevata alle alte frequenze
Wegel e Lane, Physics Review, voi. 23 , n. 2, pag. 266, 19
La percezione del timbro è strettamente dipendente dalla natura funzionale della
membrana basilare, in particolare dalla dimensione della banda critica. I toni
complessi consistono della combinazione lineare di numerosi toni puri, quindi
pongono in oscillazione la membrana basilare in più punti contemporaneamente.
L’effetto di mascheramento delle componenti ffequenziali di un tono complesso
si manifesta quando si producono oscillazioni che ricadono nella stessa banda
critica.
La sensazione di asprezza o dolcezza di un tono complesso deriva dalla struttura
frequenziale del suono, in rapporto alla dislocazione delle bande critiche della
membrana basilare.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 44/241
Fondamenti di psicoacusticaDurata
dB
- 21
-3
ÜÜûif' •l»'"-i 1 ï .KieJI uliiii! jùu.11
4 ( 4 .
»•1•
ftr*i w::Aiiii i:’!r «* f 1
fINf»• I1• 1 ilü•»w
.i! -m »Ijllf : Organo M
r*111ili¡fu'ni; N
l'M‘ivV a m.™
f M»• v;i m* i •••!«Y«tFlit
.«•i»-ili Miti wil luWMrf.fi ' %Jfl|f 1 *• fli::4Yn’lì
V Iti• f *VIÌm'M’ y rf ir• r1 1J
V«
0 1 2
dB fi1
4 V M_l__
~rr
—
** i of.- .n i ! im r«»i
m« *w 1Pian of or t e l i l i f ’ fai. Ir
«•»
'7¡í i q-T,11-'- r*»l !i 3 i Jcj-ii i**
—
* io n ;i tr L'.ifli ' • • , ¡ ¡i •* ** * • , 'ti1 iM, ] IIV. ..j Wl p i.i.t, éfbli*, ; ... i» l ,\
1 H* flïltt M l i *i - MnL liltfH
dB i » • A , 4 *4 l é I t t i I â *ê J •i - * |4 *> I 4 4 * • # M * ' 1 lK •V f
(*»li»irifft' 1 I f f l l f f
dB
-30
fi •
H Ht Z."
MM
• r
/
§w
Æ
4
/
7
r
0
sec
sec
sec
sec
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
44
La durata contribuisce alla formazione della percezione del pitch. In particolare è
stato già evidenziato che, se il suono dura pochi cicli, la percezione del timbro è
alterata. Vi è quindi una dipendenza della percezione dalla durata minima del
suono.
La percezione uditiva si è sviluppata per essere efficiente nella percezione
spaziale, cioè in ambiente riverberante. Pochi cicli di oscillazione non sono
sufficienti alla formazione della percezione completa.
La dinamica di intensità è un fattore fondamentale di caratterizzazione timbricafinalizzata al riconoscimento della fonte di generazione del suono. Attacco e
decadimendo di un suono sono fasi transitorie di evoluzione dell’ampiezza del
fenomeno oscillatorio acustico che non solo implicano semplicemente l’aumento
e la diminuzione di intensità del suono, ma anche sua continua variazione in
termini di struttura frequenziale.
Inoltre, molti fenomeni acustici si caratterizzano proprio in quanto hanno una
specifica natura di attacco e/o di decadimento: il pianoforte ha un attacco rapidomentre l’organo ha un attacco lento.
A parità di struttura frequenziale, questa differenza è essenziale per la
discriminazione timbrica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 45/241
Fondamenti di psicoacusticaPerdita uditiva
Il sistema uditivo è soggetto a perdita di efficienza legata all’invecchiamento. La
perdita uditiva si manifesta dai 30 anni in su ed è particolarmente evidente da 50
anni in su.
La perdita uditiva si misura in dB equivalenti all’amplificazione necessaria per
ottenere la sensazione uditiva normale.
A 50-60 armi la perdita uditiva può raggiungere i 30 dB, cioè, è necessario
raddoppiare almeno 5 volte l’intensità di un suono (per esempio il parlato) per
dare l’impressione alla persona di sentire normalmente.
La perdita uditiva riguarda soprattutto le alte frequenze.
La misura della perdita uditiva si ottiene da un test clinico audiometrico che
consente di ottenere la curva soggettiva di perdita uditiva (audiogramma) su tutto
il campo frequenziale.
Lo strumento che consente di fare questa misura si chiama audiometro.
(Olson, Music, Physycs and Engineering, Dover Publications, 1967)
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 46/241
■ ■
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 47/241
Digitalizzazione del suono
00101001010001
00101001001010
00101000100101
01010001011101
10010100010010
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
47
La digitalizzazione del suono è il processo che consente di rappresentare il
segnale audio sotto forma numerica, quindi adatta ad essere memorizzato,
elaborato e trasmesso tramite sistemi di natura digitale come le memorie binarie, i
computer numerici e le linee di comunicazione digitali.
La rappresentazione numerica del suono implica perdita di informazione sia in
termini di frequenza che in termini di ampiezza.
Il teorema del campionamento fissa le regole per garantire la corretta
rappresentazione dell’informazione del segnale audio nel dominio tempodiscreto.
Il principio della quantizzazione consente di rappresentare il segnale audio
campionato nel dominio numerico a precisione finita.
Il teorema del campionamento e il principio della quantizzazione forniscono le
regole per la corretta digitalizzazione del segnale audio sotto determinate
condizioni. Tali condizioni possono non essere attuabili nella pratica, quindi è
necessaria un’attenta conoscenza della natura di tali regole per determinare lenecessarie condizioni di pratica applicabilità.
Per approfondimenti: [Malcangi 03]
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 48/241
Digitalizzazione del suonoNatura e trasformazione dei suoni*I
LMnformazione, nel mondo fisico acustico, esiste sotto forma di segnale audio. Il
segnale audio è la variazione di un parametro fisico (pressione) rispetto ad un altro
parametro fisico di natura indipendente (tempo e spazio).
I segnali audio, essendo portatori di informazione, sono oggetto di elaborazione da parte
dei sistemi, in particolare quelli di natura elettronica. Ne consegue la necessità di
trasformazione da natura meccanica del segnale audio in natura elettronica analoga.
Analogici sono definiti quindi i segnali nella loro rappresentazione elettronica. In
particolare, segnale analogico è sinonimo di segnale contìnuo. La discretizzazione del
segnale analogico porta alla definizione di segnale digitale (segnale numerico).
La trasduzione è il meccanismo che consente di trasformare un segnale fisico qualsiasi in
segnale elettrico e viceversa. In particolare, la trasduzione da natura fisica qualsiasi a
natura elettrica si ottiene con i cosiddetti sensori, mentre la trasduzione da natura elettricaa natura fisica qualsiasi si ottiene con gli attuatori.
Per esempio, per trasformare il segnale audio (natura meccanica) in segnale elettrico, si
usa il microfono (sensore meccano-elettrico), mentre, per trasformare il segnale elettrico
in segnale acustico, si usa l’altoparlante (attuatore elettro-meccanico).
La trasduzione è esclusivamente una trasformazione di natura fisica, quindi nulla cambia
relativamente airinfoimazione di segnale.
I sistemi elettronici consentono di elaborare V informazione di segnale, estraendo parte
dell’informazione, eliminando informazioni non desiderate, modificando
quantitativamente tale informazione, ecc.
La voce, per esempio è un segnale che contiene informazioni di basso livello (intensità) e
di alto livello (parole, frasi, ecc.). Il riconoscimento automatico del parlato è un esempio
di elaborazione del segnale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 49/241
Digitalizzazione del suonoDall’onda acustica al segnale elettrico
Suono acustico fisso
27/01/2004 • Copyright 2002-2003 49
Prof. Mario Malcangi*Il
Il microfono è il principale trasduttore per la trasformazione del suono dalla sua
natura originaria meccanica a quella elettrica. La trasduzione in segnale elettricodel suono è essenziale dato che la quasi totalità dei sistemi di elaborazione del
suono è di natura elettronica.
Il principio di trasduzione microfonica del suono è abbastanza semplice. La
variazione di pressione dell’aria prodotta dal suono (compressione e rarefazione)
viene utilizzata come mezzo per agire su un dispositivo o componente dotato di
proprietà meccano-elettrica.
Un sistema abbastanza semplice è quello che utilizza il principio di induzione
elettromagnetica. La pressione acustica viene utilizzata per far muovere un
magnete all’interno di un campo magnetico. La variazione di campo magnetico
segue quella dell’onda acustica del suono. Tale variazione induce su un filo di
rame una corrispondente variazione di corrente. Tale corrente variabile è una
copia trasdotta della pressione variabile del suono, cioè è la copia elettronica del
suono.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 50/241
Digitalizzazione del suonoDal segnale elettrico all’onda acustica
Su ono e l e t tr i co Suon o acust i co
27/01 /2004 Copyright 2002-2003 50
Prof. Mario MalcangiIl
Il suono in forma elettrica è utile per essere trattato dalle apparecchiature
elettroniche, ma non è percepibile in tale forma dall’orecchio. Ecco dunque la
necessità di un sistema inverso di trasduzione, di natura elettro-meccanica, che
consenta di trasformare le variazioni di tensione elettrica in variazioni di pressione acustica.
L’altoparlante è il più importante di questi sistemi di trasduzione. Il principio di
funzionamento è simile a quello del microfono.
Ad esempio, una corrente variabile applicata ad un filo elettrico induce un campo
magnetico identicamente variabile neH’intomo del filo stesso. Il campo
magnetico è in grado di opporsi con forza ad un altro campo magnetico opposto.
Quindi, se a un magnete sottoposto al campo variabile si applica una membrana
(cono), è possibile trasformare la variazione di campo magnetico in variazione di pressione acustica equivalente.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 51/241
Digitalizzazione del suonoAnalogico e digitale
0 1 2 3 5 1 0 - 3 - 1 18 24
Analogico Digitale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
51
La trasduzione è un processo che crea un’analogia tra la rappresentazioneacustica del suono e la rappresentazione elettrica equivalente. Per questo motivo
il suono, nella sua natura fisica, viene classificato con il termine analogico.
In realtà, il termine analogico ha assunto un significato particolare in quanto
contrapposto a digitale. In tal senso il termine analogico ha un sinonimo più
significativo, il termine continuo.
Il suono esiste in natura in forma analogica (continua) e può essere trasdotto in
forma elettrica, continuando a mantenere la natura continua. Il suono analogico
può essere trasformato in digitale quando viene discretizzato, cioè scomposto in piccole unità e codificato in forma numerica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 52/241
Digitalizzazione del suonoCampionamento
I segnali analogici sono continui, costituiti da infinite variazioni di ampiezza nel
tempo. Per essere elaborati da sistemi di natura discreti e numerici come i
computer, i segnali continui necessitano di una trasformazione (discretizzazione)in modo da ricondurre ad una quantità finita le variazioni continue di ampiezza
che li caratterizza.
II processo di discretizzazione del segnale rispetto al tempo si chiama
campionamento. Il campionamento di un segnale continuo si ottiene
“fotografando” il segnale ad istanti di tempo regolari (intervalli di
campionamento) e considerando il valore di ampiezza all’istante in cui avviene il
campionamento come valore (attendibile) dell’ampiezza fino al successivo
campionamento.
La perdita di informazione conseguente alla discretizzazione operata con il
campionamento non è significativa sotto determinate condizioni.
Il teorema del campionamento stabilisce le regole del corretto campionamento.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 53/241
Il campionamento è un processo che consente di passare dalla rappresentazione
continua del segnale alla rappresentazione discreta.
Un segnale campionato è una sequenza discreta di valori di ampiezza, misurati a
intervalli regolati di tempo.
Il teorema di Shannon (teorema del campionamento) fissa le regole del corretto
campionamento per non avere perdite di informazione.
Il campionamento porta alla discretizzazione del tempo in termini di intervalli di
campionamento (Ts).
Il tempo può essere espresso come sequenza di n intervalli di campionamento,
vale quindi la relazione
, = n T s
Dato un intervallo di campionamento n, ristante di tempo cui si riferisce è ad
esso proporzionale sulla base della dimensione dell’intervallo stesso: n diventa la
variabile discreta del tempo. Ts è una costante che consente di legare il tempo
discreto n al tempo continuo t.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 54/241
Digitalizzazione del suonoCampionatore
Segnale originarioCampionatore
(Sampler) Segnale PCM
campionamento
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
54
Il campionatore è un interruttore elettronico comandato da un temporizzatore. Iltemporizzatore chiude periodicamente Pinterruttore a intervalli costanti di
campionamento Ts. L’intervallo di chiusura dovrebbe essere idealmente infinitesimo* madi fatto ha una durata finita, anche se brevissima. Tale intervallo determina il tempo di
campionamento, un brevissimo intervallo durante il quale il segnale in ingresso al
campionatore viene trasferito in uscita. Durante tale intervallo di tempo l’uscita del
campionatore riporta un segnale di ampiezza identica a quella del segnale d’ingresso.
Durante il restante tempo, fino al prossimo intervallo di campionamento, l’ampiezza del
segnale d’uscita del campionatore è nulla, essendo Pinterruttore aperto.
Dal punto di vista matematico, il campionamento è il prodotto Ira la funzione segnale A(t)
da campionare e la funzione di campionamento s(t). Si tratta di un processo di
modulazione, in particolare della modulazione a impulsi (Pulse Code Modulation«, PCM).
La funzione s(t) è una sequenza periodica di impulsi 8(t) (Dirac):
s(t)= ...+5(t-2ts)+5(t-ts)+5(t)+5(t+ts)H-S(t-2ts)+ ...
Poiché il prodotto tra una funzione qualsiasi A(t) e la funzione di Dirac S(t+nts) vale
A(nts), cioè l’ampiezza del segnale all’istante nts (istante di campionamento), il prodotto
tra la funzione di campionamento s(t) per la funzione qualsiasi A(t) è una sequenza di
impulsi modulata secondo l’inviluppo di ampiezza di A(t):
.. .+ A(-2ts)8(t- 2ts)+ A(-ts)S(t-ts)+ A(0)S(t)+A(ts)S(Hts)+ A(2ts)S(t-2ts)+ ...cioè
• ••+ A(-2t )+ A(-ts)+ A(0)+A(ts)+ A(2ts)+ ...
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 55/241
Digitalizzazione del suonoPerdita di informazione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
55
La perdita di informazione dovuta al processo di campionamento non è
significativa se si campiona ad una velocità almeno doppia rispetto a quella della più rapida delle variazioni d’ampiezza contenute nel segnale stesso (frequenza
massima). Il teorema del campionamento impone che la frequenza di
campionamento deve essere almeno doppia rispetto alla massima frequenza di
segnale:
F >2Fs maxIl
Il campionamento di un segnale porta alla perdita delle informazioni che hanno
frequenza superiore a quella del processo di campionamento medesimo.
Il campionatore deve operare ad una frequenza superiore al doppio (almeno) della
frequenza massima del segnale per preservare tutte le informazioni di frequenza
del segnale oggetto di campionamento.
II teorema del campionamento garantisce la corretta rappresentazione
deirinformazione frequenziale del segnale, ma non quella d’ampiezza e di
fase.
Per garantire una adeguata rappresentazione dell’informazione di ampiezza e di
fase bisogna sovracampionare, cioè campionare a frequenze superiori, anche
molto superiori, rispetto a quella della frequenza massima del segnale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 56/241
Digitalizzazione del suonoTeorema del Campionamento
La non corretta esecuzione del processo di campionamento porta ad un insidioso
effetto di distorsione dell’informazione chiamato “aliasing”.
Le frequenze di segnale oltre la metà della frequenza di campionamento vengono
distorte in conseguenza del processo di campionamento. La distorsione (aliasing)
consiste in un effetto di rallentamento delle frequenze presenti oltre la frequenza
massima stabilita dal teorema del campionamento.
L’aliasing è conseguenza del sottocampionamento delle componenti armoniche
del segnale che superano la metà della frequenza di campionamento. La
frequenza alias è paria alla differenza tra il valore della frequenza di
campionamento e il valore della frequenza reale:
f aliasf - f
s reale
Concluso il processo di campionamento, le frequenze distorte non sono più
distinguibili da quelle non distorte e quindi il campionamento del segnale in tal
caso non è reversibile.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 57/241
Digitalizzazione del suonoEvitare (’aliasing
27/01/2004 Copyright 2002-2003 57
Prof. Mario Malcangi
I segnali reali sono a banda infinita, ma nella pratica vengono considerati a
banda limita. Quando si realizza un’applicazione di elaborazione del segnaleaudio, si focalizza l’attenzione sull’informazione di segnale significativa per
quella specifica applicazione.
Per esempio, la voce è un segnale audio (banda fino a 20000 Hz), ma di fatto
l’informazione necessaria al 1’intellegibilità del parlato è limitata alla banda fino a
3000 Hz. Un sistema di campionamento dovrebbe utilizzare una frequenza di
campionamento molto superiore a 4000 Hz (maggiore del doppio della frequenza
massima di segnale). Campionare a 8000 Hz (come di fatto avviene nella
telefonia digitale) è sufficiente. 8000 Hz è una frequenza di campionamentoabbastanza superiore al doppio della frequenza massima di segnale vocale, in
accordo con il teorema del campionamento.
Rispettare il teorema del campionamento garantisce la corretta rappresentazione
delle frequenze fino a quella massima di segnale, ma nulla garantisce in merito
alle frequenze superiori a quella massima. Poiché il campionatore non sopprime
le frequenze oltre quella massima ma, purtroppo, le distorce (rallentandole), è
necessario limitare la banda del segnale da campionare alla frequenza massima
utile. Tale limitazione di banda si ottiene tramite filtraggio passa-basso, dettoanche filtraggio anti-aliasing, in quanto previene il fenomeno di distorsione
frequenziale (aliasing) conseguente al campionamento.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 58/241
Digitalizzazione del suonoEvitare ¡’aliasing (cont.)
27/01/2004 Copyright 2002-2003 58
Prof. Mario MalcangiIl
Il fenomeno dell’aliasing frequenziale durante il processo di campionamento è
dovuto al fatto che la banda del segnale campionato viene replicata infinite volte.
Ogni replica della banda di segnale, ovvero del suo spettro, ha come riferimento
tutti i multipli interi della frequenza di campionamento.
La banda base gravita intorno alla frequenza zero. Le altre bande sono collocate
sui multipli interi della frequenza di campionamento, cioè Fs, 2FS, 3FS, 4FS,... e
sono una perfetta replica di quella base.
Le repliche della banda base possono sovrapporsi ad essa e alle altre. E’ proprio
questa sovrapposizione che produce il fenomeno delFaliasing. Le frequenze delle
bande superiori a quella base si ritrovano di fatto in banda base per
sovrapposizione, quindi producono distorsione frequenzaiale (armonica). Il punto
di separazione tra le bande multiple è proprio la metà della frequenza di
campionamento.)
Se il segnale a banda estesa viene limitato entro una frequenza massima non
superiore alla metà della frequenza di campionamento, allora la sovrapposizione
tra la banda base e le bande replicate non avviene e quindi non vi è aliasing.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 59/241
Digitalizzazione del suonoQuantizzazione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi*Il
hold
I 1 [ I l i3 ! :
i ;I
:
1
r 1
I [ 1f 9
! i«• •• •: :
" •
• •• êI
i i ;
«
;i ! ;
f ! il ;
i i a! i l i ] ! I i è •• •ft ft
1 1 1 1 0 1 2 2 3 3 3 2 2 2 2
22 = 4 livelli di quantizzazione2 bit
Il segnale campionato (PCM), per essere trattato da un elaboratore numerico (computer),
necessita di essere sottoposto ad un processo di quantizzazione. L’ampiezza dei campioni
del segnale sono infatti valori a precisione infinita (rappresentabile cioè con numeri reali),mentre il calcolatore è in grado di rappresentare solo numeri a precisione finita (anche se
elevata).
La quantizzazione è il processo che consente di passare dalla precisione infinita alla
precisione finita (numero finito di cifre) nella rappresentazione numerica.
Questo processo implica perdita di informazione. La perdita d’informazione si manifesta
sotto forma di rumore.
fi campionamento consente di fissare l’ampiezza del segnale in istanti discreti di tempo
(istanti di campionamento).La digitalizzazione del segnale (quantizzazione) consiste nel trasformare in numeri
(binari) a precisione finita il valore (a precisione infinita) dell’ampiezza di ogni campione
Il numero di cifre binarie (bit) utilizzato per quantizzare numericamente l’ampiezza di
ogni campione determina il numero di livelli di quantizzazione. Per eseguire l’operazione
di quantizzazione, l’ampiezza del campione deve essere mantenuta costante per tutto il
tempo necessario al completamento del processo di quantizzazione. Ciò viene ottenuto
aggiungendo al campionatore un elemento di memoria analogica, il condensatore. Questo,
quando l’interruttore del campionatore è chiuso, memorizza l’ampiezza del campione
corrente. Quando l’interruttore si apre, il condensatore mette a disposizione delquantizzatore tale informazione in maniera stabile, fino al successivo campionamento. Il
quantizzatore inizia il processo di quantizzazione dopo il tempo di campionamento e deve
completarlo prima che termini l’intervallo di campionamento. Il campionatore, insieme al
condensatore, realizza un sistema di campionamento e tenuta, da cui il nome
Sample&Hold.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 60/241
Digitalizzazione del suonoErrore di quantizzazione
Errore di
SQNR
dBB
SQNRm = 6 . 5
rapporto Segnale/Rumore di quantizzazione
deciBelnumero di bit utilizzali per quantizzare
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
60
informazione
rappresentazione di valori reali con un numero finito di cifre. La quantizzazione produce
determinatoampiezza
a altro segnale (rumore) che si somma linearmente al segnale
rumore di quantizzazione è di natura statistica (rumore bianco)
quindi non separabile dal segnale quantizzato.
rumore
numerica. Per ogni cifra binaria utilizzata
quantizzazione si produce un miglioramento di 6 dB del rapporto segnale/rumore di
quantizzazione.
il rumore di quantizzazione non è eliminabile, può essere solo minimizzato.
Per ogni applicazione va stabilita la quantità minima di cifre che garantisce l’inefficacia
del rumore di quantizzazione sull’informazione contenuta nel segnale.4 ' V? v
Per esempio, la musica è un segnale audio, quindi l’informazione in essa contenuta è
percepita attraverso il sistema uditivo. Il sistema uditivo ha una sensibilità media che in
termini di rapporto segnale/rumore è stimata in circa 90 dB (consente di distinguere un
rumore in presenza di segnale quando il segnale ha un’ampiezza circa 65000 volte
superiore a quella del rumore). Ciò significa che, un rumore con un’ampiezza 90 dB
inferiore a quella del segnale non è percepibile (effetto mascheramento). Quindi, se il
rapporto segnale/rumore di quantizzazione (SQNR) prodotto nella digitalizzazione
della musica è superiore a 90 dB, il rumore di quantizzazione di fatto non è rilevante in
quanto non percepibile. Nell’esempio specifico, sono sufficienti 16 bit (6 x 16 = 96dB) di
quantizzazione per garantire un rapporto segnale/rumore non peggiore di quello tipico dei
sistemi audio analogici.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 61/241
Digitalizzazione del suonoRapporto segnale/rumore di quantizzazione
A ASQNR = 20 logl0 -= 2 0 ì o g . - f - - = 20 log,0V = 205 log,02 = 20x0.301 s 65
% 2"B : numero di bit di quantizzazione 2D: numero di livelli di quantizzazione
27/01/2004 Copyright 2002-2003 61
Prof. Mario Malcangi
Il rapporto segnale/rumore di quantizzazione (SQNR), calcolato in dB viene
determinato rapportando la massima escursione di segnale (segnale picco-picco)alla massima ampiezza di rumore (Q).
La massima ampiezza di rumore Q è legata al numero di bit di codifica utilizzato
e all’ampiezza picco-picco:
Q = V 2B
Il numero di bit di quantizzazione determina la quantità di livelli diquantizzazione applicati alla gamma di ampiezza picco-picco.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 62/241
Il rapporto segnaie/rumore di quantizzazione (SQNR) viene determinato rapportando la
massima dinamica di segnale alla massima dinamica di rumore.
Il rumore di quantizzazione è a dinamica costante. La massima dinamica del rumore è
infatti determinata dal rapporto tra la massima dinamica del segnale e il numero di livelli
di quantizzazione (2B). Il segnale può essere a dinamica variabile. Ciò implica che il
SQNR calcolato nella condizione di massima dinamica del segnale non sia effettivamente
tale quando il segnale riduce la sua dinamica.
Per esempio, supponiamo di scegliere di quantizzare con 16 bit un segnale audio per
garantire un SQNR di 96 dB. Se il segnale dimezza la sua dinamica, il SQNR teorico di
96 dB diventa un SQNR reale di 90 dB: il bit più significativo dei 16 bit di
quantizzazione non viene mai utilizzato, quindi la quantizzazione reale è a 15 bit.
Poiché ogni bit porta un contributo di +6dB per il SQNR, la perdita di un bit comporta un
contributo di -6dB. Se il segnale si porta a un quarto della dinamica, vengono persi 2 bit
di quantizzazione, quindi 12 dB per il SQNR, e così via.4 V• |
La quantizzazione non lineare consente di evitare che le piccole dinamiche siano
quantizzate con un numero di bit inadeguato rispetto alle specifiche applicative. La
suddivisione in livelli di quantizzazione della gamma dinamica non è lineare (di solito
logaritmica), tale cioè da assegnare una maggiore quantità di livelli di quantizzazione ai
bassi livelli di dinamica e una minor quantità agli alti livelli di dinamica.
Per esempio, per un segnale che varia in ampiezza tra -HO e -10, di 16 bit di
quantizzazione, si può assegnarne 1 bit per la quantizzazione del segnale che varia tra
+10 e +5 (-10 e -5) e 15 bit di quantizzazione per i segnali che variano tra +5 e -5;
successivamente si può assegnare 1 bit di quantizzazione per i segnali che variano tra +5
e +2,5 (-5 e -2,5) e 14 bit di quantizzazione per i segnali che variano tra +2,5 e -2,5; e
così via fino ad assegnare tutti i bit di quantizzazione disponibili.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 63/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 64/241
.
. .
-
. w
’ ' i .
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 65/241
Analisi del suono
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
65
L’analisi del suono consente di entrare nella microstnittura informativa del suono
per ottenerne la sua rappresentazione analitica. Le componenti informative del
segnale, misurate tramite le tecniche di analisi, sono la base di conoscenza checonsente di estrapolare modelli per la modifica dell’informazione acustica e per la
sua sintesi.
Quella di Fourier è la più importante delle tecniche di analisi frequenziale del
segnale audio, sia per la vicinanza al modello percettivo del suono, sia anche per
la relativa semplicità del modello matematico che ne consente una facile e
immediata aDDlicazione di natura numerica. La conoscenza del modello
armonica
corretta messa in opera, per evitare di generare insidiosi artefatti che inquinano la
misura dell’informazione di segnale.
La variabilità dinamica del segnale audio, sia quello musicale che quello vocale,
impone l’adeguamento delle condizioni stazionarie di validità dell’analisi
armonica di Fourier alla dinamica del segnale audio. L’analisi armonica di
Fourier a tempo breve è un esempio di adattamento dinamico di un modello di
analisi stazionario, quale è quello dell’analisi armonica di Fourier.
Altre tecniche di analisi sono proposte per l’estrazione delle caratteristiche
informative del segnale audio allo scopo di ottenere una estrazione mirata di
specifiche informazioni (ad esempio le formanti fonetiche), oppure permaggiormente avvicinarsi al modello fisico del suono.
Per approfondimenti: [Malcangi 03]
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 66/241
Analisi del suonoComponente frequenziale
I segnali audio, anche quando si tratta di suoni, difficilmente sono modellizzabili
con una funzione matematica. Le trasformate sono un potente strumentomatematico che consente di ottenere un modello di rappresentazione
dell’informazione di segnale che ne semplifica la trattazione. La semplificazione
consiste soprattutto nella individuazione di funzioni matematiche elementari
(segnali elementari) che, combinati in forma lineare, consentono di rappresentare
una funzione complessa (segnale complesso).
La trasformata di Fourier consente di rappresentare un segnale qualsiasi come
somma lineare di segnali sinusoidali. I segnali elementari per la trasformata di
Fourier sono isegnali sinusoidali,
detti anche,componenti frequenziali del
segnale, cioè in campo audio, i toni puri.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 67/241
Analisi del suono
Secondo la teoria dell’analisi armonica di Fourier, i segnali complessi possono
essere scomposti in una serie di segnali elementari sinusoidali, di variaampiezza, frequenza e fase. Questa scomposizione è unica e quindi utilizzabile
per codificare l’informazione di segnale in un altro dominio diverso da quellotemporale, il dominio frequenziale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 68/241
Analisi del suonoStruttura frequenziale
27/01/2004 Copyright 2002-2003 68
Prof. Mario MalcangiIl
Il tono puro (sinusoidale) è il caso più semplice di informazione audio in quanto
caratterizzata da una singola frequenza (in accordo con il modello percettivo e
con la teoria dell’analisi frequenziale di Fourier).Qualsiasi altro suono che non abbia le caratteristiche informative del tono puro
viene definito complesso, in quanto costituito dalla somma di più toni puri.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 69/241
Analisi del suonoStruttura frequenziale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
69
Il suono complesso, in accordo con la teoria dell’analisi armonica di Fourier, è
sempre scomponibile in termini di toni puri, ognuno di ampiezza, frequenza e
fase differente. In particolare, se il tono complesso è periodico, le componenti
frequenziali esistono solo in corrispondenza dei multipli della frequenza
fondamentale determinata dal periodo di ripetizione della forma d’onda del tono
complesso.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 70/241
Analisi del suonoStruttura frequenziale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
70
Si definisce prima armonica (fondamentale) il tono puro caratterizzato da un
periodo uguale a quello di ripetizione del tono complesso. La seconda armonica
ha frequenza doppia della prima, la terza tripla della prima, ecc.
La prima armonica in un tono periodico è sempre presente. Le armoniche
successive possono anche non essere presenti in corrispondenza di tutti i multipli
della frequenza fondamentale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 71/241
Il modello frequenziale è fondamentale per la descrizione analitica della natura
dell’informazione del suono. Grazie al modello frequenziale è possibile ottenereuna descrizione analitica del suono che consente di trattare l’informazione audio
per realizzare applicazioni come la compressione, la trasmissione, la
spazializzazione, la sintesi e il riconoscimento automatico.
Il modello temporale e il modello frequenziale del suono sono strettamente legati
tra loro dal sistema delle trasformate. In particolare, la trasformata di Fourier
consente di ottenere un modello di rappresentazione in frequenza del suono
particolarmente vicino al modello percettivo (psicoacustico).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 72/241
La rappresentazione cosiddetta “spettro” deriva dall’analisi armonica del tono
complesso. Ogni componente armonica del suono viene riportata su un piano
cartesiano ampiezza-frequenza. In questa rappresentazione grafica ognicomponente armonica del suono viene rappresentata da un segmento verticale
(linea spettrale) di ampiezza pari all’ampiezza massima (positiva) della
componente stessa. La posizione sull’asse frequenziale è pari all’inverso del
periodo della componente.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 73/241
Analisi del suonoSpettro di alcuni suoni
tono puro
t
rumore
x
impulso
>t
treno di impulsi
-----► i m i .t
-11t
impulso di durata finita A A
>t
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi73
Ogni suono ha la sua propria struttura armonica. Tale struttura armonica (spettro
frequenziale) rappresenta completamente il suono stesso, evidenziando
soprattutto le caratteristiche frequenziali.
Il tono puro per definizione ha uno spettro costituito da una sola linea spettrale
(per definizione), e ha una forma d’onda di natura sinusoidale.
Il suono determinato dall’onda quadra ha una struttura frequenziale
caratterizzata dalla fondamentale e da una serie (teoricamente infinita) di
componenti frequenziali di ampiezza decrescente al crescere della frequenza.
Un caso particolare di suono è il rumore bianco. Questo è un suono
caratterizzato da una forma d’onda la cui ampiezza varia in modo completamentecasuale (a distribuzione statistica uniforme). Lo spettro corrispondente è
altrettanto casuale nella sua composizione armonica (in ampiezza e in frequenza).Il termine rumore è conseguenza del fatto che questo suono nella maggior parte
dei casi è indesiderato.
Un altro suono particolare è l’impulso (click). Questo è un suono di durata
infinitesima e ampiezza finita. Lo spettro di questo suono è altrettanto particolare
in quanto contiene tutte le componenti frequenziali a tutte le frequenze a partire
da zero e con ampiezza costante.Una variante dell’impulso è il treno di impulsi, cioè una ripetizione periodica diimpulsi. Lo spetto corrispondente è un treno di armoniche distanziate tra loro inmaniera uniforme.
Una ulteriore variante dell’impulso è l’impulso di durata finita. Lo spettrocorrispondente è la funzione sen(x)/x.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 74/241
Analisi del suonoEsempi di spettri di segnale vocale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
L’analisi frequenziale del segnale è una tecnica che consente di ottenere la
distribuzione deH’ampiezza e della fase delle componenti sinusoidali in funzione
della frequenza. Il risultato dell’analisi frequenziale è lo spettro di ampiezza e di
fase. Lo spettro del segnale consente di ottenere informazioni quantitativamente
precise circa la struttura frequenziale del segnale, non evidenziabile nella
rappresentazione temporale del segnale, sia grafica che matematica.
Ad esempio, una vocale “O” si distingue nettamente da una vocale “E” se si
osserva lo spettro frequenziale di ampiezza. I picchi dello spettro indicano la
dominanza a tali frequenze. La differente posizione e ampiezza dei principali
picchi connota una vocale rispetto ad un’altra. Mentre il segnale vocale nel
dominio temporale è apparentemente molto variabile, nel dominio frequenzialerisulta molto stabile, ovviamente per la stessa informazione. Ad esempio,
vocalizzando una “E” in tutte le maniere possibili (cupa, brillante, rauca,
interrogativa, esclamativa, imperativa, ecc.) notiamo una significativa variabilità
dell’oscillogramma ma una sostanziale stabilità dello spettrogramma.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 75/241
Analisi del suonoAlcune formule utili
A sin( cat + <j>)~ a cos( + sin( cat)
Piano complesso Coordinate polari e cartesiane
Ini = Immaginario
Re = Reale
Z^are A A ) M M J .
A = V a 2 + b 2 = tan 1 — a
a -- A sin (j) b = A cos (/)
Formula di Eulero
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
75
L’informazione elementare codificata dalle componenti sinusoidali è l’ampiezza
dell’oscillazione ad una specifica frequenza e la relativa fase.
La rappresentazione della componente sinusoidale, che consente di costruire lo
spettro di ampiezza e di fase, è dunque la seguente:
A(t)= A sin(cdt+(j)())=Asin(27i:f+(j)0)
La trasformata di Fourier consente di rappresentare un segnale complesso in
termini di combinazione di segnali elementari, i segnali sinusoidali. Essendo un
algoritmo matematico, non usa rappresentare il segnale sinusoidale nella sua
natura fisica, bensì nella forma matematica. La trasformata di Fourier calcola la
componente frequenziale sinusoidale come un punto del piano dei numeri
complessi, quindi in termini di “parte reale” e “parte immaginaria”. Da questa
rappresentazione cartesiana della componente sinusoidale è necessario passare
alla rappresentazione polare, evidenziando modulo (ampiezza) e fase della
componente sinusoidale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 76/241
/\nan si uci suuiiu*IFourier: Serie e Trasformata
“ • •--- ----^ .
Serie di Fourier Trasformata di Fourier
+CO
x ( i ) = Ik - ~ oo
Diretta-foc
X ( a ) = ^ x(t) e-Ja,dt
-00
T
- H—
c k = — | x ( t ) e ~ J(kr'¥ ) d t
T i2
Inversa
1 +00
x (t) = \x ( c o ) e jm‘da)
—00
T = — = — : periodo
«o /o
a > =
27/01/2004 Copyright 2002-2003 76Prof. Mario Malcangi
Il punto di partenza per l’analisi dei segnali è la serie di Fourier. Questa,consente di calcolare la serie dei coefficienti di ampiezza delle componentiarmoniche di un segnale di natura continua e periodica.
I segnali periodici si caratterizzano per una forma d’onda che si ripete, sempre
uguale a se stessa, per tutto il tempo di esistenza del segnale. Ad esempio, ilsegnale sinusoidale è un segnale periodico.
Per i segnali reali, l’analisi armonica di Fourier non è applicabile in quanto isegnali reali non sono perfettamente periodici (la periodicità è un’astrazionematematica). Inoltre, l’elaborazione numerica del segnale riguarda i segnalidiscreti (campionati).
La serie di Fourier ha comunque un equivalente, chiamata trasformata di
Fourier, applicabile ai segnali di natura non periodica. La trasformata di Fourier
è infatti un’estensione della serie di Fourier considerando il periodo dioscillazione del segnale di durata infinita.
La trasformata di Fourier consente di calcolare le ampiezze delle componentiarmoniche del segnale, non necessariamente periodico, a tutte le frequenze, dazero fino a infinito. T
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 77/241
DTFT: Trasformata Tempo Discreto di Fourier
Trasformata Continua di Fourier Trasformata Tempo Discreto di Fourier
Diretta DirettaA —
- t - 3 0
X (at)= jx ( t )e -J*‘dt
- H x >
X (co) = X — OO
— OU
&Inversa
Inversa — s*(») = d - J . X ( a ì e ‘~d ( a )
x(t)= ¡X - 0 0
---------------------/
- H »
x ( r ì ) = YJx( t ) S ( tn = - o o
co = 2izf t -nTs
27/01/2004 Copyright 2002-2003 77
Prof. Mario Malcangi*Il
Sia la serie che la trasformata di Fourier operano su segnali continui. Cosa
succede se il segnale è a tempo discreto, cioè campionato?
Un segnale x(t) campionato è rappresentabile come sequenza x(n) di campioni
derivata dal processo di campionamento, quindi è rappresentabile come
combinazione lineare di impulsi unitari 5(t-nTs) modulati in ampiezza dalla
sequenza x(n), cioè:
x(t) = 2 x(t)8(t-nTs)
La trasformata di Fourier è quindi applicabile anche a un segnale tempo discreto
x(n).
Il modello di trasformata che ne deriva è detta DTFT, cioè Trasformata Tempo
Discreto di Fourier. Questa somiglia alla trasformata di Fourier, tranne che nella
versione diretta esegue la sommatoria al posto dell’integrale, come conseguenza
della natura discreta del segnale x(n).
Lo spettro X(co) è comunque continuo e conseguentemente la trasformata inversa
DTFT utilizza l’integrale e non la sommatoria.
La trasformata DTFT è quindi applicabile nei sistemi campionati (ad esempio i
sistemi CCD), consentendo l’applicazione dell’analisi frequenziale di Fourier in
sistemi discreti ma non numerici, i sistemi tempo discreti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 78/241
Analisi del suonoDFT: Trasformata Discreta di Fourier
Trasformata Tempo Discreto di Fourier Trasformata Discreta di Fourier
Diretta+O0
Diretta N - 1 7
X ( k ) = Y J x ( n ) e N
X (co) = Y, x ( n ) e ~ Jùm
n=0
-00 I I 0 V * t
o V J • • • N *
1
Inversa = > Inversa
x ( n ) = — | X (co)eJ,md (cu)2 K -n
1 //_] J2nkn
x ( n ) ~ J ^ X ( k ) e N N -=o
n = 0 , 1 , 2 , . . . , N - \
co-27tf t~nTs
27/01/2004 Copyright 2002-2003 78
Prof. Mario Malcangi
La trasformata di Fourier opera su segnali continui, con operatori matematici
continui e produce risultati continui. La natura discreta e finita del computer non
consente l’implementazione dell’analisi frequenziale sotto tali condizioni. La
trasformata di Fourier tempo discreto (DTFT) in parte risolve questo problema inquanto capace di trattare i segnali campionati, quindi è un buon punto di partenza
per pervenire alla versione discreta della trasformata di Fourier (DFT).
Per passare dalla DTFT alla DFT sono necessari due passaggi, uno che limita il
numero di campioni oggetto di trasformazione da infinito a N e un altro che
discretizza la variabile frequenza co.
Eseguendo queste trasformazioni si ottiene la trasformata discreta di Fourier
(DFT), un modello matematico discreto per l’analisi frequenziale del segnale,
idoneo a essere implementato su computer, in particolare sui digitai signal processor (DSP) per applicazioni real-time di natura embedded.
J
v
E’ interessante osservare che la discretizzazione della trasformata di Fourier
impone un’artificiosa periodicità del segnale. La DFT opera su una sequenza
finita N di campioni del segnale prelevati da una sequenza infinita o di lunghezza
superiore. Ciò implica una forzatura sulla natura del segnale, che, come si vedrà
in seguito, comporterà degli artefatti nei risultati di analisi e delle opportune
strategie di minimizzazione di tali artefatti (finestratura).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 79/241
Analisi del suonoDFT: notazione
27/01/2004- Copyright 2002-2003 79
Prof. Mario Malcangi
La DFT consente di rappresentare i segnali discreti (campionati) con una
semplice sommatoria di prodotti. Si tratta quindi di un algoritmo di
elaborazione numerica molto semplice dal punto di vista della struttura di calcolo
(facile da codificare in termini di programmazione), ma estremamente intensivo
dal punto di vista computazionale (difficile da eseguire in tempo reale).
Per esempio, per analizzare un secondo di segnale vocale campionato a 8000 Hz,
con la DFT è necessario eseguire, tra le altre operazioni, almeno 8000 x 8000 =
64.000.000 di moltiplicazioni e somme in un secondo !!! Considerando la
moltiplicazione e somma una sola istruzione (come è per i DSP), sarebbe
necessaria una potenza di calcolo di oltre 64 MIPS (Milioni di Istruzioni Per
Secondo) solo per eseguire la DFT in tempo reale ! ! !
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 80/241
Analisi del suonoD F T : c o d i f i c a
avi ,A'.li iicilff khiVWiM •
Hi RV| IliWlM4»d' ***' --’u .itili
m i , • W t r i i i W . f l i t /
Iri îT , HI* rUiH
Iti
t M i
fo r ( i=0 ; i< N - l ; i-H-).
T O ; ,)
In -llr IT' »'■li1* *“ih 1
* «ItiM»•%*"! gXMif »r l'ir
n i
M*
X'HI Kmik .
ì t . - t i l¡in .:
v 2 - l ; I+ +)
t 1;V'- K:flli, --u ìli' "1fr., - ■ :(;.i -nil1 I,;,VI|,n;¡JiM|l* .1 ; ■r ..• -||1| J : -
I l I I I f f
1 l”!1'*) »I •
♦H*M
. ( i F ì , ; r
riH4*
l l l l Y ! » ! ►tri r.
» . » I
IH 1Vr - 11!
t i . l i a I
M||| *4
I'1.1 M »
t»
ti: ih
I MW* I*i l i » ' I » 1 , 1 1 !
min'1!h I • . I i .
% •* »
i 1*'., i'.'LLr;H
'|l H»' ivJlèlf
Jcl rii
Mm!«.,!M •I’ìmi'Un‘.| *v
Pittif o r ( i= 0 ; i < N / 2 - l; i+ + )
f o r (j = 0 ; j< N - l ;i - H - )
*iM T.*’»
Il t
• 4«
I liti DFT inversa
m .
\y imhi11 ! ' ■ i i m . *
i l\ Il |. nl.Ui.l'lr
* rv
•I I
V |V M I4 é â â ( f t é 1 •I I .
à i r
. « M i FUI
II«111 {x ( j ) = x ( j) + X R ( i ) * c o s (3 . 1 4 1 5 9 * I * J / N ) + X I (i )* s i n (3 . 1 4 1 5 9 * I * J / N ) ;
}
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
• I l P
m p m m t m a rn i ... " » si<i
DFT direttaf o r ( |= 0 ; j < N / 2 - l
{X R Ü ) = X R ( j )+ x ( i )* c o s ( 3 .1 4 1 5 9 * I * J / N ) /( N / 2 ) ;
X I ( j ) = X I ( j) + x ( i ) * s in ( 3 . 1 4 1 5 9 * I * J / N ) / ( N / 2 ) ;f >i
_Ll”t *J 1*1fe ì O .
I” ' ! '
80
La codifica della DFT è abbastanza semplice in quanto consiste di un ciclo per il
calcolo della singola componente frequenziale inserito in un altro ciclo cheindicizza tutte le possibili frequenze.
La DFT inversa è altrettanto semplice in termini di codifica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 81/241
Analisi del suonoTrasformata Veloce di Fourier (FFT)*Il
La trasformata veloce di Fourier (Fast Fourier Transform, FFT) è una versione
ottimizzata ed efficiente della trasformata discreta di Fourier (DFT) per il calcolo
dello spettro del suono eseguendo un numero inferiore di calcoli.Il concetto fondamentale su cui si basa la velocità della FFT è che una DFT può
essere scomposta in DFT applicate a porzioni di segnale inferiori. Il numero di
calcoli eseguito da una DFT partizionata in DFT di ridotte dimensioni è inferiore
a quello dell’equivalente DFT non partizionata.
L’applicazione esaustiva della scoposizione della DFT in DFT di minore
dimensione e l’applicazione estensiva di proprietà intrinseche come ad esempio la
simmetria, portano alla formulazione di un modello di calcolo veloce ed efficiente
della trasformata di Fourier discreta, chiamato FFT.Se una DFT richiede un tempo di calcolo proporzionale al quadrato del numero di
campioni corrispondenti alla finestra di segnale da analizzare, la FFT è
proporzionale al numero di campioni moltiplicato il logaritmo (base 2) di tale
numero.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 82/241
1
Analisi del suonoCodifica della trasformata Veloce di Fourier (FFT)
Bi t
Reversing
FFT(À, M, N)
complex A(N)> U, W, T
{ N-Z**M
NV2-N/2
N M l- N -l
J - l
> for (I«l; icNMl; I++)
{ if(I <J )
{ T=A(J)
A(J) - A(I)
A(I)**T
K = NV2
}while (K < J)
{ J = J -K
K = K/2
)J = J + K
Passo
Butterfly
Gruppo
PI - 3.141592653889793
for (L - 1; L < M; L++)
1LE - 2"*L
LEI = LE/2
U- (1,0; 0,0)W =>eomplcx(cn»(Pl/LEl), *ln((PT/LE1))
— ► for (J » 1; J < LEI; J++)
— ► for (I - J; T< N; I - I+LE)
l IP “ I + LEI
T » A(IP) * U
A (IP) - A(I) - T
A(I) = A(I) + T
u=u*w
}
> »}
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
82
algoritmo della trasformata veloce di Fourier di quattro nuclei di calcolo.
Il bit-reversing è un’operazione preliminare di scombinazione (scrambling) dei dati diinfattiefficientemente i calcoli. Questo ordinamento consiste nell’indicizzare i dati (campioni di
numericainvertendo
terminecampioni
Indice lineare Indice bit-reversed
0 000 000 01 001 100 4
2 010 010 V
2
3 Oli 110 6
4 100 001 1
5 101 101 5
6 110 011 3
7 111111
7
Gli altri tre nuclei di calcolo rappresentano l’effettivo calcolo della trasformata veloce diFourier, basata su una doppia iterazione (Passo e Gruppo) che ingloba una terzaiterazione, cioè il nucleo di calcolo (FFT kernel) chiamato Butterfly.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 83/241
La periodicità (perfetta) della forma d ’onda è un concetto astratto in quanto non è
possibile produrre un suono assolutamente stabile in termini di frequenza e di
ampiezza.
Il tono puro (sinusoidale) è quindi un modello teorico.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 84/241
Analisi del suonoFinestratura: quasi periodicità
Ampiezza
Tempo
27/01/2004
Ripetizione della forma d’onda con
variazioni di ampiezza e frequenza
Copyright 2002-2003
Prof. Mario Malcangi
84
' 9
La quasi periodicità è una caratteristica dei suoni generati dalla maggior parte
formaO L J L W A A A W A t / J L m u u i v ^ x * ^ - -------- ^ --------- -------- ~ -------------- ----------------------------------------------------------
ripetitività tali per cui vi sono piccole variazioni del periodo di oscillazione e
forma
sostanzialmente stazionario.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 85/241
r
Analisi del suonoFinestratura: ipotesi di stazionarietà
Per eseguire l’analisi del suono è necessario disporre di un segmento temporale
del suono più o meno ampio. L’ampiezza temporale di tale segmento è
significativa relativamente alla precisione stessa dell’analisi.
L’analisi del suono si basa sull’ipotesi di stazionarietà dello spettro. L’ipotesi di
stazionarietà implica che lo spettro del suono sia stabile (statico). Questa ipotesi
implica che la forma d ’onda sia perfettamente periodica con durata del periodo
pari alla durata del segmento considerato.
Poiché ciò non è vero in assoluto in quanto è plausibile solo la quasi periodicità,
ne consegue che il suono oggetto di analisi può essere più o meno differente
rispetto a quello originario.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 86/241
Analisi del suonoFinestratura: periodicità indotta
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
86
La finestratura del suono finalizzata all’analisi implica artefatti che possono
produrre risultati di analisi anche molto differenti da quelli reali. La distorsione
delle informazioni frequenziali conseguenti alla finestratura viene determinata (tt segnale audio per derivare il segmento
una
forma d’onda che porta quindi ad una
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 87/241
Analisi del suonoFinestratura: prodotto e convoluzione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
87
L’analisi del segnale può essere applicata solo ad una porzione limitata di suono.
L’operazione di estrazione di una porzione limitata di suono implica
un’operazione di finestratura.
L’operazione di finestratura applicata ad un suono corrisponde al prodotto tra il
suono da analizzare e un suono particolare con forma d’onda rettangolare di
ampiezza minima nulla (0) e di ampiezza massima unitaria (1). Questo suono
(finestra) è un impulso unitario di durata finita, quindi con funzione spettro
sen(x)/x.
Il prodotto nel dominio del tempo corrisponde alla convoluzione nel dominio
delle frequenze. Lo spettro della finestra si propaga quindi su ognuna delle
componenti ffequenziale del suono finestrato, producendo uno spettro risultate
fatto non di impulsi di frequenza come ci si aspetterebbe in accordo con l’analisi
armonica di Fourier, ma di una serie di campane in corrispondenza degli impulsi
di frequenza, cioè la combinazione dello spettro del segnale con quello della
finestra.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 88/241
Analisi del suonoFinestratura: campana e ripple
Dominio temporale inio frequenziale
27/01/2004 Copyright 2002-2003
Profi Mario Malcangi
88
La finestratura di una porzione di suono produce implicitamente sullo spettro
reale ima serie di artefatti di cui i più rilevanti sono la dilatazione a campana
dell ’ impulso frequenziale e la serie di oscillazioni laterali (ripples) cheaffiancano la campana principale.
Il primo ripple, dopo la campana si presenta, dal punto di vista spettrale, come
una rilevante distorsione armonica.
La larghezza della campana porta invece al mascheramento delle componenti
frequenziali effettive del segnale molto prossime e di piccola ampiezza rispetto
ad altre componenti di grande ampiezza.
La tecnica di finestratura (windowing) è finalizzata a minimizzare queste
distorsioni armoniche
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 89/241
Opportune funzioni di finestratura possono minimizzare i ripple e restringere le
campane prodotte dall’azione di finestratura. Si tratta delle cosiddette finestre“cosenate”, caratterizzate fondamentalmente da una ampiezza quasi nulla in
corrispondenza degli estremi e un’ampiezza unitaria al centro. L’ampiezza quasi
nulla agli estremi serve a minimizzare il drastico effetto di troncamento implicato
dalla finestra rettangolare.
Le finestre cosenate consentono di ridurre la larghezza della campana e di ridurre
l’ampiezza del primo ripple, in modo da migliorare il rapporto segnale/rumore tra
la componente frequenziale e il rumore costituito dai ripple.
Lo svantaggio è quello che il segnale in prossimità degli estremi della finestra èfortemente attenuato, quindi sarà scarsamente rappresentato nello spettro.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 90/241
La risoluzione frequenziale dipende dalla dimensione temporale della finestra di
analisi.In particolare, la risoluzione frequenziale è inversamente proporzionale alla
dimensione temporale della finestra di analisi.
La minima frequenza misurabile è F = 1/T, ove T è la dimensione temporale della
finestra di analisi.
Le altre frequenze misurabili sono solo tutti i multipli interi della frequenza
minima, fino ovviamente alla frequenza massima prevista dal teorema del
campionamento (metà della frequenza di campionamento).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 91/241
Analisi del suonoModello stazionario
»«•••••••••• t •*••• *•••••*«•
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
91
L’analisi frequenziale del suono è di natura stazionaria. Ciò implica che lo
spettro risultante si riferisce a tutta la porzione di segnale inclusa nella finestra.
Se una componente armonica del suono varia in ampiezza e posizione
frequenziale, questa non può essere misurata in termini analitici in quanto non
esiste alcun riferimento temporale relativamente a ognuna delle componenti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 92/241
Analisi del suonoModello stazionario a tempo breve
( « > • • •• • • M • « r * * t u a l l l t i l I • a M M »
» * » • • ft « V
i l I I I
W /*
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
92
Per applicare la tecnica di analisi frequenziale del suono è necessario determinare
gli intervalli di tempo in cui il suono è stazionario (quasi stazionario). La finestra
di analisi non deve superare il massimo intervallo di stazionarietà del suono, in
modo da poter considerare lo spettro risultante corrispondente ad una porzione di
suono stazionario.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 93/241
Analisi del suonoAnalisi dinamica
»* »* % »*
///• * # V M 4 Y *
ÌVAVW*
l l ' v
. « f ik A / M £ , t A Ì M i A l ' T r •77f H f * . > V * * .
f t t f i t t l i f c
27/01/2004- Copyright 2002-2003 93Prof. Mario Malcangi
L’analisi a finestre (stazionarie) del suono porta ad una rappresentazione dello
spettro in funzione anche del tempo, producendo una rappresentazionetridimensionale. La dimensione temporale tiene conto della successione neltempo delle finestre applicate al suono.
è
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 94/241
Analisi del suonoSonogramma
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La rappresentazione tridimensionale dello spettro può essere effettuata su due
dimensioni quantitative (tempo-frequenza) più una terza dimensione qualitativa
(ampiezza). Si tratta del sonogramma. L’ampiezza della componentefrequenziale viene rappresentata in termini di scala di colori (scala di grigio).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 95/241
Analisi del suonoEsempio: suono armonico (violoncello)
r
27/01/2004 Copyright 2002-2003 95
Prof. Mario Malcangi*Il
Il suono di violoncello è di natura armonica, cioè la frequenza delle sue componenti
spettrali sono multipli interi della frequenza fondamentale. Ciò è conseguenza della
natura della sorgente, la corda vibrante.
La corda vibrante produce una suono caratterizzato da una frequenza fondamentale e una
successione armonica di frequenze con ampiezza decrescente rispetto alla fondamentale,
quindi molto simile al suono con forma d’onda a dente di sega.
Il suono prodotto dalla corda vibrante viene modificato dalla caratteristica risonante della
tavola e cassa armonica dello strumento, portando così alla determinazione del timbro
dello strumento.
La modalità di eccitazione della corda porta ad una continua variabilità della forma
d’onda, quindi dello spettro. In particolare, la fase di attacco è un elemento connotantedel timbro.
L’analisi del suono di uno strumento armonico, come ad esempio il violoncello, può
riguardare le caratteristiche timbriche stazionarie al fine di determinare la
caratterizzazione frequenziale. In tal caso di estrae una porzione del segnale audio nella
fase stazionaria (tenuta).
Le fasi di attacco e di decadimento dell’oscillazione non sono significative nella
determinazione della caratteristica timbrica dello strumento di base dello strumento
(caratteristiche di risonanza), anche se sono significative per caratterizzare la modalità di
eccitazione della sorgente (corda).
L’analisi frequenziale delle fasi di attacco e di decadimento richiede una tecnica di analisi
frequenziale a tempo breve (short-term Fourier analysis), in modo da poter ben
rappresentare le informazioni spettrali variabili nel tempo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 96/241
Analisi del suonoEsempio: suono inarmonico (tamburo)
0
Onda stazionaria 0 -
00 dB “I
Spettro stazionario
0
27/01/2004
0.152 0.155 0.158 0.161 0.164t(ms)
1.25 2.5 3.75 5.0 6.25f (kHz)
Copyright 2002-2003
Prof. Mario Malcangi
96
inarmonica
vibrante) produce una componente fondamentale di frequenza abbastanza bassa earmonico
fondamentale e di ampiezza decrescente.
In questo caso le fasi di attacco, tenuta e decadimento sono difficilmente
categorizzabili. La forma d’onda è continuamente variabile, quindi, quali
porzione del suono di tamburo viene analizzata, lo spettro ottenuto non èr a nn re se n t a t i vo de l l a na t u ra timbrica dello strumento.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 97/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 98/241
Modifica del suono
27/01 /2004 Copyright 2002-2003 99
Prof. Mario Malcangi
Modificare un suono può essere necessario per vari motivi: per eliminare del
rumore, per simulare un effetto ambiente, per amplificarlo, per identificare
infonnazioni nascoste, ecc.
L’analisi frequenziale consente di ottenere le necessarie infonnazioni per
consentire azioni di modifica. Il filtraggio è la tecnica fondamentale di modifica
della struttura informativa (frequenziale) del suono operando nel dominio
temporale.
Per approfondimenti: [Malcangi 03]
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 99/241
Modifica del suonoNatura filtrante dei sistemi
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
Il filtraggio è un operazione di elaborazione del segnale che consente di
modificare lo spettro di un segnale qualsiasi in maniera mirata.
Tutti i sistemi producono sul segnale trattato un ’azione di filtraggio.
Possiamo dire che il filtraggio è un funzionamento intrinseco dei sistemi, di
natura passiva quando non è desiderato (ad esempio per gli amplificatori), oppure
di natura attiva quando è desiderata (ad esempio i filtri veri e propri).
Quanto detto sopra evidenzia che il filtraggio è allo stesso tempo uno strumento
di elaborazione del segnale e un comportamento dei sistemi. Da ciò si deduce che
è possibile utilizzare la natura filtrante di un sistema per correggere l’azione
filtrante di un altro sistema.
Perché un sistema si comporta da filtro?
Qualsiasi segnale che attraversa un sistema (ingresso/uscita) subisce un’azione di
ritardo che dipende dalla natura dei componenti presenti in tale sistema. Il ritardo
non è altro che un differimento nel tempo del segnale. Se il segnale entra in un
sistema all’istante t, all’uscita del sistema possiamo osservare un effetto
conseguente solo dopo un certo intervallo di tempo.
L’effetto del ritardo, applicato ad un segnale variabile nel tempo, produce effetti
differenti a seconda della velocità di variazione del segnale. Poiché ogni segnalecomiesso, secondo la teoria di Fourier, è composto da segnali elementari
sinusoidali di varia frequenza ampiezza e fase, il ritardo produce un effetto
differenziato su ognuna delle componenti frequenziali, portando così alla
modifica della struttura ffequenziale del segnale, quindi alla modifica
dell’informazione di segnale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 100/241
Modifica del suonoNatura filtrante dei sistemi (cont.)
27/01/2004 Copyright 2002-2003 101
Prof. Mario Malcangi
Il ritardo del segnale implica un fenomeno combinatorio che può amplificare una
componente frequenziale (aumento di ampiezza) oppure attenuarla.Ad esempio, un semplice sistema che combina il segnale diretto con quello
ritardato di un certo intervallo di tempo, è un filtro in quanto amplifica le
componenti a bassa frequenza e attenua quelle ad alta frequenza. In particolare,
alle basse frequenze l’efFetto del ritardo produce un effetto di amplificazione del
segnale di ingresso in quanto al nodo di somma pervengono due segnali quasi
identici, la cui somma produce un segnale di ampiezza circa doppia rispetto a
quello di ingresso (amplificazione). Alle alte frequenze il segnale di uscita è di
ampiezza inferiore a quello di ingresso e, in particolare quando il ritardo è pari
alla metà del periodo della componente frequenziale, al nodo di somma sono
presenti il segnale diretto e il suo equivalente in completa opposizione d ’onda,
determinando un segnale di uscita di ampiezza nulla.
Il filtro dell’esempio cancella le frequenze con periodo multiplo del doppio del
ritardo di sistema.
In generale, questo sistema ha una caratteristica di filtraggio che da 0 alla
frequenza 1/(2KR) modifica lo spettro del segnale in ingresso in maniera
progressiva fino ad annullare l ’ampiezza della componente di frequenza l/(2kR).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 101/241
Modifica del suonoNatura filtrante dei sistemi (cont.)
Cosine Comb
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
Si definisce funzione di trasferimento l’azione di un sistema sul segnale di
ingresso per determinare il segnale di uscita. A parte il caso dell’amplificatore
ideale, tutti gli altri sistemi si caratterizzano con un’azione di modificadell’ampiezza in modo selettivo rispetto alla frequenza. La funzione di
trasferimento rappresenta completamente la natura filtrante dei sistemi.
Nel primo esempio il segnale viene combinato con il segnale diretto. La funzione
di trasferimento evidenzia una natura filtrante di tipo “elimina banda” multiplo,
con frequenza centrale eliminata pari a (K+0.5/R).
Nel secondo esempio il segnale viene combinato con il segnale diretto. La
funzione di trasferimento evidenzia una natura filtrante di tipo “elimina banda”
multiplo, con frequenza centrale eliminata pari a (K/R).
••
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 102/241
Modifica del suonoUso del dominio frequenziale
L’informazione nei segnali è nella struttura frequenziale. Quando tale struttura si
modifica, si modifica l’informazione contenuta nel segnale.
La struttura frequenziale del segnale può essere modificata variando
selettivamente l’ampiezza (ed eventualmente la fase) di ogni componente. Questa
variazione equivale alla variazione d’ampiezza che produce un amplificatore che
processa un segnale. L’amplificatore amplifica, per definizione, tutte le
componenti frequenziali del segnale in uguale misura e quindi non modifica
rinformazione del segnale solo in termini di volume. .
Quando del segnale sono modificate le componenti frequenziali in maniera
differenziata, allora non si parla di amplificazione, bensì di filtraggio.Tutti i sistemi hanno caratteristiche filtranti (anche se modeste). Ad esempio, un
canale trasmissivo (il doppino telefonico) si comporta come un filtro in quanto
modifica la struttura ffequanziale del segnale che Tattraversa.
Dal punto di vista temporale il filtraggio produce una modifica della forma
d’onda, mentre dal punto di vista frequenziale produce una modifica dello spettro.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 103/241
Modifica del suonoModifica della struttura frequenziale del suono
V,(t)
R
vu
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
104
Il filtraggio dei segnali continui (analogici) si ottiene tramite sistemi elettronici
basati su componenti di natura capacitiva e/o induttiva. Questi componenti
elettronici si differenziano dagli altri (ad esempio le resistenze) in quanto dotati di
“memoria”. Il condensatore è ad esempio un sistema elettronico che può
memorizzare un’informazione sotto forma di carica elettrica. Inoltre, questi
componenti elettronici hanno un comportamento selettivo dipendente dal tempo
(quindi dalla frequenza).
Grazie a queste proprietà, opportuni circuiti elettronici basati su condensatori e
induttori consentono di realizzare i cosiddetti filtri.
Un segnale che attraversa un filtro è modificato nella sua struttura frequenziale.
I filtri sono utilizzati per modificare appositamente la struttura frequenziale del
segnale allo scopo di elaborare l’informazione in esso contenuta.
Ad esempio, i filtri sono utilizzati nell’elaborazione del segnale audio (musicale)
per separare l ’informazione a bassa frequenza da quella ad alta frequenza per
realizzare i cosiddetti cross-over, ovvero il sistema che consente di ripartire
correttamente il segnale tra altoparlanti a bassa frequenza (woofer) da quelli ad
alta frequenza (tweeter).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 104/241
Un filtro si caratterizza tramite la funzione di trasferimento. Questa descrive
come l’ampiezza del segnale viene modificata in funzione della frequenza. La
funzione di trasferimento si ottiene tramite uno studio in regime variabile,
utilizzando la trasformata di Laplace e la trasformata di Fourier.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 105/241
Il segnale quando attraversa un sistema subisce un’azione di modifica della struttura
frequenziale, ovvero viene filtrato. La natura del filtraggio subito dal segnale è
completamente descritta dalla funzione di trasferimento.La funzione di trasferimento è definita come rapporto tra segnale filtrato (segnale di
uscita) e segnale prima del filtraggio (segnale di ingresso). Essendo il filtraggio un
processo che agisce modificando le componenti frequenziali, la funzione di trasferimento
è definita nel dominio delle frequenze, cioè come rapporto tra lo spettro del segnale
filtrato (di uscita) e lo spettro del segnale non filtrato (di ingresso).
La funzione di trasferimento descrive completamente il comportamento del filtro nella sue
capacità di modifica selettiva delle frequenze del segnale e quindi è anche chiamata
“risposta in frequenza”.
La funzione di trasferimento del filtro, detta anche caratteristica, è rappresentata
attraverso un diagramma descritto nel dominio delle frequenze.
I parametri caratterizzanti un filtro sono tutti inclusi nella sua funzione di trasferimento:
• Banda passante: è l’intervallo frequenziale entro cui le componenti frequenziali del
segnale non sono modificate;
• Banda attenuante: è l’intervallo frequenziale entro cui le componenti frequenziali del
segnale sono modificate;
•Frequenza di taglio: è la frequenza in cui avviene il passaggio tra banda passante e
banda attenuante;
•Pendenza della banda attenuante: è l’entità di attenuazione della banda attenuante;
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 106/241
I filtri possono essere caratterizzati da una funzione di trasferimento qualsiasi, ma
nella pratica si utilizzano principalmente filtri con funzioni di trasferimentoabbastanza semplici.
• Passa basso: attenua le frequenze alte e lascia inalterate quelle basse
•Passa alto: attenua le frequenze basse e lascia inalterate quelle alte
•Passa banda: attenua le frequenze alte e basse al di fuori di una banda centrale
che lascia inalterata;
•Elimina banda (notch): attenua le frequenze in una banda centrale, lasciandoinalterate quelle al di fuori di tale banda;
•Filtro multibanda (pettine): si comporta come un filtro passa banda oppure
elimina banda multiplo;
Un filtro con una funzione di trasferimento qualsiasi è ottenibile da una opportuna
composizione lineare serie e/o parallelo di filtri di base.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 107/241
Modifica del suonoFiltri digitali
y(n) = a0 x(n) + a1x(n-1) + a2 x(n-2)
x(n)
x(n)
► T
x(n-1)
► ZT x(n-2)
r
a0 x(n) a1x(n-1) a2 x(n-2)
< £ > a0x(n) +a1x(n-1)< D *y(n)
x(n) è il segnale di Ingresso campionato: x(0) a t = 0, x(1) a t =Ts, x(2) a t = 2 Ts ...
Ts : periodo di campionamento = 1/F8
an =coefficenti del filtro
Z"1= ritardo unitario(restituisce in uscita il campione entrante dopo un periodo di campionamento)
27/01/2004 Copyright 2002-2003 108
componenti digitali le stesse funzioni dei componenti analogici.
La memoria digitale (numerica) consente di memorizzare i campioni del segnale
filtraggio. La moltiplicazione digitale (numerica) consente di modulare l’azione
delle memorie in maniera da simulare la diversa capacità di memorizzazione di
carica di condensatori di differente capacità.
del modello algoritmico: si tratta di una semplice sommatoria di prodotti. Inoltre,
filtro apre innumerevoli possibilità applicative, prima impossibili da realizzarecon la componentistica analogica.
Prof. Mario Malcangi
I filtri digitali derivano dai filtri analogici in quanto è possibile emulare con i
per ottenere 1’ elaborazione differita nel tempo, in accordo con il meccanismo di
L’aspetto più attrattivo della realizzazione digitale dei filtri sta nella semplicità
la possibilità di rappresentare attraverso il firmware la struttura funzionale del
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 108/241
Modifica del suonoModello matematico dei filtri digitali
y(n) =
27/01/2004 Copyright 2002-2003 109
Prof. Mario MalcangiI
La funzione di trasferimento dei filtri è calcolata attraverso un processo chiamato
risposta in frequenza. La risposta in frequenza si ottiene computando lo spettro
del segnale di uscita del filtro quando il segnale di ingresso è un impulso(risposta all’impulso).
I filtri digitali, in base alla natura della risposta all’impulso, si classificano in due
tipologie fondamentali: IIR e FIR.
I filtri IIR (Infinite Impulse Response) derivano direttamente dal modello
analogico. Si caratterizzano per la durata infinita del segnale di risposta
all’impulso.
I filtri FIR (Finite Impulse Response) non hanno un corrispettivo analogico,
quindi sono realizzabili solo nel dominio digitale. La risposta all’impulso in
questo caso è di durata finita.
v - i
Ya(j)x(ny=o
Risposta finita
all’impulso
FIR
M
+ 'Lb(k)y(n k=1
Retroazione
Risposta infinita
airimpulso
IIR
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 109/241
Modifica del suonoModello grafico dei filtriI
I filtri possono essere rappresentati anche tramite schemi funzionali (grafici) che
traducono in termini di blocchi di elaborazione di base il modello matematico
discreto.
La rappresentazione matematica è utile alla progettazione di natura firmware
dell’algoritmo, soprattutto quando si utilizzano architetture di calcolo sequenziali
o a limitato parallelismo interno. La rappresentazione matematica dell’algoritmo
non evidenzia i parallelismi computazionali intrinseci dell’algoritmo.
La rappresentazione grafica dell’algoritmo consente invece di evidenziare i
parallelismi esecutivi e quindi, in una eventuale realizzazione hardware, di
sfruttarli adeguatamente in modo da ottenere le migliori prestazioni esecutive
possibili.
Osservando ad esempio il modello grafico del filtro, si rileva 1’esistenza di
parallelismi esecutivi sia nella componente diretta (componente FIR), sia in
quella di retroazione. Tutti i prodotti tra i campioni e i coefficienti possono essere
eseguiti in parallelo (contemporaneamente) se si dispone di tanti moltiplicatori
indipendenti, quanti ne sono rappresentati nello schema funzionale del filtro, e di
due sommatoli a ingressi multipli.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 110/241
La convoluzione è un algoritmo matematico fondamentale per la realizzazione
dei filtri. La convoluzione è anche fondamentale per capire il meccanismo delfiltraggio.
Prima di introdurre l’algoritmo della convoluzione, è necessario definire il
concetto di “sistema lineare”.
Un sistema lineare è un sistema che evidenzia tre importanti proprietà:
omogeneità, additività e invarianza rispetto ai ritardi.
1sistemi perfettamente lineari non esistono, né possono essere realizzati. Esistono
però i sistemi “quasi lineari”, cioè con comportamento molto vicino a quello
lineare, tanto da poter essere correttamente (utilmente) considerati lineari. I filtriFIR e IIR sono sistemi lineari.
Per verificare se un sistema è lineare, è sufficiente verificare sperimentalmente
che soddisfi le tre suddette condizioni.
La condizione di omogeneità si verifica applicando in ingresso un segnale x(n) e
misurando la corrispondente uscita y(n). Se applicando un segnale kx(n) l’uscita
è ky(n), con k costante, allora il sistema ha la caratteristica di omogeneità.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 111/241
Modifica del suonoNatura lineare di un sistema (additività)
27/01 /2004 Copyright 2002-2003 112
Prof. Mario Malcangi
La condizione di additività si verifica applicando in ingresso un segnale x j (n) e
misurando la corrispondente uscita y,(n), quindi applicando in ingresso un
segnale x2(n) e misurando la corrispondente uscita y2(n). Se applicando un
segnale somma (o differenza) di Xj(n) e x2(n) l’uscita è pari a y,(n)+y2(n) (y((n)-y2(n)), allora il sistema ha la caratteristica di additività (sovrapposizione degli
effetti).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 112/241
Modifica del suonoNatura lineare di un sistema (invarianza per i ritardi)
27/01/2004 Copyright 2002-2003 113
Prof. Mario Malcangi
La condizione di invarianza per i ritardi si verifica applicando in ingresso un
segnale x(n) e misurando la corrispondente uscita y(n). Se applicando un segnale
x(n) ritardato di k campioni l’uscita è y(n) ritardata di k campioni, allora il
sistema ha la caratteristica di invarianza per i ritardi.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 113/241
Modifica del suonoFunzione Delta (Segnale Impulso)
La funzione Delta (segnale impulso), ha una notevole importanza per lo studio e
ampiezza 1per una durata infinitesima all’istante t e ampiezza zero per qualsiasialtro istante di tempo. L’equivalente discreto x(n)=S(k) ha ampiezza 1 al k-esimo
campione e zero per tutti gli altri campioni diversi da k. L’indice di
campionamento k in corrispondenza del quale si manifesta l’ampiezza unitaria
della funzione Delta identifica il ritardo.
Ad esempio, 8(3) ha ampiezza 1 in corrispondenza del campione 3 e zero in
corrispondenza di qualsiasi altro campione.
L’impulso ha una importante proprietà nel dominio ffequenziale: il suo spettro è
una costante di ampiezza unitaria. Dunque, il segnale impulso può essereutilizzato per studiare i sistemi lineari (i filtri lineari) in quanto si comporta come
la costante 1 nell’algebra lineare: 1 x h = h.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 114/241
Modifica del suonoScomposizione di un segnale qualsiasi in impulsi
Un segnale qualsiasi x(n) può essere scomposto in una composizione lineare di
impulsi di opportuna ampiezza e ritardo. E’ esattamente quello che accade
quando un segnale qualsiasi viene campionato.
Moltiplicando un impulso 8(k) per ima costante m, si ottiene un impulso di
ampiezza m. Poiché un segnale campionato x(n) è una sequenza di impulsi di
ampiezza pari all’ampiezza del campione e di ritardo pari all’istante di
campionamento, sommando insieme tanti impulsi modulati con 1’ ampiezza dei
campioni di x(n) ritardati dell’indice di campionamento, si ottiene x(n).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 115/241
Modifica del suonoRisposta alFimpulso
5 (n) h(n)
T“ T >
n
5 (n) = [0 ,0 ,0 , 1 ,0 ,0 ,0 ,0 , 0 ]
h(n) = [0 ,0 ,0 , 1 .3 ,-0 .3 ,-0 .2 ,-0 . 1 ,0 ,..., 0 ]
27/01/2004 Copyright 2002-2003 116
Prof. Mario Malcangi
Ogni sistema che riceve in ingresso un segnale x(n) risponde in uscita con un
segnale y(n). y(n) è il segnale x(n) modificato dalle caratteristiche funzionali delsistema.
Quando un sistema riceve in ingresso un impulso S(n), questo risponde in uscita
con una segnale h(n). Il segnale h(n) è la cosiddetta “risposta all’impulso”.
Quando il sistema è lineare, la risposta all’impulso ha sempre la medesima forma
d’onda a meno di un fattore di scala (omogeneità) e di ritardo (invarianza rispetto
ai ritardi).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 116/241
Modifica del suonoConvoluzione: dominio del tempo
Î1-
PT I— r T *
n
1-
0
x(n)
I I I I
n
y(n)
n
1-
+
1-
0
1-
0
y(n-l)=x(l)*h(n)
Iînîî►
ny(n-3)=x(3)*h(n)
î î 11 > *ny(n)=x(n)*b(n)
T
y ( n ) = x ( r ì ) *h(rì) = V x{m)h{n —m)
ri ' "*■' n
m= 0
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
117
Poiché un segnale qualsiasi x(n) è una combinazione lineare di impulsi modulatinel tempo e nei ritardi, l’uscita y(n) del sistema è la somma delle singole risposte
all’impulso prodotte da ogni impulso che compone il segnale x(n) (principio diadditi vità).
Se h(n) è la risposta all’impulso unitario 5(0), h(n-m) è la risposta all’impulsounitario 8(m). Modulando 5(m) con l’ampiezza dell’m-esimo campione x(m) siottiene la singola risposta x(m)h(n-m). La somma di tutte le singole risposteall’impulso produce l’uscita y(n).
Questa sommatoria è la convoluzione, sinteticamente rappresentata da unasterisco (*).
Un sistema (filtro) si caratterizza dunque tramite la risposta all’impulso. Quandoriceve in ingresso un segnale, convolve questo per la risposta all’impulso che lacaratterizza e produce in tal modo la relativa uscita.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 117/241
Modifica del suonoConvoluzione: dominio della frequenza
o
k T— r>
A
X(k) ------- ► H(k) ------- ► Y(k)
1t —1—111►
k - 1 Hi—r
k
Y ( k ) X ( k ) H ( k )
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi118
Una importantissima proprietà della convoluzione è la seguente: il prodotto di
convoluzione nel dominio del tempo corrisponde nel dominio frequenziale a un
semplice prodotto aritmetico, e viceversa, cioè, il prodotto di convoluzione neldominio frequenziale corrisponde nel dominio del tempo a un semplice prodotto
aritmetico.
Ciò significa che lo spettro X(k) del segnale di ingresso x(n) viene moltiplicato
per lo spettro H(k) della risposta all’impulso h(n), producendo in tal modo lospettro Y(k) del segnale di uscita y(n).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 118/241
Uno dei principali vantaggi della convoluzione nel dominio delle frequenze è la
possibilità di ottenere con estrema semplicità Foperazione inversa, la deconvoluzione.
Poiché la convoluzione consente di ottenere il segnale di uscita y(n) quando sono noti il
segnale di ingresso x(n) e la risposta all’impulso, la deconvoluzione consente di ottenere
il segnale di ingresso x(n) che avrebbe prodotto il segnale di uscita y(n) se x(n) fosse
applicato in ingresso ad un sistema con risposta all’impulso h(n).
In certe applicazioni è noto il segnale di uscita e le caratteristiche del sistema che l’ha
generato, ma non è noto il segnale di ingresso. Per ottenere il segnale originario x(n) è
sufficiente eseguire la deconvoluzione, cioè il rapporto tra lo spettro del segnale y(n) e
quello della risposta all’impulso h(n).
La deconvoluzione è una specie di “macchina del tempo” in quanto consente di tornarericostruire
;o Caruso. !
strumentazioni
Purtroppo
anni, quindi non è possibile eseguire una replica.
La deconvoluzione non può resuscitare Caruso, ma può “resuscitarne”, o meglio
ricostruirne, la voce originaria. Essendo ancora esistenti gli strumenti di registrazione
originari, è possibile ottenere la funzione h(n) e quindi il suo spettro H(k). Il segnale
registrato y(n) viene convertito in spettro Y(k). Tramite la deconvoluzione si ottieneX(k), cioè lo spettro del segnale originario x(n) che Caruso aveva prodotto quando fu
registrato agli inizi del ‘900.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 119/241
Modifica del suonoRisposta in frequenza
Un’altra importante implicazione della convoluzione nel dominio delle frequenze
è la cosiddetta “risposta in frequenza”.
H(k), lo spettro della risposta all’impulso, è il rapporto tra lo spettro di uscita
Y(k) e lo spettro di ingresso X(k). Se il segnale di ingresso è un impulso, il suo
spettro è una costante (1). Ne consegue che H(k) è uguale a Y(k) quando in
ingresso il sistema riceve un impulso, cioè, lo spettro della risposta all’impulso è
la risposta in frequenza del sistema.
La risposta in frequenza di un sistema descrive come il sistema modifica
l’ampiezza (e la fase) di ogni componente spettrale del segnale di ingresso in
corrispondenza di ogni frequenza.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 120/241
Modifica del suonoFiltraggio (dominio del tempo)
Il filtraggio è la modifica dell’ampiezza e della fase delle componentifrequenziali di un segnale. La convoluzione è un algoritmo che consente direalizzare il filtraggio. È sufficiente conoscere di un filtro la risposta all’impulsoh(n). Il prodotto implementa il filtro.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 121/241
La dimostrazione evidente del fatto che la convoluzione è di fatto un algoritmo di
filtraggio è nel dominio delle frequenze. Qualsiasi componente frequenziale del
segnale di ingresso viene modulata in accordo con la caratteristica della risposta
in frequenza H(k), quindi il segnale di ingresso viene filtrato.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 122/241
Modifica del suonoRisposta finita all’impulso
27/01/2004 Copyright 2002-2003 123
Prof. Mario Malcangi
Grazie all’algoritmo della convoluzione possiamo realizzare virtualmente
qualsiasi tipo di filtro, basta conoscere del filtro che interessa realizzare la sua
risposta all’impulso h(n).
Se si tratta di un filtro esistente, ad esempio un filtro analogico che si vuole
realizzare in digitale, è sufficiente fornire in ingresso a tale filtro un impulso e
digitalizzarne la risposta. Questa è h(n), che inserita nel prodotto di
convoluzione, consente di realizzare l’equivalente digitale del filtro analogico.
Se invece vogliamo ottenere un filtro con una determinata risposta in frequenza,
allora è sufficiente definire H(k) e calcolarne la trasformata di Fourier inversa perottenere h(n), la risposta alPimpulso. Il filtro desiderato viene implementato
tramite la convoluzione.
La risposta all’impulso nei filtri è di durata infinita, cioè h(n) è una sequenza di
lunghezza infinita. La conseguenza è che il calcolo della convoluzione è di
durata infinita, quindi impossibile da realizzare in termini numerici, cioè con un
sistema di calcolo discreto come il calcolatore numerico.
La risposta all’impulso può essere considerata di durata finita comunque dopo un
certo tempo, in quanto le variazioni di ampiezza diventano talmente piccole da
essere trascurabili.
Il filtri FIR (Finite Impulse Response) si basano sull’algoritmo della
convoluzione nell’ipotesi di risposta al l’impulso finita.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 123/241
Modifica del suonoEffetti della risposta finita all’impulso
b(t)t
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
Rendere finita una risposta all’impulso infinita comporta delle conseguenze sulla
natura della risposta in frequenza del filtro.
Se di una risposta all’impulso infinita si ignora una parte, considerandola finita^la risposta in frequenza reale evidenzia delle oscillazioni laterali (ripple) che la
risposta in frequenza ideale non presentava. Ciò comporta che non vi è una
perfetta corrispondenza alle specifiche funzionali del filtro e quindi la necessità
di operare in modo da minimizzare gli scostamenti del comportamento reale
rispetto a quello ideale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 124/241
Modifica del suonoEsempio di restauro di segnale
Segnale contaminato
27/01/2004 Copyright 2002-2003 125
Prof. Mario Malcangi
Una delle più semplici applicazioni del filtraggio FIR è il “moving average”.
Questo filtro consiste semplicemente della media di M campioni:
y(n) = l/M[x(n)+x(n-l)+x(n-2)+ ... +x(n-M)]
Anche se non evidente, la risposta all’impulso di questo filtro è h(n) = [1/M, 1/M,
1/M,. . . , 1/M], una sequenza di lunghezza M.
Questo filtro è utile per la riduzione del rumore a larga banda, in particolare per
la ricostruzione di segnali digitali che attraversano sistemi rumorosi.
Computazionalmente il moving average è un filtro estremamente economico in
quanto non contiene moltiplicazioni (tranne quella per il reciproco del numero di
campioni mediato), quindi può essere implementato anche su processori CISC.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 125/241
Modifica del suonoMoving average: risposta in frequenza
La risposta in frequenza del filtro moving average è di natura passa-basso. I
parametri del filtro, frequenza di taglio, pendenza, ecc., sono determinati dalla
lunghezza della risposta all’impulso, cioè, in questo caso, dal numero di campionimediato.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 126/241
Modifica del suonoW indo wed-Sy nc
Per ottenere un filtro passa basso con le desiderate caratteristiche di risposta in
frequenza si può partire dalla definizione della risposta in frequenza H(k) e
quindi, tramite la trasformata inversa di Fourier, ottenere h(n) da inserire nel
modello di filtraggio basato sulla convoluzione.
La risposta in frequenza di un filtro ideale passa basso è una funzione H(k) che
vale 1 fino alla frequenza di taglio e 0 dalla frequenza di taglio in poi (funzione
impulso di durata finita).
La trasformata inversa di Fourier di H(k) è h(n) = sen(x)/x, cioè la funzione sync.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 127/241
Modifica del suonoWindowed-Sync
A A Risposta all’impulso ideale
00 o
X
+ oo
0 t
AFinestra
o
o t
A f Risposta all’impulso reale
1
o
o t
^ | Risposta in frequenza reale
1
o
f f
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
128
La funzione h(n) = sen(x)/x è di durata infinita e necessita di essere troncata. Iltroncamento netto della risposta all’impulso provoca una modifica della risposta
in frequenza ideale. Sia nella banda passante, sia in quella attenuante, compaionodei ripple. La banda di transizione si estende. La pendenza aumenta. Agli estremidella banda di transizione vi sono delle sovraelongazioni.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 128/241
Modifica del suonoWindowed-Sync
1
o
A Risposta all’irapuJ Iso ideiile
/ \/v , J \ r V v V V
—
X
A a Rispo sta all’impulso reale
o
1
0
Finestra
Risposta in frequenza reale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
129
Gli effetti del troncamento della risposta all’impulso possono essere minimizzati.
Il troncamento di fatto è una operazione di finestratura. Come già osservatonell’analisi del segnale, la finestratura netta è il prodotto tra il segnale da limitare
in durata e la funzione finestra rettangolare. Se la funzione finestra è progressiva
e non netta come quella rettangolare, allora gli effetti del troncamento vengono• •
minimizzati.
Da ciò deriva il nome wìndowed-sync per questa tipologia di filtri passa basso.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 129/241
Modifica del suonoWindowed-Sync
Blackman : w{n) - 0.42 - 0.5cos(2;m./2Àf +1) + 0.08cos(4^7z/2M +1) - M< n < + M
27/01 /2004 Copyright 2002-2003 130Prof. Mario Malcangi
Le tipiche finestre utilizzate per i filtri windowed-sync sono quelle cosenate diHamming e Blackman.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 130/241
La trasformata Z è un caso di trasformazione di dominio di rappresentazione del
segnale più ampio di quello della DFT (Trasformata Discreta di Fourier). Infatti,
mentre la DFT moltiplica e somma i campioni di segnale per un particolarevalore complesso (e"jo)), la trasformata Z può utilizzare per z un qualsiasi valore
complesso. In particolare, quando z = e‘j®allora la trasformata Z coincide con la
DFT.
La trasformata Z, essendo un caso più ampio di trasformazione di dominio di
rappresentazione del segnale, consente di fornire maggiori informazioni circa la
natura del segnale stesso.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 131/241
Modifica del suonoEffetti del ritardo
4|< j)>11 “JIJI ! if tinnì i
m i H » » ? n » •
IV iV ' - I. ir i n i l if » • "
f i l i
l ' r - i f * . ' !4 . | | i . 4 U t y . £
♦ . 1 . I S . | l i
f V | J f ' M » I | J
, r > i• l i » I * i f * <
à I a
i i t . J l i l U I é - S i
Rifilili® t i I .
1nu* ,.uuf.. .‘lii'ifi.t r
1 H ' ......
t i , d r i l l i v *
i : nil :. m i ' :'id':rN“' i l . 1 ' ' ! e3 » J I » * »
V i!
ex[Ll (i] 'rii/
V f ' * J
1 f v 9 1 V f Thè* «
'» * ìl ï I I f ! f â / » r » ï f ï ¡ 1 m U f V è l l l Y ! ”
i - l , ’ ' ' l ' “ ' - I . - , - 1 . 1 ’ . Y ' [ , . 1 1 1 , 1 1 h u i n > * i . ; | r ' i l , "
ï Ih »»M'ini ï HHi Imj ,* * tf»i. * . W 1 n u f I ' J r .1 r . i i I i M ï i j » ,
M *
I 4* ï i». J i ]Im iì 11Mi WhM*. Ui I 11» » 4 , j i l ¡ A h u f
z*1. 11r j ':ir '• •';jyr,ii..1
| f ? » « -w j ì«I »
e( * T)
- n » «..."j'iifi-eJ à i i i 1 « j I
à i » . I t i è ) U i l • è I M I a
Mr .. viyii:.•1 f 4H‘ * H Mi • ♦ .. -, “ * ,
r y - \ r , - 2 T - 3 t - 4
'à i* V 1 ' , ' M , / i
. 1 1 4 . I l i :i'M- n
'rt uniti-"MlpiV! •
.K ' W f ” 1 4 » - f
" i t I I m a'iliIU II] Iï i i , • i . ï > :
" . p .
i i f v W i r Iï . I i i ï l u
\ rftlLli ï fi\f\\ * ti
.
•»• 1 1 .
' i m i
feïS'âfei* ?*$■ • ] f M | | | f f f .
n i . i m a l i ï »?
m r
T , J r ?
1 , 4 1 I I l | f 1 1
m » f . ' * 1 ; i
Futuror a t
i ¡Ilo,:..il
a li
llJirfni I‘IMif - “li1” r ï
* ?» li
. | J 1 là J ï . U . l u p / J l F i l j r i i (
: 111.i,iI 4
• 4 4 I I I I
••a
*ifylHi *jVJ l L , i V i l ^ i |. i ,
ï*
" H I *
è. «Passato
V F.'JI '¡l|r ** m » * ¡ r
. Il I II •» U rI ï I ». ’ «i. \
P I
.
Predizioniil i . r ■ " ”
1
I I
' i t i a
ViiwbiÌT“♦ a
p i u »
»♦' PIMlJW
¡•ì*1' ir 1*n¡'ti’ï » i l »IIIIII ,9f*Tlllf*VUVi
---- ►'Ü1 1 1 .
Ritardiï
, i * S i '
k !r,,.|i
”,1 ’ -'Ni ï, J .i Vìi' •.•.r *I Vili llfflflri I (•
m
I II
li’ilI I l a n , i l
A, I
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
132
Questo effetto di ritardo del segnale, per i sistemi digitali, cioè che trattanosegnali campionati, il ritardo è un multiplo del tempo di campionamento Tc>
quindi nTc, e conseguentemente l’esponenziale complesso nel dominio dellefrequenze è e snTc. Considerando esTc = z, i termini z"n rappresentano i ritardidigitali (z_1è il ritardo unitario, pari ad un intervallo di campionamento)..-1
Conseguentemente, i termini zn sono predizioni, cioè anticipi di presentazione inuscita.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 132/241
I filtri IIR (Infinite Impulse Response) si caratterizzano per la durata infinita
della risposta all’impulso. A differenza dei filtri FIR che richiedono ilcampionamento della risposta all’impulso, i filtri IIR producono la risposta
all’impulso attraverso la retroazione. Questa caratteristica consente di ottenere, in
forma numerica, la stessa funzionalità dei filtri analogici. La trasformata Z ed
altri metodi matematici (ad esempio la trasformata Bilineare) consentono di
modellizzare i filtri analogici per ottenerne l’equivalente modello IIR numerico.
I filtri IIR hanno il vantaggio di essere molto compatti dal punto di vista
computazionale e facilmente parametrizzabili rispetto ai filtri FIR. Per contro
possono essere instabili, difficili da controllare in termini di aritmetica a virgolafissa, non controllabili nella fase e numericamente ingestibili se di ordine troppo
elevati.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 133/241
Modifica del suonoFiltro Passa Basso —Primo ordine
27/01/2004 Copyright 2002-2003 1 3 4
Prof. Mario Malcangi
Il più semplice dei filtri IIR è il filtro RC.
Utilizzando la trasformata Z è possibile derivare l’equivalente numerico del filtro
analogico RC.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 134/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 135/241
Sintesi del suono
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La sintesi del suono è alla base di numerose applicazioni di audio digitale, dalla
realizzazione di strumenti musicali elettronici alla realizzazione di sistemi di
sintesi automatica del parlato. Tutte le metodologie di base, analisi e filtraggio,
concorrono alla implementazione delle principali tecniche di sintesi.
Per approfondimenti: [Moorer 77], [Moorer 75a], [Moorer 75b].
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 136/241
Sintesi del suonoModellazione
x ( n T s) oppure x ( n ) , N < n < N 2 ? n e l
T: perìodo di campionamento
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
138
La sintesi digitale dei suoni consiste nel generare la sequenza di numeri x(n) che
un convertitore analogico-digitale produrrebbe in uscita se in ingresso ricevesse il
suono che si intende sintetizzare.
La sintesi digitale dei suoni può essere ottenuta nel dominio del tempo oppure nel
dominio delle frequenze.
Nel dominio del tempo la sintesi digitale del suono può essere realizzata tramite
la rappresentazione matematica discreta del suono, oppure tramite un modello di
generazione numerica dei campioni del suono da sintetizzare.
4
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 137/241
Il tono puro è un suono che, in accordo con il modello armonico di Fourier, ècostituito da un’unica componente fìrequenziale, ovvero quella pari all’inverso del
suo periodo di oscillazione.
Ad esempio, un tono puro è quello prodotto dall’oscillazione di un diapason.
Questo strumento analogico è uno dei pochissimi che è effettivamente in grado di
generare un suono sinusoidale “quasi puro”.
Il modello numerico del tono puro è derivabile da quello continuo, sostituendo
alla variabile tempo continuo t la variabile tempo discreto (t = nTs ):
A(t) = A • sin(27tF nTs + (p0)
La sequenza N di campioni, equivalente a quella ottenibile campionando per NTS
secondi un suono sinusoidale di ampiezza A, frequenza F, fase iniziale (p0, è
ottenibile a controllo di programma come segue:
for (n=0; n<N; n++)
x(n) = A*sin(2PI*F*n*TC + FI)
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 138/241
Sintesi del suonoTono puro (cont.)
27/01/2004 Copyright 2002-2003 140
Prof. Mario Malcangi
Il suono sinusoidale (tono puro) è un processo ciclico, ovvero i valori numerici
che ne rappresentano il campionamento si ripetono ciclicamente. I valori
numerici (campioni) del suono sinusoidale possono essere derivati dalladiscretizzazione della funzione trigonometrica seno. E’ sufficiente discretizzare
un singolo ciclo in quanto i successivi cicli sono una ripetizione identica dei
valori numerici del primo ciclo (funzione periodica).
Ciò porta al modello di generatore sinusoidale Look-Up Table (LUT): un periodo
della forma d’onda sinusoidale viene memorizzato in un blocco di memoria,
quindi tali valori vengono estratti (letti) ciclicamente e inviati a intervalli di
campionamento (Tc) al convertitore D/A.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 139/241
Sintesi del suonoTono puro (cont.)
tempo
tempo
Tabella
LUT
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
141
1 campioni sinusoidali contenuti in una tabella (blocco di memoria) letti tutti in
sequenza e ciclicamente consentono di generare una frequenza pari all’invero del
periodo determinato dal numero di intervalli di campionamento necessari per la
completa lettura della tabella: F ^ l/f S Tc).
Ulteriori frequenze (fondamentali) possono essere generate dalla medesima
tabella utilizzando opportunamente le tecniche di decimazione e di
interpolazione. Ad esempio, una decimazione 2:1 porta ad ottenere una frequenza
fondamentale pari al doppio di quella ottenibile dalla lettura 1:1 della tabella: F,=
2 Fj=l/(4 Tc).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 140/241
Sintesi del suonoLook-up table (LUT)
yr
Tabella
Controllo
ampiezza
0 *
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La sintesi di segnali look-up table (a forma d’onda memorizzata), consente di
generare qualsiasi suono si cui si conosca la forma d’onda di base.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 141/241
Sintesi del suonoTono puro (cont.)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
143
L’implementazione di un generatore LUT è relativamente semplice in quanto
implica l’utilizzo di una porzione di memoria (tabella) per contenere i campionidella sinusoide, di un meccanismo programmabile di indirizzamento per la
generazione della frequenza desiderata e di un moltiplicatore per il controllo
dell’ampiezza della sinusoide generata prima che venga fornita al convertitore
D/A.
Questo meccanismo di base può essere esteso con facilità quando viene
implementato in termini di programmazione per avere il completo controllo della
generazione (frequenza, ampiezza e fase). Inoltre, essendo un modulo software,
può essere replicato più volte per ottenere un banco di generatori combinabili traloro tramite un mixer.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 142/241
Sintesi del suonoCaratteristica dinamica del suono (es. clarinetto)
attaccotenuta
decadimento
0
0-
--------1- 1
0 0.15: __
0.155
0 dB -,
0.158 0.161 0.164t (ms)
fondamentale
1
- I r _ L ±l±id ULl — _
0 1.25 2.5 3.75 5.0 6.25f (kHz)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi144
Il modello stazionario di sintesi non è adeguato alla sintesi di suoni reali,
soprattutto quelli prodotti dagli strumenti musicali.I suoni reali si caratterizzano prima per la modulazione d’ampiezza: l’ampiezza
del segnale varia in continuazione durante tutta la sua manifestazione.
L’andamento di questa caratteristica viene descritta tramite l’inviluppo di
ampiezza.
L’inviluppo di ampiezza caratterizza il suono attraverso le tre fasi principali:
attacco, tenuta e decadimento.
Durante la fase di attacco e decadimento lo spettro del suono è scarsamente
stazionario. Dutante la fase di tenuta lo spettro del suono è abbastanzastazionario.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 143/241
Sintesi del suonoDinamica dell’ampiezza (es. clarinetto)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
145
L’inviluppo di ampiezza di un suono reale non è riconducibile ad una semplice
segnale
unaattacco e decadimento al suono stazionario. Ogni componente frequenziale d
suono è sottoposta ad una specifica modulazione d’ampiezza.
L’analisi frequenziale di un suono di uno strumento evidenzia una differente
variabilità dell’ampiezza delle componenti ffequenziali: globalmente le
componenti seguono l’andamento di massima dell’inviluppo d’ampiezza del
suono, ognuna con una sua specifica caratteristica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 144/241
Sintesi del suonoJitter della frequenza (es. clarinetto)
F(kHz)
0
0 100 200 300 400 t (ms)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
146
Le componenti del suono, oltre a caratterizzarsi per una specifica variabilità
d’ampiezza, si caratterizzano anche per una specifica variabilità della frequenza,
cioè la frequenza caratteristica della singola componente del suono risultamodulata in ampiezza.
Il processo di variazione nel tempo della frequenza della componente è
descrivibile in termini di inviluppo, in questo caso si parla di inviluppo di
frequenza.
Ogni componente si caratterizza per un suo specifico inviluppo di frequenza, che
comunque globalmente segue di massima un andamento globale caratteristico
proprio dello specifico suono.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 145/241
Sintesi del suonoPrime due componenti di un suono di clarinetto
Prima armonica Seconda arm onica
CÖ
¡3<Dcl
a
s<Dicr ,e
t em po
tem po
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
147
La sintesi del suono implica il completo controllo di ogni singola componente in
termini di variabilità dell’ampiezza e della frequenza, per tutta la duratacomplessiva del suono.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 146/241
Sintesi del suonoSintesi additiva basata su LUT
27/01/2004 Copyright 2002-2003 148
Prof. Mario Malcangi
La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si
conosce la struttura armonica. Ogni componente armonica può essere sintetizzatada un generatore LUT. Ogni sintetizzatore LUT può essere controllato in
ampiezza, frequenza e fase in maniera dinamica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 147/241
Sintesi del suonoSintesi additiva (cont.)
Amp 1
Freq 1
OOO
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
149
La sintesi additiva consente di generare virtualmente qualsiasi suono di cui si
conosce la struttura armonica. Ogni componente armonica può essere sintetizzata
da un generatore LUT. Ogni sintetizzatore LUT può essere controllato inampiezza, frequenza e fase in maniera dinamica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 148/241
Sintesi del suonoSintesi additiva
É A t ( n ) s i n {n T \ k a j , + 2 ^ F 1( n ) ] } k = \
n: indice di campionamento (t=nTs)Ts: periodo di campionamento (Ts=l/Fs)
pulsazione della fondamentale in radianti (co j =2nf j)f x: frequenza della fondamentalek: indice di armonica
Ak(n): variazione ampiezza dell’armonica k al tempo nTsM: numero totale delle armonicheFk(n): deviazione della frequenza della k-esima armonica al tempo nTs
27/01/2004 Copyright 2002-2003 150Prof. Mario Malcangi
La sintesi additiva è una tecnica di generazione di suoni che opera nel dominio
del tempo sulla base di informazioni acquisite in fase di analisi ffequenziale:ampiezza, frequenza e fase delle componenti frequenziali di un suono.
La sintesi additiva è di natura armonica, nel senso che le frequenze dellecomponenti sono multiplo della frequenza fondamentale del suono oggetto disintesi.
Questo modello di sintesi additiva consente di includere informazioni relativealla variabilità dell’ampiezza e della frequenza delle componenti armoniche.Ak(n) e Fk(n) sono infatti due funzioni discrete del tempo che descrivono, per
ogni componente armonica k, come, campione per campione, rispettivamentel’ampiezza o la fase della componente varia.
Ak(n) rappresenta l’inviluppo d’ampiezza della k-esima componente del suonooggetto di sintesi. Con tale funzione è quindi rappresentare, componente per
* • ' j •
componente, l’esatta dinamica (attacco, tenuta e decadimento) che caratterizza unsuono reale (ad esempio un suono di pianoforte oppure di tromba). QuestocontrolIa.dell3_diuamica di amqiezza effettuato nel dominio delle frequenze èmolto più realistico del controllo della dinamica del suono effettuato nel dominiodel tempo, in quanto nei suoni fisici ogni componente armonica ha una sua
specifica dinamica d’ampiezza che contribuisce alla caratterizzazione timbrica.
Poiché i suoni fisici non sono perfettamente armonici ma quasi armonici, lasintesi additiva prevede, tramite la funzione Fk(n) di includere questeinformazioni di scostamento della componente dal rapporto armonico.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 149/241
Sintesi del suonoSintesi additiva (cont.)
n + N - \
X x (m )sm (2 7 T
m -n F
m ) b k{ n )
n+ N - 1
x{m)cos(2;rm = n
F
m)
A («) = J a 2k (n ) + b] (ri) O Xn ) , m , ( « ) x
tan (—---- ) bX
F M 1 d d k ( n )
2 TC d t
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
151
La sintesi additiva basata sull’analisi implica l’estrazione delle informazioni
Ak(n) e Fk(n) dal suono x(m) che si desidera sintetizzare. Queste informazioni
non sono derivabili tramite un opportuno adattamento dell’analisi armonica di
Fourier [Moorer 75a] [Moorer 75b].
La finestra di analisi è uguale al numero di campioni del periodo fondamentale
della forma d’onda del suono oggetto di analisi. Ciò implica una stima
preventiva e molto precisa della frequenza fondamentale (pitch) del suono. Le
componenti calcolate sono la fondamentale e tutte le sue armoniche (multipli
interi della fondamentale).
La finestra di analisi di N campioni viene spostata nel tempo di un campione per
volta, in modo da campionare l’inviluppo dello spettro del suono a intervalli di
campionamento, quindi con la massima risoluzione temporale consentita dalla
frequenza di campionamento.
In tal modo si ottiene la parte reale bk(n) e la parte reale ak(n) dello spettro del
suono, da cui vengono derivate l’ampiezza Ak(n) e la fase Sk(n).
\ ( n ) .
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 150/241
Sintesi del suono
Sorgente ar onica
Sintesi sottratti va
ÀAAAÀAAAA
x ( n ) = (?!«,*(« - Z - k )
7 = 0 &=1
ak, bk : coefficenti del filtro con fun zione di tra sferim ento H(z)G : guadagno globales(n): segna le sorgentey(n): segnale sintetizzato___________________________________________________
27/01/2004 Copyright 2002-2003 152Prof. Mario Malcangi
La sintesi sottrattiva è un processo inverso rispetto a quello della sintesi additiva:invece di aggiungere componenti partendo dalla completa assenza di armoniche,
si sottraggono (modificano) componenti armoniche da un segnale particolarmentericco di componenti frequenziali (il rumore bianco per ottenere suoni inarmonicie aperiodici o il treno di impulsi per ottenere suoni armonici e periodici).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 151/241
Sintesi del suonoSintesi FM (Modulazione di frequenza)
Deviazione Frquenza
modulante (ß)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
153
La modulazione di frequenza (FM) è una tecnica di generazione dei segnali che
ottimizza la problematica della sintesi dei suoni soprattutto quando la complessità
del suono è tale da rendere impraticabile sia la tecnica additiva, sia la tecnicasottrattiva, come appunto avviene per la generazione dei suoni di natura
musicale.
La sintesi FM consente di generare suoni con spettri frequenziali molto complessi
e soprattutto dinamici, ovvero con frequenze, ampiezze e fasi che variano con
continuità per tutta la durata del suono.
Per ottenere la modulazione FM è sufficiente disporre di due generatori
sinusoidali controllabili in ampiezza e frequenza e combinabili opportunamente
tra loro proprio secondo uno schema di modulazione di frequenza.
E5proprio questa semplicità del modello di sintesi a rendere la tecnica FM molto
comptetitiva (soprattutto in termini computazionali) rispetto alle altre tecniche,
soprattutto in applicazioni di natura aduio musicale, ove la complessità e la
dinamica spettrale dei suoni da produrre è talmente elevata da rendere proibitiva
l’applicazione di qualsiasi altra tecnica tranne appunto la FM.
I
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 152/241
Sintesi del suonoSintesi FM: modello matematico
/ ( t )= A [sin a t + I sin f it]
A : ampiezza di picco
I : indice di modulazione
a : frequenza portante (carrier) in rad/s
P : frequenza modulante in rad/s
27/01/2004 Copyright 2002-2003 154
Prof. Mario Malcangi
La sintesi FM (Frequency Modulation) dei suoni è una tecnica non basata
sull’analisi del suono per ottenere i dati necessari alla generazione. Questa
caratteristica è indubbiamente vantaggiosa rispetto alla sintesi additiva e
sottrattiva basata sull’analisi, ma anche uno svantaggio in quanto non vi è diretta
corrispondenza tra i parametri di controllo della modulazione FM e la natura del
suono che si vuole generare. Tranne che per casi semplici, è difficile se non
impossibile stabilire a priori quali possano essere i corretti parametri di
modulazione FM per ottenere uno specifico suono complesso e dinamico.
La tecnica FM consiste nel variare la frequenza istantanea di un’onda portante
(solitamente un’onda sinusoidale) in funzione dell’andamento di un’altra onda
detta modulante. Nelle applicazioni di telecomunicazione l’onda modulante è il
segnale radio che si vuole trasmettere, mentre nelle applicazioni audio l’onda
modulante ha la funzione di produrre componenti armoniche laterali rispetto alla
frequenza della portante, ottenendo così da un semplice segnale sinusoidale un
segnale ricco di armoniche.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 153/241
Sintesi del suonoSintesi FM: funzione dell’indice di modulazione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
155
La proliferazione delle componenti frequenziali nella sintesi FM audio è
controllata dall’indice di modulazione. Quando l’indice di modulazione è nullo
(1=0), non vi è modulazione e lo spettro del segnale consiste di una solafrequenza, quella della portante: il segnale sintetizzato è un tono puro (sinusoide).
Quando I è diverso da zero, al crescere dell’indice di modulazione viene sottratta
crescente energia alla portante. Tale energia sotratta alla portante viene
distribuita su un numero crescente di componenti frequenziali laterali (side
frequency). Dunque, il suono da corposo diventa sempre più sottile al crescere di
I.
Le componenti frequenziali laterali si manifestano a intervalli regolari dipendenti
dalla frequenza di modulazione.
Lo spettro risultante dipende quindi dall’indice di modulazione relativamente alla
larghezza di banda e dalla frequenza di modulazione relativamente alla
distribuzione frequenziale.
La banda totale è circa pari a 2(d+m), ove d è la deviazione di frequenza ed m è
la frequenza di modulazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 154/241
Sintesi del suonoFunzioni di Bessel
11
0.5 —-
0
Indice di modulazione
0.5
0
Componenti laterali di 4° ordine (J4)
0.5 -f----------------------------------
0
Componenti laterali di 2° ordine (J2)
Componenti laterali di 3° ordine (JQ
Indice di modulazione
Componenti laterali di 5° ordine (J5)
Indice di modulazione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
156
L’ampiezza della portante e delle componenti laterali del segnale FM è
determinata dalle funzioni di Bessel il cui argomento è l’indice di
modulazione I. Osservando le funzioni di Bessel per i vari ordini si puòcapire la ragione dell’arricchimento frequenziale determinato dal crescere
dell’indice di modulazione. In particolare, eseguendo l’espansione
trigonometrica della modulazione di frequenza [Abramawitz 65] si ottiene:
f(t)= A {J0(I) sinat + Jj(I)[sin(a+fi)t-sin(a-(3)t] +J2(I)[sin(a+2/3)t+sin(a-
Tale identità trigonometrica consente di evincere che la sintesi FM è in
grado di produrre sequenze di componenti che, sotto determinate
condizioni possono essere in rapporto armonico. Ciò accade in particolare
quando il rapporto tra la frequenza portante fc e la frequenza modulante fm
è un numero razionale.
Per esempio, quando fc=fm allora:
J5(I)sin(4fJ+...
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 155/241
Sintesi del suonoSintesi FM: modello discreto
x ( n ) = A { n ) sin[ 2 n f n T t + 7(«)sin( 2 jrfmnT
A(n): ampiezza globale (inviluppo)
I(n): indice di modulazione
fc : frequenza portante (carrier)
fm : frequenza modulante
Ts : periodo di campionamento
27/01/2004 Copyright 2002-2003 157
Prof. Mario Malcangi*Il
La sintesi FM di suoni complessi, come ad esempio quelli degli strumenti
musicali implica un controllo variabile dell’ampiezza di picco A e dell’indice dimodulazione I. Entrambi questi fattori di controllo della dintesi FM sono funzioni
del tempo, cioè A(t) e I(t).
Il modello discreto della sintesi FM si ottiene discretizzando queste funzioni e le
funzioni sinusoidali portante e modulante.
La funzione A(n) controlla l’inviluppo di ampiezza del suono (attacco, tenuta e
decadimento). Questa è una funzione lentamente variabile (rispetto alla velocità
di variazione della portante), quindi viene campionata a bassa frequenza.
La funzione I(n) controlla la dinamica delle componenti spettrali. Questa è una
funzione lentamente variabile (rispetto alla velocità di variazione della
modulante), quindi viene campionata a bassa frequenza.
La portante e la modulante vengono campionate alla frequenza di
campionamento determinata dalla frequenza massima di banda che si vuole
ottenere, tipicamente nel caso audio oltre i 40000 Hz.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 156/241
Sintesi del suonoEsempio 1
il ir ooctfo'*.'m r M w j x s . h *
o o . 0 0 . 0 0 . 4 :* r f T ' dc ocoìm.-0 V V V , W r 3 * ï ' T
. * i V > C S > » > 0
f T [ ì O Ó O f l .Q Ì > } ! fi
& Ö . Ö O 0 0 , 1 * 4
> X » . ^ p . ìK > . O C i f
2496Ufi&n Ì A % 9
fllKHäHtem
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
In questo esempio di sintesi FM l’ampiezza A(n) della portante viene tenutacostante, mentre l’indice di modulazione viene fatto crescere in maniera costante.
La frequenza della portante è uguale a quella della modulante e ciò consente diavere uno spettro armonico e monolaterale (one-sided).
Lo spettro risultante è dinamico, anche in assenza della modulazione diampiezza, in quanto l’armonica fondamentale, al crescere dell’indice dimodulazione tende ad attenuarsi, mentre le armoniche superiori, assenti nella faseiniziale, si evidenziano per valori alti dell’indice di modulazione.
L’indice di modulazione controlla la struttura frequenziale sia in termini direlazione tra la fondamentale e le armoniche successive, sia in termini didinamica delle armoniche, quindi consente di costruire la base timbrica delsuono.
Le famiglie di strumenti musicali (a corda, a fiato, a percussione, ecc.) hannosostanzialmente la stessa base timbrica (struttura armonica stazionaria), e sidifferenziano per la differente dinamica (attacco, tenuta e decadimento).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 157/241
Sintesi del suonoEsempio 2
Mi*nil ir Wli Irli "*
I » * ! ùn (>$.**.?ìi l J iy oooooo;m
|||If WWW7*l l r 0 0 . 0 0 , 0 0 . 5 M
r f o d o o û ô , 2 < ô • *
« O . O O . O f r ,« * * ; -
oo.oo.oo.Ui4iil.lLJl_.J_.B ill
A n
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi*III
La funzione di modulazione di ampiezza A(n) consente di conferire al suono
prodotto dalla modulazione di frequenza controllata dalla funzione indice di
modulazione I(n) la specificità dello strumento musicale nel contesto di unafamiglia di strumenti.
I suoni prodotti dagli strumenti musicali, in particolare quelli armonici, si
caratterizzano per una specifica dinamica d’ampiezza
In questo secondo esempio viene simulato il suono di una tromba modellando
con A(n) il suo tipico inviluppo di ampiezza (attacco non molto rapido, una
tenuta leggermente decrescente e un decadimento un po ’ più lento dell ’ attacco) e
la struttura ffequenziale facendo evolvere l’indice di modulazione in modo simile
all’inviluppo di ampiezza A(n).
II risultato della sintesi è abbastanza buono in quanto la percezione uditiva del
timbro di uno strumento come la tromba è chiara. Ovviamente si percepisce la
natura sintetica in quanto mancano caratteristiche di variabilità casuale tipiche
dello strumento reale. La sintesi FM da sola non è in grado di conferire al suono
tali caratteristiche naturali, ottenibili comunque introducendo altri elementi di
modulazione, ad esempio della frequenza della fondamentale durante la fase
iniziale dell’attacco.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 158/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 159/241
Analisi e sintesi della voce
L’elaborazione del segnale vocale è un caso particolare della problematica più
ampia dell’elaborazione del segnale audio. Le problematiche di elaborazione
dell’informazione di segnale vocale sono più complesse di quelle
dell’elaborazione del segnale audio in generale in quanto la natura
dell’informazione codificata nel segnale vocale è di complessità superiore
rispetto a quella del segnale del segnale audio, anche rispetto all’audio musicale.
Il parlato, codificato nel segnale vocale, è un’informaione strutturata con
caratteristiche informative di segnale elementari (ampiezze e frequenze) e
caratteristiche di segnale complesse (fonemi, articolazione, prosodia, parole,
frasi, semantica, ecc.).
Le principali applicazioni, la sintesi e il riconoscimento del parlato, fanno
riferimento alle tecniche di analisi, modifica e sintesi dei segnali, oltre che ad
altre tecniche come la programmazione dinamica e la modellazione dei sistemi,
per risolvere le più o meno complesse problematiche implicate.
Per approfondimenti: [O’Shaughnessy 87)
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 160/241
Analisi e sintesi della voceCampi Applicativi
27/01/2004 Copyright 2002-2003 162
Prof. Mario Malcangi *Il
La gamma applicativa dell’elaborazione del segnale vocale è molto ampia e
fondamentalmente articolata sui tra filoni fondamentali: sintesi, riconoscimento e
codifica.Il riconoscimento si riferisce sia al messaggio verbale, sia alla natura
identificativa del parlatore (impronta vocale) per applicazioni biometriche.
La sintesi si riferisce alla generazione automatica del parlato, in particolare
partendo dal testo alfanumerico. La sintesi è anche alla base delle tecniche di
compressione in quanto necessarie per la ricostruzione del segnale vocale
compresso.
La codifica è la tecnica che consente di realizzare applicazioni come la
comunicazione e la memorizzazione del segnale vocale, oltre a rappresentare la base per la compressione dell’informazione di segnale vocale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 161/241
Analisi e sintesi della voceSistema fonatorio
27/01 /2004 Copyright 2002-2003 163
Prof. Mario Malcangi
La voce ha origine dalla compressione e successiva emissione di aria che avviene
nei polmoni e transita nella trachea. Successivamente nella laringe, che contienele corde vocali, si genera il segnale acustico (onda di pressione) che può essere di
due tipi diversi:
- vocalizzato: si genera un treno d’impulsi caratterizzato da una determinata
frequenza di ripetizione (fondamentale, pitch, 80-160 Hz per la voce maschile,
160-400 Hz per quella femminile), determinata dalla tensione delle corde vocali,
che viene controllata in retroazione attraverso l’udito e il cervello;
-non vocalizzato: si genera rumore ad ampio spettro per la non chiusura delle
cartilagini di tenuta delle corde vocali.Il
Il segnale acustico viene poi modulato nel tratto vocale dalla forma del tubo
acustico data, fondamentalmente, dalla lingua. Ogni particolare forma del tratto
vocale ha delle frequenze naturali che producono dei picchi, sempre a talifrequenze, nel suono uscente dalla bocca, le fo rm anti .
Il contenuto energetico del segnale acustico è è concentrato principalmente
durante la fase di vocalizzazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 162/241
Analisi e sintesi della voceDigitalizzazione
Segnale
vocale
analogico
ao
60
*o
20
I • : » ’
—Filtraggio
Passa-Basso
0-4 kHz•
èèfj»iif Ti r
r ' » t * I
I
»•:. r.. i«Ifj,V w'
27/01/2004
oooFrequenza (Hz)
' V.
i'.
Lr/iITlJlmi in. 7 Ti, '
c,fili],Ilf.'l
v
a mp tonarne-æ m à / m ‘’’Mi
8 kHz
ntoV!!*
1
.•I».
I*|i »à4iI il -1 VI- ‘II 1 1 1 1 .1 • . . é ìffel: I
Quantizsazione
Lineare/non lineare
7-16 bitni:■Mi
Sistema di conversione A/D della voce
Copyright 2002-2003Prof. Mario Malcangi
Segnale
vocale
digitale
164
Il segnale vocale è caratterizzato da componenti frequenziali significative nella banda 100-3000 Hz. La frequenza di campionamento viene quindi fissata a 8KHz.
La gamma dinamica è contenuta entro i 60-70 dB. Il numero di bit diquantizzazione può essere fissato da un minimo di 7 ad un massimo di 16 bit.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 163/241
Analisi e sintesi della vocePreeenfasi
Lo spettro del segnale vocale si caratterizza per un rapido decadimento delle alte
frequenze. Ciò impedisce agli algoritmi di modellazione del tratto vocale, in
particolare la LPC, di operare in maniera efficace. Per aumentare l’efficacia diquesti algoritmi, è opportuno processare preventivamente il segnale vocale con
un filtro di pre-enfasi:
H(z) = 1-az"1
ovvero
y(n) = x(n)-ax(n-1) a=0,9375
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 164/241
Analisi e sintesi della voceShort-term Fourier analysis
X ( n ) - ¿ y v ( / z -m)x(m)e~J 50%di sovrapposizione
w(n)= 0 .54 -0 .4 6 cos r2rcn
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
166
La trasformazione tempo-frequenza di Fourier viene applicata ad una porzione di
segnale di 10-20 millisecondi.
Per minimizzare V effetto della finestratura viene usata la finestra di Hamming.La sovrapposizione (al 50%) delle finestre è necessaria per minimizzare l’effetto
di attenuazione del segnale ai margini della finestra.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 165/241
Analisi e sintesi della vocePitch, formanti e zero-crossing rate
n- ly . .. *■, 1 •' • ,nf.' Il 4 , ■ ,1. I M M,.. Il " ' ICiMmsl!* . I. ,l ''ll'V 1•! *v 111 ** m■ . i r l i •• \ , * ; j i v , . . ’ . u J 1
......................... V • • h . .. .. .................................................
/ \/ \ / \ -/ \ / \ A/ \ / « mm m \ / \
• f *1" - 11
r i te'iw P•* TPMT’
•r ih
i *ii « t ••
, 1V'ihrCil4,r i-
Il segnale vocale è costituito da due entità informative fondamentali: il pitch e le
formanti. Queste due informazioni sono sovrapposte tra loro, quindi nonfacilmente identificabili (e quindi separabili) sia nel dominio del tempo, sia nel
dominio delle frequenze. Queste due informazioni di segnale sono il risultato del
prodotto tra il segnale di eccitazione e la risposta in frequenza del tratto vocale.
Questo prodotto corrisponde nel dominio temporale alla convoluzione: lo spettro
presenta il pitch distribuito sulle formanti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 166/241
Analisi e sintesi della voceAutocorrelazione
L’autocorrelazione (caso particolare della correlazione) è un algoritmo
matematico particolarmente utile per evidenziare la presenza di pitch nel segnalevocale ed eventualmente misurarlo (calcolo del periodo di ripeticione, cioè della
frequenza): la funzione di autocorrelazione di una porzione di segnale vocale
R(k) presenta un massimo assoluto per k = 0 e una serie di massimi relativi per k
>0.
I massimi relativi sono indicativi della presenza di pitch e la posizione k è indice
di periodo di ripetizione (frequenza) del pitch.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 167/241
Analisi e sintesi della voceLinear Predictive Coding (LPC)
• La codifica predittiva lineare (LPC)consente di stimare un modello deltratto vocale in termini di parametri diun filtro
• Il tratto vocale viene modellizzatocome un filtro IIR a soli poli
H ( z ) = i ^ = --------9.--------1+ axz A +... + a p[z~P
x(n) = Gs (n) - aty( n -1) - . . . - a py ( n - p )
• Il segnale vocale è una combinazionelineare dei campioni precedenti e dei
segnale di eccitazione: i coefficenti
cambiano fraine per trame
tempo
27/01 /2004 • Copyright 2002-2003 169
Prof. Mario Malcangi
La codifica predittiva lineare (LPC) è un importante algoritmo che consente di
stimare il contenuto informativo relativo alle formanti. Essendo le formanti le
risonanze caratteristiche del tratto vocale, la LPC consente di modellizzare iltratto vocale in termini di filtro equivalente.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 168/241
Analisi e sintesi della voceCepstrum
e(n) = sorgente di eccitazione
v(n) = risposta tratto vocale
x(n)=segnale vocale
x(n)=e(n)*v(n) - convoluzione
X(k)= spettro del segnale vocale
X(k)=E(k)V(k) - prodotto
log(EV) = log(E)+log(V)
1 I
cM) = — ¿log|X(A:)|e "iv
Il termine CEPSTRUM deriva dalla
parafrasi di SPECTRUM, e diconseguenza tutti gli altri termini:
Quefrency Frequency
Rahmonics Harmonics
Gamnitude Magnitude
Saphe Phase
Lifter Filter
Short-pass Lifter Low-pass FilterLong-pass Lifter High-Pass Filter
27/01 /2004 Copyright 2002-2003
Prof. Mario Malcangi
Il Cepstrum è un algoritmo di analisi del segnale, derivato dalla trasformata di
Fourier, capace di evidenziare allo stesso tempo sia il pitch che l’inviluppo delleformanti del segnale vocale, cioè la frequenza della sorgente di eccitazione e
l’ampiezza e la frequenza delle formanti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 169/241
Analisi e sintesi della voceSintesi
27/01/2004 Copyright 2002-2003 171
Prof. Mario Malcangi
Avendo a disposizione un modello di analisi del segnale vocale capace di
evidenziare e misurare le informazioni vocali caratteristiche, è possibile costruire
un sistema di sintesi artificiale del segnale vocale basato fondamentalmente sudue generatori di segnale (armonico e inarmonico), un sistema di commutazione
tra i due generatori e un sistema di filtraggio programmabile che modellizza
dinamicamente il tratto vocale durante le fasi di fonazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 170/241
Analisi e sintesi della voceRiconoscimento
Le informazioni ottenute con le varie tecniche di analisi possono essere utilizzate
per realizzare applicazioni di riconoscimento automatico del parlato.
Ad esempio, se si programma un filtro con le informazioni relative ad una
porzione di segnale vocale, in modo che questo sia caratterizzato da ima risposta
in frequenza inversa di quella che corrispondentemente aveva il tratto vocale
durante la fonazione di tale porzione di segnale, applicando in ingresso a tale
filtro una porzione di segnale vocale qualsiasi, il segnale di uscita conseguente è
indicativo della identità (similarità) di tale segnale rispetto a quello di
modellazione. Se in ingresso si applica lo stesso segnale vocale utilizzato per
modellizzare il filtro inverso, l’uscita (residuo) è un segnale nullo.
Il modello di riconoscimento stima la natura del segnale residuo per decidere in
merito al riconoscimento.
La programmazione del filtro inverso corrisponde alla fase di addestramento dei
sistemi di riconoscimento automatico del parlato.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 171/241
Analisi e sintesi della voceDynamic Time Warping (DTW)
27/01/2004 Copyright 2002-2003 173
Prof. Mario Malcangi
Il segnale vocale ha caratteristiche dinamiche particolarmente variabili: la
fonazione della stessa parola può avvenire lentamente o rapidamente. Ciò rende
particolarmente difficoltosa l’attività di confronto tra il profilo informativo della parola da riconoscere e quella di riferimento (modello, template).
La programmazione dinamica è una delle tecniche utilizzate per il confronto
dinamico di sequenze simili dal contenuto informativo, ma dilatati (o compressi)
rispetto al tempo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 172/241
i
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 173/241
Compressione del suono
27/01/2004- Copyright 2002-2003
Prof. Mario Malcangi
La compressione del suono è fondamentale per ottenere applicazioni che consentono di
comunicare e/o memorizzare informazioni audio in maniera efficiente. Il segnale audiocontiene molta ridondanza informativa, che opportunamente identificata, può essere
rimossa allo scopo di ridurre la quantità di informazione codificata.
Esistono numerose metodologie per la riduzione della ridondanza di informazione nel
segnale audio allo scopo di ottenere la cosiddetta compressione del segnale. La scelta di
una metodologia di compressione, tra le svariate disponibili, dipende da diversi fattori, tra
cui importanti sono la complessità computazionale e la qualità della riproduzione.
La complessità computazionale di solito cresce al crescere del rapporto di compressione e
ovviamente incide sulle prestazioni real-time del sistema. Nel dominio del tempo la
complessità computazionale è medio-bassa, mentre nel dominio delle frequenze la
complessità è medio-alta.
La qualità della riproduzione di un segnale audio compresso (previa decompressione)
cresce con il bit-rate, quindi non è possibile in generale abbassare il bit-rate senza
degradare il segnale. Malgrado questo inevitabile effetto collaterale, il degrado del
segnale conseguente alla compressione e successiva decompressione del segnale audio,
può essere non percepibile.
Ci sono metodologie di compressione che comunque non comportano perdita di
informazioni (lossless) e quindi consentono di ricostruire il segnale originario, ache secon una certa aggiunta di rumore, mentre altre metodologie comportano perdita di
informazioni del segnale, non più recuperabili dopo la decompressione (lossy).
1metodi lossless ottengono rapporti di compressione inferiori a quelli lossy.
Per approfondimenti: [AA.VY. 96], [Jayant 97].
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 174/241
Compressione del suonoBit rate
Formato audio (dinamica tipica)
Frequenza di campionamento
Gammafrequenziale
Bit rate kbit al secondo
Telefonia (48 dB)
CD (96 dB)
DAT (96 dB)
8 kHz
44.1 kHz
48 kHz
200-3400 Hz
20-20000 Hz
20-20000 Hz
64 kbps
1411,2 kbps
1536 kbps
27/01/2004 Copyright 2002-2003 176
Prof. Mario Malcangi
La misura dell’informazione codificata in forma numerica è fondamentale per la
valutazione della complessità deH’informazione in rapporto allo spazio che essa
occupa quando viene memorizzata e al tempo che impiega per essere trasmessa.La misura dell’informazione del segnale numerico consiste nel numero di simboli
al secondo necessari per la sua codifica. Data la natura binaria della codifica
numerica del segnale, la misura dell’informazione è in termini di bit al secondo
(bps, bit/s). Questa misura si chiama bit rate.
Il bit rate dipende principalmente dalla banda frequenziale e dalla dinamica tipica
del segnale, quindi si ottiene dal prodotto della frequenza di campionamento per
il numero di bit di quantizzazione. Questo è il bit rate di base, che, come accade
per esempio per il CD, va ulteriormente moltiplicato per il numero di canali(destro e sinistro), per determinare l’effettivo bit rate di sistema e quindi, in
questo caso, la quantità di memoria CDROM necessaria per una specifica durata
dell’informazione audio oggetto di registrazione su tale media. — - * «
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 175/241
Compressione del suonoAlgoritmi e standard di codifica
Standard Algoritmo Applicazione Bit rate (kbps)
CCITT G.711 A/Mu Law PCM Telefonia fissa64CCITT G.721 ADPCM Telefonia fissa 32
CCITT G.722 Subband ADPCM Teleconferenza 32-64
ITU-T G.728 LD-CELP Telefonia fissa 16
TIA IS-54 VSELP Telefonia mobile 0.8-8.5
TIA IS-96 QCELP Telefonia mobile 8
ETSI GSM VSELP Telefonia mobile 5.6
NSA FS1015 LPC10E Telefonia sicura 2.4
NSA FS1016 CELP Telefonia sicura 4.8
ISO MPEG-1 Musicam/ASPEC Audio (stereo) 128-384
ISO MPEG-2 Vari Audio (5 canali) 320-384
27/01/2004 Copyright 2002-2003 177
Prof. Mario Malcangi
La codifica del segnale audio digitale è finalizzata a ridurre la quantità di
informazione codificata eliminando le ridondanze. Vari algoritmi di codificasono stati studiati e implementati a questo scopo sia per le applicazioni vocali che
per le applicazioni audio a larga banda.
Quando questi algoritmi sono stati utilizzati in applicazioni di ampia portata,
come la telefonia, la radiocomunicazione e la memorizzazione sui media, le
principali organizzazioni di standardizzazione sono intervenute per definire
specifici modelli applicativi di riferimento.
Soprattutto in campo telefonico, fino a tempi molto recenti, NordAmerica e
Giappone (TIA, JDC, ecc.) hanno definito propri standard, mentre l’Europa(CCITT, ecc.) ha invece definito i propri.
Vari sono stati gli algoritmi di codifica messi in campo in tali standard, con
l’obiettivo comune di ottenere il bit rate più basso possibile compatibilmente con
il minimo livello accettabile di degrado dell’informazione di segnale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 176/241
Compressione del suonoCompressione della dinamica
27/01 /2004 Copyright 2002-2003
Prof. Mario Malcangi178
La compressione della dinamica contribuisce a migliorare il rapporto di
compressione nei sistemi di codifica in quanto migliora il rapporto
segnale/rumore per i piccoli segnali, quindi consente di diminuire i bit di codifica
senza peggiorare il rapporto segnale/rumore di quantizzazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 177/241
Compressione del suonoPulse Code Modulation (PCM)
...in
. . .no
...101
...100
...Oli
...010
...001
...000
..100 ...101 ...101 ...100 ...010 ...001 ...000
A
¡
^ r —
»//
té ■>■
S ___ ■ -
\> 1v iV*•
i --------------1— — r ~ — r ~ — i— ! — i --------------1--------------r
1 0 1 1 0 1 0 * * * •
Q n
Voce analogica cam pionata a 8 kHz e qu antizza ta a 8 bit
Musica analogica cam pionata a 44,1 kHz e qu antizza ta a 16 bit
64000 bit/s
705600 bit/s
Bit Rate
27/01/2004- Copyright 2002-2003
Prof. Mario Malcangi
179
*
Il punto di partenza è il segnale campionato e quantizzato correttamente. Questo
segnale viene chiamato Pulse Code Modulation (PCM).I 4 ^
La quantità di informazione che caratterizza il segnale PCM si misura in termini
di bit rate, cioè di numero di bit codificati al secondo, moltiplicando il numero di
campionamenti al secondo (frequenza di campionamento) per il numero di bit di
quantizzazione utilizzato.
Il segnale audio, codificato PCM, in accordo con il teorema del campionamento e
il principio di quantizzazione, contiene tutte le informazioni necessarie a
garantire la perfetta ricostruzione analogica del segnale audio originario.
Anche quando la frequenza di campionamento e il numero di bit di
quantizzazione sono minimi ripsetto a quanto imposto dal teorema del
campionamento e il principio di quantizzazione per garantire l’integrità
dell’informazione di segnale, il segnale PCM contiene comunque ridondanza di
informazione. Tale informazione ridondante può essere eliminata, ottenendo
conseguentemente una riduzione nella codifica, cioè alla riduzione del bit-rate.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 178/241
Compressione del suonoPCM non lineare
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La codifica PCM utilizza un modello di quantizzazione lineare, cioè il gradino di
quantizzazione è uniforme per tutta la dinamica del segnale. Per questo motivo e
per distinguerla da altre varianti della codifica PCM, viene chiamata PCM
lineare.
La codifica PCM lineare garantisce il rapporto segnale/rumore che deriva dal
numero B di bit di codifica utilizzato (circa 6B dB) solo se il segnale è
costantemente alla massima dinamica. Tale rapporto risulta invece inferiore se la
dinamica del segnale codificato è infreriore a quella massima.
Per garantire anche ai minimi livelli di dinamica del segnale il rapporto
segnale/rumore minimo previsto per una specifica applicazione (per esempio 48
dB per le applicazioni vocali e 96 dB per le applicazioni audio) è necessario
utilizzare un numero superiore di bit di quantizzazione, cioè è necessario
sovradimensionare la codifica. Ciò comporta un aumento del bit rate e quindi un
peggioramento delle condizioni applicative.
Allo scopo di tenere basso il bit rate ed allo stesso tempo mantenere elevato il
rapporto segnale/rumore si opera la compressione della dinamica durante la
codifica PCM, ottenendo la cosiddetta codifica PCM non lineare.
Ad esempio, la codifica PCM non lineare a 8 bit della voce campionata a 8 kHz
garantisce lo stesso rapporto segnale/rumore della codifica PCM lineare di a 12
bit, mantenendo il bit rate a 64000 bit/s, cioè quello del PCM lineare a 8 bit.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 179/241
Compressione del suonoPCM non lineare: A-Law e Mu-Law
A-Law
Mu-Law
F(x) = Sgn(x)1+ ln( j4|x |)
=Sgn
(x)
F(x) = Sgn(x)
1+
A 3
In A
t
1+ ln^
ln(l -f Mu!X|)
ln(l + À/w)
A< X <1
0< <
1 A
0 < x < 1
x : segnale di ingresso
sgn( x) : segno di x
x : valore assoluto di x
Mu ¡costante 255 (definita da AT & T)A : 87.6 (definita dal CCITT)
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
181
Vi sono due codifice PCM non lineari standard, definite appositamente per lacomunicazione vocale digitale: A-Law e Mu-Law.
Si tratta di due codifìche PCM non lineari, definite come standard di codificadigitale della voce nelle applicazioni telefoniche digitali rispettivamente perl’Europa e per il nord America/Giappone, che differiscono tra loro solo per il
profilo della curva di compressione della dinamica.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 180/241
«
Compressione del suonoDominio temporale (lossless): Modulazione Delta (DM)
Voce analogica c am piona ta a 8 kHz e quan tizzata a 1 bit DM c==:i> 8000 bit/s
M usica analogica cam pio na ta a 44,1 kHz e qu an tizza ta a 1 bit 44100 bit/s
Bit Rate
27/01/2004 Copyright 2002-2003 182
Prof. Mario Malcangi
Una delle tecniche più semplici di compressione nel dominio temporale del
segnale PCM consiste nella codifica differenziale, cioè dell’incremento
(decremento) di ampiezza del campione. Gli incrementi dell’ampiezza dei
campioni hanno una dinamica inferiore a quella della dinamica assoluta di
ampiezza, quindi necessitano di meno bit di quantizzazione a parità di rumore di
quantizzazione. Un caso limite della codifica incrementale è la modulazione
delta (DM). Questa prevede un incremento (decremento) di ampiezza fissa (pari
ad un solo livello di quantizzazione), richiedendo solo un bit di codifica.
La tecnica di compressione DM è molto efficace se il segnale da codificare (e
comprimere) varia lentamete rispetto al campionatore. Se la variabilità del
segnale è elevata, il quantizzatore a 1bit non riesce a seguire adeguatamente lavariazione di ampiezza del segnale, introducendo un elevato livello di errore di
codifica. Aumentando la frequenza di campionamento, la codifica DM migliora,
ma peggiora il bit-rate che si avvicina a quello PCM.1«
Questa tecnica di compressione del segnale è comunque la base per la
costruzione di modelli di compressione nel dominio temporale più efficaci, come
ad esempio la tecnica ADPCM (Adaptive Differential PCM),Capace di garantire
un bit rate inferiore a quello PCM, pur mantenendo una qualità di segnale
paragonabile.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 181/241
Compressione del suonoDominio temporale (lossless): PCM Differenziale (DPCM)
M
x' (n) = J^hrs ( n - r ) r=1
27/01/2004 Copyright 2002-2003 183
Prof. Mario Malcangi
A parità di rappoto segnale/rumore, la codifica DPCM (Differential PCM ) è
una estensione del delta modulation, in quanto si utilizza la quantizzazione a più
livelli invece della quantizzazione a due livelli del DM. Il sistema di codifica èesattamente lo stesso del DM: un predittore stima un valore di ingresso x’(n) che
comparato a quello reale x(n) produce una differenza d(n) che viene quantizzata
secondo uno schema a più livelli.
La codifica DPCM, a parità di numero di bit di quantizzazione, consente di
ottenere un rapporto segnale/rumore di quantizzazione superiore a quello del
PCM, a costo ovviamente di un aumento della complessità del sistema.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 182/241
La codifica differenziale consente di ridurre la ridondanza di informazione del
segnale audio analogico in quanto codifica la variazione di ampiezza del segnale.
La variazione di ampiezza del segnale richiede meno bit di codifica
dell’ampiezza stessa.
Per segnali a dinamica costante è possibile stabilire a priori quanti livelli di
quantizzazione utilizzare per la codifica, ma questa condizione è poco ricorrente.
Voce e musica presentano dinamiche e statistiche di segnale molto variabili.
L’utilizzo di livelli di quantizzazione di ampiezza variabile consente di adattare
al meglio la codifica in funzione della variabilità del segnale.
La codifica adattativa, cioè che adatatta i parametri di codifica in funzione della
natura del segnale consente di conferire alla codifica DPCM un livello di qualità
paragonabile a quello PCM pur diminuendo significativamente il bit rate.
I quantizzatori adattativi (ADPCM) permettono di migliorare le prestazioni di
rapporto segnale/rumore dei quantizzatori non adattativi dai 3 ai 7 dB.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 183/241
Compressione del suonoDominio frequenziale (lossless): Vocoder
m
X«) G
-1 s(n )
1+qz'
-P
x (n ) = G i r i ) - a xy { n -1 y (n )
S o r g e n t e a r m o n i c a
A A A A A A A A A
s(n)
S o r g e n t e in a r m o n i c a G
M o d e l lo d i
Sintes i
H(z)
y(n)
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
185
I sistemi di compressione del segnale audio nel dominio delle frequenze
possono produrre un rapporto di compressione particolarmente elevato,
soprattutto quando si basa sulla modellazione del sistema di produzione delsegnale audio. Un esempio molto significativo di questa tecnica di compressione
riguarda il segnale vocale.
La tecnica si chiama Vocoder (Voice Coder/Decoder) e consiste nella
modellazione del sistema fonatorio, in particolare del tratto vocale, in modo tale
da estrarre solo le informazioni strettamente legate al parlato, eliminando quelle
di natura ambientale. Questa modellazione avviene nel dominio delle frequenze
(estrazione delle formanti e del pitch) utilizzando in fase di analisi varie tecniche
di analisi/sintesi come per esempio la codifica predittiva lineare (LPC) oppure i banchi di filtri, e in fase di sintesi la tecnica sottrattiva. Il pitch viene invece
stimato con varie tecniche di analisi come per esempio l’autocorrelazione.
Con la tecnica vocoding, intervalli di 10-20 ms di segnale vocale campionati a
8.000 Hz (80-160 campioni) e quantizzati a 8 bit (640-1280 bit) richiedono poche
decine di bit di codifica in quanto si tratta di codificare solo una decina di
parametri caratteristici (formanti, pitch ed energia). In tal modo si ottiene un
elevatissimo fattore di compressione, molto superiore a quello ottenibile con la
più efficiente delle tecniche di codifica nel dominio del tempo.
Per esempio, la voce codificata PCM (8 kHz, 8 bit) richiede un bit rate di 64
kbit/s. Questo può essere ridotto solo fino a 16 kbit/s con la codifica ADPCM,
mentre con un vocoder LPC si può arrivare fino a 1,2 kbit/s (LPC-10).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 184/241
Compressione del suonoDominio frequenziale (lossless): codifica in sottobande (SBC)
X ( n )
t1 1
1
C o d i f ic a t o r e n
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
186
La compressione del segnale audio nel dominio del tempo non può essere spinta
oltre quanto ottenibile con i modelli differenziali adattativi. Molta della
ridondanza è legata alla struttura frequenziale, evidenziabile quindi solo tramite
un modello analitico operante nel dominio frequenziale.
La codifica in sottobande (SBC) è un esempio di tecnica in cui la codifica
differenziale viene applicata al segnale scomposto in bande frequenziali.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 185/241
La combinazione della tecnica SBC e della tecnica di compressione della
dinamica consente di ottenere ottimi risultati di compressione dell’informazionedi segnale. Il filtraggio a bande consente di applicare sistemi di compressione
della dinamica differenziati in conseguenza della differente natura dinamica del
segnale nelle varie bande frequenziali.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 186/241
Co
r<3'S§
Compressione del suonoModello percettivo
f
—
100
f ì l ì
Tr - —
ièfV it i
iU&iriiAfc*ái? i * • i l 4 A'
(I l
I . Il
p«<:
» ’V i -u* h
*• 4 * ■ '
«i n
i
: L
-l *I
f II
» I . »
—
^ V
• ? M I
14«
••
M I .ft
I
w| in
14 L
r i ^
*njdi-* K M » 1 ,
irti') ‘t'H'fiu . i
¡li ÍH!! ‘¡'i4! i*r
; m ii
, i ,
In i!
I . - » .
' 1 1 1 .
m
•il» •?»mi li t V
120«Alt»4« lift«*
!!»■JL • fL —il .
■ •I
fJlV4P _ I
8 0 ^ I 1- M
-----------------------------
ir i n i
*I " I I
:il Ihi m i .
ß. i . u r
l ! ì \ V
:ili»
* ? - Ir4
lì .1
r * - » I
lili"f V
il
li! I li
li'
i ' l l
I
. • I u <
V ’
I —
il 11 i'.. »J..HII lltl* I,* IPJI
—
-*r«ii
1000 10000Frequenza (Hz)
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
188
La dinamica percettiva dell’orecchio è variabile in funzione della frequenza edel contenuto frequenziale, cioè della natura del segnale audio considerato. In
particolare esiste un fenomeno di mascheramento tra segnale audio e rumore e trale singole componenti frequenziali del segnale audio.
Il mascheramento tra segnale audio e rumore avviene quando il segnale audio haun livello di ampiezza tale da rendere non percepibile un rumore additivo. E’
proprio su questo principio di mascheramento che si basa la scelta dei bit nellacodifica PCM (quantizzazione) nelle applicazioni vocali o audio digitali.
Nella codifica PCM non si tiene conto della caratteristica dinamica della percezione e quindi della variabilità statica e dinamica della percezione e quindidell’effetto di mascheramento: il numero di bit di codifica è fisso e massimizzato
sul caso della massima dinamica percettiva dell’orecchio (120 dB a 1000 Hz).
Il modello percettivo tiene conto invece della variabilità della dinamica percettivadell’orecchio che varia da un minimo di 70 a un massimo di 120 dB. Ciò implicache un tono a 100 Hz può essere codificato con circa 6 bit in meno di quellinecessari per un tono a 1000 Hz, ottenendo lo stesso rapporto segnale/rumore alivello percettivo. Un’altra conseguenza è quella per cui un tono a 100 Hz puòessere accompagnato da un rumore a banda stretta (intorno a 100 Hz) fino a 40dB senza che risulti percepibile.
Entrambe queste due osservazioni portano al concetto di modellazione delrumore (noise shaping) e di codifica percettiva (perceptual coding).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 187/241
Compressione del suonoSoglie di mascheramento
dB
SMR
SQNR
NMR
Tono mascherante
Banda critica
Soglia di mascheramento
Livello del rumore di quantizzazione
Hz
27/01/2004- Copyright 2002-2003
Prof. Mario Malcangi
189
L’effetto di mascheramento è conseguenza della natura della membrana basilare
e nel meccanismo di trasformazione delle vribrazioni acustiche in impulsi nervositrasmessi all’area della percezione uditiva, cioè le cosiddette bande critiche. Il
mascheramento tra toni dominanti e toni sottostanti avviene nell’ambito della
banda critica.
Relativamente alla quantizzazione, vengono definiti, in aggiunta al rapporto
segnale/rumore di quantizzazione (SQNR), anche un rapporto
segnale/mascheramento (SMR) e rapporto rumore/mascheramento (NMR).
Questi rapporti sono la base per la costruzione del modello percettivo finalizzato
alla codifica ottimale della sorgente audio. Il segnale audio mascherato puòessere il rumore di quantizzazione oppure altre componenti frequenziali del
segnale audio stesso. La codifica percettiva ha come obiettivo quello di allocare i
bit di quantizzazione in maniera dinamica, in modo da ottenere un bit-rate medio
inferiore alla codifica PCM.
Per ottenere il massimo risultato, i rapporti SMR e NMR vengono calcolati per
ognuna delle bande critiche. A tale scopo si analizza il segnale per mezzo di un
banco di filtri fisiologici con banda passante distribuita in accordo con la scala
Bark.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 188/241
Compressione del suonoMPEG Audio (lossy)
27/01/2004 Copyright 2002-2003 190
Prof. Mario Malcangi
La codifica MPEG Audio è uno standard di codifica audio definito dalla ISO
(International Standard Organization) nell’ambito MPEG (Moving Pictures
Expert Group) nell’ambito del più ampio obiettivo di definizione di uno standarddelle immagini in movimento con audio associato per media di memorizzazione
digitale fino a 1,5 MHz.
La codifica MPEG Audio è rappresentativa della classe dei sistemi di
compressione con perdita di informazione lossy). In questo caso la riduzione
della quantità di informazione codificata si basa sul modello percettivo (derivato
dal modello psicoacustico). L’informazione viene ripartita in bande per poter
applicare il modello percettivo che mette in relazione la percezione del pitch con
l’intensità e a frequenza.Lo standard MPEG Audio consiste di tre livelli (layer), ognuno dei quali consente
di ottenere prestazioni crescenti di qualità del segnale codificato a costo di una
crescente complessità computazionale e di sistema.
I bit rate audio supportati sono 32000, 44100, 48000 e bit-rate variabili tra 32 e
192000 bit/s per i canali audio monofonici.
Lo standard prevede varie configurazioni di canale singolo e doppio, oltre alla
modalità stereo e stereo congiunto.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 189/241
Compressione del suonoMPEG Audio (lossy)
27/01/2004 Copyright 2002-2003 191
Prof. Mario Malcangi
Il segnale PCM viene scomposto da un banco di 32 filtri passa banda in
altrettante sottobande. Lo stesso segnale PCM viene processato
contemporaneamente da un modello psicoacustico. Tale modello, previa analisi
in frequenza del segnale PCM, calcola il rapporto tra l ’energia di segnale e le
soglie di mascheramento definite per ognuna delle sottobande.
I rapporti energia/soglia di mascheramento consentono di pilotare un sottosistema
di quantizzazione variabile. Questo, in funzione delle informazioni del modello
psicoacustico, decide quale fattore di scala e quanti bit applicare nella codifica
del segnale.
Dati non di segnale (ancillary data) possono essere inseriti nello sequenza di bit
di codifica (bitstream) per codificare informazioni ausiliarie.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 190/241
Compressione del suonoMPEG Audio (lossy): banco di filtri
y , { n ) = Z Z A ( n , k ) [ C { k + 6 4 i ) * x ( k + 64Q]¿=0 j=0
A ( n , k ) = cos[( 2 + !)(£ - 16)(;r /64 )]
n: indice di sottobanda (0..31)
t : ind ice del temp o (mu ltiplo intero di 32 periodi di campio name nto)
y( (n ) : cam pion e di uscita del filtro al tempo t per la sottobanda n
C (.) : finestra di analisi (51 2 campioni)
x(.) : segnale di ingresso (512 campioni)
A(n,k ): matrice di analisi
27/01/2004 Copyrigh t 2002-2003
Prof. Mario Malcangi
La suddivisione in bande su cui si basa la codifica MPEG Audio viene ottenuta
tramite un filtro polifase. Questo processa 512 campioni di segnale PCM
finestrato per mezzo di una finestra di 512 campioni definita dallo standard.
Il filtro polifase opera come un banco di 32 filtri equamente distanziati in
frequenza tanto in modo formare 32 sottobande della banda totale del segnale
audio da codificare (a 48 kHz ogni banda è ampia 750 Hz).
Il segnale in uscita di ogni filtro passa banda così ottenuto viene campionato ai
limiti di applicabilità del teorema del campionamento attraverso un processo di
decimazione.
Dato che la matrice di analisi consiste di coefficenti derivati dal campionamentodella funzione coseno, è evidente che il filtro polifase non è altro che una variante
della trasformata di Fourier, e ciò spiega la necessità della finestratura.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 191/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 192/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 193/241
Spazializzazione del suono
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
195
La dimensione spaziale del suono è integrate della dimensione temporale.
L’informazione spaziale consente all’individuo di percepire la posizione nello
spazio della sorgente sonora e quindi di orientarsi nello spazio sulla base della
percezione acustica.
La generazione di spazi e ambienti virtuali è possibile modellizzando gli spazi
reali e realizzando sistemi di elaborazione del segnale in cui sono trasferibili gli
elementi che caratterizzano la natura spaziale degli ambienti.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 194/241
Spazializzazione del suonoEchi e riverberi
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
La percezione della componente spaziale del segnale audio è basata sulla capacità
del sistema uditivo di misurare e correlare in maniera molto raffinata le
differenze temporali di arrivo delle singole sorgenti sonore alla posizione
dell’individuo. In paricolare, ogni sorgente sonora in campo chiuso produce sia
un suono diretto, sia vari suoni indiretti podotti dalle riflessioni del suono diretto
sulle pareti dell’ambiente.
Il suono diretto è il primo a raggiungere l’ascoltatore. Successivamente arrivano
le prime riflessioni. Queste possono essere percepite come echi se vi è un minimo
intervallo temporale di arrivo rispetto al suono diretto.
Al suono diretto e alle prime riflessioni si aggiungono le riflessioni multiple(indirette) dovute a ripetuti rimbalzi sulle pareti del segnale diretto prima che
questo si direzioni verso il punto di ascolto. Queste riflessioni indirette sono
temporalmente molto ravvicinate tra loro e numerose, dando la sensazione
percettiva acustica dell’effetto “riverbero”.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 195/241
Suono diretto, prime riflessioni (echi) e riflessioni multiple (riverbero) hanno una
caratteristica di distribuzione temporale caratterizzata da ritardi crescenti con
intensità delle singole componenti decrescenti in intensità.
Un sistema di generazione artificiale della componente spaziale del suono si basa
essenzialmente su un sistema di ritardi programmabili e di ricombinazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 196/241
Per identificare la natura spaziale degli ambienti in cui si propaga il suono si
utilizza la tecnica della risposta all’impulso. Propagando un suono impulsivo inun ambiente questo produce una risposta audio che codifica la caratteritica
specifica dell’ambiente. Questa evidenzia una serie di caratteristiche acutiche
tipiche dell’ambiente come le dimensioni, le caratteristiche riflessive, le
caratteristiche di assorbimento, ecc.
Una sala da concerto evidenzia un intervallo evidente tra l’arrivo del suono
diretto al punto di ricezione e l’arrivo delle prime riflessioni, nonché una
notevole lunghezza della durata della risposta. Questo intervallo è quasi assente
in ambienti di piccole dimensioni (casa, auto, ecc.) e particolarmente breve è ladurata della risposta all’impulso.
Dalla risposta all’impulso si può derivare la caratteristica di spazializzazione che
consente di pilotare un modello di simulazione artificiale della spazializzazione
del suono.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 197/241
La generazione dell’eco è particolarmente semplice in quanto è sufficiente
disporre di una linea di ritardo e di un attenuatore. Particolarmente semplice è
questo modello di generazione dell’eco nel dominio digitale, in quanto la linea diritardo è realizzata tramite memoria (buffer circolari, FIFO).
L’eco semplice si basa su un modello diretto (feed-foreward), mentre l’eco
multiplo si basa su un modello retroazionato (feed-back).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 198/241
Spazializzazione del suonoRiverbero
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
200
Per la generazione del riverbero è necessario un sistema di ritardi e attenuazioninon uniforme, in modo da conferire naturalezza al segnale d’uscita arricchito
dell’effetto riverbero. La linea di ritardo in questo caso deve essere
programmabile in modo da conferire ad ogni componente di spazializzazione il
giusto ritardo e attenuazione per caratterizzare uno specifico ambiente.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 199/241
Spazializzazione del suonoRiveberatori All-Pass
Ingresso Uscita
Ingresso Uscita
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi201
Data la natura complessa e molteplice dell’effetto di riverbero, vi sono sistemi
derivati dal modello di filtraggio e capaci di produrre un effetto simile a quello
che si otterrebbe utilizzando una linea di ritardo programmabile con attenuatori.
I filtri passa tutto (all-pass) sono i componenti base dei riverberatori complessi.Questi sono controllabili tramite due parametri, il ritardo e l’attenuazione.
Ponendo in serie una sequenza di riverberatori all-pass opportunamente
programmati su tali parametri e combinando l’uscita di questa serie con il suono
diretto, si ottiene un sistema di riverberazione compatto ed efficiente. I parametri
possono essere derivati dalla risposta all’impulso di un ambiente quando si vuole
simulare un ascolto che offra le stesse caratteristiche spaziali dell’ambiente di
riferimento (ad esempio una specifica sala da concerto).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 200/241
Spazializzazione del suonoEffetto coro
L’effetto coro è una situazione audio simile a quella del reverbero non
determinate daH’ambiente ma dalla presenza contemporanea di molteplici
sorgenti sonore tutte uguali tra loro. In pratica si tratta della diffemte percezione
acustica fornita da un singolo strumento rispetto a numerosi identici strumento
(ad esempio 100 violini che suonano lo stesso brano contemporaneamente,
oppure cento persone (coro) che canta la stessa melodia).
L’effetto coro viene determinato da piccole variazioni di intensità e di frequenza
delle singole sorgenti. Tale effetto può essere simulato con buona
approssimazione realizzando un banco parallelo di ritardi programmabili (da 10 a
50 ms) e di guadagno variabile.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 201/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 202/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 203/241
Architetture DSP per l’audio
M / W V wrMÎÏil/ litUj òii.i.
00101001010001
00101001001010
00101000100101
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
205
L’elaborazione numerica del segnale audio è un’attività computazionalmente
intensiva. Malgrado i notevoli progressi in termini di velocità di elaborazione dei processori CISC (Complex Istruction Set Computer), l ’elevatissima quantità dicalcoli (moltiplicazioni e somme) richiesti dagli algoritmi di elaborazionenumerica del segnale audio è tale da non lasciare spazio alle inefficienzecomputazionali dei processori CISC e portare inevitabilimente all’utilizzo di
processori RISC (Reduced Istruction Set Computer) di natura ApplicationSpecific Set Computer (ASSP), in particolare i processori digitale di segnale(Digital Signal Processor, DSP).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 204/241
Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali
D bus
ALU
Am2903
Iv<
J A - . .
Y bus
27/01/2004
Data
MemoryMultiplier
______ ¥ _______
DAC
t____ t t
D L M S&H
LPF
analog voutput
Copyright 2002-2003
Prof. Mario Malcangi
HPit
206
Intorno agli anni ’80, Dean Wallraff della Digital Music Systems Ine., realizzò il primo
microcomputer capace di elaborare il segnale audio in forma numerica e in tempo-reale. Il
primo esemplare di questa innovativa macchina di calcolo numerico specificamente
pensata per l ’applicazione audio fu acquistata dal LIM, il Laboratorio di Informatica
Musicale dell ’Università degli Studi di Milano creato da Goffredo Haus proprio in quegli
anni. Grazie alla disponibilità di questa macchina fu possibile realizzare le prime
applicazioni di Computer Music ove la produzione e l’elaborazione di suoni avveniva in
tempo reale.
Il DMX-1000 fu basato sulla più innovativa delle tecnologie di microcomputing allora
disponibili: il bit-slice AM29xx. Questa tecnologia, realizzata dall’Advanced Micro
Devices (AMD), oltre ad essere ultraveloce (tecnologia ECL), era anche modulare. La
CPU, cosiddetta slice, era a 4 bit, quindi molto piccola, ma componibile a piacere per
ottenere architetture di qualsiasi dimensione. Nel caso del DMX-1000 fu adottata
un’architettura a 16 bit (quattro slice da quattro bit) per soddisfare le esigenze
dell’elaborazione del segnale audio digitale di qualità professionale.* ;
Le CPU AM29xx adottavano, per la prima volta integrandola su chip, l’architettura
Harvard, cioè la completa separazione tra memoria di programma e memoria dati.
Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al
pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,
inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit
della TRW) e il convertitore analogico-digitale a 16 bit (Burr-Brown).
Nel DMX-1000 il parallelismo esecutivo (in modalità pipelining) era totale: l ’accesso alla
memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire
contemporaneamente, grazie alla istruzione a campi paralleli di cui disponeva questo
processore.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 205/241
Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali (cont.)
27/01/2004 Copyright 2002-2003 207
Prof. Mario Malcangi
La CPU AM29xx adottava, per la prima volta integrandola su chip, 1’ architettura
Harvard, cioè la completa separazione tra memoria di programma e memoria dati.
Il DMX-1000 fu costruito intorno a questa CPU, mettendo in pratica anche, oltre al
pipelining esecutivo delle istruzioni, il pipelining esecutivo su dati. Per la prima volta,
inoltre, nel microcomputer veniva integrato il moltiplicatore hardware (16 x 16 -> 32 bit
della TRW) e il convertitore analogico-digitale a 16 bit (Datel).
Nel DMX-1000 il parallelismo esecutivo (in modalità pipelining) era totale: l ’accesso alla
memoria dati, al moltiplicatore e alla periferica (DAC) potevano avvenire
contemporaneamente, grazie alla istruzione (a 32 bit) a campi paralleli di cui disponeva
questo processore.
Grazie a queste soluzioni sia tecnologiche (microelettroniche) che d’architettura di
elaborazione, il DMX-1000 era in grado di implementare a 19,3 kHz di campionamento
uno dei seguenti gruppi di strumenti oppure una loro combinazione:
•24 oscillatori table look-up semplici
•16 oscillatori table look-up modulabili in ampiezza (AM)
•8 oscillatori modulabili in frequenza (FM)
•20 filtri del primo ordine• 10 filtri del secondo ordine
•30 generatori di rumore bianco
Un vero portento nell’era dei microprocessori a 8 bit (Intel 8080)!!!
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 206/241
3.******ÇQt*T*QV • v / » n '. W A v /
•V.V •>%W /A
Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali (cont.)
* 1 . 1
t v P . ^ r* I I I ^ , a ä
1 2 - b it M u l ti p li e r- A c c u m u l a to r
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
• w . v - 4 * »# W V A ' V , V A %V * . w w * . t ~^ " • 1
TOC***MCU
^ ----- O OUTrw « M
• • •' A M A W J P * M W • • * * / * « W - »v * a f M * *
V , > w * * r * ■ I
. . . . . ^ M v m W . w X
Il DMX-1000, dal punto di vista dell’architettura dei sistemi digitai audio, era innovativo
sia per l’adozione dell’architettura Harvard (adottando la tecnologia bit-slice AM2910)
per implementare il pipelining esecutivo delle istruzioni, sia per l’adozionedell’architettura MAC (Multiply-Accumulate) per implementare il pipelining esecutivo
sui dati (adottando il moltiplicatore-accumulatore TRW).
In figura è riportata un’immagine del chip MAC della TRW in package DIP (Dual-In-
Line) di ben 64 piedini, risultando uno dei componenti più complessi dell’intero DSP
DMX-1000.
Questo dispositivo, realizzato in tecnologia ECL, dissipava una enorme quantità di
potenza elettrica (dell’ordine dei Watt) e conseguentemente di calore, tanto da necessitare
di un voluminoso dissipatore che impedisse la distruzione termica del dispositivo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 207/241
Architetture DSP per l’audioDMX-1000: primo DSP per applicazioni audio digitali (cont.)
x (n ) / A
/
/ V V
"'1
MEMORIA PROGRAMMA
(0) CLR ,X0,B„S azzera il puntatore ai parametri
(1)(2)
NXTMOVD ,„D,X
punta al successivocopia l’ampiezza da [0] a X
(3)(4)
NXTMOVD ,X1,B,D
punta al successivocarica SI in XI
(5) ADDDA X1,X1,B,D,WY somma SI a Phase e memorizza in Phase, mette in Y
(6)(7)
NOPMOVD ,„N,DAC
aspetta il risultato dal moltiplicatoretrasferisce il risultato della moltiplicazione al DAC
MEM ORIA DATI
[0] Ampiezza ; controllo ampiezza
m SI 1
fl; controllo frequenza
[2] Fase ; fase dell’oscillatore
27/01/2004 Copyright 2002-2003
Prof. Mario Maicangi
209
Grazie al pipelining esecutivo, il DMX 1000 consentiva di implementare con
poche istruzioni generatori o modificatori digitali di segnale audio. In questoesempio (oscillatore a rampa lineare controllabile in frequenza, ampiezza e fase),
è evidente il considerevole parallelismo che, nell’istruzione (5) si evidenzia al
massimo livello (somma, trasferimento in memoria e moltiplicazione).
Ogni istruzione necessita di un solo ciclo istruzione per essere eseguita, quindi,
questa codifica dell’oscillatore a rampa (dente di sega) sono necessari 7 cicli
istruzione per produrre un campione di segnale.
Fissata la frequenza di campionamento e la frequenza di clock del processore,
dividendo la seconda per la prima, è possibile ricavare il numero massimo digeneratori di questo tipo eseguibili in tempo reale da parte di questo processore
(circa 50).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 208/241
Architetture DSP per l’audioLimitazioni dell’architettura Von Neuman
Un solo bus per accedere alla memoria dati e di programma
Microcode
Sequencer
Microcode
ROM
Bus Indirizzi
Bus Dati
Registri ALU
Sequenza di programma
Memoria
Dati/Programma
Fetch Decodifica Fetch Esecuzione Fetch
istruzione istruzione operando operazione operando
Ciclo istruzione
Più cicli di clock per una istruzione
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
210
Un processore tradizionale (architettura Von Neuman) non è in grado di
eseguire algoritmi di elaborazione numerica dei segnali in tempo-reale in quantonon è ottimizzato relativamente alla esecuzione veloce di operazioni MAC
(Moltiplicazione e Somma/Accumulo).
La limitazione fondamentale dell’architettura Von Neuman, tipica dei processori
utilizzati nelle applicazioni gestionali o non real-time (ad esempio il Personal
Computer) è nel bus unico attraverso cui va condiviso l’accesso alla memoria sia
per le informazioni di programma, sia per le informazioni dati.
Altre limitazioni riguardano lo scarso parallelismo interno essendo stata
privilegiata in tali processori la scelta del set istruzioni esteso (CISC).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 209/241
Sequenza dì
programma
in pipelining
Architetture DSP per l’audioVantaggi dell’architettura Harvard
Un bus per acced ere alla memoria programmi
Memoria
Programma
Memoria
Dati
Un bus per accedere alla memoria dati
FI : Fetch Istruzione
DI : Decodifica Istruzione
FO : Fetch Operandi EO : Esecuzione Operandi
▼ Is truzioni
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
211
L’architettura Harvard, tenendo separato il bus di accesso alla memoria di programma da quello di accesso alla memoria di dati, consente di accelerarenotevolmente il processo di elaborazione eliminando i tempi morti legati
all’attesa di risorse condivise (il bus).
La separazione del bus dati da quello di programma consente di realizzare ilcosiddetto pipelining, ovvero una sorta di parallelizzazione della fase di accessoalle istruzioni con quella di accesso ai dati, ottenendo idealmente il raddoppiodella velocità di elaborazione a parità di clock.
I DSP (Digital Signal Processor) si basano sull’architettura Harvard oltre adaltre soluzioni molto sofisticate di architettura d’elaborazione allo scopo di
minimizzare il tempo di calcolo necessario al completamento di un algoritmo di
elaborazione numerica del segnale.I DSP sono anche macchine RISC (Reduced Istruction Set Computer), quindi
capaci di eseguire tutte o quasi le istruzioni in un solo ciclo istruzione (due ciclidi clock (x2) o eventualmente anche in un solo ciclo di clock (xl)).
L’area di silicio risparmiata grazie al set ridotto di istruzioni è impiegata per
portare il parallelismo esecutivo alle estreme conseguenze, ovvero una interaMAC eseguita in un solo ciclo istruzione, incluse tutte le operazioni connesse,come il load e lo store degli operandi e l’aggiomamento degli indirizzi di
memoria per l’accesso ai dati dell’operazione, ecc.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 210/241
Architetture DSP per l’audioMotorola DSP56300
>¿0*1h »o*
6ÇIIntonaco
£551*w*d&c<*
Peripherale «pan al o« Area
SiîTchorvicîOMA Unti
Extwaa»Bu**«£*»<*««4
ICentri
2 4 - B l t
3PW300C ore
BOOttSf
Coftì«*
M*rrîc*y
exTAI&00fftf*Ç rtro*UM
> W ^ 1 M « *• Pror vm| |Doc**)*
CkiCkCancro io? FrçgiSm P/ùqrhm| Aderta»,G#riG*‘tìrtc«r
24*2**6*'*$$-*>*JMCTvmò -5&-b»i J'TAO
CdAftJttcr r hii tkw ì sa w
MOODrHKüOMttMÌMS*MOOA’inoX
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
^ ì.’vi ___
^ r S i WÄK*4CS>ftm 24 XOmtft I VpAtA
or RAM RAM(3Û7 2 4* nd 2 0 4 * * 2 4 \ i0A* A 24
ÈnntrucLfcan ICacao
§ « £ I B M :
IntorrxMDflt*8U$
S W i T O r i
PINIYr
Data
Motorola ha introdotto negli anni ’80 l’architettura DSP56000, un DSPmonolitico a 24 bit fixed-point, studiato appositamente per l’implementazioneefficiente di algoritmi di elaborazione numerica del segnale in tempo reale in
banda audio (fino a 20 kHz). In particolare, questa architettura, basata sulmodello computazionale Harvard, è stata ottimizzata per ottenere il massimo
parallelismo esecutivo per uno stadio di calcolo dell’algoritmo di filtraggio FIR:
ajX(n-i)
Apparentemente si tratta di un semplice prodotto. In realtà nasconde numeroseoperazioni:
•prodotto tra un coefficiente a., e un campione x(n-i)
•accumulo con i prodotti (i-1)-esimi
•fetch di un nuovo coefficiente e un nuovo campione per (i+l)-esimi prodotti
•aggiornamento dei puntatori di accesso ai coefficienti e ai campioni
•controllo del possibile overflow (aritmetica di saturazione)
•controllo del possible underflow aritmetico
•altre operazioni di controllo numerico (arrotondamento, scaling, ecc.).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 211/241
Architetture DSP per l’audioMotorola DSP56300 (cont.)
ki5lnic*ion
1024 24\Peripheral
Exp* h«fo n Aree
Äc*Jrt*UÜ a n o t e H o o
Unii
S*XCh»JV*Ç<*>MA Unii
24-Blt
SP3O3Ô0Cor® C on t/ C fi -Cftcr.«
C e n i m i
Intorno*Oft«6m»
seifen i M*rrxx»y
EXT At
C>C#Aöen***** : Pro«««; ; v,ZÒ>wJIntsrrwl W~*k Dea**»Cs««««« *
■ , PtüäMm,!-* ! Add.**»
Çâ m£$K» 34 * :Î4 •*■5« '•<•'A-** MAC
Two 5®>bii A«r«>Trolraîeni5®bil BiiwWSMfcM
JTJKt
mod STrooMOfXvTfiöfiMODULSMOOArthÜÄ
t i r — 1 —
Tnpi* HOU ess» 3C1 TVnor Ww fiw*
h m
M orto#
XAO ¡1 FAB iti
M f É •» A A A * « . a
h$S£TPINIT3ÌMT
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
Tutte queste operazioni, per operare in tempo reale, devono essere eseguite in unsolo ciclo di clock. L’architettura DSP56000 realizzava in tal modo, oltre al parallelismo esecutivo delle istruzioni, anche un elevato parallelismo esecutivosui dati, sempre in pipelining. In particolare l’architettura DSP56000implementava in pieno parallelismo:
•una doppia memoria dati (memoria X e memoria Y) con triplo bus di accesso parallelo (bus x, bus y e global bus)
•un doppio accumulatore a 56 bit
•una unità MAC (Multiply-ACcumulate)
•una unità aritmetica di indirizzamento (ARU)
•altre unità di controllo (controllo della saturazione, scaling automatico, ecc.).
L’architettura DSP56000 consentiva dunque di implementare una TAP di filtro
FIR con una sola istruzione (due cicli di clock), ottenendo quindi la massima prestazione possibile da una macchina Harvard.
L’evoluzione dell’architettura DSP56000 trova oggi la sua massima realizzazionenell’architettura DSP56300. Questo, mantenendo tutte le caratteristiche originariedel DSP56000, ha introdotto alcuni nuovi elementi di architettura di elaborazionee alcune importanti innovazioni tecnologiche come l’esecuzione delle istruzioniin un solo ciclo di clock (xl), rispetto all’architettura precedente che richiedevadue cicli di clock per istruzione (x2).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 212/241
Architetture DSP per l’audioMotorola DSP56300
Operation
Instruction Cycle
1 2 3 4 5 6 7 8 9 10 11
Fetch 1 n1 n2 n3 n3e n4 n5 n6 07 n8 n9 nIO
Fetch 2 n1 n2 n3 n3e n4 05 06 07 n8 n9
Decode n1 n2 n3 n3e n4 o5 06 07 08
Address Gen 1 r t f n2 r>3 n3e n4 n5 06 n7
Address Gen 2 n l n2 03 rt3e n4 ri5 n6
Execute 1 n1 n2 n3 o3e 0 4 n5
Execute 2 n1 n2 n3 n3e n4
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
214
Il pipelining esecutivo delle istruzioni nell’architettura DSP56300 è stato portato
a 7 stadi (dai 3 stadi di pipelining dell’architettura 56000).
In stato di full-pipeline, l’architettura DSP56300 esegue l’equivalente di 7
istruzioni RISC in parallelo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 213/241
Architetture DSP per l’audioMotorola DSP56300
PipelineStage
Description of Pipeline Stage
PreFetch-l • Address generation for P rogram Fetch♦Increment PC
PreFetch-ll • Instruction word read from memory
Decode • Instruction Decode
Address Gen-I •Address generation for Data Load/Store operations
Address Gen-I 1 •Address pointer update
Execute-1 •Read source operands to Multiplier and Adder• Read source register for memory store operations•Multiply• Write destination register for memory load operations
Execute-Il * Read source operands for Adder if written by previous ALU operation•Add
f
•Write Adder results to the Adder destination operand• Write Multiplier results to the Multiplier destination operands
27/01/2004 Copyright 2002-2003 215
Prof. Mario Malcangi
La fase di fetch delle istruzioni è stata scomposta in due fasi indipendenti in
quanto richiedono l’accesso a risorse indipendenti.
Lo stesso è stato fatto per la generazione degli indirizzi e per l’esecuzione sui
dati.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 214/241
Architetture D SP per l’audioMotorola DSP56300
M«/K0for
UHr»<wÿr**tiMiu fbf#*«JW0Octjtetot
fycaniMMi<>r«nun&jndrmUh?
AtamtutiMär Sh*fi«w
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
Fido
Per ottenere il parallelismo esecutivo sui dati, l’architettura DSP56300 ha
implementato un sofisticato sistema di pipelining delle unità esecutive, ALU,
Moltiplicatore e Barrei Shifter, tramite l’utilizzo di vari registri dati che si
interpongono tra le unità esecutive.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 215/241
Architetture DSP per l’audioMotorola DSP56300
I registri dati dell’architettura DSP56300 sono dimensionati per operare in
aritmetica fixed-point a 24 bit, senza perdita di dati in underflow e in overflow. I
registri sono tutti a doppia precisione (48 bit) e in particolare l’accumulatore èdotato di 8 bit di estensione per contenere 1’overflow, per un totale di 56 bit (da
cui è stato derivato il nome di questa famiglia di DSP).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 216/241
Architetture DSP per l’audioMotorola DSP56300
Signed Multiplication N x N 2N ~ 1Bits
Integer
1 s I I s _ l
1 Signed Multiplier 1
r s i r r - .MSP ! LSP » 1
♦ -4 2N - 1Product
* ------------------ Sign Extension
4 --------------------------2N Bits----------------------
Fractional
r S | 1 s □
1 Signed Multiplier 1
| S- MSP i LSP | ~5~1
4 — '' 2N - 1Product ■ I» T
Zero Fill — ■
^ ------------------------- 2N Bits----------------------* *
27/01/2004 Copyright 2002-2003 218
Prof. Mario Mal cangi
L’architettura DSP56300 è fixed-point, quindi consente di operare sui dati sia
interi, sia reali. I dati reali sono rappresentati e trattati in virgola fissa, in
notazione cosiddetta Q23 (23 bit di parte frazionaria e nessun bit di parte intera).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 217/241
Architetture DSP per l’audioMotorola DSP56300
Low Address ALU -----
XAÖ VAÖ PA8
High Address ALU
NO MO
N1 M1
N2 M2
N3 M3
I Tnple Multiplexer jï
AddressALU
r EP r ~ 1 RO R4
R1 R5[/ R2 R6 \
R3 R7
Add re ss
ALU
M4 N4
M5 N5
M6 N6
M7 N7
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
219
Il DSP56300 dispone di una efficiente unità aritmetica di indirizzamento. Questa
è in grado di eseguire il calcolo contemporaneo di due indirizzi di fetch dei dati
dalle due memorie X e Y, oltre ad eseguire l’indirizzamento modulo (buffering
circolare) e l ’indirizzamento offset, oltre all’indirizzamento non lineare (bit
reversing) necessario per l’esecuzione efficiente deH’algoritmo FFT.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 218/241
Architetture DSP per l’audioSaturazione e overflow
Segnale di Input Glpped Output
Senza saturazione Con la saturazione
A = +0.9999...
ì
|Errore| = 1.0 ¡Errorc| = 0.00..01
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
220
Nei sistemi di elaborazione analogici il segnale, quando supera la portata picco- picco di ampiezza del dispositivo cui è applicato, satura e produce una distorsionearmonica nel segnale processato.
Nei sistemi di elaborazione digitali del segnale, quando l’ampiezza dei campionisupera la capacità di rappresentazione numerica del numero di bit adottati dallaspecifica architettura di elaborazione, è prodotto un effetto chiamato overflow.Questo effetto, se non gestito, produce come risultato un ribaltamento in negativo(in positivo) di un numero positivo (negativo), cioè il wraparound dellarappresentazione numerica a precisione finita.
Per i segnali digitali il wraparound è un effetto disastroso in quanto introduce neisegnale una grave distorsione dell’informazione e un comportamento anomalo deisistemi cui il segnale distorto è applicato.
L’overflow numerico del segnale va opportunamente gestito in modo che non si produca mai (aumentando la capacità di rappresentazione numerica) oppure che si produca nella stessa maniera della saturazione analogica.
L’architettura DSP56300 implementa in hardware il controllo della
saturazione (aritmetica di saturazione).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 219/241
Architetture DSP per l’audioCodifica DSP56300 Filtro FIR
y(n ) = b(pc(n)+ b ;x(n -l)+ byc(n-2)+ b3x(n-3)+ ...+ b ^ n - N - l )
C L R A
R E P # N - 1
M A C X 0 ,Y 0 ,A
M A C R X 0 .Y 0 ,A
X 0 , X : ( R 0 ) +
X : ( R 0 ) + , X 0
(RO)-
Y : ( R 4 ) + , Y 0
Y : ( R 4 ) + , Y 0
Xmem Ymem
O-N-l m — * x(n) «*----- R4 Aif,
Campionix(n-l) b,
Coefficienti
di x(n-2) b2 delsegnale filtro
x(n-3)
«• •
b3...
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
221
L’architettura DSP56300 consente di codificare i filtri FIR con il massimo
dell’efficienza. Il kernel del filtro FIR consiste infatti di una sola istruzione.Questa istruzione realizza completamente uno stadio computazionale del filtro
FIR (TAP), da eseguire tante volte quanti sono in totale gli stadi del filtro
(numero di TAP). Le altre istruzioni sono di inizializzazione (CLR A e REP #N-
1) o di completamento (MACR X0.Y0,A (R0)-) e sono eseguite
una sola volta.
; Salva il campione corrente acquisito dal D/A
CLR A X0,X:(R0)+ Y:(R4)+,Y0
; Ripete l’istruzione seguente N-l volteREP #N-1
; Kernel del fitro FIR
MAC X0,Y0,A X:(R0)+,X0 Y:(R4)+,Y0
; Il risultato finale in accumulatore viene arrotondato
; R0 viene posizionato sulla locazione del campione uscente
MACR X0.Y0,A (R0)-
I
Durante l’esecuzione del kernel del filtro FIR non vi è esecuzione di istruzioni di
controllo. Quindi, per un’esecuzione monoprocessore, l’implementazione di un
FIR sull’architettura DSP56300 raggiunge il massimo dell’efficienza.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 220/241
Architetture DSP per l’audioCodifica DSP56300 Filtro IIR
y(n ) —2{a. [x(n)+ 2x(n-J)+ x(n-2)]+cy(n-l)~ by(n-2) }
M PY X 0, Y 1, A X :(R 0) + ,X 0 Y :(R 4) + ,Y 0
M A C X 0,Y 0,A X :(R 0) + ,X 0 Y :(R 4 ),Y 0
M AC XO,Y0,A X :(R 0) + ,X 0 Y :(R 5) + ,Y 0
M AC X 0 , Y 0 , A X :(R 0 )+ ,X 0 Y :(R 5 ),Y 0
M AC X 0 , Y 0 , A X :(R 0) + ,X 0 Y 1,Y :(R 4)
M OV E A ,X I A ,Y :(R 5)
M0=4
Coefficienti
delfiltro
RO
Xmem Ymem
► 2a x(n-l)
a x(n-2)
c y(n-l)-b
a y(n-2)
R4
R5
M4=l
Campionidi
segnale
M5=l
27/01/2004 Copyriglit 2002-2003
Prof. Mario Malcangi
222
L’implementazione dei filtri IIR è tanto efficiente sull’architettura DSP56300
quanto quella dei filtri FIR. Ciò grazie soprattutto alla doppia memoria dati (X eY) e all’unità di indirizzamento. La codifica del filtro IIR consiste infatti di tante
istruzioni quante sono le moltiplicazioni presenti nel kernel del filtro più una
istruzione per trasferire il risultato finale y(n). Nessuna istruzione di controllo
viene utilizzata durante l’esecuzione del kernel del filtro.
; Y 1=x(n)
;X0=aMPY X0,Y1,A X:(R0)+,X0 Y:(R4)+,Y0 ;A=ax(n)
MAC X0,Y0,A X:(R0)+,X0 Y:(R4),Y0 ; A=A+2ax(n-1)
MAC X0,Y0,A X:(R0)+,X0 Y:(R5)+,Y0 ;A=A+ax(n-2)
MAC X0,Y0,A X:(R0)+,X0 Y:(R5),Y0 ; A=A+cy(n-1)
MAC X0,Y0,A X:(R0)+,X0 Y1,Y:(R4) ;A=A-by(n-2)
MOVE A,XI
A,Y :(R5) ;y(n)=2A (scaling-up attivo)
;X 1=y(n)
Anche in questo caso, considerando la soluzione monoprocessore, la codifica è la
più efficiente possibile.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 221/241
Architetture DSP per l’audio16-falt data busses Texas Instrumets TMS320C55x
B Buw fCoefflclanfi
ReglMrelntygoQß
Shifter
Splittable
dràMGoda
CABEAB
5 Address BussesBAB
DAB
FAB 24-bit
'"ÂWeïïiô -
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
223
L’architettura Harvard consente di ottenere la massima efficienza esecutiva per
gli algoritmi di elaborazione del segnale in quanto ottimizzata per l’esecuzionedella somma di prodotti, base computazionale della maggior parte di talialgoritmi.
Qualche altro piccolo miglioramento è ancora ottenibile con l’architetturaHarvard, aumentando ulteriormente le unità esecutive parallele, come ad esempioha fatto Texas Instruments nell’architettura TMS320C55x.
Nell’architettura C55x, evoluzione dell’architettura C54x, all’unità MAC è stataaffiancata una unità ALU, rendendo disponibile cosi l’istruzione FIR, capace di
eseguire contemporaneamente una SOMMA, un PRODOTTO e unACCUMULO, in pratica, di eseguire due TAP di filtro FIR per ciclo istruzione.
Malgrado questi altri possibili miglioramenti, il livello di parallelismo esecutivodell’architettura Harward non può essere ragionevolmente spinto oltre.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 222/241
Architetture DSP per l’audioAnalog Devices SHARC
C O RE P R O C E S S O R
rm in IWÄTHUCT10KC A C H E
* 3 I 4 M IT
i» * o ù * a .M
S S Q O t l t C t R
rw AODHCîia ou
OUA&DKES3SUS
BUSCONNECT!
(PMTi
P M DATA OUS
DM DATA BU
M U L I
DATAtieaiBVEH
P I L I
<PZ*\ tu * 4o-&»r
m \
f «ARREL1 fjtIPT«*
O U A L - P O R T E D S R AM
TW O mO tP C H O E K TD U A L - P O U T E D B L O C K *
P R O C E S S O R P O R TA D O f l D A T A
?R3 I/OFORTDATA ADDÌI
s
Il A
SE
Iz
»iz0 A Q R E L
«H iP TE f l
DATAneai5reo
PILEiPBy»
1» V4O-0IT HULT
AL U
rTH
rAl
J T A O
TE ST AI M U L A T I ON
E X T E R N A L
PORT
MuuiPMncESaonINTERFACE
I HO*r ftO*T j
fOPRECilCTEWa
< # r , M o * y m a p p k o )
C O N T R O L .
STATUS, ADATAÄUFFENS
DMACONTROLLER
/ 1 _K UNK POf»r»w
r /o PROCESSOR
27/01/2004 Copyright 2002-2003Prof. Mario Malcangi
224
La natura degli algoritmi di elaborazione numerica del segnale è ad elevato parallelismo. Tutte le TAP di un filtro FIR, ad esempio, possono essere eseguitecontemporaneamente in quanto sono indipendenti nei dati. Altri algoritmi, adesempio la FFT, evidenziano blocchi computazionali da eseguire in sequenza. I
blocchi computazionali sono ad elevato parallelismo interno.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 223/241
Architetture DSP per l’audioAnalog Devices SHARC
AD SP 21160
Link
Port
ExternalPort
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
225
Il multiprocessing è una soluzione al problema dell’esecuzione efficiente degli
algoritmi di elaborazione numerica del segnale. Ad esempio, utilizzando due
processori DSP Harvard è possibile dimezzare il tempo di esecuzione di un
algoritmo codificato per un singolo DSP. Utilizzandone quattro è possibile
ridurre ad un quarto il tempo di esecuzione, e così via, fino ad utilizzare tanti
DSP in parallelo quanti sono i blocchi computazionali eseguibili
contemporaneamente.
La soluzione ottimale per il parallelismo esecutivo degli algoritmi di
elaborazione numerica del segnale è piuttosto complessa da realizzare e da
programmare. Tale soluzione è affrontabile in maniera ragionevole a tre livelli :
•A grana grossa (architettura multiprocessor)
•A grana media (architettura VLIW)
•A grana fine (architettura sistolica)
Analog Devices, con la realizzazione del DSP SHARC (Super Harvard
ARCchitecture), ha messo a disposizione una soluzione efficiente per
l’interconnessione parallela. Tale soluzione consiste di link seriali di
comunicazione dati che consentono a tali DSP di scambiare dati durante
l’esecuzione parallela di un algoritmo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 224/241
Architetture DSP per l’audioTexas Instrumets C6000
Memoria
Esterna
27/01/2004 Copyright 2002-2003
Prof. Mario Mal cangi
Periferiche
226
Le architetture multiprocessor richiedono la progettazione parallela degli
algoritmi di elaborazione numerica del segnale, evidenziando i parallelismi
esecutivi, procedendo all’allocazione dei processori, temporizzando, ecc.
L’architettura VLIW (Very Long Instruction Word) utilizza la soluzione
mutiprocessor (più unità di elaborazione in parallelo) gestendo internamente le
problematiche di scheduling delle istruzioni, di sincronizzazione, ecc.
L’architettura VLIW esegue N istruzioni in parallelo considerandole come
un’unica istruzione. Il programmatore scrive il codice come se si tratta di un
monoprocessore. L’architettura VLIW esegue come se si tratta di un
multiprocessore.
Texas Instruments ha realizzato il TMS320C6000, un processore RISC basato
sull’architettura di calcolo VLIW, ottimizzato per l’esecuzione di algoritmi di
elaborazione numerica del segnale.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 225/241
Architetture DSP per l’audio
Register File ATexas Instrumets C6000
AO
A l
A2A3
A4A5
A6
A l
A15
32-bits
a
X .S
contatoreprodotto
M Y
Scapi]
&x[nj X
&Y••
.D
loop:
[A2]
Memoria Dati
40
Y = I a * xn Ann = 1
MVK .s 40, A2
L D H .D *A5++, A0
L D H .D *A6++, Al
MPY .M A0, Al, A3
ADD .L A4, A3, A4
SUB .L A2, 1, A2
B .S loop
S T H .D A4, *A7
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
227
La CPU del DSP C6000 consiste di quattro unità esecutive indipendenti:
*.S
*.L
'.D
Le quattro unità esecutive utilizzano un set di 16 registri di uso generale per i dati
e gli indirizzi.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 226/241
Architetture DSP per l’audioTexas Instrumets C6000
Register File A
AO
Al
A2
A3
A4
A15
27/01/2004
Register File B
Copyright 2002-2003
Prof. Mario Malcangi
BO
B1
B2
B3
B4
B15
228
La struttura di elaborazione è completamente duplicata. La memoria dati è
condivisa. Il set dei 16 registri è duplicato, quindi ad uso esclusivo delle singole
strutture di elaborazione.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 227/241
Architetture DSP per l’audioTexas Instrumets C6000
Tipologia Numero cicli Cicli di attesa
Istruzionesingolo ciclo
Uno Zero
[IMPY Due Uno
[Load
i-
Cinque Quattro
[Branch Sei Cinque
27/01/2004 Copyright 2002-2003 229
Prof. Mario Malcangi
Il DSP ad architettura VLIW C6000 è fondamentalmente di tipo RISC, quindi la
maggior parte delle istruzioni richiede un solo ciclo istruzione econseguentemente nessun ciclo di attesa delle risorse.
Fanno eccezione solo l’istruzione IMPY (Moltiplicazione Intera) che necessita di
un ciclo di attesa, l’istruzione LOAD che ne richiede 4 e l’istruzione BRANCH
che ne richiede cinque.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 228/241
Architetture DSP per l’audioTexas Instrumets C6000
ProgramFetch
PG PS PW PR
(1) (2) (3) (4)
Decode
DP DC
(5) (6)
Execute
E l E2 E3 E4 E5 E6
(7) (8) (9) (10) (11) (12)
Stati di attesa per i risultati ritardati
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
230
Il pipelining esecutivo delle istruzioni è molto esteso nell’architettura C6000.
La fase di fetch dell’istruzione è suddivisa in quattro fasi indipendenti, tutte
parallelizzabili in quanto richiedono risorse differenti e capaci di operare
indipendentemente in parallelo.
La fase di decodifica è scomposta in 2 sottofasi.
La fase di esecuzione è sudivisa in 6 sottofasi, in conseguenza del caso peggiore
di esecuzione delle istruzioni, cioè il BRANCH.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 229/241
27/01/2004
Architetture DSP per l’audioTexas Instrumets C6000
f ^ k 'Wlfo
* >
_______
• t / T l T Ì n - * : . '
rSSzP a LÌ I v . U\
.DIT MA ♦Mi1 l'ì
NO P
1 ' M 1
1* A
Wl(l _ ____
■
• figli
T T
faii!
ncuu’uqi, IÙ*'rm
HOT «
DI A4,*A7
Copyright 2002-2003 231Prof. Mario Malcangi
Un filtro FIR, codificato per un’architettura VLIW C6000, richiede in totale 18istruzioni, di cui 11 nel ciclo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 230/241
Architetture DSP per l’audioTexas Instrumets C6000
Codice
L’architettura VLIW C6000 esegue contemporaneamente 8 istruzioni semplici
per volta. Ciò viene ottenuto estraendo ed assemblando pacchetti di 8 istruzionida 32 bit in un’unica istruzione da 256 bit.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 231/241
Architetture DSP per l’audioTexas Instrumets C6000
External
Interface
Il bus istruzioni è quindi ampio 256 bit, rendendo così possibile il fetch di una
istruzione VLIW con un solo accesso alla memoria di programma.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 232/241
Architetture DSP per l’audioTexas Instrumets C6000
DMA
Serial Port
Memoria«
I •
Esterna
Host Port
Boot Load
Timers
Pwr DownControl Regs
D (32)
11
y EMIF
.DI ,D2
.MI .M2
.LI .L2
.SI .S2
27/01/2004 Copyright 2002-2003 234
Prof. Mario Malcangi
Come nell’architettura Harvard, l’architettura C6000 tiene separata la memoriadati dalla memoria di programma.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 233/241
Architetture DSP per l ’audioTexas Instrumets C6000
Sequenziale
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
CompletamenteParallelo
Una sequenza di programma può essere eseguita con totale parallelismo se
vengono sfruttate opportunamente le risorse del processore.
Una singola unità esecutiva impone una notevole limitazione al parallelismo
quando sono da eseguire istruzioni che accedono alla stessa risorsa. Ad esempio,
due somme di seguito non possono essere eseguite contemporaneamente in
quanto entrambe richiedono l’ALU (.L unii), ma se si dispone di due ALU
indipendenti (.LI e 1,2), allora è possibile eseguire in parallelo le due operazioni,
quindi in metà tempo.
L’esecuzione completamente parellela di 8 istruzioni in una architettura WLIV
come quella C6000 equivale all’esecuzione di una sola istruzione di
un’architettura Harvard o RISC.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 234/241
Architetture DSP per l’audioSTMicroelectronics Nomadik
G PIO x76Timers
Watchdog
MART x2
MSP
(AC97J2S.S P\ )MMMMàBflInterrupt
Controller
Bridge
Color LCD Ctrl Display I/F
Camera U f BAM/ROM
Secured16 Channel
DMA Ctrl
I2C x2Bridge
Video Smart
Accelerator Audio Smart
Accelerator
27/01/2004 Copyright 2002-2003
Prof. Mario Malcangi
236
La piattaforma multimédia-computing Nomadik di STMicroelectronics è
un’architettura di elaborazione distribuita che utilizza processori di segnale
specializzati e un processore RISC ARM926E-JS per supportare in manieraefficiente le applicazioni multimedia (audio-video).
Il processore ARM926EJ-S svolge la funzione di CPU host per l’intera
piattaforma di computing multimedia. Si tratta di una CPU RISC a 32 bit
operante a 350 MHz in tecnologia CMOS 0,13 micron. Questo core include una
memory management unit (MMU), 32 kbyte di cache istruzioni, 16 kbyte di
cache dati, un moltiplicatore 16x32 bit per eseguire in un solo ciclo istruzione le
operazioni MAC.
L’istruzione MAC singolo ciclo, e una serie di altre estensioni DSP, consentono aquesto processore RISC di eseguire abbastanza efficientemente anche algoritmi
DSP di piccola e media complessità computazionale.
La piattaforma Nomadik include due acceleratori computazionali di natura DSP,
uno per la componente applicativa digitai audio, l’altra per la componente
applicativa digitai video.
L’acceleratore audio è un DSP completamente programmabile in C, mentre
l’acceleratore video è una soluzione mista hardware-software. Questi acceleratori
consentono di eseguire ad altissima velocità la generazione e la registrazionevideo consumando pochissima potenza elettrica, oltre a eseguire applicazioni
come il content playback e la comunicazione audiovisiva bidirezionale.
L’accesso alla memoria di questi acceleratori computazionali avviene tramite
DMA, quindi non penalizzano l’operatività della CPU RISC.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 235/241
Architetture DSP per l’audioSTMicroelectronics Nomadik
MMDSP+Instruction
RAMSlave AHB
_____________________ _____________________________________
(P icture Input
Formating)
(Picture Post
Processing)
(VideoCodec Unit)
Master
AHB
u W I t f
U l 1I I •m ai
111 c u l l i !It
Host Data
Bus
CCP/CCIR656
Video l/F
fv Accelerator Data Bus
27/01/2004- Copyright 2002-2003
Prof. Mario Malcangi
237
La minimizzazione della memoria è l’obiettivo primario nella realizzazione del
processore video. Nel caso del processore video integrato nella piattaforma Nomadik si utilizzano solo 48 kbyte di memoria interna SRAM per il trame-
grabbing e la finestra di ricerca, contro i 1200 kbyte richiesti normalmente.
Oltre alla data RAM, il processore video dispone della istruction RAM e del core
VLIW MMDSP+ (Multi-Media DSP Plus) operante a 200 MHz, con un solo
ciclo di clock per istruzione e doppia modalità computazionale (fixed-point a
16/24 bit e floating-point a 32 bit).
Operatori hardwired vengono utilizzati congiuntamente al core MMDSP+ per
garantire le prestazioni di elaborazione digitale dell’informazione video intermini deterministici.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 236/241
Architetture D SP per l’audioSTMicroelectronics Nomadik
Slave AHB
ARMDMA
l/F
.......
l-Cache
DMA
XD Bus
DMA
Master AHB
. . . . I . l l i l ,
238
L’acceleratore audio integra MMDSP+. Questo esegue le funzioni codificate in
una libreria digitai audio software (MP3, MIDI, SRS, WOW, ecc.).
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 237/241
27/01/2004
Architetture DSP per l’audioSTMicroelectronics Nomadik
Parlphorab
Accelerator*
Physical DriversPhysical te Driver«
«HI
CommonMCU Cora
' *! [Irti- - ¡J f], f »¿¿I
»peripherals«ulti media pertetberefa
i u . A l J t r -
v . v .
feliii
Tkt ’■
1 im a s r i r i T i
* •Btfr
Copyright 2002-2003 239
Prof. Mario Malcangi
STMicroelectronics e Texas Instruments hanno attuato una iniziativa congiunta
per la creazione di uno standard di interfaccia hardware e software chiamataOMAPI (Open Mobile Application Processor Interface). Questa interfaccia vieneadottata dalla piattaforma Nomadik allo scopo di facilitare nello sviluppo di
applicazioni audio/video di natura mobile, quindi con stringenti requisiti dicompattezza dell’applicazione finale.
Questo standard di interfaccia consente di mappare la parte hardware attraverso
uno strato di astrazione software in modo che l’applicazione finale non debba
eseguire chiamate dirette ad uno specifico sistema operativo.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 238/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 239/241
27/01/2004 Copyright 2002-2003 241
Prof. Mario Malcangi
[AA.W. 96] Standards in Computer Generated Music, multiplatform mixed mode CD-
ROM (Macintosh, Windows, Unix + CD-DA tracks), G. Haus & L Pighi Editors,
IEEE Computer Society Press, 1996.
[Abramowitz 65] Abramowitz - “Handbook of mathematical functions”, DoverPublications, New York, 1965.
[Jayant 97] N. Jayant - “Signal Compression: Coding of speech, audio, text, image and
video”, World Scientific Publishing, Singapore, 1997.
[Malcangi 03] M. Malcangi - “Elaborazione Numerica del Segnale - Digital Signal
Processing: teoria e pratica”, Ed. Libreria CLUP, Milano 2003.
[Moorer 75a] J. A. Moorer- “On the segmentation and analysis of continuous musical
sound by digital computer”, Standford University, report number STAN-M-3.
[Moorer 75b] J. A. Moorer - “The synthesis of complex audio spectra by means ofdiscrete summation formulae”, Standford University, report number STAN-M-5.
[Moorer 77] A. Moorer - “Signal Processing aspects of computer music - A survey”,
Computer Music Journal, February, 1977.
[Olson 67] H. F. Olson - “Music, physics and engineering”, Dover Publications, New
York, 1967.
[O’Shaughnessy 87] D. O’Shaughnessy - “Speech sommunication - Human and
machine”, Addison-Wesley, Reading (MA), 1987.
[Watkinson 01] J. Watkinson - “The art of digital audio”, Focal Press, Oxford (MA),
2001.
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 240/241
7/26/2019 Malcangi - Informatica applicata al suono OCR.pdf
http://slidepdf.com/reader/full/malcangi-informatica-applicata-al-suono-ocrpdf 241/241
Mario Malcangi (www.dico.unimi.it), laureato in Ingegneria Elettronica presso il Politecnico di
Milano, è docente presso il DICo (Dipartimento di Informatica e Comunicazione) delPIJniversità
degli Studi di Milano (www.dico.ummi.it),
Dal 1980 è attivo nella ricerca finalizzata a IP applicazióne della metodologia delPelaborazioneT - •
numerica del segnale (digitai signal processing) in ambito industriale, con particolare attenzione
all’audio e alla voce.^ « » • • • • • • *
Negli anni ’90 ha esteso l’attività di ricerca alle metodologie sofi computing (reti neurali, logicafiizzy e algoritmi genetici) per affrontare problematiche di natura non lineare, soprattutto per
applicazioni di riconoscimento di pattern.
Campi di competenza sono Paudio digitale, P.elaborazione del segnale vocale e la biometrica.
E’ responsabile del laboratorio DSP&RTS (Digital Signal Processing & Real-Time Systems -
www.dsp-rts.dico.unimi.it) e delle attività digitai audio del LIM (Laboratorio di Informatica