Mauro Graziani
Conservatorio E.F. Dall'Abaco - Verona
Biennio di Composizione Ind. Tecnologico/Multimediale

Modelli di analisi, rappresentazione e trattamento digitale del suono
Modulo 3

Pensare il Suono
Analisi e Rappresentazione mediante FFT

NB: per risparmiare spazio, gli esempi sonori sono stati compressi in MP3. Di conseguenza la loro qualità è inferiore rispetto a quelli in formato lineare distribuiti nel corso delle lezioni.

0.   Introduzione

In questa figura è schematizzato il passaggio dalla musica all'analisi del singolo suono. È importante osservare che, fino al riquadro b passiamo attraverso vari livelli di ingrandimento del fenomeno sonoro: da c in poi, invece, passiamo all'analisi.
Analisi
Si tratta di questa breve nota di pianoforte (Re4) vista:
  1. come inviluppo, nella sua evoluzione temporale in ampiezza
  2. come forma d'onda non statica ma in evoluzione nel corso della nota
  3. come fft istantanea che, in questo punto, evidenzia le componenti armoniche e un po' di rumore
  4. come sonogramma che delinea le componenti e il variare della loro ampiezza nel tempo
  5. come spettrogramma in 3D che evidenzia anche l'inviluppo delle singole armoniche
La tecnica utilizzata in queste analisi è la FFT (fast fourier transform: trasformata veloce di Fourier) che è la versione ottimizzata per massimizzare la velocità di calcolo su computer della DFT (discrete fourier transform: trasformata discreta di Fourier).

1.   FFT

La base della FFT è il fatto che ogni segnale può essere scomposto in una serie di sinusoidi, ciascuna delle quali possiede una ben determinata frequenza, ampiezza e fase (teorema di Fourier).
Bisogna notare che la trasformata di Fourier non è l'unica esistente. Esistono altre trasformate in grado di scomporre un segnale in una serie di componenti dello stesso tipo. Quella di Walsh, per esempio, scompone un segnale in una serie di onde quadre e presenta dei vantaggi dal punto di vista della sintesi (le onde quadre sono molto più facili da generare rispetto alle sinusoidi). La trasformata di Fourier, però, evidenzia alcune caratteristiche interessanti:
Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere le sue componenti, siano esse armoniche o meno, passando dalla visione della forma d'onda, con il tempo sull'asse X, alla visione in frequenza (frequenze sull'asse X). Proprio per questo è corretto dire che, con la FFT, si passa dal dominio del tempo a quello della frequenza.
Il principale parametro di controllo della FFT è la sua risoluzione che è determinata dal numero di campioni (detti "punti") su cui viene effettuata. Come vedete nella figura seguente, le componenti (o parziali)  della nota di pianoforte di cui sopra sono via via più evidenti con l'aumentare del numero di punti. Naturalmente un maggior numero di punti significa anche un maggior tempo di calcolo.

aumento risoluzione

Si ha, quindi, un passaggio dal dominio del tempo a quello delle frequenze. Come tale, però, la FFT è una analisi istantanea che vale solamente in quel punto del suono. Dato che il suono è in evoluzione, potete considerare una singola FFT come un fotogramma di un film.

1.1   Interpretazione della FFT

Dal punto di vista matematico la FFT è un procedimento che esprime una funzione come somma di sinusoidi.
Dal punto di vista acustico può benissimo essere vista come un più semplice e comprensibile banco di filtri che suddivide l'intero spazio delle frequenze da 0 a SR/2 in tante bande quanti sono i punti diviso 2. Una FFT a 1024 punti, quindi, equivale a suddividere il campo frequenziale in 512 bande.
Si può quindi considerare la FFT come un sistema che misura l'energia contenuta in ognuna di queste bande. Se, per es., si lavora con 2048 punti, è come se si dividesse l'intero spazio frequenziale fra 0 e SR/2 in 2048 / 2 = 1024 parti. Di conseguenza, con SR = 44100, ogni banda sarebbe larga mediamente circa 22050 / 1024 = 21.53 Hz.
Vedendo la cosa in questo modo, si capisce anche perché la risoluzione in frequenza aumenta con il numero dei punti e quindi anche perché, nella figura qui sopra, con 256 punti non si isolano le componenti. 22050 / 128 = circa 172 Hz, che è troppo per isolare delle singole sinusoidi. La situazione migliora con 512 punti (risoluzione circa 86 Hz), è buona con 2048 (ris. circa 22 Hz) e ottima con 16384 punti (ris. circa 2.69 Hz).
FFT - finestraturaLa seconda cosa da ricordare è che, come già detto, l'analisi è istantanea e vale, cioè, solo per l'istante in cui è stata effettuata. Il punto di analisi è quello mediano rispetto al segmento analizzato. Se abbiamo un suono con SR = 44100 e facciamo una analisi su 4096 punti che a 44100 corrispondono quasi a 1/10 di sec., l'istante a cui l'analisi si riferisce è il centro di quei 4096 campioni. Prima e dopo, il suono potrebbe essere diverso.
È quindi errato fare una analisi e pensare "in questo suono troviamo queste componenti". Il concetto esatto è "in questo suono, in questo istante, troviamo queste componenti".
In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e poi moltiplicato per un inviluppo a forma di campana (con il massimo al centro) e trasformato come nella figura a fianco. Questo per evitare che il troncamento alle estremità influenzi il risultato. L'effetto della finestra è quello di dare un peso maggiore al centro del segmento e mostrare lo spettro con maggiore pulizia.
Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si differenziano per la pendenza e la forma dei lati, il cui effetto su frequenza e ampiezza è ridotto, ma è più evidente sulla fase delle componenti risultanti, quindi per il momento lo possiamo ignorare. Normalmente si usano finestre di Hamming o Blackmann. Chi volesse una trattazione matematica rigorosa della FFT può consultare questa dispensa in PDF, a cura di R. Di Federico distribuita dal DEEI Un. di Padova.
Ultima considerazione: la FFT si fa su suoni monofonici. Se un suono è stereo, l'unica possibilità è farne due, una per canale nello stesso punto.

1.2   Sonogramma e Spettrogramma

Ora il nostro problema è: se la FFT è istantanea, come si può creare una mappa completa dell'evoluzione di un suono nel tempo?
La risposta è semplice: per poter ottene una tale mappa, occorre fare una serie di singole analisi a intervalli regolari per tutta la durata dell'evento sonoro. Otteniamo così un sonogramma in cui abbiamo il tempo sull'asse X, le frequenze sull'asse Y e ogni componente è rappresentata da una linea che si estende nel tempo, il cui colore è tanto più forte quanto è maggiore l'ampiezza.
Poiché la rappresentazione è sul piano, mentre le dimensioni da rappresentare sono 3 (frequenze, tempo e ampiezza), per la terza si deve ricorrere al colore. Lo schema dei colori può essere diverso, ma l'importante è che sia in grado di evidenziare le differenze di ampiezza creando con lo sfondo un contrasto tanto maggiore quanto più l'ampiezza è elevata.

sonogramma e spettrogramma

Con lo stesso procedimento si può ottenere uno spettrogramma. Si tratta di una rappresentazione 3D in cui abbiamo ancora le frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate come altezze sull'asse Z. In tal modo è possibile distinguere chiaramente anche l'inviluppo dei singoli armonici. Ovviamente in quest'ultimo caso la colorazione è accessoria e non del tutto necessaria, però. se è sensata, aiuta, così come aiuta il fatto che lo spettrogramma possa essere ruotato e studiato da diverse prospettive.

Il problema della risoluzione temporale in un sonogramma

Nel caso del sonogramma, dobbiamo anche tener conto della velocità con cui il suono cambia nel tempo. I suoni emessi dagli strumenti musicali variano  abbastanza lentamente e con una certa gradualità, tranne che nel momento dell'attacco in cui possono esserci anche variazioni molto veloci (i cosiddetti "transitori" o "transienti").
In natura, però, possiamo trovare anche suoni che, nel corso della loro vita, esibiscono variazioni molto complesse e veloci. In tal caso, a volte, la ricerca di una maggiore risoluzione in frequenza, aumentando il numero dei punti e quindi la lunghezza del segmento su cui si fa l'analisi, può contrastare con la visione di variazioni temporali troppo veloci. La risoluzione in frequenza contrasta con la risoluzione temporale.
Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di analisi è lunga 16384 punti, essa dura 16384 / 44100 = 0.37 secondi, il che significa che ogni variazione che dura meno ha buone probabilità di risultare malamente definita in senso temporale. La cosa è mitigata solo dal fatto che, nella serie di analisi per creare il sonogramma, le finestre delle varie analisi vengono parzialmente sovrapposte. Comunque, in questi casi, una FFT con pochi punti seguirà meglio il fenomeno rispetto a una con più punti, anche se quest'ultima produce risultati più definiti in frequenza.
Ascoltate questo uccellino e osservate il sonogramma nella figura qui sotto. Fatelo varie volte in modo da capire bene la corrispondenza fra suono e rappresentazione. Se avete Cool-Edit, andate in Spectral View in cui potete vedere il sonogramma con la barra in movimento durante il play.

NB: nel corso del corso :-) dovrete fare questo esercizio molte volte e con molti suoni. Pendetelo come una specie di solfeggio timbrico e sonoro.
Sonogramma uccellino con ris. 1024
Il numero di punti di questo sonogramma è 1024. Supponiamo di voler aumentare la risoluzione in frequenza e aumentiamo il numero di punti a 16384. Quello che otteniamo è il sonogramma seguente
Sonogramma uccellino con ris. 16384
Notate come le variazioni rapide siano andate quasi completamente perse. In particolare, non si vedono più i veloci glissati discendenti a circa 2 sec., il cui posto è stato preso da masse di estensione che va dalla frequenza superiore a quella inferiore dell'intero glissato.
Nel caso dei sonogrammi, quindi, è molto importante scegliere il giusto numero di punti cercando un compromesso fra definizione in frequenza e definizione temporale.
Curiosità finale: guardate il bellissimo paesaggio disegnato dallo spettrogramma del canto dell'uccellino.
spettrogramma: canto come paesaggio

1.2    Analisi di suoni reali

1.2.1   Analisi istantanea

Subito un caso complesso. SIb di pianoforte. Notate l'alto numero di parziali armoniche, sia pure con qualche piccola deviazione (la fondamentale è 232.8). Notate anche che la parziale che ha maggior ampiezza è la seconda, all'8va sopra la fondamentale. Non è un caso particolare. Accade spesso e dipende dalla cassa di risonanza o dalla risonanza del corpo dello strumento (vedi CD Acustica).
Guardate sempre il numero in basso a destra, sotto l'asse orizzontale come riferimento per l'estensione dello spettro.

SOL basso di violoncello

SOL di tromba qui la terza parziale ha l'ampiezza maggiore

E ora qualche suono con parziali inarmoniche
Un gong

Tam-tam (grande gong non intonato)

Piatto (batteria)

Notate come, in questi ultimi due casi che si avvicinano molto al rumore indifferenziato (soprattutto il piatto), non abbia più senso parlare di parziali, ma solo di bande di rumore più o meno estese. Nel caso del piatto c'è una banda centrata intorno ai 6000 Hz e un'altra fra i 12000 e 20000 Hz.
Ora guardate un rumore quasi totalmente indifferenziato come quello prodotto da una fontana

Come vedete, non si vedono parziali, ma solo una banda continua la cui ampiezza diminuisce verso gli acuti.

1.2.2   Analisi nel tempo

Ora esamineremo gli stessi suoni mediante sonogramma per osservare la variazione dello spettro nel tempo. Il link ai suoni non è riportato essendo lo stesso degli esempi di cui sopra.
Ogni sonogramma racconta una storia che in qualche caso diventa un romanzo. Bisogna saper leggere i sonogrammi come carta stampata.

Sib di pianoforte

Sonogramma Sib pianoforte
Notate:
  • il rumore della percussione (martelletto) che si vede come banda rossa nel primo 10mo di secondo. È un rumore indifferenziato che si estende ad alto volume fino a circa 7000 Hz, ma arriva anche più in alto.
  • la grande quantità di armonici nella prima parte del suono. All'istante dell'attacco si arriva fino a circa 15000 Hz (qualcuno isolato anche oltre)
  • la rapida scomparsa delle componenti alte: la maggior parte è già sparita entro il primo secondo di suono. La loro durata decresce in funzione dell'altezza seguendo una curva esponenziale decrescente. Questo comportamento è tipico dei suoni a evoluzione libera (pizzicati, percussivi).
  • le componenti che vanno e vengono (linee interrotte), indice di battimenti
  • il blob rosso finale sui bassi è lo smorzatore.

Sol basso di violoncello

G cello
Anche qui molti armonici, ma la maggior parte è piuttosto debole. Solo quelli in rosso hanno una ampiezza chiaramente sensibile, ma tutti gli altri, sebbene singolarmente non siano così evidenti, nel loro insieme danno corpo al suono.
Le macchie in alta frequenza sono interpretabili (a posteriori) come il rumore dell'arco che è proprio uno sfregamento a frequenze alte.
Notate che, al momento dell'attacco, gli armonici arrivano quasi tutti insieme (con un beve ritardo), poi rimangono in buona parte stabili per tutta la durata del suono e scompaiono in breve tempo (a cominciare dalle componenti alte) alla fine. Questo comportamento è tipico dei suoni a evoluzione controllata (archi, fiati). In questo caso il decadimento è lungo (quasi 1/2 secondo) e dipende dal fatto che la corda riesce ancora a vibrare se l'arco viene tolto di colpo.

In entrambi questi esempi abbiamo visto molti armonici. Ciò dipende dal fatto che, in entrambi i casi, abbiamo analizzato note basse generate da corde grosse. In genere, i suoni bassi hanno una maggiore quantità di armonici, per varie ragioni:
  • le strutture vibranti più massicce possono vibrare in modo più complesso rispetto a quelle sottili
  • normalmente, le strutture vibranti che emettono suoni bassi vengono trattate con maggiore violenza, sia perché sono più massicce, ma soprattutto per compensare l'effetto Fletcher (vedi CD Acustica: curve di Fletcher) per cui occorre una ampiezza assoluta notevolmente maggiore per produrre suoni percepiti allo stesso volume di quelli nella banda 500 - 2000 Hz
  • gli armonici di fondamentali alte escono molto prima dalla banda udibile: una fondamentale a 100 Hz ha il 200mo armonico a 20000 Hz, mentre se la fondamentale è a 2000 Hz, già il 10mo armonico è a 20000 Hz.

Sol di tromba

Sol tromba
Due grafici per la tromba: a sin. l'inviluppo, a des. il sonogramma.
Notate come l'attacco in sfz, tipico degli ottoni e ben visibile nell'inviluppo (occorre superare una certa soglia perché scatti la vibrazione) si rifletta nel sonogramma con componenti che all'inizio risultano più forti e meno precise (un po' più sporche).
Notate anche come esista un leggero glissando al momento dell'attacco, più visibile nelle frequenze alte. In realtà l'entità del glissando è uguale, in percentuale, su tutte le componenti, ma, essendo l'asse Y lineare e non logaritmica, si vede di più sugli alti (se è dell'1%, a 300 Hz è 3 e a 3000 Hz è 30).
Infine, il giallo diffuso, è il rumore del soffio.

Gong

Gong
Un suono inarmonico, come si vede bene nell'ingrandimento a des. (la distanza fra le componenti è variabile).
Per il resto, il quadro è quello tipico dei suoni a evoluzione libera: percussione iniziale con parecchie componenti che spompaiono rapidamente seguendo un pronunciato andamento esponenziale.

Tamtam

Tamtam
Molte componenti che vanno a riempire dapprima lo spazio sui bassi e poi si estendono verso l'alto (il tamtam è grande e impiega tempo, circa 1 sec., a entrare in vibrazione nella sua interezza). Ci avviciniamo al rumore indistinto a banda limitata, ma esistono alcune componenti molto pronunciate (soprattutto quella più bassa che agisce come pseudo-fondamentale).
Il decadimento rispetta sempre la legge secondo cui gli alti se vanno prima, ma in modo meno regolare, a causa delle grandi dimensioni e della diversa densità e spessore del materiale che lo compone.

Piatto

Piatto
Siamo al rumore indistinto. La differenziazione fra le singole componenti si perde in favore di 2 bande: la prima arriva fino a circa 11000 Hz con centro intorno ai 6000/8000, la seconda fra 12000 e quasi 20000 Hz. Alcune componenti della prima banda rimangono come rumore residuo (molto debole) quando il piatto è stoppato.

Fontana

Fontana
Infine, la fontana: rumore statico, indifferenziato, con maggior peso sulle frequenze basse. Notate la differenza qualitativa con l'esempio precedente: qui non c'è il minimo accenno a delle righe che possano suggerire delle componenti.

Ora, per avere un'idea della complessità dell'analisi e della ricostruzione eseguite in tempo reale dal nostro sistema percettivo, osservate il sonogramma di un frammento musicale solistico che potete ascoltare cliccando sul titolo.

Albenitz - Asturias (frag.)

asturias sonogramma

Index
Back Next