Si tratta di
questa breve nota di
pianoforte (Re4) vista:
- come inviluppo, nella sua evoluzione temporale in ampiezza
- come forma d'onda non statica ma in evoluzione nel corso della
nota
- come fft istantanea che, in questo punto, evidenzia le componenti
armoniche e un po' di rumore
- come sonogramma che delinea le componenti e il variare della loro
ampiezza nel tempo
- come spettrogramma in 3D che evidenzia anche l'inviluppo delle
singole
armoniche
La tecnica utilizzata in queste analisi è la FFT (fast fourier
transform: trasformata veloce di Fourier) che è la versione ottimizzata
per massimizzare la velocità di calcolo su computer della DFT (discrete
fourier transform: trasformata discreta di Fourier).
1. FFT
La base della FFT è il fatto che ogni segnale può essere scomposto in
una serie di sinusoidi, ciascuna delle quali possiede una ben
determinata frequenza, ampiezza e fase (teorema di Fourier).
Bisogna notare che la trasformata di Fourier non è l'unica esistente.
Esistono altre trasformate in grado di scomporre un segnale in una
serie di componenti dello stesso tipo. Quella di Walsh, per esempio,
scompone un segnale in una serie di onde quadre e presenta dei vantaggi
dal punto di vista della sintesi (le onde quadre sono molto più facili
da generare rispetto alle sinusoidi). La trasformata di Fourier, però,
evidenzia alcune caratteristiche interessanti:
- Gli elementi base della scomposizione (le sinusoidi) sono onde
prive di armonici. Possono quindi essere considerate come "i mattoni"
mediante la cui somma si crea un suono complesso.
- In effetti, questa proprietà è verificabile in quanto, sommando
le suddette sinusoidi, si ottiene il suono di partenza, come potete
sentire in questo esempio.
- È vero che la stessa cosa accadrebbe anche sommando le onde
generate da una qualsiasi altra trasformata, ma la scomposizione basata
su Fourier ha una maggiore evidenza percettiva. È più molto facile
farsi una immagine di un suono come somma di elementi percettivamente
semplici, come le sinusoidi, rispetto alla somma di elementi complessi.
Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere
le sue componenti, siano esse armoniche o meno, passando dalla visione
della forma d'onda, con il tempo sull'asse X, alla visione in frequenza
(frequenze sull'asse X). Proprio per questo è corretto dire che, con la
FFT, si passa dal dominio del tempo a quello della frequenza.
Il principale parametro di controllo della FFT è la sua risoluzione che
è determinata dal numero di campioni (detti "punti") su cui viene
effettuata. Come
vedete nella figura seguente, le componenti (o parziali) della
nota di pianoforte di cui sopra sono via via più evidenti con
l'aumentare del numero di punti. Naturalmente un maggior numero di
punti significa anche un maggior
tempo di calcolo.
Si ha, quindi, un passaggio dal dominio del tempo a quello delle
frequenze. Come tale, però, la FFT è una analisi
istantanea che vale solamente in
quel punto del suono. Dato che il suono è in evoluzione, potete
considerare una singola FFT come un fotogramma di un film.
1.1 Interpretazione della FFT
Dal punto di vista matematico la FFT è un procedimento che esprime una
funzione come somma di sinusoidi.
Dal punto di vista acustico può benissimo essere vista come un più
semplice e comprensibile banco di filtri che suddivide l'intero spazio
delle frequenze da 0 a SR/2 in tante bande quanti sono i punti diviso
2. Una FFT a 1024 punti, quindi, equivale a suddividere il campo
frequenziale in 512 bande.
Si può
quindi considerare la FFT come un sistema che misura l'energia
contenuta in ognuna di queste bande. Se, per es., si lavora con 2048
punti, è come se si dividesse l'intero spazio frequenziale fra 0 e SR/2
in 2048 / 2 = 1024 parti. Di conseguenza, con SR = 44100, ogni banda
sarebbe larga
mediamente
circa 22050 / 1024 = 21.53 Hz.
Vedendo la cosa in questo modo, si capisce anche perché la risoluzione
in frequenza aumenta con il numero dei punti e quindi anche
perché, nella figura qui sopra, con 256 punti non si isolano le
componenti. 22050 / 128 = circa 172 Hz, che è troppo per isolare delle
singole sinusoidi. La situazione migliora con 512 punti (risoluzione
circa 86 Hz), è buona con 2048 (ris. circa 22 Hz) e ottima con 16384
punti (ris. circa 2.69 Hz).
La seconda cosa da ricordare è che, come
già detto, l'analisi è istantanea e vale, cioè, solo per l'istante in
cui è stata effettuata. Il punto di analisi è quello mediano rispetto
al segmento analizzato. Se abbiamo un suono con SR = 44100 e facciamo
una analisi su 4096 punti che a 44100 corrispondono quasi a 1/10 di
sec.,
l'istante a cui l'analisi si riferisce è il centro di quei 4096
campioni. Prima e dopo, il suono potrebbe essere diverso.
È quindi errato fare una analisi e pensare "in questo suono troviamo
queste componenti". Il concetto esatto è "in questo suono, in questo
istante, troviamo queste componenti".
In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e
poi moltiplicato per un inviluppo a forma di campana (con il massimo al
centro) e trasformato come nella figura a fianco. Questo per evitare
che il troncamento alle estremità influenzi il risultato. L'effetto
della finestra è quello di dare un peso maggiore al centro del segmento
e mostrare lo spettro con maggiore pulizia.
Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si
differenziano per la pendenza e la forma dei lati, il cui effetto su
frequenza e ampiezza è ridotto, ma è più evidente sulla fase delle
componenti risultanti, quindi per il momento lo possiamo ignorare.
Normalmente si usano finestre di Hamming o Blackmann. Chi volesse una
trattazione matematica rigorosa della FFT può consultare
questa
dispensa in PDF, a cura di R. Di Federico distribuita dal DEEI Un.
di Padova.
Ultima considerazione: la FFT si fa su suoni monofonici. Se un suono è
stereo, l'unica possibilità è farne due, una per canale nello stesso
punto.
1.2 Sonogramma e Spettrogramma
Ora il nostro problema è: se la FFT è istantanea, come si può creare
una mappa completa dell'evoluzione di un suono nel tempo?
La risposta è semplice: per poter ottene una tale mappa,
occorre fare una serie di singole analisi a intervalli regolari per
tutta la durata dell'evento sonoro. Otteniamo così un sonogramma in cui
abbiamo il
tempo sull'asse X, le frequenze sull'asse Y e ogni componente è
rappresentata da una linea che si estende nel tempo, il cui colore è
tanto più forte quanto è maggiore l'ampiezza.
Poiché la rappresentazione è sul piano, mentre le dimensioni da
rappresentare sono 3 (frequenze, tempo e ampiezza), per la terza si
deve
ricorrere al colore. Lo schema dei colori può essere diverso, ma
l'importante è che sia in grado di evidenziare le differenze di
ampiezza creando con lo sfondo un contrasto tanto maggiore quanto più
l'ampiezza è elevata.
Con lo stesso procedimento si può ottenere uno spettrogramma. Si tratta
di una rappresentazione 3D in cui abbiamo ancora le frequenze sull'asse
X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate come
altezze sull'asse Z. In tal modo è possibile distinguere chiaramente
anche l'inviluppo dei singoli armonici. Ovviamente in quest'ultimo caso
la colorazione è accessoria e non del tutto necessaria, però. se è
sensata, aiuta, così come aiuta il fatto che lo spettrogramma possa
essere ruotato e studiato da diverse prospettive.
Il problema della risoluzione temporale in un sonogramma
Nel caso del sonogramma, dobbiamo anche tener conto della velocità con
cui il suono cambia nel tempo. I suoni emessi dagli strumenti musicali
variano abbastanza lentamente e con una certa gradualità, tranne
che nel momento dell'attacco in cui possono esserci anche variazioni
molto veloci (i cosiddetti "transitori" o "transienti").
In natura, però, possiamo trovare anche suoni che, nel corso della loro
vita,
esibiscono variazioni molto complesse e veloci. In tal caso, a volte,
la ricerca di una maggiore risoluzione in frequenza, aumentando il
numero dei punti e quindi la lunghezza del segmento su cui si fa
l'analisi, può contrastare con la visione di variazioni temporali
troppo veloci. La risoluzione in frequenza contrasta con la risoluzione
temporale.
Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di
analisi è lunga 16384 punti, essa dura 16384 / 44100 = 0.37 secondi, il
che significa che ogni variazione che dura meno ha buone probabilità di
risultare malamente definita in senso temporale. La cosa è mitigata
solo dal fatto che, nella serie di analisi per creare il sonogramma, le
finestre delle varie analisi vengono parzialmente sovrapposte.
Comunque, in questi casi, una FFT con pochi punti seguirà meglio il
fenomeno rispetto a una con più punti, anche se quest'ultima produce
risultati più definiti in frequenza.
Ascoltate
questo uccellino e
osservate il sonogramma nella figura qui sotto. Fatelo varie volte in
modo da capire bene la corrispondenza fra suono e rappresentazione. Se
avete Cool-Edit, andate in Spectral View in cui potete vedere il
sonogramma con la barra in movimento durante il play.
NB: nel corso del corso :-) dovrete
fare questo esercizio molte volte e con molti suoni. Pendetelo come una
specie di solfeggio timbrico e sonoro.
Il numero di punti di questo
sonogramma è 1024. Supponiamo di voler aumentare la risoluzione in
frequenza e aumentiamo il numero di punti a 16384. Quello che otteniamo
è il sonogramma seguente
Notate come le variazioni rapide siano andate quasi completamente
perse. In particolare, non si vedono più i veloci glissati discendenti
a circa 2 sec., il cui posto è stato preso da masse di estensione che
va dalla frequenza superiore a quella inferiore dell'intero glissato.
Nel caso dei sonogrammi, quindi, è molto importante scegliere il giusto
numero di punti cercando un compromesso fra definizione in frequenza e
definizione temporale.
Curiosità finale: guardate il bellissimo paesaggio disegnato dallo
spettrogramma del canto dell'uccellino.
1.2 Analisi di suoni reali
1.2.1 Analisi istantanea
Subito un caso complesso.
SIb di pianoforte.
Notate l'alto numero di
parziali armoniche, sia pure con qualche piccola deviazione (la
fondamentale è 232.8). Notate
anche che la parziale che ha
maggior ampiezza è la seconda, all'8va sopra la fondamentale. Non è un
caso particolare. Accade spesso e dipende dalla cassa di risonanza o
dalla risonanza del corpo dello strumento (vedi CD Acustica).
Guardate sempre il numero in basso a destra, sotto l'asse orizzontale
come riferimento per l'estensione dello spettro.
E ora qualche suono con parziali inarmoniche
Un gong
Tam-tam (grande gong non
intonato)
Piatto (batteria)
Notate come, in questi ultimi due casi che si avvicinano molto al
rumore indifferenziato (soprattutto il piatto), non abbia più senso
parlare di parziali, ma solo di bande di rumore più o meno estese. Nel
caso del piatto c'è una banda centrata intorno ai 6000 Hz e un'altra
fra i 12000
e 20000 Hz.
Ora guardate un rumore quasi totalmente indifferenziato come
quello prodotto da una fontana
Come vedete, non si vedono parziali, ma solo una banda continua la cui
ampiezza diminuisce verso gli acuti.
1.2.2 Analisi nel tempo
Ora esamineremo gli stessi suoni mediante sonogramma per osservare la
variazione dello spettro nel tempo. Il link ai suoni non è riportato
essendo lo stesso degli esempi di cui sopra.
Ogni sonogramma racconta una storia che in qualche caso diventa un
romanzo. Bisogna saper leggere i sonogrammi come carta stampata.
Sib di pianoforte
Notate:
- il rumore della percussione (martelletto) che si vede come banda
rossa nel primo 10mo di secondo. È un rumore indifferenziato che si
estende ad alto volume fino a circa 7000 Hz, ma arriva anche più in
alto.
- la grande quantità di armonici nella prima parte del suono.
All'istante dell'attacco si arriva fino a circa 15000 Hz (qualcuno
isolato anche oltre)
- la rapida scomparsa delle componenti alte: la maggior parte è già
sparita entro il primo secondo di suono. La loro durata decresce in
funzione dell'altezza seguendo una curva esponenziale decrescente. Questo comportamento è tipico dei suoni a
evoluzione libera (pizzicati, percussivi).
- le componenti che vanno e vengono (linee interrotte), indice di
battimenti
- il blob rosso finale sui bassi è lo smorzatore.
Sol basso di violoncello
Anche qui molti armonici, ma la
maggior parte è piuttosto debole. Solo quelli in rosso hanno una
ampiezza chiaramente sensibile, ma tutti gli altri, sebbene
singolarmente non siano così evidenti, nel loro insieme danno corpo al
suono.
Le macchie in alta frequenza sono interpretabili (a posteriori) come il
rumore dell'arco che è proprio uno sfregamento a frequenze alte.
Notate che, al momento dell'attacco, gli armonici arrivano quasi tutti
insieme (con un beve ritardo), poi rimangono in buona parte stabili per
tutta la durata del suono e scompaiono in breve tempo (a cominciare
dalle componenti alte) alla fine.
Questo
comportamento è tipico dei suoni a evoluzione controllata (archi,
fiati). In questo caso il decadimento è lungo (quasi 1/2 secondo) e
dipende dal fatto che la corda riesce ancora a vibrare se l'arco viene
tolto di colpo.
In entrambi questi esempi abbiamo visto molti armonici. Ciò dipende dal
fatto che, in entrambi i casi, abbiamo analizzato note basse generate
da corde grosse. In genere, i suoni bassi hanno una maggiore quantità
di armonici, per varie ragioni:
- le strutture vibranti più massicce possono vibrare in modo più
complesso rispetto a quelle sottili
- normalmente, le strutture vibranti che emettono suoni bassi
vengono trattate con maggiore violenza, sia perché sono più massicce,
ma soprattutto per compensare l'effetto Fletcher (vedi CD Acustica:
curve di Fletcher) per cui occorre una ampiezza assoluta notevolmente
maggiore per produrre suoni percepiti allo stesso volume di quelli
nella banda 500 - 2000 Hz
- gli armonici di fondamentali alte escono molto prima dalla banda
udibile: una fondamentale a 100 Hz ha il 200mo armonico a 20000 Hz,
mentre se la fondamentale è a 2000 Hz, già il 10mo armonico è a 20000
Hz.
Sol di tromba
Due grafici per la tromba: a sin.
l'inviluppo, a des. il sonogramma.
Notate come l'attacco in
sfz,
tipico degli ottoni e ben visibile nell'inviluppo (occorre superare una
certa soglia perché scatti la vibrazione) si rifletta nel sonogramma
con componenti che all'inizio risultano più forti e meno precise (un
po' più sporche).
Notate anche come esista un leggero glissando al momento dell'attacco,
più visibile nelle frequenze alte. In realtà l'entità del glissando è
uguale, in percentuale, su tutte le componenti, ma, essendo l'asse Y
lineare e non logaritmica, si vede di più sugli alti (se è dell'1%, a
300 Hz è 3 e a 3000 Hz è 30).
Infine, il giallo diffuso, è il rumore del soffio.
Gong
Un suono inarmonico, come si vede bene nell'ingrandimento a des. (la
distanza fra le componenti è variabile).
Per il resto, il quadro è quello tipico dei suoni a evoluzione libera:
percussione iniziale con parecchie componenti che spompaiono
rapidamente seguendo un pronunciato andamento esponenziale.
Tamtam
Molte componenti che vanno a riempire
dapprima lo spazio sui bassi e poi si estendono verso l'alto (il tamtam
è grande e impiega tempo, circa 1 sec., a entrare in vibrazione nella
sua interezza). Ci avviciniamo al rumore indistinto a banda limitata,
ma esistono alcune componenti molto pronunciate (soprattutto quella più
bassa che agisce come pseudo-fondamentale).
Il decadimento rispetta sempre la legge secondo cui gli alti se vanno
prima, ma in modo meno regolare, a causa delle grandi dimensioni e
della diversa densità e spessore del materiale che lo compone.
Piatto
Siamo al rumore indistinto. La
differenziazione fra le singole componenti si perde in favore di 2
bande: la prima arriva fino a circa 11000 Hz con centro intorno ai
6000/8000, la seconda fra 12000 e quasi 20000 Hz. Alcune componenti
della prima banda rimangono come rumore residuo (molto debole) quando
il piatto è stoppato.
Fontana
Infine, la fontana: rumore statico,
indifferenziato, con maggior peso sulle frequenze basse. Notate la
differenza qualitativa con l'esempio precedente:
qui non c'è il minimo accenno a delle righe
che possano suggerire delle componenti.
Ora, per avere un'idea della complessità dell'analisi e della
ricostruzione eseguite in tempo reale dal nostro sistema percettivo,
osservate il sonogramma di un frammento musicale solistico che potete
ascoltare cliccando sul titolo.
Albenitz - Asturias (frag.)