L'uomo, all'inizio,
costruisce sempre macchine concettualmente antropomorfe che
riproducono alcune delle sue funzioni. Anche in questo caso, i
primi apparecchi per registrare le onde audio riproducono le
funzioni dell'orecchio. Il nostro sistema percettivo insegna che
l'onda acustica, indirizzata da un apposito canale (padiglione e
canale auricolare) su una membrana (timpano), mette in vibrazione
quest'ultima che, a sua volta, trasmette la vibrazione a una
catena di oggetti rigidi (catena degli ossicini).
Il primo apparecchio che, in qualche modo, registra le onde audio
è il "fonoautografo" (figura a destra su cui potete cliccare per
vederla ingrandita) che incideva le onde sonore su un cilindro su
cui era steso uno strato di carbone, grazie a uno stilo collegato
a un diaframma che veniva messo in vibrazione dai suoni.
Osservate come vengano riprodotte le funzioni dell'orecchio
esterno e medio: la tromba convoglia le onde audio su una membrana
che, vibrando, le trasmette a uno stilo che le incide su un rullo.
L'unica differenza è costituita dalla presenza del supporto (il
rullo) che diventava necessario per passare, poi, alla fase
inversa, la riproduzione.

In realtà il fonoautografo non era in grado
di riprodurre le onde sonore, ma solo di inciderle. Edison fu il
primo a fabbricare un apparecchio capace di eseguire entrambi i
compiti: il "fonografo". Nell'immagine a sinistra potete vedere i
solchi incisi da un fonografo di Edison sul supporto di stagno
(ingranditela cliccandoci sopra: è molto grande) e qui potete
sentire la voce di Edison incisa
con uno dei suoi apparecchi. A destra, invece, vedete il modello
di Berliner (successivo) che incideva un disco al posto del
cilindro (anche questa è ingrandibile). Quest'ultimo fu il primo
ad arrivare alla produzione di massa nel 1888 con un disco di 7
pollici (17.78 cm) che girava a 30 giri/min. (solo 2 min di durata
perché i solchi erano larghi e distanziati fra loro).
Notate che, concettualmente, fatte salve le migliorie qualitative
introdotte dall'elettricità e dalle resine plastiche, il sistema
resterà lo stesso fino ai dischi in vinile e sarà accantonato solo
con il digitale.
La grandezza e la distanza dei solchi, così come la velocità di
rotazione, sono tutti parametri che variano con i perfezionamenti
tecnici. All'inizio i solchi erano larghi e lontani per non
rischiare la sovrapposizione, poi, con apparecchi via via più
precisi, i solchi divennero piccoli e vicini. La velocità venne
aumentata per migliorare la resa soprattutto sulle alte frequenze
(78 giri/min). In seguito, con ulteriori perfezionamenti, anche la
velocità diminuì fino allo standard di 33 1/3 giri/min (il
cosiddetto long playing).
Già nella
seconda metà dell'800, Helmholtz e Bell si erano indirizzati verso
l'elettromagnetismo nei loro studi per la registrazione e la
riproduzione dell'audio e i primi microfoni che utilizzavano
sistemi elettrici vennero costruiti nei primi anni del '900.
Visto il principio di cui
sopra, è facile capire come può essere fatto un microfono.
Oggi esistono
diversi tipi di microfoni dinamici, che si differenziano
moltissimo in base alla qualità (da pochi Euro, come i microfoni
forniti di serie con le schede audio più comuni, e adatti per
applicazioni vocali) fino a centinaia di Euro, adatti per
applicazioni musicali. Fra le caratteristiche dei microfoni
dinamici si può ancora citare la relativa insensibilità ai rumori
meccanici esterni (come il maneggiamento del microfono) e lo
spiccato effetto di prossimità, cioè la caratteristica di variare
la risposta in frequenza, e quindi la timbrica, a seconda della
distanza del microfono dalla sorgente sonora. I microfoni dinamici
sopportano, generalmente, elevate pressioni acustiche.
Ovviamente, per poter
salvare le variazioni della tensione nel tempo, questo supporto
non deve essere un blocco ristretto, ma disporre di un certo
spazio come sul disco e sul nastro.
Lo schema di funzionamento
di un registratore a nastro è il seguente: il registratore è
sostanzialmente costituito da un sistema di trascinamento che ha
lo scopo di far scorrere il nastro ad una velocità costante di
fronte a tre "testine magnetiche" usate, rispettivamente, per la
registrazione, la cancellazione e la riproduzione.
E'
costituito da un cono (in grigio
nell'immagine), che nella maggior parte dei casi ancora oggi è
costituito da cartone, così come nei suoi antenati (anche se in
diversi casi oggi si usa della plastica).
In tal modo, il
cono vibra seguendo l'andamento della corrente e muove l'aria
davanti a sè riproducendo l'onda acustica. Se, per esempio, si
applica una variazione con una frequenza di 1000 Hz (mille cicli
al secondo) il cono si sposterà avanti e indietro 1000 volte al
secondo, e quindi produrrà una frequenza udibile di 1000 Hz. Se viene immesso un segnale con una corrente
alternata a 3000 Hz, ecco che l'altoparlante riprodurrà un
suono di 3000 Hz.






Osservate la figura a sinistra.


Come abbiamo detto nel capitolo 4.1, la frequenza di campionamento deve essere almeno pari al doppio della più alta frequenza contenuta nel segnale audio perché per coprire il range udibile umano che va da 0 a 20000 Hz è necessaria una frequenza di campionamento (SR) pari almeno a 40000 campioni al secondo.
Ne consegue che, in un segnale digitale, le frequenze superiori a SR/2 non esistono. Infatti, se, con quache tecnica di sintesi, create una frequenza maggiore di SR/2, la vostra frequenza non scomparirà, ma "rimbalzerà indietro" e la risultante sarà SR meno la vostra frequenza. Per es. se SR=44100, quindi con banda passante 0-22050 Hz e voi fate 30000, vi troverete una frequenza non prevista a 44100-30000 = 14100 Hz.
La stessa cosa vale per le frequenze che superano SR, per es. se fate 50000 Hz, risulta sempre 44100-50000 = -5900 e la frequenza negativa si percepisce esattamente come quella positiva con la differenza che ha la fase invertita che noi non percepiamo.
Questo fenomeno è chiamato foldover
Ne consegue che, se, per esempio, creiamo un'onda che ha più di 20 componenti armoniche, dobbiamo tener presente che, se la usiamo con fondamentale a 1000 Hz, la 20ma componente sarà a 20000 Hz che, con un SR standard di 44100 o 48000 Hz, sarà già molto vicina al limite, quindi
Ma questo vale per una fondamentale a 1000 Hz e una ventina di componenti armoniche. In realtà un Mi di violino a corda vuota, con fondamentale a circa 660 Hz arriva a 33 componenti.
Un esempio dello schema del suo spettro, ricavato da un suono reale, è questo:

Qui l'asse Y è in ampiezza 0-1 e i numeri sull'asse X sono quelli delle componenti: 1 è la fondamentale, 2 il primo armonico, etc. quindi questo non è uno spettro, ma lo schema dello spettro di un suono con componenti armoniche. Una volta scelta la fondamentale possiamo ottenere lo spettro con asse X in Hz moltiplicando questa frequenza per 1, 2, 3, etc.
Ora, con fondamentale a 660 Hz, la frequenza della 33ma componente è 660 * 33 = 21780 Hz, cioè appena sotto la massima frequenza oltre alla quale scatta il foldover con SR=44100. Già una ipotetica componente 34 fa 22440 Hz ed è in foldover quindi produrrebbe 44100-22440 = 21660 Hz. Una frequenza che noi non possiamo sentire, ma tutto questo significa che, con questa configurazione spettrale, in teoria non possiamo andare oltre il Mi 660 senza produrre componenti non volute con frequenze che non c'entrano nulla con questo spettro!
Adesso immagino già che qualcuno mi dirà: "ma dai, sono tutte frequenze altissime e poi nello schema hanno ampiezze ridicole…" e in questo caso avrebbe anche ragione. Ci sono casi in cui il foldover c'è ma non si percepisce. Questo può accadere quando:
Ma calma, vediamo un esempio. Il Do più alto del piano che, a parte qualche caso sporadico, possiamo considerare come la fondamentale più alta nella nostra musica, è 4186 Hz. Se semplicemente andiamo al La della penultima 8va del piano che è 1760 Hz, il nostro spettro va in foldover già alla 13ma componente. Andando su di un'altra 8va siamo a 3520 che va in foldover alla 7ma componente e produce questo mentre dovremmo sentire questo.
Allora guardiamo il sonogramma qui a sinistra. La nostra fondamentale è 3520 Hz quindi non dovremmo vedere niente sotto questa frequenza, mentre qui vediamo una riga doppia poco sotto i 2k e un'altra vicina allo zero. Inoltre dovremmo vedere un armonico ogni 3520 Hz, quindi a circa 7k, 10k, 14k, 17k, etc. mentre vediamo molte righe in più, fra 5 e 6k, vicino a 9k, fra 12 e 13k, etc.
Cosa sono? Foldover ovviamente, infatti guardiamo quelli righe sotto i 3520. La 13ma componente del nostro segnale sarebbe 45760 Hz che va in foldover e diventa 1660 Hz, la 12ma è 42240 e diventa 1860 Hz. Ecco spiegata la doppia riga poco sotto i 2k.
E la riga molto vicina allo zero, da dove viene? Con un po' di pazienza si trova: la 27ma componente sarebbe 95040 Hz, che diventa 43650 Hz che, sottratto ancora a 44100 dà 450 Hz. Nonostante nello spettro sia molto debole (≈0.00423 cioè -47 dBfs) forse non si sente, ma si vede.
Andando avanti così, con pazienza, si può identificare tutto.
Poi ascoltate quest'altro esempio in cui abbiamo due suoni: il primo a 3520 Hz e il secondo a 1760 che sarebbe una 8va sotto, ma invece sembra quasi che sia più acuto.
Ma allora, com'è la realtà? Nella realtà non c'è il foldover quindi, se io, con uno strumento musicale, faccio l'ultimo Do del piano che è 4186 Hz, il 10mo armonico è 41860 Hz, il 20mo è 83720 e il 30mo sarebbe addirittura 125580 Hz. Ci sono veramente armonici a queste frequenze? E se ci sono, cosa succede se tento di registrarli?
La risposta alla seconda domanda è semplice: non puoi. Quando registriamo in digitale noi selezioniamo una frequenza di campionamento e tutto ciò che è maggiore di SR/2 in registrazione di solito viene brutalmente eliminato dalla scheda audio prima di arrivare all'ADC. Non si registra, punto. Da questo deriva anche il fatto che, se analizziamo suoni sempre più acuti, ci sembra che le componenti alte gradualmente spariscano, ma nella realtà non è così. Sicuramente diminuiscono in ampiezza, ma, a volte, non spariscono del tutto. Semplicemente superano le nostre capacità percettive e anche quelle della scheda audio. È per questo che non è una buona idea portare il cane a un concerto di musica classica o comunque con un'orchestra che suona dal vivo senza amplificazione (se invece gli strumenti sono amplificati, ci pensano i microfoni e le casse a far fuori tutto ciò che supera i 22 o 25 kHz, ma spesso c'è un volume tale che il cane si incazza lo stesso).
Per quanto riguarda la prima domanda, cioè la realtà, c'è un famoso paper scritto negli anni '90 da tale James Boyk del Caltech che, equipaggiato con una scheda audio e un microfono in grado di catturare il suono con una larghezza di banda che arriva a 100 kHz, ha analizzato dei suoni strumentali dimostrando che "There's life above 20000 Hertz!". Questo è il titolo dell'articolo di cui potete leggere una mia breve recensione che riporta anche il link all'articolo originale (si apre in un nuovo tab del vostro browser).
In pratica, la ricerca di Boyk dimostra, ad esempio, che una tromba che suona un Sib con fondamentale a soli 465.4 Hz emette componenti armoniche che superano i 50 kHz, arrivando anche al centesimo armonico con un'ampiezza sì bassa, ma non proprio banale.
Adesso potreste anche chiedervi se c'è un modo per evitare il foldover? Beh, evitarlo, no, ma renderlo inoffensivo sì. Basta aumentare la frequenza di campionamento. Ormai tutte le schede audio, ma anche la schedina che c'è dentro il computer, non sono limitate a 48 kHz, ma arrivano a 96 e 192 kHz.
Quindi se, per esempio, l'SR è 96000, la banda arriva a 48000. Ne consegue che:
infatti, con SR = 192 kHz, possiamo tranquillamente sintetizzare l'esempio precedente e avere un suono pulito. Un po' di foldover c'è perché ci sono delle componenti > di 96 kHz, ma non è percepibile. Lo vedete nell'immagine qui sotto, nella prima nota a 3520 Hz in cui le componenti raddoppiano da circa 75 kHz in su. In effetti qui la componente 33 è 116160 Hz che, in foldover, diventa 75840 Hz quindi questa e tutte le altre componenti > 76 kHz rimbalzano indietro. Ecco perché nel sonogramma vedete molte componenti in più a partire da circa 76 kHz.

Al limite, se proprio dovete usare un SR più standard, si può sintetizzare il segnale a 192 kHz, come ho fatto qui e poi filtrare tutto sopra i 24 kHz e ricampionare con SR 48 kHz. Attenzione: non ricalcolare, ma semplicemente rileggerlo con SR 48 kHz. Ecco il risultato audio e il sonogramma. Naturalmente qui ci sono molte componenti in meno perché sono state eliminate tutte quelle > 24 kHz, che comunque non erano percepibili quindi il risultato acustico non è cambiato. Una volta fatto questo, l'audio è stato ricampionato con SR 48000.

In definitiva, con SR = 96 kHz, potete tranquillamente generare frequenze < 76000 Hz senza problemi se non il fatto che il sistema lavora il doppio e questo, in tempo reale, dimezza le vostre possibilità di elaborazione e di polifonia. Con SR = 192 kHz arrivate a 172 kHz ma la performance del computer si riduce fino a circa 1/4. Allora, se, per esempio, con Max o PD, io voglio seguire in tempo reale l'inviluppo di uno strumento esterno per poterlo mixare con un mio suono dando anche a questo lo stesso inviluppo, vado a leggere l'ampiezza del segnale esterno ogni, diciamo, 5 o 10 msec e magari devo farlo per i singoli strumenti di un quartetto d'archi o di un quintetto di fiati, ce la faccio?
In effetti, questo sistema evita il foldover, ma fa lavorare il computer molto di più producendo una quantità di componenti che non servono a niente perché non sono percepibili e come già detto, questo significa ridurre le risorse a disposizione.
Conclusione: il foldover è da evitare, a meno che non sia previsto e parte del progetto oppure sicuramente non percepibile.
|
-1 |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
|
C |
16.35 |
32.70 |
65.41 |
130.81 |
261.63 |
523.25 |
1046.50 |
2093.00 |
4186.01 |
8372.02 |
|
C#/Db |
17.32 |
34.65 |
69.30 |
138.59 |
277.18 |
554.37 |
1108.73 |
2217.46 |
4434.92 |
8869.84 |
|
D |
18.35 |
36.71 |
73.42 |
146.83 |
293.66 |
587.33 |
1174.66 |
2349.32 |
4698.64 |
9397.27 |
|
D#/Eb |
19.45 |
38.89 |
77.78 |
155.56 |
311.13 |
622.25 |
1244.51 |
2489.02 |
4978.03 |
9956.06 |
|
E |
20.60 |
41.20 |
82.41 |
164.81 |
329.63 |
659.26 |
1318.51 |
2637.02 |
5274.04 |
10548.08 |
|
F |
21.83 |
43.65 |
87.31 |
174.61 |
349.23 |
698.46 |
1396.91 |
2793.83 |
5587.65 |
11175.30 |
|
F#/Gb |
23.12 |
46.25 |
92.50 |
185.00 |
369.99 |
739.99 |
1479.98 |
2959.96 |
5919.91 |
11839.82 |
|
G |
24.50 |
49.00 |
98.00 |
196.00 |
392.00 |
783.99 |
1567.98 |
3135.96 |
6271.93 |
12543.85 |
|
G#/Ab |
25.96 |
51.91 |
103.83 |
207.65 |
415.30 |
830.61 |
1661.22 |
3322.44 |
6644.88 |
13289.75 |
|
A |
27.50 |
55.00 |
110.00 |
220.00 |
440.00 |
880.00 |
1760.00 |
3520.00 |
7040.00 |
14080.00 |
|
A#/Bb |
29.14 |
58.27 |
116.54 |
233.08 |
466.16 |
932.33 |
1864.66 |
3729.31 |
7458.62 |
14917.24 |
|
B |
30.87 |
61.74 |
123.47 |
246.94 |
493.88 |
987.77 |
1975.53 |
3951.07 |
7902.13 |
15804.27 |
Diverso è il caso in cui si vuole sapere
la frequenza corrispondente alla 5a giusta, cioè basata
sulla scala degli armonici. Notate che questo caso è
comune in musica elettronica perché spesso si
sovrappongono più suoni per costruirne uno complesso,
per cui le loro frequenze devono essere intonate sugli
armonici (come in natura), non sulla scala temperata.| Intervallo |
Temp. equabile |
Scala Pitagorica |
Rapporto Pitagorico |
|---|---|---|---|
| 2a |
1.1224 |
1.1250 |
9/8 |
| 3a |
1.26 |
1.25 |
5/4 |
| 4a |
1.3348 |
1.333 |
4/3 |
| 5a |
1.4983 |
1.5 |
3/2 |
| 6a |
1.6818 |
1.6667 |
5/3 |