A quest'epoca, la riproduzione
era,
anche meccanicamente, il processo inverso rispetto all'incisione:
facendo ruotare il cilindro, lo stilo "leggeva" i solchi e
vibrava,
trasmettendo le vibrazioni a una membrana che faceva vibrare
l'aria. Le
vibrazioni erano amplificate e direzionate dalla tromba.
Nel 1894 Marconi inventò la radio.
Non ce ne occupiamo direttamente qui, ma se vi interessa, ne
trovate la storia in
questo
sito dell'Un. di San Diego (in inglese) o in
questo realizzato per il centenario (tradotto in italiano).
Il dato
interessante collegato alla radio è, però, l'entrata
dell'elettricità
nel
mondo audio. Già nel 1857, Helmholtz aveva suggerito di utilizzare
l'elettromagnetismo e Bell fu il primo a usare un elettromagnete
per far vibrare un diaframma (un po' come i coni delle casse
acustiche
attuali). Oltre che per le trasmissioni, l'elettricità venne
utilizzata
dapprima nella fase di riproduzione (costruzione di altoparlanti)
e
solo
dal 1925 entrò in forza anche nella registrazione.
2. Era elettrica
Già nella
seconda metà dell'800, Helmholtz e Bell si
erano indirizzati verso l'elettromagnetismo nei loro studi per la
registrazione e la riproduzione dell'audio e i primi microfoni che
utilizzavano sistemi elettrici vennero costruiti nei primi anni
del
'900.
L'introduzione dell'elettricità fu graduale, fino alla sua
completa
affermazione avvenuta subito dopo la prima guerra mondiale e
determinò
un grande salto di qualità in tutto il comparto
audio essenzialmente perché i dispositivi elettrici reagiscono più
rapidamente e con maggiore precisione rispetto a quelli meccanici.
La
corrente elettrica, infatti, è modulabile: la sua tensione può
variare
con grande velocità, quindi è adatta a seguire la variazione di
un'onda
audio. Anche qui il problema sta nel trovare un trasduttore
efficace.
In questo caso il trasduttore si basa sull'effetto
elettromagnetico:
quando in
un campo magnetico viene fatto muovere un conduttore, in questo
conduttore si genera una
corrente elettrica. Il bello è che la tensione di tale corrente
varia
nel tempo riproducendo esattamente il movimento del conduttore.
Osservate la figura a fianco (ingrandibile). In un
campo
elettromagnetico viene posto un
conduttore,
cioè un oggetto metallico in grado di vibrare (una molla o una
corda). Quando il conduttore vibra, muovendosi all'interno
del
campo, si produce corrente elettrica e si genera una
tensione proporzionale alla vibrazione del conduttore.
In pratica, la
variazione di tensione della corrente riproduce esattamente la
vibrazione del conduttore. Una volta capito questo, basta portare nel conduttore la
vibrazione
dell'aria, esattamente come fa il timpano con la catena degli
ossicini,
per fabbricare un buon microfono.
Questo è il principio base che permette di trasformare la
vibrazione
dell'aria (il suono) in corrente elettrica.
2.1 Registrazione
2.1.1 Il Microfono
Visto
il principio di cui sopra, è facile capire come può essere fatto
un
microfono.
Nel cosiddetto microfono dinamico (figura a sin.), al conduttore
(che
in figura è una bobina, cioè un sottile filo elettrico avvolto
come una
molla) è direttamente collegato un diaframma che viene messo in
vibrazione dall'aria e trasmette le proprie vibrazioni al
conduttore
stesso. Si genera quindi una tensione che è la rappresentazione
fedele
di queste vibrazioni. Osservate come, ancora una volta, si sfrutta
il
principio del timpano per trasmettere la vibrazione dell'aria a un
altro mezzo.
Oggi esistono
diversi tipi di microfoni
dinamici, che si differenziano moltissimo in base alla
qualità (da pochi Euro, come i microfoni forniti di serie con le
schede audio più comuni, e adatti per applicazioni vocali) fino
a centinaia di Euro, adatti per applicazioni musicali.
Fra le caratteristiche dei microfoni dinamici
si può ancora citare la relativa insensibilità ai rumori
meccanici esterni (come il maneggiamento del microfono) e lo
spiccato effetto di prossimità, cioè la caratteristica di
variare la risposta in frequenza, e quindi la timbrica, a seconda
della distanza del microfono dalla sorgente sonora. I microfoni
dinamici sopportano, generalmente, elevate pressioni acustiche.
La figura di destra, invece, rappresenta lo schema di un
microfono a
condensatore.
Un condensatore è un apparato elettrico costituito da due piastre
di
materiale conduttore, separate da un isolante (aria o altro,
chiamato
dielettrico). Se alle due piastre viene applicata una tensione
continua, non vi è passaggio di corrente, mentre se alle piastre
viene
applicata una tensione alternata la corrente passa, più o meno
bene a
seconda della sua frequenza e della distanza fra le piastre.
Nel microfono a condensatore una delle piastre è fissa, mentre
l'altra
è costituita dal diaframma messo in vibrazione dalle onde sonore,
ed è
perciò mobile: la distanza fra le piastre varia quindi a seconda
della
posizione del diaframma.
Alle piastre viene applicata una tensione continua di 48 Volt,
chiamata
phantom power (alimentazione fantasma) che viaggia sugli stessi
conduttori usati per portare il segnale. Lo scopo è quello di
generare
un campo elettrico analogo, come funzione, a quello creato dai
mageti
nel caso precedente. Quando il diaframma è
sollecitato da un'onda sonora si muove, e la distanza fra le
piastre
varia, modulando perciò la tensione continua.
Con appositi circuiti, la tensione continua viene eliminata, e
rimante
soltanto la parte alternata, che costituisce proprio il segnale
elettrico che ci serve, e che segue l'andamento di pressione
dell'onda
sonora.
Fra le caratteristiche dei microfoni a condensatore è l'elevata
sensibilità, e la delicatazza, oltre che la sensibilità ai rumori
meccanici, come il maneggiamento del microfono.
2.1.2 Il Registratore
Innovazioni ancora più vistose si ebbero nell'area della
registrazione.
Se, da un lato, i microfoni elettrici miglioravano nettamente il
momento del passaggio del suono dall'aria all'apparecchiatura di
registrazione, un tale miglioramento sarebbe stato quasi inutile
senza
un nuovo sistema di memorizzazione del segnale acquisito dal
microfono.
Occorreva, cioè, un nuovo tipo di supporto su cui memorizzare la
tensione prodotta dal microfono e le sue variazioni nel tempo in
modo
più accurato da quello offerto da un cilindo o un disco di cera.
Ancora una volta la chiave di questa svolta qualitativa è il
magnetismo. La magnetizzazione, infatti, non è un fenomeno di tipo
on/off, sì/no, tutto/niente, ma è modulabile. La sua intensità può
variare da zero, in positivo e in negativo e può essere misurata
il che
equivale a dire che, una volta applicata, può essere letta in un
momento successivo.
Si può quindi memorizzare la variazione di tensione prodotta dal
microfono sotto forma di magnetizzazione su un supporto atto a
essere
magnetizzato.
Ovviamente, per poter
salvare le
variazioni della
tensione nel tempo, questo supporto non deve essere un blocco
ristretto, ma disporre di un certo spazio come sul disco e sul
nastro.
I primi tentativi di registrazione
magnetica vennero eseguiti già nel 1898 dal danese Poulsen
utilizzando
un filo metallico al posto
dell'odierno nastro. Quest'ultimo apparve solo nel 1928, quando si
scoprì il modo di applicare particelle magnetiche a
una striscia di materiale plastico.
Nel 1935 il gruppo tedesco BASF/AEG
mostrò al pubblico il primo registratore a nastro (in figura) di
cui
potete anche ascoltare un
esempio audio.
Anche qui, concettualmente, siamo già vicini ai modelli attuali.
Naturalmente, nel tempo, vennero apportate moltissime migliorie.
La
velocità del nastro, che in questo modello era di ben 760 cm/sec,
diminuì gradualmente fino ai 72 cm/sec. degli anni '50, ai 38
cm/sec.
delle registrazioni professionali degli anni '70, mentre i modelli
amatoriali avevano velocità di 19 e 9.5 cm/sec.
L'effetto del registratore a nastro per la composizione musicale
era
dirompente. Per la prima volta, il suono non era più un oggetto
sfuggente e difficile da trattare, ma
diventava solido.
Per esempio, invertendo il senso di scorrimento del nastro (in
realtà
montando il nastro al contrario), si poteva rovesciare l'andamento
del
suono, oppure, cambiando la velocità di scorrimento, tutto il
fenomeno
sonoro risultava trasposto in altezza e tempo. In modo analogo,
mediante tagli si poteva realizzare qualsiasi montaggio. Non a
caso la
prima
corrente compositiva che si basava principalmente sulle
manipolazioni
del nastro venne a chiamarsi "musica concreta".
Lo schema di funzionamento
di un registratore
a nastro è il seguente: il registratore è sostanzialmente
costituito da
un sistema di
trascinamento che ha lo scopo di far scorrere il nastro ad una
velocità
costante di fronte a tre "testine magnetiche" usate,
rispettivamente,
per la registrazione, la cancellazione e la riproduzione.
Nella fase di registrazione il segnale che deve essere registrato
viene
opportunamente amplificato ed inviato alla testina di
registrazione
mentre il nastro viene fatto scorrere. In questo modo l'intensità
di
magnetizzazione di zone successive del nastro varia
proporzionalmente
al valore del segnale sulla testina e le caratteristiche del
materiale
ferromagnetico sono tali da memorizzare permanentemente tale
intensità
di magnetizzazione.
Nella fase di riproduzione il nastro viene fatto scorrere
nuovamente,
ma questa volta viene utilizzata la testina di riproduzione. Lo
scorrimento del nastro provoca variazioni del campo magnetico
nella
testina di riproduzione, dato che sul nastro si trovano in
successione
zone a diversa magnetizzazione.
La variazione del campo magnetico
induce nell'avvolgimento della testina correnti proporzionali che
quindi "riproducono" la forma del segnale che aveva
originariamente
magnetizzato il nastro e genera quindi un segnale che può essere
restituito
inviandolo ad un amplificatore.
La testina di cancellazione ha lo scopo di consentire l'uso del
nastro
per diverse registrazioni. Infatti registrando un nuovo segnale su
un
nastro già registrato si otterrebbe di sommare il nuovo segnale a
quello
già esistente con l'effetto di sovrapporre le due registrazioni.
Per questo motivo, in fase di registrazione, il nastro prima di
passare sotto la testina di registrazione passa sotto quella di
cancellazione che è alimentata con un segnale opportuno per
annullare ogni precedente magnetizzazione del nastro.
2.2 Riproduzione
2.2.1 Amplificatore
La corrente elettrica in cui viene trasformato il segnale audio ha
livelli molto bassi. Per questa ragione il segnale deve, per prima
cosa
essere amplificato. Un amplificatore si limita essenzialmente a
aumentare il livello (cioè il volume) del segnale e permette di
controllarlo mediante una manopola.
Di solito, però, negli impianti home, viene aggiunta una sezione
di
preamplificazione con controlli di tono e bilanciamento fra i
canali.
2.2.2 L'altoparlante
L'oggetto che riproduce il suono viene chiamato "altoparlante". Vi
sono
rari
altoparlanti specializzati che hanno una struttura e un
funzionamento
del
tutto particolari (altoparlanti elettrostatici, al plasma e pochi
altri). Ma nella stragrande maggioranza dei casi tutti voi avrete
a che
fare
con altoparlanti di tipo "dinamico", che è il tipo di altoparlante
adottato nel 99% dei casi.
Dunque, come è costruito un altoparlante dinamico?
E'
costituito da un
cono (in grigio nell'immagine), che nella maggior
parte dei casi ancora oggi è costituito da cartone, così
come nei suoi antenati (anche se in diversi casi oggi si usa
della plastica).
Al bordo esterno del cono vi è una
sospensione (in rosso, ai lati esterni del cono) che lo ancora
ad una struttura di supporto (in metallo) chiamato
cestello (in blu).
L'altro bordo del cono è solidale con una
bobina (avvolgimendo di filo elettrico intorno a un supporto metallico,
in
figura è la spirale rossa e nera alla base del cono). Alla base
della
bobina si trova un
magnete permanente cioè una calamita (in verde) di cui uno dei poli è
rivolto
verso la bobina. Il magnete è fisso perché è saldato al cestello,
mentre
la bobina può muoversi avanti e indietro insieme al cono.
Il punto cruciale per il funzionamento dell'altoparlante è il
rapporto
fra la bobina e il magnete. Alla bobina, infatti, arriva
direttamente
l'onda audio sotto forma di corrente elettrica. Quando nella
bobina
viene fatta passare la corrente, essa si trasforma in
elettrocalamita
(diventa un
elettro-magnete). Ora, voi sapete che, con le calamite, i poli
dello
stesso segno si respingono mentre quelli di segno opposto si
attraggono. Di conseguenza, quando il polo della bobina e quello
del
magnete hanno lo stesso segno, la bobina (che è mobile) si
allontanerà
dal magnete, spingendo in avanti il cono, mentre quando il segno è
opposto, la bobina si avvicinerà al magnete, tirando all'indietro
il
cono.
In tal modo, il
cono vibra seguendo
l'andamento della corrente e muove l'aria davanti a sè
riproducendo
l'onda acustica. Se, per esempio, si applica una variazione
con una frequenza di 1000 Hz (mille cicli al secondo) il cono si
sposterà avanti e indietro 1000 volte
al secondo, e quindi produrrà una frequenza udibile di 1000 Hz.
Se viene immesso un segnale con una
corrente
alternata a 3000 Hz, ecco che l'altoparlante riprodurrà un
suono
di 3000 Hz. Un altoparlante è in grado di riprodurre
tutte le
frequenze
immaginabili e possibili? Naturalmente no. Vi sono
altoparlanti
specializzati in diverse bande di frequenza: i cosiddetti
tweeter sono
altoparlanti costruiti per riprodurre
frequenza elevate, i woofer e sub-woofer sono
costruiti per riprodurre frequenze mediobasse e basse.
3. Era Digitale
Via via che la potenza e la disponibilità dei computer
aumentavano, si
intensificavano le ricerche per trattare con sistemi digitali
anche
l'immagine e il suono. Ci si rendeva conto, infatti, che,
riducendo
tutto a numeri, i mezzi digitali assicuravano maggior precisione e
maggior facilità di trattamento potendo applicare su di essi le
normali
operazioni aritmetiche. Abbiamo già visto come il suono si
trasforma da
fenomeno acustico a fenomeno elettrico. Ora vedremo come da
elettrico
diventa digitale.
3.1 Registrazione
Il computer è un sistema che tratta
numeri. Nonostante
si possano elaborare testi, immagini e suoni, tutto, nella
macchina, è
codificato in forma numerica.
- I testi, per esempio, sono codificati con
il
sistema ASCII che assegna un numero ad ogni lettera, cifra e
segni di
punteggiatura
e prossimamente si passerà al sistema Unicode che permette di
codificare
qualsiasi simbolo, quindi anche gli alfabeti diversi dal
nostro e gli
ideogrammi.
- Le immagini sono suddivise in punti (pixel) a ognuno dei
quali è
attribuito
un colore mediante 3 numeri che rappresentano le quantità di
rosso,
verde e blu da mescolare per ottenere quel colore (sistema
RGB: red,
green
& blue).
Per codificare l'audio, il
metodo
usato
è chiamato PCM (Pulse Code
Modulation). Nel PCM, un'onda audio viene rappresentata con
una serie
di
numeri presi a intervalli regolari, ognuno dei quali è un
campione
dell'onda in un dato istante cioè una lettura
dell'ampiezza di quella forma d'onda in quel preciso istante.
Osservate la figura seguente. Supponiamo si tratti di un'onda
audio
ormai trasformata in onda elettrica mediante un microfono.
Un piccolo apparecchio chiamato ADC
(Analog to Digital Converter =
convertitore analogico - digitale), presente su tutte le schede
audio,
effettua un campionamento
che consiste nel leggere il valore verticale (detto ampiezza
dell'onda)
a
intervalli regolari, come nella figura seguente
Si ottiene così la seguente serie di
numeri che
rappresenta esattamente la forma d'onda
0 72 144 215 285 352
417 479 538
593 644 690 732 769 801 828 849 865
875 880 879 873 862 846 825 799 769 736 699 659 616 571
524 476 426 377
327 278 229 182 136 92 51 12 -23 -56 -85 -111 -133 -151
-165 -175 -182
-184 -184 -179 -171 -161 -147 -131 -113 -92 -71 -48 -24
0 24 48 71 92
113 131 147 161 171 179 184 184 182 175 165 151 133 111
85 56 23 -12
-51 -92 -136 -182 -229 -278 -327 -377 -426 -476 -524
-571 -616 -659
-699 -736 -769 -799 -825 -846 -862 -873 -879 -880 -875
-865 -849 -828
-801 -769 -732 -690 -644 -593 -538 -479 -417 -352 -285
-215 -144 -72 0
72 144 215 285 352 417 479 538 593 644 690 732 769 801
828 849 865 875
880 879 873 862 846 825 799 769 736 699 659 616 571 524
476 426 377 327
278 229 182 136 92 51 12 -23 -56 -85 -111 -133 -151 -165
-175 -182 -184
-184 -179 -171 -161 -147 -131 -113 -92 -71 -48 -24 0 24
48 71 92 113
131 147 161 171 179 184 184 182 175 165 151 133 111 85
56 23 -12 -51
-92 -136 -182 -229 -278 -327 -377 -426 -476 -524 -571
-616 -659 -699
-736 -769 -799 -825 -846 -862 -873 -879 -880 -875 -865
-849 -828 -801
-769 -732 -690 -644 -593 -538 -479 -417 -352 -285 -215
-144 -72 0 72
144 215 285 352 417 479 538 593 644 690 732 769 801 828
849 865 875 880
879 873 862 846 825 799 769 736 699 659 616 571 524 476
426 377 327 278
229 ...
Disponendoli a intervalli regolari in un grafico, si
ottiene una forma
d'onda equivalente a quella di partenza
La catena di registrazione, quindi, è (in verde il tipo di
segnale, in
rosso le apparecchiature):
Segnale
audio --> Microfono --> Segnale
elettrico --> ADC-->
Segnale
digitale 3.2 Riproduzione
Nella riproduzione, il
processo è
inverso. Esiste un piccolo
dispositivo chiamato questa volta DAC (Digital to Analog
Converter =
convertitore digitale - analogico), presente nelle
schede audio e in
apparecchi come i lettori di CD, che converte il segnale
dalla forma
numerica (digitale) a corrente elettrica.
La catena di riproduzione, quindi, è
Segnale digitale --> DAC --> Segnale elettrico --> Amplificatore --> Altoparlanti --> Segnale audio 4. Caratteristiche della codifica
PCM
4.1
Frequenza di campionamento
Si presenta ora il
problema di
definire una frequenza di campionamento,
cioè di stabilire quanti campioni prendere per ogni
secondo di suono.
E' intuibile che, maggiore è il numero di campioni,
meglio sarà
definita la forma d'onda, fino ad arrivare
al punto in cui il segnale digitale è indistinguibile
dall'originale.
Le figure seguenti mostrano come l'approssimazione
dell'onda migliora
al
crescere della frequenza di campionamento:
In generale, si può
affermare che il
principale effetto di una
frequenza di
campionamento (detta anche SR: sampling rate) non
adeguata è:
- perdita di frequenze alte
Negli esempi seguenti è
possibile
ascoltare un frammento della 9a
registrato a frequenza di campionamento
ottimale,
metà dell'ottimale,
bassa (qualità telefono),
bassissima:
le
differenze
sono evidenti (ATTENZIONE: non tutte le schede audio
consentono di
riprodurre
brani a frequenze di campionamento non standard; è
possibile che il
vostro computer
non vi consenta di acoltare tutti gli esempi; non si
tratta di un
problema).
Affrontando il problema in termini più rigorosi, esiste
un teorema (il
teorema di Nyquist o del campionamento) che dimostra
come, per
approssimare
al meglio un segnale audio,
la frequenza di campionamento
deve
essere almeno
pari al doppio della più alta frequenza contenuta
nel segnale audio
(considerando, ovviamente, anche gli
armonici).
Ciò significa che con SR =
10.000, le
frequenze campionabili vanno da 0
a 5000 Hz; con SR = 20.000, da 0 a 10.000 Hz e così via.
Di solito, per
indicare tale estensione. si ricorre alla nozione di
banda
passante:
si dice che, con SR = 20.000, si ottiene una banda
passante da 0 a
10.000, etc.
Di conseguenza, dato che
l'orecchio umano ha una banda passante di circa 20.000
Hertz, la
frequenza di
campionamento
ottimale per riprodurre l'intera estensione audio umana
deve essere
maggiore
di 40.000 Hertz, ovvero più di 40.000 campioni al
secondo. In effetti,
lo standard CD audio è stato fissato alla frequenza di
44.100 Hertz:
ogni canale di un cd, quindi, contiene 44.100 campioni
al secondo.
Essendo
il cd stereo, i campioni sono 88.200 per secondo.
Altri media, che non hanno bisogno della massima
qualità, possono
usare SR diversi. Per esempio, il telefono, il cui fine
è trasmettere
bene la voce, che ha una banda più limitata, utilizza
una frequenza di
8.000
Hertz in mono
e ha 4.000 Herz come massima frequenza passante. Per
questa ragione la
musica
non si ascolta bene via telefono.
4.2
Estensione numerica (scala)
Dopo aver visto come
stanno le cose
in
orizzontale, vediamo la parte verticale. All'ADC
arriva un segnale
elettrico di estensione limitata (generalmente ± 5
Volt). Il problema
è: con quale grado di precisione dobbiamo misurare
questo intervallo?
Una limitazione è costituita dal fatto che, per
esigenze costruttive di
ADC e DAC, nella
misurazione possiamo
usare solo numeri interi: i risultati come
2,75 non sono ammessi
e vengono approssimati all'intero (in questo caso, 2
perché l'ADC non è
in grado di arrotondare, ma tronca).
Di conseguenza, usando una unità di misura troppo
grande, pari, per
esempio al Volt, con 10 passi, da -5 a +5, avremmo
degli errori
sensibili.
Osservate
la figura a sinistra.
Il primo campione (A) vale 0 e qui va tutto bene.
Il secondo (B) vale 2,3 approssimato a 2, con un
errore di 0,3 pari al
3% sull'intera estensione
Il terzo (C) vale 4,2 approssimato a 4, errore di 0,2
pari al 2%
Il quarto (D) vale 5, errore 0
il quinto (E) vale 4,5 approssimato a 4, errore di 0,5
pari al 5%
(F) vale 3, errore 0
(G) vale 0,7 approssimato a 0, errore di 0,7 pari al
7%
In definitiva, in questo piccolo segmento di onda,
abbiamo un errore
medio del 2,42%. Questi errori sono troppo grandi per
ottenere un
campionamento accurato. L'approssimazione deve essere
ridotta a un
valore molto vicino a zero.
In realtà, se ci pensate, è facile eliminare i
decimali: basta usare
una unità di misura più piccola. Esempio: se misurando
un oggetto si
ottiene un valore decimale come metri 2,75, per
ottenere un numero
intero basta misurare in cm ottenendo cm 275. Se poi,
ci fosse bisogno
di una precisione maggiore, basterebbe passare al mm
(mm 2750).
Analogamente, potremmo misurare il segnale in
centesimi o millesimi di
Volt (milliVolt), eliminando quasi del tutto
l'approssimazione.
Le figure seguenti mostrano come l'approssimazione
dell'onda migliora
autilizzando una unità di misura via via più piccola
In realtà è più facile chiedersi: qual'è l'estensione
dinamica che
dobbiamo coprire? In pratica, qual'è la differenza fra
il più alto
volume ascoltabile senza danni e il più basso volume
percepibile?
Chi ha studiato un po' di acustica sa che l'estensione
dinamica
dell'orecchio va da circa 20 a circa 120 dB (soglia
del dolore) e che
ci sono grosse differenze in base alle frequenze.
L'estensione musicale
è chiaramente inferiore. In realtà un fff orchestrale
non arriva a 120
ma può essere stimato intorno ai 100 dB.
Si è convenuto, quindi, di suddividere l'estensione
dinamica in circa
60.000 passi. Il numero esatto è 65.536 pari a un
numero codificato in
16 bit che corrisponde a una dinamica di 96 dB. Ogni
bit in più,
infatti, corrisponde a 6 dB di incremento dinamico.
Con 4 bit abbiamo
un range di 6x4 = 24 dB; con 8 bit, 48 dB e con 16 bit
arriviamo a 96.
In tal modo l'approssimazione è ridotta allo 0.0015%.
Infine, dato che le onde audio hanno una parte
positiva e una negativa,
i 65.536 livelli vengono visti come un intervallo di ±
32.768. Lo
standard CD, dunque, è definito come
SR
44100 - 16
bit
Usare qualche bit in più (17, 18) non ha molto senso
perché il computer
gestisce gruppi di 8 bit (1 byte) come unità minima e
quindi tanto vale
passare a 16+8 = 24 bit con range dinamico di 144 dB
(proposta DVD
audio).
4.3
Osservazioni
sul
campionamento
Le problematiche legate
al
campionamento, comunque, sono parecchie.
Ecco qualche altra osservazione.
4.3.1 Perché
con SR
troppo basso si ha solo perdita di frequenze alte e non
distorsione?
Che fine fanno le frequenze maggiori di SR/2?
Qualcuno potrebbe (e
dovrebbe)
chiedersi perché l'effetto di una
frequenza di campionamento non adeguata all'estensione
del segnale sia
la perdita delle frequenze alte e non una distorsione
delle stesse.
L'osservazione è giusta: l'effetto delle frequenze
maggiori di SR/2
dovrebbe essere un certo tipo di
distorsione. In realtà, però, proprio per evitare tali
effetti
indesiderati,
prima dell'ADC è posto un filtro che elimina tutte le
frequenze
maggiori di
SR/2. Se, per esempio, SR = 44100, allora il filtro
taglierà tutte le
frequenze da circa 20000 Hz in poi. Se invece SR =
10000, allora il
filtro taglia da circa 4800 Hz in su.
Il principio è: meglio perdere gli alti e avere un
segnale limitato, ma
pulito, piuttosto che avere un segnale distorto.
4.3.2
Cosa
succederebbe
senza il maledetto filtro sull'ADC?
Un fenomeno molto interessante detto "foldover" (trad.
ripiegamento) o
"aliasing" (da alias a significare che qualcosa assume
un'altra
identità).
La frequenza incriminata, infatti, non viene eliminata e
non produce
distorsione propriamente detta, ma varia troppo
velocemente per essere
campionata bene. Il risultato è che il sistema ne perde
delle parti e
quindi la sottostima.
Il fenomeno è simile a quello delle ruote delle
diligenze che, nei
vecchi
western in b/n. sembrano girare al contrario proprio
perché, essendo la
scansione dei
fotogrammi troppo lenta, i raggi fanno in tempo a
percorrere quasi un
giro completo prima di essere fissati di nuovo.
Analogamente, l'onda percorre quasi un ciclo fra un
campione e il
successivo. La frequenza risultante, quindi, è
sottostimata (più bassa) rispetto a quella originale. È anche facile calcolare la
frequenza
risultante che sarà pari a SR - K, dove K è una
frequenza > SR/2.
In pratica, se SR = 44100, una eventuale frequenza di
30000 Hz (>
SR/2 = 22050) risulterà nel segnale campionato come una
componente a
44100 - 30000 = 14100 Hz. La sua ampiezza sarà pari a
quella della
frequenza originaria e quindi sensibile.
4.3.3 È possibile trovare del
foldover in un
segnale digitale?
Sì, in seguito a
determinate
trasformazioni. Le frequenze più alte di
SR/2 vengono eliminate in acquisizione grazie al filtro
sull'ADC, ma se
poi noi trattiamo il segnale acquisito aggiungendo
componenti o
semplicemente trasponendolo in alto, è possibile che le
componenti più
alte finiscano oltre il limite di SR/2 provocando
foldover.
4.3.4
Che fine fanno i gradini in fase di ascolto (DAC)?
Osservate che, per
quanto bene
un'onda sia campionata, un sistema PCM
produce sempre un piccolo gradino fra un campione e il
successivo.
Questo perché un sistema digitale è per sua natura discreto, cioè
può assumere solo un
numero finito di valori (nel CD sono 65536) e non è in
grado di variare
con continuità
(senza scatti, per quanto piccoli).
La realtà, invece, è continua e
varia senza soluzione di continuità. Di conseguenza,
l'onda, per quanto
ben approssimata, sarà sempre a gradini. Questi
gradini non dovrebbero
provocare una distorsione sensibile?
La risposta è sì, ma in realtà non accade perché dopo
il DAC è piazzato
un apposito filtro la cui funzione è proprio quella di
arrotondare i
gradini (vedi figura a sin. e paragrafo 4.3.5.1)
4.3.5
AGH! Ci sono
altri effetti indesiderati nel campionamento?
Una quantità. Vediamone
alcuni
4.3.5.1
Frequenze
immagine (aliasing)
L'aliasing
è in realtà il fenomeno che sta alla base del foldover
ed è provocato
dai gradini appena menzionati. Quando si
riproduce il suono, quindi a livello del DAC, si
creano SEMPRE delle
frequenze immagine (alias) pari a tutti i multipli di
SR + e - K (dove
K è la frequenza prodotta). Se produciamo 1000 Hz con
SR = 44100,
produrremo anche:
44100 - 1000 = 43100
44100 + 1000 = 45100
88200 - 1000 = 87200
88200 + 1000 = 89200
eccetera.
Queste frequenze vengono eliminate dal filtro posto dopo
il DAC.
Poiché però un filtro
analogico non può
avere una curva di
taglio ideale (cioé lasciar passare immutate le
frequenze desiderate e
cancellare completamente le altre), e inoltre più è
ripido e più
introduce
irregolarità nella risposta in frequenza (ripple)
e distorsioni
di fase,
si preferisce oggi aumentare la frequenza di
campionamento nel processo
di
conversione D/A, tipicamente quadruplicandola (oversampling),
in
modo
tale da spostare a frequenze più alte le immagini
degli spettri
indesiderati. In questo modo è possibile utilizzare
filtri meno ripidi,
che introducono pochissimo ripple e pochissima
distorsione di fase.
4.3.5.2
Jitter
Il campionamento prevede
che i
campioni vengano acquisiti o inviati in
out con grande regolarità. Quando si dice che l'SR è
44100 si presume
che l'intervallo fra ogni campione e il successivo sia
sempre 1/44100
sec.
Qualsiasi deviazione da questa regolarità è detta jitter
e provoca una
distorsione
dell'onda originale che si traduce in rumore.
4.3.6
Definizioni
Distorsione Modifica di un
segnale audio
dovuta alla modifica della sua forma d'onda, con
conseguente variazione delle componenti presenti nel
segnale originale.
Esistono vari tipi di distorsione e come vedrete in
questo e altri
corsi, essa non è sempre un male: in genere, è un male
quando non è
voluta, ma in certe situazioni, può essere creata e
controllata. Distorsione
armonica:
introduzione di componenti armoniche non presenti nel segnale
originale. È un male
quando il fine è campionare o riprodurre un segnale
audio con la
maggiore fedeltà possibile (come nel caso di cui
abbiamo appena
parlato). Non è un male e viene creata appositamente
quando il fine è
cambiare le caratteristiche di un suono (elaborazione)
o arricchire una
sonorità (es. tipico: i distorsori per chitarra
elettrica) o ancora,
nella sintesi del suono per creare armonici partendo
da una sinusoide
(es.: sintesi con tecniche di distorsione non
lineare). Distorsione
spettrale:
alterazione delle ampiezze delle componenti di un
suono: non si
aggiungono componenti, ma si cambia l'ampiezza di
quelle presenti. In
pratica, si rimodella lo spettro del suono. Distorsione
per intermodulazione:
dovuta all'introduzione di
nuove frequenze
generate dalla somma e/o differenza tra frequenze
componenti il segnale
originario. Rumore Interferenza con
il suono originario che può essere sia di natura
elettrica che acustica. Nella teoria
dell'informazione,
qualsiasi segnale che interferisca con quello che ci
interessa è detto
rumore (es.: se in una festa stiamo cercando di capire
quello che dice
una certa persona, le altre voci sono rumore). Rumore di
quantizzazione (anche
Errore di quantizzazione): distorsione causata
dal fatto che
l'operazione di quantizzazione introduce
un'approssimazione sul voltaggio da convertire in
campione durante la
conversione di un segnale da analogico a digitale
4.3.7
Utilità
Dopo
aver visto le principali
caratteristiche di un segnale audio in forma digitale, è
utile imparare
a calcolare rapidamente alcune cose.
Dimensioni
di
un file audio Ci riferiamo alle dimensioni che un file audio assume
quando viene
scritto su disco o caricato in memoria. In altre parole,
allo spazio
che occupa. Nel computer, lo spazio è misurato in bytes
(8 bit).
Le dimensioni di un file audio dipendono da 4 parametri:
- la durata del suono
- il numero dei canali
- la frequenza di campionamento SR
- il formato dei campioni (8/16/24 bit = 1/2/3 bytes
ciascuno)
Per cominciare e avere
una unità di
misura, calcoliamo le dimensioni di
un segnale con le seguenti caratteristiche:
durata = 1 sec;
canali = 1 (monofonico)
SR = 44100
formato 16 bit = 2 bytes.
Ora, è semplice capire che, se ogni campione occupa 2
bytes e per ogni
secondo abbiamo 44100 campioni, la dimensione totale è
di 44100 x 2 =
88200 bytes. Un
secondo di suono in monofonia, SR 44100 a 16 bit
occupa 88200 bytes.
Lo standard CD audio, comporta 2 canali (stereo; non è
possibile
mettere su un normale CD dell'audio monofonico). Con un
suono stereo (2
canali), avremo sia i campioni del canale destro che
quelli del canale
sinistro, separatamente. Di conseguenza, dovremo
moltiplicare
ulteriormente per 2. 88200 x 2 = 176400 bytes, quindi un
secondo di suono
in stereofonia in qualità CD occupa 176400 bytes.
Ne consegue che un minuto di suono in qualità CD occupa
176400 x 60 =
10.584.000 bytes.
A questo punto è molto facile calcolare le dimensioni di
suoni di
qualsiasi durata in qualità CD. È anche possibile
trovare una formula
generale valida per qualsiasi qualità audio:
Dimensioni
in bytes = durata in sec * numero canali * SR *
formato in bytes
Calcolo
numero
campioni per ciclo
dell'onda Nel caso di un segnale periodico, è utile saper
calcolare rapidamente
quanto campioni sono contenuti in un singolo ciclo
dell'onda. Questo
valore si ottiene facilmente dividendo SR per la
frequenza del segnale
e togliendo i decimali. Es.:
freq = 100 Hz, SR = 44100, allora ogni ciclo conterrà
44100/100 = 441
campioni
freq = 1000 Hz, SR = 44100, allora ogni ciclo conterrà
44100/1000 =
44.1 campioni
Calcolo
frequenza
a partire dal numero
campioni Sempre nel caso di un segnale periodico, è altrettanto
utile il calcolo
inverso, ovvero conoscendo il numero di campioni
contenuti in un ciclo
dell'onda e SR, trovare la frequenza del segnale. Questo
calcolo si
esegue, per es., quando in un segnale si prende un ciclo
da mettere in
loop.
Anche qui il calcolo è semplice: basta dividere SR per
il numero di
campioni. Es.:
numero campioni = 441, SR = 44100, allora la frequenza
sarà 44100/441 =
100 Hz;
numero campioni = 44, SR = 44100, allora la frequenza
sarà 44100/44 =
1002.27 Hz
Corrispondenza
nota
- frequenza Qui il calcolo è più complesso (vedi CDROM Acustica). Vi
riporto questa
tabella, dove trovate le frequenze
corrispondenti alle note del sistema temperato
(evidenziata
l'estensione del pianoforte).
|
-1 |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
C |
16.35 |
32.70 |
65.41 |
130.81 |
261.63 |
523.25 |
1046.50 |
2093.00 |
4186.01 |
8372.02 |
C#/Db |
17.32 |
34.65 |
69.30 |
138.59 |
277.18 |
554.37 |
1108.73 |
2217.46 |
4434.92 |
8869.84 |
D |
18.35 |
36.71 |
73.42 |
146.83 |
293.66 |
587.33 |
1174.66 |
2349.32 |
4698.64 |
9397.27 |
D#/Eb |
19.45 |
38.89 |
77.78 |
155.56 |
311.13 |
622.25 |
1244.51 |
2489.02 |
4978.03 |
9956.06 |
E |
20.60 |
41.20 |
82.41 |
164.81 |
329.63 |
659.26 |
1318.51 |
2637.02 |
5274.04 |
10548.08 |
F |
21.83 |
43.65 |
87.31 |
174.61 |
349.23 |
698.46 |
1396.91 |
2793.83 |
5587.65 |
11175.30 |
F#/Gb |
23.12 |
46.25 |
92.50 |
185.00 |
369.99 |
739.99 |
1479.98 |
2959.96 |
5919.91 |
11839.82 |
G |
24.50 |
49.00 |
98.00 |
196.00 |
392.00 |
783.99 |
1567.98 |
3135.96 |
6271.93 |
12543.85 |
G#/Ab |
25.96 |
51.91 |
103.83 |
207.65 |
415.30 |
830.61 |
1661.22 |
3322.44 |
6644.88 |
13289.75 |
A |
27.50 |
55.00 |
110.00 |
220.00 |
440.00 |
880.00 |
1760.00 |
3520.00 |
7040.00 |
14080.00 |
A#/Bb |
29.14 |
58.27 |
116.54 |
233.08 |
466.16 |
932.33 |
1864.66 |
3729.31 |
7458.62 |
14917.24 |
B |
30.87 |
61.74 |
123.47 |
246.94 |
493.88 |
987.77 |
1975.53 |
3951.07 |
7902.13 |
15804.27 |
Calcolo
di un
intervallo a partire
dalla frequenza Cosa fare se ho la frequenza di un suono, supponiamo 100
Hz e voglio
sapere, per es., quale frequenza ha la sua 5a? Qui le
cose si
complicano: vuoi sapere la frequenza della quinta
secondo quale scala?
Come sapete, pur basandosi sempre sul'ottava, nella
storia sono state
proposte varie scale. Se consideriamo la scala
temperata, è sufficiente
sapere che ogni semitono sta in un rapporto pari a
radice 12ma di 2
(cioè 1.0594631) con il precedente. Di conseguenza, per
arrivare alla
5a, basta passare per tutti i 7 semitoni:
100 * 1.0594631 = 105.9463 = 2a min
105.9463 * 1.0594631 = 112.2462 = 2a magg
112.2462 * 1.0594631 = 118.9207 = 3a min, e così via
fino alla 5a magg
che risulta essere 149.8307 Hz.
Più rapidamente, lo stesso valore si calcola come 100 *
1.0594631
7 (cioè 1.0594631 elevato alla 7ma potenza; per coloro a
cui difettasse
la memoria sull'aritmetica, PRIMA si eleva, POI si
moltiplica). Quindi,
in generale, per calcolare un intervallo in Hz, basta
fare
freq
di partenza
* 1.0594631numero_semitoni
NB: il calcolo veramente esatto sarebbe freq di partenza
* (radice 12ma
di 2
numero_semitoni), ma la differenza è
questione di
qualche decimale, per cui potete usare la formula di cui
sopra.
Diverso è il caso in cui si vuole sapere la
frequenza corrispondente alla 5a giusta, cioè basata
sulla scala degli
armonici. Notate che questo caso è comune in musica
elettronica perché
spesso si sovrappongono più suoni per costruirne uno
complesso, per cui
le loro frequenze devono essere intonate sugli armonici
(come in
natura), non sulla scala temperata.
Per calcolare la frequenza di un intervallo basandosi
sugli armonici,
occorre, per prima cosa, identificare l'armonico che
corrisponde a
quell'intervallo servendosi, per es., dell'immagine a
fianco o di una
simile.
Da qui si vede che la prima 5a che incontriamo
corrisponde alla
componente armonica num. 3 (si conta anche la
fondamentale).
A questo punto si moltiplica la nostra freq. base (per
es. 100 Hz) per
tale numero: 100 * 3 = 300, ma attenzione, questa è la
5a di una ottava
superiore. Lo vediamo perché sappiamo che l'8va di 100 è
200, cioè il
doppio (vedi ancora CDROM di acustica). Quindi dobbiamo
far scendere
questa nota di 8va, dividendo per 2 finché non rientra
nell'8va base,
cioè finché non è minore di 200. Ora 300 / 2 = 150 che è
minore di 200.
150 Hz, quindi, è la frequenza che cerchiamo.
Altro esempio: sempre partendo da 100 Hz, troviamo la
frequenza della
3a maggiore:
si trova la prima 3a magg. che è la componente num. 5
si calcola la sua frequenza: 100 * 5 = 500
si divide per 2 finché non rientra nell'intervallo di 8a
100 - 200: 500
/ 2 = 250 ancora fuori; 250 / 2 = 125 OK!
Notate, per inciso, che la 3a magg. temperata ha invece
frequenza
125.9921 Hz (quasi 1 Hz di differenza). Ecco una tabella
degli
intervalli
Intervallo |
Temp. equabile |
Scala Pitagorica |
Rapporto Pitagorico |
2a |
1.1224 |
1.1250 |
9/8 |
3a |
1.26 |
1.25 |
5/4 |
4a |
1.3348 |
1.333 |
4/3 |
5a |
1.4983 |
1.5 |
3/2 |
6a |
1.6818 |
1.6667 |
5/3 |
Esercizi
Fra [] i paragrafi da rileggere se non sapete o
sbagliate la risposta.
Alla fine trovate il link alle risposte esatte.
(1)
Quale frequenza reale assume un'onda sinusoidale di 7000
Hz campionata
con SR = 10000?
[se non lo sai,
vai qui]
(2)
In un segnale di partenza sono presenti le prime 6
componenti
armoniche. Dopo qualche manipolazione, nel segnale
troviamo anche le
componenti da 7 a 10. Di che tipo di distorsione si
tratta?
[
rileggi il maledetto paragrafo]
(3)
Calcolare le dimensioni in bytes di un file monofonico,
lungo 10
secondi, SR = 22050, 8 bit
[
è semplice]
(4)
E se fosse a 16 bit?
[
come sopra]
(5)
Questa è cattiva: e se invece fosse a 12 bit?
[
come
sopra ma bisogna anche pensarci]
(6)
Calcolare quanti campioni sono contenuti in un ciclo di
un segnale
periodico alle seguenti frequenze: 120, 2352, 20, 740,
25000 Hz con SR
= 44100.
[
qui ma anche
qui]
(7)
Calcolare a che frequenza suonano onde periodiche il cui
ciclo è lungo
50, 100, 200 campioni con SR = 48000
[
qui]
(8)
Senza usare la tabella, data una freq. base di 100 Hz,
calcolare le
frequenze della 2a magg, tritono, 7a magg, 4a, nel
sistema temperato e
secondo gli armonici (NB: nella serie armonica, la 4a è
la componente
21)
[
qui]
Le risposte esatte
sono qui.