The Ghost In The Mp3

Ryan Maguire, Ph.D. student in Composition and Computer Technologies al Center for Computer Music dell’Università della Virginia, ha fatto una analisi accurata su ciò che l’algoritmo di compressione dell’MP3 elimina. Il tutto nell’ambito di un progetto chiamato The Ghost In The Mp3 il cui fine è, in realtà, quello di ricavare materiale compositivo da quelli che si possono definire gli scarti dell’MP3 (quella linkata è la pagina principale, ma vedi qui per discussione dettagliata ed esempi).

Degli effetti della compressione MP3 abbiamo già parlato qui, facendo notare che, a livelli di compressione maggiori di 192 kbps (cioè da 128 in giù), la perdita di frequenze alte sia sensibile anche in brani rock, cioè non particolarmente raffinati. Sull’algoritmo di compressione MP3 vedi “La Compressione MP3“.

L’analisi di Maguire, però, è più profonda della mia e mette in luce perdite che potrebbero essere significative sull’intera estensione della banda. La sua analisi è concettualmente semplice. In pratica, ha confrontato gli spettrogrammi di un brano prima e dopo la compressione lavorando, ovviamente, non sulle immagini degli spettrogrammi, ma sui dati numerici ricavati dalle analisi FFT che si eseguono per realizzare le immagini.

Ecco, per esempio, tre spettrogrammi relativi al brano di Suzanne Vega “Tom’s Diner” che è per voce sola ed è spesso utilizzato come test degli algoritmi di compressione. Le prime due si riferisco a prima e dopo la compressione a 128 kbps e non mostrano differenze visibili. La terza è lo spettrogramma differenziale ottenuto confrontando i dati binari e mostra che delle differenze esistono (click immagini per ingrandire).

TomsDiner_v1 TomsDiner_v1_128jcMP3 TomsDiner_v1_128Ghost

A prima vista, questo risultato non mi colpisce: ho già mostrato in alcuni post che a 128 kbps c’è una differenza sensibile (vedi alla fine del post in “potrebbero interessarti anche”) e l’MP3 è una compressione con perdita, quindi qualcosa deve pur levare.

Quello che però risulta da questa comparazione è che la perdita non si limita alle alte frequenze, ma si estende su tutta la banda. Anzi, è più visibile nella parte medio-bassa della banda acustica e in alcuni punti è anche piuttosto forte. Ora bisogna capire che cosa effettivamente viene tolto, cioè quanto siano significativi quei blob che si vedono nella terza immagine.

Qui sotto potete ascoltare i tre esempi audio da soundcloud: originale, compresso e differenziale. Alzando un po’ il volume si nota come il differenziale contenga chiaramente anche una parte del cantato. Considerando che il bit rate è 128, non è una scoperta, però è un risultato interessante perché è il prodotto di una comparazione numerica precisa, non “spannometrica”.

Ora la discussione può essere impostata in modi molti diversi.

Da un punto di vista, per così dire, filosofico, è chiaro che qualsiasi riproduzione dovrebbe essere vietata e che la musica dovrebbe esistere solamente live. Considerando che le frequenze presenti negli spettri strumentali vanno ben oltre i 20.000 Hertz (vedi il post “C’è vita oltre i 20.000 Hertz!“) e che qualcuno sostiene che, anche se non le sentiamo, queste componenti hanno un qualche effetto su di noi (il che, imho, è tutto da provare), la musica registrata con gli attuali standard e riprodotta con gli attuali impianti è ben diversa dalla sua esecuzione live.

Partendo, invece, da posizioni più, diciamo, utilitaristiche, si tratta di capire quanto valore abbia la riduzione della dimensione dei file che l’MP3 assicura rispetti a ciò che va perso e qui la valutazione dipende molto dalle abitudini di ascolto di ciascuno di noi. Personalmente tengo in MP3 a 320, quindi con compressione limitata, la musica a cui tengo meno e in FLAC (compressione senza perdita) ciò che mi interessa di più, ma ho anche un bell’impianto e generalmente non ascolto con cuffiette o simili.

Invece, pur non comprando quasi più CD, ma solo da negozi online, ormai da tempo non compro musica che mi venga venduta in MP3. Come cliente, esigo sempre una registrazione non compressa o compressa senza perdita.

Frequenze di taglio degli MP3

La qualità di un MP3 dipende in gran parte dal codificatore. Le specifiche, infatti, dicono cosa fare, ma non come farlo (a differenza della decodifica, che invece è un processo puramente meccanico). Proprio per questo, un codificatore di bassa qualità è riconoscibile ascoltando persino un brano a 320 kbit/s. Ne consegue che non ha senso parlare di qualità di ascolto di un brano di 128 kbit/s o 192 kbit/s senza un riferimento al codec utilizzato. Una buona codifica MP3 a 128 kbit/s prodotta da un buon codificatore produce un suono migliore di un file MP3 a 192 kbit/s codificato con uno scarso codificatore.

I test, come quello del post precedente, sono eseguiti con L.A.M.E. (Lame Ain’t MP3 Encoder) che è riconosciuto come uno dei migliori (forse il migliore per compressione da 128 in su).

Proprio LAME ci dà le frequenze di taglio ai vari livelli di compressione. Nel processo di codifica, viene attivata una serie di filtri per la suddivisione del segnale in bande che si ferma a una altezza diversa per ciascun bitrate. La porzione di segnale che eccede l’ultima banda viene eliminata con un filtro passabasso che inizia la sua attenuazione a una certa frequenza (inizio in tabella) e taglia completamente oltre un certo livello (fine in tabella).

È possibile anche disattivare il suddetto filtro (c’è una opzione in LAME), tuttavia facendolo si rischiano artefatti identificabili, di solito, come un certo tipo di effetto che assomiglia un po’ ad un flanger (si sente spesso nell’audio dei film rippati e troppo compressi).

Ecco la tabella:

kbps area di taglio: inizio, fine
128 16538 Hz – 17071 Hz
160 17249 Hz – 17782 Hz
192 18671 Hz – 19205 Hz
224 19383 Hz – 19916 Hz
256 19383 Hz – 19916 Hz
320 20094 Hz – 20627 Hz

La tabella si legge così: per es. nel caso di 128 kbps, l’attenuazione delle frequenze inizia a 16538 Hz e aumenta fino a 17071 Hz, oltre i quali tutto viene eliminato. Quindi, in astratto, anche l’MP3 a 320 è sensibilmente inferiore alla qualità CD. Naturalmente qualcuno potrebbe dire che le frequenze oltre i 20 KHz difficilmente si sentono per una combinazione di qualità dell’impianto audio e orecchie dell’ascoltatore.

In realtà, come ha fatto osservare Angelo nel commento al post precedente, è un problema di educazione all’ascolto:

A test given to new students by Stanford University Music Professor Jonathan Berger showed that student preference for MP3 quality music has risen each year. Berger said the students seem to prefer the ‘sizzle’ sounds that MP3s bring to music.[27]
Others have reached the same conclusion, and some record producers have begun to mix music specifically to be heard on iPods and mobile phones.[28]
However, the study was criticized for being a short-term A/B test, which does not reflect the listeners preferences when they listen to music for prolonged periods.[29]
[wikipedia]

[27][28][29] sono riferimenti bibliografici citati in wikipedia. Cliccate i numeri per andare agli articoli. Il primo è l’articolo di Berger, gli altri sono commenti. Credo che dovremmo iniziare una seria riflessione sui cambiamenti delle modalità di ascolto sia della musica che dei suoni naturali.

Differenza fra originale e MP3 128 kbps

Quello che vedete qui sotto è lo spettro di un brano dei Portished: Nylon Smile. Musica non classica e non acustica.

Sopra, i due canali del brano non compresso. Sotto, dopo la riga grigia e la scritta “unite – sync”, quelli dello stesso pezzo compresso in MP3 128 kbps. Lo spettro è volutamente in bianco/nero per evidenziare le differenze.

Se osservate attentamente noterete che, nello spettro superiore (non compresso), la posizione delle linea rossa che ho messo per segnare la frequenza più alta è oltre i 20000 Hz, mentre in quello inferiore si ferma prima, a circa 17000 Hz. Ecco, questa è la banda, visibile a una prima occhiata, che si perde con questo livello di compressione. Poi bisognerebbe entrare nei particolari per vedere se qualcosa manca anche sotto.

Ne consegue che il distribuire musica di qualsiasi tipo in formato MP3 a 128 kbps, come fa la maggior parte dei rivenditori via internet di musica genericamente pop, equivale a un furto di banda di circa 3 KHz e diffonde una abitudine a una banda più ristretta.

Adesso mi direte che, tanto, la banda ristretta la diffondono già le maledette cuffiette, però….

La fine del CD (ma anche degli MP3 < 256)

…almeno a casa mia.

Dunque, stanco di avere la musica dispersa fra alcune migliaia di CD, altrettanti vinili e molti file su computer (tutti rigorosamente acquistati, CC o digitalizzati da dischi che possiedo), ho deciso di digitalizzare il tutto, metterlo su un HD in rete e utilizzare un vecchio portatile come jukebox (ovviamente con linux).

Un gran lavoro che, per ora, ho fatto solo su un quarto circa dell’insieme, il che spiega anche la non assidua continuità dei post di settembre.

Il sistema, alla fine, è composto da un sistema RAID da 2 terabytes (di cui si usa solo una piccola parte) letti da un portatile di vecchia generazione (avrà 5 anni, monoprocessore da 2.8 GHz) su cui gira un Ubuntu Jaunty con scheda M-Audio, collegata a un micro mixer che va a due casse auto-amplificate Event ALP 5 oppure Yamaha HS80M.

Come software uso Rhythmbox (sto provando anche Banshee). Il software si fa un database di tutto ciò che è audio e lo indicizza in base ai tag. Poi si possono selezionare i brani in base a autore, titolo e/o genere. Inoltre il computer è in rete, quindi si può ascoltare qualunque cosa si trovi su internet, comprese radio, netlabel, podcast etc.

Bene, considerando che la mia discoteca è alquanto eterogenea e va da Luigi Nono fino ai Sex Pistol, sono stato colpito dalla bassa qualità degli MP3. Con casse di questo tipo, che comunque sono lontane dal top, gli MP3 a 128 kbps risultano fastidiosamente ed evidentemente privi delle frequenze alte, non solo con la musica classica, ma anche ascoltando i Rolling Stones. Perfino a 192, la differenza con l’originale si sente e per avere qualcosa di accettabile bisogna arrivare almeno a 256 kbps.

Per quel che riguarda la musica classica, lo sapevo già, ma quello che mi ha colpito è che il degrado è sensibile anche con musica il cui punto di forza non è certamente la pulizia e la chiarezza del suono (tipo Rolling Stones, appunto). Notate che, al di là delle buone casse, non ho una stanza particolarmente insonorizzata o similia. È una stanza normale.

In effetti, all’inizio pensavo di convertire in FLAC (compressione senza perdita) gli album più raffinati e usare MP3 intorno ai 192 kbps, o meno, per il resto. Invece un po’ di prove mi hanno convinto (direi quasi costretto) a usare MP3 solo a 320 oppure con bitrate variabile alla massima qualità per i gruppi un po’ “rumorosi” e andare in FLAC per tutto il resto.

L’effetto collaterale è che non compro più musica in MP3 inferiore a 256 kbps e solo se il prezzo è basso. Altrimenti mi devono dare un file compresso ma senza perdita (FLAC, APE, LA).

La massificazione dell’MP3 si traduce in una perdita della qualità appena conquistata con il passaggio al CD. Magari lo sapevamo già, ma vederlo e sentirlo è un’altra cosa.