Il
rapido sviluppo dell'audio digitale ha originato anche una babele
di
formati per la creazione di file sonori, spesso fra loro
incompatibili. Una recente ricerca ne ha contati più di un
centinaio. L'introduzione dell'audio sui personal computer,
infatti,
è avvenuta senza una preventiva programmazione, né
poteva essere altrimenti: il nostro modello di sviluppo
industriale è
basato sulla competizione ed è, quindi, nemico della
cooperazione e della condivisione della conoscenza. Per queste
ragioni, quando si sviluppa qualcosa di completamente nuovo che
non
deve preservare il materiale già installato, si assiste sempre
all'apparizione di una serie di formati proprietari, alcuni dei
quali
durano lo spazio di un mattino, mentre altri riescono ad imporsi
in
funzione non tanto della loro intelligenza e completezza, quanto
della potenza commerciale del produttore.
Solo quando il mercato si
è relativamente stabilizzato si arriva ad una generalizzazione
dei formati adottando (a) il formato del vincitore, per quanto
stupido possa essere, oppure, (b) se appare chiaro che nessuno ha
vinto, si nomina una commissione il cui scopo è quello di
mediare le esigenze dei produttori rimasti in lizza tenendo in
poco o
nessun conto la materia grigia (il protocollo MIDI ne è un
esempio lampante).
1. Caratteristiche
Che cos'è un formato? Semplicemente un modo di disporre i dati
e, per estensione, di
codificarli. Qualsiasi tipo di file scritto su disco è
caratterizzato
da due cose:
- il modo in cui i dati sono codificati (determinato dal
cosiddetto
codec, cioè l'algoritmo di codifica);
- la scatola che li contiene, cioè il formato.
Volendo essere rigorosi, quindi, il formato è soltanto il modo in
cui i
dati
sono organizzati e disposti, NON il modo in cui sono codificati.
Per esempio, il ben noto WAV specifica che i campioni audio devono
essere raggruppati in blocchi (detti chunks), in genere di uguale
lunghezza. Questo è il formato: un file wav, quindi, è formato da
piccoli blocchi di campioni disposti in sequenza come i vagoni di
un
treno. Di conseguenza, un programma che legge un wav non legge il
singolo campione, ma carica un blocco alla volta.
All'interno di questi blocchi, poi, i campioni possono essere
codificati in vari modi: PCM o ADPCM, a 8 o 16 bit, con varie
frequenze
di campionamento eccetera. Se, infatti, andate a vedere la lista
dei
formati gestiti da un software di elaborazione audio
professionale,
come CoolEdit (che ormai è diventato Adobe Audition), noterete
che,
scegliendo 'Save As' e aprendo la lista dei formati, trovate
diversi
tipi di wav: il formato è lo stesso, ma cambia il codec.
Inoltre, un formato, di solito, definisce anche una serie di
informazioni che riguardano il contenuto del file. Il punto è che
non è
pratico memorizzare i campioni sonori
su disco senza alcun dato di contorno. Per poter suonare
correttamente
un file, infatti, i player devono conoscere almeno l'SR, il
formato
dei campioni e il numero di canali. Di conseguenza, ai campioni
veri e
propri
viene anteposto un header (testata) che contiene questi valori e
a volte, molti altri dati, compreso titolo, autore e copyright.
Esistono almeno 3 tipologie di formato:
- Formati che contengono effettivamente l'audio sotto forma di
onda
sonora campionata che viene riprodotta mediante un
convertitore DAC e
un semplice programma in grado di inviare i campioni al
convertitore. La qualità della
riproduzione, quindi,
dipende solo dal sistema di conversione.
Questi file possono essere compressi o meno e sono sia mono
che
multicanale.
In quest'ultimo caso, i vari canali sono interlacciati
(interleaved):
abbiamo, cioè, un piccolo blocco di campioni del canale 1
seguito da
uno di uguale lunghezza del canale 2 e così via. (Es.:
file WAV, AU, AIFF).
- Formati che non contengono l'audio, ma solo i dati di
controllo
per crearlo. Il suono vero e proprio viene, poi, creato in
locale da un
sintetizzatore esterno o residente sulla scheda audio, oppure
da un
sistetizzatore virtuale (emulato via software). Di questa
categoria
fanno parte, ormai, solo i MIDI file.
Nonostante il MIDI preveda la standardizzazione dei timbri
strumentali
(standard
GS/GM), la qualità della riproduzione dipende strettamente dal
sintetizzatore utilizzato. Lo standard GS/GM, infatti, indica
solo il
tipo di suono da utilizzare (es.: pianoforte), non la sua
qualità. Che
quest'ultimo sia buono o meno, poi, dipende solo dal
sintetizzatore
locale. Così come una partitura può sembrare più o meno bella
in base
agli esecutori, un file di questo tipo, da bellissimo può
diventare
orrendo se viene sintetizzato con suoni pessimi.
- La terza categoria incorpora alcune caratteristiche di
entrambe
le precedenti ed è quella dei formati che contengono sia i
campioni
sonori che i dati di controlli per utilizzarli. L'esempio
tipico è
quello dei file MOD, alla cui descrizione vi rimandiamo.
2. Formati
Formati audio di 1a categoria lineari (non compressi)
u-law Estensioni: AU, SND
Il formato u-law
(pronunciato mu law in quanto la ‘u' iniziale altro non è
che una semplificazione del nome originale con l'iniziale greca
µ-law) è originario dei
sistemi Sun e NeXT per cui è noto anche come NeXT/Sun format
ed è uno dei tipi di file più frequentemente utilizzati
su Internet (generalmente con estensione .AU perché .SND è
ambigua) in quanto su tutte le piattaforme esistono ormai
piccoli
programmi che riproducono questo formato.
La qualità di
questi campioni è però piuttosto bassa: nonostante il
formato supporti un SR anche di 22050 e 44100, di solito si
utilizza
8K che equivale alla banda di una buona linea telefonica. In
compenso, i file hanno dimensioni decisamente ridotte rispetto
agli
equivalenti con SR più alto e quindi si scaricano più
facilmente via rete. Proprio per questa ragione alcuni archivi
sonori
dispongono di file in due formati: il formato AU è usato per
un download veloce, magari per effettuare un pre-ascolto, prima
di
lanciarsi in un lungo download del file equivalente ma ad alta
qualità in un altro formato. Qui trovate le
specifiche
tecniche del formato AU.
Audio Interchange File Format Estensioni: AIF,
AIFF
L'Audio Interchange File
Format è di origine Apple (1985) e consente la memorizzazione di
campioni mono o multicanale a 8 o 16 bit e varie frequenze di
campionamento. Trattandosi di un formato elaborato per essere
portabile, può essere anche facilmente convertito (come
vedremo, il RIFF Microsoft è simile) e quindi viene utilizzato
spesso.
RIFF WAVE Estensioni: WAV
Elaborato da
Microsoft e
IBM nel 1992, il RIFF WAVE (il cui nome completo è Resource
Interchange
File Format Waveform Audio Format) segue le specifiche del più
generale Rich Information File Format. É stato introdotto a
partire da Windows 3.1 ed è diventato in breve il formato più
diffuso per le applicazioni su PC. I file WAV supportano varie
tipologie di campionamento: sono mono o multicanale, 8 o 16 bit
a
diversi sampling rate con vari sistemi di codifica anche se i
più
diffusi sono il PCM
e l'ADPCM.
Qui trovate le
specifiche
tecniche del formato WAV.
Creative Voice Estensioni: VOC
Il VOC è il
formato proprietario della Creative Lab, produttore della Sound
Blaster. Questo formato supporta solo 8 bit mono con SR fino a
44.1
kHz e stereo con SR fino a 22 kHz.
Amiga Interchange File Format Estensioni: IFF
IFF/8SVX è il
formato standard dei computer Amiga. È simile all'AIFF, ma
supporta solo campioni a 8 bit. Raramente usato fuori dal mondo
Amiga. Amiga è scomparso, ma sono rimasti i file.
Macintosh SND Estensioni: SND
Questa estensione è
ambigua in quanto viene utilizza anche dai già visti file di
formato u law. SND è in realtà l'estensione dei
file di sistema Macintosh, ma anche alcuni vecchi software per
PC la
usano. I file del vecchio Mac, comunque, potevano avere vari SR,
da 5.5
a 22
kHz, anche se il più usato era 11 kHz. Questi file sono
del tipi AIFF o AIFC e venivano riprodotti direttamente
dall'hardware
sonoro del computer con il System 7 (sono di tipi SFIL, per
sound
file, nel resource fork). Raramente usati fuori dal mondo Mac.
RAW pcm Estensioni: PCM, SND
File di campioni
con
semplice codifica PCM senza header. Raramente usati se non come
file
temporanei o per specifiche applicazioni.
Formati audio di 2a categoria
MIDI file Estensioni: MID, MIDI
Come già
accennato, i MIDI file non contengono audio, ma solo dati di
controllo che istruiscono un sintetizzatore MIDI locale, interno
o
esterno, ad eseguire determinate azioni tipo “suona una certa
nota”, “ferma una nota”, “applica un vibrato”, ecc. Lo standard
MIDI file è stato creato nel 1983 dalla MIDI Manufacturer
Association, un gruppo di costruttori di strumenti musicali
elettronici, che è anche responsabile del suo aggiornamento.
Questi file sono largamente disponibili su Internet e tutte le
piattaforme sono ormai in grado di riprodurli senza munirsi di
software aggiuntivo, a patto, ovviamente, di possedere un
sintetizzatore MIDI virtuale oppure reale su scheda o esterno.
Qui trovate un approfondimento
e
le specifiche tecniche. Questo invece è il sito ufficiale della MMA.
Formati audio di 3a categoria
Moduli Estensioni: MOD (Protracker), XM
(Fasttracker), IT (Impulse
Tracker), S3M (ScreamTracker) e altri
I file MOD possono essere considerati come un formato di incrocio
fra
la 1a e la 2a categoria.
Il loro formato è simile a quello dei MIDI file (sono cioè
composti di dati di controllo e non di audio vero e proprio), con
la
differenza che contengono anche i timbri strumentali con cui
effettuare l'esecuzione sotto forma di un banco di suoni
campionati.
I dati di controllo, poi, pilotano l'esecuzione che deve essere
effettuata con questi timbri. Nella prima versione i campioni
erano a 8
bit.
I file MOD sono
originari
dell'Amiga, ma hanno avuto una certa diffusione grazie soprattutto
alle dimensioni contenute rispetto a un file audio totalmente
campionato e al fatto che l'esecuzione viene sempre effettuata con
i
timbri originali ovviando, così, ai problemi di differenze
timbriche dei MIDI file. Sono nati, così, vari formati che
riprendono e
sviluppano l'idea dei MOD.
3. Compressione
Le compressioni sono sistemi per ridurre la dimensione di un file
mediante l'applicazione di vari tipi di algoritmi e/o codifiche.
Si distinguono due tipi di compressione:
loseless (senza perdita) in
cui il
file viene compresso senza eliminare nessuna informazione e la sua
decompressione permette, quindi, di riavere esattamente
l'originale e
lossy (con
perdita) in cui la
compressione elimina parti considerate ridondanti o ininfluenti e
la
decompressione non riporta all'originale.
Chiaramente, il primo sistema preserva l'integrità dell'originale,
ma
comprime meno, mentre il secondo comporta una perdita di qualità
ma
comprime molto di più, proporzionalmente al livello di
perdita
che si è disposti ad accettare. Vediamo qualche esempio.
Compressione loseless
Le compressioni loseless si basano sulla riduzione della
ridondanza
tipica delle produzioni umane.
Per esempio, in un libro dedicato alla musica sperimentale, la
locuzione "musica sperimentale", lunga 19 caratteri, sarà ripetuta
molte volte. A questo punto, basta sostituirla con un simbolo che
normalmente non si trova in un testo, come per es. '#1#', per
ridurre
un termine di 19 caratteri a uno di 3, risparmiando 16 caratteri
per
ogni occorrenza. In realtà bisogna dire "per ogni occorenza oltre
la
prima", perchè, per poter poi decomprimere il testo, bisogna
costruire
anche un indice delle sostituzioni in cui, in questo caso, sarà
scritto
#1#="musica sperimentale".
Ovviamente, nel libro, anche molte altre parole o insiemi di esse
saranno ripetute più volte, e ognuno di essi potrà essere
sostituito da
un simbolo come #2#, #3#, ... , #n#, dove n è un numero
progressivo,
ottenendo alla fine un risparmio notevole.
Un sistema analogo è utilizzato dall'algoritmo di Lempel-Ziv (LZ)
i cui
derivati sono alla base di molti dei moderni programmi di
compressione
loseless, compreso il notissimo ZIP.
In realtà l'antenato di molti codificatori loseless è la
cosiddetta
Codifica di Huffman. Si tratta di un sistema di eliminazione della
ridondanza sviluppato nel 1952 dal ricercatore omonimo, allora
studente
al MIT. Il suo algoritmo risolve il problema di codificare una
serie di
stringhe (stringa = un qualsiasi insieme di caratteri) nel modo
più
compatto possibile, tenendo conto anche della frequenza con cui le
stringhe si presentano: a quella più frequente viene assegnato il
simbolo più breve in modo da massimizzare la compressione.
Qui trovate un buon
esempio
che approfondisce le problematiche legate alla Codifica di
Huffman.
Un altro tipo di compressione loseless, basato sempre sulla
riduzione
della ridondanza, è il cosiddetto Run Length Encoding (RLE) che
funziona in modo molto semplice. Supponiamo di avere la seguente
stringa di 20 caratteri
ABBBBBBBBBCDEEEEFGGG
Applicando la RLE, diventa
A*9BCD*4EF*3G
per un totale di 13 caratteri, con un risparmio del 35%.
In pratica, al posto dei caratteri ripetuti è stato inserito un
codice
formato dal carattere e dal numero delle ripetizioni. L'asterisco
serve
a indicare che quello che segue è il numero delle ripetizioni e
non fa
parte della stringa (naturalmente questo è il principio base; i
particolari della codifica possono variare).
Chiaramente questo sistema non è produttivo con i testi, ma lo è
nel
caso delle immagini in cui lunghe striscie di pixel con lo stesso
colore sono abbastanza frequenti.
Compressione lossy
La compressione lossy si basa sull'eliminazione di quelle
componenti
dell'informazione ritenute più o meno ininfluenti in base al
livello di
compressione richiesto. A bassi livelli di compressione verranno
eliminati solo i particolari realmente ininfluenti, mentre a
livelli
più
alti cambieranno anche particolari sensibili.
Un esempio non audio è la codifica delle immagini JPEG che elimina
le
sfumature dando a gruppi di pixel vicini lo stesso colore se la
loro
differenza è inferiore a un valore proporzionale al livello di
compressione. In
questa
pagina potete osservare l'effetto di riduzione delle
dimensioni e
la corrispondente perdita di qualità a livelli di compressione via
via
crescenti.
Maggiori particolari sulle compressioni possono essere trovati
sulla
Wikipedia
(enciclopedia free creata
dalla community),
qui in
inglese.
Wikipedia esiste anche
in
italiano,
ma il contenuto è più ridotto.
Formati audio di 1a categoria compressi
Lossless (senza perdita)
Questi formati lavorano in modo analogo allo zip. Comprimono il
contenuto senza eliminare nulla. Al momento dell'ascolto bisogna
effettuare una decompressione ritornando all'originale in uno dei
formati lineari già visti.
Trattandosi di compressione lossless, il confronto fra questi
codec non
si fa sulla qualità (tutti restituiscono l'originale), ma sul
livello
di
compressione e sulla velocità di codifica/decodifica. Come ci si
poteva
aspettare, i risultati mostrano che le due cose sono inversamente
proporzionali.
APE (Monkey Audio)
Permette di ridurre di circa il 50% lo spazio
occupato dal suono (in certi casi anche di più).
FLAC
Formato Open Source, di grande popolarità. Una volta era
estremamente
diffuso (soprattutto tra i puristi), ma sta perdendo via via
terreno
con l'affermarsi del formato ape di MonkeyAudio che comprime un
po' di
più, per quanto FLAC abbia
dalla sua una velocità di codifica e soprattutto decodifica
decisamente
maggiori.
LA (Lossless Audio)
Il formato lossless che comprime di più. La conversione in questo
formato è lentissima, però ottiene la migliore compressione in
assoluto. E' poco diffuso, dato che qualche Mb guadagnato non
vale le lunghe attese in più (e un minor supporto da programmi
terzi).
Test fatti con 10 CD che spaziano dal jazz al metal (NON però con
musica classica), mostrano che, fatto 100 il totale da comprimere,
si
ottengono i seguenti risultati:
LA
comprime a 55.5 con velocità 2.5,
APE in modalità extra-high comprime a 56.4 con
velocità 8.8
APE in modalità normale comprime a 57.3 con velocità circa 17
FLAC comprime a 59.8 con velocità 20 in
codifica e ben 44 in decodifica.
Qui
trovate i
test dettagliati.
Lossy (con perdita)
Come già detto, nella compressione lossy alcuni particolari
vemgono
eliminati. Al momento della decompressione, quindi, non si ottiene
più
il file originale e non c'è alcun modo per recuperarlo.
Il primo termine di giudizio, quindi, è la qualità acustica. Il
problema di ogni valutazione è che, tranne casi eclatanti ad alti
livelli di compressione, non ci sono modi numerici per decidere
chi è
il migliore, ma, dato che le differenze possono essere minime,
bisogna
fare i conti almeno con:
- il genere musicale
- la cultura dell'ascoltatore
- le preferenze dell'ascoltatore
- le modalità di ascolto
- la qualità dell'impianto di ascolto
Per fare un esempio estremo, è chiaro che se il mio fruitore-tipo
è
quello che ascolta heavy metal in macchina, posso permettermi di
più
rispetto a un ascoltatore di musica classica in sala
insonorizzata.
Passiamo alla descrizione dei singoli formati.
AIFF Compresso Estensioni: AIFC
Già molti anni fa
Apple
ha introdotto il formato AIFC che è la versione compressa del
già
citato AIFF. Il rapporto di compressione raggiunge 6:1,
ma a prezzo di perdita di qualità sensibile del segnale.
Rapporti come
2:1 o al limite 3:1 danno buoni risultati anche su suoni
complessi. La
maggior parte delle applicazioni che leggono gli AIFF sono
usabili
anche per gli AIFC.
MPEG Estensioni: MPEG, MPG, MP1, MP2, MP3
La codifica MPEG è,
in verità, più nota per i file video, ma poiché
ai video di solito si accompagna un audio, il Moving Picture Expert
Group
(MPEG, appunto) cha fa parte dell'ISO/IEC
(International Standards Organization/International
Electrotechnical
Commission, una organizzazione internazione che
promuove
standard in vari campi industriali) ha definito le specifiche di
uno
dei più popolari sistemi di
memorizzazione e compressione dell'audio fra quelli utilizzati
in
Internet attualmente.
In realtà, le ricerche per un algoritmo di compressione audio
con
prestazioni elevate e alta qualità erano iniziate già nel 1987
al Fraunhofer
Institut
in Germania, con il nome in codice EUREKA project EU147, Digital
Audio
Broadcasting (DAB).
Nel 1988 si insedia l'MPEG come sottogruppo dell'ISO dedicato
agli
standard audio/video. In questa sede, l'italiano Leonardo Chiariglione
inizia la
definizione di uno standard di compressione audio. Le istanze
dell'ISO
e le realizzazioni Fraunhofer, che nel frattempo aveva
brevettato il
proprio algoritmo, si incontrano e nel 1992 queste ultime
vengono
integrate nelle specifiche dell'MPEG-1 che esce nel 1993.
I file audio MPEG
possono
essere di tre tipi diversi ognuno dei quali ha le proprie
specifiche.
I livelli più elevati impiegano un tempo di
codifica/decodifica maggiore, ma comprimono di più senza
sacrificare la qualità audio.
Ogni standard può avere
diversi layers (chiamati impropriamente "livelli") che
rappresentano ciascuno una famiglia di algoritmi di codifica,
contrassegnati da un numero romano: Layer I, Layer II, Layer
III.
Quelli maggiormente utilizzati per l'audio sono stati sviluppati
nell'ambito del protocollo MPEG 1 e sono comunemente noti com
MP1, 2
o 3 (in realtà il loro nome è MP1 layer I, II o III).
La compressione è
basata su modelli psico-acustici che operano in modo simile al
ben
più noto JPEG sviluppato per le immagini. Il livello MPEG 2
comprime oltre 5:1 e può arrivare a 12:1 senza perdere qualità
in modo apprezzabile anche se, come nel caso del JPEG, il
risultato
dipende dalla complessità del file di partenza (da notare che
questi risultati non sono eccezionali se comparati a quelli
video
dove si arriva a 26:1).
Gli impieghi
dell'MPEG,
comunque, vanno oltre Internet: Philips lo utilizza per il video
CD
ed è usato anche in numerose radio digitali. I lettori sono
stati sviluppati per tutte le piattaforme e sono gli stessi che
leggono i file video.
Vi diamo qui le
caratteristiche dei 3 formati:
Layer I
Compressione 1:4
Bitrate 384 Kb/s
Usato nei Philips DCC e
nei sistemi digitali professionali. Adotta esclusivamente il
metodo
di eliminazione delle frequenze mascherate derivato dagli studi di
psicoacustica. Ciò significa che elimina quelle frequenze
che vengono nascoste dietro ad altre più presenti (masking).
Layer II
Compressione da 1:6 a
1:8
Adotta metodi di
filtraggio del segnale audio molto più spinti rispetto al
primo modello. E' stato migliorato il metodo della scelta e della
eliminazione delle frequenze non necessarie. Codificando a 160
Kb/s
si ottiene un buona qualità di suono; a 192 Kb/s si arriva vicini
all'originale; a 256 Kb/s risulta
difficile notare la differenza dall'originale.
Layer III
Compressione da 1:10 a
1:13
È il più
complesso fra i modelli MPEG per l'audio. Non solo adotta
filtraggi
più massicci rispetto al Layer II, ma utilizza anche un coder
estremamente complesso (Huffmann). Codificando il segnale a 128
Kb/s
si ottiene un suono sufficientemente buono; a 160 Kb/s si è
molto vicini all'originale; a 192 Kb/s e oltre, è difficile
percepire differenze con l'originale.
La pagina web ufficiale pubblica i sequenti tassi di compressione
per
l’MPEG-1 Layer 1,2 e 3.
- Layer 1: 384 kbit/s, compressione 4:1
- Layer 2: 192...256 kbit/s, compressione 6:1...8:1
- Layer 3: 112...128 kbit/s, compressione 10:1...12:1
Questi sono valori piuttosto aleatori in quanto:
- La qualità dipende non solo dal formato di codifica del
file, ma
anche dalla qualità psico acustica
del
codificatore. Il
codificatore tipico layer 1 usa un modello psicoacustico molto
elementare che finisce per richiedere molti più bit per un
risultato soddisfacente.
- La codifica Layer 1 a 384 kbit/s è migliore della codifica
Layer
2 a 192 … 256
kbit/s.
- La codifica Layer 3 a 112 … 128kbit/s è peggiore del Layer 2
a
192 … 256 kbit/s
Un modo più realistico per considerare il bitrate è:
- Layer 1: eccellente a 384 kbit/s
- Layer 2: eccellente a 256...320 kbit/s, molto buono a
224...256
kbit/s, buono a 192...224 kbit/s, non si dovrebbe usare sotto
i 160 kbit/s
- Layer 3: eccellente a 224...256 kbit/s, molto buono a
192...224
kbit/s, buono a 160...192 kbit/s, non si dovrebbe usare sotto
i 128 kbit/s
Qui trovate
una trattazione
dettagliata dell'MP3 in italiano (curata dal sottoscritto).
MP3Pro
MP3Pro, di Thomson Multimedia, è in realtà una combinazione di MP3
e
SBR (spectral band replication, vedi
SBR
Explained - Coding technologies).
Questa tecnologia codifica a parte
(cioè in flussi diversi) le componenti a bassa e ad alta frequenza
del
segnale che viene, così, suddiviso in due parti prima del
trattamento.
In tal modo ognuna delle due parti viene codificata in modo
adeguato
ottenendo una qualità migliore, ma anche file leggermente più
grossi.
MusePack (MPC noto anche come MP+)
Formato di altissimi risultati (secondo il produttore),
soprattutto a
bitrate alti (oltre 192
kbps e oltre). Effettivamente, su alcuni brani i risultati sono
migliori (più cristallini) dell'mp3 a bitrate costante,
soprattutto a
bitrate medio/alti (192 kbps).
Sono in molti a considerarlo il miglior
formato audio lossy, ma in effetti MPC ha risultati migliori
perché
utilizza il bitrate variabile (VBR) che lui chiama CVD (crystal
voice
detection) quindi è ovvio che vinca facilmente se confrontato
all'MP3
con bitrate fisso. In realtà si dovrebbero fare test per
confrontarlo
con un
MP3 a bitrate
variabile.
Sito MusePack
OGG VORBIS
Prende questo nome perché incapsula il codec Vorbis nel formato
Ogg.
Sia Vorbis che Ogg sono open source e sono stati creati dalla
Xiph.Org
Foundation nel 1998 quando sembrava che Fraunhofer
Gesellschaft
volesse imporre il pagamento dei deritti per l'uso dell'MP3.
Xiph.Org
Foundation è una organizzazione non profit che si dedica allo
sviluppo
di formati multimediali di pubblico dominio, per evitare che
l'applicazione dei diritti derivanti dai copyright sui formati
possa
soffocare la condivisione della conoscenza.
Ogg Vorbis è un ottimo codec open source. Riesce a dare risultati
migliori dell'mp3
soprattutto a bitrate bassi (maggior qualità in minor spazio),
cioè
inferiori a 128 kbps. Proprio per questa ragione la tecnologia
Vorbis
viene impiegata anche da parecchi grandi produttori di videogames
al
posto dell'MP3 per evitare eventuali richieste di diritti da parte
di
Fraunhofer Gesellschaft.
WMA
Formato windows media audio, compresso e molto simile a un mp3.
Formato
di compressione audio proprietario Microsoft.
I file compressi in
questo
formato sono di circa il 20 % più piccoli degli Mp3 con qualità
generalmente inferiore. Il codec WMA è incapsulato in un ASF, per
cui
l'estensione può anche essere quest'ultima. In genere si usa WMA
quando
il contenuto è solo audio.
Altri
particolari sulla wikipedia.
AAC
L'Advanced Audio Coding
(
AAC) usato
nell'Apple I-Pod è
uno schema di compressione che fa parte delle specifiche del MP4
le cui
specifiche a livello progettuale sono uscite in ottobre 2004. Ecco
le
sue caratteristiche come dichiarate dal produttore:
- Sample frequencies from 8 kHz to 96 kHz (official MP3: 16 to
48
kHz)
- Up to 48 channels
- Higher coding efficiency for stationary signals (blocksize:
576
-> 1024 samples)
- Higher coding efficiency for transient signals (blocksize:
192
-> 128 samples)
- Much better handling of frequencies above 16 kHz
- More flexible joint stereo (separate for every scale band)
AAC takes a modular approach to encoding. Depending on the
complexity
of the bitstream to be encoded, the desired performance
and the acceptable output, implementers may create profiles to
define
which of a specific set of tools they want use for a
particular application. The standard offers four default profiles:
- Low Complexity Profile (LC) - the simplest and most widely
used
and supported.
- Main Profile (MAIN), which expands upon LC with backwards
prediction.
- Sample-rate Scalable (SRS), also called Scalable Sample Rate
(MPEG-4
AAC-SSR).
- Long Term Prediction (LTP), added in MPEG-4, an improvement
of
the MAIN profile using a forward predictor with lower
computational complexity
Depending on the AAC profile and the MP3 encoder, 96 kbit/s AAC
can
give nearly the same or better perceptional quality as 128
kbit/s MP3.
Streaming audio
RAM, RM, ASF, ASX
Lo streaming è la trasmissione in rete dei dati audiovisivi in
tempo reale; tutto questo senza tempi di attesa derivanti dal
download
completo del file sull’hard disk del computer. Con lo streaming,
infatti, non viene scaricato l’intero file audio prima di
consentirne
l’ascolto, ma la riproduzione inizia per ogni blocco di due
secondi di
ascolto; nel frattempo viene scaricato il successivo. Si possono
verificare momentanee interruzioni nella riproduzione, nel caso in
cui
il traffico nella rete risulti congestionato.
Questo sistema di
trasmissione è possibile con modem da 28.8 kbit/sec in su. In base
alle
capacità di collegamento dell’utente, è possibile selezionare le
diverse qualità di suono.
Le due principali tecnologie di audio
streaming utilizzate sono Real (attraverso il plugin real player),
e
Windows
Media (Windows Media player).
Real Technologies ha iniziato a
promuovere tecnologie di streaming audio (e successivamente
video), per
mezzo di piccoli files con estensione ram o rm con banda di
trasmissione che arriva fino a 56Kbit/sec. Windows Media
(Microsoft)
utilizza una soluzione per lo streaming basata sui file Asf e Asx
con
una banda abbastanza ristretta (15-25 kbit/sec) e qualità
inferiore.
La tecnologia dello
streaming audio ha permesso alle principali emittenti radiofoniche
di
presentare sui propri siti web i loro programmi trasmessi via
etere,
cosicché chiunque sul globo terrestre potesse ricevere una
trasmissione
“radio” dal pc. Nascono anche le radio “web only”, non presenti
via
etere, ma solo sul web.
Studieremo nei particolari lo streaming e le tecnologie audio web
in un
esame del II° anno.
DAB: Digital Audio Broadcasting
è un sistema di trasmissione di segnali radio digitali via etere.
Il
DAB si bassa su un algoritmo di compressione audio simile a MP3 ma
evoluto per la trasmissione di bouquet di pacchetti che permettono
all’emittente di presentare più di una versione dei suoi
programmi. La
qualità della trasmissione è variabile a seconda della banda
occupata.
Durante la trasmissione vengono usati i codici CRC per correggere
errori e mantenere la trasmissione a un elevato livello
qualitativo
anche in condizione di ricezioni non ottimali.
Tabella SR
La seguente tabella
riporta vari SR ancora più o meno in uso.
Freq.
|
Uso
|
Note
|
8000
|
Standard telefonico usato nei file con
codifica u law e nel formato proprietario NeXT/Sun
|
In realtà il NeXT usava 8012.8210513
che
sembra
essere anche la frequenza del CODEC Telco
|
11k
|
In realtà 11025: un quarto del sampling
rate
del CD
|
Metà della frequenza standard del primo
Mac,
era utilizzata nelle vecchie applicazioni multimediali
per Macintosh.
In realtà era 11127.27272...
|
16000
|
Usata da parecchi sistemi di
compressione
standard come il CCITT G.722
|
|
18.9k
|
Standard CD-ROM/XA (qualità normale)
|
|
22k
|
In realtà 22050, metà del sampling rate
del CD
|
La frequenza standard del primo Mac che
però
era in realtà 22254.5454... ed è spesso citata
erroneamente come 22000
|
24k
|
Usata nello schema di compressione
CCITT G.723
|
|
32000
|
Usata nelle radio digitali NICAM
(Nearly
Instantaneous Compandable Audio Matrix), IBA/BREMA/BBC,
nella
giapponese HDTV e nello schema di compressione CCITT
G.721
|
|
37.8k
|
Standard CD-ROM/XA (alta qualità)
|
|
40K
|
Usata nello schema di compressione
CCITT G.723
|
|
44056
|
Assurdo SR usato da dispositivi
professionali
per piazzare un numero intero di campioni audio in un
frame video.
|
|
44100
|
Standard CD
|
|
48000
|
Standard DAT
|
|
96000
|
Standard proposto per il
DVD audio
|
|
176400
|
Standard
equivalente Super Audio CD (SACD)
|
In
realtà il SACDutilizza una tecnologia chiamata DSD (direct
stream digital) che funziona in modo diverso dal PCM ed è
una versione
estrema del vecchio campionamento delta-sigma. L'SR è
2882400 a 1 bit
con accumulazione.
|