Mp3

 

Sul finire degli anni Ottanta l'industria dell'audio e del video avvertiva la necessità di definire nuovi standard che potessero facilitare l'avvento della progressiva digitalizzazione delle informazioni, con le nuove possibilità di comunicazione e di memorizzazione che si rendevano disponibili.

I tre principali organismi incaricati di definire questi standard a livello mondiale sono l’ITU (Intemational Telecommunication Union), un'agenzia delle Nazioni Unite che si occupa di telecomunicazioni e broadcasting, l'IEC (International Electrotechnical Commission), incaricato di gestire gli standard in ambito elettrico e elettronico, e l’ISO (International Organization for Standardization), che elabora standard in svariati campi.

 

Nel 1988 fu formato un gruppo di esperti con membri dell'ISO e dell'IEC allo scopo di sviluppare standard per la riproduzione, la codifica, l'elaborazione di audio, video e della loro combinazione, e a questo gruppo fu dato il nome di MPEG (Moving Picture Experts Group). Originariamente formato da 25 elementi, l'Mpeg si è progressivamente ampliato fino a contare oggi quasi 400 tecnici provenienti da aziende e organizzazioni di tutto il mondo.

 

Il principale successo di questo gruppo è stato determinato dalla vasta accoglienza ottenuta sul mercato mondiale da parte del primo degli standard elaborati, l'Mpeg-1 (classificato dall'ISO come standard 11172 e le cui prime tre parti sono state definitivamente approvate nel 1993).

Suddiviso in cinque parti, definisce le tecniche e le modalità operative per la codifica di informazioni audio-video digitali su canali di ampiezza massima di 1,5 Mbit al secondo. Con l'Mpeg-1 si intendeva offrire la possibilità di memorizzare su Cd video di qualità paragonabile a quella VHS.

 

L'Mpeg-2, presentato alla fine del 1994, ha rappresentato l'evoluzione del primo standard verso la televisione digitale, incrementando la qualità video, il numero di canali audio, e definendo le caratteristiche alla base delle attuali trasmissioni digitali. È lo standard impiegato sui nuovi supporti DVD, per la riproduzione audio-video, e nelle trasmissioni digitali via satellite.

 

Nell'ottobre 1998 è stato approvato l'Mpeg-4. Questo prevede sostanziali innovazioni sia sulle tecniche di compressione ed elaborazione dei segnali, sia sul fronte dell'interattività con l'utilizzatore; inoltre possiede più ampie possibilità di creare contenuti multimediali, miscelando video naturali e sintetizzati e impiegando anche tecnologie VRML.

 

 

Mpeg Audio

 

L'Mpeg utilizza per la codifica audio un modello psicoacustico elaborato nel corso degli anni da vari enti di ricerca e che ha consentito all’ente tedesco Fraunhofer Institut Integrierte Schaltungen (IIS) di rilasciare l'algoritmo di codifica/decodifica così come è oggi implementato nella sua forma più diffusa, l'Mpeg-1 Layer III (Mp3).

 

Si è partiti dalla considerazione che l'orecchio umano non è un dispositivo perfetto di ricezione del segnale audio, ha anzi diversi limiti. In particolare si sono sfruttate le caratteristiche di non linearità e adattative della soglia di udibilità. Quest'ultima è il livello al di sotto del quale non è possibile udire suoni, e varia da una persona all'altra. Generalmente, si ha la massima sensibilità per suoni con frequenza comprese fra 2 e 5 KHz. Non è solo la frequenza a determinare l'udibilità di un suono, ma anche la sua ampiezza (o intensità) a quella determinata frequenza, con una legge di dipendenza, appunto, non lineare. Oltre a ciò, la soglia di udibilità è anche adattativa, si modifica cioè in funzione dei suoni ricevuti. Per esempio, non c'è nessuna difficoltà nell'udire una conversazione fra due persone in un ambiente silenzioso, ma se un aereo in decollo ci passa sopra la testa, la soglia di udibilità si modifica rendendo impossibile sentire la voce umana.

I normali strumenti di registrazione hanno invece una risposta praticamente piatta ai segnali, perciò registrano anche quelle informazioni che l'orecchio umano non percepisce. Il fenomeno è particolarmente evidente in campo musicale: in un'orchestra che sta eseguendo un brano "fortissimo" sarà impossibile udire alcuni strumenti, che però appariranno nelle tracce di registrazione. Eliminando le informazioni non necessarie si può risparmiare una consistente parte dello spazio di memorizzazione, e questo concetto costituisce la base dell'algoritmo di codifica dell'MP3.

 

L'audio in ingresso viene costantemente analizzato da un codificatore audio (encoder) che determina dinamicamente la cosiddetta curva di mascheratura, la soglia sotto la quale i suoni non sono percepiti dall'orecchio umano. Il segnale in ingresso viene poi suddiviso in un certo numero di bande di frequenza, dette sottobande.

Per ogni sottobanda l'operazione di codifica prevede la quantizzazione.

Quest'ultimo è il processo di trasformazione del segnale analogico prodotto dalle onde sonore in un segnale digitale che ne approssima il più fedelmente possibile le caratteristiche. Per fare ciò un campionatore rileva il valore del segnale a intervalli di tempo prefissati e la sequenza di numeri che se ne ricava rappresenta la ricostruzione digitale del suono. Poiché si tratta di un processo di approssimazione, si ottengono i migliori risultati riducendo gli intervalli di tempo tra una misurazione e l'altra e aumentando la precisione dei valori. Un Cd musicale contiene audio campionato a 44.100 Hz (44.100 rilevazioni al secondo) e memorizzato in numeri ampi 16 bit.

 

La fase di quantizzazione introduce sempre un rumore indesiderato che si va ad aggiungere al segnale utile e che viene di solito trattato come rumore bianco. L'algoritmo è abbastanza sofisticato da far sì che la quantizzazione sia tale da mantenere il rumore introdotto sempre al di sotto della maschera di udibilità specifica per ogni particolare sottobanda.

L'informazione sulle caratteristiche della quantizzazione operata in ogni sottobanda è allegata ai dati audio e in questo modo il decodificatore (decoder) incaricato di ricostruire il segnale può operare sul flusso dei dati senza essere a conoscenza delle modalità con cui è stata determinata. Questa particolare flessibilità lascia spazio a differenti implementazioni di encoder e decoder, con differenti livelli di complessità.

 

 

Schematizzando, la creazione di un file mp3  (a partire da un segnale audio digitale ottenuto tramite campionamento di un segnale analogico) avviene secondo queste tappe:

 

1. L'algoritmo di compressione effettua, sul segnale digitale, una operazione detta FFT (Fast Fourier Transform, Trasformata Rapida di Fourier) che gli consente di trattare il segnale nel dominio delle frequenze anziché in quello del tempo.

 

2. Il tutto viene trattato secondo il modello percettuale psicoacustico, che tiene conto del potere uditivo dell'orecchio umano.

 

3. L’intera gamma di frequenze audio, da 20 a 20.000 Hz viene divisa in 576 intervalli (bande di frequenza separate) di eguale ampiezza.

 

4. Ogni intervallo viene codificato con un numero di bit diverso a seconda dell’importanza che viene attribuita a ogni banda (in questa fase si eliminano i dati tenendo presente il modello percettuale).

 

5. Infine, le informazioni vengono compresse ed unite per formare un unico flusso di dati tramite l'algoritmo di Huffman.
 

L'ampiezza di banda di trasmissione nel caso della riproduzione digitale rappresenta la massima quantità di informazioni che è possibile trasmettere attraverso un dispositivo.

La riproduzione di audio da Cd richiede un'ampiezza di banda di 1,4 Mbit al secondo, che si traduce in costi elevati per trasmissioni a distanza (via satellite o via cavo). Se immaginiamo di voler trasmettere audio di qualità su linee ISDN (in genere al massimo due canali da 64 Kbit/sec l'uno) ci rendiamo immediatamente conto di come la qualità Cd sia praticamente inarrivabile senza introdurre una qualche forma di compressione dei dati.

 

 

Mpeg-1

 

Lo standard di codifica dell'audio adottato dall'Mpeg si basa sul modello percettivo sopra descritto e si divide in tre modalità operative, conosciute come Mpeg-1 Layer I, Mpeg-1 Layer II e Mpeg-1 Layer III. Offrono una compressione crescente che implica di conseguenza una fase di codifica più complessa. I parametri più significativi che possono essere variati sono l'ampiezza di banda (espressa in Kbit al secondo e detta anche bitrate) e la frequenza di campionamento (espressa in Hertz). Agendo su queste due variabili è possibile ottenere gradi di compressione (e quindi di qualità) differenti, con una scala molto vasta concepita per soddisfare il più vasto numero di esigenze.

 

L’Mpeg-1 Layer I è il più semplice e dispone di 32 filtri sottobanda. L'audio può essere compresso in modalità differenti a seconda dell'ampiezza di banda disponibile, con valori compresi tra 32 Kbit al secondo e 448 Kbit/sec. Per ottenere una qualità Cd sono necessarie ampiezze di banda di 384 Kbit/sec. Il Layer-1 è stato concepito per il DCC (Digital Compact Cassette), dove è utilizzato, appunto, a 384 kbps.
 

 

L’Mpeg-1 Layer II ha maggiori capacità di compressione e opera su bande tra 32 e 192 Kbit/sec per segnali mono, tra 64 e 384 Kbit/sec con segnali stereo. La qualità Cd si raggiunge a 192.256 Kbit/sec. Il Layer II, conosciuto anche sotto il nome di MUSICAM (Masking Pattern Adapted Universal Subband Integrated Coding And Multipleing), è impiegato in numerosi campi, dal Cd-I al Video Cd, per le trasmissioni radio e televisive digitali e via satellite, nello standard DVD e su linee ISDN.

 

L’Mpeg-1 Layer III (Mp3) è invece utilizzato per applicazioni ove la banda passante è molto limitata e perciò il bitrate deve essere basso, anzi il più basso possibile. Offre caratteristiche di compressione ancora più avanzate rispetto ai layer I e II. La vera qualità CD è raggiunta a  256 Kbps, ma già 112-128 si ottiene una qualità sonora simile a quella dei CD.

Il Layer III prevede inoltre esplicitamente il supporto per il VBR (Variable Bit Rate), una tecnica grazie alla quale l'ampiezza di banda (o bitrate) non è più fissa per tutto il file, ma variabile a seconda dei blocchi. Con questo sistema, se all'interno di un file vi è una porzione di audio in cui è presente per esempio solo una voce umana, è possibile adoperare un bitrate più basso e risparmiare in questo modo ulteriore spazio. Se invece sempre nello stesso file è presente del suono molto complesso (come per esempio quello prodotto da un'orchestra), è possibile aumentare il bitrate per quel particolare brano.

Con simili livelli di compressione è perciò possibile trasmettere audio ad alta fedeltà anche su economiche linee ISDN, eliminando la necessità di ricorrere a costosi collegamenti dedicati.

 

Le varie fasi di definizione degli standard (1, 2 e recentemente 4) hanno via via aggiunto funzionalità e caratteristiche specifiche.

 

Con l'Mpeg-1 è stata definita la codifica di audio a 32 - 44.1 - 48 KHz su canali mono e stereo, con ampiezze di banda comprese fra 32 e 448 Kbit/sec (Layer I), 32 e 384 Kbit/sec (Layer II), 32 e 320 Kbit/sec (Layer III).

 

 

Mpeg-2

 

L'Mpeg-2 nella versione BC estende le caratteristiche dell'audio Mpeg-1 implementando cinque canali più un sesto per i segnali a bassa frequenza e aggiunge le frequenze di campionamento di 16, 22 e 24 KHz tra i 32 e 256 Kbit/sec del Layer I e gli 8 e i 160 Kbit/sec dei Layer II e III.

Viene mantenuta la compatibilità con la fase Mpeg-1, tanto che è possibile mescolare video di una fase con audio dell'altra.

È stato inoltre definito un secondo standard Mpeg-2 audio, l'Mpeg-2 AAC (Advanced Audio Coding), che specifica la codifica di audio ad alta qualità su un massimo di 48 canali a frequenze di campionamento da 8 a 96 KHz, con possibilità di gestione multicanale, multilingue e multiprogramma.

 

 

ID3

 

Parallelamente allo sviluppo di Mpeg-2 è stato sviluppato uno standard per aggiungere informazioni testuali al file MP3, che ha preso il nome di ID3. In pratica le informazioni sull'autore, il titolo del brano, l'anno e il genere musicale sono aggiunte su una coda fissa di 128 Byte appesa alla fine del file. Anche questo standard è in rapida evoluzione, in particolare allo scopo di aumentare la quantità di informazioni inseribili e di spostarne la posizione in testa al file.

 

 

Mpeg-4

 

Ultimissimo arrivo, la fase Mpeg-4 consente di gestire flussi di dati audio naturali e sintetizzati (voci sintetizzate o tracce midi) mescolati tra loro, con strumenti specifici per la gestione dell'audio 3D.

 

L'evoluzione dell'hardware ha perciò reso il pc la piattaforma ideale per lo standard mp3, e se ne è subito resa conto la sempre più popolosa comunità di Internet, che ne ha approfittato per scambiarsi brani musicali.

Con i semplici modem a 33.600 bps sono infatti necessari dai 15 ai 20 minuti circa (traffico della rete permettendo) per trasferire un brano di circa 4 MByte, la grandezza tipica delle canzoni commerciali. Questa situazione ha gettato nel panico le case discografiche, consapevoli che con una simile tecnologia il fenomeno delle copie pirata sarebbe sfuggito a ogni controllo.

D'altro canto però la possibilità di diffondere audio di qualità attraverso Internet consente di aprire la strada a nuove forme di fruizione della musica: è possibile acquistare legalmente la canzone preferita direttamente da Internet pagandola pochi dollari, scegliere una compilation e ascoltarne in anteprima i brani. Allo stesso modo, giovani gruppi musicali che non possono permettersi il processo di produzione e commercializzazione di un cd musicale hanno la possibilità di far conoscere a chiunque la propria musica semplicemente inserendo su un proprio sito i file audio così compressi.

 

La tecnologia mp3 ha finora richiesto la potenza di elaborazione fornita da computer con processori dal Pentium in su per la riproduzione dei brani, ma Diamond per prima, e a seguire Samsung e altri produttori, hanno reso disponibili riproduttori di file mp3 indipendenti dal pc e simili ai comuni walkman.

Il computer rimane per le necessità di archiviazione e catalogazione, e per il trasferimento dei brani sul riproduttore, nonché per svolgere le operazioni di trasformazione dei brani audio cd in brani mp3.

Diamond ha vinto la battaglia legale intentata negli Stati Uniti dalla RIAA (Recording Industry Association of America), che riunisce le principali case discografiche, per vietare la diffusione del lettore.

 

L'aspetto controverso dello standard Mp3 è l'assenza di un meccanismo interno di protezione dalle copie illegali, e quindi la sua assoluta trasparenza durante il processo di duplicazione.

Il timore, da parte di chi produce contenuti, generato dall'avvento delle tecnologie digitali, è in parte giustificato se si considera che l'informazione (audio, video o quant'altro), una volta trasformata sotto forma di numeri, può essere copiata infinite volte dando luogo sempre a dei nuovi originali.

 

Resta tuttavia da dimostrare la reale efficacia degli svariati metodi di protezione progettati (e imposti) per tentare di arginare il fenomeno delle copie pirata. Un esempio sintomatico è dato dal sistema di protezione dei filmati DVD: il mondo è stato diviso in aree geografiche, e questa informazione viene registrata nel lettore o nel software di riproduzione. La stessa informazione è conservata anche sui dischi, perciò un titolo venduto in una regione non può essere letto da apparecchi configurati per un'altra zona. Di fatto però, con trucchi più o meno complessi di dominio pubblico, è possibile alterare a proprio piacimento i parametri per l'identificazione dell'area geografica.

 

La lotta alla pirateria richiede quindi soluzioni innovative, adeguate ai nuovi strumenti che la tecnologia mette a disposizione, senza voler respingere a priori quello che è semplicemente un nuovo metodo per la codifica di informazioni.

 

Sul fronte opposto invece assistiamo al notevole interesse manifestato dai network radiotelevisivi verso le trasmissioni digitali, la cui tecnologia vincente si basa appunto sugli originali lavori dell'MPEG.

 

L'mp3 non è un punto d'arrivo sul fronte delle tecnologie per la codifica dell'audio digitale, ma rappresenta senz'altro una tappa importante che, complice la diffusione di Internet, ha segnato una vera e propria svolta nel modo di gestire l'audio.

Il fenomeno mp3 può essere considerato come l'avanguardia di un'evoluzione progressiva, destinata a modificare i metodi tradizionali con cui siamo abituati a ricevere informazioni.

 

 

Gestire l'audio mp3 sul proprio pc non è affatto difficile, bisogna però sapere quali sono i software adatti per la riproduzione (i player) con le relative utility di gestione e catalogazione. (vedi figura 1)

Coloro che vogliono invece cimentarsi con la creazione di propri brani mp3 avranno bisogno di un encoder (che trasformi i file wave in file mp3) e, se l'audio originale proviene da cd, anche di un ripper (che estrae l'audio dal cd direttamente in formato digitale).

 

 

Player

 

Per riprodurre i file in formato mp3 da un pc è necessario un apposito software di decodifica.

 

Per il mondo Windows ne esistono molti, ma il più noto è senz'altro WinAmp prodotto da NullSoft. Si tratta di un programma shareware di dimensioni contenute.

L'installazione è semplicissima. Gli unici parametri da regolare sono le associazioni con i file audio in quanto WinAmp può riprodurre parecchi formati.

Sebbene sia shareware non c'è alcuna limitazione nelle funzionalità e non compare nessun messaggio che ricordi dei dieci dollari richiesti dall'autore per l'utilizzo del programma. Questo è costituito da una piccola finestra che eventualmente può essere ridotta a una semplice barra, sulla quale compaiono i comandi di riproduzione, regolazione volume, le informazioni sul file e un piccolo analizzatore di spettro. Un tasto fa apparire un equalizzatore grafico a 10 canali.

WinAmp rappresenta la soluzione ideale per chi ascolta file MP3 mentre sta lavorando al computer, l'interfaccia non potrebbe essere più semplice. L'aspetto di WinAmp può essere personalizzato installando skin particolari (letteralmente "pelle"), che cambiano il layout della finestra. Ne esistono diverse migliaia reperibili gratuitamente su Internet, con i temi più disparati e colorati, alcuni dei quali non sempre pratici in quanto nascondono i comandi.

Altre funzionalità interessanti possono essere aggiunte tramite appositi plug-in, anche questi liberamente sviluppabili e reperibili. Molti sono in genere costitutiti da effetti ottici visivi che accompagnano la riproduzione dell'audio, ma ne esistono anche altri che consentono di variare alcuni parametri di riproduzione e di applicare effetti acustici.

Tra le varie possibilità offerte da Winamp c'è anche quella di trasformare i file mp3 in formato wav e di salvarli sul pc, per poi eventualmente trasferirli su un cd masterizzato e ascoltarli quindi con un normale lettore stereo.

 

Tra gli altri player mp3, più sofisticati come dotazione di funzionalità e capacità di gestione rispetto a Winamp, ricordiamo innanzitutto Foobar2000, ritenuto da molti il miglior player in assoluto (anche se dotato per ora di una interfaccia alquanto spartana), arricchibile tramite plug-in sviluppati da terzi.

Altri buoni player mp3 sono MusicMatch dell'omonima casa, Jet-Audio di Cowon System e Sonique.

 

Altre innumerevoli utility per la catalogazione, l'archiviazione e l'editing delle informazioni normalmente registrate all'interno del file mp3 sono disponibili ovunque nella rete, con una proliferazione costante segno della vasta popolarità di questo standard.

 

 

Encoder

 

La conversione da un file audio registrato con i metodi tradizionali (un file wave prodotto campionando una sorgente analogica esterna o riversando una sorgente digitale come i cd audio) richiede un software di codifica che per le premesse teoriche che abbiamo illustrato in precedenza è generalmente più complesso del software di riproduzione.

Inoltre l'algoritmo non è gratuito, chi lo implementa in versione commerciale deve corrispondere i diritti spettanti al Fraunhofer IIS (relativamente al Layer III).

Una soluzione comoda è rappresentata sempre da MusicMatch, che può svolgere tutte le funzioni di manipolazione di audio mp3.

In alternativa esistono molti programmi in grado di leggere audio in formato wave ed effettuare la trasformazione in mp3. Tra questi citiamoMP3Enc prodotto dal Fraunhofer IIS, ma soprattutto Lame.

Quest'ultimo, nella versione 3.90.3 (e NON versioni inferiori e NEANCHE superiori), è considerato in assoluto il miglior encoder mp3 al mondo, specie se usato con dei settaggi ideati dallo sviluppatore Dibrom (qui trovate i preset di Dibrom).

Il problema sta nel fatto che Lame funziona da linea da comando e quindi sarebbe ostico per molti saperlo usare al meglio. Tuttavia esistono vari programmi (chiamati "frontend") sviluppati da terze parti che danno una semplice interfaccia grafica a Lame. Uno dei più usati è RazorLame.

 

 

CD Ripper

 

Se si vuole costruire un file mp3 partendo da un brano digitale su cd, dei programmi appositi estraggono le tracce audio nel formato cd-da (cd-Digital Audio, lo standard dei comuni cd audio) e registrano sul disco rigido il brano in formato wav.

Evitando di passare attraverso il convertitore digitale/analogico della scheda audio ci si assicura una copia essenzialmente identica all'originale presente sul cd ma costruita nel formato adatto ad essere successivamente manipolata dagli encoder. Anche in questo caso MusicMatch consente di effettuare tutte le operazioni in un unico passaggio e in tempo reale, semplificando notevolmente tutte le operazioni, ma ne esistono moti altri tra i quali sono da ricordare CDex e soprattutto Exact Audio Copy (EAC), attualmente considerato il migliore in assoluto (per notizie dettagliate sul programma visita il sito EAC In Italiano)