Solo i lettori "attempati" come il sottoscritto lo ricorderanno, l'uscita dei primi Compact Disk a metà anni '80 fu una rivoluzione epocale nel mercato allora florido della riproduzione audio analogica di qualità. Ricordo ancora l'emozione profonda che provai a casa di un amico "audiofilo" quando ascoltai il primo CD di musica barocca, un dettaglio e una pulizia sorprendenti senza il solito, fastidiosissimo fruscio nei momenti di silenzio, a cui ci avevano abituato i dischi in vinile e le audiocassette!
Da allora di acqua sotto i ponti ne è passata davvero molta: dopo un pò di diffidenza iniziale, il nuovo sistema incontrò l'entusiasmo della maggior parte del pubblico e la sua diffusione, negli anni '90, fu inesorabile. Qualche audiofilo più tradizionalista continuava a difendere la superiore musicalità del vinile rispetto al CD ma, a mio parere, molti difetti inizialmente attribuiti alle registrazioni digitali derivavano semplicemente dalla giovinezza del sistema e da eventuali "colli di bottiglia" analogici, inizialmente presenti nella catena che va dalla registrazione alla masterizzazione fino alla riproduzione domestica. Del resto, il vinile ha avuto a disposizione oltre un secolo per arrivare a maturazione e non si poteva pretendere il raggiungimento della perfezione sul CD in pochi anni!
Mentre le vendite di CD superavano quelle dei dischi in vinile, Sony cercò di imporre il suo sistema di registrazione magnetica digitale avanzata, il DAT. Commercialmente non fu un grande successo, anche perchè osteggiato dalle case discografiche che temevano la possibilità di effettuare copie digitali di qualità identica all'originale (timore comunque concretizzatosi poco dopo, con la commercializzazione dei CD registrabili). Il DAT però si affermò in campo professionale, anche perchè offriva la possibilità di registrare audio a una frequenza di campionamento superiore a quella del CD: 48 kHz invece di 44,1 kHz, sempre con parole di 16 bit.
L'audio digitale
Concentriamoci su quest'ultimo aspetto, cosa significano i termini "frequenza di campionamento" e la lunghezza delle "parole"? Nel sistema classico detto "codifica PCM" (Pulse Code Modulation), la digitalizzazione di un segnale analogico come può essere il voltaggio in uscita da un microfono viene effettuata con un dispositivo detto "convertitore analogico-digitale" (ADC) che trasforma i valori continui (Volt) in valori discreti (numeri digitali); per l'ascolto, naturalmente, è necessario effettuare poi l'operazione opposta (DAC). Tutto questo va fatto scegliendo una opportuna precisione numerica digitale, legata al numero di bit che rappresentano il risultato della conversione, e con una opportuna scansione temporale, ovvero la frequenza con cui avvengono le conversioni, detta appunto frequenza di campionamento. Il numero di bit è legato direttamente alla dinamica del segnale, ovvero al rapporto tra il segnale più piccolo e quello più grande riproducibili; dato che l'intensità sonora (misurata in deciBel) va con il quadrato del segnale elettrico originale, ne consegue che il "Dynamic Range" (DR) teoricamente ottenibile con un segnale codificato da n bit è dato dalla seguente relazione:
DR (dB) = 6,020 n (bit) +1.76
Invece la frequenza di campionamento è legata alla massima frequenza riproducibile e, per il teorema di Nyquist, la prima deve essere almeno il doppio della seconda.
Naturalmente, la scelta di questi due parametri è dettata dalla fisiologia dell'orecchio, oltre che dalla tecnologia disponibile. Le scelte fatte per lo standard del Compact Disk erano, per l'epoca, decisamente ambiziose: la frequenza di campionamento di 44,1 kHz garantiva la riproduzione di tutte le frequenze udibili fino a 20 kHz, con un margine del 10% che consentiva di spostare gli effetti fastidiosi dei filtri digitali "passa-basso" in una banda comunque non udibile o scarsamente udibile1. D'altro canto, la scelta di una quantizzazione a 16 bit garantiva una precisione e una dinamica inedite, intorno ai 98 DeciBel contro i 60-70 dB dei migliori sistemi analogici (esclusi i sistemi professionali usati in sala di registrazione, naturalmente)2.
Con il passare degli anni, però, dato il protrarsi delle polemiche sulla scarsa "naturalezza" del suono digitale da parte di alcuni ascoltatori di riferimento (le cosiddette "orecchie d'oro") e dato anche l'esito di alcuni studi scientifici che sembravano dimostrare l'effetto sul cervello di frequenze in banda ultrasonica (studi successivamente non confermati), si decise di andare oltre i limiti della quantizzazione a 16 bit / 44.1 kHz del CD, esplorando nuovi standard più elevati. Ho già accennato al sistema 16 bit / 48 kHz del DAT, che in effetti riscosse un certo successo in ambito professionale ed è ora uno standard di fatto nel cinema e nella televisione digitale; forte di questa accoglienza positiva e facendo leva sull'evoluzione tecnologica dei convertitori ADC/DAC, l'industria si spinse ancora oltre e introdusse nuovi standard per la registrazione/riproduzione audio. Ecco che appaiono sia nuove frequenze di campionamento (88.2, 96, 176.4 e 192 kHz, dunque raddoppiando e quadruplicando le frequenze di CD e DAT) che nuovi livelli di precisione di quantizzazione, con parole di 20 o 24 bit. Questi nuovi standard andavano molto oltre le ragionevoli limitazioni fisiologiche, allo scopo di mettere definitivamente a tacere le critiche sulle limitazioni del suono digitale, con la speranza di renderlo sempre più simile a qualcosa di continuo e dunque più "analogico".
Di seguito un elenco di 13 standard di codifica PCM tra quelli più utilizzati e comunque ufficialmente proposti, a parte due (qui chiamati b4 e c3, in grigio/italico) che in realtà sono inventati dal sottoscritto per colmare le lacune esistenti e che, probabilmente, avrebbero trovato utili applicazioni; il bit-rate è riferito a un singolo canale, quindi va raddoppiato nelle applicazioni audio che generalmente prevedono la stereofonia.
Una progresso che non c'è stato
Giunti all'inizio del nuovo millennio si era pronti ad inaugurare un nuovo supporto che avrebbe dovuto soppiantare il CD con uno di questi nuovi standard ad altissima fedeltà; purtroppo, però, le cose non sono andate come ci si aspettava e questo, in parte, è da attribuire all'ennesima "guerra di formati", simile a quella più famosa tra HD-DVD e BR-disk (che ha di fatto rallentato e ridimensionato la diffusione del video ad alta definizione domestico).
L'implementazione di tali nuovi standard fu affidata al nuovo supporto ad alta densità ormai già affermato per la riproduzione video; nacque così, alla fine degli anni '90, il DVD-Audio che prevedeva anche un aumento del numero di canali, fino ai 5+1 del sistema cinematografico Surround classico3. Dato però che nel corso degli anni '90 i sistemi ADC/DAC con molti bit erano stati soppiantati da più robusti ed economici convertitori a 1 bit (con frequenza di funzionamento molto più elevata e ricorso al "noise shaping" per spostare il "rumore di quantizzazione" in regione non udibile), Sony e altre ditte presentarono uno standard completamente diverso basato su questa nuova tecnologia, un formato di fatto contrapposto al DVD-Audio e chiamato "Super-Audio CD". Questo nuovo sistema si basa su una frequenza di campionamento di ben 2,81 MHz che, pur utilizzando parole lunghe solo 1 bit, garantisce oltre 100 dB di dinamica nella regione di maggiore sensibilità dell'orecchio, spingendosi comunque a riprodurre frequenze fino a 100 kHz; un punto a favore di questo formato è che esso è retro-compatibile con i normali lettori CD, grazie alla registrazione multi-strato e alla presenza, quindi, di un "layer" registrato nel vecchio standard.
La "guerra dei formati" e il timore di possibili violazioni dei sistemi di protezione dalla copia hanno rallentato la diffusione dei nuovi supporti ma, probabilmente, il colpo di grazia definitivo è stata la diffusione capillare di musica scaricata dalla rete, spesso illegale e comunque compressa in maniera drastica. Questa filosofia è diametralmente opposta a quella dell'alta fedeltà, poiché la praticità e la gratuità hanno avuto la meglio sulla qualità. Di fronte a questo vuoto qualitativo e a tanta confusione, il vinile ha ripreso quota prepotentemente nel settore dell'audiofilia, soprattutto tra i più nostalgici; pur non volendo entrare nel merito della qualità e della musicalità dei supporti analogici (sui quali il sottoscritto nutre parecchi dubbi), questa clamorosa regressione tecnologica fa riflettere e sembra quasi una reazione di protesta nei confronti di una musica disponibile in troppi formati digitali, in competizione tra loro.
L'enfasi digitale
Un aspetto cui invece mi piace accennare, anche se ormai un po' anacronistico, riguarda la possibilità di aumentare ulteriormente la dinamica tramite una sorta di "enfasi" digitale da me ideata. Essa consiste nel fornire, accanto ai valori campionati PCM, anche una cifra di pochi bit che esprime un esponente, cioè la potenza di 2 il cui risultato va poi moltiplicato per i valori dei campioni.5 Il valore di questo esponente, analogo a quello usato nella notazione scientifica in virgola mobile, viene aggiornato periodicamente, con una frequenza decisamente inferiore a quella di campionamento ma sufficiente a garantire un adattamento rapido a variazioni dell'intensità sonora, in modo che il cambiamento non sia percepibile (una frequenza di qualche decina di Hz dovrebbe essere sufficiente in questo senso).
Qui sotto riporto tre possibili standard basati tutti su un esponente di 2 bit, capace dunque di moltiplicare i campioni per 1,2,4 o 8 incrementando la dinamica di 18,1 dB (equivalenti a 3 bit); il primo è un potenziamento del Compact Disc poiché, a parità di bit-rate, offre una frequenza di taglio leggermente più alta e incrementa la dinamica di ben 12 dB. Il sistema intermedio rappresenta un miglioramento più deciso poiché, pur garantendo la stessa precisione del CD in termini di bit, ne incrementa la frequenza del 25% e la dinamica di 18 dB. L'ultimo sistema è in grado di fornire prestazioni ancora superiori, probabilmente indistinguibili rispetto agli "standard" esasperati del DVD-audio e del Super-audio CD, ma con un bitrate decisamente più contenuto (da 1,7 a 4,5 volte inferiore)4, a tutto vantaggio della capienza e/o del numero di canali.
Come si vede, le frequenze di campionamento sono scelte come "multipli" razionali di quella del CD (rispettivamente, 16/15, 5/4 e 3/2 di 44100 Hz); invece, la frequenza di refresh dell'esponente di enfasi (seconda colonna) è tale da riferirsi sempre a un blocco costituito da 1024 campioni PCM. In verità, una variante logica del primo standard potrebbe essere il DE48, con una frequenza leggermente aumentata per allinearla a quella oggi più utilizzata, sacrificando di poco la durata massima dei CD musicali (1,5 minuti in meno).
Se vogliamo, questa enfasi digitale è un sistema molto semplice di compressione dell'informazione (una compressione "lossy", ovvero con perdita di informazioni); confrontata alla codifica PCM tradizionale, qui la precisione istantanea è generalmente inferiore rispetto alla dinamica ma, dal punto fisiologico, l'effetto non dovrebbe essere apprezzabile poiché l'udito ha una risposta logaritmica e piccoli segnali vengono mascherati da suoni molto forti; del resto questa filosofia è alla base di molti algoritmi di compressione, tra i quali il PASC usato da Sony nel suo MiniDisk (un altro tipo di supporto digitale registrabile, innovativo ma ancora più sfortunato del DAT). Nelle registrazioni multicanale, peraltro, si potrebbe tranquillamente usare un valore comune per l'enfasi digitale sui vari canali, risparmiando ulteriori bit.
Aggiornamento del 2021: Si potrebbe anche pensare ad un sistema con 3 bit di enfasi, capace di aumentare la gamma dinamica di ben 7 bit (oltre 42 dB), mantenendo un bitrate contenuto. La tabella seguente propone 4 ulteriori possibili implementazioni di questa enfasi digitale usando appunto 3 bit nell'ultimo caso estremo ad altissima dinamica e 2 negli altri; anche qui, si assume che il valore di pre-enfasi venga aggiornato ogni 1024 campioni in ciascun canale audio, mentre stavolta la frequenza di campionamento di base è 16 kHz e non 11,025 kHz.
Volendo garantire prestazioni migliori in termini di ottimizzazione dei bit e di fedeltà sonora fisiologica, tuttavia, è opportuno adottare frequenze meno "sparpagliate" e sostituire i 3/4 formati precedenti con i 12 seguenti, che danno la massima libertà di scelta in termini di enfasi e precisione (nel calcolo del bit rate, stavolta si è assunto un tasso di aggiornamento sul valore di enfasi ogni 4096 campioni e, nuovamente, non si è tenuto conto di eventuali ridondanze).
Aggiornamento del marzo 2023: Mi sono convinto che la seguente terna di standard con enfasi sia la migliore.
-
- "Base": fc = 38 kHz, precisione = 11 bit, esponente = 2 bit, dinamica = 14 bit, bit-rate 420 kbit/s/ch
- "Ottimale": fc = 48 kHz, precisione = 15 bit, esponente = 2 bit, dinamica = 18 bit, bit-rate 722 kbit/s/ch
- "Estrema": fc =60 kHz, precisione = 17 bit, esponente = 3 bit, dinamica = 24 bit, bit-rate 1023 kbit/s/ch
La prima combinazione dovrebbe garantire una qualità molto buona per la maggior parte degli utenti, la seconda dovrebbe soddisfare anche gli ascoltatori più attenti mentre l'ultima, probabilmente, avrà una qualità generalmente indistinguibile dalla precedente e servirà per "mettere a tacere" ogni possibile critica da parte degli audiofili più incalliti!
Aggiornamento del ottobre 2023: in aggiunta ai formati prima illustrati, sarebbe da considerare seriamente uno più "estremo" dal punto di vista della compressione. Si tratta del DE54-13-3 (o in alternativa del DE55.125-13-3) che garantisce una frequenza di taglio elevata ed una dinamica eccellente di 120 dB, con una precisione comunque ottima di 78 dB, ulteriormente migliorabile tramite un moderato "noise shaping" ad alta frequenza che potrebbe facilmente raggiungere 80 dB sotto i 4 kHz e 75 dB sopra i 12 kHz. Il bit-rate sarebbe comunque contenuto e confrontabile con quello del CD-audio. In alternativa, a parità di bit-rate, la frequenza di campionamento potrebbe venire ridotta a 48 kHz e il rimanente budget potrebbe essere utilizzato per una potente ridondanza, basata su un segnale compresso con i tradizionali algoritmi "lossy" (MPEG o migliore) ma con un fattore di compressione basso (intorno a 8,5), in maniera da garantire un buon restauro dell'eventuale informazione persa senza impattare in modo apprezzabile sulla qualità percepita.
Aggiornamento del febbraio 2024: Il formato basilare proposto quasi un anno fa andrebbe sostituito con uno a bit rate più alto, capace di renderlo qualitativamente indistinguibile da quello del CD per la maggior parte degli ascoltatori. Inoltre, l'uso di un moderato "dithering" o "noise shaping" (NS) consentirebbe a tutti gli standard di raggiungere una precisione migliore in banda realmente udibile, creando un lieve fruscio alle frequenze più alte, del tutto impercettibile e comunque filtrabile. Di seguito, la lista aggiornata:
-
- "Base": fc = 40 kHz, precisione = 13 bit (14 con NS), esponente = 2 bit, dinamica = 15 bit, bit-rate 520 kbit/s/ch
- "Ottimale": fc = 48 kHz, precisione = 15 bit (16 con NS), esponente = 2 bit, dinamica = 18 bit, bit-rate 722 kbit/s/ch
- "Estrema": fc =60 kHz, precisione = 17 bit (≥18 con NS), esponente = 3 bit, dinamica = 24 bit, bit-rate 1023 kbit/s/ch
Conclusioni
Anche se molti cultori potranno affermare il contrario, l'idea di "alta fedeltà" musicale è ormai sparita, almeno nella tradizionale accezione di una diffusione ampia di contenuti musicali di ottima qualità, grazie ai progressi della tecnologia soprattutto in ambito digitale. Oggi, il supporto musicale tende ad essere de-materializzato e la fruizione è sempre meno domestica; alla qualità si preferisce la quantità e l'ascolto privilegia la comodità di contenuti "streaming", magari da fruire solo una volta e da condividere, senza poter lasciare molto spazio ad una meditazione o una analisi tecnica, oltre che artistica, dei brani. Dispiace dirlo, ma quello che prima era il sogno di molti giovani della mia generazione, ovvero possedere un impianto "hi-fi" e una nutrita collezione personale di musica, è diventato ora un interesse di nicchia, privilegio di pochi collezionisti di vecchi vinili un po' nostalgici e feticisti, oppure appannaggio di ancora più rari e fortunati cultori dell' "high-end", empireo fatto di impianti esoterici e costosissimi che, spesso, sono soprattutto lussuosi giocattoli da esibire, piuttosto che da ascoltare.
Qui mi sono divertito a ripercorrere le tappe fondamentali di questa storia che non è propriamente a lieto fine, fantasticando anche su alcuni possibili sviluppi che non si sono mai concretizzati ma che, un giorno, potrebbero trovare comunque applicazioni interessanti. Nel frattempo, buon ascolto!
Note:
1) Per essere precisi, in fase di registrazione si effettua un sovracampionamento per cui la frequenza non è il doppio della massima udibile ma è molto maggiore (almeno 8x); questo permette di rimuovere (tramite filtro digitale) tutte le frequenze elevate che, pur non essendo direttamente udibili, possono comunque alterare la percezione di suoni udibili sommandosi o sottraendosi ad essi e creando suoni spuri, un fenomeno simile a quello dei "battimenti"...
2) Anche se sulla carta l'orecchio umano abbraccia un intervallo di intensità ancora maggiore, circa 120 dB, questo è vero solo in un ristretto intervallo di frequenze medio-alte e, soprattutto, il limite superiore corrisponde alla soglia del dolore, dove si rischiano danni permanenti per l'udito; si tratta dunque una pressione sonora da evitare assolutamente in un sistema di riproduzione musicale domestico!
3) per limiti di capienza e di bit-rate, il multicanale non è disponibile alle due frequenze più alte di campionamento (176 e 192 kHz) che si devono limitare alla stereofonia.
4) ad essere onesti, il sistema DVD-Audio prevedeva anche una compressione "non-lossy" (detta MLP ed elaborata da Meridian) che riusciva, con la maggior parte dei contenuti musicali, a comprimere di circa 2 volte il bit-rate; con esso, i due standard "Very High Fidelity" (d1 e d2) risultano dunque più competitivi del DE66, al costo di una maggiore complessità di decodifica, peraltro coperta da segreto industriale e quindi non disponibile pubblicamente!
5) Per la precisione, se e è il numero di bit usati per codificare l'informazione di enfasi, allora quest'ultima può assumere i valori interi compresi tra 1 e 2^(2^e-1)) e di conseguenza la dinamica aumenta di 6,02(2^e-1) dB, quindi circa 18 dB per e=2 e oltre 42 dB per e=3 (valore oltre il quale ha poco senso andare).