Introduccion Al Audio Digital

Introducción al audio digital. Propósito: Adentrarnos en el mundo del audio digital, comprender su funcionamiento para

Views 198 Downloads 5 File size 3MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Introducción al audio digital.

Propósito: Adentrarnos en el mundo del audio digital, comprender su funcionamiento para obtener mejores resultados, tanto artísticos como técnicos.

La palabra digital deriva del latín "Digitalis" y se refiere a los dígitos de los dedos humanos, también se refiere a cosas que pueden ser contadas, como los dedos de una mano. El audio digital registra cambios de voltajes analógicos y los transforma en simples valores numéricos. La ventaja de este sistema es que los "números" de alguna manera terminan representando efectivamente una determinada forma de onda y la misma puede ser "comunicada" y grabada con mucha mas precisión que los continuos cambios de voltaje análogos.

Codificando pulsos y numeros.

Introducción al audio digital.

Existen muchas maneras de convertir pulsos en números, un método parecido al código Morse, simplemente usa un pulso para representar al numero 1, 9 pulsos para representar al numero 9 y así sucesivamente… El numero 13 por ejemplo podría ser representado por un pulso seguido de 3 pulsos, el numero cero podría ser representado por una pausa más larga, este tipo de código digital es llamado PNM, Pulse Number Modulation.

Introducción al audio digital.

Sistemas numéricos: En el lenguaje del audio digital, todo empieza con números, ya que representan la información digital. Los números son una manera muy conveniente y eficaz de codificar, procesar y de-codificar información, por lo cual son lo más conveniente al trabajar con audio digital. Existen diferentes sistemas numéricos dentro de los cuales los más comunes y conocidos para nosotros son: El sistema que la mayoría de los personas utilizamos para el “uso diario” es el decimal (base 10). Sin embargo, para audio digital, ya que toda nuestra información se convertirá en información binaria al momento de hacer la conversión a digital, el sistema que usaremos será binario (base 2). Entonces, ¿cómo se hace la conversión de lenguaje decimal a lenguaje binario? Esto es sumamente fácil. Simplemente empezaremos con una tabla de números decimales que va del 1 al 128. Cada número se duplicará para

Introducción al audio digital. llegar al siguiente valor. La tabla irá en orden aumentativo de derecha a izquierda.

Así podremos tomar un número decimal y convertirlo en binario distribuyéndolo en esta tabla. Por ejemplo, el número 116 decimal es equivalente a 1110100 en binario. ¿De dónde sacamos este valor? Muy fácil, veamos el desglose. • 128 no cabe en 116, por lo tanto nos lo saltamos y no le damos valor. • 64 cabe una vez en 116, por lo cual ponemos el valor de 1 abajo del 64 y se lo restamos: 116-64=52 • 32 cabe una vez en 52, por lo cual ponemos el valor de 1 abajo del 32 y lo volvemos a restar: 52-32=20 • 16 cabe una vez en 20, por lo cual ponemos el valor de 1 abajo del 16 y lo volvemos a restar: 20-16=4 • 8 no cabe en 4, por lo cual le damos el valor de 0. • 4 cabe una vez en 4, por lo cual le ponemos el valor de 1 abajo del 4 y lo volvemos a restar: 4-4=0

Introducción al audio digital. • 2 no cabe en 0, por lo cual le damos el valor de 0. • 1 no cabe en 0, por lo cual le damos el valor de 0. Después de añadir los valores, la tabla terminaría así: Así es como concluimos que 116 en lenguaje decimal es igual a 1110100 en lenguaje binario. La razón por la cual el sistema binario es más conveniente para las computadoras, es por el simple hecho de que únicamente está trabajando con dos números: 0 y 1. Si la computadora recibe un 1, entonces hay información; si recibe un 0, entonces no hay información. Es así de sencillo, inclusive se puede ver como ON/OFF (1/0). Estos dígitos binarios se conocen como bits (binary digits). Cada 8 bits tenemos un byte. Este sistema es sumamente eficiente y rápido para trabajar con computadoras y audio digital. La velocidad a la cual podemos prender y apagar un switch representa la velocidad a la cual se podrá procesar la información. Por esto, en lugar de tener que recordar o almacenar múltiples valores analógicos, únicamente hay que recordar 2, y estos son 1 y 0. No es casualidad que el botón de encendido de muchos aparatos digitales lleve el símbolo de un cero y un 1.

Introducción al audio digital.

Digital Sampling.

La historia de los samplers digitales comienza casi 40 años atrás nada más. En los primeros setenta se empezaron a desarrollar las primeras máquinas para capturar sonidos. Máquinas basadas en rudimentarios ordenadores adaptados para trabajar con señales de audio. Para empezar un nombre mítico: Fairlight. Este fue el nombre que eligieron Kim Ryrie y Peter Vogel a finales del año 1975 para su proyecto. Desde la ciudad de Sydney, estos dos amigos de la escuela se aliaron para crear un instrumento electrónico. La idea inicial fue la de construir un sintetizador que pudiera reproducir sonidos naturales.

Introducción al audio digital.

¿Qué es muestrear?

Dicho de una forma muy simple, muestrear es hacer fotos de un sonido a mucha velocidad. La comparación más fácil es el cine: el ojo humano necesita unas 24 imágenes o “fotos” por segundo para crear la ilusión de movimiento continuo. El oído es bastante más fino y necesita unas 40.000 tomas de audio por segundo para percibir un sonido grabado como real. Parece que el oído es unas 1.600 veces más preciso que la vista... La cosa se complica cuando tenemos 40.000 tomas en un segundo y cada una de ellas tiene un valor distinto, ¿cómo ordenarlas?. Para pasar de analógico (que es algo continuo en el tiempo) a digital (que son valores discretos) hay que pagar un precio. Al aproximarnos a los valores que una señal analógica tiene en un momento dado, tenemos que fijar con qué precisión lo haremos.

Introducción al audio digital. Hemos establecido que tomaremos unas 40.000 muestras por segundo y que cada muestra tendrá un valor distinto cuya medida dependerá de la precisión o resolución de muestreo. Llega el terrible momento de enfrentarnos con las matemáticas. La unidad básica con la que trabaja el sistema binario es el bit, que es la unidad de información más pequeña que se puede manejar (o cero o uno). Del mismo modo, con cuatro bits puedo representar 16 valores (2 x 2 x 2 x 2, ó 2 elevado a 4). Pues bien, la precisión más común a utilizar en los sistemas de grabación digital es de 16 bits, que representa un total de 65.536 valores para cada muestra, es decir (2 elevado a la 16), A esta precisión en la  medida se le llama resolución de muestreo, y junto con la frecuencia de muestreo constituyen los valores más importantes a tratar cuando se graba audio digitalmente.

Teorema de muestreo.

Introducción al audio digital.

El origen del muestreo o sampleo proviene de varias fuentes y ocurre en diferentes disciplinas. Aunque la mayoría de los ingenieros reconocemos a Harry Nyquist como el autor del Teorema de Muestreo, el cual fundó la disciplina de audio digital moderno, otros científicos formaron parte fundamental en desarrollar este teorema. Entre ellos encontramos a Claude Shannon, E.T. Whittaker, John Carson, V.A. Kotelnikov, K. Ogura y AugustinLouis Cauchy. Sin embargo, fue Nyquist quién clarificó la aplicación del muestreo a las ciencias de la comunicación y publicó su trabajo. En sus publicaciones comprobó que para lograr la completa reconstrucción de una señal, el ancho de banda de frecuencia requerido es proporcional a la velocidad de la señal y el ancho de banda mínimo es igual a la mitad del número de elementos codificados por segundo. En este caso, se refería específicamente a una señal que era mandada por un telégrafo. El teorema de muestreo dice que una señal continua limitada por bandas puede ser reemplazada por secuencias discretas de muestras sin que haya pérdida de información y describe cómo la señal original puede ser reconstruida a partir de las muestras. También, el teorema especifica que la frecuencia de sampleo debe ser por lo menos el doble de la frecuencia de la señal original.

Introducción al audio digital.

Señales de audio que contengan frecuencias entre 0 y S/2 pueden ser

representadas exactamente como S número de muestras por segundo. La frecuencia de muestreo debe ser por lo menos el doble de ancho de banda de la señal sampleada. Cuando la frecuencia más baja del ancho de banda en cuestión es cero, entonces el ancho de banda de la señal es igual a la frecuencia más alta.

La frecuencia de Nyquist.

Cuando aplicamos el teorema de muestreo a señales de audio, la señal de audio de entrada (input) es filtrada, específicamente pasa por un filtro pasa bajas. De esta manera tiene un límite de banda con respuesta de frecuencia que no sobrepasa la frecuencia de Nyquist (S/2). Idealmente se utiliza este filtro para que únicamente desaparezcan aquellas frecuencias que están por encima del rango auditivo del ser humano. Es entonces cuando ya pueden ser sampleadas las señales para definir valores de amplitud instantáneos.

Introducción al audio digital. La señal muestreada y limitada por bandas contiene la misma información que la señal original limitada por bandas. En la salida del sistema, la señal se reconstruye y no hay pérdida de información entre la señal de la salida y la señal filtrada de entrada. Desde el punto de vista de muestreo, la señal de salida no es una aproximación, sino que es exacta. A Con muestreo discreto, una señal limitada por bandas puede ser sampleada y reconstruida sin pérdida de información por muestreo. Aquí podemos ver la señal de entrada mientras está siendo sampleada. Es decir, esta es la representación gráfica del muestreo de una señal analógica al hacer la conversión a digital. B Una vez que se saca la muestra de la señal original, los valores numéricos de estas muestras deben de almacenarse o transmitirse. En esta representación gráfica no se percibe efecto de cuantización. C Esta es una representación en escalera de las muestras de la señal original . Esta representación nos es útil para entender las etapas por las que pasa la señal al pasar por el proceso de conversión análogo/digital . Al ver la escalera percibimos que una “curva” como tal, deja de existir. D Aquí podemos ver el resultado de cuando el filtro pasa bajas (LPF) interpola la escalera para reconstruir la forma de onda de la señal de entrada. Es por eso que entre la señal de entrada y la señal de salida no se pierde información. El teorema de muestreo dicta precisamente qué tan seguido se debe tomar una muestra de la forma de onda para que proporcione un ancho de banda determinado. Como dijimos anteriormente, la frecuencia de muestreo debe ser por lo menos el doble de la frecuencia de audio más alta para lograr muestreo sin pérdida de información. Por ejemplo, una señal de audio con una respuesta de frecuencias de 0 a 20Hz requeriría una frecuencia de muestreo de 40Hz. Sin embargo, un sistema puede utilizar la frecuencia de muestreo que sea necesitada; mientras que es de suma importancia el criterio del teorema de muestreo en el cual debemos limitar la señal de entrada a la mitad de la frecuencia de muestreo como valor máximo.

Introducción al audio digital. Una frecuencia que se pase de este valor va a ocasionar distorsión de aliasing. Aquí es donde se tiene que utilizar un filtro pasa bajas para quitar las frecuencias que sobrepasen el límite del valor de las frecuencias de entrada. También se coloca un filtro pasa bajas en la señal de salida para quitar frecuencias altas que se hayan creado internamente en el sistema. Este filtro es el que reconstruye la forma de onda original. Algo que debe quedar claro es que la reconstrucción de la señal original no se hace muestra por muestra, sino que se reconstruye por medio de la suma de la respuesta de varias muestras. También debemos recalcar que ningún sistema de audio analógico contiene un ancho de banda infinito, y el hecho de que sea finito es lo que nos muestra que, tanto la forma de onda continua de una señal analógica como las muestras de una señal digital, pueden representar la misma información. El hecho de incorporar límites de banda en la señal de audio no es tan grave como puede parecer. El límite superior de frecuencias puede ser extendido hasta donde sea necesario, siempre y cuando se aplique la frecuencia de muestreo adecuada. Dependiendo de la aplicación, podemos utilizar frecuencias de muestreo desde 8kHz hasta 192kHz. Sin embargo, entre más alta sea la frecuencia, más velocidad se necesitará de los circuitos del sistema digital, así como un sistema de almacenamiento sumamente rápido. Para el CD, por ejemplo, los inventores escogieron la frecuencia de 44.1kHz debido al tamaño deseado, duración y costo. Mientras que el Bluray puede emplear frecuencias de muestreo tan altas como 192kHz. En resumen, lo que dicta el teorema de muestreo, es lo siguiente: -Una señal limitada por bandas puede ser sampleada, transmitida, y procesada como valores discretos. Después puede ser des-muestreada y reconstruida. -No se pierde ninguna información limitada por bandas en el proceso de muestreo. -La forma de onda reconstruida es exactamente igual que la forma de onda de entrada limitada por bandas. -Un sistema digital debe determinar el valor numérico que utilizará para representar la amplitud de la forma de onda en cada tiempo de muestreo.

Introducción al audio digital.

Aliasing.

Podríamos definir a aliasing como una confusión de muestreo que puede ocurrir en la parte de grabación en cuanto a la cadena de señal. Lo que se crea son componentes de señal falsos, los cuales aparecen dentro del ancho de banda del audio y son imposibles de distinguir de las señales legítimas. Debido a que estos componentes son falsos, adoptan un nombre falso, es decir, un alias.

Introducción al audio digital.

Aliasing ocurre cuando no se respeta el teorema de muestreo, o la frecuencia de Nyquist. Es decir, este tipo de distorsión ocurre cuando la frecuencia de muestreo es menos del doble de la frecuencia más alta de la señal de entrada. Mientras más alta sea la frecuencia, menos puntos de muestreo existirán, por lo cual existirá distorsión en la conversión. Lo máximo que puede ser la frecuencia original es la mitad de la frecuencia de Nyquist, y de esta forma únicamente existirán dos puntos de muestreo; lo cual es considerado lo mínimo que puede existir para crear una muestra correcta. Si la frecuencia es más de la mitad de la frecuencia de Nyquist, entonces el mostrador (sampler) continuará creando muestras a su velocidad fija, y es ahí cuando las muestras crearán información falsa en forma de frecuencias alias. Mientras incrementa la frecuencia de audio, se crean más frecuencias alias que van decayendo. En la práctica, siempre y cuando esté bien diseñado el sistema digital, podemos evitar el aliasing completamente. Esto se debe a que, si la señal se limita por bandas por medio de un filtro pasa bajas (también conocido como filtro anti-alias), la frecuencia de Nyquist recibe cierta atenuación para asegurar que el contenido de la señal sampleada nunca sobrepase la frecuencia de Nyquist. La mayoría de los sistemas utilizan un sistema de sobre-muestreo (oversampling) en el convertidor A/D con un filtro pasa bajas sutil, frecuencia de muestreo inicial alta y un proceso de "decimación" para prevenir aliasing en la frecuencia de salida. Así, el sistema asegura que se respete el teorema de muestreo y no ocurrirá aliasing.

Introducción al audio digital.

Cuantizacion:

El muestreo y la cuantización son componentes fundamentales para la conversión a digital y juntos pueden caracterizar un evento acústico. Son variables que determinan respectivamente el ancho de banda y la resolución de esta caracterización. Cualquier evento variable puede ser medido. La medición de este evento únicamente es significante si el tiempo y el valor de la medición son

Introducción al audio digital. almacenados. El muestreo representa el tiempo de la medición, mientras que la cuantización representa el valor de la medición. En el caso del audio, la cuantización representa la amplitud de la forma de onda al tiempo de muestreo. Una forma de onda analógica puede ser representada por una serie de pulsos de muestreo y la amplitud de cada pulso contiene un número que representa el valor analógico en ese instante. La exactitud de medición dependerá de la resolución del sistema. Debido a que es un sistema finito, pueden introducirse errores de medición, al igual que limitar la resolución. Este error de cuantización puede compararse con lo que conocemos como noise floor, sin embargo, puede estorbar más ya que puede variar con la amplitud de la señal. Podemos referirnos a la cuantización como la técnica de medir un evento de audio analógico para crear un valor numérico. Un sistema digital utiliza el sistema numérico binario. El número de valores posibles lo determina el número de bits disponible para formar la representación de la información. Así como el número de dígitos en un voltímetro digital determina la resolución, el número de bits en una grabadora de audio determina lo mismo. Al número de bits disponibles nos referimos como palabra de información binaria (binary data word), por lo cual cuando hablemos de palabras en cuanto a cuantización o conversión digital, nos referimos al número de bits. Aunque el número de bits sí influye en la resolución, es un medidor bastante arbitrario. Lo que más influye en la resolución de la información es la calidad del convertidor A/D. Cabe mencionar que, ya que una forma de onda analógica tiene un número infinito de valores de amplitud y un cuantizador tiene un número finito de intervalos, el valor analógico entre dos intervalos únicamente puede ser representado por un sólo número asignado a un intervalo específico. Por esta razón, el valor cuantizado será solamente una aproximación del valor actual. Aquí es cuando hay que diferenciar entre el muestreo de una señal limitada por bandas y la cuantización. Es decir, mientras que el proceso de muestreo de una señal limitada por bandas es teóricamente un proceso en el cual no hay pérdida de información, el proceso de escoger un valor de amplitud a tiempo de muestreo no lo es.

Introducción al audio digital. No importando qué tipo de codificación, escala o código se utilice, en el proceso de cuantización no se podrá codificar perfectamente una función analógica continua.

Error de Cuantización.

Como mencionamos anteriormente, entre más bits existan, mayor pulsos de muestreo y, por lo tanto, mayor la aproximación a la señal original. Sin embargo, prácticamente siempre habrá un error asociado con la cuantización debido a que el número finito de intervalos de niveles de amplitud codificados en una palabra binaria nunca podrán realmente replicar el número infinito de amplitudes analógicas.

Introducción al audio digital.

En un sistema binario, el tamaño de la palabra determina el número de intervalos de cuantización disponibles y esto se puede representar elevando el número 2 a la potencia n; es decir, 2ⁿ. Por ejemplo, una palabra de 8 bits proporciona 2⁸=256 intervalos, etc. En algún momento, el error de cuantización llega a ser inaudible. La mayoría de los fabricantes han acordado que entre 16 y 20 bits logran una representación muy exacta. Sin embargo, eso no descarta el uso de palabras más largas o el uso de cualquier otro tipo de procesamiento para optimizar la cuantización y reducir el error de cuantización. Por ejemplo, el DVD puede utilizar palabras de 24 bits, por lo cual varios sistemas de grabación de audio utilizan la corrección de onda (noise shaping) para reducir el ruido de cuantización dentro del límite de bandas. Definamos al error de cuantización como la diferencia entre el valor analógico al tiempo de muestreo y el valor del intervalo de cuantización seleccionado. Al tiempo de muestreo, el valor de la amplitud se redondea al siguiente intervalo de cuantización. En el mejor de los casos, la forma de onda coincide con los intervalos de cuantización. En el peor de los casos, la forma de onda está exactamente entre los dos intervalos. Por lo tanto, el error se limita a un rango entre +Q/2 y -Q/2, en donde Q es un intervalo de cuantización, o 1 LSB. La elección entre un nivel y otro es el fundamento del mecanismo de la cuantización y ocurre en todas las muestras de un sistema digital. La magnitud del error siempre es igual a o menos que 1/2 LSB. Este error resulta en amplitud que está presente en cualquier señal de audio. Cuando la señal es grande, la distorsión es proporcionalmente pequeña y enmascarada por la misma señal. Sin embargo, cuando la señal es pequeña, la distorsión es proporcionalmente pequeña y puede llegar a ser audible. La relación entre la señal y el error de cuantización en un sistema digital lo podemos comparar a lo que es la relación entre la señal y el ruido en un sistema analógico. No es idéntico pero lo podemos comparar para entender mejor lo que es. La relación señal-error se conoce como S/E. La siguiente gráfica nos muestra la diferencia que puede llegar a existir entre los intervalos de cuantización y la forma de onda de la señal original. El valor de la amplitud se redondea al siguiente intervalo de cuantización. Hay que recordar que el error de cuantización a tiempo de muestreo es menos que o igual a 1/2 LSB.

Introducción al audio digital. Noise shaping: crear muestras de más (oversampling) para eliminar el error de cuantización. LSB: Least Significant Bit. Se refiere al bit menos signficante o a un intervalo de cuantización.

Introducción al audio digital.

Dither.

El dither es una técnica utilizada para “reparar” los efectos del error de cuantización. A lo que llamamos dither es a una pequeña cantidad de ruido aleatorio que no está correlacionado con la señal de audio. Este ruido se añade a la señal de audio antes del proceso de muestreo, lo cual hace que el proceso de cuantización se escuche mas “natural”.

Introducción al audio digital. Una vez que se incorpora el dither, la señal de audio es forzada a cambiar con respecto a los niveles de cuantización. En lugar de que ocurran patrones periódicos de cuantización en formas de onda consecutivas, cada ciclo ahora es diferente. Es así que el error de cuantización se des-correlaciona de la señal y los efectos del error se vuelven aleatorios hasta casi ser prácticamente inaudibles. Sin embargo, aunque haya reducción en la distorsión, el dither sí añade un poco de ruido en la señal de salida. Cuando el dither se aplica correctamente, el número de bits en un cuantizador determina el ruido de piso de la señal; sin embargo, el detalle de nivel de señal bajo no es limitado. Con señales complejas de gran amplitud existe poca correlación entre la señal y el error de cuantización, por lo cual el error es aleatorio y perceptivamente muy similar al ruido blanco analógico. Con señales de poco nivel y amplitud, el comportamiento del error cambia mientras se va correlacionando con la señal, y esto crea distorsión audible. El sistema de conversión debe suprimir cualquier característica audible del error de cuantización. Podemos incrementar el número de bits en la palabra de cuantización, lo cual resultaría en una reducción de amplitud de error de 6dB por bit adicional. Esto es poco práctico y poco económico ya que se necesitan demasiados bits para reducir la amplitud del error satisfactoriamente. Además, el error siempre será relativamente más significante en señales bajas y de poca amplitud. Por estas razones es que la técnica de dither es mucho más eficiente y práctica al querer reducir la amplitud del error de cuantización. A grandes rasgos, lo que ocurre cuando aplicamos dither es lo siguiente: • Consideremos una señal cualquiera con cierta amplitud representada por su forma de onda respectiva. • Después de la cuantización, la salida es una forma de onda burdamente cuantizada, lo cual demuestra que la cuantización está actuando como un limitador con parámetros extremos. • Este limitador logra que ocurra distorsión severa. • Se añade dither para que exista correlación entre la señal cuantizada y el ruido que estamos añadiendo. El resultado es muy diferente.

Introducción al audio digital. • La nueva señal de salida es una señal pulsante que guarda la información de la señal de audio. • La señal cuantizada sube y baja, como si fuera un switch, mientras que la entrada con dither varía. Lo que se graba es el valor promedio de la señal de entrada. Hay que recalcar que el dither no enmascara al error de cuantización. Lo que hace es que permite al sistema digital que codifique amplitudes más pequeñas al bit menos significante (LSB), así como un sistema analógico puede retener señales por debajo del ruido de piso. Una señal a la cual se le haya aplicado dither adecuadamente sobrepasará, por mucho, la relación señal-ruido de un sistema analógico. De la misma manera, una señal sin dither será inferior a un sistema analógico, particularmente las señales de poca amplitud. La conversión digital de alta calidad requiere de dither en el convertidor A/D. Aún con dither en el convertidor, es importante aplicar dither digital en los procesos de computadora para evitar efectos de re-cuantización. En la imagen siguiente podemos ver un plug-in de Dither utilizado en el software para masterización llamado Ozone de Izotope a la derecha se puede ver el medidor de bits y como se distribuye, de acuerdo a la profundidad de bits utilizada.

Introducción al audio digital.

Es importante aclarar que es imprescindible aplicar Dither cuando se pàsa por ejemplo de 24 Bits o más a 16 Bits o menos.

PCM (Pulse Code Modulation).

Introducción al audio digital.

Vamos a recopilar todo lo que llevamos del proceso de conversión a audio digital para ver en qué etapa es en la que entra el PCM y ver para qué nos sirve. Primero, se toman muestras de la señal analógica, las cuales se cuantizan y convierten a valor numérico antes de almacenamiento, transmisión o procesamiento. Sistemas secundarios como circuitos de dither, filtros anti-alias, convertidor A/D y moduladores de codificación de canal, constituyen la cadena de codificación de hardware. Existen varios sistemas moduladores de codificación, sin embargo, el sistema PCM es el más ilustrativo y funcional. Esto se debe a que logra el pre-procesamiento y post-procesamiento esencial para una grabadora digital de audio o para un procesador digital en tiempo real. Como mencionamos antes, existen varias técnicas para digitalmente codificar señales de audio. El propósito de codificar es para que la representación de audio analógico exista como información digital. La modulación es un medio de codificación con el propósito de transmisión o almacenamiento. Son muy familiares para nosotros las técnicas de modulación que existen para transmisión de radio. Estas son: AM (amplitud modulada) y FM (frecuencia modulada). Debido a que este tipo de modulación es continua, nos referimos a ella como modulación de parámetros de onda. En la modulación PCM, la señal pasa por muestreo, cuantización y codificación; por lo cual es modulación discreta y no continua. Al representar en código de pulso la amplitud analógica que se ha medido, es posible utilizar números binarios para representar la amplitud. El código de pulso se utiliza en el receptor para reconstruir la forma de onda analógica. Las palabras binarias que se utilizan para representar la amplitud de las muestras se codifican directamente en formas de onda de modulación de código de pulso (PCM).

Introducción al audio digital. Existen diversos tipos de modulación de pulso, entre los cuales podemos encontrar: • PWM: Modulación de anchura de pulso (Pulse Width Modulation) • PPM: Modulación de posición de pulso (Pulse Position Modulation)

• PAM: Modulación de amplitud de pulso (Pulse Amplitude Modulation) • PNM: Modulación de número de pulso (Pulse Number Modulation) Para estos tipos de modulación, únicamente se requiere de un pulso para representar el valor de amplitud. Sin embargo, en la modulación PCM se requiere de múltiples pulsos por muestra, lo cual nos da como resultado una señal muy robusta, ya que únicamente se requiere de la presencia o ausencia del pulso para leer la señal. También es posible que se requiera de un canal con un ancho de banda más alto para la modulación PCM. Este tipo de modulación fue concebida en 1937 por Alec Reeves. La calidad de una transmisión PCM depende de la calidad del muestreo y la cuantización, no de la calidad del canal. Además, dependiendo de la frecuencia de muestreo y de la capacidad del canal, varias señales PCM pueden ser combinadas y transmitidas con multiplexing de división de tiempo (time-division multiplexing).

Introducción al audio digital.

La sección de codificación de una grabadora PCM estéreo convencional consiste de amplificadores de entrada, generador de dither, filtros pasa bajas de entrada, circuitos de muestreo y retención, convertidores A/D, un multiplexer, procesamiento digital y circuitos de modulación, y un medio de almacenamiento digital. Este diseño es una aplicación práctica del teorema de muestreo, sin embargo no es el único diseño que hay. Es posible incorporar algunas etapas más, pero en este diagrama únicamente veremos los elementos principales. Como vimos anteriormente, a lo que nos referimos como dither es una pequeña cantidad de ruido que se añade a la señal de audio de entrada para quitar los efectos del error de cuantización. El dither analógico, el cual se aplica antes de la conversión A/D (por ejemplo en los grabadores DAT) hace que el convertidor haga transiciones adicionales de nivel que mantengan las señales de nivel bajo con modulación de anchura de pulso (PWM). Esto hace que el proceso de cuantización sea lineal y productos como distorsión armónica se conviertan en ruido de banda ancha. Por eso en este diagrama vemos como el generador de dither es incorporado al flujo de señal antes del convertidor A/D. Circuito de Muestreo y Retención (Sample and Hold).

Un circuito de muestreo y retención (S/H) cumple con dos operaciones simples pero críticas. Primero, toma muestras a velocidad periódica de la forma de onda analógica, aplicando el Teorema de muestreo. Segundo, mantiene el valor analógico de la muestra mientras el convertidor A/D deja salir la palabra digital correspondiente. Esto es sumamente importante, ya que si no se lleva a cabo este proceso, el valor analógico puede cambiar después del tiempo de muestra asignado y el convertidor A/D dejaría salir palabras digitales incorrectas. Las muestras tienen que ser capturadas en el tiempo preciso y el valor de retención debe de mantenerse dentro de la tolerancia. El circuito S/H generalmente está incorporado al convertidor A/D.

Introducción al audio digital.

Podemos ver en estas gráficas la conversión de una señal analógica a las muestras que pasarán al convertidor A/D. La primera gráfica representa la señal analógica, la segunda representa las muestras que se tomaron de la señal de entrada y la tercera representa la retención de la señal analógica. Jitter (Fluctuación.

Jitter es cualquier variación en el tiempo absoluto. Por lo cual puede existir variación en la señal sampleada. El jitter añade distorsión y ruido a la señal sampleada y tiene que ser limitado al reloj que prende o apaga el circuito de S/H (Muestreo y Retención). El jitter en el circuito de S/H debe ser menos de 200 picosegundos para permitir exactitud a 16 bits de una onda senoidal de 20kHz de completa amplitud, y menos de 100 picosegundos para permitir exactitud a 18 bits.

Introducción al audio digital. Únicamente así se lograría que los componentes del ruido caigan por debajo del ruido de piso de la cuantización.

Mientras que la diferenciación de tiempos en una señal analógica puede ser percibida como inestabilidad de tono (pitch), en una señal digital puede causar errores de bits en la corriente de bits y se puede percibir auditivamente como ruido o distorsión en la forma de onda de salida. Cabe mencionar que el jitter siempre está presente, pero su efecto y tolerancia dependen específicamente en dónde en la cadena de señal de procesamiento ocurre el jitter. Niveles altos de jitter no podrán prevenir errores en la transferencia de data, sin embargo, algunas interfaces o convertidores son más tolerantes que otras. Durante la conversión A/D o D/A es posible que hasta niveles bajos de jitter lleguen a ser perceptibles. El jitter se manifiesta como variaciones en los tiempos de transición de la señal. Alrededor de cada transición existe un período de variación o incertidumbre en el tiempo de llegada. A este rango le llamamos jitter de pico a pico (peak to peak jitter). El jitter puede ocurrir en el medio de almacenamiento, canal de transmisión, o circuito de procesamiento o regeneración como los convertidores A/D y D/ A. Puede ocurrir como variaciones aleatorias en las orillas de reloj o puede relacionarse a la anchura del pulso de reloj. Como mejor se describe el jitter es por medio de amplitud y frecuencia. El jitter aleatorio se representará en un espectro de banda ancha.

Introducción al audio digital. Cuando la información se reconstruye como una forma de onda analógica habrá incrementado el ruido de piso. El jitter periódico aparecerá como una sola línea dentro del espectro. Las bandas FM o cualquier ruido modulado aparecerá en la señal reconstruida y se distribuirá en cada lado de la frecuencia de la señal. Cuando ocurre jitter en frecuencias más bajas que la frecuencia de muestreo, se ocasiona un error en el tiempo, el cual depende de la amplitud y la frecuencia de la forma de onda de modulación. El picosegundo es la unidad de tiempo que equivale a la billonésima parte de un segundo, y se abrevia ps. Conversión analógica-digital. La conversion analogica digital es el proceso por el cual se convierten señales continuas a numeros discretos. Se realiza con un circuito integrado electronico conocido como convertidor anañogico a digital (ADC, por sus siglas en ingles), la operacion inversa es conocida como conversion digital a analogica. Para convertir una señal analogica a una digital, la señal tiene que pasar por los procesos de muestreo, cuantizacion y codificacion.

Muestreo: Consiste en tomar muestras periodicas de la amplitud de onda, la velocidad con la que se toma esta muestra, el numero de muestras por segundo, se conoce como frecuencia de muestreo. Segun el teorema de Nyquist para poder replicar con exactitud la forma de una onda es necesario que la frecuencia de muestreo sea superior al doble de la frecuencia maxima de la señal analogica. Cuantificacion: en este proceso se mide el nivel de voltaje de cada muestra y a continuacion se le asigna un margen de valor de una señal analizada a un unico nivel de salida. Este proceso puede producir una señal indeseada llamada error de cuantificacion. Codificacion: es la traduccion de los valores obtenidos en la cuantificacion a valores binarios. Estos 3 procesos los realiza el ADC. El convertidor digital tiene sus propias caracteristicas que deben conocerse.

Introducción al audio digital. Resolucion: la resolucion indica el numero de valores discretos que el convertidor puede producir sobre el intervalo de valores analogicos. La resolucion es usualmente una potencia de dos. Por ejemplo un ADC con una resolucion de 8 bits puede codificar una señal en 256 niveles, es decir 2 elevado a la 8. Estos valores se pueden representar en intervalos de 0 a 255 o -127 a 128 dependiendo de la aplicacion. Velocidad de muestreo: El ADC tiene una velocidad maxima de muestreo que limita la frecuencia de las señales que se pueden convertir, ya que el ADC no puede hacer las conversiones instantaneamente al valor de la entrada tiene que mantenerse constante al tiempo que se hace la

conversion. Un circuito interno llamado de muestra y retencion realiza esta tarea. Estructuras ADC El ADC de conversion directa o flash: Es un ADC que consiste de una banco de comparadores, cada uno encendiendose a un voltaje determinado. El banco de comparadores alimenta un circuito logico que genera un codigo para cada intervalo de voltaje.

Introducción al audio digital. La conversion directa es muy rapida pero usualmente solo tiene 8 bits de resolucion (8 comparadores) o incluso menos. Se utilizan cuando se requieren conversiones muy rapidas pero no es necesaria una alta calidad.

El ADC de aproximaciones sucesivas: funciona constantemente comparando el voltaje de entrada con el de salida de un convertidor digital analogico interno. En cada paso de este proceso un valor binario de la

proximacion es guardado en un registro de aproximaciones sucesivas (SAR). El SAR utiliza un voltaje de referencia que es el valor maximo que el ADC puede convertir. Por ejemplo para un voltaje de 60 volts con 100 volts de referencia en el primer ciclo de reloj, 60 volts es comparado con 50 (el voltaje de la salida DAC interno, cuando la salida es 1 seguido por ceros) como 60 es mayor que 50 el voltaje sera positivo y el bit mas significativo (MSB) sera 1, en el segundo ciclo de reloj la entrada es comparada con 75 volts esto es el punto medio entre 50 y 100 y la salida en el DAC cuando tiene 11 seguido de ceros.

Introducción al audio digital. Ya que 60 es menor que 75 la salida en el comparador es negativa y el segundo bit es cero, y asi sucesivamente. Como las aproximaciones son sucesivas y no simultaneas se requiere un ciclo de reloj para cada bit de resolucion deseado. La frecuencia de reloj debe ser igual a la frecuencia de muestreo multiplicada por los bits de resolucion deseados.

El ADC de comparacion de rampa: produce una señal diente de sierra despues rapidamente cae a cero. Cuando la rampa comienza a bajar un reloj comienza a contar. Cuando el voltaje de la rampa es igual al de la entrada se enciende un comparador y el valor del reloj se graba. Estos convertidores son sensibles a los cambios de temperatura.

Conversion Digital-Analogica Al igual que con la conversion analogica a digital hay varias maneras para transformar una señal digital a analogica las mas comunes son:

Introducción al audio digital.

El modulador de ancho de pulso: Un voltaje estable para por un filtro pasabajas analogico durante un tiempo determinado por la entrada digital. El DAC de peso binario: contiene un resistor por cada bit del DAC conectados a un punto de suma.

Estos voltajes suman el voltaje de la salida. El DAC de escalera R”R: es un DAC de peso binario que utiliza una estructura repetitiva en forma de casacada de R y 2R esto aumenta la precision pero aumenta el tiempo de conversion.

Las preferencias de los DAWs.

Introducción al audio digital. Las estaciones de trabajo digitales (DAW), tienen la capacidad de retrasar la señal para que aprovechemos el rendimiento del mismo al máximo. Por lo tanto generalmante se utiliza un Buffer Size pequeño para grabar, usualmente en 256 samples o incluso en algunos Daw podria setearse a 64 samples (siempre y cuando el sistema lo permita). Esto es importante por ejemplo, cuando nos encontramos en la situación de tener que grabar a un cantante y la música ya está grabada, de este modo evitaremos cualquier retraso que se produzca en el sistema de monitoreo. De todas formas cabe aclarar que aunque los vendedores de interfaces de audio aseguren una “Latencia cero”, debemos comprender que eso es imposible en el mundo del audio digital, ya que debido a los procesos de conversión, podriamos decir que una interface siempre tiene latencia, que no sea perceptible para nuestra percepción es otra cosa. En el caso de la mezcla, necesitaremos otra vez setear nuestro buffer size en 1024 samples, algunos Daws estan ofreciendo incluso 2048 samples, de modo que el Daw retrasará toda la señal para que nuestro sistema tenga mas tiempo para procesar, y de esta manera podremos usar mas Plugins.

Medios de almacenamiento:

HDD o Disco duro: Es un dispositivo electromagnético y mecánico, que almacena la información como señales magnéticas. Esta conformado por uno o mas discos magnéticos rígidos y tienen cabezales de lectura/escritura, su capacidad hoy en día asciende los 3 Terabyte.

Introducción al audio digital. Interfaz: el medio de comunicación entre el disco duro y la computadora. Puede ser IDE/ATA, SCSI, SATA, USB, Firewire, Serial Attached SCSI, aunque el mas usado en la actualidad es SATA.

CD, DVD y Bluray: las unidades ópticas sirven para leer o grabar también y todas son de 12cm de diámetro. CD Capacidad: 650/700 MB 800MB (poco recomendable). DVD5: 4.7 Gigabytes. Una cara y una capa simple. DVD9: 8.5 Gigabytes una cara, capa doble. DVD10: 9.4 Gigabytes dos caras, capa simple en ambas. DVD14: 13.3 Gigabytes dos caras, capa doble en una, capa simple en la otra. DVD18: 17.1 Gigabytes dos caras, capa doble en ambas. Bluray Capacidad 25GB si es doble capa 50GB.

Pen drive: dispositivo de almacenamiento que utiliza memoria flash, Se pueden encontrar en el mercado fácilmente memorias de 1, 2, 4, 8, 16, 32, 64, 128 y hasta 256 GB o más.

Introducción al audio digital.

Las unidades de estado sólido o SSD: tienen el mismo uso que los discos duros y emplean las mismas interfaces, pero no están formadas por discos mecánicos, sino por memorias de circuitos integrados para almacenar la información. El uso de esta clase de dispositivos anteriormente se limitaba a las supercomputadoras, por su elevado precio, aunque hoy en día ya son muchísimo más asequibles para el mercado doméstico. Su capacidad hoy en día llega hasta 1 Terabyte.

Cálculo de almacenamiento: Repasemos lo visto en clase, aquí tenemos un ejemplo de una cancion de 3 minutos grabada en stereo a 16bits 44.1KHz, (Calidad de CD Audio)

Diferentes tipo de protocolos y sus velocidades: Conexiones de dispositivos externos $ ▪$ Firewire 800: 100 MB/s $ ▪$ Firewire s1600: 200 MB/s $ ▪$ Firewire s3200: 400 MB/s $ ▪$ USB 1.0: 0,19 MB/s $ ▪$ USB 1.1: 1,5 MB/s $ ▪$ USB 2.0: 60 MB/s Conexiones de dispositivos externos de alta velocidad

Introducción al audio digital. $ ▪$ e-SATA: 300 MB/s10 $ ▪$ USB 3.0: 600 MB/s11 $ ▪$ Thunderbolt: 1200 MB/s12 Conexiones para tarjetas de expansión $ ▪$ PCI Express 1.x (x1): 250 MB/s $ ▪$ PCI Express 2.0 (x1): 500 MB/s $ ▪$ PCI Express 1.x (x8): 2000 MB/s $ ▪$ PCI Express 2 (x8): 4000 MB/s $ ▪$ PCI Express 1.x (x16): 4000 MB/s $ ▪$ PCI Express 2 (x16): 8000 MB/s Conexiones de almacenamiento interno $ ▪$ ATA: 100 MB/s (UltraDMA 5) $ ▪$ PATA: 133 MB/s (UltraDMA 6) $ ▪$ SATA I: 150 MB/s $ ▪$ SATA II: 300 MB/s $ ▪$ SATA III: 600 MB/s

8 Clavijas y conectores digitales. Las conexiones digitales no se pueden describir de manera tan simple, una interfaz digital es mucho más compleja que una analógica, ya que no sólo necesita transportar audio a uno o más canales, sino que también debe garantizar que la información sea decodificada correctamente cuando ésta llegue a  su destino. El tipo de problemas que emergen entre diferentes formatos de conexión incluyen consideraciones como las siguientes: cuántos bits están descritos en cada muestra (16, 20, 24), o si el torrente de datos digitales son codificados primero como LSB (Least Significant Byte) o MSB (Most Significante Byte), o dónde comienza y termina cada muestra, y que parte del torrente de datos lleva el audio de la derecha o el de la izquierda, así que hay que tener mucho cuidado con esto. Un aspecto comúnmente ignorado, es que la velocidad de transferencia de información, a la que se mueven los bits a través del cable, es mucho mayor que la velocidad de la señal de audio misma, lo que tiene dos consecuencias: una es que le queda mucho espacio para enviar subcódigo (información adicional mezclada en la señal como el número de canción), y el otro es que la señal digital no sólo necesita conectores diferentes, sino también cables diferentes a los utilizados por el equipo analógico para evitar

Introducción al audio digital. que se corrompa el torrente de información enviada (hablaremos de esto en un momento más). En el pasado, en los inicios del audio digital, cada fabricante de equipo desarrollaba sus propios conectores, lo que desembocaba a que el comprador se viera obligado a comprar todo su equipo digital de la misma marca, lo que hacía todo mucho más complicado, porque los ingenieros tenían que comprender las especificaciones de cada compañía. Afortunadamente hoy todo se reduce a formatos de dos familias básicamente: los estéreo o de dos canales, llamados AES/EBU (ahora AES3) y S/PDIF; y los multicanal, ADAT y TDIF.     El cable digital AES3 es frecuentemente confundido con un ordinario cable de micrófono por el simple hecho de que ambos cuentan con conectores XLR… ¡pero cuidado! Existe una gran diferencia entre ellos, como sugerí unas líneas arriba. Una de las principales características a observar que hacen a un cable diferente del otro es la impedancia; un cable AES3 tiene una impedancia de 110 ohms con una tolerancia de ±20 por ciento (o sea de 88 a 132 Ohms aproximadamente), cuando uno de audio tiene una impedancia de entre 45 y 70 ohms.  Probablemente esto no sea un gran problema en distancias cortas, sin embargo, en el caso opuesto, cuando uno debe tirar cable por veinte metros, por ejemplo, la consecuencia es jitter, que veremos mas adelante, que provoca ruidos extraños como clicks u otros. Conclusión… no es conveniente usar cables de micrófonos, sino AES3, los que mantendrán una buena señal por más de cien metros. Si uno observa las entradas y salidas de una consola digital en el panel trasero, podrá darse cuenta que si éstas son digitales, serán del tipo AES3, con conectores XLR. Estas entradas pueden ser utilizadas de diferentes maneras y es recomendable consultar el manual del equipo, pero hay que recordar que son señales estéreo o de dos canales. Alternativamente, la consola o interface, puede tener entrada y salida S/PDIF. ¿Qué es S/PDIF? Este es un formato el cual envía y recibe señal por medio de dos tipos de conexión: coaxial y óptica. El primero debe tener una impedancia de 75 Ohms y usa conectores desbalanceados RCA. Una vez más, es importante usar el cable con las especificaciones correctas, ya que viendo una entrada RCA uno puede tender a usar cualquier cable de audio, pero como un mismo cable lleva la señal estéreo, necesitamos el correcto. AES3 o AES/EBU (Stereo o de dos canales).

Introducción al audio digital.

S/PDIF (Stereo o de dos canales).

ADAT (Multicanal).

TDIF-1 (Multicanal).

Introducción al audio digital.

Protocolos de transmisión: Un protocolo de audio digital es un protocolo de comunicación (un estándar) que permite transmitir en tiempo real la señal digital entre dos sistemas digitales. Los protocolos más utilizados son: $ 1.$ Protocolo AES/EBU. Utiliza una interfaz RS-422 de dos canales con líneas balanceadas que acaban en conectores XLR-3 o D-sub (conector multipin que utilizan, por ejemplo, los cables SCSI). $ 2.$ Protocolo AES3-ID. $ 3.$ Protocolo S/PDIF. Utiliza el formato de interfaz digital desarrollado por Sony y Phillips. En esencia, es una versión del protocolo AES/EBU, sin embargo, utiliza no balanceada y, por tanto, conectores RCA o fibras ópticas. Este protocolo se utiliza con el formato DAT y en los lectores de CD. $ 4.$ Protocolo SDIF-2. Utiliza un formato de interfaz digital Sony, con líneas desbalanceadas de 75 ohms y conectores BNC. El protocolo SDITF-2 es utilizado por los formatos ditilas basados en cinta magnética digital de vídeo que utilizan el códec PCM. $ 5.$ Protocolo MADI. $ 6.$ Protocolo IEC958. $ 7.$ Protocolo MIDI. $ 8.$ Protocolo OpenSound Control (OSC).

Archivos de Mac y Windows.

Introducción al audio digital.

.AIFF (Audio). .MOV (Audio y Video).

.WAV o WAVE (Audio). .AVI (Audio y Video. Algunos formatos de audio y video comprimidos:

Wordclock:

Introducción al audio digital.

En los estudios profesionales siempre veremos un dispositivo de Wordclock, A diferencia de los equipos de audio analógicos, los equipos de audio digital se deben sincronizar los relojes, cuando las señales de audio digital se transfieren de un dispositivo a otro, en caso contrario, puede que las señales no se reciban correctamente y que se produzcan artefactos sonoros, fallos o clics. La sincronización se consigue utilizando lo que se conoce como wordclock, que es una señal de reloj de máxima calidad. Para sincronizar todas las señales de audio digital en un sistema. Es importante aclarar que los wordclocks no son lo mismo que un código de tiempo SMPTE/EBU o MTC, que normalmente se utiliza para sincronizar equipos de cinta, secuenciadores MIDI, etcétera. La sincronización Wordclock se refiere a la sincronización de los circuitos de procesamiento de audio digital dentro de cada dispositivo de audio digital. En un sistema de audio digital normal, un dispositivo funciona como wordclock maestro, y el otro dispositivo funciona como wordclock esclavo,. Las señales Wordclock se pueden distribuir a través de cables especiales, normalmente cables con conectores BNC, o derivados de conexiones de audio digital, incluyendo formatos AES/EBU, ADAT, y Tascam. Si se conecta al mixer utilizando sólo entradas y salidas analógicas, no se precisa de ningún ajuste wordclock especial, y el mixer se puede ajustar para utilizar su propio wordclock generado internamente. Si se conecta a otros equipos digitalmente, sin embargo, debe decidir qué dispositivo se debe utilizar como wordclock maestro y qué dispositivos puede utilizar como esclavos.   El mixer o interface se puede utilizar como wordclock maestro a 44.1 kHz, 48 kHz, 88.2 kHz, o 96 kHz, o se puede esclavizar a una fuente wordclock externa. Las señales de wordclock externas se pueden recibir a través de las entradas de ranura, las entradas digitales 2TR, el puerto CASCADE IN, o el conector BNC WORD CLOCK IN especial.

Introducción al audio digital. En un sistema donde todos los dispositivos comparten un wordclock en común, es importante que todos los dispositivos se activen aunque no se utilicen. Primero active el wordclock maestro, y a continuación los esclavos. Cuando cierre el sistema, primero desactive los esclavos y a continuación los maestros. Antes de utilizarlo, asegúrese de que los wordclock esclavos estén conectados correctamente al wordclock maestro. La mayoría de los dispositivos tienen indicadores de panel frontal para indicarlo. Wordclocks externos de finalización Las señales wordclock distribuidas mediante cables BNC se deben terminar correctamente, en caso contrario, pueden producirse interferencias y errores de sincronización. Idealmente, debería realizar una conexión de wordclock separada para cada dispositivo y terminarla. Los siguientes ejemplos muestran dos formas de distribución de señales wordclock y cómo se debería aplicar la terminación en cada caso. Normalmente, el conmutador WORD CLOCK 75Ù ON/OFF debería ajustarse a ON. El ajuste OFF proporciona soporte para los dispositivos de fuentes de wordclock con especificaciones especiales. Distribución en estrella En este se utiliza una casilla de distribución especial wordclock para proporcionar Señales wordclock a cada dispositivo individualmente. La terminación se aplica a todos los dispositivos.                                        --- ESCLAVO A GENERADOR WC -----  ----ESCLAVO B                                        --- ESCLAVO C Distribución en cadena En este la señal wordclock se distribuye en forma de “cadena”, con cada señal wordclock alimentando la siguiente. Este método de distribución no se recomienda a los Sistemas más grandes. GENERADOR WORDCLOCK        ---- ESCLAVO A   -------ESCLAVO B-------  ETC.             OUT----                                  IN------------ OUT      IN-------------OUT

Introducción al audio digital. Un Wordclock de calidad por ejemplo el de la foto que es un Antelope, puede contener un reloj atomico, de esta manera, el usuario se asegura una máxima calidad en el circuito de muestreo y retención, por ende la calidad del audio mejora.

Bibliografia complementaria: El arte del audio digital, by John Watkinson. ISBN: 978-84-86984-87-8 Audio Digital de Pablo German Bas. ISBN 9789875263017 Digital Audio Explained: For The Audio Engineer, Nika Aldrich.