Television

Monografía Científica Autores: J. G. Viera Santana, J. Portillo Meniz, D. Rodríguez Esparragón, J. C. Hernández Haddad

Views 131 Downloads 0 File size 4MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Monografía Científica

Autores: J. G. Viera Santana, J. Portillo Meniz, D. Rodríguez Esparragón, J. C. Hernández Haddad y J. Castillo Ortiz

Universidad de Las Palmas de Gran Canaria 2007

Monografía Científica

© José Guillermo Viera Santana, Jorge Portillo Meniz, Dionisio Rodríguez Esparragón, Juan Carlos Hernández Haddad y Jesús Castillo Ortiz.

Las Palmas, 2007.

Índice de contenidos.

Digitalización y compresión de la señal de Televisión

I

Índice de contenidos.

II

Índice de contenidos

Capítulo I. Introducción.

1

1.1. Reseña histórica.

2

1.2. La TV Digital y sus ventajas.

4

Capítulo II. Introducción a la televisión digital.

6

2.1. Introducción

7

2.2. Muestreo

7

2.2.1. Aliasing

9

2.3. Cuantificación

10

2.4. Codificación

12

2.4.1. Formato de codificación.

13

2.4.1.1 Codificación de las señales compuestas.

13

2.4.1.2. Codificación de componentes.

14

2.5. La norma UER-SMPTE-OIRT.

15

2.5.1. Señales codificadas.

16

2.5.2. La frecuencia de muestreo.

16

Digitalización y compresión de la señal de Televisión

Índice de contenidos.

Capítulo III. Fundamentos de la Compresión de Video MPEG-2.

III

21

3.1. Introducción.

22

3.2. Entropía y redundancia.

22

3.3. Codificación de Longitud Variable (VLC).

24

3.3.1. Codificación de Huffman.

24

3.3.2. Codificación Run Length.

26

3.4. Compresión MPEG-2.

27

3.5. Redundancia espacial.

27

3.5.1. Codificación espacial.

28

3.5.1.1. La Transformada del Coseno Discreto.

29

3.5.1.2. Cuantificación.

30

3.5.1.3. Codificación por Entropía.

32

3.6. Redundancia temporal. 3.6.1. Codificación temporal

32 33

3.7. Redundancia estadística.

35

3.8. Codificador hibrido DCT/DPCM.

35

3.9. Compensación de Movimiento.

36

3.10. Imágenes en MPEG-2.

38

3.10.1. Imágenes I.

38

3.10.2. Imágenes P.

39

3.10.3. Imágenes B.

39

3.11. Codificación en forma entrelazada o progresiva.

39

3.12. Estructura por cuadro y campo.

40

3.13. Secuencia de imágenes en MPEG-2.

42

3.14. La estructura 4:4:4.

43

3.15. La estructura 4:2:2.

44

3.16. La estructura 4:2:0.

45

Capítulo IV. Procesos en la Compresión de Vídeo MPEG-2.

47

4.1. Introducción.

48

4.2. Procesos en la Compresión de Video MPEG-2.

48

4.3. El proceso DCT (Transformada del Coseno Discreto).

50

4.4. Barrido en Zig Zag.

58

4.5. Diagrama de un Codificador MPEG-2.

59

Digitalización y compresión de difusión de la señal de Televisión

Índice de contenidos.

4.6. Diagrama de un Decodificador MPEG-2

Capítulo V. Estándar MPEG-2.

IV

61

63

5.1. Introducción.

64

5.2. Características principales del estándar de vídeo MPEG-2.

65

5.3. Perfiles y Niveles en MPEG-2.

67

5.4. Codificación MPEG-2 de Audio.

70

5.4.1. Principios de la compresión de audio MPEG.

71

5.4.2. Las capas de la codificación de audio MPEG.

74

5.4.3. Formato general de la trama MPEG de audio.

76

Capítulo VI. Múltiplex y Flujo de Transporte MPEG-2.

78

6.1. Introducción.

79

6.2. Empaquetado PES. (Packetized Elementary Stream).

80

6.2.1. PES- Packet Header.

81

6.3. Múltiplex tipo “PROGRAM STREAM”.

85

6.4. Múltiplex tipo “TRANSPORT STREAM”.

87

6.4.1. Formación del “Transport Stream”

88

6.4.2. “Transport Packet”

89

6.4.2.1. Transport Packet Header.

90

6.5. Tabla de Asociación de Programas (PAT) y Tabla de Mapa de Programas (PMT). 6.6. Resumen de la formación del Flujo Transporte.

91 94

Capítulo VIII. Bibliografía.

97

8.1. Introducción.

98

8.2. Bibliografía.

98

8.3. Direcciones WEB.

99

Digitalización y compresión de difusión de la señal de Televisión

Capítulo 1. Introducción.

Capítulo I:

Digitalización y compresión de la señal de Televisión

1

Capítulo 1. Introducción.

2

CAPÍTULO 1. Introducción

1.1. Reseña histórica Desde hace ya algunas décadas, la tecnología digital se ha ido implantando en muchos de los campos del mundo de las telecomunicaciones y, el que aún hoy sigue siendo el principal medio de comunicaciones del mundo, la televisión, no se podía quedar atrás, ya que son cuantiosas las ventajas que ofrece la llamada Televisión Digital frente a la tradicional Analógica.

Podemos diferenciar dentro de un esquema general de la televisión, tres campos a los que la tecnología digital ha afectado de distinta forma y en diferentes etapas: ¾ Producción. Comprende aquellos pasos anteriores a que la señal salga del estudio (toma de imágenes, grabación, edición, postproducción, etc.) ¾ Transmisión. La señal se traslada desde el estudio (centro de producción) hasta repetidores primarios. ¾ Difusión. La señal llega al público. Así pues, la primera etapa en digitalizarse fue, sin lugar a dudas, la de producción, ya que, por otra parte es la más susceptible a cambios (mientras a los usuarios no se les Digitalización y compresión de la señal de Televisión

Capítulo 1. Introducción.

3

hiciera cambiar nada y la recepción de señal siguiera siendo analógica, da lo mismo cómo se cree en el estudio). En cuanto a la transmisión se comenzó por la transmisión digital del sonido, siendo la difusión (o radiodifusión) la última de las etapas en convertirse a digital.

También cabe diferenciar entre los diferentes sistemas de transmisión, ya que no ha ido al mismo ritmo la digitalización en TV vía cable, vía satélite o TV Terrestre, pero no nos detendremos en el estudio cronológico de implantación, sino en las técnicas utilizadas para conseguir la viabilidad de estos sistemas. Estos sistemas de trasmisión de televisión digital quedan englobados para Europa en el proyecto DVB, “Digital Video Broadcasting” (DVB-C para cable, DVB-S para satélite y DVB-T en el caso de la terrestre), el cual ha tomado como estándar de codificación digital el MPEG-2 que será tratado con profundidad más adelante. De lo que no cabe duda es que el paso a TV Digital se ha convertido en uno de los acontecimientos más importantes en área tecnológica del comienzo de este milenio.

Los primeros pasos que han permitido que las emisiones de televisión digital sean una realidad podemos fijarlos allá por el año 1987, cuando se crea el JPEG (Joint Photographic Experts Group) por parte de la Organización de Estandarización Internacional (ISO) y por la Comisión Electrotécnica Internacional (IEC) y cuyo director fue Hiroshi Yoshuda. La finalidad de este grupo de expertos era crear un estándar que permitiera disminuir la cantidad de espacio de almacenamiento requerido para las imágenes fijas. Ese mismo año, Leonardo Chiariglione, uno de los asistentes al encuentro JPEG, propone a Yoshuda la creación de otro grupo que se encargara de estandarizar la codificación digital de las imágenes en movimiento. Es así como surge el año siguiente, 1988, Comité Técnico Unido sobre Tecnologías de la Información, Subcomité 29, Grupo de Trabajo 11 (ISO/IEC JTC1/SC29/WG11), más conocido como MPEG (Moving Pictures Experts Group), bajo la dirección de Chiariglione y también bajo la tutela de las organizaciones ISO/IEC. La misión, entonces, de este nuevo grupo, era el desarrollo de estándares para la representación codificada de imágenes en movimiento, la información del audio adjunta a ella, y su combinación para la grabación y lectura en un medio de almacenamiento digital. El equipo comenzó su andadura con 12 miembros y no fue hasta casi cinco años después cuando, en 1993, salió a la luz su Digitalización y compresión de la señal de Televisión

Capítulo 1. Introducción.

4

primer gran resultado, el MPEG (ó MPEG-1, ya que en el año siguiente saldría el llamado MPEG-2).

Las diferencias entre estos dos estándares se verán a lo largo del trabajo punto por punto, pero se puede adelantar que el primero hacía un tratamiento estático de la imagen (aunque utiliza tanto compresión espacial, dentro de una misma imagen, como compresión temporal, entre imágenes sucesivas), el cual obtuvo su mayor aplicación en los CD-I y VCD (CD interactivos y video CD, no en transmisión de imágenes, sino en su tratamiento y almacenamiento). En cuanto al MPEG-2 se puede decir que en cierta forma completa a su predecesor y permite aplicaciones con vistas a la televisión, siendo, de hecho, la elección del proyecto europeo ya mencionado DVB (que se estaba desarrollando paralelamente) como estándar de codificación. Este proyecto tiene unas recoge

características

específicas

de

cómo

transmitir

las

señales

digitales

(modulaciones, etc.) que en ningún momento pasaremos a nombrar aquí, ya que eso es digno de ser desarrollado en otros trabajos, limitándonos aquí al proceso de digitalización y compresión anterior a la difusión de la señal.

1.2. La TV Digital y sus ventajas. En un tema tan en boga como la implantación de la TV digital, no es difícil encontrar mucha información por diversos medios, pero a veces esa información no está dada por personas expertas y puede llevar a confusión y ambigüedades.

Hasta el momento en nuestro país, hemos tenido siempre una televisión terrestre analógica y está previsto el apagón analógico (fin de emisiones de televisión analógicas) en el año 2010. Otra cuestión son las plataformas digitales que desde 1997 tenemos por medio de Vía Digital y Canal Satélite Digital (DVB-S). La implantación de estos sistemas se hace realmente atrayente por una serie de ventajas, de las cuales mencionamos las más significativas. 9 Permite transmitir varios programas ocupando el mismo espectro que utiliza la TV tradicional analógica para la transmisión de uno sólo (el cual ocupa casi Digitalización y compresión de la señal de Televisión

Capítulo 1. Introducción.

5

todo el canal). Esto es así gracias a la compresión de la señal, que en el caso analógico era imposible. 9 Asimismo, permite acompañar la imagen de muchos más canales de sonido (con la posibilidad, por ejemplo, de recibir distintos idiomas de un mismo programa). 9 La definición de la imagen mejora notablemente evitando las interferencias y pérdidas en la señal durante su transmisión (señal prácticamente exenta de ruido). 9 Los servicios Multimedia que se pueden desarrollar son innumerables (acceso a INTERNET, interoperatividad del usuario, etc.). 9 Posibilidad de transmisión de múltiples datos auxiliares (el teletexto de los canales analógicos se nos queda verdaderamente pobre ante de las posibilidades de información en la TV Digital) 9 Creación de efectos de 2D y 3D y otros efectos especiales en la imagen imposibles de imaginar con un sistema analógico. 9 Realizar múltiples copias de las señales sin degradación alguna (muy útil en los estudios). 9 Posibilidad de estandarización a nivel internacional de esta nueva realidad para una mayor compatibilidad entre países que en la TV analógica (lo cual se ha conseguido, al menos en la digitalización, aunque no en la transmisiónÆ Ej.: el proyecto DVB está “sólo” vigente en Europa).

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión.

Capítulo II:

Digitalización y compresión de la señal de Televisión

6

Capítulo 2. Digitalización de la señal de televisión.

7

CAPÍTULO 2. Digitalización de la señal de televisión. 2.1. Introducción. La introducción de la televisión digital permite obtener una notable mejora en la calidad de la señal de televisión. Se mejora en la calidad de la señal de transmisión, el tratamiento de la imagen y la multicopia magnética. La digitalización es el proceso a través del cual se obtiene una señal de naturaleza digital a partir de una señal analógica. El proceso es el mismo para cualquier tipo de señal (audio, vídeo, etc...). Esta operación se realiza en tres pasos bien diferenciados los cuales se detallan a continuación.

2.2. Muestreo. Con esta operación se consigue obtener niveles de la señal analógica en intervalos regulares de tiempo, es decir, se toma una muestra. El dispositivo que muestrea la señal se compone de dos elementos, un circuito que mantiene y genera las muestras, y un reloj que define los instantes en que las muestras son obtenidas.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión.

8

Analíticamente esta operación equivale a multiplicar la señal analógica por un tren de impulsos, los cuales se modulan en amplitud por la amplitud de la señal analógica. Esta operación se ilustra detalladamente en el siguiente ejemplo:

Señal analógica:

e(t ) = A ⋅ sen( wt ) −

Señal muestreadora (tren de impulsos):

A ⋅ cos( 2 wt ) 2

s (t ) =

+∞

∑ δ (t − nT )

n = −∞

E (t)

S (t)

Figura 2.1. Señal a muestrear.

Figura 2.2. Señal muestreadora.

Señal muestreada PAM (Pulse Amplitud Modulated):

Señal P. A. M.

Figura 2 .3. Señal muestreada.

En el dominio de la frecuencia el muestreo equivale a obtener una réplica del espectro de la señal analógica ubicado en cada una de las frecuencias múltiplas de la frecuencia de muestreo: S (f)

E (f)

Bw

SM(f)

Fs

2·Fs

Bw

Fs

Figura 2.4. Representación espectral de efecto del muestreo. Digitalización y compresión de la señal de Televisión

2·Fs

Capítulo 2. Digitalización de la señal de televisión.

9

En este proceso aparece un parámetro fundamental que definirá la transmisión de la señal. Éste es la frecuencia de muestreo. En

la

práctica

no

se

pueden

utilizar

velocidades

de

muestreo

indiscriminadamente altas, ya que ésta determina la cantidad de información que se envía por segundo, y por tanto el ancho de banda necesario para su transmisión. En cualquier canal de transmisión, el costo por Mhz es elevadísimo, resulta pues fundamental conocer cual es la frecuencia de muestreo mínima para poder enviar la señal con garantía de su correcta reconstrucción. Nyquist estudió esta problemática y determinó a partir del análisis del espectro de la señal muestreada que la frecuencia mínima de muestreo debe ser el doble del ancho de banda de la señal a muestrear, para poder recuperar de forma íntegramente la señal original a partir de la señal muestreada.

2.2.1. Aliasing. El efecto de “aliasing”, se produce cuando se utiliza una frecuencia de muestreo inferior al doble del ancho de banda de la señal a muestrear, o sea, cuando no se cumple el Criterio de Nyquist. Este efecto provoca un solapamiento entre los espectros de muestras consecutivas, impidiendo la recuperación de la señal original

El aliasing es un efecto indeseable, causante de que señales continúas distintas se tornen indistinguibles cuando se les muestrea digitalmente. Su efecto se traduce en un solapamiento entre muestras diferentes de la señal. Cuando esto sucede, la señal original no puede ser reconstruida de forma unívoca a partir de la señal digital.

No hay solapamiento entre muestras Figura 2.5. Señal en banda

Figura 2.6. Frecuencia de muestreo ≥ 2 * BW Î No aliasing

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 10

Solapamiento entre muestras Figura 2.7. Frecuencia de muestreo < 2 * BW Î aliasing

2.3. Cuantificación. El siguiente paso para la digitalización, una vez muestreada la señal, consiste en cuantificar los valores de cada muestra. En este proceso el valor numérico de la muestra se aproxima a un valor dentro de un número finito de amplitudes posibles. Evidentemente se introduce una distorsión por el error que se comete al aproximar, que es lo que se conoce como error o ruido de cuantificación. La curva que caracteriza a un cuantificador es la siguiente: Q (x) Yk+1 Yk -Xsc

∆ Xk

Xsc X Xk+1

Figura 2.8. Curva de cuantificación.

En esta gráfica podemos distinguir los siguientes parámetros: · xsc: valor de sobrecarga. Valor máximo de la señal a muestrear. · xk: Nivel o umbral de decisión. Valor entre intervalos sucesivos. · yk: Nivel de representación o de reconstrucción. Valor a que se aproximan todos los valores comprendidos entre xk y x(k+1). · ∆: Escalón de cuantificación. Es el tamaño de cada intervalo.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 11

Como cada nivel de reconstrucción se va a representar mediante un código binario, el número de niveles será siempre una potencia de 2, de forma que: L = 2n es el número de niveles;

n = log2·L es el número de bits

Hay un error inherente al proceso de cuantificación que se define como la diferencia entre la entrada y la salida del cuantificador: q = x-Q(x) donde qmax = ± ∆/2

Cuando los valores de las muestras a la entrada varían con el tiempo, la diferencia q(t)=x(t)-Q[x(t)] se conoce como ruido de fondo.

Un parámetro importante en este proceso es la relación señal a ruido (SNR) de cuantificación que se define como:

( SNR )

q

=

x q

2

2

( SNR )

q

= 10 ⋅ log

x q

2

2

Se admite generalmente que un valor aceptable para la relación señal a ruido de una señal de vídeo es de 45 dB.

La cuantificación puede ser uniforme o no uniforme, con el fin de mantener una SNR constante, ya que el error que se comete para valores pequeños es mayor que el que se comete para valores grandes de señal:



Figura 2.9. Curvas de cuantificación uniforme y no uniforme.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 12

Figura 2.10. Ejemplo de error de cuantificación

2.4. Codificación. Tras cuantificar las muestras de una señal, éstas se representan mediante secuencias de bits de longitud fija denominados palabras código o caracteres. Sabemos que con n bits se pueden representar L = 2n niveles. Se pueden asignar cualquier combinación de n bits a cada nivel de cuantificación con la única condición de que no hayan dos niveles con la misma palabra código. Lo normal es tratar con códigos simétricos que asignan el primer bit para indicar el signo de la muestra y los restantes para la magnitud. Si el primero es “1” la muestra es positiva y si es “0” la muestra es negativa. [2] Q (x) 111 110

Yk+1 101

Yk 100

-Xsc 000 001

Xk

Xsc Xk+1

X

010 011

Figura 2.11. Curva de codificación.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 13

2.4.1. Formato de codificación. Para nuestro caso particular, señales de televisión, hay dos formatos de codificación, gozando cada uno de ellos de partidarios y detractores.

2.4.1.1 Codificación de las señales compuestas. Esta solución propone digitalizar las señales compuestas existentes (NTSC, PAL, SECAM). No se evita el problema de las distintas normas de televisión y el del intercambio de programas. Tras la conversión digital/analógico obtenemos de nuevo las señales NTSC, PAL y SECAM. Un segundo problema es que a la hora del montaje de programas se debe respetar la secuencia de 4 y 8 campos para NTSC y PAL.

La ventaja es que un equipo de este tipo se puede implantar sin la menor dificultad en los estudios analógicos existentes sin codificar o decodificar la señal original, pero esto supone sólo una ventaja durante la fase de la transición de los estudios o equipos de producción analógicos a digitales. Hay dos configuraciones posibles, según la fase en que nos encontremos: A. Configuración durante la fase de transición. Pueden ser necesarias varias conversiones A/D y D/A. PROCESADO DIGITAL FUENTE DE IMAGEN

CODIFICADOR

AD

NTSC,PAL,SECAM

DA

AD NTSC,PAL,SECAM

Figura 2.12. Configuración en fase de transición.

Digitalización y compresión de la señal de Televisión

DA

NTSC PAL SECAM

Capítulo 2. Digitalización de la señal de televisión. 14

B. Situación en un estudio digital completo. Es necesario un único proceso de conversión A/D y D/A. Cada fuente tiene su propio codificador. PROCESADO DIGITAL

R FUENTE DE IMAGEN

G

CODIFICADOR

ADC

DAC

B

NTSC PAL SECAM

NTSC,PAL,SECAM

Figura 2.13. Configuración en un estudio digital completo.

2.4.1.2. Codificación de componentes. Con este método se digitalizan las tres señales, Y, K1(R-Y) y K2 (B.Y) en las que k representa un factor de multiplicación determinado por las características del sistema digital.

Las ventajas son, por un lado, que se posibilita la existencia de un método compatible para los tres sistemas de televisión. Se hace posible el intercambio internacional de imágenes digitales. La codificación podría realizarse en el extremo de la cadena de producción, justo antes del emisor. No se necesita más de un codificador de televisión. Por otra parte, se resuelven

todas las dificultades inherentes a la

secuencia de campos PAL y NTSC. La luminancia y crominancia pueden tratarse por separado sin las consecuencias perturbadoras de la decodificación/codificación y la pérdida de calidad de las señales.

Durante la fase de transición de los estudios analógicos a digitales, esta codificación no constituye el método más apropiado. Pero en estudios digitalizados resulta bastante sencillo.

Las dos configuraciones posibles son:

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 15

A. Configuración de tratamiento de señal de televisión durante la transición a un estudio digital completo. Cada equipo digital precisa de un codificador y un decodificador.

PROCESADO DIGITAL NTSC PAL SECAM

Y

DECODIFICADOR

Y

R-Y

ADC

DAC

B-Y

R-Y

CODIFICADOR

B-Y

Figura 2.14. Configuración en fase de transición.

B. Configuración de estudio completamente digitalizado. Precisa de un solo codificador de televisión al final de la cadena.

PROCESADO DIGITAL Y

FUENTE IMAGEN

R-Y

Y

ADC

DAC

B-Y

R-Y

CODIFICADOR

B-Y

NTSC PAL SECAM

Figura 2.15. Configuración en un estudio digital completo.

2.5. La norma UER-SMPTE-OIRT. Las normas de la televisión digital se fijaron por la ‘Recomendación 601’ y la ‘Memoria 629-2’ del CCIR. Estas fueron aceptadas por la UER, la SMPTE y la OIRT. Se refiere pues a una norma mundial. En las mismas se especifican las características principales de la digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

NTSC PAL SECAM

Capítulo 2. Digitalización de la señal de televisión. 16

2.5.1. Señales codificadas. Se trata de un sistema de codificación de componentes, es decir se muestrean la señal de luminancia Y y las dos señales diferencia de color (R-Y) y (B-Y). Pero para una saturación al 100% las señales varían entre los valores:

( R − Y ) → 0 . 701 V ≤ x ≤ − 0 . 701V

( B − Y ) → 0 . 886 V ≤ x ≤ − 0 . 886 V

Para reducir esto valores a 1 voltio, es decir, que los valores oscilen entre +0.5 V y –0.5 V, se calculan los coeficientes KR y KB: KB = 0.5/0.701 = 0.713 KR = 0.5/0.886 = 0.564 Las señales muestreadas son pues: Y 0.713 (R-Y) 0.564 (B-Y)

2.5.2. La frecuencia de muestreo. A la hora de elegir una frecuencia de muestreo fue necesario optar por aquella que cumpliera tres exigencias:

· Primera exigencia. La frecuencia de muestreo debe ser como mínima el doble de la mayor frecuencia a transmitir. Como hay normas de televisión en las que la señal de luminancia se emite con un ancho de banda de 6 Mhz, se hace preciso para una norma internacional que la frecuencia de muestreo sea por lo menos de 12 Mhz.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 17

· Segunda exigencia. Para favorecer la uniformidad de las memorias digitales al almacenar las diferentes líneas de televisión muestreadas, es preferible que el número de muestras por línea sea idéntico para todas. Esto significa que la frecuencia de muestreo debe ser un múltiplo entero de la frecuencia de líneas. Se habla de muestreo ortogonal.

· Tercera exigencia. Para obtener una frecuencia de muestreo universal, ésta debe ser un múltiplo de todas las frecuencias de línea de los estándares existentes en el mundo. En este momento existen dos normas distintas: una con 625 líneas y otra con 525 líneas por cuadro lo que corresponde a las frecuencias respectivas: 15625 Hz y 15734.26573 Hz. El mínimo común múltiplo de estas frecuencias es 2.25 Mhz. Esta frecuencia es sin duda demasiado baja ya que tenía que ser superior a 12 Mhz. Un valor adecuado es 6 x 2.25 Mhz = 13.5 Mhz que corresponde a:

6 x 143 x frecuencia de línea NTSC = 858 x frecuencia de línea NTSC.

Y

6 x 144 x frecuencia de línea PAL = 864 x frecuencia de línea PAL.

Cada píxel de una imagen de televisión se compone de información de luz (luminancia) e información de color (crominancia).

Si queremos tener la misma información para la señal de luminancia y para cada componente de la señal de croma, (R-Y) y (B-Y), debemos muestrearlas utilizando la misma frecuencia 13,5 Mhz.

El muestreo descrito para la luminancia y las señales diferencia de color está determinado en las recomendaciones de la BT601 y BT635 de la ITU (Unión Internacional de Telecomunicaciones) y está definido como muestreo 4:4:4. Se eligen estos números para poder configurar todas las posibilidades de muestreo para todo tipo de servicios.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 18

El muestreo 4:4:4 no considera que el ojo humano tiene una sensibilidad menor al color que a la luminancia. La recomendación 601 prevé otros tipos de muestreo como el 4:2:2 y submuestreos que aprovechan al máximo la característica antes mencionada, como 4:1:1 y 4:2:0.

El muestreo 4:2:2, por cada cuatro muestras de luminancia toma dos de cada una de las señales diferencia de color. Así pues la frecuencia de muestreo se fijó en 13,5 Mhz para la señal de luminancia. Para las señales diferencia de color basta con un ancho de banda más limitado. Se muestrean a la mitad de la frecuencia de la luminancia, o sea, 6.75 Mhz.

Esto conduce respectivamente en PAL y NTSC a 864 y 858 muestras por línea para la luminancia y a 432 y 439 para las señales diferencia de color. La estructura de muestreo es ortogonal.

Esta estructura se repite cada campo y cuadro. Las muestras de las señales diferencia de color se toman al mismo tiempo que las muestras impares de la luminancia. La codificación es lineal y se compone de 8 bits por muestra, tanto para la luminancia como para diferencia de color, lo que corresponde a 256 niveles de cuantificación. Se toman 220 niveles para la luminancia siendo el nivel 16 el que corresponde al nivel de negro y el nivel 235 al nivel de blanco. Se utilizan 224 niveles de cuantificación para las señales diferencia de color con un valor del cero analógico correspondiente al número digital 128, lo que proporciona como valores extremos 128 ±112 o sea entre 240 y 16.

Para evitar una velocidad de muestreo demasiado alta se puede omitir el muestreo durante la supresión de línea, puesto que la información que se haya en ese intervalo es idéntica para todas las líneas y es bien conocida. Cabe llamar la atención sobre el hecho de que la codificación lineal con 8 bits es la forma en la que las señales tienen que presentarse a la salida de los equipos. Dentro de los mismos el número puede ser diferente.

El esquema del proceso de muestreo está representado en la siguiente figura:

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 19

R

RGB

G

A

B

YUV MATRIZ

F.P.B 5,75 MHZ

ADC 13,5 MHZ

F.P.B 2,75 MHZ

ADC 6,75 MHZ

F.P.B 2,75 MHZ

ADC 6,75 MHZ

8 BITS

8 BITS

8 BITS

Y

CB

CR

ADC = Conversor analógico digital

Figura 2.16. Esquema del proceso de muestreo.

Las señales analógicas R, G, B, procedentes de la cámara, corregidas en gamma, corrección debida a la no-linealidad entre los tubos de la cámara y del tubo de rayos catódicos, son convertidas al formato Y, (R-Y) y (B-Y) (matrizadas), según la fórmula:

Y = 0.299R+0.587G+0.114B B-Y = -2.299R-0.587G+0.886B R-Y = 0.701R-0.587G-0.114B

Una vez matrizadas son filtradas con filtros paso bajo. El ancho de banda de filtrado de la señal de luminancia es 5.75 Mhz y el de las señales de color es de 2.75 Mhz.

Las señales resultantes del proceso de filtrado son muestreadas a una velocidad de 13.5 Mhz para la señal de luminancia y de 6.75 Mhz (mitad de las muestras) para las señales diferencia de color.

Si cada muestra de cuantifica con 8 bits (1 byte) la cantidad de información que se envía será: 13.5 x 8 bits = 108 6.75 x 8 bits = 54 6.75 x 8 bits = 54 _______________ TOTAL = 216 Mbits por segundo.

Digitalización y compresión de la señal de Televisión

Capítulo 2. Digitalización de la señal de televisión. 20

El muestreo elegido para el estándar de la televisión digital es el submuestreo 4:2:0, ya que el ojo humano no es capaz de identificar una resolución de color mayor.

El flujo binario necesario para enviar una señal codificada según este estándar será: 13.5 x 8 bits = 108 6.75 x 8 bits = 54 _______________ TOTAL = 162 Mbits por segundo.

Según el criterio de Nyquist, la frecuencia del corte del filtro necesario, y por tanto el mínimo ancho de banda para su transmisión, será al menos la mitad del flujo binario, es decir 81 Mhz.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Capítulo III:

Digitalización y compresión de la señal de Televisión

21

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

22

CAPÍTULO 3. Fundamentos de la Compresión de vídeo MPEG. 3.1. Introducción. De los valores de flujo binario que se obtiene a la salida del conversor analógico digital y ancho de banda necesario para su transmisión se deduce a la necesidad de realizar una compresión. Es imprescindible reducir la tasa binaria necesaria para enviar la señal de televisión, en primer lugar debido al excesivo ancho de banda que se necesita para su transmisión, y en segundo lugar a la dificultad que plantea el tratamiento y almacenamiento de un volumen de información semejante.

Por ello nos centraremos en los fundamentos que toma el MPEG-2 para establecer una buena compresión.

3.2. Entropía y redundancia. Todas las imágenes que se puedan imaginar están compuestas por dos partes fundamentales: entropía y redundancia. Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

23

La Entropía es la parte de la señal que contiene información útil, ya que la señal redundante no suma información alguna, aporta una información repetitiva. Un codificador ideal tendría que ser capaz de delimitar estas áreas y poderlas emitir, así como un decodificador tendría que recrear una impresión original de la información obtenida. Mientras nos vamos acercando a los ideales, la complejidad de los codificadores y el tiempo de trabajo (delay) van apareciendo. En la figura 4.1 vemos como se incrementa la complejidad con el factor de compresión (4.1.A) y como crece el tiempo de trabajo con el factor de compresión (4.1.B). Naturalmente tendríamos que trabajar con un canal que aceptase cualquier tipo de entropía que el codificador extrajera para así tener una calidad transparente. Como resultado de la ganancia de una codificación moderada dónde sólo eliminamos la redundancia sin la necesidad de sumarle elementos artificiales, diremos que hemos codificado con una pérdida mínima subjetiva. Si el canal no es suficiente para esto, el codificador tendrá que eliminar de cierta manera información propia de la entropía, resultando artificial. Un codificador imperfecto puede errar en la separación de esta información. Peor

A Factor de compresión

B Peor

Calidad

Factor de compresión

Calidad

Mejor

Mejor

Calidad

Calidad

Retardo

Complejidad

Figura 3.1

Cuando se usa el mismo tipo de información entrante, un estudio de la misma permite que los diferentes resultantes posibles, tengan determinados sus valores resultantes. Como que los resultantes son de longitudes variables, se puede determinar con un estudio anterior cuales serán los más utilizados para otorgarles los valores más cortos.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

24

3.3. Codificación de longitud variable (VLC). VLC (“Variable Length Coding”). Esta codificación asigna un número distinto de bits a las palabras digitales. Así cada dato a codificar no usa el mismo número de bits y por tanto tiende a dar lugar a un régimen binario no fijo. La asignación del número de bits a cada palabra se realiza en base al dato que se envía con esa palabra y a la probabilidad de que aparezca dicho dato.

Los datos más probables, o que más veces se dan, se codifican con palabras de pocos bits y los menos probables con palabras de más bits. La codificación VLC supone la existencia de una tabla estandarizada que asocia a cada dato una palabra de una cierta longitud.

En el caso de MPEG-2, la codificación VLC usada se basa en el método “HUFFMAN” con un estudio estadístico previo. Además, se realiza para la asignación de palabras una codificación “run-length” encubierta. Una codificación “run-length” simplifica la codificación de largas cadenas de ceros. Para ello, codifica un dato alternativo: “número de ceros consecutivos”, en vez de codificar cada cero como dato independiente. IMAGEN FUENTE A CODIFICAR

DATOS DE IMAGEN

DCT

VECTORES DE MOVIMIENTOS

ERRORES DE PREDICCIÓN

VLC

VLC

DCT

VLC

Figura 3.2. Codificación VLC.

3.3.1. Codificación Huffman. Este código es un código óptimo dentro de los códigos de codificación estadística, ya que es el código de menor longitud media. Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

25

La construcción de este código se fundamenta en asignar a cada símbolo del alfabeto fuente una secuencia de bits cuya longitud esté relacionada de forma directa con la probabilidad de aparición de ese símbolo. De esta forma, a los símbolos con mayor frecuencia de aparición se les asignarán las palabras de código de menor longitud.

En el proceso de construcción de este código, lo primero que se hace es ordenar el conjunto de símbolos del alfabeto fuente en orden decreciente de probabilidades de aparición. A continuación se juntan los dos símbolos con menor probabilidad de aparición en un único símbolo cuya probabilidad será la suma de las probabilidades de los símbolos que dieron origen a este nuevo símbolo.

Se repite este proceso hasta que sólo tengamos dos símbolos.

A continuación se realiza el proceso de codificación. Primeramente asignamos un 1 a uno de los dos símbolos que tenemos y un 0 al otro. Posteriormente recorreremos la estructura que hemos construido hacia atrás de forma que cuando dos símbolos hayan dado origen a un nuevo símbolo, estos dos símbolos "heredarán" la codificación asignada a este nuevo símbolo y a continuación se le añadirá un 1 a la codificación de uno de los símbolos y un 0 a la del otro símbolo. Valor Muestras PCM

Codificación Probabilidad de valores

K1

1

0,4

0,4

0,4

0,4

K2

00

0,3

0,3

0,3

0,3

K3

011

0,1

0,1

0,2

K4

0100

0,1

0,1

K5

01010

0,06

0

K6

01011

0,04

1

0,1

0 0,3

0 0,1

0 1

1

1

Figura 3.3. Ejemplo de codificación HUFFMAN.

Digitalización y compresión de la señal de Televisión

0,6

0

0,4

1

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

26

3.3.2. Codificación Run Lenght. Es tal vez el esquema de compresión sin pérdidas más sencillo, y también uno de los más ineficaces. Está basado en sustituir la información gráfica de píxeles que se repiten por el valor del color de uno de ellos y la posición de cada uno de los puntos que lo utilizan.

Esta técnica es eficiente cuando dentro del fichero gráfico que se va a comprimir se repite un byte sucesivamente por un número grande de veces. En estos casos, todos los bytes iguales se sustituyen por dos, el primero de los cuales indica el número de veces que se repite el segundo.

Existen diferentes formas de implementar RLE, todas ellas patentadas. Una de ellas, la más ineficiente, es utilizar un carácter, llamado comúnmente DLE, que sirva para indicar que se ha producido una repetición de un carácter. Otra es utilizando un carácter "centinela", con un bit que indica si la siguiente información es acerca de una repetición o son datos sin repetición.

Este método permite obtener un alto nivel de compresión en imágenes que contengan muchas áreas del mismo color, sin que se produzcan pérdidas de calidad. El problema surge cuando los colores de la imagen son muy dispares, caso en el que se pueden obtener archivos de mayor tamaño que los originales.

RLE es el algoritmo utilizado en los formatos gráficos BMP y PCX, aunque cada uno usa un método distinto de implementación.

Otro ejemplo: se considera una pantalla que contiene texto en negro sobre un fondo blanco. Habría muchas secuencias de este tipo con píxeles blancos en los

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

27

márgenes vacíos, y otras secuencias de píxeles negros en la zona del texto. Supongamos una única línea con N representando las zonas en negro y B las de blanco: BBBBBBBBBBBBNBBBBBBBBBBBBNNNBBBBBBBBBBBBBBBBBBBBBBBBNBBBBBBBBBBB BBB

Si aplicamos la codificación run-lenght a está línea, obtendríamos lo siguiente:

12BN12B3N24BN14B

3.4. Compresión MPEG-2. El estándar MPEG además de aprovechar la redundancia espacial intrínseca de una imagen fija utilizada en la codificación JPEG, aprovecha la redundancia temporal que aparece en la codificación de imágenes animadas, permitiendo encontrar similitudes entre las imágenes sucesivas de vídeo.

Debido a que la calidad en la compresión de vídeo en el estándar MPEG-1 era de baja calidad y no servia para otras aplicaciones, se creo la norma ISO/IEC 13818, mucho más conocida con el nombre de MPEG-2. Esta norma permite un flujo de transmisión hasta el orden de los 20 Mbits/s, transportando tanto imagen como sonido.

3.5. Redundancia espacial. La redundancia espacial ocurre porque en un cuadro individual los píxeles cercanos (contiguos) tienen un grado de correlación, es decir, son muy parecidos (por ejemplo, en una imagen que muestre un prado verde bajo un cielo azul, los valores de los píxeles del prado serán muy parecidos entre ellos y del mismo modo los del cielo).

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Poco detalle alta redundancia

28

Mucho detalle baja redundancia

Fig.3.4. Redundancia espacial.

3.5.1 Codificación espacial. Cuando las imágenes individuales son comprimidas sin referencia a las demás, el eje del tiempo no entra en el proceso de compresión, esto por lo tanto se denomina codificación intra (intra=dentro) o codificación espacial. A medida que la codificación espacial trata cada imagen independientemente, esta puede emplear ciertas técnicas de compresión desarrolladas para las imágenes fijas.

Un análisis de las imágenes de televisión revela que existe un alto contenido de frecuencias espaciales debido al detalle en algunas áreas de la imagen, generando una cantidad pequeña de energía en tales frecuencias. A menudo las imágenes contienen considerables áreas en donde existen píxeles con un mismo valor espacial. El promedio de brillo de la imagen se caracteriza por componentes de frecuencia de valor cero. Simplemente omitiendo los componentes de alta frecuencia de la imagen, esta se vuelve inaceptable debido a la perdida de definición de la imagen.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

29

Una disminución en la codificación se puede obtener, tomando como ventaja que la amplitud de los componentes espaciales disminuye con la frecuencia. Si el espectro de frecuencia espacial es dividido en subbandas de frecuencia, las bandas de alta frecuencia se pueden describir en pocos bits, no solamente porque sus amplitudes son pequeñas sino porque puede ser tolerado más ruido. La Transformada Discreta del Coseno se usa en MPEG para determinar el dominio de la frecuencia espacial en imágenes bidimensionales.

149

120 79

49

120

94

58

32

78

58

29

9

49

33

9

0

DCT

120

59

1

-1

59

15

-2

1

2

-2

1

-1

-1

0

-1

0

Figura 3.5. Proceso de codificación espacial.

3.5.1.3.

La Transformada del Coseno Discreto.

DCT (“Discrete Cosine Transform”). La transformada del coseno consiste en realizar una operación matemática sobre los datos originales de manera que se obtienen otros datos que se relacionan unívocamente con aquellos (operación inversa “IDCT” sin pérdidas). Los datos originales para la operación se seleccionan en bloques de NxN

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

30

(típico 8x8) formando matrices. Los datos resultantes tienen las siguientes características: ƒ

Igual número de datos y ordenación en bloque NxN.

ƒ

Datos con valores reales positivos y/o negativos.

ƒ

Significado “espectral” respecto a datos originales.

ƒ

Gran cantidad de valores cercanos a cero (muchos más que

en el bloque original).

3.5.1.2. Cuantificación. El proceso de cuantificación asigna por aproximación un valor a cada coeficiente de frecuencia dentro de una limitada gama de valores admitidos. El codificador selecciona una ’’matriz de cuantificación’’ que determina el modo en que será cuantificado cada uno de los coeficientes del bloque transformado.

Como se sabe, el ojo humano tiene poca sensibilidad para los detalles y por tanto no es necesario cuantificar con precisión los coeficientes de alta frecuencia de la transformada, es decir, habrá menos valores admitidos para éstos que para los coeficientes de frecuencias bajas. Esta operación se realiza dividiendo los coeficientes por un valor ‘n’ mayor que uno y rodeando el resultado al entero más próximo (en el campo digital). El factor de ponderación ‘n ‘varia con la posición del coeficiente en el bloque, correspondiendo a los coeficientes de frecuencias altas, mayores valores de ‘n’.

En consecuencia, gran parte de los coeficientes de la transformada se cuantifican al valor cero, habrá muy pocos de alta frecuencia distintos de cero y algunos de baja frecuencia distinto de cero. Un caso especial es el coeficiente que representa el valor de la componente continua del bloque que normalmente se cuantifica con la máxima precisión.

La matriz de cuantificación del MPEG que contiene los valores de ’n’ tiene también en cuenta lo siguiente:

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

ƒ

31

Si esta procesando información de luminancia o de

crominancia, lo que supone una distinta respuesta del ojo humano. ƒ

Si el bloque proviene de una imagen /o tiene una imagen

de predicción, ya que la distribución de las amplitudes de los coeficientes es distinta. ƒ

La situación del bloque dentro de la imagen y el contenido

de la imagen. Algunos bloques tienen que codificarse con mayor precisión que otros como, por ejemplo, en el caso de un bloque correspondiente a gradientes muy suaves en donde la pequeñas imprecisiones son muy apreciables.

Además de esta cuantificación dependiente de la frecuencia, también es posible reducir el número de niveles de cuantificación necesario para describir los valores de los coeficientes utilizando una ley de cuantificación no lineal, es decir, dependiente de la amplitud. Vemos en la figura siguiente que los valores altos de los coeficientes se codifican con menos precisión que los pequeños. La longitud de la palabra de código a la salida de la cuantificación se reduce con respecto a la de entrada. Además, todos los valores de la zona muerta se llevan a cero.

El MPEG permite cambiar los valores de la matriz de cuantificación para cada bloque DCT cuando se codifican imágenes de gran complejidad. Naturalmente todos los cambios de la matriz tienen que transmitirse al decodificador. Salida

Entrada

Zona muerta

Figura 3.6. Características de la cuantificación no lineal. Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

3.5.1.3.

32

Codificación por Entropía.

Según el teorema de Shanon, la entropía de una fuente S, donde “pi” es la probabilidad de que el símbolo “si” ocurra en dicha fuente, es definida por la siguiente expresión:

H(S)=∑i pi log 21/pi Por teoría de la información, si los símbolos son distintos, entonces el número medio de bits necesitados para codificarlos está siempre limitado por el valor de su entropía.

En una señal codificada en n bits, hay 2n posibles valores para cada muestra (si la probabilidad de las muestras es igual, su entropía es n).

Los codificadores de entropía se basan en asignar palabras de código de longitud variable a cada muestra. Asignan palabras cortas a los valores de muestras más probables, y palabras largas a los valores de muestras menos probables. El modelo de probabilidad para la asignación de palabras de código, pueden obtenerse o directamente de los valores de entrada o de suposiciones previas sobre dichos valores. Los dos mecanismos más utilizados son la codificación Huffman, y la codificación Aritmética.

3.6. Redundancia temporal. En secuencias de vídeo, hay también una correlación significativa entre muestras vecinas temporalmente.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Información que no cambia y no se envía

33

Información que cambia y se envía

Figura 4.7. Redundancia temporal.

3.6.1 Codificación temporal. También llamada codificación Inter, aprovecha la ventaja que existe cuando las imágenes sucesivas son similares. En lugar de enviar la información de cada imagen por separado, el codificador inter envía la diferencia existente entre la imagen previa y la actual en forma de codificación diferencial. El codificador necesita de una imagen, la cual fue almacenada con anterioridad para luego ser comparada entre imágenes sucesivas y de forma similar se requiere de una imagen previamente almacenada para que el decodificador desarrolle las imágenes siguientes.

Los datos que se generan al hacer la diferencia entre dos imágenes, también se pueden tratar como una nueva imagen, la cual se debe someter al mismo tratamiento de transformadas utilizado en la compresión espacial.

Desafortunadamente existe la posibilidad de transmitir errores, si se utiliza una secuencia ilimitada de imágenes previstas. Por esto es mejor utilizar un número limitado de imágenes previstas para de este modo garantizar una mejor transmisión de los datos.

En MPEG periódicamente se envía una imagen la cual no ha sido tratada con algún método de compresión con perdidas y que a su vez es idéntica a la imagen original, refrescando los datos en la secuencia de transmisión. Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

34

La figura siguiente muestra el recorrido de una imagen original, llamada imagen I o intra, la cual es enviada entre imágenes que han sido creadas usando una diferencia entre imágenes, llamada imágenes P o previstas. La imagen I requiere grandes cantidades de información, mientras que las imágenes P requieren una cantidad menor. Esto ocasiona que el flujo de transmisión de datos sea variable hasta cuando llegan a la memoria intermedia, la cual genera a su salida una transmisión de datos de forma constante. También se puede observar que el preeditor necesita almacenar datos de menor proporción puesto que su factor de compresión no cambia de una imagen a otra.

P

P

B

I=Imagen codificada intra P=Imagen codificada diferencialmente Una secuencia de imágenes que esta constituida por una imagen I y las siguientes imágenes P hasta el comienzo de otra imagen I, se denomina grupo de imágenes GOP (Group Of Pictures). Para factores de compresión altos se utiliza un número grande de imágenes P, haciendo que las GOP aumenten de tamaño considerablemente; sin embargo un GOP grande evita recuperar eficazmente una transmisión que ha llegado con errores.

En el caso de objetos en movimiento, puede que su apariencia no cambie mucho

entre

imágenes,

pero

la

representación

de

los

bordes

si

cambia

considerablemente. Esto es de gran ventaja si el efecto de movimiento se representa por la diferencia entre imágenes, generando una reducción en la codificación de datos. Este es el objetivo de la compensación de movimiento.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

35

Área de búsqueda

Imagen a codificar Imagen de referencia Figura 3.8. Proceso de codificación temporal.

3.7. Redundancia estadística. La redundancia estadística tiene que ver con las limitaciones físicas del ojo humano, que tiene una limitada respuesta para fijarse en los detalles espaciales y es menos sensitivo al distinguir detalles en las esquinas o los cambios rápidos. Por tanto, el proceso de codificación puede ser capaz de minimizar el bit-rate mientras se mantiene constante la calidad a la que el ojo humano ve la imagen decodificada.

3.8. Codificador híbrido DCT/DPCM. El codificador híbrido consiste en aplicar una DCT seguido de un PCM diferencial, es decir, seguido de un codificador diferencial. Este tipo de codificador pretende evitar generalmente los tipos de redundancia conocidos desde la temporal hasta la espacial.

Tras dividir la imagen en bloques, se aplica una transformada a cada bloque, pero luego en vez de enviar los coeficientes de la transformación se envía su diferencia con una predicción hecha tomando como base los coeficientes de la transformada de bloques anteriores. El esquema siguiente representa este tipo de codificador. Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

36

Fig. 3.9. Codificador híbrido.

3.9. Compensación de Movimiento. Esta técnica tiene como objetivo principal eliminar la redundancia temporal entre las imágenes que componen una secuencia con el fin de aumentar la compresión.

Para eliminar dicha redundancia, la idea inicial que puede ocurrírsenos es transmitir la diferencia entre un píxel en una posición de un fotograma (imagen) y el píxel situado en la misma posición pero en el fotograma siguiente. Esto sirve cuando las imágenes son estáticas. Pero lo normal es tener imágenes dinámicas y por tanto no podemos implementar lo anterior tal cual, sino que previamente habrá que estimar el movimiento que ha sufrido un píxel de un objeto de un fotograma al siguiente. Habrá que calcular el vector de movimiento asociado a cada píxel de la imagen. Al decodificador se transmite la diferencia y los vectores de movimiento calculados. Si los vectores están bien calculados la diferencia entre una imagen y la siguiente compensada será muy pequeña, ya que la escena no cambia bruscamente en un corto intervalo de tiempo. Se ha ganado pues en compresión.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

37

Los vectores de movimiento representan la translación de las imágenes de los bloques entre cuadros. Estos vectores se necesitan para la reconstrucción y son codificados de forma diferencial en el flujo de datos. Se utiliza codificación diferencial ya que reduce el total de bits requeridos para transmitir la diferencia entre los vectores de movimiento de los cuadros consecutivos. La eficiencia de la compresión y la calidad de la reconstrucción de la señal de vídeo dependen de la exactitud en la estimación del movimiento.

El método para este cálculo no se especifica en el estándar y por lo tanto está abierto a diferentes implementaciones y diseños, aunque evidentemente existe una relación directa entre la exactitud de la estimación de movimiento y la complejidad de su cálculo. Frame J (I Frame)

MV = VECTOR VERTICAL. MH = VECTOR HORIZONTAL.

MV

MH

Frame k (P Frame) Macrobloque

Fig. 3.10. Compensación en movimiento.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

38

3.10. Imágenes en MPEG-2. Una imagen puede ser un cuadro o un campo de una imagen.

Matemáticamente, cada imagen es realmente una unión de los valores que representan a un píxel: una componente de luminancia y dos de crominancia; es decir, tres matrices de píxeles. Ya que el ojo humano no es muy sensible a los cambios de la región cromática comparada con la región de luminancia, las matrices de croma son decimadas o reducidas en tamaño por un factor de dos en ambas direcciones horizontal y vertical.

MPEG-2 adicionalmente permite la posibilidad de no decimar o sólo decimar horizontalmente la componente croma, consiguiente formatos 4:4:4 y 4:2:2 respectivamente.

Las imágenes pueden clasificarse principalmente en tres tipos basados en sus esquemas de compresión.

I (Intraframes) o intra cuadros. P (Predictive) o cuadros predecidos. B (Bi-directional) o cuadros bidireccionales.

3.10.1 Imágenes I. Se codifican como si fuesen imágenes fijas utilizando la norma JPEG, por tanto, para decodificar una imagen de este tipo no hacen falta otras imágenes de la secuencia, sino sólo ella misma. No se considera la redundancia temporal (compresión intraframe). Se consigue una moderada compresión explotando únicamente la redundancia espacial. Una imagen I siempre es un punto de acceso en el flujo de bits de vídeo. Son las imágenes más grandes.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

39

3.10.2 Imágenes P. Están codificadas como predicción de la imagen I ó P anterior usando un mecanismo de compensación de movimiento. Para decodificar una imagen de este tipo se necesita, además de ella misma, la I ó P anterior. El proceso de codificación aquí explota tanto la redundancia espacial como la temporal.

3.10.3 Imágenes B. Se codifican utilizando la I ó P anterior y la I ó P siguiente como referencia para la compensación y estimación de movimiento. Para decodificarlas hacen falta, además de ellas mismas, la I ó P anterior y la I ó P siguiente. Estas imágenes consiguen los niveles de compresión más elevados y por tanto son las más pequeñas.

3.11 Codificación en forma entrelazada o progresiva. Dependiendo del trabajo a realizar, las imágenes entrelazadas pueden ser tratadas de manera diferente según la importancia de los movimientos entre los dos campos de una misma imagen (los casos extremos son, por un lado, cuando se transmiten películas cinematográficas por televisión "telecine" donde no hay movimiento entre los dos campos de TV, puesto que proceden de la exploración del mismo fotograma de la película, y por otro lado, las imágenes de vídeo de acontecimientos deportivos, donde puede haber importantes movimientos entre los dos campos de una imagen).

La figura siguiente representa la secuencia temporal de la posición vertical de las líneas de los campos sucesivos en un sistema entrelazado.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

40

Fig. 3.11. Codificación entrelazada.

Para la codificación Intra de las imágenes entrelazadas, MPEG-2 permite elegir entre dos estructuras de imágenes llamadas frame (estructura "imagen" o "campo"") o field (estructura "campo").

3.12 Estructura por cuadro y campo. Estructura por cuadro: También llamada "progresiva", es apropiada para los casos donde hay poco movimiento entre dos campos sucesivos. Los bloques y macrobloques se dividen en la imagen completa y la DCT se efectúa, sobre puntos verticales que distan 20 ms en el tiempo, lo que no plantea problemas si los dos campos difieren poco.

Figura 3.12. División de los macrobloques en bloques en modo imagen (frame). Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

41

En este caso, siempre es posible codificar los bloques de mayor animación en modo inter-campo, es decir, dividiéndoles en un campo.

Estructura por campo: También llamada "entrelazada", es preferible cuando el movimiento de un campo a otro es importante. En este caso, a fin de evitar un contenido en frecuencias verticales elevadas que reduciría la eficacia de la compresión tras efectuar la DCT, la división de los macrobloques se hace considerando cada uno de los campos como una imagen independiente en el interior del cual se toman los bloques.

Figura 3.13. División de los macrobloques en bloques en modo campo (field.)

En cuanto a la estimación de movimiento, también hay varios modos previstos: Un macrobloque puede predecirse en modo "imagen", "campo" o "mixto".

El Modo "Frame" Un macrobloque formado en el campo impar sirve para predecir el bloque correspondiente del próximo campo impar, y lo mismo para los bloques del campo par, por tanto, la predicción se hace sobre un tiempo de 40 ms (2 campos).

El Modo "Field" La predicción de un bloque se efectúa a partir de un bloque del campo anterior, entonces aquí, los vectores de movimiento corresponden a un tiempo de 20ms.

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

42

El Modo "Mixto" Los bloques se predicen a partir de dos bloques que corresponden a dos campos.

3.13 Secuencia de imágenes en MPEG-2. (GOP). Las imágenes pueden ser combinadas para producir un GOP (grupo de imágenes) que comienza con una imagen I. El GOP es la unidad fundamental de codificación temporal. En el estándar MPEG, el uso de GOP es opcional, pero esta en la práctica es necesaria. Un GOP puede ser abierto o cerrado. En un GOP cerrado, las últimas imágenes B requieren de una imagen I para el siguiente GOP por decodificar y la secuencia de bits puede ser cortada al final de la GOP.

Cuando algunas GOP son combinadas se produce una secuencia de vídeo con un código de inicio, seguido por un encabezamiento, y luego termina con un código final. Los códigos de soporte adicional pueden ser situados al inicio de la secuencia. La secuencia de soporte especifica el tamaño horizontal y vertical de la imagen, norma de barrido, la rafa de imágenes, si se usa un barrido progresivo o entrelazado, el perfil, nivel, velocidad de transferencia de bits, y cuales matrices de cuantificación se usan para codificar imágenes espaciales y temporales.

Sin la secuencia de soporte de datos, un decodificador no puede comprender el flujo de bits y por lo tanto no puede comenzar la operación de decodificación correcta.

Figura 3.14. Ejemplo de grupo de imágenes, para M=3, N=12

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

43

Los dos parámetros M y N definen la manera en que las imágenes I, P y B se encadenan: M es la distancia (en número de imágenes) entre dos imágenes P (previstas) sucesiva. N es la distancia entre dos imágenes I (intra) sucesivas. Para alcanzar un flujo de vídeo de 1.15 Mbits/s con una calidad satisfactoria, al tiempo que se mantiene una resolución de acceso aleatorio aceptable (< 0.5 segundos), los parámetros comúnmente utilizados son M=3 y N= 12 como se muestra en la figura 3.14.

3.14 Estructura 4:4:4. Este tipo de formato indica que no se ha despreciado ninguna de las muestras de crominancia y que por lo tanto se utiliza todas.

En este caso de formato de crominancia 4:4:4, al haber las mismas muestras de luminancia que de crominancia, para un determinado trozo de imagen, a las matrices correspondientes a Y, CR y CB que define ese trozo de imagen, son de igual dimensión, tanto vertical como horizontal.

Luminancia Crominancia

Figura 3.15. Posición de los muestreos en formato 4:4:4.

Si tomamos como ejemplo un trozo de imagen de 16x16 píxeles, que es un valor muy típico y que servirá para identificar a un macrobloque, a partir de él se obtiene matrices cuadradas de 8x8, que serán denominadas bloques. Para la señal de Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

44

luminancia se obtendrán cuatro matrices y otras cuatro para cada una de las señales de crominancia.

Luminancia Y

16x16

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

Crominancia CR

Crominancia CB

3.15 Estructura 4:2:2. En esta estructura se desprecian la mitad de las muestras de crominancia, eligiendo una si, otra no, siendo el tratamiento el mismo para todas las líneas. En sentido vertical, hay columnas en las que en todos los píxeles tienen 3 muestras (luminancia y dos de crominancia) y hay columnas en las que solo hay muestras de luminancia.

Para un determinado trozo de imagen, si los datos se adquieren de acuerdo a este formato, cada una de las matrices de crominancia, en sentido vertical tendrán la misma dimensión que la matriz de luminancia, pero en sentido horizontal el tamaño de las matrices de crominancia será la mitad.

Luminancia Crominancia

Figura 3.16. Posición de los muestreos en formato 4.2.2 Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

45

Como ejemplo, si se toma un trozo de imagen 16x16 pixels, se obtendrá para luminancia una matriz de 16 x16, y para cada una de las señales de crominancia una matriz de 16x 8 pixels. Si se convierten en matrices cuadradas, que es como se trabaja con ellas, para la señal de luminancia se obtendrán cuatro matrices de 8x8 pixels y para cada una de las señales de crominancia dos matrices también de 8x8.

Luminancia Y

16x16

8x8

8x8

8x8

8x8

8x8

8x8

8x8

8x8

Crominancia CR

Crominancia CB

3.16 Estructura 4:2:0. Cuando los datos se obtienen de esa forma, además de despreciar en sentido horizontal una de cada dos muestras (según se ha visto en el formato 4:2:2) también se desprecia una de cada dos muestras en sentido vertical. Puede comprobarse que para un determinado trozo de imagen, la matriz formada por las muestras de luminancia es de tamaño doble al de cada una de las matrices de crominancia tanto en fila como en columnas.

Luminancia Crominancia

Figura 3.17. Posición de los muestreos en formato 4:2:0

Digitalización y compresión de la señal de Televisión

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

46

Para el ejemplo que se viene considerando, de un trozo de imagen de 16x16 píxeles, la matriz de luminancia será también de 16x16, pero cada una de las matrices de crominancia será de 8x8. Si se decide utilizar matrices cuadradas, todas del mismo tamaño, la situación será la representada.

Luminancia Y

16x16

8x8 8x8 8x8

8x8

8x8

8x8

Crominancia CR

Crominancia CB

El total de filas y de columnas de una imagen deberá ser un múltiplo de 16, para que den origen a un número entero de macrobloque de este tipo. En el caso de que no fuese, siempre se rellenará con ceros por la parte derecha e inferior hasta que se cumpla esta situación.

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Capítulo IV:

Digitalización y compresión de la señal de Televisión

47

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

48

CAPÍTULO 4. Proceso de compresión de vídeo MPEG-2. 4.1. Introducción. En este capítulo se pretende dar una completa descripción del tratamiento que da el MPEG-2 a la señal de vídeo.

4.2. Proceso de compresión de vídeo MPEG-2. En el caso de una imagen de vídeo la variación de los píxeles se produce en las direcciones horizontal y vertical. Para procesar la imagen se utiliza una función matemática bidimensional conocida como "Transformada Discreta en Coseno (DCT)".

Esta función se aplica a muestras de la imagen tomadas en "bloques" de 8x8 píxeles y calcula, por cada bloque, los 64 coeficientes que corresponden a las frecuencias horizontales y verticales del bloque.

La utilidad de la DCT radica en que, en el dominio del tiempo, las amplitudes de las 64 muestras de cada bloque de 8x8 píxeles suelen tener valores diferentes y de Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

49

elevada cuantía, mientras que muchos de los 64 coeficientes de la función transformada suelen ser pequeños y muy iguales, y sólo unos pocos tienen un peso relevante. Esto permite cuantificarlos y codificarlos de una manera eficiente con códigos. Para optimizar el número de ceros consecutivos, la lectura de los coeficientes se hace en zigzag y no horizontalmente. Hay que resaltar que la DCT por sí misma no reduce los datos. Es la naturaleza de la señal de vídeo la que hace que muchos coeficientes valgan cero, o tengan un valor tan pequeño que el ojo humano no pueda apreciar su efecto.

Una primera reducción de flujo se consigue convirtiendo la señal de entrada 4:2:2 de 10 bits a 4:2:0 y 8 bits. Después se aplica la DCT y se hace una cuantificación inteligente de los coeficientes para disminuir la redundancia de la señal. Finalmente se codifica la entropía resultante con códigos de secuencias y de longitud variable. Para suavizar y limitar el flujo de datos de salida, la cuantificación se hace más o menos severa mediante una señal de control que llega desde el tampón de salida.

Cuando hay movimiento, la información de un bloque puede variar de un campo al siguiente. El cálculo de los vectores de movimiento se hace con macrobloques de 16x16 píxel (4 bloques) e investigando el sentido de los desplazamientos entre imágenes sucesivas. La codificación Intercuadro trabaja sobre las imágenes aún no comprimidas y es un proceso sin pérdidas. Partiendo de la imagen actual y sus correspondientes vectores de movimiento, se calcula y predice la imagen siguiente. Esta imagen predicha se resta de la actual para obtener una imagen error denominada "Imagen P" cuyo contenido de información es pequeño y puede comprimirse fácilmente. Las Imágenes P contienen sólo predicción unidireccional.

MPEG-2 utiliza también imágenes predichas bidireccionalmente, es decir, con los cuadros anteriores y posteriores. A estas imágenes se las llama "Imágenes B". Contienen muy poca información pero son muy eficaces para controlar los errores de movimiento.

La idea básica de las imágenes P y B radica en que se necesita menos información para mandar los vectores de movimiento que la que se requeriría para mandar la información comprimida del macrobloque de píxel, con lo que la compresión resulta más eficiente. Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

50

Las imágenes comprimidas I, P y B se transmiten en grupos de hasta 12 ó 15 imágenes. Cada grupo de imágenes se denomina GOP (Group-of-Pictures), comenzando con una imagen tipo I, y se extiende hasta la siguiente imagen I. Entre ellas se transmiten, con un orden preestablecido, las imágenes P y B.

El flujo binario de salida del codificador es un bloque de datos de gran tamaño organizado según una estructura jerárquica anidada. La jerarquía comienza en el nivel denominado "secuencia de vídeo" y termina en el nivel correspondiente a los "bloques de la DCT". Se denomina "Corriente Binaria Elemental (Elementary bit Stream) y contiene toda la información fundamental de la señal de vídeo codificada.

4.3 El proceso DCT. La energía de vídeo de la imagen tiene una frecuencia espacial bastante baja, que varía lentamente con el tiempo. Por tanto una transformada puede concentrar la energía en muy pocos coeficientes. Para esta transformada la imagen actual se divide en bloques para decrementar la complejidad. Todos los bloques (8x8) son transformados de acuerdo con una Transformada Discreta del Coseno (DCT) de dos dimensiones que puede ser considerada como una DCT unidimensional en las columnas y otra en las filas. A cada coeficiente se le asocia una función específica de frecuencias horizontales y verticales, y su valor (después de la transformación) indica la contribución de estas frecuencias al bloque de la imagen. Sin embargo, la DCT no reduce el número de bits que se requieren para la representación del bloque. Esta reducción se hace después de comprobar que la distribución de los coeficientes no sea uniforme. La transformada concentra la mayor parte de la energía de vídeo en las bajas frecuencias provocando que la mayoría de los coeficientes sean cero o casi cero. Se consigue la compresión saltándose todos los coeficientes que están cerca de cero y cuantificando los restantes (se cuantifican los coeficientes con un número finito de bits pudiendo producirse pérdidas de compresión).

Las ventajas de la DCT son la gran compactación de coeficientes (el resultado es normalmente un numero reducido de coeficientes), que se utilizan algoritmos de

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

51

cálculo rápido y que es una transformada real. Las desventajas son la introducción de un ruido granular (al cuantificar los coeficientes), la pérdida de resolución y el efecto bloque (al aplicar la DCT sobre bloques y no sobre la imagen global se pueden independizar los bloques entre sí y se observa la separación que existe entre ellos.

En las siguientes figuras se dará un ejemplo de este proceso que conlleva la transformada.

Si tenemos una señal como la de la figura siguiente:

Fig. 4.1 Señal recogida para ejemplo.

La forma normal es determinar el brillo de cada uno de los 64 píxeles y escalarlos dentro de unos limites, normalmente de 0 a 255 (en MPEG se usa un rango de –256,255) donde 0 significa negro y 255 blanco.

120

108

90

75

69

73

82

89

127

115

97

81

75

79

88

95

134

122

105

89

83

87

96

103

137

125

107

92

86

90

99

106

131

119

101

86

80

83

93

100

117

105

87

72

65

69

78

85

100

88

70

55

49

53

62

69

89

77

59

44

38

42

51

58

Fig. 4.2 Valores de los 64 píxeles. Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

52

También podemos representarlo mediante un diagrama de barras 8x8:

Fig.4.3. Diagrama de barras de esos 64 píxeles.

Normalmente los valores son procesados línea a línea. Esto requiere 64 bits de almacenaje.

Pero podemos definir todos los 64 valores por solo 5 enteros, aplicando la fórmula de la DCT:

Donde f(x,y) es el brillo del píxel en la posición [x,y]. El resultado es F, una matriz 8x8. Siguiendo el ejemplo anterior:

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

700

90

100

0

0

0

0

0

90

0

0

0

0

0

0

0

-89

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

53

Fig. 4.4. Matriz una vez realizada la DCT.

Como se puede ver, la mayoría de los valores son 0. Como los valores distintos de 0 están concentrados en la esquina superior derecha la matriz es transferida al receptor en orden de escaneado en zigzag:

Esto resulta en: 700 90 90 89 0 100 0 0 0 .... 0. Por supuesto, los ceros no se transmiten, en su lugar se codifica una señal de final de bloque.

El decodificador puede reconstruir los valores de los píxeles usando la fórmula de la inversa de la transformada del coseno (IDCT):

Fig. 4.5 Ecuación de la IDCT.

Donde F(u,v) es el valor de la matriz transformada en la posición [u,v].

Los resultados son los valores originales de los píxeles. De esta manera, podríamos considerar la compresión MPEG como sin perdidas, pero esto no es cierto, Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

54

porque los valores transformados están cuantificados. Están divididos (división entera) por un cierto valor mayor o igual que 0 debido a que la DCT soporta valores hasta 2047.

Para reducirlos hasta estar al menos bajo la longitud del byte se aplica el valor de cuantificación 8. El decodificador multiplica los resultados por el mismo valor.

Lógicamente los resultados difieren de los valores originales, pero debido a algunas propiedades del ojo humano el error no es visible.

En MPEG hay una matriz de cuantificación que define un valor diferente de cuantificación para cada valor transformado dependiendo de su posición.

El valor de la esquina superior izquierda de la matriz transformada es llamado valor DC (direct current) y determina la media de brillo en el bloque. El resto de los valores son llamados valores AC (alternating current) y describen la variación sobre el valor DC. Así, supongamos una matriz transformada tal que así:

700

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

Fig.4.7 Matriz transformada.

El valor DC seria 700. El resultado de aplicarle la IDCT seria:

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

87

Fig.4.8. Matriz después de la IDCT.

En diagrama de barras:

Fig.4.9. Diagrama de barras de la matriz anterior.

La imagen, pues, es un cuadrado gris.

Si añadimos un valor AC de 100:

Digitalización y compresión de la señal de Televisión

55

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

700

100

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

Fig.4.10. Matriz generada por añadir a la matriz anterior un valor de AC de 100.

El resultado de aplicar IDCT sería: 105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

105

102

97

91

84

78

73

70

Fig.4.11. A la matriz de la figura 5.10 se le aplica la IDCT.

En diagrama de barras:

Fig.4.12. Diagrama de barras de la matriz anterior.

Digitalización y compresión de la señal de Televisión

56

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

La imagen resultante sería:

Como ultimo ejemplo, añadamos un valor AC 100 en otra posición distinta:

700

0

100

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

Fig.4.13. Matriz al añadir el AC en una posición distinta.

Al aplicar la IDCT obtenemos: 104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

104

94

81

71

71

81

94

104

Fig.4.14. Matriz al aplicarle la IDCT a la figura anterior.

Digitalización y compresión de la señal de Televisión

57

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

58

En diagrama de barras:

Fig.4.15. Diagrama de barras.

La imagen resultante sería:

4.4. Barrido Zig Zag. Después de realizar la DCT a un bloque de 8x8 píxeles, se nota que generalmente los coeficientes más significativos de la DCT se encuentran en la parte superior izquierda de la matriz. Una vez evaluados, los coeficientes de menor valor pueden ser redondeados a cero. Permitiendo de este modo, una transmisión de datos más eficiente, debido a que los coeficientes no-cero son enviados primero, seguido de un código el cual indica que todos los demás números son ceros.

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

59

La exploración es una técnica que aumenta la probabilidad de alcanzar este resultado, porque ella envía los coeficientes en orden descendente según su probabilidad. La Figura muestra que en un sistema no-entrelazado, la probabilidad de hallar coeficientes de mayor peso es más alta en la parte superior izquierda que en la parte inferior derecha. Aquí una exploración en forma diagonal a 450 es la que se denomina una exploración en zig-zag, la cual es la mejor secuencia para emplear en este caso.

Fig. 4.16. Barrido Zigzag.

4. 5. Diagrama de un codificador MPEG-2. A partir de la imagen digitalizada en formato 4:2:0 (caso del main profile), el codificador elige para cada imagen su tipo (I, P o B) y si esta debe ser codificada en modo frame (imagen) o field (campo). El codificador a continuación debe estimar los vectores de movimiento para cada macrobloque de 16x16 píxeles. El número de vectores depende del tipo de imagen y del modo de codificación escogido para cada bloque.

En el caso más general, donde el codificador es capaz de generar imágenes B (bidireccionales), deberá reordenar las imágenes antes de la codificación y la transmisión.

Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

60

La unidad básica de codificación es el macrobloque, compuesto por 4 bloques de luminancia de 8x8 píxeles y (en el caso del formato 4:2:0) de 2 bloques de crominancia (un Cr y un Cb) de 8x8 píxeles que abarcan la misma zona de la imagen.

Todos los macrobloques de la imagen se codifican secuencialmente de izquierda a derecha y de arriba abajo, eligiéndose un modo de codificación independiente para cada uno de ellos.

Una vez que se ha elegido el modo de codificación, la predicción con compensación de movimiento del contenido del bloque se hace a partir de la imagen de referencia (I o P) pasada (caso de las imágenes P) y eventualmente futura (caso de las imágenes B). La predicción se elimina de los datos reales del macrobloque, lo que da la señal de error de predicción.

En una imagen con estructura frame, el codificador deberá elegir entre efectuar la DCT en modo frame o field. Esto depende principalmente de la amplitud del movimiento entre los campos de la imagen.

La señal de error se separa inmediatamente en bloques de 8x8, a los que se aplica la DCT. Cada bloque de coeficientes resultante se cuantifica y barre en zig-zag para formar una serie de coeficientes. Seguidamente, se codifica la información auxiliar necesaria para que el decodificador pueda reconstruir el bloque (modo de codificación, vectores de movimiento, etc.), codificando los coeficientes cuantificados con ayuda de una tabla VLC (codificación Huffman).

La unidad de control de flujo supervisa el estado de ocupación de la memoria intermedia de salida, utilizando esta información como retorno para controlar el número de bits que el codificador generará para los bloques siguientes, jugando principalmente con los coeficientes de cuantificación. Se obtiene entonces a la salida del codificador un tren binario completo, ya utilizable para un decodificador.

Para aumentar la calidad de la imagen decodificada, el propio codificador almacena y decodifica (decuantificacion de los coeficientes después de la DCT inversa) las imágenes I y P, como referencia para reconstruir otras imágenes obtenidas por Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

61

predicción con compensación de movimiento en el decodificador, y calcula una señal de error que se añade a la señal de predicción.

Fig. 4.17. Codificador MPEG-2

4. 6. Diagrama de un decodificador MPEG-2. Como ya se ha dicho, la decodificación es más sencilla que la codificación, ya que no tiene que efectuar alguna estimación de movimiento, que es una de las partes más complejas del codificador.

La memoria intermedia (buffer) de entrada recibe los datos del canal de transmisión, y el decodificador lee el tren binario hasta encontrar el principio de una imagen, su tipo (I, P o B) y su estructura (frame o field).

Empieza la decodificación con la primera imagen I, almacenándola en su memoria, así como la imagen P siguiente, para servir de referencia a las imágenes P o B que dependen de ella.

Para las imágenes I, la decodificación propiamente dicha consiste en aplicar a cada bloque la decodificación VLC, la decuantificación de los coeficientes y la transformación DCT inversa. Digitalización y compresión de la señal de Televisión

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

62

Para las imágenes P o B, este proceso consiste en construir la predicción de cada macrobloque a partir de su tipo, de los vectores de movimiento y de las imágenes de referencia memorizadas. El decodificador lee, decodifica y decuantifica los coeficientes DCT del error de predicción transmitido para cada bloque de 8x8 píxeles, y, después de la transformada DCT inversa, añade el resultado a la predicción.

La reconstrucción de la imagen se efectúa cuando todos los macrobloques han sido tratados.

La última etapa de la descodificación es poner las imágenes en el orden inicial de visualización.

Como se vio anteriormente, la necesidad de memoria para el decodificador es de unas tres imágenes (dos imágenes de referencia mas la imagen en vía de reconstrucción), siendo para una imagen 4:2:0, de aproximadamente 16 Mbits.

Fig. 4.18. Decodificador MPEG-2

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

Capítulo V:

Digitalización y compresión de la señal de Televisión

63

Capítulo 5. Estándar MPEG-2.

64

CAPÍTULO 5. Estándar MPEG-2. 5.1. Introducción. El Motion Pictures Expert Group (MPEG) es un grupo de trabajo común de la ISO (International Standars Organitation) y la IEC (International Electrotechnical Committe). Este grupo, fundado en 1988 desarrolló inicialmente la recomendación ISO/IEC-11172, conocida como MPEG-1 y posteriormente ha desarrollado la recomendación ITU-H.262 ó ISO/IEC-13818 conocida como MPEG-2. Ambas recomendaciones van dirigidas a la codificación de información, con fines muy concretos en el primer caso (MPEG-1) y con fines más generales en el segundo (MPEG-2).

Los estándares MPEG contemplan la compresión y descompresión (recuperación) de imágenes en movimiento y de sonido, y la formación de una estructura multiplexada de datos en forma de señal digital serie que incluya tanto al vídeo y al audio, comprimidos como los datos de cualquier otro servicio auxiliar añadido. Además, contempla la sincronización adecuada durante la reproducción del vídeo, el audio y los datos entre sí.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

65

El estándar MPEG-2 intenta servir para un amplio número de aplicaciones como medios de grabación digitales, difusión de televisión y comunicaciones. Concretamente, este estándar MPEG-2 es muy flexible ya que no es un método o norma única, sino que engloba un conjunto de éstas, de entre las que elige la más adecuada a cada aplicación. El método general es el mismo, pero hay diferencias en los valores asignados a los parámetros y en las características.

El proceso de codificación MPEG-2 da lugar a una señal digital serie cuya interpretación no es directa, ni a veces evidente, pero cuyo procesado adecuado en el decodificador da lugar a la recuperación de las señales de vídeo y audio originales, a la vez que también se pueden recuperar una serie de datos auxiliares.

Las señales originales que usa el codificador MPEG-2 son señales en banda base tanto para vídeo como para audio, estando la de vídeo en componentes ( Y, (R-Y) y (B-Y)) y pudiendo ser de definición estándar o de alta definición. El uso de señales en banda base analógicas exige la existencia de conversores A/D en el codificador MPEG2, lo que enrarece el equipo, por lo que generalmente se considera que la señal banda base disponible ya está en formato digital, concretamente AES/EBU para audio y vídeo digital en componentes.

5.2. Características principales del estándar de vídeo MPEG-2. Los sistemas de señal digital pueden organizar los datos de una manera directa fácilmente relacionada con los datos originales o de manera más compleja y aparentemente caprichosa. En este segundo caso, deben preverse elementos que permitan identificar dichos datos y la recuperación de las señales originales. Además debe tenerse en cuenta la problemática derivada de que una señal incluya datos de diversas señales originales que tenían una relación temporal intrínseca.

Por tanto podemos hacer una división respecto al tipo de datos en base a su contenido: Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

66

- Datos del sistema (o capa del sistema). Es el conjunto de bits encargado de información sobre temporización, detalles del método de compresión usado, método usado para la multiplexación del vídeo, audio y datos auxiliares; e información para reproducción sincronizada. - Datos de señal (o capa de compresión). Es el conjunto de bits que llevan la información útil de imagen, sonido y otros, comprimidos, además de ciertos parámetros del método de compresión usado.

A la hora de

definir el sistema aparecen tres aspectos importantes que

configuran tres fases de organización de datos:

- Elementary Stream (ES). Estos datos pertenecen a la capa de compresión y corresponden a cada una de las señales que componen un único programa. Por ejemplo la señal de vídeo comprimida MPEG-2 de un programa o la señal de audio comprimida del mismo programa. El ES es una señal digital continúa con un régimen binario concreto. Cualquier otra señal comprimida de vídeo o audio de otros programas es también una ES. - Packetized Elementary Stream (PES). La señal ES se divide en paquetes de longitud no necesariamente fija, a los que se añade su correspondiente “header” (cabecera) que identifica y sincroniza los datos de dicho paquete respecto a los otros paquetes obtenidos del mismo ES o de otros, para lo que incorpora datos a la capa de sistema. - Program Stream (PS) y Transport Stream (TS). Son las señales MPEG-2 completas. Consisten en la sucesión de PES correspondientes a un solo programa o a varios programas (sólo en el caso de TS) multiplexados con indicación de los detalles de sincronización, de acceso condicional y otros.

La razón de la existencia de dos tipos de estructuras, PS y TS, se debe a que cada una articula una serie de detalles adicionales a la simple agrupación de PES que las hace más adecuadas a diversos tipos de aplicaciones.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

67

El criterio de selección de uno u otro se basa en si se manda un solo programa o varios y en si el medio de transmisión al que se introduce la señal MPEG-2 va a estar sometido a errores o no.

Si son varios programas es necesario usar el TS. Si es un único programa puede usarse el PS o el TS.

Si el medio está sometido a errores (transmisión, grabación,...), la estructura a usar es la de “Transport Stream”. Si el medio no está sometido a errores (conexiones cortas o interiores de equipos electrónicos) la agrupación se realiza como “Program Stream”. VÍDEO

AUDIO

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

E.S. Video

E.S. Audio

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

Video PES

Audio PES

PACK & MUX PS.

PROGRAMA FORMACIÓN DE SEÑALES MPEG-2 (iso/iec-13818)

CAPA DE COMPRESIÓN

PACK & MUX T.S.

MPEG-2 Program Stream

MPEG-2 Transport Stream

CAPA DE SISTEMA

Figura 5.1. Sistema MPEG-2 para 1 programa.

5.3. Niveles y perfiles (“Level@Profile”). El nivel permite seleccionar el procesado en base a la estructura espacial de muestras, es decir, en base al número de pixeles y líneas a codificar. Está relacionado con la resolución de la imagen.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

68

Los posibles niveles que nos podemos encontrar se muestran en la siguiente tabla: NIVEL High High – 1440 Main Low

CARACTERÍSTICAS Muestreo (codificación) de 1920x1152 muestras activas Muestreo (codificación) de 1440x1152 muestras activas. Muestreo (codificación) de 720x576 muestras activas. Muestreo (codificación) de 352x288 muestras activas. Tabla 5.1. Tabla de Niveles de MPEG-2.

Solo se codifican las muestras activas indicadas. Las señales originales, según la norma de muestreo digital usado tendrán muestras activas y no activas. Las no activas no son codificadas por MPEG-2 y serán regeneradas con nivel de borrado en el decodificador. Las activas pueden coincidir en número con las usadas por MPEG-2 o no coincidir. En el primer caso se recuperarán todas las muestras en la decodificación y en el segundo, las muestras activas originales no codificadas en MPEG-2 serán regeneradas con nivel de borrado por el decodificador. Para que esto sea posible, uno de los datos de sistema que se transmiten es el del formato digital original.

Existe una relación directa entre el tipo de señal original y el nivel a elegir. Así, una señal HDTV usará los niveles “High” o “High-1440”. Una señal SDTV de calidad usará el nivel “Main” y el nivel “Low” se destina a señales SDTV de calidad comparable a VHS para aplicaciones de menor calidad.

El perfil establece un juego de “herramientas” y posibilidades en el procesado que no vienen marcados por la señal original. Mientras que los niveles marcan claramente su capacidad para cada tipo de señal original, no es así de evidente la selección de perfiles. Establece la relación de compresión.

En la siguiente tabla se muestran los diferentes perfiles que se han fijado para la compresión en MPEG-2.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

PERFIL

CARACTERÍSTICAS

Simple

No se usan imágenes tipo B. El muestreo es 4:2:0.

Main

Se usan imágenes tipo I, P y B. El muestreo es 4:2:0.

SNR

Se usan imágenes tipo I, P y B. El muestreo es 4:2:0. La transmisión es escalable en SNR, pudiéndose recibir imagen completa con menos bits/muestra (menor SNR) en caso de recepción defectuosa

Scalable

Spatially Scalable

High

69

Se usan imágenes tipo I, P y B. El muestreo es 4:2:0. La transmisión es escalable en resolución espacial (número de muestras), pudiéndose recibir imagen completa con menos pixeles en caso de recepción defectuosa. Se definen dos capas: nivel base y nivel mejorado. Se usan imágenes tipo I, P y B. El muestreo puede ser 4:2: ó 4:2:2. La transmisión es escalable tanto en SNR como espacialmente. Se usan imágenes tipo I, P y B. El muestreo es 4:2:2 (aunque puede reducirse a 4:2:0). La transmisión no es escalable. Sólo utilizable con el nivel “main”, incrementando además el número de pixeles y líneas activas respecto a dicho nivel. Concretamente usa 720 muestras activas y 680 líneas/cuadro (en sistema 625/50)

4:2:2

Tabla 5.2. Tabla de Perfiles MPEG-2.

La selección de un método MPEG-2 exige siempre determinar un nivel y un perfil. Existen en este momento 4 niveles y 6 perfiles, por lo que podrían existir 24 posibles métodos básicos de MPEG-2. Sin embargo no todas las posibles combinaciones Nivel @ Perfil están consideradas. Perfiles Niveles

High (1920x1152)

Simple

Main

4:2:0 I, P

4:2:0 I, P, B

No considerada

80 Mbps

No considerada

60 Mbps

High-1440 (1440x1152)

Main (720x576)

15 Mbps

Low

derada con No considerada

(352x288)

Spatially scalable 4:2:0 I, P, B

4:2:2 ó 4:2:0 I, P, B

No considerada

No considerada

100 Mbps

No considerada

60 Mbps

80 Mbps

15 Mbps

No considerada

20 Mbps

4 Mbps

No considerada

No considerada

SNR scalable 4:2:0 I P B

15 Mbps

4 Mbps

High

Tabla 5.3. Relación entre niveles y Perfiles en MPEG-2.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

70

En el vídeo de definición estándar, la combinación más usada es el nivel “Main” con el perfil “Main”.

5.4. Codificación MPEG-2 de Audio. La utilización del audio digital resulta familiar para todo el mundo desde la aparición del disco compacto (Compact Disc), a principios de los años 80.

Puesto que su finalidad era obtener una calidad de alta fidelidad, la banda de paso requerida debía ser de 20 Khz como mínimo, lo que implicaba, pues, una frecuencia de muestreo superior a los 40 Khz; finalmente se adoptó el valor de 44,1 Khz. También debía garantizar una relación señal a ruido y una respuesta dinámica altas (superiores a los 80 dB).

La digitalización de una señal analógica (o Pulse Code Modulation, PCM) introduce sobre el bit de menor peso el llamado ’ruido de cuantificación’ correspondiente a la incertidumbre, que se traduce por una relación señal/ruido de 6 dB por bit de cuantificación, es decir, 96 dB con la digitalización sobre 16 bits adoptada. De ello resulta un flujo de 44,1 x 16 x 2 = 1,4 Mbits/seg para una señal estéreo.

Hay otras dos frecuencias de muestreo corrientemente utilizadas: 32 Khz (D2MAC, NICAM,...) y 48 Khz (grabación en estudio, casete de audio digital DAT,...). Las normas MPEG-1 y 2 preveían la posibilidad de utilizar una de las tres frecuencias anteriores como fuente de las señales de audio muestreadas. Los flujos que ofrecen son ligeramente distintos, pero siguen siendo del mismo orden de magnitud (de 1 a 1,5 Mbits/seg), es decir, bastante más elevado para ser utilizados tal cual como sonido de acompañamiento de una imagen codificada con la norma MPEG-1 o MPEG-2. Como para el vídeo había que hacer frente a la necesidad de comprimir los datos procedentes de la digitalización de la señal de audio.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

71

5.4.1. Principios de la compresión de audio MPEG. Al comenzar los trabajos del grupo MPEG de audio, había, como mínimo, 14 propuestas diferentes, clasificadas en 4 grupos, de los cuales, tan solo 2 (MUSICAM y ASPEC) se han mantenido para servir de base a la especificación final.

También aquí se aprovechan los ‘puntos débiles’ del oído humano para reducir la cantidad de datos que hay que transmitir, sin deteriorar de forma perceptible la calidad de la señal de audio. Hace tiempo se observó que el oído presentaba la máxima sensibilidad entre 1 Khz y 5 Khz. La curva de sensibilidad que presenta el umbral de audición de una señal en función de su frecuencia en ausencia de señal ‘perturbadora’ se representa en la siguiente figura, donde la señal A es audible, puesto que sobrepasa el umbral de percepción:

Figura 5.2. Curva de sensibilidad del oído.

Más recientemente, se ha observado que esta curva se veía afectada en presencia de múltiples señales: por ejemplo, en el caso de dos señales de frecuencia relativamente cercanas, la señal más fuerte hacía subir el umbral de audición en sus proximidades, cuyo efecto era disminuir la sensibilidad del oído alrededor de estas frecuencias.

La siguiente figura representa este caso, donde la señal A, antes audible, es ahora enmascarada por la cercana señal B, más potente que A. Este efecto recibe el nombre de enmascaramiento frecuencial. Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

72

Figura 5.3. Efecto del enmascaramiento frecuencial.

También existe un efecto de enmascaramiento temporal: un sonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o posteriores:

Figura 5.4. Efecto del enmascaramiento temporal.

Numerosos experimentos han permitido determinar un modelo psicoacústico del oído humano, utilizado después como referencia a la hora de diseñar el codificador llamado ‘perceptual’, que se caracteriza por una curva de enmascaramiento y una cuantificación variables en función de las señales que se vayan a codificar. El principio de esta codificación consiste en dividir la banda de paso de audio en 32 subbandas de la misma anchura por medio de un banco de filtros llamado ‘polifases’. La señal de salida de un filtro de subbanda, correspondiente a una duración de 32 muestras PCM de entrada, se llama muestreo de subbanda.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

73

Señales percibidas

Nivel (dB)

Frecuencia

Espectro de audio filtrado

Figura 5.5. Espectro de audio filtrado por subbandas.

El modelo psicoacústico permite eliminar las señales de subbandas inferiores al umbral del modelo psicoacústico (no percibidos por el oyente) y define la precisión de cuantificación necesaria para cada una de las subbandas, de forma que el ruido de cuantificación permanece inferior al umbral de audición en esta subbanda.

De esta forma, las zonas donde el oído es más sensible pueden ser cuantificadas con mayor precisión que las otras. Los esquemas de bloques bastante simplificados de un codificador MPEG de audio se representan a continuación.

MODELO PSICO ACÚSTICO

Q1

ENTRADA PCM

B A N C O D E 32

F I L T R O S

Q1

Q1

M U L T I P L E X A D O

CUANTIFICACIÓN CONTROL

Figura 5.6. Codificador MPEG de audio. Digitalización y compresión de la señal de Televisión

TREN MPEG AUDIO

Capítulo 5. Estándar MPEG-2.

74

El análisis de la señal para determinar la curva de enmascaramiento y la cuantificación no se hace para cada muestra PCM, sino en un intervalo de tiempo llamado trama. En este intervalo, el codificador evalúa también la amplitud de la señal más elevada para definir un factor de escala (scaling factor) que se codificará sobre 6 bits.

6.4.2. Las capas de la codificación de audio MPEG. Las normas MPEG de audio definen tres capas (layers) de codificación que se distinguen por su tasa de compresión para una calidad de audio percibida dada. La norma de televisión DVB prescribe para el sonido la utilización de las capas I y II de la especificación MPEG-1 de audio, que prevé cuatro modos principales de transmisión: ƒ ·Estéreo. Los canales I y D se codifican de manera completamente independiente. ƒ ·Joint Estéreo. Aprovechamiento de la redundancia entre los canales izquierdo y derecho a fin de reducir el flujo ƒ ·Dual channel. Los dos canales son independientes. ƒ ·Mono. Un solo canal de sonido.

La norma MPEG-2 de audio toma lo más esencial de MPEG-1 y prevé además la posibilidad de extensión ‘multicanal’, que permite la transmisión de sonido por canales múltiples (por ejemplo ‘Surround sound’, de 5 canales) al tiempo que sigue siendo compatible con el modo estéreo MPEG-1 básico, lo que permite la evolución posterior de la especificación DVB.

Los datos suplementarios ‘ancillary data’ se encuentran al final de la trama. Estos datos son ignorados por un decodificador MPEG-1 de audio estándar, pero si son tratados por un decodificador MPEG-2 para una extensión complementaria.

La norma MPEG-2 de audio prevé, además, la posibilidad de utilizar frecuencias de muestreo iguales a la mitad de los valores estándar (16 Khz / 22,05 Khz / 24 Khz), duplicando de esta forma la duración de las tramas y dividiendo el flujo por dos, a costa, por supuesto, de reducir la banda de paso a la mitad.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

75

Capa I.

También llamada ‘pre-MUSICAM’, utiliza el algoritmo PASC (Precision Adaptive Subband Coding), desarrollado por PHILIPS para su casete de audio digital (DCC). Utiliza una velocidad fija entre las 14 posibles (de 32 a 448 Kbits/seg); la calidad Hi-Fi necesita 192 Kbits /seg por canal de audio (384 Kbits/seg en estéreo). Su principal ventaja es la relativa sencillez para la implementación del codificador y el decodificador. La cuantificación de los coeficientes de subbanda está definida para toda la duración de la trama por un número de 4 bits, permitiendo una codificación de 0 a 15 bits para cada subbanda, así como el factor de escala sobre 6 bits.

Capa II.

Su algoritmo se conoce bajo el nombre de MUSICAM, es el estándar adoptado para la radio (DAB) y televisión (DVB) digitales europeas. Permite obtener una calidad equivalente con un flujo menor (reducción del 30 % al 50 %) que el de la capa I, a costa de un incremento moderado de la complejidad tanto del codificador como del decodificador.

El flujo constante, puede escogerse entre 32 y 192 Kbits/seg por canal, la calidad subjetiva Hi-Fi se obtiene a partir de 128 Kbits/seg por canal, es decir 256 Kbits/seg en estéreo.

El modelo psicoacústico utilizado es el mismo que para la capa I, pero la trama tiene el triple de duración, lo que reduce la proporción de bits de ‘sistema’, haciendo que la cuantificación de los coeficientes de subbanda tenga una resolución decreciente (cuantificación definida sobre 4 bits para las bandas bajas, 3 bits para las bandas medias y 2 bits para las bandas más elevadas) en lugar del formato uniforme sobre 4 bits de la capa I. Por otro lado, 3 muestras de subbanda consecutivas pueden ser eventualmente reagrupadas en ‘gránulos’ para ser codificadas por un solo coeficiente, de ahí la reducción del flujo.

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

76

Capa III.

Es de desarrollo más reciente y utiliza un modelo psicoacústico diferente – llamado ‘modelo 2’-, una codificación Huffman y un análisis de la señal basado en la DCT en vez de en la codificación en subbandas de las capas I y II. Están permitidos los dos tipos de codificación joint estéreo.

Permite el flujo variable y una tasa de compresión aproximadamente 2 veces más elevada que la capa II, a costa de una complejidad claramente mayor del codificador y del decodificador, así como de un tiempo de codificación/descodificación más largo. La calidad Hi-Fi se obtiene de los 64 Kbits/seg por canal (128 Kbits/seg en estéreo).

Esta destinada principalmente a aplicaciones de redes de baja velocidad (por ejemplo RDSI) y actualmente su utilización no esta prevista en DVB.

Como en el caso de los perfiles y niveles MPEG de vídeo, las capas MPEG de audio soportan la compatibilidad ascendente entre ellas; es decir, que un decodificador de capa III descodificará también las capas I y II, y que un decodificador de capa II descodificara la capa I.

6.4.3. Formato general de la trama MPEG de audio. La trama constituye la unidad de acceso elemental para una frecuencia de audio MPEG. Una trama (capa I, II o III), se descompone en 4 partes: ƒ

Cabecera de 32 bits (header);

ƒ

Paridad sobre 16 bits (CRC);

ƒ

Datos de audio (AUDIO), longitud variable;

ƒ

Datos auxiliares (AD, ancillary data).

Digitalización y compresión de la señal de Televisión

Capítulo 5. Estándar MPEG-2.

77

Capa I.

La trama MPEG de audio capa I se compone de 384 muestras PCM de audio de entrada. Como el número de muestras PCM es independiente de la frecuencia de muestreo, la duración de la trama es inversamente proporcional a la frecuencia de muestreo. Ésta es de:

12 ms a 32 Khz; 8,7 ms a 44,1 Khz; 8 ms a 48 Khz.

Fig. 5.7. Formato trama MPEG audio Capa I.

Capa II.

La trama se compone en este caso de 12 gránulos de 3 x 32 = 96 muestras de audio PCM, es decir, 36 ms a 32 Khz; 26,1 ms a 44,1 Khz; 24 ms a 48 Khz. La estructura de la parte de ‘audio’ difiere de la capa I debido a una asignación de bits más compleja, motivada por la mayor cantidad de opciones de codificación.

Figura 5.8. Formato trama MPEG audio Capa II.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Capítulo VI:

Digitalización y compresión de la señal de Televisión

78

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

79

CAPÍTULO 6. Múltiplex y Flujo de Transporte MPEG-2. 6.1. Introducción. En el conjunto de estándares de TV digital denominado DVB (Digital video Broadcasting) se especifican los fundamentos de los sistemas para diferentes medios de transmisión: satélite, cable, difusión terrestre, etc. Cada estándar define los esquemas decodificación de canal y de modulación para el medio de transmisión de que se trate, pero en todos los casos la codificación de fuente es una adaptación del estándar MPEG2.

Más concretamente, la señal de entrada y salida especificada para todos los sistemas es la denominada “MPEG-2 Transport Stream” (TS) o “Flujo de transporte MPEG-2".

En este documento se describe la estructura del citado flujo de transporte (TS), según está definido en el estándar ISO/IEC 13818-1, también se hará referencia al denominado“MPEG-2 Program Stream” o “Flujo de programa MPEG-2". Este tipo de

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

80

flujo de señal se emplea para almacenamiento y recuperación de información digital en entornos libres de errores. A diferencia del anterior, que multiplexa varios programas, éste sólo puede acomodar un programa.

6.2. Empaquetado PES (Packetized Elementary Stream). Ya en la “Capa de Sistema” nos encontramos con los “Empaquetadores P.E.S.”, que constituyen el siguiente paso en la generación tanto del múltiplex de programa como del múltiplex de transporte MPEG-2.

Se trata de convertir cada “Elementary Stream (E.S.)” compuesto exclusivamente por “Access Units”, en un “Packetised Elementary Stream (P.E.S.)”. Un P.E.S. está compuesto íntegramente por “PES-Packets”.

“Elementary Stream (E.S.)”, compuesto por “unidades de acceso (Access Units)” “Access

A. “Access U

E.S

“Access

Conversión de E.S a P.E.S

PES-Packet P.E.S

PES-Packet

PES-Packet Payload

PES-Packet

“Packetised Elementary Stream (P.E.S.)”, compuesto por “PES-Packets”

Figura 6.1. Conversión de un ES a un PES.

Un “PES-Packet” se compone de una “Cabecera” o “Header” y de una “Carga Util”o “Payload”.

El

“Payload”

consiste

simplemente

en

bytes

de

datos

tomados

secuencialmente desde el “Elementary Stream (E.S.)” original. No hay ningún

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

81

requerimiento para alinear el comienzo de una “Access Unit” y el comienzo de un “PES-Packet Payload”. Así, una nueva“Access Unit” puede comenzar en cualquier punto del “Payload” de un “PES - Packet”, y también es posible que varias pequeñas “Access Unit” estén contenidas en un simple “PES -Packet”.

Los “PES - Packets” pueden ser de longitud variable, limitados normalmente a 64kBytes, aunque la excepción a esta norma se da precisamente en los “Vídeo PES”, cuando se emplean en un “transport stream”, donde pueden tener longitud indefinida.

Esta flexibilidad en la longitud de los paquetes PES puede ser explotada por los diseñadores de diferentes maneras: pueden usarse paquetes de longitud fija si interesa, o por ejemplo pueden ser de longitud variable de forma que siempre coincida el inicio de una unidad de acceso con el comienzo de la carga útil de cada paquete PES.

6.2.1-. PES- Packet Header. La figura 6.2 muestra los campos que comprenden la “Cabecera” o “Header” de un “PES-Packet”. Dicha cabecera tiene longitud variable, e incorpora a su vez datos para autoinformar de su longitud.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

82

PES-Packet Header

Payload

msb

lsb

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

PES_scrambling_control (2 bits)

x x x x x x x x x x x x x x x x x x x x x x x x 1 0 x x x x x x P D x x x x x x x x x x x x x

x

PES Packet Start_code_prefix Stream_id PES Packet_length Flag 1 Flag 2 PES header length Presentation Time Stamp (si existe) Decoding Time stamp (si existe)

X Bytes

PES_header_subfields

Y Bytes

Stuffing

1 Byte

Figura 6.2.- Cabecera de un PES-Packet.

En la tabla 6.1 pueden verse algunos detalles complementarios relativos a los campos de la cabecera de un paquete PES. CAMPO Start_code_prefix Stream_id Packet_length PES_scrambling_control Flags PES_header_length PES_header_subfields Stuffing

DEFINICIÓN Código de inicio (0x00,0x00;0x01) Identificación del PES Longitud del PESPacket Indica si hay cifrado, y su código Marcadores Longitud restante de la cabecera (x+y) Campo variable, función de los flags Relleno

Nº DE BITS 24 8 16 2 14 8 X bytes Y bytes

Tabla 6.1.- Estructura de la cabecera de un PES-Packet. Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

ƒ

83

PES-Packet start code:

Los primeros 4 bytes, es decir: el “PES-packet start code prefix” más el “Stream_id” constituyen el “PES-Packet start code”. Debe garantizarse que esta combinación de 32 bits únicamente aparece en el comienzo de la cabecera de un PESpacket, excepción hecha de los datos de tipo “privado”. El byte “Stream_id” permite distinguir los PES-packets pertenecientes a los diferentes Elementary Stream de un mismo Programa. MPEG especifica los valores permitidos para este campo, disponiéndose de 32 valores para E.S. de audio y de otros 16 valores para E.S. de vídeo. ƒ

Flags 1 y 2:

Los bytes “Flag 1" y “Flag 2" son indicadores que muestran la presencia o ausencia de varios campos opcionales que pueden estar incluidos en la cabecera de un PES-packet.

Estos campos opcionales llevan información complementaria relativa al PES, tales como: si está cifrado o no, prioridad relativa, datos de “copyright”, un campo para identificación de errores en el paquete, etc.

Particularmente importantes son los 2 bits más significativos del “Flag 2", marcados como P y D en la figura 6.2. Cuando están, estos bits indican respectivamente la presencia de un campo denominado “Presentation Time Stamp (PTS)” y de otro campo denominado“Decoding Time Stamp (DTS)” dentro de la cabecera del PESpacket. ƒ

Time Stamps:

Los “Time Stamps” o “marcas de tiempo” son el mecanismo proporcionado por la “Capa de sistema” de MPEG-2 para asegurar una correcta sincronización en el decodificador entre “Elementary Streams” que están relacionados. Dichos “Time Stamps” son valores binarios de 33 bits expresados en unidades de 90kHz. El más importante de los “Time Stamps” es el “Presentation Time Stamp (PTS)”.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

84

Especifica el momento en que una “Unidad de Acceso” debe retirarse del buffer del decodificador, ser decodificada y seguidamente presentada al espectador. MPEG supone que todo esto puede realizarse instantáneamente, aunque como en la práctica lleva algún tiempo, es responsabilidad del diseñador del decodificador resolver este problema.

En muchos tipos de “Elementary Streams” es suficiente con los PTS, pero en el caso de Elementary Streams compuestos por vídeo codificado MPEG, puede necesitarse un segundo tipo de “Time Stamp”, que es el denominado “Decoding Time Stamp (DTS)”.

Un “DTS” especifica el momento en que una “Unidad de Acceso” debe retirarse del buffer del decodificador y ser decodificada, pero no presentada al espectador. En lugar de esto último, la imagen decodificada se almacena temporalmente para ser presentada más tarde. Tal tratamiento es necesario únicamente para imágenes de tipo I y P de una secuencia de vídeo codificada MPEG; estas imágenes I y P son las que por interpolación permiten generar las imágenes de tipo B.

Un “DTS” nunca aparece aislado, sino que debe ir acompañado de un “PTS”, que es el que informa del momento en que la Unidad de Acceso almacenada temporalmente debe presentarse al espectador. De esta forma, el PTS siempre será mayor que su DTS asociado (es decir, posterior en el tiempo), puesto que la presentación de la imagen al espectador ocurrirá más tarde.

No es necesario ubicar “time stamps” para cada unidad de acceso. El decodificador normalmente conoce de antemano el ritmo al que las unidades de acceso tienen que ser decodificadas, siendo suficiente proporcionar ocasionalmente los “time stamps” simplemente para asegurar el sincronismo del proceso de decodificación a largo plazo.

El requerimiento especificado en MPEG es que un “time stamp” debe aparecer al menos cada 0,7 segundos en los PES de vídeo o audio. Por otra parte, si una unidad de acceso tiene un “time stamp” asociado con ella, entonces ese “time stamp” tiene que estar codificado en la cabecera del PES-packet en que dicha unidad de acceso comienza. Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

ƒ

85

PES_header_length:

El “PES header data length field” es el último de los bytes obligatorios de una cabecera de un PES-packet. Su valor indica el número de bytes opcionales presentes en la cabecera, hasta que se alcanza el primer byte del “PES-packet payload”. Hay 25 campos opcionales en una cabecera, que pueden contener por tanto un total de 200 bits de datos adicionales.

6.3. Múltiplex tipo “PROGRAM STREAM”. El tipo de múltiplex denominado “Program Stream” o “Flujo de Programa” se crea a partir de uno o varios PES pertenecientes al mismo Programa Audiovisual, que deben, compartir obligatoriamente el mismo reloj de referencia.

Este “Program Stream” está compuesto por “packs”, que a su vez comprenden: una cabecera del pack o “pack-header”, opcionalmente una cabecera de sistema o “system-header”, y un número indeterminado de PES-packets, tomados de los Elementary Streams que componen el Programa Audiovisual, en cualquier orden. La figura 6.2 muestra la estructura de este múltiplex. “Pack”

V

V

V

A

V

V

V

A D

V

D

PROGRAM STREAM

V

Pack-header

Opcional “System-header” Pack-header

Pack-header

V

V

Video PES-packet

A

Audio PES-packet

D

Data PES-packet

Figura 6.3.- Estructura del múltiplex MPEG-2 “Program Stream”

No existe una especificación acerca de la longitud que debe tener cada “pack” de un “Program Stream”. Únicamente debe aparecer un “pack-header” al menos cada Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

86

0,7 segundos, puesto que la citada cabecera contiene importante información para la sincronización: la denominada “Referencia del Reloj de Sistema” o “System Clock Reference (SCR)”.

En efecto: En un “Program Stream” que puede contener únicamente un programa audiovisual, el reloj en el multiplexor se llama: “System Clock”. Todas las Unidades de Acceso de los “Elementary Streams” del programa tienen asignados “time stamps” basados en este System Clock, que están contenidas en la cabecera de los PESpackets. A su vez, muestras del “System Clock”, las denominadas “System Clock Referentes (SCR)” se encuentran codificadas en los campos opcionales de los “packheaders” del “Program Stream”. Son números binarios de 42 bits que expresan unidades de 27MHz.

En el campo opcional “system-header” de un Pack se incluye un sumario de las características del “Program Stream” tal como: su velocidad binaria máxima, el número de “Elementary Streams” de vídeo y de audio que lo componen, información complementaria de temporización, etc. Así, un decodificador puede usar la información contenida en este “system header” para establecer si es capaz de recuperar la información del “Program Stream” o no.

El “Program Stream” está concebido para su empleo en entornos libres de errores, puesto que es bastante vulnerable a ellos. Hay dos razones para esto: En primer lugar, el “Program Stream” comprende una sucesión de paquetes relativamente largos y de longitud variable. Como se ha visto, cada paquete comienza con unas cabeceras que contienen información importante para su recuperación, por lo que cualquier error en dichas cabeceras puede provocar la pérdida entera del paquete. A su vez, como el paquete de un “Program Stream” puede contener muchos kilobytes de datos, la pérdida de un solo paquete puede representar la pérdida o corrupción de una trama de vídeo completa.

En segundo lugar, la diferente longitud de los paquetes implica que un decodificador no puede predecir donde termina un paquete y comienza otro, por lo que se ve obligado a leer e interpretar el campo incluido en la cabecera que informa de la longitud del paquete. Si este campo que identifica la longitud del paquete se corrompe Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

87

por un error, el decodificador perderá el sincronismo con el flujo de datos, resultando como mínimo la pérdida de un paquete.

6.4. Múltiplex tipo “TRANSPORT STREAM”. El múltiplex tipo “Transport Stream” está compuesto íntegramente por “paquetes de transporte” o “transport packets” que tienen siempre una longitud fija de 188 bytes. Cada“paquete de transporte” incluye una “Cabecera” o “Header” (4 bytes) seguida a veces de un “Campo de Adaptación” o “Adaptation Field” (usado eventualmente para rellenar el exceso de espacio disponible) y en cualquier caso, de una “Carga Útil” o “Payload”.

Los paquetes de transporte se forman a partir de los “PES-Packets” correspondientes a cada “Flujo Elemental” de señal (vídeo, audio, datos, etc.), según se muestra en la figura 6.4.

“Packetised elementary Stream (P.E.S)”, compuesto por “PESPackets”

P.E.S Packets

Transport Packets Header

Payload

Adaptation field (usado para rellenar espacio sobrante)

Figura 6.4.- División de un “P. E. S.” en una serie de “Transport Packets”

El proceso de formación de los paquetes de transporte está sujeto al cumplimiento de las dos condiciones fundamentales siguientes: a). El primer byte de cada PES-Packet debe ser el primer byte del “payload“ de un transport packet.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

88

b). Un transport packet solamente puede contener datos tomados de un PESPacket. Es improbable que un PES-packet rellene las “cargas útiles” de un número entero de paquetes de transporte de forma exacta. Como se muestra en la figura 6.4, con frecuencia se dará el caso de que, para no contravenir las dos condiciones anteriores, el espacio sobrante del último paquete de transporte correspondiente a un PES-packet, se rellene deliberadamente mediante un “campo de adaptación” de longitud apropiada.

Este despilfarro de espacio puede minimizarse mediante una elección cuidadosa de la longitud de los PES-packets. En principio, PES-packets muy largos asegurarían una mayor proporción de paquetes de transporte completamente llenos de datos útiles. Además de la función de relleno, el Campo de Adaptación se utiliza también para la transmisión del “Reloj de Referencia del Programa” o “Program Clock Reference” (PCR). Estas marcas de tiempo, que permiten sincronizar el reloj del decodificador con el “Program Clock” del Programa al que pertenecen los paquetes de transporte, deben aparecer en el “Transport Stream” al menos una vez cada 0,1 segundos.

6.4.1. Formación del “Transport Stream”. Los paquetes de transporte resultantes del proceso anterior, aplicado a cada uno de los flujos elementales de señal (vídeo, audio, datos, etc.) pertenecientes a su vez a varios programas audiovisuales, se disponen secuencialmente para configurar el “Flujo de Transporte MPEG-2" o “MPEG-2 Transport Stream” (TS).

No existen condiciones en cuanto al orden en que los paquetes de transporte deben aparecer en el múltiplex tipo TS; tan sólo debe respetarse el orden cronológico de los paquetes de transporte pertenecientes a un mismo flujo elemental.

Es importante destacar que en el TS, además de los paquetes de transporte asociados a los flujos elementales de señal, es necesario incorporar paquetes de

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

89

transporte que contienen información sobre el servicio, así como paquetes de transporte “nulos” que se emplean para absorber eventuales reservas de capacidad del múltiplex.

La figura 6.5 ilustra de forma simplificada el proceso de conformación del múltiplex “MPEG-2 Transport Stream”.

Paquete de transporte de video V

V

V

V

V

Paquete de transporte de audio A

A

A

A

A

Paquete de transporte de datos D

D

D

D

D

Paq. de trans. con info de servicio S S S S

V

V

A

V

V

D

MPEG-2 Transport Stream

S I

V

S

I I I I Paquete de transporte nulosI N

N

N

N

N

Figura 6.5.- Conformación del múltiplex “Transport Stream” a partir de un número prácticamente ilimitado de flujos elementales de señal.

6.4.2. “Transport Packet”. La figura 6.6 ilustra la estructura de un “paquete de transporte” o “transport packet”. 188 bytes “Adaptation Field” (Eventual)

Payload

TRANSPORT PACKET

Transport Packet Header 0

1

0

0

0

Sync_byte Transport_error_indicator Payload_unit_start_indicator Transport_priority

Transport_scrambling_control

1

1

1

1er byte

PID (13 Bits)(identificador del paquete de transporte) 4º byte

msb adaptation_field_control

lsb continuity_counter

Figura 6.6. Estructura de un “transport packet” Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

90

6.4.2.1 Transport Packet Header. A diferencia de los “PES-Packet”, cuya cabecera tiene longitud variable, la cabecera o “header” de un paquete de transporte tiene siempre una longitud fija de 4 bytes. El formato de esta cabecera puede verse en la figura 6.6 y en la tabla 6.2:

CAMPO

DEFINICIÓN

Nº DE BITS 8

Sync_byte

Byte de sincronización 0100 0111 (0x47)

Transport_error_indicator Payload_unit_start_indicator

Identifica un error detectado más atrás Inicio de PES en el paquete de transporte

1 1

Transport_priority PID Transport_scrambling_control Adaptation_field_control

Indicador de prioridad Identificador del paquete de transporte Tipo de cifrado de transporte Control del campo de adaptación en el paquete

1 13 2 2

Continuity_counter

Contador de continuidad entre paquetes afines

4

Tabla 6.2.- Estructura de la cabecera de un Paquete TS. De los varios campos que contiene la cabecera de un paquete de transporte, hay 4 que son particularmente importantes: ƒ

Sync Byte:

Es el primer byte de la cabecera y siempre tiene el valor 47 (hexadecimal). Dicho valor no es único dentro de un paquete de transporte y puede ser bastante frecuente que aparezca en otros campos. Sin embargo, el hecho de que un “sync byte” aparezca siempre cada 188 bytes dentro de un transport stream hace fácil el proceso de su localización por los decodificadores para identificar el comienzo de cada paquete de transporte. ƒ

Packet Identifier (PID):

Como se ha explicado, un TS puede contener muchos programas diferentes, cada uno de los cuales contiene a su vez muchos flujos elementales distribuidos en paquetes de transporte. El campo de 13 bits “Packet Identifier (PID)” se emplea para distinguir los paquetes de transporte asociados a un determinado flujo elemental, de entre todos los demás. Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

91

De los 213 valores posibles para el PID, 17 están reservados para usos especiales. Esto deja 8.175 posibles valores que pueden asignarse a los diferentes flujos elementales, por lo que esta cifra representa el máximo número de éstos que un TS puede contener. Es responsabilidad del multiplexor asegurar que cada flujo elemental tenga asignado un exclusivo valor de PID de entre todos los posibles. Por lo demás, MPEG no condiciona la asignación de valores concretos a los diferentes flujos elementales. ƒ

Payload Unit Start Indicator:

Se pone a 1 para indicar que el primer byte del “payload” del paquete de transporte es también el primer byte de un PES-packet. ƒ

Continuity count field:

Se incrementa entre sucesivos paquetes de transporte pertenecientes al mismo flujo elemental. Esto permite al decodificador detectar la pérdida o ganancia de un paquete y así poder ocultar los errores que de otra forma podrían presentarse.

6.5. Tabla de Asociación de Programas (PAT) y Tabla de Mapa de Programas (PMT). ƒ

Program Association Table (PAT):

Esta tabla, de inclusión obligatoria, es transportada por los paquetes con PID=0x0000 y contiene una lista completa de todos los programas disponibles en el Transport Stream. Cada programa aparece junto con el valor del PID de los paquetes que a su vez contienen la tabla con los datos que identifican a dicho programa (Program Map Table,PMT).

La PAT debe transmitirse sin cifrar aunque todos los demás programas lo estén.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

92

PID= 0X0000 Paquete de transporte conteniendo la Program Association Table (PAT)

Nº de prog. 0 1 3 18 7 8 10 4

Valor de PID de la program map table 10 306 1127 17 244 244 244 17

Network information table ----- --------------- --------------- --------------- -----------

Program Map Table para el Prog. Nº 3 ----- --------------- --------------- --------------- -----------

Program Map Table para el Prog. Nº 1 ----- --------------- --------------- --------------- -----------

Figura 6.7. Representación de una tabla PAT Como se muestra a modo de ejemplo en la figura 6.7, una sola Program Map Table (la nº 244) puede contener los detalles de varios programas (los numerados como 7, 8 y 10). ƒ

Conditional Access Table (CAT):

Esta tabla debe estar presente si al menos un programa del múltiplex es de acceso condicional. Se transporta por los paquetes con PID=0x0001, y proporciona detalles de los sistemas de cifrado empleados, así como los valores de los PID de los paquetes de transporte que contienen la información del control de acceso condicional.

Los datos para el acceso condicional se envían en forma de “Entitlement Management Messages (EMM)”. En estos “EMM” se especifican los niveles de autorización o los servicios a que pueden acceder determinados decodificadores, y pueden ir dirigidos a decodificadores individuales o a grupos de ellos.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

93

El formato de esta información no está especificado en MPEG-2, puesto que depende del tipo de sistema de cifrado empleado. ƒ

Program Map Table (PMT):

Cada programa audiovisual incluido en un Transport Stream tiene una tabla PMT asociada con él. Dicha tabla proporciona detalles acerca del programa y de los flujos elementales que comprende.

Según MPEG-2, las tablas PMT pueden ser transportadas por paquetes con valores de PID arbitrarios, exceptuando los valores 0x0000, reservado para PAT, y 0x0001 reservado para CAT. Sin embargo, las especificaciones DVB-SI también restringen el uso de los valores de PID que van desde 0x0002 hasta 0x001F (ver tabla 6.3).

En la figura 6.8 se muestra un ejemplo de tabla PMT. Mediante ella, un decodificador puede determinar que el flujo elemental codificado de vídeo correspondiente al programa nº 3 se encuentra en los paquetes de transporte identificados mediante el PID=726 y que el flujo elemental cuyos paquetes están etiquetados con PID = 57 lleva el audio correspondiente en inglés. PID= 1127 Paquete de transporte conteniendo la Program Map Table (MT) del programa nº3

Program Map Table para el Prog. Nº 3 PID para el Program Clock Referente=726 PID para el Video=726 PID para el Audio (Inglés)=57 PID para el Audio (Francés)=60 PID para el Audio (Alemán)=1022 PID para subtitulos=123

Figura 6. 8. Ejemplo de una tabla PMT

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

94

En las tablas PMT los datos de los PID no pueden estar cifrados. Sin embargo, dichas tablas PMT también pueden contener información privada relativa al programa, que eventualmente sí puede estar cifrada (por ejemplo datos para el control de acceso).

6.6 Resumen de la formación del Flujo Transporte. En la figura 6.9 se muestra de manera esquemática la secuencia de operaciones que da lugar a los flujos de programa y de transporte MPEG-2. VÍDEO

CODIFICADOR DE VÍDEO

CCIR 601

AUDIO

AES/EB U

CODIFICADOR DE AUDIO

ES video

ES audio

Empaquetador PES video

PES video

Empaquetador PES PES de audio audio

PAC K& MUX PS.

MPEG2 Program Stream nº 1

PROGRAMA audiovisual nº1 Reloj de sistema (STC) Nº1

VÍDEO

CODIFICADOR DE VÍDEO

CCIR 601

AUDIO

AES/EB U

CODIFICADOR DE AUDIO

PCR/SCR

ES video

ES audio

Empaquetador PES video

PAC K& PES MUX video T.S.

MPEG2 Transport Stream

Empaquetador PES PES de audio audio

PROGRAMA audiovisual nº N Reloj de sistema (STC) nº N

Capa de compresión

Service de información (S.I)

Capa del sistema

Figura 6.9.- Flujos de Programa y de Transporte MPEG-2. Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

95

Dicha secuencia de operaciones puede dividirse en dos grandes bloques, denominados “Capa de Compresión” y “Capa de Sistema”:

En la “Capa de Compresión” se realizan las operaciones propiamente dichas de codificación MPEG, recurriendo a los procedimientos generales de compresión de datos, y aprovechando además, para las imágenes, su redundancia espacial (áreas uniformes) y temporal (imágenes sucesivas), la correlación entre puntos cercanos y la menor sensibilidad del ojo a los detalles finos de las imágenes fijas.

En cuanto al audio, se utilizan modelos psicoacústicos del oído humano, que tienen en cuenta la curva de sensibilidad en frecuencia (máxima entre 1 y 5 kHz), los efectos de enmascaramiento frecuencial (señales simultáneas a diferentes frecuencias) y enmascaramiento temporal (un sonido de elevada amplitud enmascara sonidos más débiles anteriores o posteriores), para reducir la cantidad de datos que hay que transmitir, sin deteriorar de forma perceptible la calidad de la señal de audio.

En la “Capa de Sistema” se realizan las operaciones que conducen a la obtención de los flujos de señal MPEG-2, consistente en la organización en “paquetes”, de los datos comprimidos y el posterior multiplexado de todas las señales asociadas al programa (vídeo, audio, datos, etc).

En el caso de Flujos de Programa MPEG-2, se multiplexan todos los componentes del programa (vídeo, audio, datos, etc.) y se incorpora el reloj del sistema, pero solamente se transmite la información correspondiente a un único programa audiovisual.

En cambio, en el caso de Flujos de Transporte MPEG-2, además de la posibilidad de multiplexado de varios programas audiovisuales, se añaden en el múltiplex diversas informaciones relativas al servicio: Tabla de Asociación de Programas (PAT), Información para Acceso Condicional (CAT), Mapa de cada Programa (PMT), Tabla de datos de la red (NIT), etc.

Digitalización y compresión de la señal de Televisión

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

96

Características básicas de los flujos MPEG-2: Conviene resaltar dos características notables de los múltiplex MPEG-2: ƒ

No existen protecciones contra errores dentro del

múltiplex. Las citadas protecciones y la subsiguiente modulación de los flujos MPEG son objeto de bloques de procesado posteriores, que son función del medio de transmisión elegido. ƒ

No hay especificación física o eléctrica para los múltiplex

MPEG. El diseñador puede elegir los niveles de señal y tipo de conector que mejor se adapte a su aplicación. ƒ Terminología empleada: ƒ

“Program” o “Programa”

Según la terminología MPEG, “Program” significa: Un servicio o canal simple de radiodifusión. ƒ

“Elementary Stream” (E.S.) o “Flujo Elemental”.

Un “Elementary Stream” es el nombre dado a cada componente simple de un “Programa”, después de que se ha codificado digitalmente y comprimido según MPEG, Así, un programa ya comprimido de TV se compone de varios “Elementary Streams”: Uno para el vídeo, varios para sonido estéreo en diferentes idiomas, otro para el teletexto, etc. ƒ

“Packetised Elementary Stream” (P.E.S.).

Cada “Elementary Stream” se estructura en paquetes, dando lugar a un flujo que se denomina “Packetised Elementary Stream” (P.E.S.), y que está compuesto por “PES-packets”.Como cada P.E.S. se obtiene directamente de cada E.S., y éstos son independientes, existirá por tanto un P.E.S. por cada E.S. original.

Digitalización y compresión de la señal de Televisión

Capítulo 7. Bibliografía.

Capítulo VII:

Digitalización y compresión de la señal de Televisión

97

Capítulo 7. Bibliografía.

CAPÍTULO 7. Bibliografía 7.1 Introducción. En este capítulo se van a exponer los títulos de las obras utilizadas en la documentación sobre el contenido de esta monografía. Así mismo también se indicarán las direcciones de las páginas web consultadas para la búsqueda de información.

7.2 Bibliografía. [1] “Televisión Digital” Autor: Hervé Benoit. Editorial: Paraninfo.

[2] “Sistemas para la Recepción de TV Analógica y Digital” Autor: Televés. Editorial: Televés.

Digitalización y compresión de la señal de Televisión

98

Capítulo 7. Bibliografía.

[3] “Televisión Digital; MPEG-2 y DVB” Autor: Luis Ortiz Berenguer. Editorial: E.U.I.T.T. – UPM.

[4] “Televisión por Satélite” Autor: F.A. Wilson. Editorial: CEAC.

[5] “Fundamentos de Comunicaciones Analógicas y Digitales” Autores: José Ramón Velázquez Monzón, Santiago Tomas Pérez Suárez, Sofía Martín González, Rafael Pérez Jiménez, Juan Ruiz Alzola. Editorial: Departamento de Señales y Sistemas – ULPGC.

[6] “Principles of Digital Comunications and Coding” Autores: Andrew J. Viterbi, Jim K. Omura. Editorial: McGrawHill.

7.3 Direcciones WEB. www.dvb.org www.dvbgroup.com www.etsi.org. www.mpeg.org. www.monografias.com/trabajos10/vire/vire.shtml. www.gti.ssr.upm.es/gente/ex/pfcs/pfces/fss/introduccion.html. www.imagendv.com/mpeg.htm. http://en.wikipedia.org/wiki/Run_length_encoding. www.tvdi.net/

Digitalización y compresión de la señal de Televisión

99