Escuela Superior de Audio y Acústica

Correo Electrónico

Cuánto comprime un MP3

José Mujica

    La compresión MP3 fue una respuesta de la ingeniería al problema de almacenamiento digital y sus grandes requerimientos de recursos de memoria. Una señal convencional digital, llamada PCM (Pulse Code Modulation) podría fácilmente requerir hasta 10 Megabytes de memoria por minuto. Esto representaría unos 30 Mb para una canción de tres minutos.

    Ese requerimiento de memoria de almacenamiento podría ser manejado por cualquier computador si se tratara de pocos archivos, pero cuando se habla de tres mil canciones los números pasan a ser preocupantes. Como si esto fuera poco encima se tiene el problema de Internet y sus velocidades actuales de transmisión. En el caso de las líneas telefónicas éstas tienen una limitación de su ancho de banda de transmisión por lo que los archivos muy grandes o pesados representan un problema para el tráfico convencional de la red.

     La compresión de MPEG3 se considera la parte de sonido del formato original MPEG1 que fue concebido para la cinematografía. Sus siglas, Moving Picture Experts Group vienen del comité que fue creado por la Organización ISO (international Standars Organisation) y IEC ((International Electrotechnical Comission) para desarrollar este formato. Su principio se basa en el modelo Psicoacústico.

    Se sabe que el oído humano discrimina los sonido de acuerdo a sus limitaciones. De acuerdo al experto en la materia Paul Sellars, "Si uno escucha un aplauso solitario en una sala, seguramente sonará fuerte, pero si es precedido por el sonido de un disparo, sonora más débil. Igual sucede en una sala cuando se graba a una banda de rock, en un momento determinado la guitarra sonora más fuerte en la mezcla, hasta el momento en que el baterista toque un determinado platillo, en cuyo punto la guitarra parecerá atenuarse" Este fenómeno es aprovechado por el algoritmo de MP3 para realizar su compresión. Alguna vez lo expliqué en el artículo que hablaba de la compresión ATRAC del Minidisc.

   El formato MP3 divide el sonido en 32 sub-bandas lo que le permite de acuerdo al modelo Psicoacústico en que se basa, dar prioridad a un elemento sobre otro. En un momento determinado del material podemos tener un sonido predominante de baja frecuencia del bombo, uno de alta frecuencia del platillo y del vocalista a la vez. El algoritmo no es que elimina dos de ellos, sino que les dedica menos espacio de almacenamiento.

    La parte matemática empleada con la compresión MP3 pasa por el teorema de Shannon-Nyquist, el cual establece que para que una onda pueda ser reproducida adecuadamente en formato digital PCM, su frecuencia de tomas (Sampléo) debe ser el doble de la mayor que se quiera reproducir. En este caso si queremos reproducir la frecuencia de 22.5KHz, (El rango auditivo oscila entre los 20Hz-20KHz), nuestra frecuencia de sampléo deberá ser de 44.1KHz.

    También se emplea la Transformada Rápida de Fourier (FFT)que como sabemos puede descomponer una onda compleja (El material PCM) en una onda fundamental con sus armónicos, todo a partir de su amplitud. Igualmente se usa la Transformada Discreta del Coseno, que se basa en la FFT pero solo empleando los números reales

    HASTA DONDE ES RECOMENDABLE

    Estos formatos seguirán perfeccionándose y surgiendo, pero se debe entender que a pesar de estar difundido puede haber detalles que no se percibirán. En otras palabras para un trabajo serio de Audio no se debe emplear este formato.

    Algunas mejoras pueden hacerse buscando compresores que tengan una mejor relación, tales como los de 224, 256 y 320 Kbps. También se puede considerar usar la codificación VBR (Variable Bit Rate) donde los pasajes musicales con mayor complejidad dinámica son tratados con una mayor tasa de almacenamiento en contraste con los más sencillos. Como sea esto traerá otras complicaciones debido a que no todos lo reproductores pueden manejarlos.

 

 

El Proceso Gráficamente

 

Cuando dos sonidos ocurren simultáneamente o muy cercanos, uno puede ser enmascarado por el otro.  Esto como resultado de su volumen y frecuencias. 

 

Una vez que el programa codificador agrupa a las sub-bandas para administrar las cantidades de porcentajes de almacenamiento, éstas son ahora divididas en cuadros.  El programa examina estos cuadros para determinar los enmascaramientos a los cuales les puede ser permitido saturar y calcula un factor llamado Relación Máscara-Ruido para cada cuadro. Finalmente usa esta información para el proceso de asignación de Bits de almacenamiento.

Durante la asignación de Bits, el programa decide cuántos Bits de data deben ser usados para cada cuadro. Mientras más Bits sean permitidos, más efectivo será la compresión. Como sea, el Codificador necesita asignar más Bits a los cuadros donde el enmascaramiento sea muy pequeño o no exista.  El número total de Bits de memoria disponibles, variará de acuerdo a la relación de transmisión asignada, la cual es escogida antes de la compresión. Cuando la calidad de sonido es una prioridad, se suele usar una relación de 128 kbps.