Cómo se procesó el audio de "El relato como creación de la realidad en Borges"

La charla de Elena El relato como creación de la realidad en Borges se grabó con una Sony ICD-PX312. Es una buena grabadora, pero las condiciones de la sala eran muy complicadas: ruido de fondo monumental (ruido de otras aulas, ruido de los tubos fluorescentes), los alumnos tosiendo constantemente, jugando con los bolígrafos, tecleando en los ordenadores, Elena moviéndose por la tarima y preguntas y lecturas de los alumnos, alejados del micrófono. Incluso se puede oír perfectamente a un alumno afilar sus lápices con un afilador eléctrico.

Intentar obtener un audio inteligible de una calidad mínima ha sido difícil. Voy a describir los pasos aquí. Usé el software Audacity.

  1. El audio original proporcionado por el Sony ICD-PX312 es un MP3 estereo de 192 Kbps. La grabadora puede entregar un bitrate de hasta 320 Kbps, pero es matar moscar a cañonazos para voz y para las condiciones de la sala.

  2. Cargamos ese audio en Audacity.

  3. El audio es estéreo. Lo convertimos a mono.

  4. Recorto el principio y el final del audio, dejando espacio para el fade out.

  5. El ruido de fondo es brutal. Buscamos una zona que solo contenga ruido de fondo, lo analizamos, y utilizamos dicho análisis para reducir el ruido de fondo (más o menos constante) de toda la grabación.

    Experimenté con varios niveles de reducción: 12, 18 y 24 decibelios. A mayor filtrado del ruido, mayor distorsión de la voz de Elena.

    Acabo aplicando un filtrado de 24 dB, lo que reduce el ruido a unos -82 dB. Lamentablemente esto introduce importantes distorsiones en el audio, sobre todo en las partes ambientales. Tras numerosas pruebas, este es el mal menor. No vale la pena sacrificar la calidad de las partes donde habla Elena en favor de las partes ambientales que, en cualquier caso, ya tienen una calidad ínfima.

  6. Aplico click removal para eliminar golpes, crujidos y demás. La mejora es claramente perceptible.

  7. Aplico un filtro paso bajo agresivo con una frecuencia de corte de 7500 Hercios. Si las voces fuesen masculinas, podría haber cortado más abajo.

  8. Remuestreo el proyecto de los 44100 Hz originales a 16000 Hz.

  9. Aplico un compresor de audio con una configuración muy agresiva. La proporción que he aplicado es de 10:1, en vez del habitual 2:1. Hago esto para poder subir el nivel de audio ambiental cuando habla alguien de la sala. Esas porciones de audio tenían un volumen bajo, ruidoso y con un nivel de distorsión elevado debido al filtrado del punto 5. El resultado es una voz de baja calidad (de donde no hay no se puede sacar) pero con un buen volumen.

    El audio final pierde muchísimo rango dinámico (la voz de Elena queda plana pero inteligible), pero se puede escuchar en un entorno ruidoso como el coche o en el metro (con auriculares).

  10. Exporto el audio a WAV.

  11. Comprimo el resultado en Opus, con varios bitrates: 12, 16, 20, 24, 28 y 32 Kbps. También realizo una compresión Opus sin limitación de bitrate, resultando en un fichero con una media de 33.3 kbps.

  12. Haciendo varias pruebas subjetivas entre Elena y yo con segmentos de audio especialmente dificultosos, determinamos que las versiones Opus de 12 y 16 Kbps tienen defectos detectables. La calidad podría ser aceptable con audios más limpios, pero en nuestro caso sacrificar todavía más calidad en un audio ya de por sí pobre, es masoquista. Ni Elena ni yo somos capaces de detectar defectos importantes en la versión de 20 Kbps, así que es la que utilizaremos.

El MP3 es lo peor pero sigue siendo el rey

Mi idea original era publicar el audio exclusivamente en formato Opus, un formato moderno, potente y sin patentes. Hoy en día Opus está soportado oficialmente en los navegadores web más habituales, en Android, en iOS y en macOS:

Lamentablemente hay muchísima gente con versiones de macOS anteriores a 10.13 y, además, el soporte Opus en macOS e iOS requiere un formato de fichero concreto diferente propio de Apple, llamado caf (Core Audio Format). Además, no puedo depender de que todo el mundo use los navegadores Chrome o Firefox.

Me interesa promocionar Opus, así que es el formato al que he dado más preponderancia y calidad. Para los que no puedan reproducirlo, también he publicado una versión en MP3. Dicha versión se basa en la versión Opus de 33 Kbps y tiene un bitrate de 47 Kbps [1].

Realicé la conversión utilizando la técnica descrita en Conversión de Opus a MP3, con los parámetros --tt, --ta y --tc para las etiquetas ID3.

Profundizaré en este tema en un futuro.

[1]

Lo correcto hubiera sido generar el MP3 a partir del WAV ya procesado, pero me di cuenta de que necesitaría publicar también un MP3 tras generar los Opus y tras haber borrado el audio sin comprimir.

Fue una completa sorpresa y decepción constatar que Opus sigue sin conseguir masa crítica en ámbitos generales. Tras leer los artículos anteriores en 2017, me sentí feliz y di por hecho que podría olvidarme por fin de esa antigualla de MP3. Iluso...

¿Podría haber obtenido un mejor resultado?

Naturalmente, una grabación de mejor calidad proporcionaría un audio mejor.

Lo que debería haber hecho es separar el audio en dos pistas diferentes, procesarlas por separado y volver a unirlas para obtener el audio final:

  • La separación de las pistas se podría hacer por volumen de sonido.
  • La voz de Elena, con buen volumen: puerta de ruido, filtro de ruido, compresión moderada. La relación señal a ruido es elevada, así que el ruido se podría filtrar de forma agresiva sin perder calidad en la voz.
  • Sonido ambiental: filtro de ruido moderado, compresión elevada. Habría que aceptar un alto nivel de ruido a cambio de una mejor inteligibilidad de la voz.

Una solución de alta calidad podría haber sido un filtro de voz de análisis-síntesis, pero es un proyecto de investigación a largo plazo.

En vez de procesar el sonido para reducir su frequencia de muestreo y su ancho de banda antes de realizar la compresión Opus, hubiera sido interesante aplicar Opus forzando un bitrate bajo para que sea el modelo psicoacústico de Opus el que decide qué vale la pena conservar y qué se sacrifica, segundo a segundo.