Recording technology and podcast microphone for livestream, used to record content discussion for internet channel. Stream sound production at station, creative onlien broadcast. Close up.

Técnicas de grabación de audio inmersivo basadas en objetos

agosto 2, 2024
por

Los avances en los formatos de audio han sido notables a lo largo del tiempo, desde el modesto mono de banda estrecha hasta los complejos sistemas multicanal de alta definición. En la actualidad la evolución nos ha llevado al la grabación de audio inmersivo, que va más allá del estéreo convencional y nos sumerge en un entorno multidimensional desde unos auriculares personales hasta sistemas multicanales en cines u otras grandes salas. Por SeeSound.

© Freepick

El audio inmersivo engloba una amplia variedad de formatos surround, desde los tradicionales 5.0/5.1* hasta los más complejos como el 7.1* y 9.1*. Además, en la actualidad existen formatos que incluyen información de altura, basados tanto en canales como en objetos, lo cual nos aporta una experiencia completamente inmersiva.

La configuración básica y sencilla para el sonido envolvente 5.x (5.0/5.1/5.2) basado en canales es la aplicación de cinco micrófonos en una matriz espaciada. Hay diferentes formas de seleccionar y disponer los micrófonos; esta depende de muchos factores, como las cualidades acústicas de la sala de grabación (por ejemplo, una sala de conciertos/club de jazz/iglesia), la disposición de las fuentes de sonido presentes, la directividad de los micrófonos aplicados o, tal vez, simplemente el gusto.

Las configuraciones pueden variar desde las calculadas matemáticamente y verificadas psico acústicamente hasta las más «emocionales».

Una manera simple de entender estas técnicas conceptualmente sería pensar en la cobertura de un círculo de 360° alrededor de la posición de escucha. Debemos considerar cada dos micrófonos vecinos como un par estéreo, cada par cubre un segmento específico del círculo. Otra forma de verlo, por ejemplo, sería considerar que los micrófonos frontales proporcionan la escena sonora principal y que los micrófonos traseros aportan una sensación de sonido envolvente.

En la actualidad se utilizan diferentes técnicas para grabar audio inmersivo. En este artículo se encuentran descripciones de configuraciones de micrófono más utilizadas por ingenieros de todo el mundo. Es importante definir la configuración de escucha antes de decantarnos por cualquier configuración de grabación. En broadcast y música la configuración de partida es la ITU-775

Matrices coincidentes vs matrices espaciadas

Un array es una disposición física de múltiples micrófonos. El array puede estar formado por varios micrófonos montados en un único pie o quizá en varios pies o soportes. En algunos modelos los micrófonos están integrados en una sola unidad (como en el micrófono envolvente DPA 5100).

En un array coincidente, los micrófonos están montados muy cerca unos de otros. En principio, todos los micrófonos de este tipo de array reciben el sonido simultáneamente.

En la técnica coincidente la localización se basa únicamente en las diferencias de nivel entre las señales. Esta técnica puede crear una precisión de localización adecuada, pero poco envolvente y tendrá un “punto dulce” pequeño (en dos ejes). Sin embargo, la ventaja de un array coincidente es que es compacto, portátil y compatible con mono. Es fácil mezclar los canales en un único canal sin que se produzcan coloraciones y otros artefactos.

Un array espaciado crea una sensación de audio envolvente tridimensional al proporcionar una cantidad adecuada de descorrelación entre las señales (las pistas de localización se basan en las diferencias de tiempo de llegada). Al posicionar los micrófonos (distancia y ángulo) en el campo sonoro, los arrays espaciados siguen proporcionando una precisión de localización adecuada.

Estas técnicas, en general, proporcionan un punto dulce amplio y agradable y dan a los oyentes la sensación de un escenario sonoro amplio y envolvente. La desventaja es su tamaño y, en algunas situaciones, el tiempo de preparación. Además, no es aconsejable mezclar todos los canales en una señal mono, sino utilizar una mezcla adaptada de los mismos.

 EnvolventeTamaño del área de escuchaTamaño y portabilidadPrecisión de localización
Arrays coincidentes++
Arrays espaciados++

5.X

La configuración básica y sencilla para el sonido envolvente 5.x (5.0/5.1/5.2) basado en multi canal es la utilización de cinco micrófonos en una matriz espaciada. Hay diferentes formas de seleccionar y disponer los micrófonos.

Depende de muchos factores, como las cualidades acústicas de la sala de grabación, la disposición de las fuentes de sonido presentes, la directividad de los micrófonos utilizados y/o el gusto del ingeniero. Las configuraciones pueden variar desde las calculadas matemáticamente y verificadas psico acústicamente hasta las más experimentales y prácticas.

Aquí presentamos algunas de las configuraciones habituales. Estamos seguros de que pueden servir de inspiración y serán un magnífico punto de partida para una buena grabación.

Matriz envolvente omnidireccional

Compuesta por cinco micrófonos omnidireccionales dispuestos en una matriz espaciada, proporcionan un buen equilibrio tonal. El contenido de baja frecuencia se reproduce de forma muy convincente. Esta configuración también proporciona una envolvente excelente. Cuando se reproduce, el oyente está rodeado de sonido. El inconveniente de esta configuración puede ser la falta de aislamiento entre canales.

Los tres micrófonos frontales están dispuestos en forma de árbol Decca. Las posiciones se eligen de acuerdo con el ángulo de grabación óptimo de la fuente de sonido.

La posición de los micrófonos traseros se elige independientemente del campo sonoro circundante. Normalmente, los micrófonos traseros no deben colocarse demasiado lejos de los micrófonos delanteros. Si la distancia es demasiado grande, el retardo puede llegar a ser audible. Además, puede ser preferible cierta directividad para la captación surround. Esto se puede conseguir mediante ecualizadores de presión acústica (APE), que garantizan la directividad en las frecuencias más altas, pero mantienen las ventajas de los omnidireccionales, para una buena respuesta en las frecuencias bajas.

Un buen punto de partida en cuanto a medidas para esta configuración podría ser el siguiente: Distancia entre los micrófonos frontales exteriores de 60 a 120 cm. Cuanto mayor sea la anchura de la fuente, menor deberá ser la separación entre los micrófonos. El micrófono central está aproximadamente de 15 a 45 cm delante del par izquierdo/derecho.

Los dos micrófonos traseros se colocan de 2 a 5 m. por detrás del triplete frontal. La distancia entre los micrófonos traseros debe ser de 2 a 3 m. Como se ha mencionado, se pueden utilizar APE para evitar que los transitorios frontales sean reproducidos por los canales traseros.

El ingeniero escocés Michael Williams, ha realizado numerosos estudios sobre MMAD o diseño de arrays multicanales de micrófonos.

Array envolvente cardioide

El array de cinco micrófonos cardioides (direccionales) tiene la ventaja de una mayor separación entre canales en comparación con el array basado en omnidireccionales. Para proporcionar la cobertura correcta en el array, los micrófonos se pueden colocar más cerca unos de otros, creando un array más pequeño.

Esta sería una configuración típica cardioide de 5 canales, que proporciona la misma cobertura en todos los segmentos del círculo.

Array envolvente cardiode ancho

El “Wide Cardioid Surround Array (WCSA)”, introducido por Mikkel Nymand, proporciona cualidades tímbricas iguales, un alto grado de envolvente y buenas propiedades de baja frecuencia.

Para obtener el carácter sonoro deseado las cinco señales deben estar descorrelacionadas. Esto significa que los micrófonos deben colocarse a una distancia suficientemente grande, pero, por otro lado, las señales no deben ser demasiado diferentes (distantes) entre sí. Si esto ocurre, el sonido resultante no será coherente.

A menudo los micrófonos omnidireccionales se prefieren en los arrays espaciados. Esto se debe a su color de sonido natural y a su capacidad para mezclar las señales directas con el timbre de la sala. Los cardioides anchos (también denominados sub-cardioides) tienen una cualidad ligeramente más direccional, lo que proporciona un mayor control del ambiente y una mejor imagen frontal y precisión de localización.

El array surround creado por Geoff Martin y Jason Corey, utiliza un micrófono omnidireccional y otro cardioide para crear características de cardioide ancho.

Centrándose en evitar las interferencias entre canales, los pares de micrófonos se espaciaron 60 cm (izquierdo-central), 60 cm (derecho-central), 60 cm (frente-trasero) y 30 cm (trasero izquierdo-trasero derecho). Los micrófonos traseros utilizados son cardioides orientados hacia arriba para captar la información de altura.

DPA Microphones ha adaptado esta matriz para utilizar cinco micrófonos cardioides anchos idénticos (ajustados dentro de una tolerancia muy estrecha de ±1 dB en respuesta de frecuencia y sensibilidad). La elección de cinco micrófonos idénticos en lugar de un tipo de micrófono específico mantiene la mezcla natural y conduce a una reproducción más auténtica y uniforme de todos los canales.

Tras intensas sesiones de escucha y numerosas pruebas prácticas en diferentes aplicaciones de grabación (música sinfónica, jazz moderno, PA/Live, conciertos pop y grabación de ambientes), se ha descubierto que esta configuración tiende a funcionar mejor con una separación mayor, especialmente de los canales traseros. Este array crea un carácter sonoro intenso, dinámico y envolvente.

Para espacios amplios con grandes formaciones de músicos (o grandes distancias del array a la fuente), se puede ampliar este array con dos outriggers omnidireccionales izquierdo/derecho para beneficiarse de la captación de baja frecuencia de dichos micrófonos. Cuando estos micrófonos se mezclan con los canales izquierdo y derecho del array a un nivel adecuado, ofrecen una imagen de sonido envolvente coherente, precisa y rica.

Soundfield/Ambisonics

A principios de los años 70, los ingenieros británicos Peter Felget y Michael Gerzon inventaron el principio de campo sonoro conocido posteriormente como Ambisonics (Hoy como ambisonics de primer orden). El formato se basa en una matriz coincidente de micrófonos. El objetivo es facilitar la orientación arbitraria de los micrófonos en cualquier dirección, izquierda/derecha, delante/detrás, arriba/abajo. Básicamente, el principio del campo sonoro funciona como un M/S, por suma y resta de las señales disponibles. Hay dos configuraciones asociadas a Ambisonics: El formato A y el formato B.

El formato A es la disposición física de cuatro cápsulas de micrófono cardioides y su salida: FU (frontal superior), RU (trasera superior), LD (izquierda inferior) y RD (derecha inferior). Los ángulos entre las cápsulas son congruentes con un tetraedro.

El formato B es una versión convertida del formato A, lo que da lugar a un formato virtual formado por tres cápsulas bidireccionales orientadas ortogonalmente: X (delante/detrás), Y (lateral), Z (arriba/abajo) y una omnidireccional (W).

Por adición y sustracción de las señales individuales, puede convertirse en un micrófono direccional. Por ejemplo, una omnidireccional (W) y una bidireccional (X) crean un cardioide que apunta en la dirección X.

DPA Microphones fabricó micrófonos para este formato, pero en la actualidad ya no lo hace.

Triángulo cardioide optimizado (OCT)

OCT es un array diseñado únicamente para los tres canales frontales. El sistema ofrece una gran separación entre el centro-izquierda y el centro-derecha. Debe elegirse cuidadosamente una configuración adicional para los canales surround.

Se utiliza un micrófono cardioide para el canal central colocado a sólo 8 cm delante de dos hipercardioides para los canales izquierdo y derecho, apuntando hacia fuera. La separación entre los micrófonos izquierdo y derecho es la clave del ángulo de grabación deseado. Los diseñadores recomiendan distancias de entre 40 cm y 90 cm, lo que da lugar a ángulos de grabación de 160° a 90°.

Se pueden añadir al sistema uno o varios micrófonos omnidireccionales para compensar la falta de baja frecuencia de las otras cápsulas.

Doble MS

Se trata de una configuración de sonido envolvente coincidente en el tiempo, compacta y ajustable para sonido inmersivo. En esta se utilizan dos micrófonos cardioides y un micrófono bidireccional. Alternativamente, la configuración se puede crear a partir de cuatro micrófonos cardioides. El principio de la técnica de Doble MS es un micrófono cardioide apuntando hacia delante y otro hacia atrás que proporcionan la información central, compartiendo un mismo micrófono bidireccional para la captación lateral. En esta configuración, es necesario procesar las señales para crear el formato final. En esta configuración es importante prestar atención, ya que existe el riesgo de que las respuestas de frecuencia y fase de la reproducción del sonido sean diferentes desde diferentes posiciones.

Así se obtienen los canales:

Centro = Cardioide frontal

Izquierda = Cardioide frontal + S

Derecha = Cardioide frontal – S

Surround izquierdo = Cardioide posterior + S

Surround derecho = Cardioideposterior – S

La mezcla de cada señal se ajusta para una distribución espacial correcta, respetando la imagen frontal. Normalmente, la amplitud izquierda/derecha es mayor en comparación con la MS estándar.

La técnica de Doble MS se puede conseguir utilizando cuatro micrófonos cardioides 4011A o 4011C idénticos uniformemente emparejados y angulados en el plano horizontal a 0°, 90°, 180° y 270° respectivamente. Las membranas deben colocarse una encima de la otra para obtener la mejor alineación temporal en el plano horizontal.

Mfront = Cardioide frontal

S = S’ (Cardioide izquierdo) – S» (Cardioide derecho)

Mrear = Cardioide trasero

En la grabación práctica con un mezclador, basta con panoramizar «cardioide izquierdo» hacia la izquierda y «cardioide derecho» hacia la derecha e invertir la fase. La forma «sucia» de hacerlo es utilizando un cable de suma en Y e invirtiendo el conector XLR para el cardioide derecho.

Fukada tree

Fukada Tree es un array Decca Tree, pero con cinco micrófonos cardioides y dos micrófonos omnidireccionales adicionales como estabilizadores para mezclarse entre los canales delantero y trasero. Esta configuración fue diseñada por Akira Fukada en 1997.

La elección de micrófonos cardioides mejora la separación de canales, y los cardioides traseros orientados hacia atrás también minimizan el sonido frontal directo a los altavoces traseros.

Los micrófonos omnidireccionales suelen preferirse en las configuraciones Decca Tree para grabaciones musicales debido a su color natural y a su ancho de banda de frecuencias completo. Las dos extensiones omnidireccionales sirven para este fin tan importante en el array de Fukada.

Desde que Akira Fukada, presentó este diseño, ha realizado una serie de modificaciones de posicionamiento para mejorar la localización frontal, pero su elección de micrófonos sigue siendo DPA por su sensación de transparencia.

Hamasaki Square

Hamasaki Square consta de cuatro micrófonos bidireccionales dispuestos en un cuadrado.

Está diseñado para captar la parte ambiental/difusa de una grabación de sonido envolvente. Es un cuadrado de cuatro micrófonos con una separación de 1,8 a 2 m.

entre los micrófonos bidireccionales. Estos micrófonos apuntan con sus direcciones sensibles en fase hacia los lados y con sus nulos hacia el sonido directo.

Comparado con otros sistemas de grabación de ambiente, este sistema es el menos sensible en cuanto a la distancia entre el array principal y el array de ambiente.

Esta configuración ha sido desarrollada por el ingeniero de sonido japonés Kimio Hamasaki.

Audio inmersivo con altura

Las configuraciones desarrolladas para grabaciones surround tradicionales (como 5.1) han demostrado funcionar muy bien. Sin embargo, añadir altura a estas grabaciones genera durante la escucha un efecto muy interesante, ya que añade una nueva dimensión a la experiencia.

El reto es, sin embargo, cómo añadir imágenes sonoras dirigidas hacia arriba, sin cambiar la localización percibida de las fuentes sonoras situadas horizontalmente, lo que significa minimizar la diafonía vertical entre canales. Para ello hay que tener en cuenta las diferencias verticales de tiempo y nivel. También hay que tener en cuenta la separación de los micrófonos verticales necesarios para la descorrelación. Por último, ¿cómo evitar el filtro peine en una posterior reducción a menos canales en mezcla?

Cuando la información sobre la altura se añade de la forma adecuada, se mejora la envolvente percibida creada por el sonido. Además, esta práctica ha demostrado una mejora de la precisión percibida al localizar las fuentes sonoras, incluso en el plano horizontal.

El Dr. Hyunkook Lee, de la Universidad de Huddersfield (Reino Unido), y su grupo de investigación han aportado cuantiosa información teórica y práctica sobre la imagen sonora percibida.

Un factor importante que descubrió es que el efecto de precedencia (el efecto del primer sonido que llega determina la dirección) no funciona en el plano vertical. De ahí que sea fundamental fijarse en las diferencias de nivel. Al reproducir el mismo sonido en el altavoz inferior y en el superior, se observó que la presencia de frecuencias más altas y señales transitorias empuja la localización hacia el altavoz superior.

La orientación de los micrófonos es tal que el sonido frontal entra más atenuado en la capa superior de micrófonos. En general, cualquier micrófono de la capa superior debe recibir la menor cantidad posible de sonido de las fuentes horizontales primarias y de las fuentes situadas por debajo del plano horizontal.

IRT Cross

IRT Cross está diseñado para la captación de ambientes. Esta configuración consta de cuatro micrófonos cardioides.

Concretamente, está diseñado para captar la parte ambiental/difusa de una grabación de sonido envolvente. Se trata de un cuadrado de cuatro micrófonos con 20-25 cm entre los micrófonos cardioides, que se dirigen a la izquierda, derecha, surround izquierdo y surround derecho en un nivel adecuado en comparación con un array frontal.

El IRT Cross se coloca normalmente un par de metros por detrás del array principal. Sin embargo, no debe colocarse demasiado lejos, ya que pueden producirse problemas de tiempo (como el eco) en la señal reproducida. La colocación óptima del IRT Cross busca el equilibrio entre conseguir suficiente ambiente y, al mismo tiempo, evitar el eco.

Object-based audio

Durante años, el sonido envolvente se ha basado en canales. Por ejemplo, un canal para mono, dos canales para estéreo, seis canales para 5.1 o 24 canales para NHK 22.2.

Las convenciones relativas a la colocación de los altavoces para cada formato han sido la columna vertebral del diseño de sonido. La panoramización entre canales con ayuda de ajustes de retardo o nivel ha sido la herramienta para la colocación de las fuentes en la escena sonora. El producto final estará contenido en un número fijo de canales; aunque el material del programa se grabará originalmente en un número enorme de pistas de audio, el resultado cabría en un número concreto de canales, uno para mono, dos para estéreo, etc. 

El audio basado en objetos (OBA) es algo diferente. Un «objeto sonoro» puede grabarse en una o varias pistas. Junto al audio van los metadatos que indican dónde colocar el objeto en el escenario sonoro.

Un objeto puede ser una voz grabada en mono. Si los productores pretenden que la voz proceda de la parte derecha del escenario, los metadatos de la grabación de voz contienen las coordenadas de este sonido.

En principio, un objeto también puede proceder de una grabación ambisónica o de cualquier otro formato. Por tanto, un programa audiovisual con OBA se construye a partir de una cadena de objetos, como grabaciones de voz, música, sonidos ambientales, efectos sonoros especiales, etc. Cada objeto contiene metadatos sobre cual es la posición de la escena sonora donde debe reproducirse.

OBA ¿Por qué?

La idea general es dejar un mayor grado de libertad al oyente, sobre todo en la radiodifusión. Ahora es posible enfatizar un solo objeto. Si un oyente con problemas de audición quiere subir el nivel del diálogo, es una posibilidad, si grabas el diálogo como un objeto. También puedes cambiar el idioma del diálogo, si asignas cada idioma objetos diferentes.

De las producciones televisivas, como las carreras de Fórmula 1, sabemos que se pueden seleccionar cámaras especiales a bordo de cada coche, si el espectador quiere seguir un coche específico. El sonido de ese coche concreto es un objeto ligado a la imagen. Los instrumentos musicales específicos de una orquesta pueden considerarse objetos. Alternativamente, el sonido de un concierto, grabado en diferentes posiciones de escucha, pueden ser objetos.

Otro argumento a favor de la OBA es que casi cualquier formato de reproducción es válido. Las reducciones de la mezcla principal se optimizan en función del número de canales y sus posiciones disponibles para la reproducción (siempre que el número de canales sea al menos dos). También se permite la reproducción binaural.

¿Micrófonos?

La idea básica es que el ingeniero de sonido pueda utilizar el tipo de micrófonos que desee. No existen necesariamente requisitos de micrófonos específicos, configuraciones de micrófonos o marcas de micrófonos. La exigencia especial depende del equipo de producción, que establece los metadatos y, por supuesto, a los formatos finales.

Micrófonos y accesorios recomendados según técnicas de captación:

Array envolvente basado en omnidireccionales

  • 4006A Micrófono omnidireccional.
  • 4006C Micrófono omnidireccional compacto.
  • 5006A Kit Surround de cinco 4006A pareados, clips y antivientos en una Peli™ case.
  • S5 Estructura para Surround/Decca Tree.

Array envolvente cardioide

  • 4011A Micrófono cardioide.
  • 4011C Micrófono cardioide compacto.
  • S5 Estructura para Surround/Decca Tree.

Array cardiode amplio (WCSA)

  • 4015A Micrófono cardioide amplio.
  • 4015C Micrófono cardioide amplio compacto.
  • 5015A Kit Surround de cinco 4015A pareados, clips y antivientos en una Peli™ case.
  • 4006A Micrófono omnidireccional.
  • 4006C Micrófono omnidireccional compacto.
  • 3506A Kit de dos 4006A, clips y antivientos en una Peli™ case.
  • S5 Estructura para Surround/Decca Tree.

Triángulo cardioide optimizado (OCT)

  • 4011A Micrófono cardioide.
  • 4011C Micrófono cardioide compacto.
  • 4018A Micrófono supercardioide.
  • S5 Estructura para Surround/Decca Tree.

Doble MS

DPA no ofrece ningún micrófono bidireccional. Sugerimos el Schoeps MK8 con preamplificador CMC6. Sin embargo, si se desea probar esta configuración con micrófonos DPA, sugerimos sustituir cada micrófono bidireccional por dos micrófonos cardioides:

  • ST4011A Par estéreo de 4011A cardioides.
  • SB0400 Soporte para micrófonos estéreo.
  • UA0836 Soporte para micrófonos estéreo.
  • DUA0019 Espaciador para Soporte de micrófonos estéreo, 19 mm.

Fukada tree

  • 4011A Micrófono cardioide.
  • 4011C Micrófono cardioide compacto.
  • 4006A Micrófono omnidireccional.
  • 3506A Kit de dos 4006A, clips y antivientos en una Peli™ case.
  • S5 Estructura para Surround/Decca Tree.
  • ST4011A Par estéreo de 4011A cardioides.
  • SB0400 Soporte para micrófonos estéreo.

Cuadrado Hamasaki

DPA no ofrece ningún micrófono bidireccional. Sugerimos el Schoeps MK8 con preamplificador CMC6. Sin embargo, si se desea probar esta configuración con micrófonos DPA, sugerimos sustituir cada micrófono bidireccional por dos micrófonos cardioides:

  • ST4011A Par estéreo de 4011A cardioides.
  • S5 Estructura para Surround/Decca Tree.

Audio inmersivo con altura

  • 8 x 4011A Micrófono cardioide.
  • 2 x 4018 Micrófono supercardioide.

IRT Cross

  • 4011A Micrófono cardioide.
  • 4011C Micrófono cardioide compacto.
  • ST4011A Par estéreo de 4011A cardioides.
  • MMC4011 Cápsula cardioide.
  • MMP ER/ES Cable activo modular.
  • SB0400 Soporte estéreo modular.
  • UA0837 Soporte estéreo.

Micrófono envolvente DPA 5100

El micrófono envolvente DPA 5100 es una solución plug-and-play perfecta para infinidad de aplicaciones. Contiene tres cápsulas frontales direccionales cardioides dispuestas de forma coincidente. Los canales traseros son grabados por un par espaciado de dos micrófonos omnidireccionales. La unidad también proporciona una salida LFE. Todos los canales están calibrados con ganancia unitaria. El LFE se reduce 10 dB, según la norma. El 5100 es muy apreciado en la producción cinematográfica para trabajos de 2ª unidad.