Espacio-Timbre en Música Electroacústica
Espacio-Timbre en Música Electroacústica
net/publication/369649259
CITATIONS READ
0 1
1 author:
Edmar Soria
Autonomous University of Mexico City
3 PUBLICATIONS 1 CITATION
SEE PROFILE
All content following this page was uploaded by Edmar Soria on 30 March 2023.
ESPACIO-TIMBRE
Hacia una teoría interdisciplinar
en la música electroacústica
EP
UB
Espacio-Timbre
Hacia una teoría interdisciplinar
en la música electroacústica
Fotografía de portada: Giovanni Michelle Arroyo Torres, “Día 2. Pt. 4”, fotografía digital, 2022.
Esta publicación no puede ser reproducida en todo ni en parte, ni registrada o transmitida por un sistema
de recuperación de información en ninguna forma y por ningún medio, sea mecánico, fotoquímico, electrónico,
magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso previo y por escrito de los editores.
La presente publicación pasó por un proceso de dos dictámenes (doble ciego) de pares académicos
avalados por el Consejo Editorial de la División de Ciencias Sociales y Humanidades de la UAM-Lerma,
que garantizan su calidad y pertinencia académica y científica.
Distribución: TintaRoja <www.tintaroja.com.mx>
Juan Pablos Editor es miembro de la Alianza de Editoriales Mexicanas Independientes (AEMI)
Índice
15 Introducción
[ 7]
8 ÍNDICE
181 Conclusiones
185 Apéndice
185 Notación matemática
185 Fundamentos de sistemas dinámicos
190 Algoritmos computacionales
190 Dynamic Time Warping (DTW)
190 Alineación global de Kernel K-Medios
192 Bandas LB Keogh
193 Métricas de similaridad para cadenas de caracteres
195 Entropía aproximada
201 Bibliografía
Agradecimientos:
A mis padres, María Teresa y Edmundo.
Agradecimientos especiales:
Eduardo Morales Manzanares, Luis Alfonso Estrada Rodríguez, Ricardo Dal Farra,
Luz María Sánchez Cardona, Josué Martínez Alcántara, Montserrat GE.
Enrique Ruíz Velasco, Javier Álvarez, Juan Pampín, Daniel Teruggi, Diego Losa,
Beatriz Ferreira, Annete Vande Gorne.
Para vivir en el cruce de la imaginación de las formas y de la
imaginación de las fuerzas, hay una obra particularmente eficaz;
es la obra de un poeta y grabador, la obra de William Blake. [...]
Podríamos llamar a ciertos poemas de Blake, poemas absolutos,
es decir, poemas que no traducen ideas, pero que anudan
a las palabras mismas la materia imaginaria y la forma de los
fantasmas, el movimiento de la palabra y el movimiento del
cuerpo “el pensamiento” y el “moviente”, o mejor aún, el parlente y
el moviente. [...] Aquí son las imágenes verbales las que profetizan.
No hay pensamiento profético subyacente.
L
a práctica e investigación de la música electroacústica ha sido desde sus ini
cios, dada su naturaleza, una formulación estética cuyo desarrollo histórico se
encuentra íntimamente relacionado con la tecnología y con algunos campos
del saber como la estética, la hermenéutica, la fenomenología, las ciencias cog-
nitivas y por supuesto la acústica y la psicoacústica. Esta posición privilegia
da la plantea como un punto de convergencia para la multi e interdisciplinariedad que le
permite, además, nutrirse de manera directa de planteamientos, reflexiones y herramientas
teórico-conceptuales propias de otros campos disciplinares, con el fin de extender su pro
pio desarrollo, desde lo abstracto y lo práctico, desde lo técnico y lo estético.
A lo largo de la historia de la práctica e investigación de la música electroacústica resaltan
dos parámetros composicionales primordiales en el lenguaje estético de esta expresión artísti-
ca: el espacio y el timbre. Como es bien conocido, la exploración tímbrica se posicionó como un
elemento predominante en la composición musical durante segunda mitad del siglo XX, y es
posible afirmar que, en cierto modo, ha dirigido la composición del parámetro del espacio
dentro de la electroacústica multicanal.
La investigación del espacio como elemento composicional con una identidad individual
se desarrolló históricamente de manera más bien fragmentada y no sería del todo incorrecto
afirmar que no existe, al día de hoy, una consolidación homogénea respecto del mismo; ni des-
de un planteamiento teórico ni desde una formulación explicativa de éste, como fenómeno
perceptual a través de un marco teórico o contextual específico. Al parecer el desarrollo más
notable se concentra en el diseño de herramientas digitales de espacialización y en las conse-
cuencias directas de su uso, así como en la exploración estética de las diversas posibilidades
desde la práctica y el imaginario experiencial de cada compositor/compositora. En este sen
tido, si bien existen numerosos compositores que desde la segunda mitad del siglo pasado
[ 15 ]
16 EDMAR OLIVARES SORIA
Organización de la obra
El marco teórico propuesto en este libro incluye, entonces, la hipótesis fundamental de que el
espacio y el timbre están inexorablemente ligados de modo tal que, dentro de un contexto es-
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 17
• Aspecto perceptual.
• Aspecto acústico.
• Representación abstracta matemática.
Warping (DTW) y aprendizaje no supervisado (para series de tiempo) basado en Global Alignment
Kernel (GAK). Estableciendo centroides derivados del cálculo de baricentros euclideanos y
bandas LB Keogh, se define un espacio espectromorfológico de referencia (construido
mediante el análisis de muestras de audio de instrumentos musicales convencionales). De ma-
nera posterior, cualquier muestra arbitraria de audio puede ser analizada en relación con este
espacio de referencia y puede ser asociada, por grado de similaridad, a una espectromor
fología de algún instrumento musical convencional de modo tal que dicha muestra puede
ser tratada, en cierto grado, conforme a los principios de orquestación y acústica conocidos
para tal instrumento; esto es lo que se nombrará orquespectración virtual. Este capítulo tiene
la intención puntual de mostrar una implementación práctica y concreta del modelo teó
rico de modo tal que se puedan comprender de manera más clara tanto las propuestas teóricas
como las formulaciones metodológicas planteadas en este trabajo.
Panorama general
L
a percepción sensorial (en particular de la percepción sonora) es un elemento
clave que permite abordar el proceso composicional relacionado a lo multica
nal (y por lo tanto a lo espacial en la música) de una manera particular, ya que a
través de ella el compositor o compositora puede conocer los diversos fun
damentos acústicos y psicoacústicos que conforman el fenómeno tímbrico y
de la espacialización sonora.
Si bien los compositores electroacústicos conocen perfectamente varios de estos funda
mentos acústicos/psicoacústicos que explican y desarrollan la sensación de espacialidad en la
experiencia aural de una obra, pareciera que no se ha prestado la suficiente atención a la cons
trucción de un marco teórico o estructura conceptual que incorpore dichos elementos de ma
nera cohesiva en el proceso creativo como parte fundamental del conocimiento composicional.
El objetivo principal de este trabajo, tal y como se mencionó en la parte introductoria, es
la construcción de un modelo teórico que explique el concepto de Espacio-Timbre basado
en cuatro bloques fundamentales: la percepción del sonido (o experiencia aural), la escucha
espacial, las propiedades acústicas inherentes de las fuentes (o espectromorfología) y la for
malización de ambas a través de un lenguaje matemático basado en sistemas dinámicos.
En este capítulo se establecieron los fundamentos necesarios para desarrollar la parte aso
ciada a la percepción y en particular a la percepción sonora general. Se detallarán, en primer
término las características básicas del fenómeno de la percepción sensorial analizado desde
enfoques particulares que luego permitirán construir conceptos y definiciones categóricas
acerca de la percepción auditiva. Este primer análisis hará posible, en capítulos subsecuentes,
[ 21 ]
Comprender algunos principios básicos sobre la percepción sensorial general nos va a per
mitir, además, elaborar algunas ideas acerca de los procesos, elementos o incluso estrategias
que podrían influir positiva o negativamente en la construcción (concepción/composición) y
presentación (formato/display) de una obra; de este modo obtendremos algunas referencias
a modo de guía sobre dichas aproximaciones.
Más aún, la concepción teórica de espacio que se presenta en este libro se construye a partir
de la integración de todos estos elementos asociados a la percepción sensorial y a la percepción
sonora.
El fenómeno de la percepción sensorial implica una reconstrucción del mundo externo median
te un proceso cognitivo que revela una multiplicidad de aristas al momento de ser analizado.
Existen numerosas posturas que intentan explicar dicho proceso en diversos campos: la filosofía
de la mente, el idealismo objetivo-subjetivo, las neurociencias, la psicología cognitiva, entre
otros. La percepción sensorial es la puerta que posibilita la interacción con el mundo externo,
tal vez la primera, desde el punto de vista biológico-evolucionista.
Barlow (1961) describe la percepción como “el cálculo de una representación que nos per
mite realizar inferencias confiables y versátiles acerca de asociaciones que ocurren en el mun
do a nuestro alrededor”. Por su parte, Fodor (1983) afirma que “lo que la percepción debe hacer
es representar el mundo para hacerlo accesible al pensamiento”. Lo que estos autores aseveran
encierra de manera sintética una definición de este fenómeno de acuerdo con su funcionali
dad, y también expresa de manera indirecta el aspecto de la percepción como herramienta pri
mordial y básica en el conocimiento del mundo externo o, mejor dicho, de la frontera entre la
consciencia y las sensaciones.
La representación del mundo a la cual se refiere Fodor, necesita implícitamente al menos
dos elementos primordiales: el proceso de representación y aquello que va a ser representado.
En otras palabras, para extraer información del mundo sensible, un proceso cognitivo sobre
un objeto específico tiene lugar en un momento dado a través de un sistema multisensorial. En
este sentido, y tal y como afirma Plumbley (2006), “el problema central de la percepción es el de
construir una representación (del mundo) de una colección de señales que emanan de trans
ductores sensoriales”. Sin embargo, es evidente que esta representación no es isomorfa al
mundo externo debido a que está llena de imperfecciones y es plenamente vulnerable a errores
provenientes de la incertidumbre1 de los sistemas multisensoriales con los cuales aprehende
mos los objetos; tanto o más como las representaciones mentales mismas que de ellos cons
truimos. Estas imperfecciones tanto sensoriales como cognitivas, se traducen en ambigüedades
respecto de las representaciones mentales finales. No obstante, dichas variaciones permanecen
debajo de un nivel de tolerancia lo suficientemente funcional como para permitirnos adaptar
nos y desenvolvernos de manera eficiente en nuestro entorno en la mayoría de los casos; es
decir, nuestras respuestas a los estímulos externos son adecuadas.
Para Helmholtz (1962) la percepción ocurre “mediante un proceso de inducción incons
ciente”, es decir, es “una actividad transparente y que no implica esfuerzo” (Plumbley, 2006). Lo
anterior muestra a la percepción como un proceso inherente al sistema multisensorial, al
menos en una primera etapa, caracterizado por estructuras que responden de manera más
o menos reactiva o automática hacia los objetos físicos del mundo externo.
Por su parte, Gibson (1966) afirma que “los sentidos pueden obtener información acerca de
los objetos en el mundo sin la intervención de un proceso intelectual”. Lo anterior refleja una
idea de percepción pasiva, ya que los estímulos sensoriales se entienden como señales de infor
1 Incertidumbre entendida aquí desde su acepción proveniente de la física: “Toda medición física en investigación e in
dustria está asociada con cierto grado de imprecisión. Incluso pequeñas fluctuaciones en las condiciones ambientales
pueden influir en la medición y provocar desviaciones que hacen que el resultado de la medición no sea preciso. Para ob
tener resultados de medición significativos, resulta esencial conocer la incertidumbre asociada a los resultados” (con
sultado en <https://www.kistler.com/es/glosario/termino/incertidumbre-de-medicion/>).
mación que son absorbidas para obtener una representación del mundo externo sin la com
pleta necesidad (al menos en una primera etapa) de un proceso cognitivo más complejo. En
este sentido, Plumbley (2006) plantea una diferenciación entre percepción pasiva y lo que pa
ra él sería, dentro de este contexto, una percepción activa, la cual ocurre cuando “un sistema
perceptual está involucrado no sólo en el análisis pasivo de cualquier estímulo que esté ocu
rriendo sobre los receptores de un organismo, sino en la exploración activa de un campo am
biental de estímulos”.
Para fines de claridad, es posible entender la percepción pasiva como la primer etapa de un
proceso más complejo denominado percepción activa. La percepción pasiva involucra la ab
sorción de la información producida por los objetos sensoriales del mundo externo en un
primer nivel básico. En la siguiente etapa este flujo de información produce una respuesta fi
siológica orientada a la obtención de mayor información acerca del objeto que produce la
señal o sobre el ambiente, así como a la planeación de una reacción acorde al estímulo depen
diendo de su naturaleza (reacción ecológica).2 Dicha respuesta o reacción está direccionada
por múltiples factores, entre los cuales destacan los condicionamientos evolutivos (estímu
los asociados con la supervivencia como amenazas, ausencia o presencia de comida, identi
ficación de posibles parejas reproductivas, etcétera) y la asociación directa o indirecta sobre
estímulos percibidos en el pasado.
Al respecto de la percepción relacionada con la reacción ecológica, Shepard (1961) esta
blece que “el cerebro ha sido moldeado por selección natural; sólo aquellos organismos que
fueron capaces de interpretar correctamente lo que sucede en el mundo exterior y compor
tarse acordemente, han sobrevivido para reproducirse”.
En este sentido, la percepción activa no sólo es un proceso que contiene a la percepción
pasiva, sino que es el fundamento del proceso de aprendizaje, entendido, a su vez, como pro
cesamiento cognitivo consciente de las señales de la información obtenidas a través de los
estímulos sensoriales que están primordialmente influidos por una necesidad de adaptación y
supervivencia ecológica. De este modo, la percepción se puede dividir en etapas.
Dicho lo anterior, es necesario preguntarnos ¿qué significa mundo externo? En breve, es
posible asumir que es el conjunto de objetos y eventos que tienen existencia fuera del cuerpo
físico del organismo sensible y que generan señales sensoriales al momento de ser observadas
2 Desde el punto de vista fisiológico, estas dos respuestas a los estímulos sensoriales están dadas por los órganos efectores.
Poco tiempo después, tanto los términos como las perspectivas teóricas del top-down y el
bottom-up se extendieron a otros campos como la administración, las finanzas y por supuesto
la cognición y la percepción. Para este último (en particular la percepción visual), el uso del
top-down y bottom-up puede rastrearse desde los trabajos de Gibson (1966) y de Gregory
(1970). El primero propone una teoría de la percepción basada en el proceso bottom-up mien
tras que el segundo plantea una perspectiva constructivista basada en el proceso top-down.
El término bottom-up hace referencia a un proceso perceptual de tipo raw data, también
conocido como data-driven processing, el cual plantea que la percepción comienza con el
estímulo externo y se va transfiriendo linealmente hasta llegar a un cierto grado de cognición.
Dicho proceso puede ser entendido en dos etapas: 1) recepción de la información sensorial
en un nivel primario por los exteroceptores; 2) procesamiento de dicha información en el ni
vel más básico sin crear relaciones semánticas cognitivas.
El proceso top-down, por su parte, se entiende como el desarrollo de reconocimiento de
patrones mediante el uso de información disponible dentro de un contexto específico. Si
guiendo las afirmaciones de Von Helmholtz, Gregory (1997) suscribe que la percepción visual
es un proceso derivado de inferencias provenientes de datos sensoriales y conocimiento de
rivado del pasado. En este sentido, las percepciones son más una suerte de hipótesis predicti
vas psicológicamente proyectadas en el espacio externo y aceptadas como nuestra realidad
más inmediata. De hecho, el procesamiento top-down puede entenderse como percepción di
rigida por la cognición.
Como bien lo describe McLeod (2008), la perspectiva top-down de Gregory implica que
la información externa que recibimos del ambiente es con frecuencia ambigua, por lo que pa
ra poder interpretarla es necesaria información cognitiva a un nivel superior del estímulo pri
mario, la cual puede provenir de experiencias pasadas o de conocimiento almacenado y
permite hacer inferencias sobre dichos estímulos. Como se verá más adelante, ambos concep
tos, top-down y bottom-up, son retomados directamente por Bregman para explicar ciertos
aspectos del análisis de escena auditiva (ASA); más aún, dichos principios también pueden ser
utilizados para explicar y categorizar diversas ideas propuestas por Tenney acerca de la percep
ción musical.
De manera incluso más directa en relación con el proceso creativo composicional, el cono
cer (y en un momento dado, utilizar) estas estrategias permitirá establecer y diferenciar los
materiales o elementos sonoros que pueden ser asimilados a partir del bottom-up de los que
Uno de los primeros modelos que estableció paralelismos entre las computadoras y el pensa
miento humano dentro de la teoría psicológica es el sistema de procesamiento de la información de
Atkinson (1968) y que podríamos asociarlo de manera directa con la teoría computacional
de la mente (o computacionalismo) propuesto por Fodor a inicios de los años sesenta. En este
modelo, el autor define tres componentes estructurales representativos para la descripción de
la memoria:
Registro Sensorial (SR, sensory register). Registro inmediato de un estímulo dentro de las
dimensiones sensoriales apropiadas; la información obtenida en esta etapa tiene una duración
específica y desaparece después de dicho tiempo (decaimiento). Esta etapa puede ser compa
rada con los dispositivos de entrada de información como mouse, teclado, etcétera.
Almacenamiento a corto plazo (STS, short time store). Puede ser considerada como la memo-
ria de trabajo del individuo. Algunos autores plantean como analogía a esta etapa, la
memoria RAM de una computadora. El decaimiento3 de la información en esta etapa es de una
duración mayor que en el SR y no depende necesariamente del tipo de entrada sensorial, co
mo ocurre en el SR, por ello se utiliza la abreviación “a-v-l” (auditory-verbal-linguistic store). “Por
ejemplo, una palabra presentada visualmente puede ser codificada del SR visual a un STS audi
ble” (Atkinson, 1968).
Almacenamiento a largo plazo (LTS, long time store). En esta etapa, a diferencia de las ante
riores, la información no se pierde y es almacenada de forma permanente (desde un punto de
3 El término decaimiento es utilizado para denotar el tiempo que transcurre entre la percepción del estímulo y la desapa
vista relativo) aunque no de manera definitoria, ya que puede ser modificada o alterada por in
formación subsecuente. La analogía natural con una computadora es la de un dispositivo de
almacenamiento como un disco duro.
Derivado de lo anterior, se ha desarrollado el concepto de tiempo de reacción, el cual ha
sido ampliamente utilizado en el campo de la psicología cognitiva y ha mostrado ser una he
rramienta útil en diversas pruebas relacionadas con la percepción, sobre todo dentro del in
tervalo de SR y STS, permitiendo con ello establecer una caracterización cada vez más definida
de la etapa de preatención. Si bien el tiempo de reacción ha sido estudiado con mayor profun
didad para el campo visual, su aplicación para otros sentidos, en particular para el campo
audible, resulta válida tal y como se verá más adelante con el análisis de escena audible. A conti
nuación se enuncia, a modo de definición, el concepto de tiempo de reacción de acuerdo con
Shelton (2010).
Estudios llevados a cabo por Thompson (1992) han documentado resultados que indican
que la media del tiempo de reacción para detectar un estímulo visual es del orden de entre 180
a 200 milisegundos, mientras que la misma media pero para estímulos auditivos se encuen
tra en el rango de 140 a 160 milisegundos. Por su parte, estudios realizados por Yagi (1999) y
Verleger (1997) demuestran que, de manera contraria, los estímulos visuales son más rápidos
que los auditivos. Estas diferencias en los resultados se deben tanto a las condiciones como a la
metodología de los experimentos realizados; sin embargo, el punto principal de esta discusión
es la concepción del tiempo de reacción como una medida cuantificable de la velocidad del
procesamiento de la información presentada debido a estímulos sensoriales. Como se verá
más adelante, los estímulos visuales son apoyados por los estímulos auditivos y viceversa; ello
representa un elemento adicional que puede ser incluido en la composición de la música elec
troacústica para reforzar la localización espacial de ciertos materiales sonoros.
Necesitamos ahora un contexto que nos permita organizar y estructurar los estímulos
sensoriales para establecer estructuras básicas de agrupación y organización al momento en el
que presentemos al espectador dichos estímulos (sonoros), toda vez que conocemos de ma
nera general el modo en el que (dependiendo de su naturaleza y proceso cognitivo asociado)
son aprehendidos por éste. Para tal fin la herramienta más directa y lógica es, por supuesto, la
teoría Gestalt, de la cual se presentan algunas características generales a continuación.
La teoría Gestalt fue un movimiento teórico que surgió en Alemania a principios de la década
de 1910 a partir de los trabajos de Max Wertheimer, Kurt Koffka y Wolfgang Köhler. Marcó un
referente de suma importancia en la historia de la psicología. El objeto primordial de estudio
de la Gestalt consiste en los mecanismos mediante los cuales tendemos a agrupar, perceptual
mente, objetos externos (primordialmente visuales) en estructuras de mayor dimensión orga
nizacional de acuerdo con las relaciones que mantienen dichos objetos con sus alrededores. La
consideración de una tendencia natural de agrupamiento posiciona a la Gestalt como una teo
ría holística y, hasta cierto punto, sistémica en el sentido de Bertalanffy. Sin embargo, como
bien señala Duero (2003):
La expresión que afirma que el todo es más que la suma de las partes, ha sido una especie
de emblema empleado para caracterizar a la psicología de la Gestalt. Sin embargo, lo
cierto es que ninguno de sus fundadores (ni Wertheimer, ni Koffka ni Köhler), la emplea
ron jamás. Lo que en cambio sostuvieron es que hay eventos (tanto psicológicos como fí
sicos) que resultan fundamentalmente diferentes a una colección de sensaciones, piezas
o sumatoria de elementos.
gente de la interacción de los elementos individuales o partes, donde el tipo más importante de
interacción es nuestra tendencia a agrupar dichos elementos de acuerdo con ciertos principios.
Köhler (1920) resalta, por ejemplo, que “la función específica de una parte individual es perci
bida de acuerdo con su ubicación relativa”.
Del enorme corpus que conforma la teoría Gestalt, la descripción de la llamada orga
nización de las formas perceptuales resalta como herramienta central para este trabajo. “Dado
un número de estímulos, tendemos no a percibir objetos individuales, independientes o ex
periencias, sino todos más grandes separados y relacionados con otros al mismo tiempo”
(Wertheimer, 1923).
Uno de los aspectos primarios dentro de la teoría Gestalt es la idea del fondo vs. figura, la
cual establece que ciertos estímulos sensoriales son percibidos en primer plano por destacar
de un fondo explícito. Al variar la atención voluntariamente sobre dichos estímulos se puede
intercambiar la posición (y por lo tanto, la importancia perceptual) de dichos elementos. In
cluso, es posible crear una ambigüedad sobre la diferenciación fondo-figura a través del lla
mado factor de inclusividad el cual, en general, provoca un grado de homogeneidad entre el
fondo y la figura, tal y como sucede en el conocido ejemplo de los vasos y los rostros.
Wertheimer detalla y estructura categóricamente la descripción anterior a manera de leyes
o principios los cuales se enuncian de la forma en que son presentados en Brownie (2006):
• Factor de proximidad. Este principio establece que los objetos que están localizados cer
canos unos con otros serán percibidos con una asociación entre ellos, i.e. pertenecientes
a un mismo grupo o a partes de un todo más grande.
• Factor de similaridad. Este principio afirma que, para los objetos que comparten propie
dades similares, se asume que tienen una asociación entre ellos.
• Factor de destino uniforme o dirección común. Sucede cuando perceptualmente se agru
pan, como figura única, un conjunto de objetos que presentan factores descriptivos
altamente similares:
Implica que los elementos que parecen construir un patrón en la misma dirección, son
percibidos como una figura. Por ejemplo, cuando visualizamos una bandada de pájaros
que vuelan como un todo como si se tratara de un ente único que va formando figuras en
movimiento en el aire (Torreblanca, 2017).
Wertheimer (1923) explica también que es posible encontrar diversas situaciones donde
dos o más principios se pueden aplicar simultáneamente, ya sea de una manera constructiva
(es decir reforzándose entre ellos) o sustractiva (compitiendo y anulándose entre ellos):
Por ejemplo, si existe un grupo de objetos de apariencia variada y que están localizados
en proximidad cercana y otro grupo conteniendo objetos que son similares en aparien
cia a aquellos en el primer grupo pero que se encuentran alejados, entonces surge un
conflicto entre el factor de proximidad y el factor de similaridad (Brownie, 2006).
Sin embargo, también es muy importante señalar que estos principios no son inamovibles
y que su jerarquía y aplicación es totalmente variable dependiendo tanto del individuo que
percibe como del contexto.
Los principios Gestalt se han utilizado (o mejor dicho referenciado) en ciertas ocasiones en el
campo de la música electroacústica debido a su natural conexión con la idea de asociación
Figura 1 | Principios Gestalt (Soegaard, 2020. Autor: Impronta. Copyright: CC BY-SA 3.0).
2. Analogía relacional
Para finalizar esta sección se mostrará un panorama general básico de la llamada analogía
relacional, la cual permite establecer un marco referencial para comprender procesos cog
nitivos más complejos (en comparación con las reacciones inmediatas a los estímulos sensoria
les) asociados al razonamiento. En este sentido, el lector o lectora podrá observar, en esta
sección, el tránsito de una comprensión básica del estímulo sensorial (al inicio del capítulo) al
establecimiento de una perspectiva específica para entender dichos estímulos y, a partir de
ello, establecer relaciones contextuales con nuestro conocimiento y experiencias previas. Nue
vamente esto resultará útil para el momento en el que busquemos definir el espacio de manera
[…] puede ser vista como un tipo de razonamiento donde el conocimiento es transferi
do de una situación inicial (llamada fuente) a otra final (llamada objetivo) sobre la base de
algún tipo de similaridad entre ambas situaciones (Kokinov, 1996).
Para Hofstadter (1995), “la analogía puede ser vista como un tipo de percepción de alto ni
vel donde una situación es percibida como (en términos de) otra”. Por su parte (Hall, 1989) en
lista cuatro procesos abstractos que son ampliamente considerados para el razonamiento por
analogía:
De acuerdo con Holyoak y Thagard (1995), existen al menos tres criterios específicos bajo
los cuales es posible identificar dos situaciones análogas:
Cabe señalar que gran parte de los estudios sobre analogía se han realizado como imple
mentaciones computacionales para el reconocimiento automático de elementos visuales, así
como para el modelado computacional de la percepción y aprendizaje humano (sobre todo en
el campo visual). Sin embargo, la esencia primordial de la analogía relacional para este trabajo
radica en la formulación concreta del modo en que absorbemos nuevos conceptos de acuerdo
con la relación que hacemos de conceptos familiares aprendidos previamente; dicha absor
ción involucra un proceso perceptual-cognitivo en el sentido de ciclo acción-percepción de
Foster. En el ámbito audible, que es el que atañe a esta investigación, la analogía relacional fun
ciona como una herramienta de destacada utilidad en el proceso perceptual sonoro-musical;
esto es, la manera en cómo procesamos nuevos sonidos o configuraciones de sonidos, lo que
en general ocurre a través de este tipo de asociaciones preestablecidas. Este problema es cen
tral en el concepto de la escucha reducida de Schaeffer, la emancipación de la disonancia de
Schoenberg y en lo que James Tenney denomina función musical extendida de los sonidos. Re
forzando lo anterior, French (2002) afirma que:
E
n las secciones anteriores se introdujeron los fundamentos de las diferentes apro
ximaciones teóricas al fenómeno de la percepción a partir de las cuales se
formularon conceptos y definiciones específicas. Dichas definiciones funciona
rán como referentes básicos para abordar el fenómeno de la percepción sonora
y, en particular, para establecer categóricamente las características acústico-
perceptivas que definen y distinguen a la composición electroacústica, sobre todo aquellas
relacionadas con el timbre y el espacio.
Como se mencionó, el objetivo de estas secciones no fue el de realizar un análisis profundo
y comparativo sobre las distintas teorías de percepción, sino únicamente documentar algunos
referentes y antecedentes formales conocidos que justifiquen las definiciones utilizadas en el
presente trabajo. Posteriormente se desarrollarán los principios relativos a la percepción sen
sorial auditiva que fundamentarán el concepto de espacialidad e inmersividad espacial desde
un punto de vista acústico y psicoacústico, con el fin de establecer claramente los elementos
primarios que soporten definiciones posteriores de Espacio-Timbre.
Esta sección comienza con una revisión de los conceptos de la teoría del análisis de la escena
audible o ASA (Auditory Scene Analysis), la cual permite estructurar los diversos aspectos, me
canismos y escenarios que constituyen los numerosos procesos de percepción del sonido en su
nivel primario. Es esta característica (la de tratar al sonido en su nivel básico, anterior a la orga
nización compleja que es la música en el sentido tradicional) es la que hace al ASA una herra
[ 37 ]
mienta por demás adecuada para abordar un análisis teórico-práctico profundo de la música
electroacústica, no sólo desde el punto de vista del espectador sino también desde la perspec
tiva del creador. Si bien dicha teoría fue formulada desde hace bastante tiempo, sus implicacio
nes siguen siendo válidas y referenciadas al día de hoy; por ello, a pesar de la distancia temporal,
las afirmaciones y resultados poseen objetividad actual. Más adelante se desarrollarán los
conceptos e ideas clave de la teoría de análisis musical de James Tenney (la cual deriva de
los principios Gestalt y se relaciona de manera indirecta con los resultados del ASA).
El sonido proveniente del entorno que es captado por nuestros oídos constituye una mez
cla compleja de una cantidad enorme de ondas sonoras. A través de esta ingente mixtura de
componentes espectrales, nuestro sistema auditivo es capaz de agrupar subconjuntos de on
das de modo tal que puede identificar fuentes individuales dentro de una escena que, por lo
general, está compuesta por una multiplicidad de ellas. Dicho de otro modo, “el sistema audi
tivo enfrenta el problema de descomponer de algún modo la onda de presión que llega a nues
tros oídos con el fin de construir un número de representaciones separadas” (Bregman y
Woszczyk, 2004).
El ASA (Auditory Scene Analysis) es un modelo psicofísico que constituye la base teórica de
la investigación de la percepción auditiva; fue propuesto por Albert Stanley Bregman en 1990
en su famoso trabajo Auditory Scene Analysis: the Perceptual Organization of Sound. Esta inves
tigación sirvió de referente para posteriores desarrollos en los campos de la percepción del ha
bla, sistemas auditivos en humanos y animales, prótesis auditivas y, sobre todo, en el campo de la
modelación computacional, ya que generó toda una línea de investigación denominada “análi
sis de escena auditiva computacional” (Computational Auditory Scene Analysis, CASA).
De acuerdo con Bregman y Woszczyk (2004), “ASA es el proceso mediante el cual el sistema
auditivo agrupa de manera conjunta, a través de la frecuencia y tiempo, todos los compo
nentes espectrales que pertenecen a cada fuente individual sonora para que pueda ser re
conocida independientemente de las propiedades de sonidos concurrentes”. El proceso del
ASA no es para nada trivial aunque pueda parecerlo en un principio; sobre todo porque, como
bien puede corroborarse en un espectrograma, los componentes espectrales mezclados de to
das las fuentes sonoras que conforman una escena audible cualquiera no ocupan por lo gene
ral un espacio separado en el espectro.
El correcto funcionamiento del ASA como sistema perceptual implica, además, una funcio
nalidad ecológica importante, ya que la discriminación de las fuentes sonoras individuales
dentro de un entorno de complejidad espectral es vital para la supervivencia del organismo en
dicho entorno. Esta funcionalidad ecológica desemboca entre otras habilidades; por ejemplo,
en la de construir representaciones de los sonidos individuales y, mediante ellas, formar abs
tracciones relacionadas con los eventos que produjeron tales sonidos. Además conlleva, entre
otras cosas:
En términos generales, puede pensarse que el ASA, tras haber realizado el proceso de análi
sis antes descrito, concluye en alguna de dos acciones en cada instante: segregar o agrupar. El
ASA entonces, segrega los subconjuntos de componentes espectrales (de la mezcla enorme pro
veniente de la onda compleja de sonido que incluye todos los eventos acústicos de una esce
na audible en particular) que corresponden a cada una de las fuentes individuales cuando las
evidencias físico-perceptuales apuntan hacia ello, o bien, agrupa ciertos subconjuntos espec
trales como un sólo evento acústico si la diferencia cuantitativa de dichas evidencias es muy
pequeña.
El ASA opera mediante una ponderación dinámica de estas evidencias físico-perceptuales
que incluyen diversos aspectos acústicos: contenido espectral, localización espacial, sincro
nía de onsets, morfología de la envolvente de amplitud, etcétera. De hecho, existe una fuerte
evidencia de que la tendencia primaria del sistema auditivo, al percibir una masa compleja de
componentes espectrales, es la de la integración o fusión:
Sólo cuando los detalles de la señal dan al sistema audible alguna razón para segregar
partes de él, esto sucederá, por lo que cualquier transformación de la señal que difumine
las propiedades, favorecerá la integración de la señal (Bregman y Woszcyk, 2004).
Bregman (1993) define ciertos procesos básicos utilizados por el escucha para descompo
ner mezclas sonoras complejas provenientes de cualquier escena audible, los cuales se encuen
tran diferenciados en función de una característica primaria: la presencia o ausencia de
esquemas previamente aprendidos (la analogía relacional). En el caso en que la escucha ocurra a
partir de esquemas aprendidos previamente se puede hablar, por un lado, de reconocimien
to automático y, por otro, de reconocimiento voluntario. Cuando el proceso de escucha implica
una ausencia de esquemas previos, el individuo realiza un análisis básico de la escena audible
de acuerdo con características acústicas primarias y genéricas; este proceso se denomina aná-
lisis de escena audible primitivo.
El reconocimiento automático implica la activación de algún esquema previamente aprendido
de manera no voluntaria y hasta cierto punto reactiva. Esto es, ante un estímulo auditivo externo,
el escucha realiza una asociación perceptual de dicho estímulo con algún concepto, idea o de
finición (esquema) que ha aprendido previamente de manera automática o instintiva; de este
modo segrega dicho esquema de la mezcla sonora. Según Bregman (1993), este proceso resulta
aproximado, en el sentido de que no es necesario que el estímulo externo sea el equivalente exac
to al esquema aprendido para que este último se active en el proceso perceptual del individuo.
El reconocimiento voluntario o atención selectiva, como proceso, es idéntico al reconocimiento
automático con la única diferencia de que en este caso el escucha está concentrado en aislar
de manera intencional un esquema de una mezcla compleja sonora. Es decir, dados un esque
ma previamente aprendido y una escena audible, el escucha busca segregar dicho esquema de
la mezcla compleja audible.
El análisis de escena audible primitivo presupone que el escucha no tiene referencia previa al
guna acerca del estímulo externo auditivo; por tanto, para poder segregar eventos sonoros es
pecíficos de una escena audible (o integrarlos con otros), el ASA emplea únicamente las
características acústicas primarias, las cuales serán descritas en las secciones siguientes. Los es
quemas de reconocimiento, tanto automáticos como selectivos, pueden considerarse como
un caso especial del marco contextual de percepción de la analogía relacional descrita en el
capítulo previo.
Todo lo anterior no implica que, en el caso de que exista reconocimiento mediante es
quemas previos, el ASA no utilice o elimine por completo el análisis de las características
acústicas mencionadas; más bien el proceso de segregación y/o integración se produce de una
manera condicionada a dichos esquemas.
Auditory scene
What your
eye sees
The sounds
really there
at the
moment
What your
ear recieves
What
your brain
perceives
Las escenas audibles que ocurren en cualquier entorno presentan una multiplicidad de fenó
menos acústicos que deben ser analizados por el ASA. En cada caso, de acuerdo con la pon
deración de las evidencias físico-perceptuales, se realiza alguna de las dos acciones antes
mencionadas: segregar o agrupar. Este proceso ocurre para eventos que suceden simultáneamen
te o sucesivamente en la escena audible. Para el primer caso, cuando existe agrupamiento si
multáneo, es posible poner como ejemplo la situación en la que tres personas hablan al mismo
tiempo; en este escenario, el ASA agrupa los componentes acústicos relacionándolos en tres
representaciones perceptuales asociadas a cada una de las voces, las cuales poseen caracterís
ticas propias como altura y timbre.
Para el segundo caso, el agrupamiento secuencial, el ejemplo básico consiste en la capacidad
del ASA de asociar o agrupar en un mismo evento acústico partes de una misma voz a tra
vés del tiempo.
Vale la pena hacer notar y recalcar que el desarrollo teórico del ASA está basado en la premi
sa de que el sistema auditivo ha evolucionado, se ha adaptado y se ha desarrollado a través de
la observación y asimilación de las regularidades y detección de patrones en el entorno;
ello le ha permitido asociar la información sensorial detectada a la causa más probable de acuer
do con el patrón observado. Lo anterior se denomina principio de validez ecológica (Bregman y
Woszcyk, 2004) y coincide con el concepto de reacción ecológica de Shepard (1961).
Agrupamiento simultáneo
Como ya se mencionó, el agrupamiento simultáneo implica que, dada una escena audible,
ocurre la acción de fusionar distintos subconjuntos de componentes frecuenciales que su
ceden en un mismo instante de tiempo, así como su asociación con fuentes individuales para
crear las representaciones perceptuales correspondientes. Esta acción se lleva a cabo en
función de distintos factores propuestos por la teoría ASA, los cuales, de acuerdo con ciertas
circunstancias y restricciones específicas (relacionadas con las evidencias físico-perceptua
les), funcionan en conjunto (a modo de una ecuación de combinación no lineal) para realizar
dicha tarea:
DEFINICIÓN 2.1.1. Los factores de agrupamiento simultáneo del ASA son los siguientes:
• Principio de armonicidad.
• Asincronía de onsets y offsets.
• Independencia de envolventes.
• Separación espacial.
• Separación espectral.
Principio de armonicidad
Este principio se sustenta en la cualidad física de los sonidos armónicos (también llamados
periódicos) cuyo contenido espectral está compuesto por una serie de múltiplos enteros de
una frecuencia fundamental. En la vida cotidiana, una gran multiplicidad de sonidos presen
tan esta propiedad; ejemplos de ellos son la voz humana, sonidos de animales, instrumentos
musicales, etcétera.
Usando esta propiedad, el ASA agrupa todos los componentes frecuenciales que son múlti
plos de una misma frecuencia base y genera una representación perceptual separada asociada
a dicho subconjunto segregándolo del resto de la masa sonora proveniente de la escena audi
ble. Ésta es una de las observaciones concluyentes más sobresalientes de la teoría del ASA y debe
notarse que sólo es válida para los sonidos que poseen las características antes mencionadas.
Uno de los experimentos más conocidos que ejemplifica el principio de armonicidad es la
demostración 18 de Bregman y Ahad (1996), en la que el tercer armónico de un tono comple
jo es percibido como separado del evento audible completo tras ir disminuyendo conjunta
mente y de manera gradual los demás componentes frecuenciales. Esta observación deriva, de
nuevo, de una funcionalidad ecológica ya que en cualquier entorno es altamente improba
ble que un conjunto de componentes frecuenciales múltiplos de una fundamental provengan
de fuentes distintas.
Esta característica es de suma importancia para el autor del ASA (Bregman, 1993) y la presenta
como la primera de las cuatro regularidades ambientales que conforman la explicación fun
damental de su teoría. Estas regularidades son utilizadas por el sistema auditivo para resol
ver escenas audibles de manera genérica. Esta característica podría definirse como sigue:
OBSERVACIÓN 2.1.1. Dada una escena audible, los componentes acústicos derivados de
eventos ambientales independientes tienden a no empezar y terminar sincrónicamente. Por
esta razón, asincronías de más de unos cuantos milisegundos en los onsets y offsets de los
componentes acústicos son tomadas como evidencia por el ASA de que provienen de dife
rentes sonidos.
Independencia de envolventes
OBSERVACIÓN 2.1.2. Dada una escena audible, la asincronía en la morfología de las fluctua
ciones de intensidad (envolventes de amplitud) de los componentes acústicos es tomada
por el ASA como evidencia de que dichos componentes forman parte de sonidos que pro
vienen de fuentes distintas. De manera inversa, si las envolventes de amplitud están sin
cronizadas a través del tiempo, el ASA resuelve el estímulo sensorial como proveniente de
un mismo sonido.
El mismo Bregman anota respecto de la evidente similitud entre las dos características has
ta ahora descritas: “es posible que las características de asincronía de offsets y onsets junto con
la independencia de envolventes, puedan ser reducidas a un mismo principio puesto que los
onsets y offsets pueden ser vistos simplemente como un cambio en la envolvente de amplitud”.
Como se mostrará al final de esta sección, es posible plantear una generalización de los princi
pios presentados por Bregman utilizando la espectromorfología de Dennis Smalley.
Separación espacial
Es notable que en la mayoría de los escritos de la teoría del ASA se comente que la localiza
ción espacial, si bien puede ayudar al proceso de segregación de fuentes distintas dentro de una
escena audible, no es un factor determinante ni con la suficiente fuerza como para ser conside
rado por separado; i.e. la localización espacial tiene funcionalidad para el proceso perceptual del
ASA únicamente como soporte de otros factores. Este hecho es descrito con mayor detalle para
el caso del agrupamiento secuencial.
Como se verá enseguida, sonidos con cierta espectromorfología tienen por lo regular
zonas restringidas de localización espacial en el azimut y el plano de elevación. Un ejemplo
comúnmente referido es el que trata sobre sonidos que ocurren detrás del escucha; puesto que
la fisiología de las orejas tienen una disposición frontal, la resolución espacial en la ubicación
posterior resulta disminuida en comparación al azimut frontal. De igual modo, en ambien
tes cerrados o semiabiertos, para ciertos casos, las reflexiones del sonido pueden distorsio
nar la percepción de la ubicación real de la fuente. Debido a estas y otras razones, el ASA no
puede valerse únicamente de la localización espacial para realizar la segregación de fuentes si
multáneas.
Separación espectral
Este principio se refiere a sonidos cuyo contenido espectral se encuentra más o menos bien
delimitado en bandas definidas (por lo general asociados a la inarmonicidad o al ruido);
entonces, el agrupamiento simultáneo estará en función de la distancia en el espectro entre
dos sonidos de este tipo. Sonidos con bandas espectrales concurrentes serán agrupados como
un solo objeto perceptual, mientras que sonidos separados en el espectro serán percibidos co
mo individuales.
Agrupamiento secuencial
DEFINICIÓN 2.1.2. Un torrente auditivo (auditory stream) es la unidad perceptual que repre
senta un evento individual. Puede incorporar más de un sonido simultáneo y contiene
la representación mental de la información perceptual recibida debido al evento físico. Esta
representación tiene además como objetivo, agrupar secuencialmente cualidades relacio
nadas con el evento. La causa física es denominada evento acústico y las unidades auditivas
físicas son denominadas sonido.
La definición anterior aclara la diferencia entre sonido y torrente auditivo; el primero está li
gado a la parte física y representa la unidad en ese ámbito, mientras que el segundo está ligado a
la parte perceptual-cognitiva representando la unidad en ese otro ámbito. “Nuestras representa
ciones mentales de los eventos acústicos pueden ser tan múltiples en un modo que la simple
palabra sonido no lo representa. Al acuñar un nuevo término, torrente, somos libres de cargar
lo con cualesquiera propiedades teóricas que nos parezcan apropiadas” (Bregman, 1990).
Uno de los experimentos más conocidos respecto del agrupamiento secuencial es el llamado
efecto streaming (Bregman, 1990), el cual permite la introducción de un concepto de suma
importancia: la distancia acústica. Si bien Bregman no clarifica una definición para dicho con
cepto, establece un marco lo suficientemente adecuado para comprender esta idea: “la dis
tancia acústica d es la diferencia entre dos tonos simultáneos, A y B, como la combinación (no
necesariamente lineal) de sus separaciones en un número de dimensiones físicas” (Bregman y
Woszczyk, 2004). De acuerdo con la métrica planteada por los autores, valores bajos de d fa
vorecen la integración de los eventos A y B en una sola secuencia perceptual, mientras que a la
inversa, valores altos de dicha distancia representan una tendencia a la segregación.
Al igual que en el caso del agrupamiento simultáneo, para el agrupamiento secuencial exis
ten factores explícitos que contribuyen a la formación de secuencias perceptuales:
• Separación frecuencial. A mayor separación del contenido espectral entre dos sonidos,
mayor tendencia de segregación perceptual.
• Separación temporal entre los onsets de los eventos sonoros.
• Separación de la frecuencia fundamental. Para el caso de sonidos periódicos, la separa
ción de la fundamental entre dos sonidos favorece la segregación perceptual.
• Diferencias en la forma del espectro. La morfología de la amplitud del contenido espec
tral. Esta característica se asocia además al concepto del timbre y, por lo tanto, implica
Power spectrogram
8 192
4 096
2 048
1 024
Análisis frecuencial 512
256
128
64
0
0.00 0.10 0.20 0.30 0.40 0.50 1.00 1.10 1.20
Time
Mecanismos de
agrupamiento vía atributos.
8
2
Cognición final
0
0.00 0.10 0.20 0.30 0.40 0.50 1.00 1.10 1.20
racterísticas particulares a dichos eventos de acuerdo con preconcepciones que nos son fa
miliares. En otras palabras, utilizamos el proceso de analogía (asociado a la analogía relacional)
para poder establecer relaciones con propiedades específicas de los torrentes auditivos de mo
do tal que sean interpretados por nuestro cerebro como entidades separadas. Cada torrente o
stream lleva implícito un cúmulo o cluster de propiedades asignadas por el escucha, por lo que
este cluster variará según el individuo y los diferentes contextos. En este sentido, una de las for
mas más básicas de representación mental de los objetos externos (y de descripción verbal de
los mismos) consiste en la descripción de sus propiedades específicas o atributos tal y como los
aprehendemos en un momento dado.
La analogía en el campo visual de la idea anterior puede resumirse que “en nuestras des
cripciones verbales de lo que vemos, decimos que un objeto es rojo, o que se está moviendo rá
pido, que está cerca o que es peligroso” (Bregman, 1990). De igual modo, la representación
mental de los eventos acústicos externos está dada por la atribución de propiedades descripti
vas en un momento dado; un sonido puede ser, por ejemplo, lejano, cercano, fuerte, bajo, móvil,
fijo, consonante, disonante o ruidoso. El stream es entonces una suerte de pegamento que cohe
DEFINICIÓN 2.2. El Principio de pertenencia de atributos es uno de los mecanismos ASA rea
lizados para ser capaces de identificar eventos acústicos individuales mediante la descrip
ción mental conjunta de atributos descriptivos a dicho evento en un instante dado.
Para finalizar esta sección se hablará de la heurística old-plus-new, la cual ha probado ser
una de las herramientas fundamentales dentro del ASA para poder resolver escenas auditivas
de manera adecuada. En general, puede ser entendida como el proceso a través del cual el ASA
agrupa secuencias de eventos a través del tiempo (dado el análisis de las características acústi
cas de las secuencias previas) que se encuentran escondidas en la mezcla compleja:
Lo anterior puede además ejemplificarse con un caso muy simple. Cuando un espectro se
vuelve más complejo a lo largo de un intervalo de tiempo, la heurística old-plus-new establece
la siguiente solución: se trata de un sonido que continúa pero acompañado de los componen
tes adicionales que se añadieron a la mezcla. Esto es, la percepción constará de dos elementos:
el sonido primario más los componentes añadidos posteriormente. Puede observarse que esta
heurística se relaciona de cierto modo con el factor de dirección de la Gestalt.
complejidad tímbrica tiene el mismo potencial de ser utilizado como componente musical. Lo
anterior se vincula con la afirmación de Schoenberg (1950) en Estilo y la Idea:
Bajo este planteamiento, Tenney extiende la idea propuesta por Schoenberg y establece
uno de los primeros elementos constitutivos de su teoría: el principio de equivalencia. Este prin
cipio afirma que todos los diferentes tipos de sonidos (específicamente los descritos conforme
la escala de complejidad tímbrica) pueden ser usados como materiales elementales de cons
trucción musical con igual potencialidad (Tenney, 1961). La consecuencia inmediata de este
principio, según Tenney, es que ahora los elementos mínimos de construcción musical en la
dirección vertical (altura-armonía) ya no son los tonos (o notas) sino una generalización con
ceptual de los mismos: configuraciones de sonidos.
Sobre la complejidad en la dirección horizontal, Tenney destaca dos factores principales
que por sí mismos son capaces de caracterizar dicha configuración respecto de los paráme
tros musicales (altura, timbre, dinámica, densidad temporal):
• La extensión o rango de los parámetros composicionales a través del tiempo. Por ejem
plo, en el caso de la dinámica: [ppp,pp,p,mp,mf,f,ff,fff].
• La tasa de cambio de los parámetros composicionales a través del tiempo. Esto es, qué
tanto se introducen variaciones del rango del parámetro dentro de intervalos de tiempo
específicos.
Bajo esta mirada, el timbre es el parámetro cuyo rango se ha extendido mucho más en la ex
ploración composicional, sobre todo a lo largo del siglo XX, tomando en cuenta las diversas y
numerosas manifestaciones de técnicas extendidas que han proliferado para la mayoría de los
instrumentos.
La tasa de cambio de los diferentes parámetros musicales también constituye un referente
distintivo de la música del siglo XX. Las exploraciones composicionales respecto de los cam
bios de densidad, dinámica y timbre en intervalos relativamente cortos de tiempo son resalta
bles y su uso tiende a consolidarse como material composicional y método de tratamiento de
los materiales sonoros que integran una obra.
Las exploraciones sonoras que actúan de acuerdo con el rango y a la tasa de cambio de los
diversos parámetros musicales a través del tiempo generan elementos nuevos de complejidad
inusual cuya integración a la percepción del escucha no es tan directa la mayoría de las veces.
Quizá, el mayor obstáculo que se presenta en tal situación es lo que Schoenberg llamó efecto de
interrupción de sentidos con respecto a la asimilación perceptual del tratamiento de las diso
nancias como material musical al mismo nivel de las consonancias. Mientras exista mayor asi
milación perceptual de los elementos musicales novedosos por parte del escucha, este efecto
de interrupción de los sentidos disminuirá y dará paso a una nueva configuración de escucha
y percepción musical que permitirá incorporar, cada vez mejor y con mayor énfasis y frecuen
cia, diversas manifestaciones de complejidad musical en cualquier parámetro: la emanci
pación de la disonancia (Schoenberg, 1941). De nuevo, puede verse aquí un reflejo tanto de la
analogía reclacional como de los procesos top-down y bottom-up.
En este punto es pertinente notar que todos los conceptos introducidos en el capítulo ante
rior pueden ser invocados para comprender y extender las ideas propuestas por Tenney y
autores afines. Esto se verá reflejado en las conjeturas listadas al final del capítulo.
2.2. La continuidad
Se acepta comúnmente que la continuidad es el atributo que le da unidad a una obra desde el
punto de vista de la percepción. Es aquella característica inherente a una pieza que no sólo
mantiene, sino que dirige la atención del espectador a través de una narrativa o discurso esté
tico. En este sentido, lo opuesto, es decir la discontinuidad, sería la incapacidad de encontrar
relaciones concretas entre los elementos constitutivos de una obra. Dado que la percepción de
la continuidad está directamente condicionada por los distintos contextos socioculturales,
una de las soluciones para generar las nuevas configuraciones de escucha que se han mencio
nado, surge de la aceptación, comprensión y asimilación por parte del público de la extensión
del rango y la tasa de cambio de los parámetros musicales, tal y como se expuso en la sec
ción anterior. Es necesario por lo tanto, como audiencia (sobre todo audiencia no familiariza
da del todo con estas expresiones), no sólo saber reconocer la existencia de estos recursos
como parte inmanente de la música contemporánea, sino permitirles entrar dentro de nuestro
marco referencial de acercamiento conceptual a la música. Dicho de otro modo, es necesario
crear nuevos puentes cognitivos y no limitarse por los procesos básicos de la analogía rela
cional. Tenney (1965) hace explícita esta idea al afirmar que el escucha que sólo puede aceptar
la altura como factor primario de articulación de las ideas musicales, se limitará a escuchar es
pacios vacíos en gran parte de la música del siglo XX y podría eventualmente rechazar de ma
nera conjunta algunas de las expresiones más avanzadas del arte musical.
Tenney señala además dos factores primordiales al momento de establecer la continuidad
en la percepción: la escala y la atención. El factor de la atención lo subdivide en dos categorías
que parecen directas desde el punto de vista lógico: atención textural y atención paramétrica.
Para el caso de la atención textural es necesario, dentro del razonamiento de Tenney, hacer
una distinción entre los elementos importantes y aquellos menos importantes que compo
nen una estructura, una sección o una obra completa en sí misma para un determinado lapso
de tiempo de percepción. Es posible asociar esta formulación (a modo de clarificación al me
nos) con los conceptos de figura y fondo de un paisaje sonoro de Moles (1991) e incluso desde
el punto de vista de la Gestalt. De este modo, la atención textural está asociada a la percepción
de una estructura de cierto grado de complejidad dentro de una obra (o la obra misma), lo que
deja en segundo plano los elementos individuales o aislados que son constitutivos de ésta.
Mientras más atención se dirija a uno o varios de estos elementos de menor importancia, más
se perderá la comprensión de las estructuras fundamentales de mayor escala de la obra en sí.
Por último tenemos la atención paramétrica, que es la que está dirigida hacia la articulación
de los diversos parámetros musicales a través del tiempo dentro de pasajes o secciones especí
ficas de una obra.
Para Tenney la música puede ser considerada como una red ordenada y jerarquizada de soni
dos, motivos, pasajes, frases, secciones, etcétera (Tenney, 1980). Dentro del contexto teórico de
Tenney, la percepción de tales elementos sonoros como entidades individuales musicales en el
tiempo es de vital importancia. Así, estos elementos son configuraciones de sonidos percep
tualmente identificables como entidades individuales compuestas por sus elementos constitu
tivos, cualesquiera que sean. Esta percepción temporalmente delimitada de dichos sonidos o
configuraciones de sonidos implica una aprehensión conceptual jerárquica: las configura
ciones de sonidos individuales pueden ser consideradas como elementos constitutivos de
subsecuentes configuraciones más grandes; es decir, con una delimitación temporal de mayor
duración y así sucesivamente. Tenney denomina a dichas configuraciones Temporal Gestalt-
Units (TGU).
Las TGU son temporalmente delimitadas; esto significa que es posible percibir esta individua
lidad en relación con otras TGU en la escala horizontal, es decir, con respecto al tiempo. Dicha
identificación surge de dos características primarias: la percepción de la cohesión y la percep
ción de la segregación. En este sentido, para que una configuración de sonidos pueda ser enten
dida como una TGU, esta debe ser internamente cohesiva y externamente segregada. La figura
2.2.1 ilustra esta idea.
TGU actual
TGU TGU
precedente consecuente
Segregación
externa
Cohesión
interna
Segregación externa
Tenney define tres niveles principales de jerarquía.5 Dichos niveles se relacionan con la or
ganización de las TGU de acuerdo con la escala de tiempo considerada al momento de ser asi
miladas. El nivel primario y fundamental de dicha jerarquía corresponde a lo que él denomina
clang. Desde la perspectiva de este primer nivel, el clang es la unidad musical mínima o lo que
Tenney denomina gestalt aural singular y que representa el gestalt con mayor fuerza de cohesión.
En el segundo nivel la percepción cohesiva disminuye y el gestalt asimilado es menos fuerte.
Este segundo nivel es denominado por Tenney como serie y corresponde a una agrupación o
sucesión de clangs; dicha sucesión, como TGU en sí misma, posee un grado reconocible de uni
dad y coherencia aunque, como se ya mencionó, de menor magnitud que el clang. En términos de
Köhler, el clang representaría un starke Gestalt y la serie un schwache Gestalt (Köhler, 1958).
Organizaciones temporales de series dan lugar a segmentos e incluso a secciones completas
dentro de una obra; sin embargo, Tenney considera como tercer y último nivel de percepción
el correspondiente a la obra misma, donde la percepción temporal está claramente delimitada
por el inicio y el final de la música de dicha obra.
El problema de la localización espacial del sonido por el oído humano es un área de estudio
bastante amplia que ha logrado resultados importantes a lo largo de su desarrollo como cam
po del conocimiento. Sin embargo, hasta ahora no se tienen resultados totalmente homogé
neos capaces de resolver y contestar la interrogante de los mecanismos completos a través de
los cuales el oído humano es capaz de realizar una localización aural tanto en espacios abiertos
como en recintos cerrados. No obstante, esto no ha sido un impedimento para que los ex
pertos en el área continúen desarrollando experimentos, teorías y propuestas formales para
establecer una explicación completa de dicho fenómeno.
Al igual que en las secciones anteriores, el objetivo de estos apartados no es hacer una revi
sión extensa y detallada de la temática de la localización espacial audible, ya que existe bastan
te literatura que aborda esto de manera amplia y refinada. Lo que se pretende es la exposición
5Tenney reemplazaría años después el término jerarquía por la expresión en inglés holarchy, haciendo referencia a una
categorización u organización de elementos completos en sí mismos con respecto a la percepción de las TGU.
de los conceptos y resultados más sobresalientes y pertinentes para establecer los elementos
constitutivos del modelo teórico propuesto.
De tal forma, el primer elemento cualitativo de la localización espacial es lo que se conoce
como “conciencia audible espacial, la cual puede entenderse como un fenómeno perceptual
que deriva en la conciencia multisensorial de estar inmerso en un ambiente específico, real o
virtual, el cual puede ser dinámico o estático” (Letowski, 2012). Esta conciencia pudiera enten
derse como aquella que engloba todas las propiedades de localización espacial de las fuentes
acústicas del ambiente donde ocurre la escucha. En general, las anteriores se consideran re
ducibles a tres: a) evaluación de la distancia de la fuente sonora al espectador, b) dirección de
la que proviene la fuente sonora y c) características del espacio físico en el cual se propaga di
cha fuente.
Además, dicha conciencia audible espacial, tal y como sucede en el caso de la percepción
(como se presentó en los capítulos anteriores), está también directamente relacionada con los
factores individuales del escucha que Letowski (2001) enuncia y que se plantean aquí como
definición debido a que se hará uso de ellos más adelante.
DEFINICIÓN 2.3. Se denominarán, condiciones perceptual-cognitivas intrapersonales del es
cucha al conjunto de características fisiológicas, perceptuales y cognitivas propias e indivi
duales que afectan de manera directa el acto de comprensión y aprehensión de una
experiencia sensorial aural. Entre ellas pueden incluirse ejemplos como predisposición po
sitiva/negativa a la escucha, grado de atención, estatus fisiológico del sentido de escucha del
espectador, conjunto de experiencias o memorias sonoras, conocimiento de estrategias
de escucha, familiaridad con el ambiente circundante y grado de involucramiento con la ac
tividad de la escucha.
El problema de la localización espacial del sonido se asocia a dos áreas específicas: a) la per
cepción de la distancia (de la fuente al espectador) y b) la capacidad de ubicar la dirección de la
fuente (la cual también es denominada localización espacial audible y que es un problema abor
dado en dos secciones: ubicación horizontal y elevación).
Tanto la percepción de la distancia como la dirección de una fuente sonora son problemas
que resueltos por el sistema aural humano a partir de una relación compleja y dinámica de una
serie de descriptores (o cues) específicos para cada uno. El problema de resolver la distancia es
mucho más complejo y posee más ambigüedad en el sistema aural humano que el de la di
rección y, como se verá a continuación, esto posee diversas implicaciones para la resolución
espacial de las fuentes sonoras en general. Se abordarán de manera separada estos dos aspectos
iniciando con el que presenta mayor problemática: la distancia.
Para poder localizar sonidos, el sistema auditivo humano debe resolver dos parámetros esen
ciales, la distancia y la dirección (horizontal y vertical). Los estudios hasta ahora desarrollados
han permitido una comprensión bastante extensa al respecto de la resolución de la dirección
en el azimuth, de la localización espacial del sonido; no así para el caso de la distancia. Las se
ñales más básicas que el sistema auditivo utiliza para resolver en cierta medida la distancia de
una fuente sonora corresponden al filtrado del contenido frecuencial alto que es indicativo
de este parámetro (la distancia), debido a la dispersión del aire en relación con las ondas cor
tas. Del mismo modo, para entornos cerrados (o semiabiertos) la energía de reverberación se
rá más pronunciada para sonidos más distantes que para los más cercanos, debido a los efectos
en torno al directo vs. reflexiones.
Xie y Yu (2019) explican, a partir de diversos experimentos, que el sistema auditivo huma
no tiende a subestimar significativamente las distancias de las fuentes sonoras cuando éstas se
encuentran a una distancia física mayor que 1.6 metros (en promedio) y que cae en errores de
sobreestimación de fuentes cercanas menores a dicho valor. De acuerdo con lo anterior se ha
llegado a plantear una relación matemática entre la distancia física real de una fuente (rI) y su
distancia percibida (rs) mediante la siguiente ecuación (Zahorik, 2005):
rI = k rsδ
• Amplitud o volumen. Para espacios abiertos se conoce la relación existente entre la dis
tancia de la fuente sonora y su presión sonora (suponiendo una fuente sonora con pre
sión constante). Esta relación es llamada la ley 1/rS: el nivel de presión sonora (SPL) se
reduce en 6dB por cada duplicamiento de la distancia de la fuente sonora respecto del
escucha.
• Señal espectral. Asociado al efecto de filtrado de las frecuencias altas de la fuente sonora,
debido a la absorción del aire, en espacios abiertos y para fuentes con una distancia mí
nima de 15 metros.
• Curva del frente de onda y señales HRTF de campo cercano. Estas señales están asociadas a
los efectos de dispersión y difracción de los frentes de onda de las fuentes sonoras debi
do a los diversos elementos relacionados con la estructura anatómica humana (la cabe
za, el pabellón auditivo, el tronco, los hombros, etcétera) y, por otro lado, a los efectos de
la teoría duplex de Rayleigh al respecto de las ILD y las ITD.
• Relación sonido directo a energía reverberante (DRR). Puede ser calculada de acuerdo a al
fórmula:
Ds Σs αabs
DDR = 2
16 π r s 1 - αabs
donde rs es la distancia entre la fuente sonora y la posición del escucha, Ds es el factor direc
cional del sonido, Σs es el área total de absorción y αabs es el coeficiente de absorción promedio.
Al respecto de lo ya mencionado, Xie y Yu (2019) nos dicen que:
nó, el parámetro de la distancia es el que ha sido abordado con mayor éxito y se tienen nume
rosos recursos de diversos investigadores al respecto, quienes han contribuido de manera
sustancial a la comprensión del fenómeno de la escucha espacial en general. Con el fin de
evitar confusiones en el uso de los términos anteriores con otros que serán presentados más
adelante, se ofrece a continuación una forma explícita de nombrarlos.
rear
is
l ax
Aura
S d 0
Horizontal
α plane
φ
θ
front
Este sistema de coordenadas interaural polar, como bien describe Letowski (2001), presen
ta la ventaja principal de que la longitud de arco entre dos ángulos laterales es independiente
de la elevación; además, la descripción de la ubicación espacial para el espacio interno for
mado dentro del sistema multicanal es más adecuada con este sistema. Se opta por la conven
ción de ±180° para la definición de los ángulos tanto en el plano medio como en el horizontal
y en el frontal (coronal).
Al inicio de esta sección se planteó el concepto de conciencia audible espacial y se mencio
nó que a partir de éste se desprendían, si no formalmente al menos sí de manera indirecta, los
demás elementos que conforman la estructura de la localización de la escucha espacial. Esta
conciencia está sujeta a diferencias entre las ubicaciones percibidas y las localizaciones reales
de una o más fuentes sonoras; es decir, a errores de localización. Se mencionan a continuación
los tipos de errores de localización más comunes dentro de la literatura de la percepción psi
coacústica espacial según se muestran en Letowski (2012):
Rumsey (2001) hace una distinción clara respecto a las características espaciales de las fuentes
sonoras en ambientes naturales; por lo general, éstas se dividen en dos categorías: fuente y am
biente. Las primeras son entidades relativamente discretas y localizables, mientras que las se
gundas poseen un carácter difuso y de difícil localización. La descripción anterior, aunque
muy general, establece una estructura primaria para dividir conceptualmente el fenómeno
de la localización espacial y la experiencia de inmersividad.
En esta sección se enlistan los aspectos y conceptos más importantes de la escucha espacial
en relación con los objetivos del presente trabajo. Existe abundante literatura que aborda la es
cucha espacial y la acústica, tanto de campos abiertos como de recintos cerrados o reverberan
tes, por lo que se remite al lector a referencias tales como Susuki et. al. (2011), Rumsey (2001),
Theile (1980) y Toole (2008), para una consulta más detallada.
Existen diferencias sustanciales en la localización espacial del sonido entre escenarios de
campo abierto y recintos cerrados las cuales están descritas de manera detallada en las refe
rencias antes mencionadas. La convención usual es que, en campos abiertos, la localización es
pacial resulta mucho más sencilla para el oído humano debido a que no está presente el efecto
de reverberación, el cual podría generar confusión al respecto para dicha tarea; sin embargo, y
por esta misma razón, la resolución de distancia y profundidad no es tan exacta y resulta más
complicada de realizar que en la contraparte de recintos cerrados. Lo anterior queda también
influenciado por el hecho de que la mayoría de las fuentes sonoras no tienen un patrón de ra
diación perfectamente esférico sino que presentan una forma direccional que varía en función
de la zona del contenido frecuencial de la misma.
Respecto de la categoría de fuentes y la localización espacial en el plano horizontal, se tie
nen primordialmente dos escenarios: campos sonoros libres y campos sonoros reverberantes.
Uno de los mecanismos analíticos básicos para estudiar la escucha espacial de esta índole se re
laciona con la teoría duplex de Rayleigh en la que los indicios binaurales ITD (interaural time
difference) e IID (interaural intensity difference) juegan un papel primordial; dichos elementos
describen bastante bien el fenómeno en cuestión para situaciones ideales compuestas por una
sola fuente sonora.
Las ITD son más dominantes en las frecuencias bajas, mientras que las IID los son para las
frecuencias altas, donde “la frecuencia de corte es determinada por la distancia entre los dos oí
dos (típicamente entre 22 a 23 cm) y se considera usualmente con un valor alrededor de los
1500 Hz” (He, 2017). Por su parte, Rumsey (2001) establece que “el oído es sensitivo a diferen
cias interaurales de fase sólo para frecuencias bajas y dicha sensibilidad comienza a deteriora
se a los 1000 Hz”. Lo anterior tiene antecedentes más antiguos como las pruebas realizadas por
Mills (1958), en las que reporta que para “estímulos dicotómicos, la resolución de la dirección
de una fuente es determinada mediante ITD o IPD6 para frecuencias por debajo de los 1400 Hz
y para frecuencias más altas mediante IID”.
6 IPD o interaural phase difference es el término utilizado en cierta literatura como sustitutivo de las IID, para el caso de to
nos puros.
Debe notarse que, al igual que como ocurre con la teoría del ASA, las conclusiones anterio
res y la mayoría de los resultados sobre localización espacial han sido plenamente demostra
dos para pruebas en ambientes controlados y con fuentes sonoras relativamente simples (tonos
puros y ruidos con un contenido de banda específico); sin embargo, de estos mismos resulta
dos han derivado conjeturas bastante formales para establecer la validez de las mismas en el
caso de fuentes sonoras más complejas.
De acuerdo con diversos investigadores (Blauert, 1997; Begault, 2000; Algazi y Duda, 2011,
y Xie, 2003), se acepta que los siguientes mecanismos son los “más significativos para la locali
zación direccional del sonido” (He, 2017):
• ITD-IID.
• Indicios espectrales (monoaurales y relevantes a la antropometría del escucha).
• Indicios de movimiento de la cabeza.
• Indicios de intensidad y volumen.
• Familiaridad con la fuente sonora.
• DRR (direct-to-rverberation ratio).
• Señales e indicios visuales y de propiocepción.
Mientras que los indicios binaurales; esto es, las IID y las ITD, resuelven la dirección de la
fuente en el plano horizontal, los indicios espectrales son necesarios para resolver la elevación
en el plano medio (resultado del llamado cono de confusión) y la discriminación frente-atrás.
Estos indicios están asociados a la antropometría del escucha y se relacionan con el colora
miento espectral del sonido (filtrado) causado por la cabeza, el torso y el pabellón auditivo
antes de entrar al canal del oído; son formulados mediante las HRTF (head related transfer
function). “La mayoría de los indicios espectrales debidos al pabellón auditivo ocurren para
frecuencias arriba de los 3Khz, mientras que aquellos relacionados a la cabeza y el torso ocu
rren por debajo de ese valor” (He, 2017).
Previamente, para el caso particular del pabellón auditivo, Batteau (1967) proponía que “las
reflexiones producidas por el oído externo eran capaces de proporcionar indicios adicionales
para la localización y que los retardos temporales entre el sonido directo y esas reflexiones, va
riaban en función del ángulo de incidencia”.
Para escenarios en los que ocurren diversas fuentes sonoras simultáneas o campos sonoros su
perimpuestos, estos mecanismos no son directamente aplicables y la mayoría de los estudios
apuntan a que otros procesos complementan o incluso sustituyen dichas funciones tales como
el efecto de precedencia (también conocido como efecto Haas). De hecho, la discriminación de
localización espacial para fuentes simultáneas parece estar ligada a los mecanismos del ASA.
Como es bien sabido, la capacidad humana de localización espacial del sonido tiene una
mayor resolución en el horizonte frontal debido, en gran medida, a que es apoyada por el sen
tido de la vista. Al respecto, Blauert (1997) apunta que el MAA (ángulo audible mínimo), “pue
de llegar a tomar un valor tan pequeño entre 1° y 3° para sonidos de banda amplia (como el
ruido) en el plano frontal horizontal (±90° azimut) y decrece en resolución para otras direccio
nes y sonidos de banda reducida”. Derivado de esto y aunado, por ejemplo, al efecto de las
reflexiones en recintos reverberantes, una gran variedad de fuentes cuya ubicación física se en
cuentra en la parte posterior de la cabeza del escucha pueden conducir a localizaciones no só
lo deficientes sino incluso erróneas por parte del oído humano (percibir que la fuente proviene
de otro lugar distinto, como del frente horizontal).
Como bien retoma Cetta (2003), la localización espacial de fuentes sonoras de banda estre
cha presenta además una anomalía particular, y es que para ciertos casos, dicha fuente es per
cibida en una posición simétrica respecto del eje interaural. Lo anterior resulta de que, como
dichos sonidos tienen un ancho de banda limitado, el sistema auditivo no es capaz de utilizar
eficientemente los indicios espectrales para resolver la posición espacial.
Del mismo modo, “típicamente, las fuentes ubicadas en la parte posterior, dan lugar a una
respuesta reducida para frecuencias altas, debido a la forma del pabellón de la oreja que está
orientada hacia el frente” (Rumsey, 2001), o como comenta Cetta (2003), “hacia los lados, es
te valor (el MMA) se incrementa de tres a diez veces, y en la parte posterior decrece nueva
mente hasta aproximadamente el doble del valor en el frente”.
Sin embargo, algunas conjeturas sugieren que debido a esta limitación fisiológica (la forma
del pabellón de la oreja y la concentración de la percepción de la información audiovisual
hacia el horizonte frontal), el proceso auditivo humano ha desarrollado adaptaciones ecológi
co-cognitivas con el fin de aumentar la resolución de la localización espacial de las fuentes so
noras ubicadas en la parte posterior (Rumsey, 2001).
mas. Las bandas propuestas por Blauert (1997) encuentran su antecedente en las investigacio
nes de Pratt (1930), quien afirma que “antes de cualquier adición asociativa, existe en cada
tono, un carácter intrínseco espacial el cual dirige directamente al reconocimiento de diferen
cias en la altura y profundidad junto con el continuo de alturas”. Como consecuencia particu
lar de esa conclusión, el mismo Pratt (1930) afirma que los tonos tienen una relación directa
entre su contenido espectral y su ubicación vertical en el espacio. Años después, Mudd (1963)
encontró evidencia de que la percepción espacial de la frecuencia no sólo estaba en función de
la ubicación vertical sino que también existía un componente horizontal; a este resultado le
denominó estereotipo espacial asociativo.
Estudios más recientes han confirmado lo anterior en el sentido de que el sistema cognitivo
humano asocia el tono aural con una representación mental del espacio. Rusconi et al. (2005)
mostraron que existe “una naturaleza integral del procesamiento de los estímulos audibles tan
to espectrales como espaciales”. A continuación se citan sus resultados:
Blauertestableció el concepto de bandas direccionales, las cuales “son regiones del espectro
frecuencial que parecen estar atenuadas o aumentadas para posiciones particulares en el plano
medio” (Rumsey, 2001). En su trabajo, Blauert (1969) demostró que la dirección de una ima
gen sonora para una banda de ruido de octava, es una función únicamente del centro de la fre
cuencia y no depende del ángulo de elevación de la fuente; de este modo, la banda direccional
es la banda frecuencial mediante la cual es determinada la dirección de la imagen sonora. Jun
to con las bandas direccionales de Blauert, Hebrank y Wright (1974) identificaron picos y va
lles relacionados con cada banda para localizaciones específicas estableciendo, de este modo,
relaciones entre las características espectrales y la localización en el plano medio.
A continuación se enlistan las bandas direccionales de Blauert junto con los picos-valles
antes mencionados tal y como son descritos en Rumsey (2001):
1. La región frecuencial centrada en los 8 KHz parece corresponder de manera muy acer
tada a la percepción espacial por encima de la cabeza con un pico de un cuarto de octava
entre 7 KHz y 9 KHz.
2. Las regiones entre los 300 y 600 Hz, así como aquellas entre los 3 KHz y los 6 KHz co
rresponden de manera óptima a la localización frontal con un valle entre 4 y 8 KHZ, y
un incremento en la energía superior a los 13 KHz.
3. Las regiones centradas en los 1.2 KHz y los 12 KHz están relacionadas con la localiza
ción posterior con un pico entre los 10 KHz y los 12 KHz junto con un decremento de
energía arriba y abajo de dicho intervalo.
4. La percepción de la elevación varía de acuerdo a la frecuencia baja de corte de un valle
de una octava localizado ente los 5 KHz y los 11 KHz.
Plano horizontal-vertical
Para a = 3, frecuencias por debajo de los 500 Hz. Para a = 2 frecuencias arriba de los 2000
Hz y c = 331 + 0.6T donde T es la temperatura ambiente.
3. Derivado del punto anterior, existe un valor crítico de ITD, el cual es el referente que se to
ma como el valor máximo que puede tener dicho parámetro: ITDmax = 794µs.
4. Para frecuencias por debajo de los 1.5 KHz, las IID son demasiado pequeñas como para
contribuir a la localización espacial.
5. Dependiendo de la posición lateral y el contenido espectral de la fuente, las IID pueden
alcanzar valores de hasta 10 dB para sonidos centrados en los 3 KHz y de hasta 35 dB para so
nidos centrados en los 10 KHz.
1. Las reflexiones debido al torso afectan el espectro frecuencial en el rango [2, 3] KHz. Los
efectos debido al pabellón auricular son más pronunciados en el rango de [3, 4] KHz, pero
también tiene influencia para espectros localizados arriba de los 5 KHz. De los resultados
anteriores se deben tomar en cuenta también las ISD o diferencias interaurales espectrales.
2. Los indicios espectrales más importantes para la diferenciación de la localización frente-
atrás están centrados en el rango de [4, 16] KHz. Para el caso de la diferenciación arriba-abajo,
dicho rango corresponde a [6, 12] KHz.
3. Los indicios monoaurales de frecuencias altas son predominantes para la discriminación
de ubicación vertical y frente-atrás. Sin embargo, algunos estudios han mostrado que indicios
monoaurales de frecuencias menores a 2 KHz pueden contribuir de manera importante a di
cha localización; sobre todo para elevaciones mayores a 45 grados.
Indicios dinámicos
Según diversos estudios, y de acuerdo con Rumsey (2001), para experiencias aurales en siste
mas multicanal existe una tendencia de preferencia en escuchas por parámetros como la pro-
fundidad de la imagen sonora, el ancho de la imagen sonora y la sensación de envolvimiento. Lo
anterior plantea de entrada una discusión sobre una posible perspectiva de las características
puntuales al momento de realizar una creación electroacústica multicanal y, sobre todo, cuan
do se desea poner especial énfasis en el desarrollo de una sensación de inmersividad.
Algunos autores definen el término espaciosidad (spaciousness) como la sensación del espa
cio en el que se encuentra localizado el escucha, la cual está directamente relacionada con el
tamaño del recinto y el sentido de externalización del sonido por parte del escucha (Rum
sey, 2001). Por otro lado, el término envolvimiento está ligado a la sensación de inmersividad y
al efecto opuesto de localización espacial; esto es, el hecho de percibir el sonido proveniente de
todas las direcciones alrededor del escucha.
Medidas tales como el “envolvimiento del escucha (LEV), la fracción lateral (LF) y la ganan
cia lateral Lg80, relacionan la proporción de la energía lateral en recintos comparada con una
medida omnididreccional de presión sonora en la posición de escucha” (Rumsey, 2001). Se ha
demostrado, de igual modo, que el ancho de la imagen sonora o ASW (apparent source width)
está directamente relacionado con el coeficiente interaural de correlación cruzada (IAC-CE), la
fracción lateral (LFE) y la ganancia lateral.
El elemento final que se considera de importancia para el presente trabajo es el descrito en
Rumsey (2001) como naturalidad, el cual está relacionado con el grado cualitativo subjetivo de
realismo de una experiencia aural espacial. La naturalidad, por lo tanto, si bien es una descrip
ción perceptual subjetiva, debido a las características propias de la función ecológica de la escu
cha humana, puede considerarse más o menos homogénea y de este modo puede confiarse como
una descripción cualitativa que afecta directamente al desarrollo de la inmersividad. La natu
ralidad, de nuevo, puede vincularse con la analogía relacional y con el proceso top-down.
Este factor (la naturalidad) es de una importancia bastante específica ya que en el proceso
de la creación electroacústica se pueden presentar diversos elementos, escenas u objetos sono
ros que generen en el espectador una sensación de antinaturalidad en la experiencia sonora de
bido a múltiples razones, entre las cuales pueden resaltar un uso equivocado/ambiguo de la
reverberación o del movimiento espacial y construcciones tímbricas altamente artificiales con
bajo grado de resolución sonora. Tales situaciones se presentan de manera inmediata cuando
dichos elementos (objetos o escenas sonoras) son percibidos con un comportamiento inusual
o incluso contrario a la experiencia aural ecológica usual; este factor llega a ser (el de la natura
lidad) uno de los más importantes en ciertas pruebas, al momento de evaluar la preferencia ge
neral en la calidad de la reproducción del audio (Mason y Rumsey, 2000).
Puede surgir una pregunta en este punto: ¿por qué es importante considerar todos estos
factores acústicos, perceptuales y psicoacústicos dentro de un modelo de creación electroacús
tica multicanal? La respuesta radica en uno de los objetivos de la investigación propuesta: la
búsqueda de la inmersividad como experiencia aural en sistemas multicanal. Por lo tanto, una
creación sonora, si no basada del todo en este corpus de conceptos y datos acústico-perceptua
les, pero sí asistida y dirigida por ellos, estará fundamentada en una construcción sólida y di
námicamente informada que le permitirá al creador-compositor emplear dichas herramientas
para lograr resultados concretos al momento del diseño espacial en su obra. A continuación se
agrupan, a modo de definición, todos los conceptos antes descritos.
La primera engloba todas aquellas características mediante las cuales el escucha es ca
paz de describir las propiedades de ubicuidad (fija o dinámica) y extensión limitada de una
fuente específica dentro de un espacio o recinto y entre las cuales pueden listarse las si
guientes: localización direccional, percepción de la distancia, ancho de la imagen sonora y
profundidad de la imagen sonora. La segunda trata sobre las propiedades de espacialidad
que son percibidas difusas y distribuidas a través de un espacio o recinto: espaciosidad, en
volvimiento y reverberación.
OBSERVACIÓN 2.3.1. Derivado de lo anterior, el concepto de naturalidad puede entenderse
tanto en el nivel grupal (conciencia audible espacial) como en el local de cada uno de los
componentes; por ejemplo, naturalidad de la distancia o naturalidad de la espaciosidad.
Existen algunos parámetros o indicios primordiales que el escucha toma como referencia
para resolver el problema de localización de las fuentes sonoras móviles: velocidad angular, ve-
locidad radial,7 el efecto Doppler, la intensidad del sonido y las diferencias interaurales.
Así como el MAA es la métrica utilizada para la diferenciación en la localización, el ángulo
de movimiento mínimo audible (MAMA) es la correspondiente para las fuentes en movimiento y
se define como la distancia angular más pequeña que la fuente sonora debe recorrer para que la di
rección de su movimiento sea identificada.
Como describe Letowski (2012), existen dos teorías principales que explican la percepción
de las fuentes sonoras en movimiento: la teoría de la instantánea y la teoría del movimiento con-
tinuo. La primera supone que la percepción del movimiento de la fuente sonora no necesita ser
real sino potencial, en el sentido de que el escucha es capaz de establecer esa sensación de mo
vimiento comparando únicamente las posiciones iniciales y finales de dicha fuente; a este efec
to se le conoce como movimiento audible aparente o AAM. La segunda teoría establece que el
escucha realiza un proceso de atención-percepción sobre toda la trayectoria de la fuente sonora.
De las investigaciones más conocidas al respecto se encuentran las de Perrott y Musicant
(1977), de las cuales se obtuvieron las primeras conclusiones sobre las fuentes móviles: las po
siciones de los onsets y los offsets son desplazadas primordialmente en la dirección del movi
miento. Esto fue recopilado por Getzmann y Lewald (2007):
7 La velocidad angular es aquella a la cual el sonido rota alrededor del escucha. La velocidad radial se refiere a la velo
cidad con la que la fuente sonora se aleja o se acerca respecto del escucha (Letowski, 2012).
mera parte de la trayectoria se pierde y la posición percibida del onset parece haber cambiado
hacia la dirección del movimiento” (Müsseler y Aschersleben, 1998).
Por su parte, el momentum representacional se define como el efecto de percibir una fuente
sonora más lejos de su trayectoria real cuando dicha trayectoria ha concluido. En cualquie
ra de los dos casos anteriores, el problema a estudiar es la distorsión perceptual de la trayectoria
de la fuente sonora en cualquiera de sus etapas: inicio, durante o final.
Por otro lado, los experimentos de Aschoff (1963) y de Plath (1970) mostraron que la per
cepción del movimiento de una fuente sonora en una configuración multicanal es inversamen
te proporcional a la velocidad de dicho movimiento.
1. El MAMA es por lo general dos veces más grande que el MAA cuando se trata de la misma
fuente sonora y la misma dirección inicial de referencia, siendo además independiente de la
dirección del movimiento en el plano horizontal y de la intensidad de la señal.
2. El MAMA presenta valores mínimos al frente del escucha; de aproximadamente 2° − 8°
para fuentes con una velocidad menor a 10°/seg, y va incrementándose de manera directa tan
to en función de la velocidad como de la lejanía lateral con respecto al escucha; hasta 1.5 a 3.0
veces más grande para ±60° a lo largo del azimut.
3. La resolución óptima del MAMA en el plano horizontal es de 9° − 16°/seg y de 7° − 10°/seg
en el plano vertical.
4. Para fuentes sonoras cuya velocidad excede los 10°/seg, el MAMA horizontal está lineal
mente relacionado con la velocidad de la fuente sonora.
5. El umbral de velocidad, el cual se considera como la velocidad mínima necesaria para que
una fuente sonora sea detectada en periodo constante de observación, depende de dicho pe
riodo T y del perfil espectral de la fuente. Para un periodo T=500ms y tonos de 250 500 y 1000
Hz, se ha observado que dicha velocidad oscila entre los 10° − 15°/seg y de 40°/seg para tonos
de 2000 Hz.
6. La separación espacial entre dos fuentes sonoras no afecta la fuerza de la sensación del
AAM y sólo tiene efecto en la velocidad percibida del movimiento.
E
l Espacio-Timbre, tal y como se propone en el presente trabajo, será construido
a través de dos etapas. La primera será la formulación abstracta y generaliza
da de las características de espacialidad y de timbre de un objeto sonoro cual
quiera; en ambos casos considerando los aspectos acústicos y perceptuales.
Una vez construidas estas definiciones, se establecerá el concepto de espacio
aural y espacio espectromorfológico mediante sistemas dinámicos. Este capítulo corresponde
a la construcción de la primera parte; el de la formalización de los conceptos de espacio y es
pacialidad.
Aunque puede resultar algo confuso, en esta etapa la palabra espacio hace referencia a un
objeto teórico con representación matemática y no al espacio desde el punto de vista sonoro; de
este modo, espacio aural es el objeto abstracto que representa la espacialidad acústico-per
ceptual de un objeto sonoro, mientras que espacio espectromorfológico es el objeto abstracto que
representa las características espectromorfológicas acústico-perceptuales de un objeto sonoro.
Toda vez que se ha especificado lo anterior, la siguiente etapa consiste en formular de ma
nera abstracta y general el Espacio-Timbre haciendo uso de la propiedad universal del producto
de conjuntos y tomando como elementos de dicho producto al espacio aural y al espacio espec-
tromorfológico. El capítulo concluye con una definición formal de Espacio-Timbre que abarca
una concepción teórica y generalizada por medio de la cual cualquier aplicación práctica y
concreta podrá ser explicada y desarrollada, a través de dicho modelo.
La idea de establecer esta relación indisoluble entre las características espaciales y tímbricas
puede parecer evidente si se toma en cuenta que en la composición de la música electroacústi
[ 75 ]
A lo largo de esta sección se construirá una definición original del concepto de espacialidad
siguiendo en tres aspectos específicos:
1. Componente heurístico. Derivado de ciertos antecedentes explícitos acerca del uso y for
mulación de la idea de espacio en la música electroacústica; en particular aquellas rela
cionadas con el trabajo de Dennis Smalley, Francis Dohmont, Francois Bayle y Michel
Chion.
De este modo, al final de la sección se habrá desarrollado una construcción teórica sobre el
concepto de espacio, la cual estará soportada por las tres bases angulares ya mencionadas con
el fin de sustentar dicha formulación de manera formal.
A principios de los años cincuenta del siglo pasado, se estableció en Nueva York un grupo lla
mado The Proyect for Magnetic Tape, del cual surgieron tres obras representativas: William´s
Mix (John Cage, 1952), Octet (Earl Brown, 1952) e Intersection (Morton Feldman, 1953). Sur
gen como creaciones que buscan explorar y explotar la utilización del espacio para la música
en el formato de soporte fijo (cinta magnética) como un parámetro composicional.
Por el lado acústico, Charles Ives y Henry Brant habían establecido las bases de lo que sería
denominado posteriormente música acústica espacial (cada quien con distintos enfoques) en
piezas como Fourth Symphony (Ives, 1916) y Antiphony I (Brant, 1953), cuyos antecedentes pue
den ser rastreados hasta la escuela veneciana del siglo XVI con las Antifonías de Adrian Willaert
y Andrea y Giovanni Gabrielli, pasando por ejemplos como la Sinfonía No. 2 (Mahler, 1892),
El Pájaro de Fuego (Stravinsky, 1910) o la Grande Messe des Morts (Berlioz, 1837).
Por su parte, también en la década de 1950 en Europa, Schaeffer introducía la sistematiza
ción de la musique concrète y los precedentes de la difusión en tiempo real con el potentiomètre
du space, además de establecer, junto con Pullin y Pierre Henry, los conceptos de relief spatial y
projection sonore. Xenakis por su parte, exploraba de manera sistematizada las posibilidades
intrínsecas de la relación del sonido con el espacio arquitectónico (al igual que Varese) y de
sarrollaba los conceptos de contrapunto espacial y geometría espacial. Stockhausen sentaba
además las bases de la llamada serialización del espacio en Gesang der Jünglinge (1956) y desa
rrollaba en formas alternativas las ideas de la música espacial de Henry Brant, con Gruppen
(1957). Hacia 1966 François Bayle introducía el Acousmonium en el GRM de París y junto
Desde finales del siglo XIX y durante la mayor parte del XX se han desarrollado diversas con
cepciones de espacio en la música. Macedo (2015), por ejemplo, mediante un recuento histó
rico, plantea una taxonomía de cinco categorías: metáfora, espacio acústico, espacialización
sonora, referencia y localización. Henriksen (2002), por su parte, recoge y estructura un análisis
con seis tipos de espacios, divididos en dos grandes categorías: el espacio musical en su base
perceptual y el espacio musical en su perspectiva compositiva-performática. La primera cate
goría consta de espacio intrínseco, espacio extrínseco y espacio espectral, mientras que la segunda
se conforma por el espacio compuesto, espacio de escucha y el espacio percibido.
Cabe resaltar que la mayoría de las taxonomías actuales sobre espacio y espacialidad pueden
considerarse combinaciones de las concepciones de autores y compositores como Schaeffer,
Henry, Dhomont, Bayle, Smalley, Chion, Chowning, Varese, Stockhausen y demás grandes per
sonajes de la música contemporánea. De aquí que no exista una homogeneidad teórica y con
ceptual sobre lo que significa espacio y espacialidad dentro de la música electroacústica, ya que
las aportaciones al respecto corresponden en gran medida a las miradas individuales de los
compositores y su particular forma de comprender el espacio conforme a su estética y proce
so composicional subjetivo.
En este sentido, para fines del presente trabajo, es necesario diferenciar dos tipos generales
de concepción de espacio (muy parecido a la división propuesta por Henriksen). La primera se
relaciona con el espacio de parámetros musicales y la segunda con la espacialidad del sonido.
El espacio de parámetros musicales busca establecer una cuantificación (abstracta o práctica)
de un conjunto de cualidades del sonido o de la música (según el contexto y el autor), mientras
que la espacialidad está asociada a todas aquellas características que conforman tanto el pro
ceso composicional como el de experiencia aural de la sensación espacial de una obra y sus
elementos (objetos sonoros). Entonces, el término espacio tiene una doble connotación depen
diendo del contexto: espacio como representación paramétrica de cualidades sonoras/
musicales y espacio como conjunto de características metafóricas, perceptuales, acústicas y
experienciales respecto de la escucha aural.
En este trabajo, el modelo teórico de Espacio-Timbre conjuga estas dos perspectivas: me
diante el desarrollo de una representación paramétrica de ciertos aspectos sonoros (espectro
morfología y localización espacial) se construye una formulación experiencial-perceptual de
la espacialidad.
La caracterización o definición de un espacio musical o espacio de parámetros sonoros ha si
do abordada de manera exhaustiva por numerosos autores y compositores a lo largo de la his
toria y ha tenido un particular auge en el transcurso del siglo XX. Helmholtz, Riezler, Conrad,
Stofft, Kagel, McDermott, Rochberg o Morgan han contribuido al desarrollo de propuestas de
formulaciones de espacios de parámetros sonoros. Para una revisión detallada al respecto,
consúltese Harley (1994).
El propio Wishart (1998) plantea un modelo tridimensional de espacio sonoro cuyos ele
mentos son: el continuo de alturas o pitch continuum, la dimensión del ruido-coloración y
el timbre. “La discusión de las características del continuo de alturas es parte de la descripción
de espacio sonoro de Wishart y está relacionada con lo que él denomina rejillas sonoras”
(Macedo, 2015).
Por el lado de concepción de espacio como experiencia de espacialidad, tal y como lo descri
be Zelli (2010), para Francis Dhomont existen tres categorías de espacio en la música acusmá
tica: le figuratif, le symbolique y l’artificiel. El espacio figurativo puede ser entendido como el
primer nivel de relación semántica en el cual el material sonoro mantiene sus propiedades
anecdóticas pero explora nuevas formas de generación musical instrumental, siendo la música
concreta el mejor ejemplo de ello, a juicio del propio autor, debido a que existe una asociación
del material sonoro con la fuente (aunque no del todo con la forma de producción del sonido).
El espacio simbólico podría entenderse como la experiencia perceptual que conduce a la ana
logía relacional y, por lo tanto, hacia una construcción semántica más compleja del material
sonoro con metáforas y experiencias no necesariamente asociadas a las propiedades anecdóti
cas del mismo. Ambos, el espacio figurativo y el simbólico, “se usan como una metamorfósis
para construir un mundo virtual de ideas que está más allá de la realidad tangible y que estable
ce su propio criterio” (Zelli, 2010). Finalmente, Dhomont asocia el concepto del espacio artifi
cial a la experiencia aural derivada de los sonidos sintéticos o puramente electrónicos. “Espacio
artificial significa espacio simulado. La realización de tales espacios se ha hecho posible sola
mente en la música hecha por computadora” (Zelli, 2010).
Para Clifton (1983), el espacio se entiende como una experiencia de “estar dentro de un lu
gar” con características específicas. “El espacio musical tiene significado porque una persona se
encuentra a sí mismo en ese lugar, como un lugar para ocupar un hábitat temporal”.
Françoise Bayle propone tres especies de espacios, en función de aspectos perceptuales y ele
mentos cognitivos de la escucha: présentification, identification e interprétation. La presentifi
cación tiene que ver con el proceso preatención y percepción pasiva descrito en el capítulo I,
así como con la idea de conciencia audible espacial: “está caracterizada por un estado de
escucha pasiva en el cual la percepción sensomotora del sonido irradiado, deviene en un esce
nario intuitivo de escucha mediante la diferenciación de la percepción de la dirección y distan
cia” (Zelli, 2010). En la etapa de identificación tiene lugar un proceso cognitivo más complejo
en el que surgen asociaciones y discriminaciones semánticas con mayor detalle respecto a la
conciencia de la espacialidad de los objetos sonoros y de la escena aural general. En la etapa fi
nal, la de interpretación, el escucha realiza asociaciones sobre la espacialidad de acuerdo con
experiencias enteramente subjetivas, “los escuchas interactúan con el espacio a través de una
percepción activa, componiendo el mismo de acuerdo a sus propios conceptos y afectando su
configuración a través de la subjetividad” (Zelli, 2010).
Para Vande Gorne (1988) es posible identificar cuatro tipos de espacios: espacio envolvente,
espacio/sonido fuente, espacio geométrico y espacio ilusorio. El espacio envolvente es aquel que
genera una sensación de inmersión en el espectador y que sería opuesto al espacio fuente, el
cual tendría la función de localización sonora puntual. El espacio geométrico se relaciona con
un prediseño de la espacialización de acuerdo con volúmenes o estructuras específicas. Fi
nalmente, el espacio ilusión tiene que ver con el trabajo composicional realizado en el formato
estéreo de tal modo que se pueda percibir una ilusión de profundidad de campo.
Existen numerosas propuestas y definiciones sobre espacio (desde el punto de vista para
métrico y desde la espacialidad), por lo que se recomienda al lector el extenso trabajo realizado
al respecto por Harley (1994) para una detallada revisión histórica de dichas formulaciones.
Para efectos del presente trabajo basta con reafirmar dos aspectos de la concepción de espa
cio: espacio como representación cuantificable/metafórica de parámetros sonoros y espacio como
representación experiencial de localización/ubicación /inmersión espacial.
Es claro que los antecedentes previamente descritos han sido reutilizados, mezclados y re
formulados por los compositores de música electroacústica interesados en el componente es
pacial; para el caso de una clasificación sobre espacialidad desde la perspectiva meramente
composicional/performativa, es posible establecer una pauta general:
Una revisión histórica detallada del uso del espacio en la composición musical queda fue
ra de los objetivos de este trabajo, pero el lector puede encontrar un excelente referente en
Bates (2009).
Uno de los principales problemas que enfrenta la creación electroacústica es, sin duda, la tras
lación de la obra desde el estudio al recinto de concierto; se trata de un proceso complejo ya
que cada recinto es por lo general completamente distinto en sus características arquitectóni
cas y acústicas y, por supuesto, difiere del lugar en el cual se compuso la obra, el cual segura
mente posee condiciones más o menos ideales o al menos fijas y controladas.
Esta problemática ha sido abordada por diversos compositores de renombre como Michel
Chion, Jean Claude Risset, John C. Chowning y Dennis Smalley, por mencionar algunos. Sus
descripciones e investigaciones son, hasta la actualidad, fundamentos cruciales para conser
vatorios y universidades donde tal conocimiento es presentado como referencia principal para
la escuela acusmática-concreta inglesa y francesa.
Michel Chion describe dos tipos de espacio en la música acusmática: el espacio interno y el
espacio externo. El primero se refiere a todos los elementos espaciales desarrollados composi
cionalmente y que quedan fijos en la obra misma. Es decir, “son los aspectos espaciales de la
música que están composicionalmente predeterminados en la grabación como la reverbera
ción, localización, planos y distancias” (Chion 1988). El espacio externo, por otro lado, es la adap
tación del espacio interno en el recinto de concierto mediante la interpretación del compositor
de la obra misma. Esta adaptación es muy común para difusión de obras estéreo (espacio in
terno) a configuraciones multicanal (espacio externo), aunque también se presentan con gran
frecuencia adaptaciones de obras multicanal a otros sistemas multicanal. La traslación descrita es,
en cierto modo, una reinterpretación del espacio composicional trabajado en el estudio, adecua
da a las circunstancias específicas del performance en vivo de la obra en la sala de concierto; ello
es realizado casi siempre mediante difusión por faders en mezcladoras multicanal.
Estableciendo analogías un tanto arbitrarias con el espacio interno y externo, es posible re
lacionar dichos conceptos con lo que Risset denomina espacio ilusorio y espacio real y con la in
teracción que ambos establecen para desarrollar una experiencia final sobre el escucha. Para él,
los sonidos pueden ser espacializados; esto es, “distribuidos en el espacio en una variedad de
patrones y movidos en el mismo espacio a lo largo de diferentes trayectorias” (Harley, 1994), “pa
ra jugar en la localización del sonido, en su desplazamiento y en su cinética” (Chion, 1988).
Por su parte, para Dennis Smalley existen muchas categorías distintas o tipos de espacios
en el nivel perceptual del compositor, en primera instancia, y del espectador, en segunda. Tal
y como lo menciona Harley (1994), para Smalley el espacio compuesto es el imaginario espa
cial considerado por el compositor, mientras que el espacio audible, que puede ser personal
o público, se encuentra fuera del control del o la compositora. El espacio audible puede pen
sarse como la experiencia de la percepción del espacio compuesto desde el punto de vista
del espectador y de hecho, “lo que un escucha percibe durante un concierto es un espacio
superimpuesto, un anidado de espacios compuestos dentro de un espacio audible” (Smal
ley, 1991).
Retomando el binomio espacio interno-espacio externo, la traslación del primero al segundo
implica un número de circunstancias técnicas que afectan considerablemente la percepción
de la obra al momento del performance; quizá, una de las más importantes es la distorsión de
la imagen espacial, la cual afecta las distancias virtuales (y por lo tanto los tamaños de las esce
nas espaciales virtuales), la localización fija, el envolvimiento sonoro y, en particular, la percep-
ción de la continuidad (estos conceptos se explicarán en las secciones siguientes). Como se vio
en el primer capítulo, desde el punto de vista perceptual la continuidad sensorial es muy im
portante para establecer representaciones mentales coherentes y convincentes de los objetos
sonoros. Disrupciones en la continuidad provocan ambigüedades perceptuales que son inter
pretadas como errores y, más aún, podrían provocar consecuencias como alejar al espectador
de la experiencia inmersiva debido a posibles indicios de antinaturalidad ecológica.
Para plantear un modelo teórico que aborde la problemática de lo que se denominó Espacio-
Timbre es necesario, en primer término definir claramente el concepto de espacio en sí mis
mo. Como se mencionó con anterioridad, esta definición estará orientada hacia una mirada
del fenómeno experiencial por lo que no intenta desarrollar una ontología del espacio sino un
acercamiento epistemológico del mismo; todo ello con el objetivo de estructurar este concepto
dentro del campo de la electroacústica.
En Soria (2020) se presenta una propuesta teórica original para definir espacio, espacia
lidad e inmersividad, a partir de un marco teórico fundamentado en la ciencias de la cogni
ción y la percepción, y mediante la definición de experiencia estética (entendida desde dichas
áreas).
Haciendo uso de los conceptos bottom-up y top-down, la teoría del procesamiento mental
y de lo que se definió como “condiciones perceptual-cognitivas intrapersonales”, se planteó
una definición inicial de inmersividad:
La inmersividad puede ser entendida como el fenómeno que deriva en un nivel elevado
de abstracción de la ubicuidad espacio temporal que experimenta un individuo al reali
zar una tarea específica; implica el uso y la focalización de su atención plena, provocando
posibles efectos de distorsión en la percepción del tiempo y de la localización física del
individuo.
A partir de estas bases se desarrolló una discusión conceptual que derivó en una definición
de espacio inscrita en el marco teórico ya mencionado. A continuación se transcribe esta parte
del trabajo de Soria (2020) con el fin de que el lector (a reserva de que pueda consultar dicho
capítulo posteriormente) comprenda el planteamiento y la lógica deductiva utilizada para de
finir dichos conceptos:
Una posible perspectiva de la idea de espacio (quizá las más simple desde la cual es posi
ble partir), es aquélla en la cual éste puede definirse como una región delimitada o como
la acción misma de delimitar una región. En este sentido, el espacio como fenómeno,
surge de la acción de observar o experimentar sensorialmente un ente con una realidad
ontológica a priori. Desde una perspectiva materialista, este ente que ya existe por sí
mismo, independientemente del observador, forma entonces lo que podría denominar
se espacio físico.
Como punto de partida se tienen entonces dos tipos de espacio: el físico y el fenomé
nico, siendo este último, el resultado de experimentar el primero.
Se propone que el espacio físico sea entendido como una región con una realidad in
dependiente del observador, que además posee como característica primordial, la ex
tensión. Esta propiedad se plantea simultáneamente tanto desde la fisicalidad como
desde la temporalidad del espacio mismo. A esta extensión se le puede denominar dimen
sionalidad.
Para el otro tipo de espacio, el que es abordado como fenómeno, cabe enfatizar de
nuevo que su caracterización no estará completa sino hasta el momento mismo de la ex
periencia estética. En este sentido, se puede proponer como primera aproximación, que
el espacio fenoménico es la acción de delimitar el espacio físico a través del fenómeno
de la experiencia sensorial subjetiva.
Dicho lo anterior, resulta necesario establecer: ¿qué se entiende por delimitación?
para posteriormente enfatizar ¿qué elementos se consideran para establecer esa delimi
tación dentro de un marco específico para definir la espacialidad cuando el objeto de
contemplación es precisamente uno de tipo artístico?
Delimitar, en el sentido anteriormente expuesto, no significa otra cosa que establecer
los límites del fenómeno de la percepción de la experiencia estética del espacio físico en
un intervalo de tiempo dado. Dicho de otro modo, delimitar implica establecer todo
aquello que el observador es capaz de percibir y aprehender del espacio físico en un mo
mento dado por medio de un proceso sensorial subjetivo condicionado por un mar
co perceptual-cognitivo. Por lo tanto, cuando el observador experimenta sensorialmente
el espacio físico, como consecuencia, está al mismo tiempo delimitando la dimensiona
lidad y esta delimitación fenoménica de la extensión del espacio físico (entendida tal y
como fue descrita) puede denominarse espacialidad física.
En este sentido, si se toma como premisa la realidad a priori de la dimensionalidad,
entonces la espacialidad física puede ser entendida como una abstracción perceptual-
cognitiva de la dimensionalidad de la región que experimenta el observador.
Si la espacialidad se considera como una abstracción perceptual subjetiva de la di
mensionalidad, entonces como se dijo anteriormente, el elemento principal que la
construye es la experiencia estética del observador en un instante de tiempo dado, a tra
vés de un proceso perceptual-cognitivo. Dicho de otro modo, la espacialidad de una re
gión cualquiera está asociada a la extensión física del mismo, en medida en como es
percibida por el observador en un instante dado y, por esta razón, la construcción per
ceptual-cognitiva de esa espacialidad depende directamente de lo que se estableció co
mo condiciones perceptual-cognitivas intrapersonales.
Para un recinto cerrado, por ejemplo, la formulación subjetiva de la espacialidad de
ese recinto, descrita por distintos individuos, coincidirá en gran medida debido a que la
percepción de dicho espacio es asistida por la delimitación física natural del recinto mis
mo. Para un espacio físico abierto es más complicado establecer delimitaciones claras; sin
embargo, debido precisamente a esta falta de capacidad de establecer fronteras delimi
tantes específicas, en tal caso es también probable que la espacialidad coincida en gran
medida para distintos individuos.
Una vez que se planteó la idea de espacio, se propuso introducir el concepto de espacio fic-
ticio, entendido como una serie de construcciones, reconstrucciones o incluso deconstruccio
nes virtuales de cualquier tipo de recinto o región, las cuales pueden ser consecuencia de
procesos naturales o desarrollados a través de métodos artificiales específicos intencionales.
Dicho de otro modo, si el individuo experimenta un fenómeno sensorial que difiere de la
espacialidad del recinto físico donde se encuentra, se puede decir que dicho individuo está den
tro de un espacio ficticio o virtual.
Lo anterior permitió, por lo tanto, plantear una noción de virtualidad basada en todas las
consideraciones anteriores, bajo el razonamiento de que todo espacio virtual se construye y
existe dentro de un espacio físico específico y, además, que la virtualidad es la ubicuidad alterna
y separada de espacio-tiempo que se experimenta debido a la abstracción de la inmersividad
virtual. En este sentido, y de manera inversa, la capacidad de un espacio virtual de abstraer en
mayor o menor grado al individuo del espacio físico conduce a la inmersividad. Lo anterior
tiene como implicación lógica un sentido de ida y vuelta. Por un lado, la inmersividad virtual
deviene en espacio virtual y, por el otro, el espacio virtual produce inmersividad virtual.
Todo esto va a conjugarse en la idea de obra inmersiva, aquella que busca establecer expe
riencias estéticas que puedan generar experiencia de inmersividad en el espectador, teniendo
la capacidad de expandir la estimulación sensorial no sólo en formato, sino en calidad de los
elementos propios de la pieza y en el diseño de la misma, vista como un espacio virtual. Éste
es el punto clave del razonamiento propuesto: es posible generar obras capaces de dirigir al espec-
tador hacia una experiencia de inmersividad si se les concibe y desarrolla a lo largo del proceso crea-
tivo como espacios virtuales en sí mismas. Lo anterior concluye en una definición específica
acerca de lo que se denominó arte experiencial inmersivo:
puede no ser considerada por el compositor o compositora; sin embargo, el formato multi
canal, por su propia naturaleza, plantea esta relación potencial inherente: la de la obra con la
inmersividad.
Cuando la obra electroacústica busca intencionalmente generar una resolución espacial sa
tisfactoria, es necesario que se establezcan métodos y procesos detallados que permitan al es
pectador obtener una experiencia de inmersividad convincente. Las metodologías, taxonomías
y estrategias para lograr una sensación de inmersividad variarán de acuerdo con el creador, no
obstante, al día de hoy la mayoría de ellas se desprenden o se formulan de manera heurística.
En esta sección se propone una metodología para el desarrollo de la inmersividad en la
música electroacústica multicanal basada en la hipótesis de que el timbre y el espacio son pa
rámetros indisolubles entre sí y que, por lo tanto, pueden ser considerados como un sólo elemen
to composicional: el Espacio-Timbre. Esta premisa, fundamentada principalmente en todos
los referentes descritos en los capítulos I y II, tiene como implicación directa lo siguiente:
Los objetos sonoros, de acuerdo con su perfil espectromorfológico, poseen una zona óp
tima de resolución/localización espacial como fuente virtual dentro de un sistema mul
ticanal.
De este modo, se propone suerte de orquestación espacial de los objetos sonoros dentro de
un marco de creación electroacústica multicanal basado en la hipótesis anterior. Este concepto
será denominado a partir de este punto como orquespectración espacial.
distribución de información espectral y, de este modo, se podrían utilizar como guía direc
ta para toda una gama espectromorfológica mucho más compleja. Lo anterior ha sido proba
do heurísticamente a través de mi propia experiencia, con resultados bastante aceptables al
respecto de los distintos tipos de localización espacial de objetos sonoros en obras electroacús
ticas multicanal.
Se mencionó con anterioridad que la inmersividad, en su aspecto más general, se conside
ra compuesta por dos elementos primordiales: las variables intrapersonales del espectador y
las características de la experiencia artística. En este sentido, la propuesta aquí planteada ex
plora una metodología centrada en el diseño y construcción del segundo elemento con un
objetivo paralelo: el desarrollo de una alta resolución de inmersividad en la creación electro
acústica multicanal.
La experiencia de escucha de una obra electroacústica multicanal tiene lugar en un espacio
físico específico: un recinto, un estudio o un espacio abierto, por ejemplo. Este recinto posee ca
racterísticas estructurales y arquitectónicas particulares que, a su vez, definen y delimitan las
propiedades acústicas del mismo. Como ejemplos de estas últimas se tienen: coeficiente de ab
sorción, área total de absorción, tiempo de reverberación, campos sonoros, modos normales
de vibración, etcétera. Ejemplos de características arquitectónicas son: diseño estructural del
recinto y materiales de construcción (interior/exterior), entre otros.
Dado un recinto o espacio físico, la experiencia de escucha de una obra electroacústica
multicanal requiere de la construcción de un espacio virtual que, en este caso, estará definido
por la arquitectura del espacio físico en conjunto con las características del sistema multicanal.
De este modo se establece una región delimitada dentro del espacio físico, delimitada también
por componentes físicos (arquitectura del recinto y características del sistema multicanal).
Se puede decir entonces que sus propiedades son de fisicalidad y son previas a la experiencia
aural. El resultado de la conjunción de estas características (las de la arquitectura del recinto y
del sistema multicanal) se nombrará espacio audible.
Dado que el sistema multicanal se insertó en el espacio físico, el primero hereda las pro
piedades acústicas del segundo aunque posee otras características propias; por ejemplo, el nú
mero de bocinas, la disposición de las bocinas en el espacio físico (la distancia y el ángulo entre
ellas, la altura a la cual se colocan respecto del nivel del piso), el tipo y tamaño de bocinas y el
diseño estructural del sistema en sí, el cual puede ser 2D (un solo nivel) o 3D (más de un ni
vel, con formas cúbicas, esféricas o semiesféricas).
Todas estas características, tanto las propiedades acústicas heredadas del espacio físico
como las inherentes del sistema multicanal, conforman lo que se denominará arquitectura del
sistema multicanal. Nótese que el espacio físico delimita, en gran medida, varias de las caracte
rísticas que se denominaron como inherentes del sistema multicanal; sin embargo, por cuestiones
de definición se consideran separadas de la arquitectura del mismo.
DEFINICIÓN 3.1.1. El espacio audible [Ξ] es el espacio virtual que surge debido a la experien
cia de fisicalidad delimitada por la arquitectura del espacio físico y la arquitectura del siste
ma multicanal.
La arquitectura del espacio físico será denotada mediante A (φ) y la arquitectura del
sistema multicanal por A (ϑ). La arquitectura del espacio audible será el término que haga re
ferencia a la conjugación simultánea de A (φ) y de A (ϑ).
En el momento en que el espectador se coloca dentro del espacio audible y ocurre la ex
periencia de escucha in situ de la obra, surge el espacio virtual sonoro.8
Cada espacio audible tendrá un sweet spot específico de acuerdo con su arquitectura y por, lo
tanto, un área óptima de escucha que por lo general decae de manera proporcional mientras
más alejado se encuentre el espectador de dicha ubicación. En la figura 6 se muestra la repre
sentación genérica de un espacio audible para una configuración usual octafónica. Nótese que
la delimitación del espacio audible transita entre el perímetro octagonal y la periferia circular.
Dependiendo de los procesos y herramientas composicionales, la delimitación del espacio vir
8 La experiencia aural puede y es realizada múltiples veces por el o la compositora; es decir dentro del proceso composi
tual sonoro puede extenderse más allá de dicha periferia del espacio audible; es decir, es posi
ble crear objetos sonoros que sean percibidos con una localización fuera del espacio audible.
1 2
Espacio audible
Extensión 3 4
del espacio
Área
virtual
circundante al
sonoro
sweet spot
5 6
7 8
Figura 6 | Representación gráfica del espacio audible y de la extensión del espacio virtual sonoro.
número de bocinas (Rumsey, 2010). Por ejemplo, un espacio demasiado grande con un sistema
multicanal de pocas bocinas difícilmente logrará arrojar una resolución espacial alta.
En este punto tiene sentido, entonces, referir como diseño espacial multicanal a las estrate-
gias, métodos y herramientas utilizadas para crear el espacio interno de una obra electroacústica;
más aún para poder lograr la inmersividad en un grado aceptable, partiendo del hecho de que
uno de los objetivos primordiales es la búsqueda de la experiencia de la inmersividad en el es
pectador (obra experiencial inmersiva). De este modo y toda vez que se han planteado formal
mente los términos adecuados para la comprensión del espacio según esta propuesta teórica
particular, se procederá a abordar una metodología propia encaminada a investigar el proble
ma del diseño espacial multicanal que permita contribuir positivamente a la inmersividad.
Si bien el espacio virtual sonoro constituye una conceptualización cuasi abstracta, para fi
nes de la presente propuesta resulta útil asociarlo con una representación cuantificable como
la representación tridimensional del sonido a partir de la conjunción del plano azimut, pla
no elevación y plano horizontal. De este modo, en las siguientes secciones, será posible realizar
representaciones específicas de los elementos constitutivos del diseño espacial multicanal, el
cual puede entenderse como la composición del espacio dentro de una obra de música electro
acústica; esto es, la creación de espacios ficticios sonoros dinámicos y múltiples que surgen, se
desarrollan y convergen dentro del espacio audible.
Smalley (1997) introdujo el ahora recurrente término espectromorfología, mediante el cual carac
teriza a los objetos sonoros a través de la interacción de dos componentes: el espectro sonoro y
la manera en que dicho espectro es moldeado a través del tiempo en la dinámica (morfología).
Smalley enfatiza, en su conocido artículo, que su propuesta está orientada hacia una explica
DEFINICIÓN 3.1.4. Dado cualquier proceso composicional que implique el uso de uno o
más parámetros sonoros, la disimilitud serial-perceptual será la diferencia existente entre el
prediseño serial y la experiencia final aural percibida.
La disimilitud serial-perceptual se plantea como una medida cualitativa y hasta cierto punto
heurística. El diseño y realización de pruebas perceptuales/psicoacústicas que puedan esta
blecer una medida cuantitativa de la misma para diversos parámetros no resulta de ningún
modo complicada, sobre todo si se consideran todos los resultados mostrados en el capítulo I.
La importancia de establecer esta medida heurística de disimilitud para el presente trabajo ra
9 Este aspecto se relaciona directamente con los diversos aspectos de la composición algorítmica.
dica en que aquí se puntualiza, como objetivo, que la composición del parámetro Espacio-Tim
bre esté en función de una validación perceptual acorde con el diseño serial. Si la disimilitud
serial-perceptual no jugara un papel predominante, entonces nos encontraríamos frente a otro
tipo de acercamiento estético más orientado, por ejemplo, hacia el arte procesual.
La disimilitud serial-perceptual, tal como se ha presentado, se desprende además de hechos
psicoacústicos observados en distintas pruebas. De aquí se ha concluido, entre otras cosas, que
“cambios en la parte física del sonido (incluyendo frecuencia, intensidad, fase y dirección) pueden
no siempre generar una diferencia perceptual” (He, 2017). Cetta (2003) puntualiza, por su par
te, la idea anterior, afirmando que dado que el espacio físico y el auditivo no son necesariamente
idénticos; la posición del evento sonoro con respecto al evento auditivo10 no siempre coinciden
y, por lo tanto, la localización espacial puede resultar ambigua.
El diseño espacial multicanal dentro de la música electroacústica es un área amplia y bien docu
mentada que ha evolucionado rápida e ingentemente desde los primeros días del potentio
métre d’ espace de Schaeffer y Pierre Henry. Es un campo que ofrece al compositor una múltiple
paleta de recursos composicionales, estructurales, sensitivos y estéticos ya sea que se “bus
que colocar al escucha dentro de un ambiente de sala de concierto o dar la ilusión de traer a
los músicos a su sala de escucha personal” (Rumsey, 2001). Una mezcla dinámica de ambas
perspectivas juega un papel central, y en ocasiones hasta primordial, dentro de áreas como la
música acusmática donde “el acercamiento espacio-forma es diferente de otras metodologías
en el sentido que coloca al tiempo, al servicio del espacio” (Smalley, 2007).
En este sentido, el diseño espacial propuesto en este trabajo se asocia con la composición del
espacio y está basado en tres elementos primarios:
DEFINICIÓN 3.2.1. Un objeto sonoro es cualquier elemento o conjunto de elementos que son
considerados como una sola unidad cohesiva ya sea desde el prediseño serial o en la expe
riencia perceptual aural final.
Considerado desde su cualidad física como fuente virtual (vibración producida por el
sistema multicanal), éste radica en el espacio audible. Cuando se le considera desde el pro
ceso de percepción auditiva (con base en los principios Gestalt y del ASA y en sus perfiles es
paciales y espectromorfológicos), se puede afirmar que radica en el espacio virtual sonoro.
El objeto sonoro se denotará como:
𝒪 = 𝒪spat ⋃ 𝒪spmor
La definición anterior hace una distinción explícita del objeto sonoro dependiendo de la
perspectiva desde la cual se analice. Si se le observa como una vibración acústica desplazándo
se a través del espacio físico, entonces se afirma que radica en el espacio audible. En el caso
de que exista un proceso perceptual de asociación con sus perfiles espectromorfológicos y es
paciales, se considera que radica en el espacio virtual sonoro. En ambos casos se le denomina
objeto sonoro. La definición anterior puede considerarse descriptiva y, tomando esto en cuen
ta, se hace aquí la aclaración de que en el capítulo IV se definirá el objeto sonoro de manera
más detallada y abstracta. Mientras tanto, debe tomarse en cuenta que la definición anterior
toma en cuenta las propiedades espacio-tímbricas desde una perspectiva acústica y espectro
morfológica simultáneamente. En este sentido, dado que se asume que el Espacio-Timbre es
un solo parámetro, un objeto sonoro estará definido, precisamente, por sus características con
juntas de espacio (o localización espacial) y timbre.
La razón de lo anterior radica en lo que se dijo en la definición 3.1.2 y es el hecho de que el
espacio audible se convierte en espacio virtual sonoro cuando ocurre la experiencia aural per
ceptual in situ. Esto implica que existe una relación inherente entre el espacio audible y el espa
cio virtual sonoro y que la focalización de alguno de ellos depende de la perspectiva particular
de observación.
CONJETURA 3.2.1. El objeto sonoro es equivalente al torrente auditivo tal y como está des
crito en la definición 1.4.2.
CONJETURA 3.2.2. Las cualidades acústicas del objeto sonoro que en el proceso perceptual
permiten que sea aprehendido como una unidad, están dadas por los factores del agrupa
miento simultáneo y secuencial del ASA.
CONJETURA 3.2.3. El objeto sonoro considerado desde su cualidad perceptual y dotado de
una función composicional o musical, es equivalente a la TGU definida por Tenney.
De modo similar, es necesario considerar un concepto de espacio que conjugue a la vez las
características físicas y las experienciales; es decir, que sea la concepción sincrónica de espacio
audible y espacio virtual sonoro:
DEFINICIÓN 3.2.2. Se define el espacio aural 𝔖(a) como la caracterización simultánea del es
pacio audible y del espacio virtual sonoro con focalización en la localización espacial. Esto
es, la consideración general de espacialidad desde el prediseño serial y también desde la
percepción final.
En otras palabras, el espacio aural es la focalización conjunta del prediseño serial y la percep-
ción final, con respecto a los atributos de la espacialidad. Es importante hacer esta distinción ya
que más adelante se hablará de espacio espectromorfológico que será, por lo tanto, la focaliza
ción conjunta del prediseño serial y la percepción final con respecto a los atributos de la espec
tromorfología.
Nótese que con la definición anterior se podrán desarrollar definiciones y resultados que
contemplen tanto las características acústicas como las perceptuales respecto del proceso com
posicional espacial, el cual es el objeto de las siguientes secciones.
DEFINICIÓN 3.2.3. Dado un espacio aural 𝔖(a), un elemento 𝒪spat ∈ 𝔖(a) será precisamen
te la descripción de localización espacial de un objeto sonoro 𝒪. La duración temporal de
dicho elemento estará dividida en dos: duración acústica y duración perceptual, y serán
denotadas como |𝒪spat |a = na y |𝒪spat |p = np respectivamente. Cuando no se especifique otra
cosa, la duración temporal hará referencia a la duración perceptual y se denotará simple
mente como |𝒪spat | = n.
Para fines generales, es posible asumir que la duración de un objeto sonoro coincide con la
duración de su representación espacial y de la representación espectromorfológica. No obs
tante, derivado de lo planteado en el capítulo I, es claro que dichas duraciones pueden diferir
en casos muy concretos; por ejemplo cuando los objetos sonoros se desplazan a través de tra
yectorias bajo condiciones particulares. A partir de este momento se asumirá, por facilidad de
notación, que las duraciones son las mismas y que se puede hablar de duración del objeto so
noro en general: |𝒪 | = |𝒪spat| = |𝒪spmor| = n.
La idea de objeto sonoro fijo corresponde a aquel cuya posición espacial dentro del espacio au
ral no sólo no cambia durante su duración total, sino que puede ser perceptualmente localiza
ble en un punto o un área específica delimitada dentro de dicho espacio. Recuérdese que,
según lo descrito en la sección 3.2 del capítulo II, el sistema de coordenadas a utilizar para la
descripción de localización espacial, será el interaural polar.
DEFINICIÓN 3.2.4. Dado un espacio aural 𝔖(a) y 𝒪spat ∈ 𝔖(a), para un objeto sonoro 𝒪 con
una duración total |𝒪 | = n, la representación de su ubicación espacial en un instante de
tiempo t, con respecto al sistema de coordenadas interaural polar, estará dada por:
Se dice que 𝒪spat es un objeto sonoro fijo si su posición dentro de 𝔖(a) es constante a lo
largo de su duración total:
γ(𝒪spat, t) = γ(𝒪spat)
De la definición anterior se sigue que, al momento de que al escucha le son presentados dos
objetos sonoros simultáneos de localización espacial distinta, será posible establecer una sen
sación de distancia mucho más definida debido a que una de ellas se tomará como punto de
referencia; luego se resolverá perceptualmente la distancia de ese punto de referencia con el
otro objeto sonoro y, finalmente, se estableció una resolución de distancia respecto a él mismo.
Todo ello, por supuesto, no en ese orden estricto desde el punto de vista cognitivo.
Recordando lo descrito sobre la disimilitud serial-perceptual, es necesario recalcar que la dis-
tancia espacial lineal (así como todos los conceptos relacionados que se desarrollarán ensegui
da) depende de una validación perceptual; esto es, no basta con que exista una distancia entre
dos objetos sonoros en el diseño composicional si dicha distancia no es correspondiente en la percep-
ción real dentro del espacio aural.
Cabe señalar que la capacidad de colocar objetos sonoros en localizaciones específicas en el
espacio aural por parte del compositor se tiene como dada. Por supuesto, esta capacidad de
penderá de las herramientas tecnológicas utilizadas, el método de espacialización y la capaci
dad del propio compositor para manejar tanto la espectromorfología de los objetos sonoros
como el diseño espacial mismo (desde el punto de vista técnico). Por esa razón, esos detalles no
se discutirán en este trabajo.
Cuando a los objetos sonoros se les integra una característica de movimiento dentro del espa
cio aural, es posible referirse a ellos como objetos sonoros móviles. El camino o recorrido que
realizan dichos objetos a través del espacio aural se denominará trayectoria espacial móvil o
simplemente trayectoria espacial.
Las trayectorias espaciales, como recurso estético, pueden añadir dinamismo tanto en el
nivel general (i.e. en la experiencia de la obra misma) como en el local (en la percepción espa
cial), apoyando (cuando son utilizadas correctamente) al desarrollo de la construcción de la
espacialidad y por ende de la inmersividad.
DEFINICIÓN 3.2.6. Dado un espacio aural 𝔖(a), y 𝒪 un objeto sonoro tal que 𝒪spat ∈ 𝔖(a)
con una duración total | 𝒪 | = n, se dice que 𝒪 es un objeto sonoro móvil si su localización es
pacial dentro de 𝔖(a) cambia a través del intervalo temporal de su duración total. La trayec-
toria espacial asociada a dicho objeto sonoro móvil estará dada por la parametrización:
I = [0, n] : → ℝ5
t : → (α(t), β(t), θ(t), ϕ(t), d(t))
para t ∈ I ⊂ ℝ+.
Cada trayectoria, tal y como es representada en la definición anterior, posee las propieda
des de velocidad y aceleración. Estas propiedades delimitan el carácter distintivo espacial de los
objetos sonoros desde el punto de vista composicional, en el sentido de que no sólo la posición
espacial afectará la percepción de dicho objeto sonoro sino que la aceleración y la velocidad
del mismo permitirán, en mayor o menor medida, desarrollar gestos o frases composicionales
respecto del parámetro Espacio-Timbre.
El problema principal de las trayectorias no se limita a la deformación de la continuidad al
momento de la traslación del espacio interno al espacio externo, sino que incluye la conti
nuidad de la trayectoria en sí misma dentro del espacio interno. Dicha continuidad depende
de diversas variables entre las que destacan la espectromorfología del objeto sonoro y la
aceleración-velocidad de las mismas, pero también están directamente relacionadas con las pro
piedades perceptuales que se introdujeron en el capítulo I para la sección de las fuentes móvi
les. En este sentido, se puede hacer uso de dichos resultados experimentales con el fin de apoyar la
construcción de la continuidad en las trayectorias de los objetos sonoros. Dicho lo anterior, es
necesario aclarar lo que se entenderá formalmente por continuidad.
Con la definición anterior en mente, puede resultar más o menos claro porque la continui-
dad de las trayectorias constituye uno de los parámetros más susceptibles a la deformación en la
traslación espacio interno-espacio externo. Una de las principales razones es que las dimensio
nes y forma del espacio audible pueden cambiar dramáticamente al momento de dicha trasla
ción. El estudio (lugar donde el o la compositor/a crea la obra y que en tal momento no es otra
cosa que el recinto o espacio físico) puede considerarse un ambiente con condiciones más o
menos ideales y por lo tanto el espacio aural se presenta estable. Las dimensiones de dicho estu
dio, y por lo tanto del espacio aural, son constantes y en general no son demasiado grandes. Es
ta dimensionalidad moldea, permea y afecta la construcción del espacio interno del mismo
modo que las herramientas tecnológicas, los procesos de espacialización y las aptitudes del o la
compositora. En este sentido puede afirmarse que el espacio interno de cada obra es una suerte
de reflejo o condicionamiento del espacio físico donde fue creada.
Si la continuidad es uno de los parámetros críticos al momento de la traslación espacio in
terno-espacio externo, entonces, una apropiada percepción de ésta resulta fundamental para
la coherencia y cohesión de los gestos musicales-sonoros. Así, la continuidad en las trayec
torias espaciales es también uno de los parámetros más delicados al momento de diseñar
experiencias espaciales inmersivas, ya que debido a su propia naturaleza física y psicoacústica,
comprende elementos altamente susceptibles a la aparición de la discontinuidad.
Es posible afirmar que la mayor parte del tiempo resulta deseable diseñar trayectorias es
paciales sonoras que sean capaces de permear una sensación convincente de continuidad en el
escucha para la mayor cantidad de posibles tipos de objetos sonoros y, más aún, para crear
escenarios donde múltiples trayectorias espaciales se encuentren simultáneamente, pero de un
modo tal que cada una de ellas pueda ser escuchada de una manera específica e individual
sin una pérdida demasiado significativa de coherencia perceptual tanto en el nivel local co
mo en el general.
Por supuesto, esta continuidad perceptual de las trayectorias espaciales depende de diversas
variables: extrapolación de la distancia y configuración del sistema multicanal llevado del estu
dio al recinto de concierto, métodos de paneo, contenido espectral de los objetos sonoros, ve
locidad y aceleración de los objetos sonoros, etcétera. Más aún, un desarrollo profundo de la
continuidad no depende únicamente de estas variables por separado, sino de una relación di
námica y cambiante entre subconjuntos de éstas.
Entre los retos principales al momento de utilizar trayectorias sonoras en una obra se en
cuentra la variación de la velocidad de las fuentes sonoras virtuales del espacio interno al espacio
externo. Cuando el compositor trabaja el espacio interno, lo hace por lo regular en un ambiente
controlado y cercano a las condiciones ideales (relativamente buena acústica, equipo adecua
do, aislamiento sonoro, etcétera). Al momento de interpretar la obra en el recinto y ajustarla al
espacio externo, el compositor pierde control de varios parámetros; entre ellos el cambio de
la velocidad percibida de los objetos sonoros que realizan trayectorias espaciales, las cua
les, dependiendo de las dimensiones del recinto, se pueden incrementar sustancialmente. Por
tanto, la percepción de la continuidad y la localización dinámica pueden llegar a ser conside
rablemente afectadas. Una solución utilizada para este problema es la de aplicar tiempos de re
tardo específicos en las salidas de los canales de la configuración multicanal de acuerdo con la
perspectiva panorámica del recinto. La otra se debe a la tradición de las escuelas francesa e in
glesa de espacializar en vivo (live difussion) de modo tal que la obra sea interpretada de acuer
do con cada recinto; es decir, trasladar el espacio interno al espacio externo.
Cabe señalar que estos dos primeros componentes corresponden de manera directa a lo
que se denominó conciencia audible espacial de ubicuidad en la definición 2.5 del capítulo II.
El último componente primario de la inmersividad dentro del espacio aural que se presenta en
este trabajo es el de las superficies sonoras y el envolvimiento.
Las superficies sonoras (de dos dimensiones o bidimensionales) resultan de la distribu
ción de un objeto sonoro (por lo regular textural, más que puntual o percusivo) en una canti
dad dada de salidas dentro del espacio aural de modo tal que, al contrario de la localización
puntual fija, dicho objeto pueda ser percibido como difundido o extendido de manera plana a
lo largo de ciertas áreas del espacio aural (o incluso a lo largo del espacio aural en su totalidad)
de acuerdo a lo que se denominó conciencia audible espacial de ambiente (véase definición 2.5 del
capítulo II).
La posibilidad de percibir estas superficies dentro de un espacio aural 2D, no sólo horizon
talmente sino incluso con ciertos grados de inclinación, implica un especial manejo del perfil
espectromorfológico y de la distribución espacial de los objetos sonoros que está directamente
ligada a la capacidad de poder crear sensación de altura en sistemas 2D. Por supuesto, para sis
temas multicanal 3D la sensación de altura se puede lograr de manera natural.
Esta capacidad de generar sensación de altura en los sistemas 2D implica además que se
puedan crear superficies sonoras tridimensionales; es decir, superficies sonoras que puedan
ser percibidas con extensión volumétrica. De nuevo, para sistemas multicanal 3D, estas super
ficies tridimensionales se pueden lograr de manera más sencilla debido a la naturaleza inhe
rente del espacio aural que resulta de dicha configuración.
Si se piensan las trayectorias espaciales como curvas paramétricas y por lo tanto como ob
jetos abstractos de una dimensión, entonces las superficies sonoras pueden ser vistas como
objetos abstractos dentro del espacio aural de dos y tres dimensiones: superficies y volúmenes
de forma respectiva.
DEFINICIÓN 3.2.9. Dado un espacio aural 𝔖(a) de dimensión k, con k ∈ [2,3], una superficie
sonora es un objeto sonoro distribuido de manera más o menos homogénea sobre una ex
tensión del espacio aural. Si la superficie se diseña y se percibe plana, (i.e. tiene una frontera
serial-perceptual plana), se dice que es bidimensional. Si la superficie se diseña y se percibe
con extensión volumétrica (frontera serial-perceptual volumétrica), se dice que es tridi
mensional.
Cabe recalcar que los objetos sonoros que mejor logran disminuir la disimilitud serial-per
ceptual de superficie (bi o tridimensional) son aquellos cuyo perfil espectromorfológico está
orientado hacia la textura.
reverberación (mediante algún proceso digital o de microfonía ) a través del espacio aural
como una superficie o volumen.
CONJETURA 3.2.4. La inmersividad como experiencia perceptual aural, puede construirse
mediante tres componentes generales:
como para procesos de localización en el espacio audible. Estos elementos visuales pueden
transitar desde simples estímulos hasta geometrías o creaciones visuales complejas y, por lo
tanto, desde lo meramente sonoro apoyado por lo visual hasta la llamada música visual.
OBSERVACIÓN 3.2.7. Haciendo uso de los componentes estructurales representativos para
la descripción de la memoria, del sistema de procesamiento de la información de Atkinson, es
posible organizar y diseñar objetos sonoros que tengan una función específica para cada
caso. Por ejemplo, el componente registro sensorial correspondería a los estímulos que se plan
tearon en las observaciones anteriores. Objetos sonoros asociados al almacenamiento a
corto plazo tendrían que ver con cualidades tímbricas, las cuales pueden ir desde lo com
pletamente reconocible hasta un cierto grado de reconocimiento (sin perder comple
tamente esta asociación). Para la espacialidad, estos objetos sonoros podrían estar asociados
a ubicaciones fijas dentro del espacio audible, o bien, a repeticiones de trayectorias móvi
les (tanto en posición como en energía/comportamiento y velocidad). Todo lo anterior
estaría también asociado a la atención paramétrica en el sentido de Tenney. Los objetos
sonoros asociados al almacenamiento a largo plazo tendrían relación con objetos con un
alto grado de reconocimiento tímbrico y/o el uso de leitmotivs para ambos parámetros (Es
pacio-Timbre).
OBSERVACIÓN 3.2.8. Considerando que el concepto de torrente auditivo se puede asociar al
TGU de Tenney, es posible entender los objetos sonoros (tal y como se presentan en esta
obra) como equivalentes a ambos. Más aún, de acuerdo con lo planteado en esta obra, un
objeto sonoro tiene no sólo una representación tímbrica sino también espacial; de manera
inversa, las TGU de Tenney y los torrentes auditivos pueden ser replanteados en términos de lo
espacial-tímbrico. En este sentido, un clang en el sentido de Tenney puede ser redefinido
como un clang espacio-tímbrico y un torrente auditivo como un torrente aural espacio-tímbrico.
OBSERVACIÓN 3.2.9. A partir de la observación anterior, puede resultar bastante útil consi
derar la cohesión (en términos de las TGU) y los múltiples principios de segregación y agru
pamiento del ASA con el fin de diseñar objetos sonoros que puedan ser percibidos en un
lugar único dentro del espacio audible (tal y como se hace de acuerdo a los principios bási
cos de la mezcla estéreo). Al contemplar esos elementos en la creación de los objetos so
noros será posible, en gran medida, lograr escenas espaciales con mayor coherencia y
estructura virtual de modo tal que el efecto de enmascaramiento pueda ser disminuido
a niveles óptimos.
OBSERVACIÓN 3.2.10. En relación con lo anterior, es posible utilizar los principios gestalt
para poder complementar el diseño de objetos sonoros con un alto grado de cohesión espa
cial-tímbrica. No sólo eso, los principios Gestalt pueden resultar bastante útiles al mo
mento de generar escenas con múltiples objetos sonoros de los cuales se busca generar
alguna especie de agrupamiento. Aplicando por ejemplo el factor de similaridad (objetos
sonoros con similaridad espectromorfológica de acuerdo con lo descrito en este capítulo)
en conjunto con el factor de proximidad (objetos sonoros con ubicación espacial cerca
na), será posible plantear agrupaciones de objetos sonoros que tengan un comportamiento
espacial grupal en cierta medida unificado; ello puede resultar bastante útil al momento de
diseñar trayectorias sonoras, superficies y/o volúmenes espaciales.
OBSERVACIÓN 3.2.11. La ley de la buena configuración de la Gestalt podría ser directamen
te aplicada al ámbito sonoro con el conocido efecto ilusión voz-a-canción, el efecto básico
de los batimentos binaurales y en el espacial multicanal con el efecto Hass o la localización
espacial a partir del paneo por intensidad, por mencionar algunos ejemplos. Sin embargo,
para el caso de objetos sonoros (espacio-tímbricos), dicha ley puede utilizarse mediante pe
queños desplazamientos en el tiempo de objetos sonoros altamente similares (filtrados pa
ra diferentes bandas frecuenciales) y ubicados en distintas posiciones espaciales con el fin
de generar un sólo objeto sonoro resultante. Lo anterior sonará bastante familiar para el
compositor o compositora, de acuerdo con las técnicas de espacialización tímbrica y espa
cialización por bandas frecuenciales.
OBSERVACIÓN 3.2.12. El factor de la buena curva (en conjunto con las distinas nociones de
continuidad previamente planteadas) puede aplicarse para los casos en los cuales se busca
diseñar trayectorias espaciales múltiples unidas y contiguas para que, a pesar de contener
objetos o agrupaciones de objetos sonoros disimilares tímbricamente, dichas trayectorias
distintas puedan percibirse en el espacio audible como una sola trayectoria que va evolu
cionando en función del timbre.
Cabe señalar, a modo de comentario final, que resulta bastante útil el considerar todos los
resultados experimentales mostrados al respecto de la escucha espacial (localización de direc
ción y distancia). Con ello se puede diseñar la espacialidad de los objetos sonoros. Por supues
to, esto no significa que se deban restringir los mismos a dichas consideraciones, más bien se
trata de construirlos o transformarlos con los énfasis espectrales correspondientes.
E
l término Espacio-Timbre, tal y como se ha planteado a lo largo de este trabajo,
se refiere a la relación natural e inherente que existe entre dos características
fundamentales de los objetos sonoros dentro del campo de la composición
electroacústica multicanal: el timbre y el espacio. Como se ha explicado, la per-
cepción, segregación, agrupación y localización de las fuentes sonoras no es un
proceso sencillo sino más bien no lineal y complejo.
Bajo la formulación de los resultados acústicos y psicoacústicos, el modelo aquí planteado
tiene el objetivo principal de explicar (mediante dichos resultados y conceptos) diversas for-
mulaciones conocidas dentro de la composición electroacústica multicanal derivadas de la ex-
periencia práctica. Más aún, como se verá posteriormente, el modelo se propone incluso bajo
una formulación matemática abstracta basada en sistemas, cuyo fin es justificar lo más for
malmente posible la construcción teórica de aquello que podría denominarse Espacio-Timbre
y mostrar un ejemplo de cómo puede utilizarse el lenguaje matemático teórico para la repre-
sentación de conceptos.
Si bien el concepto de timbre es históricamente conflictivo debido a la falta de convención
para definirlo, engloba de manera más o menos eficiente las características específicas que ha-
cen que un escucha pueda, en cierto modo, distinguir una fuente sonora de otra. A lo largo de
este capítulo el lector observará la construcción de una definición del objeto sonoro deriva
da del concepto de espectromorfología de Dennis Smalley; se trata de una definición com-
[ 111 ]
112 EDMAR OLIVARES SORIA
puesta por dos bloques fundamentales: la parte morfológica y la parte espectral. A su vez, cada
uno de estos bloques poseerá dos aspectos individuales: el carácter acústico y el perceptual.
Esto último dará sentido al concepto de disimilitud serial-perceptual propuesto en la defini
ción 3.1.4 del capítulo III.
Antes de continuar, es necesario establecer la definición de timbre de acuerdo con el contex
to del presente trabajo. Aunque esta definición se presenta en esta sección; se debe aclarar que
los elementos que la componen (los perfiles morfológicos y espectrales con las características
acústicas y perceptuales) se desarrollarán detalladamente a lo largo del presente capítulo.
De este modo, Espacio-Timbre es el término que denotará la relación que existe para cada
objeto sonoro, entre sus propiedades de ubicuidad espacial y su perfil espectromorfológico,
ello incluye de manera simultánea el carácter acústico y perceptual de dichas propiedades. El
Espacio-Timbre es por lo tanto, un concepto derivado de implicaciones acústicas, psicoacústi-
cas y composicionales, cuyo objetivo es establecer un marco específico (una alternativa más a
las ya existentes) tanto de términos como de categorización para la creación electroacústica
multicanal.
Los perfiles morfológicos y espectrales, tanto en la parte acústica como en la parte percep-
tual, son representados de manera cuantitativa a través de los denominados descriptores de au-
dio, que son de uso común en el área del MIR (Music Information Retrieval). Dependiendo del
contexto, estos descriptores son clasificados de acuerdo con su nivel de abstracción (bajo/alto
nivel), a su validez temporal o su descripción de dinámica.
Como se menciona en Gomez y Herrera (2004), y en Pohle (2005), para el caso de nivel de
abstracción existen dos tipos: bajo y alto. Los descriptores de bajo nivel son calculados directa-
mente de la señal de audio o de la representación FFT/STFT y son almacenados como valores
flotantes. Por su parte, los descriptores de alto nivel requieren un proceso de inferencia y cla
sificación y los resultados corresponden a variables categóricas o etiquetas.
De acuerdo con la información que arrojan, los descriptores pueden ser clasificados del si-
guiente modo (Bogdanov et al., 2013), (Termens, 2009):
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 113
En esta sección se establecerá la idea de perfil morfológico, el cual funcionará como un concep-
to teórico con aplicación práctica directa para describir y caracterizar la morfología de un ob-
jeto sonoro; esto es, la forma en la que el contenido espectral es moldeado a lo largo del tiempo
a través de la duración total de dicho objeto. Las siguientes definiciones tienen por objetivo
construir la caracterización morfológica de un objeto sonoro de manera perceptual y acús
tica permitiendo, de este modo, construir la caracterización completa de 𝒪morf.
ac
ℭmorf 𝒪
ac
ℭmorf 𝒪 ≃ ∪in= 0 δ(𝒪)iac
donde lo anterior puede leerse como “el contorno morfológico es equivalente a la in-
fluencia conjunta de los descriptores acústicos δ(𝒪)iac asociados a dicha representación”.
El contorno morfológico perceptual
pr
ℭmorf 𝒪
pr
ℭmorf 𝒪 ≃ ∪i δ(𝒪)ipr
donde lo anterior puede leerse como “el contorno morfológico perceptual es equivalen-
te a la influencia conjunta de los descriptores δ(𝒪)ipr asociados a dicha representación”.
El perfil morfológico
𝔓morf
distinción categórica, conceptual y práctica al momento de enunciar este modelo teórico, así
como los subsiguientes ejemplos del capítulo.
Una consecuencia directa del concepto de perfil morfológico es la idea de espacio morfológi-
co, el cual, dentro de este modelo, no es otra cosa que el ordenamiento de los descriptores co-
mo vectores de algún subconjunto de ℝn y que encuentra relación con lo que se mencionó en
el capítulo anterior sobre el concepto de espacio como representación de parámetros sonoro/
composicionales. Esta conceptualización permitirá establecer, de manera formal, el concepto
de espacio espectromorfológico y además facilitará el formular casos particulares de acuerdo con
los descriptores utilizados.
El espacio morfológico es, entonces, una construcción arbitraria y particular acorde con el
número de descriptores que se deseen utilizar para casos específicos; es decir, éste se construye
luego de decidir cuántos y cuáles descriptores acústico-perceptuales se usarán en una situa-
ción particular. Antes de establecer formalmente dicha definición es necesario tener presente
el concepto de duración total de un objeto sonoro tal y como se presentó en la definición 3.2.4
del capítulo III.
El concepto de duración total es de importancia relevante ya que los descriptores morfoló-
gicos de los objetos sonoros pueden formularse de dos formas muy generales:
En el primer caso se tiene, por ejemplo, la práctica común en el MIR (Music Information Re-
trieval) de obtener medidas de tendencia central y dispersión para formular el comportamien-
to general de los descriptores. Por supuesto, la desventaja de esta metodología radica en que
se puede perder una gran cantidad de información acerca del comportamiento de la morfolo
gía del objeto sonoro a analizar, al hacer una reducción tan considerable. De hecho, como se
verá más adelante, esta es la razón principal por la cual se propone la metodología descrita en
este capítulo, basada en el análisis de series de tiempo.
Ahora bien, se debe clarificar, en este punto, la diferencia entre espacio y parametrización de
espacio. Por ejemplo, el espacio morfológico es el espacio abstracto donde radica la caracteriza-
116 EDMAR OLIVARES SORIA
ción morfológica del objeto sonoro. La parametrización del espacio morfológico será, por otro
lado, la descripción vectorial de dicho espacio en función de los descriptores acústico-percep-
tuales asociados al objeto sonoro. De manera análoga, el espacio espectral es el espacio abstracto
donde radica la caracterización espectral del objeto sonoro, mientras que la parametrización de
éste será la representación vectorial de dicho espacio en función de los descriptores acústico-
perceptuales asociados al objeto sonoro. Lo anterior funciona exactamente igual para el espa
cio espectromorfológico.
Para construir una parametrización de un espacio morfológico primero deberá elegirse el
conjunto de descriptores morfológicos acústico/perceptuales y, posteriormente, a partir de estos
conjuntos, describir dicho espacio. En este sentido, el espacio morfológico depende de la elec-
ción previa del conjunto de descriptores.
ℳI ⊂ ℝn × ℝk
Para cada objeto sonoro que se desee describir en el espacio anterior, sea I ⊂ ℝ+ un con-
junto indexador de tiempo asociado a la duración total de dicho objeto sonoro que se esté
representando, es decir |I | = |𝒪|. Entonces, dado un instante de tiempo t ∈ I, un elemento o
vector m ∈ ℳ estará representado por la siguiente parametrización:
I : ⟶ ℳI
t : ⟶ m (t)
donde:
ac pr
y mi ∈ ℭmorf 𝒪 para i ∈ [0, n] y mj ∈ ℭmorf 𝒪 para j ∈ [0, k]. Por lo tanto, todo objeto so-
noro asociado a dicho espacio estará representado y definido por dicho vector.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 117
Nótese que la definición anterior incluye los casos en los que el perfil morfológico está des-
crito tanto por una cuantificación numérica (como la media, varianza, etcétera), como por va-
lores en series de tiempo. La primer situación puede considerarse como un caso particular de la
segunda; cuando para todo instante de tiempo el valor del descriptor es el mismo: miac (t) = µ
para todo t ∈ I.
La diferencia primordial entre el perfil morfológico y el espacio morfológico es que el
primero describe las características morfológicas acústico-perceptuales de los objetos sonoros
de acuerdo con los descriptores elegidos; mientras tanto, el segundo establece la organización
vectorial de dichos descriptores dentro de un espacio subconjunto de ℝn × ℝk. El vector m (t)
puede entonces pensarse como la caracterización numérica de un objeto sonoro en relación a
los descriptores elegidos a lo largo de un intervalo de tiempo.
La forma en que dicha caracterización toma un valor concreto dependerá del referente nu-
mérico que se le asigne a cada descriptor, el cual, como ya se explicó, puede ser constante o pa-
ramétrico a través del tiempo. Supóngase, para fines de ejemplificación, un caso trivial en el
que el espacio morfológico está dado por:
ℳI ⊂ ℝ × ℝ = ℝ2
Lo anterior significa que dicho espacio está construido a partir de un descriptor acústico y
uno perceptual. Supóngase además que dichos descriptores son el ZCR y el RMSE respectiva-
mente, y que el ZCR está caracterizado por una cantidad numérica fija dada por la media arit-
mética, mientras que el RMSE está caracterizado por una parametrización en serie de tiempo.
Entonces, cualquier objeto sonoro estará representado por estos dos descriptores del siguiente
modo:
Por su parte, el perfil morfológico de ese objeto sonoro estará descrito por la serie de tiempo:
pr pr pr
[(µ, m0 (0)), (µ, m0 (1)),…, (µ, m0 (n))]
Nótese que el procedimiento general para construir el espacio morfológico puede resumirse
en los siguientes pasos:
118 EDMAR OLIVARES SORIA
Resulta claro en este punto que existirán tantas parametrizaciones de espacios morfológi-
cos como combinaciones posibles de descriptores morfológicos acústicos-perceptuales. Nóte-
se además que, al definir la parametrización del espacio morfológico de una manera tan
general, es posible incorporar sin ningún problema cualquier descriptor que pudiera ser de
sarrollado en el futuro. No sólo eso, es necesario enfatizar la diferencia entre espacio y su para-
metrización. Al respecto del espacio morfológico tenemos:
𝔚spectra𝒪
ac
𝔚spectra 𝒪 ≃ ∪i ω(𝒪)iac
donde lo anterior puede leerse como “el contenido espectral acústico es equivalente a la
influencia conjunta de los descriptores acústicos ω(𝒪)iac asociados a dicha representación”.
El contenido espectral perceptual
ac
𝔚spectra 𝒪
de un objeto sonoro, es la representación de dicha propiedad (el espectro del sonido) li-
gada a la representación perceptual:
pr
𝔚spectra 𝒪 ≃ ∪i ω(𝒪)ipr
donde lo anterior puede leerse como “el contorno morfológico perceptual es equivalente
a la influencia conjunta de los descriptores perceptuales ω(𝒪)ipr asociados a dicha representa
ción”.
El perfil espectral
𝔓spectra
ac pr
𝔚spectra (𝒪) ≃ 𝔚spectra 𝒪 ⋃ 𝔚spectra 𝒪
120 EDMAR OLIVARES SORIA
ℰI ⊂ ℝn × ℝk
Para cada objeto sonoro que se desee describir en el espacio anterior, sea I ⊂ ℝ+ un con-
junto indexador de tiempo asociado a la duración total de dicho objeto sonoro que se esté
representando, es decir |I | = |𝒪|. Entonces, dado un instante de tiempo t ∈ I, un elemento o
vector e ∈ ℰ estará representado por la siguiente parametrización:
I : ⟶ ℰI
t ⟶ e(t)
donde:
ac pr
y eiac (t) ∈ 𝔚spectra 𝒪, para i ∈ [0, n], y eipr (t)∈ 𝔚spectra 𝒪 para j ∈ [0, k]. Por lo tanto, to-
do objeto sonoro asociado a dicho espacio estará representado y definido por dicho vector.
spectra
Bmorf (𝒪) ≃ 𝔚morph(𝒪) ⋃ 𝔚spectra(𝒪)
Antes de cerrar esta sección cabe mencionar algunos puntos importantes. Nótese que al es-
tablecer una definición tan general de los perfiles morfológico y espectral, tal y como se hizo
anteriormente, es posible que dicha concepción se ajuste a los descriptores que se quieran uti-
lizar y no a la inversa. En otras palabras, no es la elección predefinida de los descriptores la
que delimita la definición. Lo anterior también se ve reflejado en el hecho de que para cada
componente de cada perfil, el número de descriptores es distinto: n, m, k, l.
La formulación consecuente resumida es que todo objeto sonoro puede ser descrito y repre-
sentado por sus cualidades morfológicas y espectrales desde el punto de vista físico-acústico y per-
ceptual simultáneamente. Esto permite una definición abstracta y general que abarque cualquier
objeto sonoro y, a la vez, un marco de referencia práctico y concreto para realizar esta repre
sentación mediante descriptores acústico-perceptuales que puedan ser directamente inclui
dos en algún modelo computacional.
Se establece a continuación, también de manera análoga a la forma en que se construyeron
el espacio morfológico y el espectral, la definición de espacio espectromorfológico; en este caso
la construcción es más sencilla puesto que dicho espacio se propone como el producto cruz de
los dos anteriores.
DEFINICIÓN 4.3.2. Sean ℳ y ℰ los espacios morfológico y espectral con dimensiones (n1 +
k1) y (n2 + k2) respectivamente, entonces, la parametrización del espacio espectromorfológico
estará dado por:
SI = ℳI × ℰI
cos y espectrales elegidos, así como por su caracterización numérica. Del mismo modo que
en los casos anteriores, cada vector estará representado por una parametrización que para
este caso estará dada por:
I:⟶SI
t ⟶ s (t)
donde:
es la notación correspondiente para tal efecto. SI por su parte será, como ya se describió
anteriormente, la caracterización vectorial de la espectromorfología acústico-perceptual
de dicho objeto sonoro.
Con todas las definiciones anteriores ya establecidas, nótese que el objeto sonoro 𝒪 puede
entonces pensarse como la conjunción de sus propiedades espaciales (𝒪spat ∈ 𝔖(a)) y sus pro-
piedades espectromorfológicas (𝒪specM ∈ S). Dicho de otro modo:
𝒪 = (𝒪spat , 𝒪spectrM)
lo que es equivalente a decir que el Espacio-Timbre es el producto cruz del espacio aural
con el espacio espectromorfológico:
𝔖(a) × S
DEFINICIÓN 4.3.4. El Espacio-Timbre puede ser representado como el producto cruz del
espacio aural con el espacio espectromorfológico. De este modo, el objeto sonoro se repre-
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 123
π1 : 𝔖(a) × S ⟶ 𝔖(a)
𝒪 = (𝒪spat , 𝒪specM) ⟶ 𝒪spat
π2 : 𝔖(a) × S : ⟶ S
𝒪 = (𝒪spat , 𝒪specM) ⟶ 𝒪specM
Esta proposición será presentada de manera más formal en la sección de sistemas diná
micos.
Hasta este punto se ha construido el espacio espectromorfológico como el producto cruz del
espacio morfológico y del espacio espectral, siendo todos ellos subconjuntos de ℝn para alguna
dimensión n. Esto tiene como consecuencia directa de que dichos espacios heredan diversas
propiedades de ℝn, en particular la propiedad de ser espacios métricos cuando se consideran
las métricas usuales como la euclidiana, la de Minkowsky o la Manhattan. En este sentido, la
cuestión principal al respecto de la definición del espacio espectromorfológico radica en el he-
cho de poder establecer distancias entre dos vectores cualesquiera y, más aún, puntualizar el sig
nificado de dicha distancia.
Dada una parametrización del espacio morfológico ℳI junto con la métrica euclidiana
usual y dos vectores m(a), m(b) ∈ ℳI, entonces la distancia d[m(a), m(b)] tendrá el significado
asociado a la caracterización numérica de cada descriptor. Ejemplificando lo anterior, supón-
124 EDMAR OLIVARES SORIA
gase que el espacio mencionado está construido a partir de dos descriptores en particular: RMSE
y energía. Supóngase además que el RMSE es caracterizado por la media aritmética mientras
que la energía es caracterizada por el coeficiente de variación. Entonces, el espacio morfológi-
co resultante es un subconjunto de ℝ2 tal que todo vector será de la forma:
y representará objetos sonoros de acuerdo con los descriptores establecidos. De este modo,
para cada objeto sonoro, la primera coordenada de este vector será el valor asociado a la media
aritmética del RMSE y la segunda será el valor del coeficiente de variación de la energía. Para es-
tas caracterizaciones numéricas es claro que el espacio morfológico no sólo es un subconjunto
de ℳI sino de [0, 1] × [0, 1]. De este modo, para cada instante de tiempo t, dados dos vectores
m(a), m(b) ∈ ℳ, la distancia entre ellos representará un nivel de similaridad de los objetos so-
noros de acuerdo con los descriptores y las caracterizaciones numéricas elegidas. Se propone
ahora la definición formal de caracterización numérica.
Resta la definición formal de distancia entre dos vectores dentro de un espacio morfoló
gico, espectral o espectromorfológico. Nótese que para el caso de que la caracterización sea
paramétrica es necesario establecer una forma de medir la distancia entre las series de tiempo.
Una de las técnicas más populares para realizar lo anterior es el dynamic time warping, que
funciona sobre todo para series de tiempo que son de distinta longitud. De nuevo, dada la ge-
neralidad del modelo, desde el punto de vista conceptual, el método elegido para medir la dis-
tancia entre las series de tiempo es irrelevante; esto cobrará importancia al momento de
realizar la aplicación práctica concreta. Recuérdese que el objetivo primordial de este modelo
es establecer un marco teórico formal que permita formular la idea de distancia entre objetos
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 125
Se presenta ahora la construcción del concepto del Espacio-Timbre utilizando sistemas dinámi
cos. Esta forma de definir dichos conceptos permitirá una contribución teórica formal haciendo
uso de una herramienta matemática sólida, capaz de establecer un modelo lo suficientemente
general como para englobar y explicar la mayoría de los casos particulares.
La dinámica de sistemas puede entenderse, en términos muy generales, como la descrip-
ción de la evolución de un fenómeno natural (social o de cualquier otro tipo), de un objeto
abstracto, o bien, de un sistema a través del tiempo, dadas ciertas condiciones iniciales. Estas
últimas se relacionan, usualmente, con el punto sobre el cual se elige aplicar la dinámica del sis-
tema, así como con restricciones específicas sobre dicha dinámica. En el presente contexto,
cada punto del sistema corresponderá a un objeto sonoro específico y, por lo tanto, el sistema
dinámico será la representación de la evolución de dicho objeto sonoro a través del tiempo;
dada la gran generalidad de este modelo, la representación no es para un punto único o espe-
cífico sino para cualquiera. En esta característica radica la utilidad del sistema dinámico como
11 El lector puede encontrar similitudes con las métricas morfológicas propuestas por Polansky (1996); sin embargo, la di-
ferencia principal con lo propuesto en este trabajo radica en el hecho de que aquí se enfoca la atención a las cualidades
espectromorfológicas de los objetos sonoros.
126 EDMAR OLIVARES SORIA
ϑ : I × 𝔖(a) ⟶ 𝔖(a)
(t, 𝒪spat) ⟶ τ ( t, 𝒪spat)
τspat(t) : I → 𝔖(a)
12 Nótese que cuando el contexto es claro, por abuso de notación se sustituye spat en vez de 𝒪
spat
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 127
Haciendo uso de esta definición del espacio audible mediante sistemas dinámicos, es posible
caracterizar los componentes de dicho espacio de manera particular para cada caso: objetos
sonoros fijos, trayectorias espaciales y superficies.
PROPOSICIÓN 4.4.1. Sea (𝔖(a), I , τ ) el sistema dinámico asociado a la conciencia audible espa
cial, entonces, cualquier objeto sonoro fijo puede ser entendido como un punto fijo de di-
cho sistema.
DEMOSTRACIÓN. Sea 𝒪spat ∈ 𝔖(a). Dado que el objetivo sonoro es fijo, esto significa que su
posición de localización espacial es constante a lo largo de toda su duración:
para todo t ∈ [0, n]. Supóngase por otro lado que el objeto sonoro no es punto fijo del
sistema, entonces existe al menos un punto de la órbita de dicho objeto tal que la posición
espacial es distinta de la posición inicial, i.e.
DEFINICIÓN 4.4.2. Sea (𝔖(a), I, τ ) el sistema dinámico asociado a un espacio audible. Dado
𝒪spat ∈ 𝔖 (a) y n ∈ I ⊂ ℝ, entonces, la trayectoria espacial continua de cualquier objeto so-
noro asociado a dicha representación estará dada por el recorrido finito de la órbita del sis-
tema dinámico correspondiente:
en donde |𝒪spat | = n.
128 EDMAR OLIVARES SORIA
Para el caso del espacio espectromorfológico S ⊂ ℝk, es necesario recordar que, la dimensión
k dependía de la morfología y del número de descriptores utilizados para construir el perfil es-
pectromorfológico del objeto sonoro en cuestión. En este sentido, es posible también definir este
espacio mediante un sistema dinámico tal y como se presenta a continuación:
𝜓: I × S ⟶ S
(t, 𝒪specM) ⟶ 𝜓 (t, 𝒪specM)
𝜓specM : I ⟶ S
PROPOSICIÓN 4.4.2. Dado un sistema dinámico espectromorfológico por la tripleta (S, I, 𝜓), los
objetos espectromorfológicamente estáticos son asociados a los puntos fijos de dicho sistema.
La prueba de esta proposición es exactamente análoga a la mostrada para el caso del siste-
ma dinámico de la espacialidad.
Uno de los principales intereses de este trabajo de investigación era el de plantear la conjetura
de que existe una relación indisoluble entre la espacialidad y el perfil espectromorfológico de
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 129
cada objeto sonoro dentro del proceso composicional de la música electroacústica. Se ha vis-
lumbrado que esta conjetura es cierta hasta cierto grado, a partir de los resultados expuestos en
el capítulo I. Estos resultados han sido comprobados para fuentes sonoras muy simples (tonos
sinusoidales y ruido) por lo que no es posible extrapolar los mismos a sonidos más comple
jos de manera indiscriminada y directa. Un camino posible para obtener resultados acerca de
la relación Espacio-Timbre con fuentes sonoras más complejas desde la parte psicoacústica
consiste en plantear un corpus teórico formal que permita fundamentar de manera directa di-
chas comprobaciones prácticas. Al distinguir como problemática esta relación entre el espacio
y el timbre, se propuso como solución el concepto Espacio-Timbre.
En este apartado se establecerá dicha correspondencia a través de la representación realiza-
da mediante sistemas dinámicos. Como se mencionó anteriormente, cada sistema dinámico
(en cualquiera de los dos espacios, el de la conciencia audible espacial o el del perfil espectro-
morfológico) puede pensarse como un elemento matemático que modela el comportamiento
de la cualidad del espacio que actúa sobre el objeto sonoro. Por ejemplo, una trayectoria es
pacial que recorre el arreglo multicanal en forma cíclica puede ser modelada por un sistema
dinámico específico, el cual puede actuar sobre un número cualquiera de objetos sonoros. De
igual modo, una transformación espectromorfológica puede ser modelada mediante un siste-
ma dinámico el cual, a su vez, podrá ser aplicado a un sinnúmero de objetos sonoros.
Bajo esta lógica, tiene más sentido hablar de una colección de sistemas dinámicos para el es-
pacio audible y una colección de sistemas dinámicos para el espacio espectromorfológico.
DEFINICIÓN 4.4.4. Sea Π la colección de los sistemas dinámicos que actúan sobre el espacio
aural y Ψ la colección de los sistemas dinámicos que actúan sobre el espacio espectromor-
fológico.
Para poder establecer entonces el concepto Espacio-Timbre de manera matemática, se
hará uso de la propiedad universal del producto de conjuntos y el procedimiento será bási-
camente el de establecer las relaciones necesarias entre elementos genéricos Π y Ψ de modo
tal que mediante dicha propiedad se genere un mapeo tal que conjugue ambas característi-
cas simultáneamente.
PROPOSICIÓN 4.4.5. Sean (𝔖(a), I, τ ) ∈ Π un sistema dinámico asociado a la conciencia au-
dible espacial y (S, I, 𝜓) ∈ Ψ un sistema dinámico asociado al perfil espectromorfológico.
Existe un sistema dinámico ℰ = (𝔖(a) × S, I, ζ ) tal que:
130 EDMAR OLIVARES SORIA
ζ = (τ , 𝜓 )
τ spat : I ⟶ 𝔖(a)
𝜓specM : I ⟶ S
𝔖(a) × S
(τ ψ) S
𝔖(a)
τspat ψspecM
I
De este modo es posible construir un nuevo sistema dinámico ℰ = (𝔖(a) × S , I , ζ ), tal que:
donde:
De lo anterior se observa que ℰ tiene como espacio de estados al producto de los estados
de fase de los sistemas dinámicos del espacio aural y espectromorfológicos; de este modo,
todo elemento del estado de fase de ℰ es una descripción espacio-espectromorfológica de
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 131
El resultado anterior implica que se tiene un objeto teórico lo suficientemente general co-
mo para poder englobar casi cualquier descripción, proceso o acercamiento que involucre una
relación entre la espacialidad y el timbre dentro de la música electroacústica. La utilidad de
haber modelado las definiciones de una manera tan abstracta, a partir de sistemas dinámicos,
radica en que la definición no dependerá de una visión o un caso particular sino que es expan-
dible a virtualmente cualquier caso.
4. Ejemplos
Las secciones anteriores mostraron cómo se construyeron, en la presente propuesta, los con-
ceptos de espacio morfológico, espacio espectral y la consecuente formación del espacio espectro-
morfológico a partir de los dos anteriores. Se mostró además la construcción formal del
Espacio-Timbre haciendo uso de sistemas dinámicos con el fin de establecer dicho concepto
de una manera formal y general.
A continuación se mostrarán algunos ejemplos concretos en los que se definirán dichos es-
pacios de acuerdo con parámetros espectromorfológicos específicos, con el fin de que se pue-
da obtener un panorama más claro de la metodología conceptual propuesta y, sobre todo, de
una de las mayores aportaciones del presente trabajo: la generalización. Una vez planteado el
modelo conceptual-abstracto, una gran cantidad de casos particulares pueden ser abordados
y explicados a través del mismo. Una manera alternativa y un tanto informal de enfatizar la
importancia de la generalización, consiste en decir que, en realidad, se pueden construir tan
tos espacios espectromorfológicos como combinaciones de descriptores se tengan.
Desde el punto de vista conceptual es en cierto modo irrelevante el conjunto de descripto-
res que se considere para conformar los distintos espacios morfológicos y espectrales o espec-
tromorfológicos. Se menciona de nuevo el hecho de que la construcción de dichos espacios
(esto es, la elección de la combinación de los descriptores a utilizar) dependerá completamen-
te de las necesidades y/o intereses particulares de cada caso.
La pregunta que surge como consecuencia de lo anterior es: ¿cuáles descriptores conforma-
rán espacios más adecuados para fines de análisis y/o creación? La respuesta a la cuestión se
132 EDMAR OLIVARES SORIA
encuentra en función de los objetivos y metas de cada caso particular, pero también de las pro-
piedades que cada descriptor revele al respecto del sonido. Como se verá en la siguiente sec-
ción, cada descriptor posee características específicas que pueden o no ser útiles dependiendo
de: a) qué otros descriptores se usen en combinación con los primeros y b) el contexto que se
plantee para dicho uso. En resumen, es necesario enfatizar dos puntos importantes:
4.1. Ejemplo I
Considérense como descriptores morfológicos: a) ZCR y b) Energía. Supóngase que para el ZCR
se considera como caracterización numérica, el coeficiente de variación, mientras que para la
energía se considera la entropía. Supóngase además que se considera un solo descriptor espec-
tral: coeficiente de tonalidad espectral, donde dicho descriptor tiene como caracterización nu-
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 133
0.5
0.4
0.3
Frecuencia [Hz]
0.2
0.1
0.0
0 100 000 200 000 300 000 400 000 500 000
Tiempo [seg]
Figura 11 | Espectrograma para muestra de audio I.
0.5
0.4
0.3
Frecuencia [Hz]
0.2
0.1
0.0
0 100 000 200 000 300 000 400 000 500 000
Tiempo [seg]
Figura 12 | Espectrograma para muestra de audio II.
134 EDMAR OLIVARES SORIA
0.08
0.06
0.04
0.02
0.00
-0.02
-0.04
-0.06
0 100 000 200 000 300 000 400 000 500 000
Figura 13 | Forma de onda para muestra de audio I.
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
0 100 000 200 000 300 000 400 000 500 000
Figura 14 | Forma de onda para muestra de audio II.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 135
mérica la entropía (los valores obtenidos se muestran en los vectores correspondientes). Su-
póngase que se elige la métrica euclideana como medida de distancia entre vectores. Entonces,
la parametrización del espacio espectromorfológico estará dado por:
Para el espacio morfológico ℳ los vectores m(a) y m(b) asociados a los objetos sonoros
𝒪(a) y 𝒪(b) respectivamente, tienen los valores:
donde para cada vector, la primera coordenada m0 corresponde al valor del coeficiente de
variación del ZCR, mientras que la segunda coordenada m1 es el valor de la entropía de la ener-
gía, para cada uno de los objetos sonoros en cuestión.
De manera análoga, para el espacio espectral, los vectores asociados a los objetos sonoros
estarán dados por:
De lo anterior se observa que los vectores dentro del espacio espectromorfológico están da-
dos por:
Y de este modo, la distancia dentro del espacio espectromorfológico entre dichos vectores
estará dada por:
La interpretación de esta distancia entre los objetos sonoros es que, dados los descriptores
elegidos y las caracterizaciones numéricas, los objetos sonoros muestran ese nivel de similaridad
denotado por dicha distancia.
Tal y como se mencionó al inicio, las distintas posibles construcciones de espacios espec-
tromorfológicos son bastante numerosas y dependen, ciertamente, de las combinaciones de
descriptores elegidos para conformar la dimensión de cada espacio (espectral y morfológico)
y de las caracterizaciones numéricas. Para clarificar esta idea, hágase un ejercicio mental y del
ejemplo que se ha mostrado en este sección, supóngase caracterizaciones numéricas distintas
para cada uno de los descriptores. Esto afectará natural y directamente al valor de la distan
cia entre los objetos sonoros y no sólo eso, como implicación conceptual, se tendrá un espacio
espectromorfológico distinto. Entonces, se reitera lo dicho con anterioridad: el espacio espec-
tromorfológico depende en su construcción de la elección de los descriptores y de las caracte-
rizaciones numéricas para cada descriptor.
4.2. Ejemplo II
Considérense para este segundo ejemplo como descriptores morfológicos: a) ZCR, b) energía y
c) envolvente de Hilbert. Supóngase que para todos los descriptores se tiene como caracteriza-
ción la entropía. Supóngase por otro lado, que se consideran como descriptores espectrales:
Supóngase que para los dos primeros descriptores espectrales se considera como caracteri-
zación numérica el coeficiente de variación, mientras que para el tercero se considera la varianza.
Entonces, el espacio espectromorfológico estará dado por:
Para el espacio morfológico ℳ los vectores m(a) y m(b) asociados a los objetos sonoros
𝒪(a) y 𝒪(b) respectivamente, tienen los valores:
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 137
donde para cada vector, la primer coordenada m0 corresponde al valor de la entropía del
coeficiente de variación del ZCR, la segunda coordenada m1 es el valor de la entropía de la ener-
gía de los objetos sonoros en cuestión y la tercera la correspondiente a la entropía de la envol-
vente de Hilbert.
De manera análoga, para el espacio espectral, los vectores asociados a los objetos sonoros
estarán dados por:
Y de este modo, la distancia dentro del espacio espectromorfológico entre los vectores aso-
ciados a los objetos sonoros, estará dada por:
Para este último ejemplo, considérese como descriptor morfológico único el ZCR. Supóngase
que ahora dicho descriptor tiene una caracterización paramétrica dada por la serie de tiempo
obtenida del análisis FFT, que para los objetos sonoros utilizados se puede visualizar en la fi
gura siguiente.
Las figuras mencionadas representan el valor del ZCR para cada frame correspondiente a lo
largo de la duración total de cada objeto sonoro. De este modo se tiene la siguiente parametri-
zación para cada objeto sonoro:
I⟶ℳ
t ⟶ m(t)
138 EDMAR OLIVARES SORIA
0.5
0.4
0.3
Valor ZCR
0.2
0.1
0.0
Sean entonces, m(a, t), m(b, t) los vectores del espacio morfológico asociados a los objetos
sonoros 𝒪(a) y 𝒪(b) respectivamente:
m(a, t) = [m(a, 0), m(a, 1), m(a, 2), . . . , m(a, k)] = [0.2345, 0.123, 0.321, . . . , 0.8596]
m1(t) = [m(b, 0), m(b, 1), m(b, 2), . . . , m(b, l)] = [0.2345, 0.123, 0.321, . . . , 0.8596]
Si se desea calcular la distancia d[m(a), m(b)] entre estos dos vectores de manera práctica,
uno de los métodos más útiles es el llamado dynamic time warping o DTW, el cual permite es
timar niveles de disimilaridad entre series de tiempo incluso si estas poseen tamaños distin
tos y que puede ser obtenido a través de cualquier paquetería computacional como PYPI13 para
Python. Supóngase ahora que se tienen como descriptores espectrales los siguientes:
13 <https://pypi.org/project/dtw-python/>.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 139
Tales que el coeficiente de tonalidad espectral tiene una caracterización numérica fija dada
por el coeficiente de variación, mientras que el centroide espectral tiene una caracterización nu-
mérica paramétrica. En este caso, es posible considerar ambos descriptores con una represen-
tación paramétrica, sólo que para el primer descriptor, el valor del mismo será constante en
cualquier instante de tiempo:
I⟶ℰ
t ⟶ e (t)
donde:
e(a, t) = [e(a, 0), e(a, 1), e(a, 2), . . . , e(a, k)] = [0.2345, 0.2345, 0.2345, . . . , 0.2345]
e(b, t) = [e(b, 0), e(b, 1), e(b, 1), . . . , e(b, l)] = [0.2345, 0.123, 0.321, . . . , 0.8596]
5 000
4 000
3 000
Hz
2 000
1 000
0
0 200 400 600 800 1 000
Tiempo [seg]
Figura 16 | Series de tiempo del centroide espectral para los objetos sonoros I y II.
Bajo esta lógica, para calcular una distancia entre ambas series de tiempo se puede proce-
der del mismo modo se mencionó en el caso anterior; esto es, utilizando DTW.
140 EDMAR OLIVARES SORIA
En esta sección se describirá una aplicación concreta computacional que se desarrolló con el
fin de realizar dos tareas específicas: a) descripción espectromorfológica y b) clasificación me-
diante aprendizaje no supervisado dado un conjunto de muestras de audio. Esta aplicación,
más allá de ser un estudio profundo sobre implementación de técnicas de aprendizaje máqui-
na (desde la perspectiva del estado del arte), es una manera específica y concreta que pretende
ejemplificar las posibilidades prácticas del modelo general a partir del uso de herramientas bá-
sicas de aprendizaje máquina. La implementación (y contribución de esta sección) se diferen-
cia de las metodologías convencionales del aprendizaje no supervisado, en el hecho de que el
análisis es realizado a partir de la comparación de series de tiempo y, por lo tanto, se incluyen
métricas y metodologías que no son comunes en el contexto mencionado. Como se verá más
adelante, la justificación para realizar los análisis a partir de la comparación de series de tiem-
po en lugar de utilizar medidas de tendencia central o de dispersión es que por su propia na
turaleza, estas últimas tienden a generar sobreestimación en lo local, además de presentar en
no pocas ocasiones distribuciones no normales, conduciendo a la probabilidad de ambi
güedad respecto del significado de los valores obtenidos; además, la información derivada de
los descriptores no se presenta como una distribución normal. Por supuesto, esta metodolo-
gía tiene la desventaja de que implica un gasto computacional considerablemente más alto con
respecto a la comparación básica de las medidas de tendencia central y de dispersión; sin em-
bargo, para casos en donde la complejidad espectromorfológica es alta y sobre todo dinámica
a través del tiempo, dicha metodología computacional puede resultar bastante útil para extraer
información más precisa acerca de las características de los objetos sonoros.
A partir de un conjunto de muestras de audio (de instrumentos musicales convencionales
tocados a diferentes alturas y con distintas dinámicas, todos ellos propiamente etiquetados de
acuerdo con tres parámetros específicos: a) instrumento, b) nota o altura y c) dinámica),14 se
obtienen diversos descriptores acústicos para establecer perfiles espectromorfológicos especí-
ficos (tal y como se hizo en la sección anterior) y poder definir posteriormente clusters y cen-
troides mediante los algoritmos simples de alineación global de Kernel k-Medios y K-Vecindades.
Toda vez que se han obtenido estos centroides, cualquier conjunto de muestras de audio
puede ser comparado y/o clasificado (de acuerdo con un perfil espectromorfológico especí
fico), ya sea por grados de similaridad utilizando algoritmos como el dynamic time warping
(DTW) o mediante aprendizaje supervisado, utilizando como etiquetas los centroides ante
riores. De este modo será posible asociar muestras de audio cualquiera a un Espacio-Timbre
conocido y así trabajar composicionalmente dichas muestras de acuerdo con los principios de
orquestación ya conocidos para los instrumentos musicales utilizados en el análisis primario.
Como se mencionó con anterioridad, la metodología está basada en el análisis y clasifica-
ción mediante la comparación de las series de tiempo y haciendo uso de técnicas como el dy-
namic time warping (DTW). Más aún, los centroides son obtenidos mediante una hibridación
de herramientas algorítmicas. Dado un cluster específico, se obtiene su respectivo baricentro,
para luego calcular una banda alrededor de él mediante el método de LB Keogh.
Lo anterior permite obtener superficies como centroides que se encuentran posicionadas
alrededor del baricentro, con lo que los perfiles espectrales tienen un rango de acción no lineal
(es decir no es una serie única de tiempo sino una región alrededor de dicha serie representa-
da por el baricentro).
Se muestran aquí las rutinas escritas en Python para que el lector interesado pueda realizar
las tareas antes mencionadas de la manera más directa y automática posible y con un fin más
bien didáctico. Con estas rutinas, el usuario puede analizar cualquier número de muestras de
audio eligiendo un conjunto de descriptores espectrales y de envolvente predefinida de acuer-
do con sus intereses particulares o tomando como guía los resultados obtenidos con los con-
juntos utilizados en las simulaciones aquí mostradas.
Las rutinas propuestas contienen un número específico de descriptores; sin embargo, dada
la forma en la que están escritas, cualquier descriptor puede ser añadido a futuro de manera
directa. El objetivo es entonces, el de establecer, en primer lugar, un espacio espectromorfo
lógico de referencia derivado del análisis de muestras de audio de instrumentos musicales
convencionales.
Como se mencionó con anterioridad, los centroides se definen como zonas o bandas alre-
dedor de los baricentros calculados para cada cluster, con ello se construye el espacio espectro-
morfológico de referencia. Una vez obtenido el espacio anterior, es posible analizar un conjunto
arbitrario de muestras de audio y clasificarlo (o asociarlo a través de una simple relación métri-
ca de cercanía) mediante aprendizaje supervisado (de acuerdo con las etiquetas obtenidas en
142 EDMAR OLIVARES SORIA
la parte inicial), asociando cada muestra nueva a los perfiles espectromorfológicos de instru-
mentos musicales convencionales del espacio espectromorfológico de referencia.
Lo anterior permite, por lo tanto, establecer puntos referenciales de acuerdo con los princi-
pios de orquestación conocidos para los instrumentos musicales especificados y obtener un
panorama de información referencial para dichas muestras arbitrarias de audio. Antes de con-
tinuar es necesario establecer ciertas observaciones respecto de las restricciones, limitaciones
y enfoques de la metodología aquí planteada.
OBSERVACIÓN 4.0.1. Las asociaciones de los perfiles espectrales de las muestras de audio ar-
bitrarias con las de los instrumentos musicales son relativas. Al momento de establecer que
una muestra de audio arbitraria está relacionada con el perfil espectromorfológico de un
instrumento en particular, no se debe nunca perder de vista los descriptores que han sido
utilizados y tener siempre presente que dicha asociación dependerá de tales descriptores, así
como del método de comparación utilizado (métrica de similaridad o aprendizaje supervi-
sado). No se está afirmando aquí que los principios de orquestación pueden ser aplicados
de manera directa e indiscriminada a dichas muestras, sino que estos sirven como guías re-
ferenciales para el proceso de organización tímbrica de las muestras de audio arbitrarias.
OBSERVACIÓN 4.0.2. El espacio espectromorfológico de referencia puede ser ampliado de
manera directa. Dada la metodología anterior, es posible incluir tanto muestras de audio
de diversos instrumentos musicales no integrados previamente como nuevos descriptores,
y construir de este modo distintos espacios espectromorfológicos de referencia.
OBSERVACIÓN 4.0.3. Si bien la metodología aquí planteada puede ser directamente aplicada
al proceso composicional, el objetivo de ésta no es el de presentarla como una estrategia y/o
herramienta inmediata y de uso directo para el compositor. Esta metodología propone una
manera alternativa y original de realizar análisis de audio mediante series de tiempo y cla-
sificación no supervisada. Su propósito principal radica en el desarrollo de un método
computacional para la obtención de perfiles espectromorfológicos y no en la presentación
de una solución para la composición asistida por computadora. Sin embargo, se derivan de
manera natural y directa ciertas soluciones aplicables al proceso composicional tales como
la asociación con los principios orquestales de los instrumentos convencionales o la clasifi-
cación de muestras de audio de acuerdo con ciertos perfiles espectromorfológicos con fines
de organización tímbrica.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 143
Metodología
1. Obtención de los perfiles espectromorfológicos de las muestras de audio mediante los des-
criptores morfológicos y espectrales, tanto acústicos como perceptuales.
2. Organización de la información anterior en series de tiempo.
3. Acortamiento proporcional de las series de tiempo de modo tal que conserven su forma
original pero con una longitud mucho menor.
4. Obtención de clusters de las series de tiempo acortadas mediante alineación global de
Kernel por K-Medios para cada descriptor y para cada instrumento musical.
5. Para cada cluster anterior, cálculo del baricentro euclidiano.
6. Para cada baricentro obtenido, cálculo de la banda LB Keogh para definir el centroide re-
presentativo específico.
7. Utilización de los centroides anteriores para comparar mediante DTW el grado de simila-
ridad con muestras de audio arbitrarias.
8. Asociación de las muestras de audio arbitrarias al centroide más cercano y sumarización
de las características del cluster correspondiente de acuerdo con los tres parámetros etique
tados en las muestras de audio: a) instrumento, b) nota o altura y c) dinámica.
Para el análisis realizado en este apartado se utilizó la base de datos alojada en <philarmonia.
co.uk/explore/sound_amp>, la cual cuenta con 27 100 muestras de audio pertenecientes a los
siguientes instrumentos musicales: cello, contrabajo, clarinete, banjo, clarinete bajo, fagot, flau-
ta, corno francés, guitarra, mandolina, oboe, saxofón, trombón, trompeta, tuba, viola y violín.
Estas muestras incluyen notas en diferentes alturas tocadas con distintas dinámicas y algunas
otras con motivos melódicos. Todas las muestras están etiquetadas en el formato: x_ y _ z, don-
de x es el instrumento, y es la nota o altura y z es la dinámica.
Dado que para los fines del presente análisis era necesario descartar todos aquellos casos
que presentaran motivos melódicos y conservar únicamente aquellas muestras que presenta-
ran notas únicas, se escribió una rutina que identificara de manera automática las muestras
con esta característica (motivos melódicos), con el fin de descartarlas del conjunto final. Lo
anterior se realizó utilizando análisis de envolvente mediante la transformada de Hilbert e
144 EDMAR OLIVARES SORIA
identificando aquellos casos en los que la envolvente presenta variaciones significativas a tra-
vés del tiempo. La rutina consta básicamente de los siguientes pasos:
1. Cargar muestras de audio. Dada la ruta de acceso de la carpeta raíz donde se encuentran
todas las muestras de audio (organizadas por subcarpetas), la rutina carga las muestras
y las organiza automáticamente arrojando dos arreglos; el primero correspondiente a
los valores flotantes y el segundo a los nombres de las muestras (extraídos también au-
tomáticamente de los archivos originales).
2. Para cada muestra, localizar el onset e identificar la envolvente del mismo.
3. Seleccionar todas aquellas muestras que correspondan a un impulso sonoro único (es
decir muestras que no sean motivos melódicos por ejemplo).
4. Para todas las muestras seleccionadas, trasladar en el tiempo, el onset de cada una de
ellas a un mismo frame con el fin de normalizar el inicio de las mismas.
A continuación se muestran los pasos anteriores escritos como subrutinas en Python. Paso 1:
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 145
Paso 2-4:
#Clasificación automática de muestras de un sólo onset. #Ejemplo:
#data_OneShot, data_OneShotNames = oneShotClassification(data_sound, data_na-
mes)
Del proceso anterior se obtuvo un conjunto final de 13 533 muestras con las características
antes mencionadas, éste fue el conjunto de muestras con el cual se trabajó de manera final. Para
todas esas muestras se calcularon descriptores acústicos utilizando la librería librosa de Python
(McFee et al., 2019). Los descriptores calculados para cada una de las muestras fueron: ZCR,
RMSE, ancho de banda espectral, flujo espectral y contraste espectral.
Para fines de organización de la información anterior, cada una de las seis subbandas
del contraste espectral se trataron como un descriptor individual, arrojando en total 10 descrip-
tores para cada muestra de audio; dicha información fue almacenada en formato de series de
tiempo.
Tal y como se mencionó al inicio de esta sección, gran parte de la información arrojada por los
descriptores presenta distribuciones no normales; por ello, el uso de medidas de tendencia
146 EDMAR OLIVARES SORIA
central o dispersión, como la media o la desviación estándar podrían fácilmente generar resul-
tados espurios o fuera de contexto sobre todo para muestras de audio con una complejidad
espectromorfológica considerable y dinámica a través del tiempo. Con el fin de solucionar esta
situación se decidió realizar el análisis y el procesamiento de la información a partir de las se-
ries de tiempo y mediante grados de similaridad entre ellas haciendo uso de algoritmos como
el dynamic time warping o DTW.
Debido a que el análisis y el proceso de clasificación con aprendizaje no supervisado para
series de tiempo es mucho más caro computacionalmente que la clasificación con medidas de
tendencia central, era crítico incrementar la eficiencia de dicho proceso lo más posible. Para
ello se diseñó un método simple que permite representar las series de tiempo con un número
menor de puntos pero manteniendo, de manera bastante aceptable, la forma de la envolven
te original (y por lo tanto la información relevante al respecto). Este método reduce el tamaño
de la serie original a cualesquiera divisores enteros de la longitud original de dicha serie pero,
para fines de aplicación práctica, se observó que la reducción más eficiente está entre la mitad
y la tercera parte de la longitud original. La conclusión anterior se obtuvo a partir de una com-
paración directa de la forma de las envolventes original y recortada, al hacer un escalamiento
lineal de la envolvente original en el rango de tiempo de la envolvente recortada. Lo anterior
se resume en los siguientes pasos:
Una vez que se ha aplicado el proceso anterior a todas las series de tiempo de los descripto-
res utilizados, el siguiente paso consiste en comprobar que las series de tiempo acortadas man-
tienen la forma original de tal modo que la información primaria no se pierda y continúe
148 EDMAR OLIVARES SORIA
siendo significativa. Para ello se hizo un escalamiento al intervalo de tiempo de las series acor-
tadas para cada una de las series originales. En este sentido, las series originales se compararon
con las series acortadas dentro del mismo intervalo de tiempo mediante una interpolación li-
neal. Las figuras 17, 18 y 19 muestran ejemplos del proceso anterior. La gráfica superior mues-
tra la serie de tiempo original, la gráfica siguiente (hacia abajo) representa la serie de tiempo
recortada y finalmente, la gráfica inferior muestra a la serie de tiempo recortada junto con la
gráfica original interpolada en el intervalo de tiempo de la serie recortada con el fin de compa-
rar la forma de ambas.
Existen casos en los cuales las series de tiempo acortadas pueden presentar variaciones más
significativas con la forma de la serie original. Como proceso alternativo al anterior, es posible
reconstruir la señal mediante la identificación de onsets y la reconstrucción de la serie median-
te interpolación lineal y un filtrado butterwooth tipo A. En la figura 20 en la que se pueden ob-
servar los onsets identificados en la serie de tiempo original mientras que la figura 21 muestra
la reconstrucción de la serie de tiempo recortada a partir de la interpolación de dichos valores.
0.050
0.025
0.000
0.050
0.025
0.000
0.050
0.025
0.000
0 25 50 75 100 125 150 175
Figura 17 | Comparación de series de tiempo para RMSE de audio de corno francés. Nota A2 tocada en
mezzo forte.
0.2
0.0
0.2
0.0
0.2
0.0
0 100 200 300 400 500
Figura 18 | Comparación de series de tiempo para RMSE de audio de corno francés. Nota A2 tocada en
fortissimo.
150 EDMAR OLIVARES SORIA
0.2
0.1
0.0
0.2
0.1
0.0
0.2
0.1
0.0
0 100 200 300 400 500
Figura 19 | Comparación de series de tiempo para RMSE de audio de corno francés. Nota A3 tocada en
trino forte.
1.0
0.8
0.6
0.4
0.2
0.0
0 20 40 60 80 100 120
Figura 20 | Identificación de onsets en la serie de tiempo.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 151
1.0
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8 10
Figura 21 | Reconstrucción de la serie de tiempo a partir de la interpolación de onsets.
2. Aplicación de formato particular de dichas series de acuerdo con los requisitos de la li-
brería tslearn y reemplazo de cualquier posible valor nan por 0.
3. Selección del número de clusters para realizar la clasificación.
4. Obtención de los clusters.
5. Repetición de todo el proceso para todos los descriptores.
6. Agrupamiento de las muestras en arrays de acuerdo con los clusters obtenidos.
El algoritmo GAK ofrece la ventaja de poder comparar series de tiempo que no son de la
misma longitud debido precisamente a que usa DTW para realizar el proceso. En este sentido,
el algoritmo alinea las series de tiempo, las compara de acuerdo con su forma (envolvente) y
posteriormente realiza la clasificación basada en K-Medios. Por supuesto, éste es un algoritmo
básico de toda la gama de posibilidades del aprendizaje máquina y no se plantea como una im-
plementación computacional compleja (al respecto de dicho contexto); al contrario, se pre
senta como una de las primeras y más naturales opciones al momento de trabajar con series de
tiempo. En este sentido, comparaciones de eficiencia con otros métodos no tienen mucho sen-
tido para este ejemplo, pues no se busca realizar un análisis profundo sobre herramientas de
152 EDMAR OLIVARES SORIA
aprendizaje máquina sino mostrar al lector o lectora cómo se puede aplicar el modelo teórico
a un caso práctico concreto.
#Formateo de las series de tiempo para la librería tslearns y ejecución del algoritmo de clasi-
ficación GAK.
#Ejemplo. Clustering de 10 elementos para cada instrumento musical y para un descriptor en
particular; a saber, el zcr (las series de tiempo re
#zcr_formatData = time_seriesFormat(zcr_data)
#gak_km = GlobalAlignmentKernelKMeans(n_clusters=10)
#zcr_labels = gak_km.fit_predict(zcr_formatData)
#zcr_grouped = data_Group(zcr_data,grouping_labels(zcr_labels))
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 153
Las figuras 22 a la 30 muestran ejemplos de clusters obtenidos con el proceso anterior para
distintos instrumentos y distintos descriptores.
La clasificación posee un alto grado de precisión aunque, como puede observarse en
alguno de los ejemplos, están presentes ciertos elementos que pueden ser considerados out
liers o mal clasificados. El camino a seguir para esta situación es el estándar dentro de cual
quier proceso de aprendizaje máquina: realizar pruebas con distintos algoritmos de clasificación
y/o con diferentes condiciones iniciales. Las restricciones para el caso particular de clasifi
cación mediante series de tiempo es que la mayoría de los algoritmos requieren que las series
sean de igual longitud. Lo anterior implica que las muestras de audio deberán normalizarse
de algún modo, lo que puede derivar en un grado de pérdida o sobreajuste de información.
Figura 22 | Cluster no. 2 de series de tiempo para la sub-banda 4 (contraste espectral) de muestras de
audio de flauta.
154 EDMAR OLIVARES SORIA
Figura 23 | Cluster no. 3 de series de tiempo para la sub-banda 4 (ancho espectral) de muestras de audio
de corno inglés.
Figura 24 | Cluster no. 3 de series de tiempo para el ZCR de muestras de audio de saxofón.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 155
Figura 25 | Cluster no. 0 de series de tiempo para el ZCR de muestras de audio de oboe.
Figura 26 | Cluster no. 5 de series de tiempo para flujo espectral muestras audio de clarinete.
156 EDMAR OLIVARES SORIA
Figura 27 | Cluster no. 5 de series de tiempo para el ZCR de muestras de audio de mandolina.
Figura 28 | Cluster no. 3 de series de tiempo para flujo espectral de muestras de audio de guitarra.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 157
Figura 29 | Cluster no. 2 de series de tiempo para el flujo espectral de muestras de audio de cello.
Figura 30 | Cluster no. 0 de series de tiempo para el flujo espectral de muestras de audio de banjo.
158 EDMAR OLIVARES SORIA
Una vez que se obtuvieron los clusters anteriores, en la presente metodología se propone que se
definan centroides de referencia para cada cluster mediante el cálculo de baricentros estándar
euclidianos tal y como está implementado en la librería tslearn.15 Como su nombre lo indica,
este método arroja una serie de tiempo que representa el centro de masa del cluster en cuestión
que puede ser considerada como la serie representativa de éste.
En este punto, el propio baricentro podría ser considerado como el centroide de dicho clus-
ter; sin embargo, dado que el objetivo final es que se comparen series de tiempo provenientes
de muestras de audio arbitrarias, el centroide es definido como un área cuyo eje es el baricen-
tro, mientras que sus límites inferior y superior están dados por el cálculo de las bandas LB
Keogh.De este modo, al momento de realizar comparaciones de dicho centroide con mues-
tras de audio arbitrarias haciendo uso de DTW, el cálculo se vuelve más eficiente y preciso. El
método completo puede resumirse entonces del siguiente modo:
15 La librería tslearn también permite calcular los baricentros mediante el algoritmo conocido como DTW barycenter
averaging o DBA (Petitjean et al., 2011), el cual es una alternativa a los baricentros euclideanos. Sin embargo, dado que el
clustering se realizó con alineación por DTW, el uso del método DBA podría resultar redundante en ciertos casos.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 159
Figura 31 | Baricentro euclidiano para cluster de flujo espectral de muestras de audio de violín.
Figura 38 | Centroide baricentro/bandas LB Keogh para flujo espectral de muestras de audio de clarinete
bajo.
164 EDMAR OLIVARES SORIA
Figura 39 | Centroide baricentro/bandas LB Keogh para flujo espectral de muestras de audio de clarinete
banjo.
cuentes pueden ser comparadas de acuerdo, precisamente, con descriptores particulares aso-
ciados a muestras de audio de instrumentos musicales conocidos, tocados con una dinámica
específica, además del hecho de que esta comparación no está sujeta o delimitada a un conjun-
to preestablecido de tales descriptores, sino que el espacio espectromorfológico de referencia
puede ser construido a partir de una elección arbitraria (justificada claro está, desde el pun-
to de vista metodológico) de cualesquiera descriptores.
Una vez que se obtuvieron los centroides para cada descriptor, tal y como se describió en la
sección anterior, se construye ahora el espacio espectromorfológico de referencia y, con éste, una
forma de establecer comparaciones específicas con muestras de audio arbitrarias.
El método propuesto para realizar dicha comparación consiste en extraer, para cada mues-
tra de audio arbitraria, un conjunto de descriptores específicos (correspondientes a los obteni-
dos en el espacio espectromorfológico de referencia), realizar la comparación de similaridad
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 165
mediante DTW y asociar dicho descriptor de esa muestra al cluster correspondiente. Esto per-
mitirá tener un perfil de similaridad de la muestra arbitraria en relación al cluster en cuestión.
Lo anterior se resume en los siguientes pasos:
Las figuras 40 a 47 ilustran además, la visualización del proceso anterior para distintas
muestras de audio comparadas con distintos descriptores. Se presentan tres series de tiempo:
la correspondiente al descriptor de la muestra a comparar, la del baricentro correspondiente
más cercano y la del baricentro correspondiente más lejano. Las muestras presentadas corres-
ponden a cuatro objetos sonoros: 1) fricción rápida con vidrio, 2) fricción rápida con madera,
3) hit procesado con pitch bajo sin reverberación, 4) hit procesado con pitch medio con rever-
beración.
Para concluir el proceso, es necesario establecer las relaciones de los baricentros con las
muestras comparadas de acuerdo con las características de los audios recordando que las mues
tras de los instrumentos musicales están etiquetadas con tres parámetros: a) instrumento, b)
nota (o altura) y c) dinámica.
El cluster correspondiente al baricentro más cercano de la muestra comparada tendrá
asociado, por lo tanto, un conjunto de muestras específicas de los instrumentos musicales y,
consecuentemente, será posible extraer el etiquetado correspondiente haciendo una minería
sencilla de datos. Se propone aquí que para poder realizar un análisis final de toda la metodo-
logía expuesta, es necesaria una clasificación sobre dicho etiquetado:
1. Obtener los nombres de las muestras correspondientes al cluster del baricentro más
cercano dada la muestra a comparar y organizarlos en un arreglo de tipo string.
2. Calcular matriz de combinaciones de pares de comparaciones entre entradas del arre-
glo anterior para la métrica Damerau.16
16 Esta métrica es utilizada para medir grados de similaridad entre cadenas de caracteres, la librería utlizada aquí para ese
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
10 000
8 000
6 000
Hz
4 000
2 000
0
Figura 49 | Espectrograma de la muestra 1.
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 173
• 25 % del cluster está representado por el perfil espectromorfológico dado por el clarinete
bajo tocado en E4 con una dinámica de forte normal.
• 20 % del cluster está representado por el perfil espectromorfológico dado por el clarine-
te bajo tocado en C3 con una dinámica mezzo forte normal.
• 20 % del cluster está representado por el perfil espectromorfológico dado por el clari
nete bajo tocado en Ds5 con una dinámica pianissimo normal.
0
0 1 2 3 4 5
Nótese que, en este caso, los subclusters del etiquetado tuvieron preponderancia (al mo-
mento de hacer la agrupación) sobre la dinámica. Una manera alternativa de solucionar lo an-
terior sería obtener descriptores de las cadenas de caracteres como longitud de la cadena y
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 175
número de ocurrencias de ciertos símbolos para realizar una clasificación no supervisada so-
bre ese conjunto de descriptores.
Se reitera el hecho de que la metodología anterior propone establecer un espacio espectro-
morfológico de referencia para comparar muestras de audio arbitrarias con perfiles espec
tromorfológicos de instrumentos musicales conocidos, permitiendo extrapolar aspectos de
orquestación e información acústica conocida de dichos instrumentos a las muestras de audio
arbitrarias. Por supuesto, podría establecerse una metodología más familiar, como la introduc-
ción del conjunto de muestras de audio y realizar clasificación mediante algún algoritmo
de aprendizaje no supervisado dado un conjunto de descriptores específicos. Se exponen los
resultados de dicho acercamiento utilizando los mismos algoritmos que en la sección anterior:
Observaciones finales
neación hecha por DTW) y con un mayor nivel de precisión (ya que la comparación de
similaridad se hace directamente de la serie de tiempo).
OBSERVACIÓN 4.4.2. Los resultados de clasificación utilizando DTW GAK presentaron una
precisión significativamente mayor (tanto para las muestras de audio de los instrumentos
musicales convencionales como para las muestras de audio arbitrarias) que aquellos obte-
nidos mediante caracterizaciones numéricas como la entropía aproximada o el coeficiente
de variación.
OBSERVACIÓN 4.4.3. Los outliers que ocurren utilizando DTW GAK muestran una fuerte co-
rrelación con la diferencia de las longitudes de series de tiempo. Estos outliers ocurren para
diferencias de longitudes de series de tiempo del doble o más.
OBSERVACIÓN 4.4.4. La metodología propuesta, basada en el establecimiento de centroides
de clasificación a partir de las bandas LB Keogh y los baricentros euclideanos, no ha sido
abordada de este modo en la literatura revisada al respecto de música contemporánea y
música electroacústica; representa, por lo tanto, una propuesta del presente trabajo. Las ven
tajas de establecer los centroides de este modo son:
OBSERVACIÓN 4.4.5. Es posible extender el método aquí propuesto y utilizar otros algorit-
mos de clasificación (manteniendo el paradigma de la comparación de series de tiempo)
que permitan explorar mejoras en la precisión de la formación de los clusters tales como
máquinas de soporte vectorial, árboles de decisión o algunos tipos de redes neuronales (en-
caminadas al aprendizaje profundo). Solamente se debe tener especial cuidado en identifi-
ESPACIO-TIMBRE. HACIA UNA TEORÍA INTERDISCIPLINAR EN LA MÚSICA ELECTROACÚSTICA 177
car los métodos que permitan analizar series de tiempo de longitudes distintas o, en su caso,
normalizar todas las series de tiempo a una longitud fija.
OBSERVACIÓN 4.4.6. Al establecer clasificaciones de muestras de audio tal y como se expu-
so en el presente capítulo, ya sea en relación con un espacio espectromorfológico de refe-
rencia o de manera directa, es posible hablar de orquespectración virtual en el sentido de la
organización espacial y espectromorfológica de los objetos sonoros (en un contexto com-
posicional) de acuerdo con su perfil espectromorfológico obtenido computacionalmente y
tomando en cuenta los principios y características asociadas a dicho objeto sonoro desde
la parte perceptual y acústica.
Las aplicaciones de la inteligencia artificial al campo del sonido y la música han sido general-
mente planteadas como metodologías asociadas a lo que se conoce como ingeniería de des-
criptores (feature engineering); a través de ella, las características o parámetros sonoros de bajo/
alto nivel vinculados a la data de entrada (ZCR, RMSE, contraste espectral, MFCC, etcétera), son
calculados de manera manual por el usuario para después alimentar con esta información al-
gún algoritmo de clasificación supervisada o no supervisada. Esta perspectiva, asociada a las
técnicas de aprendizaje automático denominado “tradicional”, ha rendido bastantes buenos re-
sultados y ha permitido establecer metodologías alternativas en pos de una mejor eficiencia
tanto de cálculo computacional como de precisión de resultados.
Entre estas alternativas actuales resaltan diversas técnicas de lo que se conoce como apren-
dizaje profundo (deep learning), tanto para aprendizaje no supervisado y aprendizaje supervi-
sado, como para aprendizaje híbrido. Al día de hoy las técnicas de aprendizaje profundo que
han sido desarrolladas con mayor énfasis para aplicaciones diversas incluyen (para modelos
discriminativos profundos) las redes neuronales profundas (Deep Neural Networks, DNN),
las redes neuronales de convolución (Convolutional Neural Networks, CNN) o las redes neuro-
nales recurrentes (Recurrent Neural Networks, RNN). Por su parte, para los modelos generati-
vos/no supervisados es posible destacar las máquinas restringidas de Boltzmann (Restricted
Boltzmann Machine, RBM), las redes neuronales de creencia profundas (Deep Belief Net-
works, DBN), las máquinas profundas de Boltzmann (Deep Boltzmann Machines, DBM), los
178 EDMAR OLIVARES SORIA
dos fuentes concretas, a partir de una exploración de las dependencias temporales de algu
nos descriptores semánticamente significativos. Su arquitectura logró modificar el timbre ori-
ginal (de las muestras base) manteniendo atributos esenciales (aprendidos en la etapa de en
trenamiento) y preservando la envolvente de altura original.
Otro avance notable en el campo del aprendizaje profundo que puede tener aplicaciones
potenciales importantes en el campo de la música electroacústica multicanal es el trabajo de
Francl y Dermott (2022) al respecto de la localización espacial del sonido, con el objetivo de es-
tudiar los procesos por medio de los cuales la percepción se adapta a entornos y ambientes rea-
les. En este trabajo, los autores desarrollaron simuladores virtuales acústicos mediante BRIR
(binaural room impulse responses), con el fin de entrenar distintas arquitecturas de redes neuro-
nales implementadas con características propias de HRTF, pero con una especificidad parti
cular (al respecto del entrenamiento de las redes): para cada uno de los aspectos generales de
la localización espacial del sonido, como el preprocesamiento del estímulo mediante un mo-
delo coclear, la integración de fuentes sonoras naturales con fuentes sonoras que corresponden
a ruido de fondo, y la simulación de ambientes no naturales a partir de características como
entornos anecoicos y fuentes sonoras no naturales.
En esta misma línea, Pujol et al. (2021) presentaron una arquitectura de aprendizaje pro-
fundo denominada BeamLearning, la cual es capaz de realizar localización espacial del sonido
enfocada en lo angular (al respecto del azimut), a partir de data de presión sonora acústica
multicanal. De acuerdo con los autores, esta perspectiva permite codificar información relevan
te contenida en las señales acústicas no procesadas captadas por arreglos de micrófonos; a partir
de los resultados obtenidos, los beneficios más notables están orientados a a tareas de localiza-
ción de audio 2D en tiempo real para ambientes reverberantes y con ruido considerable.
Finalmente, aunque un poco menos reciente, resalta el trabajo de Gao y Grauman (2019),
quienes desarrollaron un sistema de aprendizaje profundo (basado en redes de convolución)
capaz de crear en el individuo la sensación de tridimensionalidad de un sonido que original-
mente es monoaural, mediante el uso asistido de un video. De acuerdo con el autor, este siste-
ma puede aprender a decodificar una señal monoaural en su contraparte binaural mediante la
conjugación de la información visual del objeto y la información de la escena auditiva. Esto
permite (a partir de la información visual) que el sistema pueda deducir la dirección de los so-
nidos y modificar las correspondientes diferencias interaurales en tiempo y amplitud para
generar el efecto final de audio 3D.
Conclusiones
A
l establecer que el Espacio-Timbre, como relación inherente entre la espec
tromorfología y la localización espacial de los objetos sonoros, puede con
siderarse como un parámetro por sí mismo, se propuso un modelo teórico
original a partir del cual se construyó y definió el concepto anterior des
de tres perspectivas específicas: la perceptual, la acústica y la teórica.
El Espacio-Timbre como modelo se constituyé de dos elementos: la espacialidad y el timbre.
Ambos se plantean, a su vez, como integrados por dos ejes fundamentales: la parte perceptual
y la parte acústica. En este sentido, el capítulo I fundamentó estos dos aspectos sintetizando
conceptos y herramientas teóricas específicas, así como resultados de pruebas experimenta
les relacionadas con la percepción sensorial.
Esta construcción dual (perceptual-acústica) quedó establecida en las formulaciones de los
perfiles y espacios morfológicos y espectrales, los cuales a su vez formaron el perfil y espacio
espectromorfológico de acuerdo con lo desarrollado en el capítulo IV. El modelo quedó pos
teriormente formalizado mediante el lenguaje de sistemas dinámicos haciendo uso de la pro
piedad universal del producto de conjuntos.
Debe entenderse este modelo, por lo tanto, como una construcción teórica que formula el
Espacio-Timbre desde la parte acústica y la parte perceptual para luego inscribir dicho con
cepto dentro de una abstracción matemática basada en sistemas dinámicos. De este modo, es
posible destacar las siguientes observaciones al respecto de lo desarrollado en esta obra:
[ 181 ]
forma general y, por lo tanto, el desarrollo de los demás parámetros son considerados como
dados; “el parámetro espacio no es más un efecto en la música tonal, sino que el tono es sólo un
efecto en la música espacial. Espacio como finalidad en la expresión musical” (Kupper, 1988).
El modelo, tal y como se planteó, posee un grado considerable de robustez y formalidad de
bido sobre todo a la estructuración de los elementos acústico-perceptuales y a la estructura
ción de las definiciones y conceptos propuestos a lo largo de la misma. Si bien los resultados
mostrados en el capítulo I son evidencia suficiente de la hipótesis es decir, que en términos rea
les existe una relación inherente entre el perfil espectromorfológico y la posición espacial de
cada objeto sonoro, la información no es lo suficientemente extensa como para afirmar con un
alto grado de tolerancia que lo anterior se cumple para objetos sonoros distintos a los mencio
nados en las pruebas psicoacústicas: tonos puros, ruidos de banda corta, mezclas simples de
tonos puros, etcétera. Sin embargo, este modelo plantea de manera natural una potencial
metodología para desarrollar pruebas psicoacústicas enfocadas al análisis de fuentes sonoras
asociadas al ámbito de la música electroacústica. Lo anterior utilizando, precisamente, la
herramienta de clasificación aquí presentada.
Trabajo a futuro
Derivado de esta investigación, se identificaron tres puntos específicos que podrían ser desa
rrollados de manera inmediatamente posterior a este trabajo:
• Ampliar los resultados de estudios acústico-psicoacústicos para obtener una mejor des
cripción de las zonas óptimas de ubicación espacial para objetos sonoros de acuerdo
con su perfil espectromorfológico. Lo anterior requiere de pruebas con metodología es
tadística especialmente diseñadas para el ámbito de creación electroacústica dentro de
un sistema multicanal.
• Incorporar distintos algoritmos de aprendizaje no supervisado con el fin de elevar la
precisión de la metodología computacional propuesta en el capítulo IV.
• Derivado de los dos puntos anteriores, será posible establecer asociaciones mucho más
detalladas sobre zonas óptimas de localización espacial para objetos sonoros de acuerdo
E
ste apéndice contiene un desarrollo breve pero formal de las herramientas ma-
temático-computacionales utilizadas en el presente trabajo de investigación,
tanto en el nivel teórico como en el práctico. En el caso de la parte matemá-
tica, las secciones correspondientes contienen en su mayoría las definiciones
de los objetos matemáticos relacionados con sistemas dinámicos y, salvo ca
sos muy específicos y necesarios, algunos resultados derivados de proposiciones o teoremas.
La parte de cómputo contiene los fundamentos teóricos primordiales de las técnicas utiliza
das para el aprendizaje máquina y algunos de los algoritmos utilizados para el análisis de las
series de tiempo.
Notación matemática
A lo largo de los capítulos que componen este libro se hace uso de la notación matemática con-
vencional la cual puede ser consultada en cualquier libro de texto correspondiente. A conti-
nuación se muestran un par de tablas que presentan dicha notación:
Para el caso de las representaciones vectoriales y sucesiones, la notación correspondiente es:
Los sistemas dinámicos son sistemas cuyos estados evolucionan a través del tiempo. La teoría
matemática que los estudia es usada con bastante regularidad para modelar fenómenos que
[ 185 ]
cambian y se transforman a través del tiempo. Existen dos grandes tipos de sistemas diná
micos: discretos y continuos. Los primeros son modelados mediante ecuaciones en diferen-
cias y los segundos a través de ecuaciones diferenciales; por supuesto, tiene que ver con el tipo
de parametrización del tiempo. En esta sección se presentarán conceptos básicos de los siste-
mas dinámicos vistos desde su construcción abstracta.
𝜓:𝕀×M⟶M
a) 𝜓(0, x) = x
b) 𝜓(t + s, x) = 𝜓(t, 𝜓(s, x)) para t, s ∈ 𝕀.
𝜓x(t) : 𝕀 ⟶ M
Una parte de gran interés para el análisis de los sistemas dinámicos es clasificar el compor-
tamiento de un punto respecto del paso del tiempo. Se tienen tres formas generales: punto fijo,
periodicidad y caos. A grandes rasgos, los puntos fijos son aquellos valores para los cuales el
sistema dinámico permanece inalterable tras un periodo de tiempo considerable. La perio
dicidad denota que el sistema repite un comportamiento dado cada intervalo de tiempo espe
cífico y, finalmente, el caos denota impredecibilidad total dentro de un rango específico. Estos
tres aspectos se presentan de acuerdo con los valores iniciales con los que se evalúe el sistema,
también conocidos como condiciones iniciales.
𝜓(n, x) = x
El conjunto que recolecta los valores o estados del sistema dado un punto inicial y un inter-
valo de tiempo específico es conocido como órbita hacia adelante. Existe una analogía para
tiempos negativos la cual es llamada “órbita hacia atrás” pero requiere una condición especial
de invertibilidad en el operador evolución. En este trabajo será suficiente la órbita hacia ade-
lante por lo que a partir de este momento se hará referencia únicamente como órbita del siste-
ma a dicho conjunto.
DEFINICIÓN A3. Dado un sistema dinámico, la órbita hacia adelante o simplemente órbita,
es el conjunto:
𝒪 = {π(t, x) = xt ∈ M|t ≥ 0+
Nótese que en el caso en que el sistema sea discreto, π (t, x) = xt es el estado del sistema des-
pués de t iteraciones de la función π y por lo tanto la órbita será la colección de estados o valo-
res de la función evolución iterada desde el tiempo inicial hasta el tiempo final.
Se presenta a continuación el resultado que se conoce como la propiedad universal del
producto de conjuntos y se enuncia aquí tal y como está planteada en Spivak (2014).
PROPOSICIÓN A1. Sean X, Y dos conjuntos cualesquiera. Para cualquier conjunto A y fun-
ciones f, g tales que: f : A ⟶ X y g: A ⟶ Y, existe una única función:
<f, g >: A ⟶ X × Y
X×Y
X Y
f g
A
Se dice < f, g >: A ⟶ X × Y está inducida por f y por g y se cumple además que:
Algoritmos computacionales
El DTW es un algoritmo bastante popular que se usa en diversas áreas como un método de me-
dida de similaridad entre series de tiempo cuya característica prominente es que “minimiza los
efectos del cambio y distorsión en el tiempo al permitir una transformación elástica de la serie
de tiempo con el fin de detectar formas similares pero con diferente fase” (Senin, 2009).
La resolución de dicho algoritmo se realiza mediante programación dinámica para obtener
el alineamiento óptimo de las series de tiempo utilizando una matriz de costo.
Dadas dos series de tiempo X, Y , dicha matriz está dada por:
El pseudocódigo del algoritmo de acuerdo con Senin (2009), está dado por:
Como se mencionó en el capítulo correspondiente, la principal ventaja que presenta este al-
goritmo es que permite comparar series de tiempo de fase distinta y de distinta longitud, arro-
jando una medida de similaridad a partir de ello. Existen diversas librerías en Python que
calculan este algoritmo, entre ellas destacan: PyPi dtw (Rouanet, 2014), dtaidistance (Meert,
2018), dtw-python (Giorgino, 2009) y la propia tslearn ya mencionada. Para esta última, la figu-
ra 7-2 muestra la documentación correspondiente.
Este algoritmo es una variación del popular K-Medios con la ventaja que es adaptable para
procesar series de tiempo, “es una extensión del algoritmo de clasificación estándar de K-Me-
dios con la particularidad que es capaz de identificar clusters separables de manera no lineal”
(Tzortzis, 2008).
Como se describe en Tzortzis (2008), el algoritmo “mapea puntos del espacio de datos
entrantes a un espacio de propiedades de mayor dimensión a través del uso de una función
Kernel optimizando el error de agrupamiento en el espacio de propiedades al localizar míni-
mos quasi óptimos”.
Este algoritmo fue adaptado en la librería tslearn para poder ser aplicable a series de tiem-
po, a través del <métodotslearn.clustering.GlobalAlignmentKernelKMeans>, el cual se muestra
en la figura 56.
Bandas lb Keogh
El método lb Keogh es un algoritmo que permite establecer fronteras óptimas para poder agi-
lizar la comparación de series de tiempo para distintas métricas y en particular para DTW.
“Puede ser usada de igual modo para indizar bajo escalamiento uniforme y bajo otro tipo de
En la última sección del capítulo IV se utilizó la métrica Damerau-Levinshtein para poder cla-
sificar las etiquetas de las muestras de audio mediante propagación de afinidad. Ésta es una
0 20 40 60 80 100
Figura 58 | Representación intuitiva de la distancia LB Keogh (Li y Libin Yang, 2014).
métrica particular, de una clase mayor nombrada Edit Distance, las cuales miden el grado de
disimilaridad entre dos cadenas de caracteres mediante el cálculo del número de operaciones
mínimas que se requieren para convertir una en otra.
La métrica Damerau-Levinshtein, es, a su vez, un subtipo de la métrica Levinshtein y, como
mencionan Zhao C. y Sahni S. (2019), difiere de esta última en el sentido de que incluye opera-
ción de transposición y edición específica de caracteres (substitución, borrado e inserción) en-
tre las operaciones permitidas al momento de hacer la comparación.
Entropía aproximada
Como alternativa a las medidas de tendencia central dentro del contexto de descriptores nu-
méricos fijos para el análisis de muestras de audio, se plantearon dos valores: la entropía apro-
ximada y el coeficiente de variación.
La entropía aproximada, junto con la entropía muestral son medidas utilizadas para calcular
grados de predictibilidad, regularidad o complejidad dentro de series de tiempo y que reflejan,
de manera general, la pérdida de información dentro de las mismas. Se denota como ApEn y
“forma parte de procesos más generales como la tasa de entropía para la aproximación de ca-
denas de Markov para procesos” (Pincus, 1995). La figura 6-7 muestra el algoritmo correspon-
diente para calcular la ApEn.
Flood (2021) presenta EntropyHub, un toolkit de libre acceso que permite realizar cálculos
complejos con series de tiempo, incluida la entropía aproximada, pero de manera mucho más
general; permite además estimaciones de multiescala cruzada y bidimensional. Por su parte,
Vallat (2018) desarrolló Anthropy, el cual es un paquete para Python con el cual se pueden rea-
lizar diversas estimaciones de complejidad en series de tiempo que también consideran la en-
tropía aproximada.
[ 197 ]
150 19. Comparación de series de tiempo para RMSE de audio de corno francés.
Nota A3 tocada en trino forte.
150 20. Identificación de onsets en la serie de tiempo.
151 21. Reconstrucción de la serie de tiempo a partir de la interpolación de onsets.
154 22. Cluster no. 2 de series de tiempo para la sub-banda 4 (contraste espectral)
de muestras de audio de flauta.
154 23. Cluster no. 3 de series de tiempo para la sub-banda 4 (ancho espectral)
de muestras de audio de corno inglés.
155 24. Cluster no. 3 de series de tiempo para el ZCR de muestras de audio de saxofón.
155 25. Cluster no. 0 de series de tiempo para el ZCR de muestras de audio de oboe.
156 26. Cluster no.5 de series de tiempo para flujo espectral muestras audio de clarinete.
156 27. Cluster no. 5 de series de tiempo para el ZCR de muestras de audio de mandolina.
157 28. Cluster no.3 de series de tiempo para flujo espectral de muestras de audio
de guitarra.
157 29. Cluster no. 2 de series de tiempo para el flujo espectral de muestras
de audio de cello.
158 30. Cluster no. 0 de series de tiempo para el flujo espectral de muestras
de audio de banjo.
161 31. Baricentro euclidiano para cluster de flujo espectral de muestras de audio de violín.
161 32. Centroide baricentro/bandas LB Keogh para sub-banda 2 de ancho espectral
de muestras de audio de clarinete.
162 33. Centroide baricentro/bandas LB Keogh para sub-banda 2 de ancho espectral
de muestras de audio de contrabajo.
162 34. Centroide baricentro/bandas LB Keogh para sub-banda 2 de ancho espectral
de muestras de audio de tuba.
163 35. Centroide baricentro/bandas LB Keogh para ZCR de muestras de audio
de trombón.
163 36. Centroide baricentro/bandas LB Keogh para ZCR de muestras de audio de tuba.
164 37. Centroide baricentro/bandas LB Keogh para ZCR de muestras de audio
de trompeta.
164 38. Centroide baricentro/bandas LB Keogh para flujo espectral de muestras
de audio de clarinete bajo.
[ 201 ]
Bajcsy, Ruzena (1988), “Active Perception”, en Proceedings of the IEEE, vol. 76, núm. 8, pp. 966-1005.
Barlow, Horace (1961), “The Coding of Sensory Messages Current Problems”, en W.H. Thorpe y O.L.
Zangwill (eds.), Current Problems Animal Behaviour, Cambridge, Cambridge University Press.
Barlow, Horace (1990), “Conditions for Versatile Learning, Helmholtz’s Unconscious Inference and the
Task of Perception”, en Vision Research, vol. 30, núm. 11, pp. 1561-1571.
Barth, Friedrich G.; Patrizia Giampieri-Deutsch y Hans-Dieter Klein (eds.) (2012), Sensory Perception:
Mind and Matter, Nueva York, Springer-Verlag/Wien.
Bertin-Mahieux Thierry; Douglas Eck y Michael Mandel (2010), “Automatic Tagging of Audio: The State-
of-the-Art”, en W. Wang (ed.), Machine Audition: Principles, Algorithms and Systems, Hershey,
Pennsylvania, IGI Publishing.
Bértola, Elena de (2014), “On Space and Time in Music and the Visual Arts”, en Leonardo, vol. 5, núm. 1 (in-
vierno, 1972), pp. 27-30.
Boden, Margaret (1999), “Computer Models of Creativity”, en Handbook of Creativity, Cambridge,
Cambridge University Press, pp. 351-372.
Boon Jean Pierre, Olivier Decroly (1994), “Dynamical Systems Theory for Music Dynamics”, en Chaos,
vol. 5, núm. 3, Nueva York, Woodbury, pp. 501-508.
Boone, Marinus M.; Edwin N.G. Verheijen y Peter F. van Tol (1995), “Spatial Sound-Field Reproduction
by Wave-Field Synthesis”, en Journal of the Audio Engineering Society, vol. 43, núm. 12, pp.
1003-1012.
Boulanger-Lewandowski, Nicolas; Yoshua Bengio y Pascal Vincent (2013), “Audio Chord Recognition
with Recurrent Neural Networks”, disponible en <https://archives.ismir.net/ismir2013/paper/
000243.pdf>.
Bregman, Albert S. (1990), Auditory Scene Analysis: The Perceptual Organization of Sound, Cambridge,
MA, The MIT Press, 1990 (hardcover)/1994 (paperback).
Bregman, Albert S. (1993), “Auditory Scene Analysis: Hearing in Complex Environments”, en Stephen
McAdams y Emmanuel Bigand (eds.), Thinking in Sound: The Cognitive Psychology of Human
Auditions, Oxford, Oxford University Press, pp. 10-36.
Bregman, Albert S. y Pierre A. Ahad (1990), Demonstrations to Accompany Bregman’s Auditory Scene
Analysis. The Perceptual Organization of Sound, Department of Psychology Auditory Research
Laboratory McGill University, disponible en <http://www.rctn.org/bruno/data/auditory_de
monstrations/ASA-Demo-Booklet9V4.pdf>.
Bregman, Albert S. y Wieslaw Woszczyk (2004), “Controlling the Perceptual Organization of Sound:
Guidelines Derived from Principles of Auditory Scene Analysis (ASA)”, en K. Greenebaum y
R. Barzel (eds.), Audio Anecdotes: Tools, Tips and Techniques for Digital Audio, vol. 1, Natick,
MA, A. K. Peters, pp. 35-64.
Bregman, Albert S. y Wieslaw Woszczyk (2005), “Creating Mixtures: The Application of Auditory Sce-
ne Analysis (ASA) to Audio Recording”, En K. Greenebaum Y R. Barzel (eds.), Audio Anecdotes
III: Tools, Tips and Techniques for Digital Audio, vol. 1, Natick, MA, A. K. Peters.
Bresson Jean, Carlos Agon y Marlon Schumacher (2007), “Représentation des données de contrôle
pour la spatialisation dans openmusic”, disponible en <http://articles.ircam.fr/textes/Bresso-
n10a/index.pdf>.
Brochard, Renaud; Carolyn Drake, Marie Claire Botte y Stephen McAdams (1999), “Perceptual Orga
nization of Complex Auditory Sequences: Effect of Number of Simultaneous Subsequences
and Frequency Separation”, en Journal of Experimental Psychology: Human Perception and Per-
formance, vol. 25, núm. 6, pp. 1742-1759.
Brown, Guy J. y Martin Cooke (1994), “Computational Auditory Scene Analysis”, en Computer Speech
and Language, vol. 8, pp. 297-336, disponible en <https://staffwww.dcs.shef.ac.uk/people/G.
Brown/pdf/csl.pdf>.
Brownie, Barbara (2006), “Key Gestalt Theories and Principles”, disponible en <https://mafiadoc.com/
key-gestalt-theories-and-principles_5a22fa711723ddd437f09d74.html>.
Büchler, Michael (2002), “Algorithms for Sound Classification in Hearing Instruments”, tesis de docto-
rado en Ciencias Técnicas, Swiss Federal Institute of Technology Zurich.
Cangea, Catalina; Charlie Chen, Drew Jaegle, Curtis Hawthorne e Ian Simon (2022), “Autoregressive
Long-Context Music Generation with Perceiver AR”, disponible en <https://magenta.tensor
flow.org/perceiver-ar>.
Carlile, Simon y Johahn Leung (2016), “The Perception of Auditory Motion”, en Trends in Hearing, vol.
20, núm. 1, pp. 1-19, disponible en <https://www.researchgate.net/publication/301539178_
The_Perception_of_Auditory_Motion>.
Choi, Keunwoo; György Fazekas, Mark Sandler y Kyunghyun Cho (2018), “Transfer Learning for Mu-
sic Classification and Regression Tasks”, Proceedings of the 18th ISMIR Conference, Suzhou,
China, 23-27 de octubre, disponible en <http://www.eecs.qmul.ac.uk/~gyorgyf/files/papers/
choi2017ismir.pdf>.
Chowning, John M. (2004), “The Simulation of Moving Sound Sources”, en Computer Music Journal,
vol. 1, núm. 3, pp. 48-52, disponible en <https://www.jstor.org/stable/3679609>.
Clifton, Thomas (1983), Music as Heard: A Study in Applied Phenomenology, New Haven, Yale Universi-
ty Press.
Cobos, Maximo; José J. López y Sascha Spors (2010), “A Sparsity-Based Approach to 3D Binaural Sound
Synthesis Using Time-Frequency Array Processing”, en EURASIP Journal on Advances in Signal Pro-
cessing, disponible en <http://dx.doi.org/10.1155/2010/415840>.
Collins, Nick (2010), “Computational Analysis of Musical Influence: A Musicological Case Study Using
Mir Tools”, en J. Stephen Downie y Remco C. Veltkamp (eds.), Proceedings of the 11th Interna-
tional Society for Music Information Retrieval Conference, agosto 9-13, Utrecht, Netherlands, IS-
MIR, pp. 177-182.
De Vries, J. (2000), Elements of Topological Dynamics, Dordrecht, Netherlands, Springer.
Dinh Cong, Nguyen (1997), Topological Dynamics of Random Dynamical Systems, Oxford/Nueva York,
Clarendon Press/Oxford University Press.
Disbergen, Niels; Giancarlo Valente, Elia Formisano y Robert J. Zatorre (2018), “Assessing Top-Down
and Bottom-Up Contributions to Auditory Stream Segregation and Integration With Poly
phonic Music”, en Frontiers in Neuroscience, vol. 12, article 121, pp. 1-16.
Duero, Dante G. (2003), “La Gestalt como teoría de la percepción y como epistemología: aportes y de-
sarrollos”, disponible en <http://psicologiamonserrat.zonalibre.org/Monserrat%20(Gestalt).
pdf>.
Faller, Christof y Juha Merimaa (2004), “Source Localization in Complex Listening Situations: Selec-
tion of Binaural Cues Based on Interaural Coherence”, en Journal of the Acoustical Society of
America, vol. 116, núm. 5, pp. 3075-3089.
Fay, Richard R. y Arthur N. Popper (2008), Springer Handbook of Auditory Research, Series Editors,
Springer, Science+Business Media.
Fazi, Filippo M. y Philip A. Nelson (2007), “The Ill-Conditioning Problem in Sound Field Reconstruc-
tion”, en 123rd Audio Engineering Society Convention, 5-8 de octubre, Nueva York, Audio Engi-
neering Society.
Finn, Jacobsen (2011), “The Sound Field in a Reverberation Room”, tesis de doctorado, Acoustic Tech-
nology, Department of Electrical Engineering, Technical University of Denmark.
Flood, Matthew W. (2021), “EntropyHub: An Open-Source Toolkit for Entropic Time Series Analysis”,
en PloS ONE, disponible en <https://doi.org/10.1371/journal.pone.0259448>.
Fodor, Jerry (1983), The Modularity of Mind: An Essay on Faculty Psychology, Cambridge, MA, MIT
Press.
Francl, Andrew y Josh H. McDermott (2022), “Deep Neural Network Models of Sound Localization
Reveal How Perception is Adapted to Real-World Environments”, en Nature Human Beha-
viour, vol. 6, núm. 1, pp. 111-133.
French, Robert M. (2002), “The Computational Modeling of Analogy-Making”, en Trends in Cognitive
Sciences, vol. 6, núm. 5, pp. 200-205.
Fu, Zhouyu; Guojun Lu, Kai Ming Ting y Densheng Zhang (2011), A Survey of Audio-Based Music Clas-
sification and Annotation, en Journal IEEE Transactions on Multimedia, vol. 13, núm. 2, pp. 303-
319.
Gao, Ruohan y Kristen Grauman (2019), “2.5D Visual Sound”, en IEEE Conference on Computer Vision
and Pattern Recognition, disponible en <https://www.cs.utexas.edu/~grauman/papers/CVPR19_
2.5d-visual-sound.pdf>.
Gentner, Dedre (1983), “Structure-Mapping: A Theoretical Framework for Analogy”, en Cognitive
Science, vol. 7, núm. 2, pp. 155-170.
Gentner, Dedre (1989), “The Mechanisms of Analogical Learning”, en S. Vosniadou y A. Ortony (eds.),
Similarity and Analogical Reasoning, Londres, Cambridge University Press, pp. 199-241.
Getzmann, Stephan y Jörg Lewald (2007), “Localization of Moving Sound”, en Perception & Psychophy-
sics, vol. 69, núm. 6, pp. 1022-1034.
Gibson, James Jerome (1966), The Senses Considered as Perceptual Systems, Boston, Houghton Mifflin.
Gibson, James Jerome (1972), “A Theory of Direct Visual Perception”, en A. Nöe y E. Thompson (eds.),
Vision and Mind: Selected Reading in the Philosophy of Perception, Cambridge, MA, MIT Press,
pp. 77-89.
Giorgino, Toni (2009), “Computing and Visualizing Dynamic Time Warping Alignments”, en Journal of
Statistical Software, vol. 31, núm. 7, pp. 1-24.
Gómez, Emilia y Perfecto Herrera (2004), “Automatic Extraction of Tonal Metadata from Polyphonic
Audio Recordings”, en AES 25th International Conference, 17-19 de junio, Londres.
Gouyon, Fabien; Simon Dixon, Elias Pampalk y Gerhard Widmer (2004), Evaluating Rhythmic Des-
criptors for Musical Genre Classification”, en AES 25th International Conference, 17-19 de junio,
Londres., disponible en <https://ofai.at/papers/oefai-tr-2004-10.pdf>.
Gregory, Richard (1970), The Intelligent Eye, Londres, Wiedenfeld & Nicolson.
Gregory, Richard (1974), Concepts and Mechanisms of Perception, Londres, Duckworth.
Gregory, Richard (1997), “Knowledge in Perception and Illusion”, Philosophical Transactions of the Royal
Society, vol. 352, núm. 358, pp. 1121-1127.
Grey, John (1976), “Multidimensional Perceptual Scaling of Musical Timbres”, en The Journal of the
Acoustical Society of America, vol. 61, núm. 5, pp. 1270-1277.
Hafter, Ervin R., Samuel C. Carrier (1971), “Binaural Interaction in Low-Frequency Stimuli: The Inabi-
lity to Trade Time and Intensity Completely”, en The Journal of the Acoustical Societe of Ame
rica, vol. 51, núm. 6B, disponible en <https://doi.org.10.1121/1.1913044>.
Harley, Maria Anna (1994a), Space and Spatialization in Contemporary Music, Montreal, McGill Uni
versity.
Harley, Maria Anna (1994b), “From Point to Sphere: Spatial Organization of Sound in Contemporary
Music (after 1950)”, en Revue de Musique des Universités Canadiennes, núm. 13, pp. 123-144,
disponible en <https://doi.org/10.7202/1014300ar>.
Helmholtz, Hermann von (1925), Physiological Optics. Volume III. The Theory of the Perceptions of Vi-
sion, Washington, D.C., Optical Society of America.
Henriksen, Frank E. (2002), “Space in Electroacoustic Music: Composition, Performance and Percep-
tion of Musical Space”, tesis de doctorado inédita, Londres, City University, Department of
Music.
Hernández-Olivan, Carlos; Ignacio Zay Pinilla, Carlos Hernández-López y José R. Beltrán (2021), “A
Comparison of Deep Learning Methods for Timbre Analysis in Polyphonic Automatic Music
Transcription, en Electronics, vol. 10, núm. 7, pp. 1-16.
Herrera, Perfecto; Juan Pablo Bello, Gerhard Widmer y Mark Brian Sandler (2005), “SIMAC: Semantic
Interaction with Music Audio Contents”, en The 2nd Europoean Workshop on the Integration of
Knowledge, Semantics and Digital Media Technology, Londres, IET, pp. 399-406.
Hidaka, Takayuki; Toshiyuki Okano y Leo Beranek (1992), “Interaural Cross Correlation (IACC) as a
Measure of Spaciousness and Envelopment in Concert Halls”, en Journal of the Acoustic Society
of America, vol. 92, núm. 4, 2492.
Hofstadter, Douglas R. (1985), “Analogies and Roles in Human and Machine Thinking”, en Metamagical
Themas: Questings for the Essence of Miand and Pattern, Nueva York, Basic Books, pp. 547-604.
Hosken, Daniel W. (2011), An Introduction to Music Technology, Londres, Routledge.
Humphrey, Eric J.; Juan Pablo Bello y Yann LeCun (2013), “Feature Learning and Deep Architectures:
New Directions for Music Informatics”, en Journal for Intelligent Information Systems, vol. 41,
núm. 3, pp. 461-481.
Itoh, Motokuni, Kazuhiro Iida y Masayuki Morimoto (2006), “Individual Differences in Directional
Bands”, WESPAC IX, disponible en <http://www.iida-lab.it-chiba.ac.jp/literature/International.
Conference.Proceedings/24.Individual%20differences%20in%20directional%20bands.pdf>.
Juha, Merimaa (2006), Analysis, Synthesis and Perception of Spatial Sound: Binaural Localization Mode-
ling and Multichannel Loudspeaker Reproduction, Helsinki, University of Technology/Labora-
tory of Acoustics and Audio Signal Processing.
Jurek, Megan; Nikhil Bhanu, Wilson Zhao, Søren Nielsen, Sehmon Burnam y Jesse Engel (2022), “DDSP-
VST: Neural Audio Synthesis for All”, disponible en <https://magenta.tensorflow.org/ddsp-
vst-blog>.
Kendall, Gary (2010), “Spatial Perception and Cognition in Multichannel Audio for Electroacoustic
Music”, en Organised Sound, vol. 15, núm. 3, Cambridge University Press, pp. 228-238.
Kendall, Gary y Mauricio Ardila (2009), “The Artistic Play of Spatial Organization: Spatial Attributes,
Scene Analysis and Auditory Spatial Schemata”, en R. Kronland-Martinet, S. Ystad y K. Jensen
(eds.), Computer Music Modeling and Retrieval. Sense of Sounds. CMMR 2007. Lecture Notes in
Computer Services, vol. 4969, Berlin, Springer Verlag.
Keogh, Eamon y Ann Ratanamahatana (2005), “Exact Indexing of Dynamic Time Warping”, en Know
ledge and Information Systems, vol. 7, núm. 3, pp. 358-386.
Kim, Teajun; Jongpil Lee y Juhan Nam (2018), Sample-Level CNN Architectures for Music Autotagging
Using Raw Waveforms, disponible en <https://arxiv.org/pdf/1710.10451.pdf>.
Kofka, Kurt (1922), “Perception: An introduction to the Gestalt-Theorie”, en Psychological Bulletin, vol.
19, núm. 10, pp. 531-585.
Kofka, Kurt (1935), Principles of Gestalt Psychology, Londres, Lund Humphries.
Kollmeier, Birger; Georg Klump, Volker Hohmann, Ulrike Langemann, Manfred Mauermann, Stefan
Uppenkamp y Jesko Verhey (2007), Hearing-From Sensory Processing to Perception, Berlín,
Springer.
Kootstra, Gert, Niklas Bergström y Danica Kragic (2012), Gestalt Principles for Attention and Segmenta-
tion in Natural and Artificial Vision Systems, Swedish Foundation for Strategic Research, dispo-
nible en <https://www.ais.uni-bonn.de/~holz/spme/04_kootstra_gestalt_principles.pdf>.
Kowalczyk, Konrad; Oliver Thiergart, Maja Taseska et al. (2015), “Parametric Spatial Sound Processing:
A Flexible and Efficient Solution to Sound Scene Acquisition, Modification, and Reproduc-
tion”, en IEEE Signal Processing Magazine, vol. 32, núm. 2, pp. 31-42.
Krizhevsky, Alex; Ilya Sutskever y Geoffrey Hinton (2012), “ImageNet Classification with Deep Convo-
lutional Neural Networks”, en Advances in Neural Information Processing Systems, vol. 5, Lake
Normandeau, Robert (2010), “A Revision of the TARTYP, published by Pierre Schaeffer”, en Proceedings
of the Seventh Electroacoustic Music Studies Network Conference, disponible en < https://doc-
player.net/46175174-Robert-normandeau-a-revision-of-the-tartyp-published-by-pierre-
schaeffer-faculte-de-musique-universite-de-montreal.html>.
Oramas, Sergio; Oriol Nieto, Francesco Barbieri y Xavier Serra (2017), “Multi-Label Music Genre Clas-
sification from Audio, Text and Images Using Deep Features”, en Proceedings of the 18th ISIMIR
Conference, Suzhou, China, 23-27 de octubre, disponible en <https://zenodo.org/record/1417
427#.Y0s-PbvMLIU>.
Parry, R. Mitchell e Irfan Essa (2006), “Estimating the Spatial Position of Spectral Components in Au-
dio”, en J. Rosca, D. Erdogmus, J.C. Príncipe y S. Haykin, S. (eds), Independent Component
Analysis and Blind Signal Separation, ICA 2006, Lecture Notes in Computer Science, vol 3889,
pp. 666-673, Berlín, Springer Heidelberg, disponible en <https://doi.org/10.1007/11679363_
83>.
Pavlidi, Despoina; Anthony Griffin, Matthieu Puigt y Athanasios Mouchtaris (2013), “Real-Time Mul-
tiple Sound Source Localization and Counting Using a Circular Microphone Array”, en IEEE
Transactions on Audio, Speech, and Language Processing, vol. 21, núm. 10, pp. 2193-2206.
Payri, Blas y José Luis Miralles Bono (2007), “Auditory Scene Analysis and Sound Source Coherence as
a Frame For The Perceptual Study of Electroacoustic Music Language”, en Electroacoustic Mu-
sic Studies Network, Universidad Politécnica de Valencia, Campus de Gandía, disponible en
<http://www.ems-network.org/IMG/pdf_PayriEMS07.pdf>.
Plenge, G. (1974), “On the Differences between Localization and Lateralization”, en The Journal of the
Acoustical Society of America, vol. 56, núm. 3, pp. 944-951.
Perrott, D. R. y Alan Musicant (1977), “Minimum Auditory Movement Angle: Binaural Localization of
Moving Sound Sources”, en The Journal of the Acoustical Society of America, vol. 62, núm. 6, pp.
1463-1466.
Pincus, Steve (1995), “Approximate Entropy (ApEn) as a Complexity Measure”, en Chaos, vol. 5, núm. 1,
Woodbury, Nueva York, pp. 110-117.
Plumbley, Mark y Samer Abdallah (2007), “Information Theory and Sensory Perception”, en J.A. Bryant,
M.A. Atherton y M.W. Collins (eds.), Design and Information in Biology, cap. 7, Southampton,
UK, WIT Press.
Pohle, Tim; Dominik Schnitzer, Markus Schedl y Peter Knees (2009), “On Rhythm and General Music
Similarity”, en Proceedings 10th International Society for Music Information Retrieval Conference
(ISIMIR), pp. 525-530, disponible en <https://zenodo.org/record/1418229#.Y0tjhbvMLIU>.
Pons, Jordi; Olga Slizovskaia, Rong Gong, Emilia Gómez y Xavier Serra (2017), “Timbre Analysis of
Music Audio Signals with Convolutional Neural Networks”, en Proceedings 25th European Sig-
nal Processing Conference, Kos, Greece, pp. 2813-2817, disponible en <https://eurasip.org/Pro-
ceedings/Eusipco/Eusipco2017/papers/1570347061.pdf>.
Pressnitzer, Daniel, Alain de Cheveigné, Stephen McAdams y Lionel Collet (2005), Auditory Signal Pro-
cessing. Physiology, Psychoacoustics, and Models, Nueva York, Springer.
Pulkki, V. (1997), “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, en Journal
of the Audio Engineering Society, vol. 45, núm. 6, pp. 456-466.
Pulkki, Ville (2001), Spatial Sound Generation and Perception by Amplitude Panning Techniques, Finlan-
dia, Helsinki University of Technolopgy.
Pulkki, Ville, Symeon Delikaris-Manias y Archontis Politis (2018), Parametric Time-Frequency Domain
Spatial Audio, Hoboken, N.J., John Wiley & Sons Ltd.
Rath, Toni M. y R. Manmatha (2002), “Lower-Bounding of Dynamic Time Warping Distances for Mul-
tivariate Time Series”, Center for Intelligent Information Retrieval University of Massachu-
setts, disponible en <https://works.bepress.com/r_manmatha/19/>.
Reck Miranda, Eduardo (2002), Computer Sound Design, Oxford, Focal Press.
Reuter, Christoph y Saleh Siddiq (2017), “The Colourful Life of Timbre Spaces-Timbre Concepts from
Early Ideas to Meta-Timbre Space and Beyond”, disponible en <https://www.researchgate.net/
publication/318467904>.
Rogers, Elliott (1968), “Simple Visual and Simple Auditory Reaction Time: A Comparison”, en Psycho-
nomic Science, vol. 10, disponible en <https://link.springer.com/content/pdf/10.3758/BF0333
1548.pdf>, pp. 335-336.
Rumsey, Francis (2001), Spatial Audio, Oxford, Focal Press.
Rumsey, Francis y Tim McCormick (2009), Sound and Recording, 6a. ed., Oxford, Focal Press.
Sandvad, J. (1996), “Dynamic Aspects of Auditory Virtual Environments”, en Audio Engineering Society
Reprints. AES 100th Convention, vol. 2, pp. 54-60.
Sawada, Hiroshi; Shoko Araki, Ryo Mukai y Shoji Makino (2007), “Grouping Separated Frequency
Components by Estimating Propagation Model Parameters in Frequency-Domain Blind Sou-
rce Separation”, en IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, núm.
5, pp. 1592-1604.
Schaeffer, Pierre y Guy Reibel (1967), Solfege de L’objet sonore, reedición 1998, París, Coedition Ina-Pu-
blications.
Scheinerman, R. Edward (1996), Dynamical Systems, Department of Mathematical Sciences the Johns
Hopkins University, disponible en <http://cmc.de.iscte.pt/Scheinerman-Book.pdf>.
Schumacher, Marlon y Jean Bressons (2010), “Spatial Sound Synthesis in Computer Aided Composi-
tion”, en Organised Sound, vol. 15, núm. 3, pp. 271-289.
Schumacher, Federico y Claudio Fuentes (2017), “Space-Emotion in Acousmatic Music”, en Organised
Sound, vol. 22, núm. 3, pp. 394-405.
Senin, Pavel (2009), “Dynamic Time Warping Algorithm Review”, Information and Computer Science
Department, University of Hawaii at Manoa Honolulu, disponible en <https://seninp.github.
io/assets/pubs/senin_dtw_litreview_2008.pdf>.
Shepard, Roger N. (1984), “Ecological Constraints on Internal Representation: Resonant Kinematics of
Perceiving, Imagining, Thinking and Dreaming”, en Psychological Review, vol. 91, núm. 4, pp.
417-447.
Shelton, Jose y Gideon P. Kumar (2010), “Comparison Between Auditory and Visual Simple Reaction
Times”, en Neuroscience and Medicine, vol. 1, núm. 1, septiembre, pp. 30-32.
Shimada, Shoji; Nobuo Hayashi y Shinji Hayashi (1994), “A Clustering Method for Sound Localization
Transfer Functions”, en Journal of the Audio Engineering Society, vol. 42, núm. 7-8, pp. 577-584.
Shin-ichi, Sato y Ando Yoichi (2002), “Apparent Source Width (ASW) of Complex Noises in Relation to
the Interaural Cross-correlation Function”, en Journalof Temporal Design in Architecture and
the Environment, vol. 2, núm. 1, pp. 29-32.
Smalley, Dennis (1997), “Spectromorphology: Explaining Sound-Shapes”, en Organised Sound, vol. 2,
núm. 2, Cambridge University Press, pp. 107-126.
Smalley, Dennis (2007), “Space-Form and the Acousmatic Image”, en Organised Sound, vol. 12, núm. 1,
Cambridge University Press, pp. 35-58.
Soria, Edmar (2014), “Espacialización Multicanal Algorítmica: un modelo teórico con implementacio-
nes en Supercollider”, tesis de maestría en Música, México, UNAM.
Soria, Edmar (2020), “Espacio, virtualidad e inmersividad como experiencia estética: un análisis desde
la percepción sensorial”, en Espacio inmersividad. Miradas desde la transversalidad filosofía-ar-
te-ciencia-tecnología, Ciudad de México, Juan Pablos/UAM Lerma.
Spickler, Don y Jennifer Bergner (2011), The Mathematics Behind Anamorphosis, Salisbury, Salisbury
University.
Spivak, David (2014), Category Theory for Sciences, Cambridge, MA, MIT Press.
Stefani, Ewan y Karen Lauke (2010), “Music, Space and Theatre: Site-Specic Approaches to Multichan-
nel Spatialisation”, en Organised Sound, vol. 15, núm. 3, diciembre, pp. 251-259.
Sternberg, Shlomo (2000), Dynamical Systems, Nueva York, Dover Publications.
Suzuki, Yôiti; Hae-Young Kim, Shouichi Takane y Toshio Sone (1998), “A Modeling of Distance Percep-
tion Based on Auditory Parallax Model (Abstract)”, en The Journal of the Acoustical Society of
America, vol. 103, núm. 5, 3083, disponible en <https://doi.org/10.1121/1.422911>.
Tashev, Ivan (2009), Sound Capture and Processing: Practical Approaches, Nueva York, John Wiley &
Sons Inc.
Teney, James (1988), Meta-Hodos and Meta Meta-Hodos: A Phenomenology of 20th Century Musical Ma-
terials and an Approach to the Study of Form, Frog Peak Music, 2a. ed., Oakland, California, Frog
Peak Music.
Termens, Enric Gaus i (2009), “Audio Content Processing for Automatic Music Genre Classification:
Descriptors, Databases and Classifiers”, tesis de doctorado, Barcelona, Department of Infor-
mation and Communication Technologies, Universitat Pompeu Fabra, disponible en <https://
www.tdx.cat/bitstream/handle/10803/7559/tegt.pdf?sequence=1>.
Theile, Günther (1980), “On the Localisation in the Superimposed Soundfield”, tesis de doctorado, Te-
chnische Universität Berlin, disponible en <https://hauptmikrofon.de/theile/1980-2_Diss._
Theile_englisch.pdf>.
Theile, Günther, Helmut Wittek (2004), Wave Field Synthesis: A Promising Spatial Audio Rendering
Concept, en Acoustical Science and Technology, vol. 25, núm. 6, pp. 393-399.
Xie, Bosun y X. F. Xie (1996), “Analyse and Sound Image Localization Experiment on Multi-Channel
Plannar Surround Sound System”, en Chinese Journal of Acoustics, vol. 15, núm. 1, pp. 52-64.
Xie, Bosun y Yu Guangzheng (2021), “Psychoacoustic Principle, Methods, and Problems with Percei-
ved Distance Control in Spatial Audio”, en Applied Sciences, vol. 11, núm. 23, 11242, MDPI.
Yagi, Yasuo; Kerry L. Coburn, Kristi M. Estes y James E. Arruda (1999), “Effects of Aerobic Exercise and
Gender on Visual and Auditory P300, Reaction Time, and Accuracy”, en European Journal of
Applied Physiology and Occupational Physiology, vol. 80, núm. 5, pp. 402-408.
Yalta, Nelson; Kazuhiro Nakadai y Tetsuya Ogata (2017), “Sound Source Localization Using Deep Lear-
ning Models”, en Journal of Robotics and Mechatronics, vol. 29, núm. 1, pp. 37-48.
Zahorik, Pavel; Douglas S. Brungart y Adelbert W. Bronkhorst (2021), “Auditory Distance Perception in
Humans: A Summary of Past and Present Research”, en Acta Acustica united with Acustic, vol.
91, núm. 3 (2005), pp. 409-420.
Zelli, Bijan (2010), “Musique Acousmatique and Imaginary Spaces”, Canadian Electroacoustic Com-
munity, disponible en <http://www.bijanzelli.com/Musique%20Acousmatique%20and%20Ima
ginary%20Spaces_econtact13.3.pdf>.
Zhao, Chunchun y Sartaj Sahni (2019), “String Correction Using the Damerau-Levenshtein Distance”,
en BMC Bioinformatics, vol. 20, suplemento 11, 277, disponible en <https://doi.org/10.1186/
s12859-019-2819-0>.
Libro electrónico
DOCUMENTOS DAH