Sonidos del Piano: Grabación,
Caracterización en Frecuencia y Detección
Jose Molins, Isabel Barbancho, Lorenzo J. Tardón
acousticman@[Link], ibp@[Link], lorenzo@[Link]
Dpto. de Ingeniería de Comunicaciones, Universidad de Málaga, Campus de Teatinos s/n, 29071 Málaga
Abstract- In this paper, a new method to estimate the pitches frecuencia. En la colocación de ambos micrófonos se va a
in piano chords is presented. The proposed algorithm detects tener en cuenta esta característica.
correctly 95% of the played notes. The method works robustly
in noise. Also, a full characterization of the piano sounds
according to the tessitura and the type of piano is presented
together with a method for recording of the piano sounds.
I. INTRODUCCIÓN
La transcripción de música polifónica y, en concreto, la
de los sonidos de un piano, es un interesante problema dentro
del campo del procesado de señal [1], [2], [3], [4]. En esta
comunicación se presenta un método de grabación Figura 1. Respuesta en frecuencia del TLM 103 [5].
profesional para los sonidos de un piano en el que se tienen
en cuenta las respuestas en frecuencia de los micrófonos para
conseguir una buena calidad de la grabación (sección II), la
caracterización en frecuencia de los sonidos de un piano en
función del tipo de piano y de la tesitura (sección III) y un
nuevo algoritmo para detectar las notas que están sonando en
un determinado ataque (sección IV). Finalmente, se
presentan las conclusiones extraídas del trabajo realizado.
Figura 2. Respuesta en frecuencia del TLM 170 [5].
II. GRABACIÓN PROFESIONAL
En este apartado se presenta el método que se ha C. Colocación de los micrófonos
utilizado para grabar una señal de audio limpia y sin El TLM 103 se orienta hacia las tricuerdas o cuerdas más
deterioros en un estudio de grabación profesional. Se agudas y el TLM 170 hacia las monocuerdas ó cuerdas de
presentan las características de los micrófonos empleados graves para así aprovechar su respuesta en frecuencia. La
para la grabación y la forma de disponerlos. parte frontal de ambos micrófonos mira hacia las cuerdas y
A. El estudio de grabación con una cierta inclinación (Figura 3). La inclinación del TLM
170 sobre las monocuerdas debe ser leve sobre unos
La sala de control consta de la consola de mezclas Sony
aproximados 30 grados sobre su eje X y unos 20 grados sobre
DMX-R100, de un sistema Protools HD192 con un
el eje Y.
PowerMac G4, monitores Genelec y Yamaha, compresores
DBX y focusrite y reverb TC electronic M3000.
B. Micrófonos
Para la grabación se han escogido dos micrófonos de
condensador con una cápsula de gran diafragma: el Neumann
TLM103 y el Neumann TLM170. El TLM 170 es un
micrófono de bajo ruido de fondo de gran linealidad. Posee
un filtro paso alto a 100Hz y un atenuador de 10dB. La
respuesta es de 20 a 20000Hz con una dinámica de 130dB. El
TLM 103 tiene un rango dinámico de 131dB con respuesta de
20 a 20000Hz. El motivo de la utilización de dos modelos de Figura 3. Orientación de los micrófonos.
micrófonos ha sido su respuesta en frecuencia. El TLM 103
tiene una mejor respuesta en frecuencias altas (Figura 1) que El TLM 103 apunta hacia las triples cuerdas también con
el TLM 170, pero a su vez el TLM 170 posee mejor respuesta cierta inclinación pero solo unos 40 grados sobre el eje Y.
en bajas frecuencias (Figura 2), por lo que se usan ambos Ambos micrófonos tienen que ir retirados notablemente de la
para obtener la máxima planicidad de la respuesta en parte frontal del piano para que no recojan el leve sonido del
conjunto mecánico frontal. El TLM 103 debe de ir algo más
adelantado que el 170 para que pueda recoger bien el sonido IV. ALGORITMO DE DETECCIÓN
de las notas más agudas. La distancia desde las cuerdas hasta En este apartado se presenta el algoritmo de detección
las cápsulas de los micrófonos es de aproximadamente 50cm. desarrollado. En la Figura 6 se muestra su diagrama de flujo.
III. CARACTERIZACIÓN EN FRECUENCIA
En este apartado se presenta la caracterización en
frecuencia del piano, observándose como los pianos generan
un espectro especial en función del tipo de piano y en
función de las teclas que se toquen en cada momento.
A. Caracterización en frecuencia en función de la tesitura.
El piano es un instrumento musical que produce un
espectro diferente en función de la tesitura de las notas que
se estén tocando. En las notas más graves del piano
(aproximadamente desde LA0 hasta RE1), aparecen un gran
número de componentes espectrales y el armónico
fundamental es de muy baja amplitud. La Figura 4 ilustra
este hecho para el LA0, que tiene su fundamental en 27.5Hz.
Obsérvese que, en la Figura 4, aproximadamente a 50Hz
tenemos una componente ruidosa debida a la red eléctrica.
Figura 4. Espectro de la nota LA0, frecuencia fundamental.
A medida que se sube en frecuencia, el fundamental y su
siguiente parcial o primer superarmónico aumentan y en el
espectro de cada nota van apareciendo un menor número de
componentes espectrales. Aproximadamente a partir del LA4
del piano, el armónico fundamental es el de mayor amplitud.
Figura 6. Diagrama de flujo del algoritmo de detección.
B. Caracterización del espectro en función del tipo de piano. A. Entrada al algoritmo.
Los pianos estudiados son los más comunes: el piano Las muestras captadas en el estudio de grabación se
acústico (ya sea de cola o vertical) y el piano electrónico tomaron a una resolución estándar de 16 bits por muestra a
Clavinova. Las 42 primeras teclas del piano de cola 44100Hz, pero se han realizado pruebas para ver como
corresponden con el puente de graves que tienen una sola afectaba la calidad de la grabación, para ello se bajó la
cuerda, desde LA0 (27.5Hz) hasta RE4 (293.66Hz), en ese calidad del audio a 8 bits por muestra a 11025Hz, calidad
rango todos sus armónicos están formados por más baja aceptada por el sistema de detección. El sistema
concentraciones únicas de energía ó un solo pico debido a detecto perfectamente los 42 acordes con sus respectivas
que estas notas bajas solo poseen una cuerda. En las notas musicales con un tiempo de proceso de detección muy
posteriores, que tienen tres cuerdas, los armónicos se forman inferior. A continuación, se realiza la transformada de
por tres picos muy próximos entre sí; la resolución de la Fourier, con la que trabaja el sistema.
transformada de Fourier hace que se observen o no (Figura
5). El piano electrónico Clavinova produce una única B. Preprocesamiento
concentración de energía justo en la frecuencia deseada Prepara la densidad espectral de potencia para una
(Figura 5). correcta detección y decide qué función de detección es la
más adecuada. Para ello se calculan unos coeficientes de
predetección [6] que dicen qué parte del espectro tiene más
potencia. El espectro del piano se puede dividir en tres
bandas: la primera abarca las 4 primeras octavas (desde
27.5Hz hasta 499Hz), la segunda banda solo contiene la 5ª
octava (desde 500Hz hasta 1000Hz) y la tercera abarca las
dos últimas octavas que son la 6ª y 7ª octava (desde 1001Hz
Figura 5. Armónicos fundamentales, nota LA4. hasta 4200Hz). El resto del espectro es ignorado.
Para calcular los coeficientes de predetección hacemos
una media de las muestras de la densidad espectral de
potencia dentro cada banda, según la ecuación (1).
1
CPx = ∑ xn 2
N2 n
(1)
El coeficiente máximo, determina la banda en la que se
encuentra la nota o acorde a procesar.
Dentro del bloque de preprocesamiento, la preparación de
la densidad espectral de potencia es básicamente una
limpieza de la misma quedándose únicamente con los valores
máximos de todos los armónicos. El algoritmo de limpieza
tiene también en cuenta los valores de los coeficientes de
predetección, este algoritmo tiene dos etapas iterativas Figura 8. Eliminación de superarmónico.
fundamentales que se repiten a lo largo de todo el espectro En el caso de que el coeficiente de predicción mayor sea
de potencia. La primera etapa va recorriendo el espectro, el primero o el segundo, la función es la misma pero con
enventanándolo y buscando el máximo a partir de un umbral límites de búsquedas de fundamentales, de superarmónicos y
sobre dicha ventana. La longitud de la ventana depende de la umbrales de validez diferentes. Los límites teóricos
posición del espectro. En baja frecuencia la ventana de impuestos para los armónicos fundamentales están
búsqueda es mucho mas estrecha que en alta frecuencia, esto establecidos por la escala temperada: para la banda 1 solo
es debido a que en baja frecuencia los armónicos están podemos encontrar fundamentales desde 27.5Hz hasta
mucho más próximos entre sí que en alta frecuencia. El 494Hz, y en la banda 2 se pueden encontrar fundamentales
umbral es constante durante todo el espectro de potencia. En desde 523Hz hasta 988Hz. Estos límites en la práctica tienen
muchos casos el final de la ventana y el principio de la que ser más flexibles, ya que en piano pueden formarse
siguiente caen en la pendiente o bajada de un armónico, este acordes con varias notas de distintas octavas. Así, en la
fenómeno crea armónicos fantasmas alrededor del armónico banda 1 se comienza buscando fundamentales desde el
verdadero, la segunda etapa de limpiado decide cual es el origen hasta 630Hz (RE#5) y en la banda 2 se empieza
armónico verdadero y elimina los armónicos fantasmas de su buscando fundamentales desde 350Hz (FA4) hasta 1000Hz
alrededor. En la Figura 7, puede verse el armónico (SI5). Los acordes que se formen con la parte última de la 5ª
fundamental de un DO5 y la salida del algoritmo de octava y primera parte de la 6ª octava serán detectados con la
limpieza. función asignada al 3er coeficiente de predicción.
Los límites para los superarmónicos se establecen a partir
de la posición dónde se encuentre el armónico fundamental
de mayor frecuencia. Por ejemplo en la banda 2 el armónico
de mayor frecuencia estará en torno a 988Hz pues su
superarmónico posterior estará al doble de frecuencia, a unos
1976Hz, aproximadamente.
La función de detección de acordes se basa en buscar los
armónicos fundamentales y marcar los superarmónicos para
ignorarlos y no tomarlos como fundamentales. Una vez que
encuentre un armónico a una frecuencia ω0 empieza a buscar
Figura 7. Armónico fundamental de un DO5. superarmónicos que superen un segundo umbral a
frecuencias 2ω0, 3ω0… hasta llegar al límite de búsqueda.
C. Funciones de detección. Todos esos superarmónicos quedan marcados (Figura 9). La
En el caso de que el coeficiente de predicción mayor sea función guarda la frecuencia ω0 y la toma como nota tocada.
el tercero, la función de predicción de esta banda ignora las Una vez hecho todo esto, la función vuelve a retomar la
frecuencias anteriores a 780Hz y empieza a buscar búsqueda de fundamentales a partir de la frecuencia ω0. Si se
armónicos sobre esta banda. La función recorre el espectro encuentra una componente en frecuencia ω1 pero no se
de menor a mayor frecuencia, una vez que encuentre un encuentra su superarmónico 2ω1, entonces la función mira
armónico que supere un umbral establecido automáticamente hacia detrás, a ω1/2, pero esta vez es necesario evaluarlo con
la función guarda esa posición salta al doble de frecuencia y el segundo umbral ya que, si miramos hacia atrás, es que ya
busca dentro de un ancho de banda el superarmónico se ha evaluado pero ha sido ignorada por estar por debajo del
asociado y, si existe, lo elimina, la función toma el armónico primer umbral. Si encontramos una componente de muy baja
anterior como fundamental, lo guarda (Figura 8) y continua amplitud a ω1/2 la tomamos como armónico fundamental.
desde el punto donde encontró el fundamental. Este proceso Por último, si se encuentra una componente en frecuencia ω2
hace que la función de búsqueda no confunda estos y, al buscar hacia delante, no se encuentra componente en
superarmónicos con armónicos fundamentales.
2ω2 y tampoco en ω2/2, entonces esta componente puede
tomarse como ruido.
Figura 11. Matriz de comparación de la nota LA1.
Sí la matriz es mayor a 4x4 elementos, se analizan sus
filas y si el número de “1” supera en un 55% al número de
“0”, lo tomamos como nota y no seguimos evaluando. Si el
número de elementos de la matriz es 4x4 ó menor, si el
número de “1” supera en un 67% al número de “0” se toma
como nota. Estos porcentajes han sido seleccionados a través
de pruebas con todas las notas.
Figura 9. Acorde de piano de 3 notas: superarmónicos.
E. Pruebas de ruido.
La búsqueda de superarmónicos se hace dentro de unas Para completar el estudio del sistema de detección, se han
determinadas bandas: 2ω0±∆, 3ω0±∆… (∆ esta entre 15Hz y realizado una serie de pruebas para poner a prueba el sistema
20Hz dependiendo de la banda de trabajo), ya que los de detección frente a ruido de fondo. Se optó por insertar el
superarmónicos no están justamente a frecuencias múltiplos ruido generado directamente en los acordes grabados. Para
del armónico fundamental (Figura 9). ello se utilizó una consola de mezclas y un generador de
Estas funciones de detección de acordes devuelven una ruido blanco.
serie de frecuencias fundamentales a comparar con la escala Se observó que el nivel de ruido permitido por el sistema
temperada para identificar las notas, admitiendo un dependía mucho del acorde a detectar. Por ejemplo el acorde
porcentaje de error en las frecuencias detectadas. El tanto por formando por RE4, FA#4, LA4 y DO5 admitió hasta -13dB
ciento se establece como un máximo y un mínimo dentro del de ruido blanco, pero el acorde DO2, MI2 y SOL2 admitió
cual encontrar el fundamental. solo -19dB. Se observa que a los acordes más bajos en
frecuencia les afecta mucho más el ruido que a los más altos.
D. Algoritmo de diferenciación entre nota o acorde.
V. CONCLUSIONES
Los algoritmos de detección son distintos en el caso de
querer detectar un acorde ó una nota musical. Un algoritmo En este artículo se ha presentado: a) Un método de
específico se encarga de diferenciar entre nota y acorde. En grabación profesional para los sonidos de un piano. Se ha
una nota los armónicos siguen una serie armónica perfecta, determinado la posición más adecuada para cada uno de los
pero en un acorde las distancias entre los armónicos es micrófonos en función del sonido a grabar y la respuesta en
distinta. frecuencia del micrófono. b) La caracterización en frecuencia
Este algoritmo de diferenciación, en primer lugar, crea un de los sonidos de un piano. Se ha observado que el número
vector base donde se indican las distancias en hertzios entre de picos en frecuencia que genera cada nota depende de su
armónicos consecutivos. En la Figura 10 se puede ver el tesitura y del tipo concreto de piano que se esté tocando. c)
vector base de la nota musical de piano LA1. Un nuevo algoritmo para detectar las notas que están
sonando en un determinado ataque. Este algoritmo ha dado
resultados correctos en un 95% de las notas y acordes
analizados. Además, se ha comprobado como el método de
detección es robusto frente al ruido que puede aparecer en
algunas grabaciones.
Figura 10. Vector base de la nota LA1.
A partir del vector se crea una matriz de comparación. Se REFERENCIAS
recorre el vector y se comparan los elementos, por ejemplo, [1] A. P. Klapuri, Multiple fundamental frequency estimation based on
para crear la primera fila se compara el primer elemento con harmonicity and spectral smoothness, IEEE Transactions on Speech
el primer elemento, después el primero con el segundo y así and Audio Processing, vol. 11, no. 6, pp. 804-816, November 2003.
sucesivamente. Para la segunda fila se compara el segundo [2] M. Marolt, A connectionist approach to automatic transcription of
polyphonic piano music, IEEE Transactions on Multimedia, vol. 6, no.
con todos los posteriores (los elementos anteriores están 3, pp. 439-449, June 2004.
evaluados en filas superiores). Al comparar elementos se [3] I. Barbancho, A. M. Barbancho, A. Jurado, L. J. Tardón, Transcription
toman márgenes de un 3% alrededor de la frecuencia base of piano recordings, Applied Acoustics, vol. 65, no. 12, pp. 1261-
que queremos comparar. Para indicar frecuencias parecidas 1287, December 2004.
[4] L. I. Ortiz-Berenguer, F. J. Casajús-Quirós, S. Torres-Guijarro, Multiple
se anota con un “1” lógico y para frecuencias distintas con
piano note identification using a spectral matching method with derived
un “0”. Así la matriz de comparación de la nota LA1 patterns, J. Audio Eng. Soc., vol. 53, no. 1/2, pp. 32-43, Jan/Feb 2005.
quedaría como se indica en la Figura 11. [5] Manual de instrucciones de micrófonos Neumann TLM 103 y TLM170,
2002.
[6] L. Ortiz, F. J. Casajús, Polyphonic transcription using piano modeling
for spectral pattern recognition, Conf. on Digital Audio Effects, 2002.