0% encontró este documento útil (0 votos)
132 vistas26 páginas

Módulo 4: Percepción del habla

Este documento describe la percepción del habla. Explica que la percepción del habla es un proceso complejo que implica que a partir de una serie de turbulencias en la laringe y las cuerdas vocales, se producen ideas o conceptos en el oyente. Señala que a diferencia del lenguaje escrito, en el habla no hay límites claros entre palabras en la señal acústica. También discute que los sonidos del habla (fonemas) no siempre se producen de la misma manera debido al fenómeno de la coarticul

Cargado por

Fiona Empez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
132 vistas26 páginas

Módulo 4: Percepción del habla

Este documento describe la percepción del habla. Explica que la percepción del habla es un proceso complejo que implica que a partir de una serie de turbulencias en la laringe y las cuerdas vocales, se producen ideas o conceptos en el oyente. Señala que a diferencia del lenguaje escrito, en el habla no hay límites claros entre palabras en la señal acústica. También discute que los sonidos del habla (fonemas) no siempre se producen de la misma manera debido al fenómeno de la coarticul

Cargado por

Fiona Empez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Percepción del

habla
PID_00262989

Ferran Pons

Tiempo mínimo de dedicación recomendado: 2 horas


© FUOC • PID_00262989 Percepción del habla

Ferran Pons

Ferran Pons es profesor lector en


el Departamento de Psicología Bá-
sica de la Universidad de Barcelo-
na, donde se doctoró en Psicolo-
gía Cognitiva el año 2004. El mis-
mo año realizó una estancia pos-
doctoral hasta el año 2006 en el
Infant Studies Centre a University
of British Columbia. Su investiga-
ción está centrada en el campo de
la percepción del habla en bebés.

Quinta edición: febrero 2019


© Ferran Pons
Todos los derechos reservados
© de esta edición, FUOC, 2019
Av. Tibidabo, 39-43, 08035 Barcelona
Diseño: Manel Andreu
Realización editorial: Oberta UOC Publishing, SL
Depósito legal: B-26.451-2018

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares de los derechos.
© FUOC • PID_00262989 Percepción del habla

Índice

Objetivos....................................................................................................... 5

1. Introducción: características generales y propiedades de


la señal del habla............................................................................... 7
1.1. El fenómeno de la coarticulación ............................................... 8
1.2. El problema de la segmentación y la falta de invariabilidad ...... 9

2. Descriptores: las unidades básicas del habla.............................. 10


2.1. Rasgos articulatorios (fonéticos) ................................................. 10
2.2. Segmentos vocálicos y consonánticos ........................................ 11

3. Procesos perceptivos.......................................................................... 13
3.1. Percepción categórica .................................................................. 13
3.2. Organización interna de las categorías vocálicas: El efecto
imán ............................................................................................. 15
3.3. Reorganización de las categorías consonánticas ......................... 17
3.4. Las unidades de la percepción del habla .................................... 18

4. La percepción del habla desde una perspectiva intermodal... 20


4.1. El efecto McGurk: una demostración clásica de la integración
audiovisual del habla .................................................................. 20
4.2. Los inicios de la integración audiovisual del habla .................... 21

5. Modelos teóricos................................................................................. 22
5.1. La teoría motriz ........................................................................... 22
5.2. Teorías auditivas .......................................................................... 23

Bibliografía................................................................................................. 25
© FUOC • PID_00262989 5 Percepción del habla

Objetivos

Los objetivos básicos que tiene que alcanzar el alumno son:

1. Aprender y comprender los conceptos y términos básicos correspondientes


a los procesos perceptivos implicados en la percepción del habla.

2. Aprender y comprender la especificidad de la señal del habla.

3. Saber identificar y ubicar los componentes y mecanismos de los procesos


perceptivos a partir de los modelos teóricos.

4. Familiarizarse con la investigación y el método científico a partir del en-


tendimiento de los diferentes experimentos que se explican sobre diferen-
tes procesos y fenómenos en percepción del habla.

5. Al mismo tiempo, razonar científicamente, entender el valor de los datos


empíricos y su relación con las explicaciones teóricas.
© FUOC • PID_00262989 7 Percepción del habla

1. Introducción: características generales y


propiedades de la señal del habla

La percepción del habla es un fenómeno fascinante y muy complejo al mismo


tiempo. El proceso de la percepción del habla implica que, a partir de una
serie de turbulencias generadas al expulsar el aire de los pulmones a través de
la laringe y el paso por las cuerdas vocales, se producen una serie de ideas o
conceptos en el oyente. En este módulo intentaremos dar una idea general
de cuáles son los problemas básicos y los procesos básicos que subyacen la
percepción del habla.

Cuando se piensa en el lenguaje puede que se piense tanto en el lenguaje oral


como en el lenguaje escrito.

El lenguaje escrito es una invención del ser humano, mientras que el


lenguaje oral (el habla) es una propiedad innata de éste.

La distinción entre lenguaje�oral y lenguaje�escrito no es crucial para el estu-


dio de determinados aspectos del lenguaje, como podría ser el procesamiento
de la sintaxis o el estudio del significado de las palabras. Aun así, para los pro-
blemas que trataremos a continuación es fundamental distinguir entre estos
dos tipos de lenguajes. La mayoría de nuestras interacciones se producen me-
diante el lenguaje oral; el aprendizaje del habla durante los primeros años de
vida se produce sin tener conocimiento de la escritura.

Una de las características principales que diferencia el lenguaje escrito


y el lenguaje oral es que en el primero se pueden observar límites en las
palabras (mediante los espacios en blanco).

No sería demasiado difícil para cualquier persona saber cuántas palabras hay
en una frase escrita, ya que se puede hacer contando el número de unidades
separadas por espacios; por ejemplo, en la frase de la figura 1: El perro ha estado
Figura�1
jugando con el niño, podríamos contar fácilmente el número de palabras que la Representación de la onda acústica
correspondiente a El perro ha estado jugando
con el niño
constituyen: ocho palabras. En la señal de habla, en cambio, no existe ningún
límite claro entre palabras: no hay silencios ni espacios�en�blanco que nos
permitan saber los límites de las palabras. La imagen de la figura 1 representa
la onda acústica correspondiente a la frase: El perro ha estado jugando con el niño.

Como podemos comprobar a simple vista, no es tan simple y obvio saber cuán-
tas palabras forman esta onda, lo que demuestra que no existe una correspon-
dencia entre los límites de las palabras y los fragmentos sin sonido en la señal
© FUOC • PID_00262989 8 Percepción del habla

del habla. Aun así, podemos identificar pausas o "espacios" en la onda acústica
de la figura 1; estas pausas se hacen normalmente para respirar o para plani-
ficar el contenido de lo que se está explicando, pero es importante tener en
cuenta que estos "espacios" no delimitan todas las palabras, de modo que el
habla se caracteriza como un continuo sonoro.

Además de esta diferencia general entre lenguaje oral y escrito, hay otras dife-
rencias muy importantes. Cabe tener presente que si la única diferencia entre
estos dos lenguajes fuera únicamente la descrita anteriormente, el lenguaje
oral sería equivalente al lenguaje escrito pero sin espacios en blanco. Así pues,
existen otras características importantes que difieren entre estos dos tipos de
lenguajes. Una de éstas es que, a diferencia de las letras del lenguaje escrito, en
el lenguaje oral los sonidos fundamentales que lo componen (que de momen-
to consideramos que son los fonemas) no se encuentran separados de forma
clara y nítida como sucede con las letras e incluso muchas veces un mismo
fonema no suena de la misma manera.

Ejemplo
En resumidas cuentas, cuando escuchamos el habla podemos percatar-
nos de que no existe una frontera o límite claro entre las palabras o in- Un claro ejemplo lo podemos
encontrar en las dificultades
cluso entre los sonidos que la conforman. que tenemos en percibir co-
rrectamente los sonidos o las
palabras de una lengua extran-
jera que desconocemos.
1.1. El fenómeno de la coarticulación

Como ya se ha comentado, los sonidos que conforman el habla (fonemas)


no siempre se producen de la misma manera. Observemos cómo ponemos la
lengua cuando pronunciamos las dos /n/ de las palabras cantar y canguro. La
posición de la lengua es completamente diferente en cada caso. Este hecho se
debe a que al pronunciar la /n/, "anticipamos" la posición del próximo fonema
que la sigue (/t/ y /g/ respectivamente). Tenemos que ser conscientes de que
este fenómeno sucede porque, mientras hablamos, los órganos encargados de
la producción del habla se mueven de manera continua y van pasando gra-
dualmente de una posición necesaria para producir un determinado sonido a
otra posición, que será la adecuada para producir el sonido que viene a conti-
nuación. Así pues, cuando hablamos coarticulamos los diferentes fonemas o
sonidos del habla. El fenómeno de la coarticulación tiene otra consecuencia
en la señal del habla: existe un solapamiento muy importante de los sonidos
del habla. La continuidad de los movimientos del trato vocal hace que en un
mismo momento haya simultáneamente información correspondiente a más
de una unidad lingüística.

Este fenómeno se ha descrito como la linealidad.


© FUOC • PID_00262989 9 Percepción del habla

1.2. El problema de la segmentación y la falta de invariabilidad

Con toda la información proporcionada hasta el momento, podemos ser cons-


cientes de que la tarea de segmentar el habla no es un cometido fácil: por una
parte, la dificultad se encuentra en el hecho de que no haya separaciones entre
las unidades lingüísticas que conforman el mensaje, y por otra, puede ser que
un mismo sonido se pronuncie de manera diferente.

El hecho de que los sonidos no siempre se produzcan de la misma manera es


lo que se conoce como variación�fonética. Los sonidos se pronunciarán de
manera diferente dependiendo de si se habla más rápido o más lentamente,
de si el sonido está acentuado o no, o de otros factores.

Desde un punto de vista acústico también puede observarse que las realizacio-
nes son diferentes en función de la voz: una voz de hombre, de mujer o de
niño dará como resultado diferencias notables en la producción de cada soni-
do. Este fenómeno se conoce como el problema�de�la�invariabilidad.

Así pues, dado que la información de cada segmento fonético está distribuida
en la señal y algunas veces se solapa e incluso se confunde con ésta, Chomsky y
Miller (1963) plantearon que los fonemas tenían que cumplir dos condiciones
formales importantes –para poder ser la base a partir de la cual se pudiera
construir una teoría fonológica–: la invariabilidad y la linealidad.

Condición de linealidad: para cada fonema tiene que existir una porción de
sonido en la producción y, de la misma manera en que el fonema /b/ precede
a /a/ en la sílaba /ba/ sin que exista solapamiento, en la banda sonora tampoco
tienen que producirse solapamientos entre la porción correspondiente a /b/ y
la correspondiente a /a/.

Condición de invariabilidad: para un determinado fonema tiene que existir


un conjunto de atributos acústicos específicos y críticos, o rasgos asociados en
todos los contextos.

En resumidas cuentas, algunos de los problemas a los que el organismo


se enfrenta para poder recuperar un mensaje a partir de una señal acús-
tica son principalmente dos: falta de invariabilidad y de segmentación
del estímulo sonoro: el estímulo no se presenta ni invariable ni apropia-
damente segmentado con respecto al mensaje lingüístico que se preten-
de recuperar. Aun así, para cualquier hablante, las palabras, las sílabas
o incluso los fonemas se perciben claramente separados, aun sabiendo
que físicamente no son iguales.
© FUOC • PID_00262989 10 Percepción del habla

2. Descriptores: las unidades básicas del habla

El habla puede definirse a partir de sus propiedades acústicas (frecuencia y


amplitud) y temporales (duración). Variaciones en cualquiera de estas dimen-
siones comportarán diferencias en el estímulo sonoro, que en algunos casos
podrían ser relevantes para la percepción del habla. La unidad mínima de so-
nido que sirve para distinguir significados ha sido definida como fonema. Para
reconocer los fonemas de una lengua tenemos que buscar en las palabras los
elementos específicos que al variar producen un cambio en el significado.

Por ejemplo, teniendo en cuenta las palabras, bala, sala, cala, y pala, podremos saber que
los sonidos que representan las letras iniciales, corresponden a fonemas del español.

2.1. Rasgos articulatorios (fonéticos)

Podemos considerar los fonemas como la unidad mínima de sonido


que permite distinguir significados o también podemos considerar los
fonemas como una agrupación o combinación de rasgos subfonémicos
que son relativamente independientes entre sí.

De esta manera, por ejemplo, el fonema /p/ estaría compuesto por los rasgos
siguientes: consonante, sorda, bilabial, oclusiva; mientras que el fonema /t/
quedaría compuesto por los rasgos: consonante, sorda, dental, oclusiva.

El hecho de considerar los rasgos�subfonémicos como unidades independien-


tes del habla tiene una serie de consecuencias.

• La primera es que algunas de las distinciones entre los sonidos tendrían


que ser las mismas.

Es decir, si /b/ y /p/ difieren sólo en sonoridad, de la misma manera que pasa con /t/
y /d/, las diferencias existentes entre /b/ y /p/ tendrían que ser iguales a las existentes
entre /t/ y /d/.

• La segunda es que si los rasgos subfonéticos funcionan como unidad, se


establecerían diferencias entre fonemas.

Por ejemplo, si /b/ y /p/ difieren en sonoridad y /b/ y /d/ en el punto de articulación,
mientras que /b/ y /t/ difieren en sonoridad y punto de articulación, entonces /b/ y /
t/ tendrían que ser más diferentes que /b/ y /p/ o que /b/ y /d/, ya que las separan dos
rasgos y no sólo uno.

• Finalmente, se supone la existencia de una jerarquía de rasgos que impli-


caría que algunas distinciones son más importantes que otras.
© FUOC • PID_00262989 11 Percepción del habla

Así pues, a pesar de que /b/ y /m/, y /b/ y /p/ se distinguen por un único rasgo (forma de
articulación en la primera y sonoridad en la segunda), ya que la forma de articulación es
más importante, /b/ y /m/ tendrían que ser más fáciles de discriminar que /b/ y /p/.

Jerarquía de rasgos

Varios tipos estudios han apoyado a la existencia de una jerarquía de rasgos. Uno de estos
tipos de estudios serían los estudios de semejanza fonética. Los estudios de semejanza
consisten en que el participante valore el parecido de diferentes fonemas en relación con
uno determinado. Por ejemplo, se les pide a los sujetos que ordenen según la semejanza
al fonema /p/ los fonemas /m/, /s/, /d/, /a/, /b/ y /r/. Los resultados que se obtienen in-
dican que el orden de semejanza que se establece con el fonema escogido está determi-
nado por el número de rasgos que tienen en común estos fonemas con el fonema que
se compara. La jerarquía de rasgos queda descrita de la siguiente manera: la distinción
más importante es la de vocal o consonante, a continuación encontramos la forma de
articulación, después la sonoridad y finalmente el punto de articulación. Es importante
remarcar que en este tipo de estudios no se observa la premisa de independencia de rasgos
subfonéticos, ya que se observa que los participantes perciben como más importantes o
destacadas las diferencias en el punto de articulación cuando se trata de oclusivas sordas
que cuando se trata de oclusivas sonoras.

2.2. Segmentos vocálicos y consonánticos

La distinción más importante entre los sonidos que forman el habla es la dis-
tinción�entre�consonante�y�vocal.

En general, las consonantes se caracterizan porque durante la expulsión


del aire, el conducto bucal impone una serie de restricciones, mientras
que las vocales se caracterizan por una salida relativamente libre del aire.

Las consonantes pueden describirse a través de tres dimensiones articulato-


rias:

• La forma�o�modo�de�articulación se refiere a la naturaleza de la restric-


ción; a la cantidad de aire que se deja pasar y a cómo sale al exterior. Según
esta dimensión, las consonantes se clasifican en oclusivas [b, d, g, p, t, k],
africadas [tS], fricativas [f, T, s, x, z], nasales [m, n], y líquidas [l, r, rr].
• La sonoridad se refiere a si las cuerdas vocales vibran o no mientras se
realiza el fonema en cuestión. El sonido /b/ es un sonido sonoro, mientras
que el sonido /p/ es un sonido sordo. Otros ejemplos serían las oclusivas
sonoras, /d/, /g/ y las oclusivas sordas, /t/, /k/.
• El punto�de�articulación se refiere al punto de la cavidad bucal donde se
produce la restricción en la salida del aire. Se puede producir en los labios
(bilabial), labiodental, dental, interdental, alveolar, palatal o velar.

Las vocales son todas sonoras porque el aire fluye sin restricciones. La forma de
articulación no es relevante, ya que no se produce ningún cierre que dificulte
la salida del aire. Para este tipo de sonidos, la localización�de�la�base�de�la
lengua (la parte más posterior, opuesta a la punta de la lengua) es crucial:

• El�desplazamiento�horizontal: si avanza (vocales anteriores, como la [i])


o retrocede (vocales posteriores, como la [u]).
© FUOC • PID_00262989 12 Percepción del habla

• La�posición�vertical�de�la�lengua: si se eleva (como las vocales [i] y [u]) o


desciende (como la vocal [a]). Un último rasgo es el redondeo de los labios
en el momento de la emisión ([u] y [o] son vocales redondeadas, mientras
que [i] y [e] no lo son).

Cada vocal se caracteriza por, al menos, tres frecuencias�formantes (F1, F2 y Bibliografía


F3, de más grave a más aguda). Es importante tener en cuenta que no todas
Para más información sobre
las realizaciones de las diferentes vocales tienen los mismos valores absolutos, las frecuencias formantes:
ya que éstos pueden cambiar en función de la voz (p. ej.: hombre o mujer). Gil, J. (1988). Los sonidos del
lenguaje. (pág. 148). Madrid:
Así pues, lo que determina cada vocal es el patrón espectral, o lo que es lo Síntesis.
mismo, la relación relativa de las frecuencias formantes (F1, F2, y F3) que la
conforman.

Formante

Zona de la escala de frecuencias en la que un sonido presenta una mayor concentración de


energía. También puede definirse como cada una de las resonancias del conducto vocal.
© FUOC • PID_00262989 13 Percepción del habla

3. Procesos perceptivos

3.1. Percepción categórica

A menudo, al percibir objetos o acontecimientos de nuestro entorno lo hace-


mos mediante categorías. Podemos identificar un objeto u otro basándonos
en la categoría a la que pertenece, pero normalmente las fronteras entre cate-
gorías no son abruptas. Si pensamos en los colores, somos capaces de deno-
minar o etiquetar los colores (rojo, verde, azul, etc.), pero estas categorías son
continuas; podemos percibir cambios cuantitativos en un color y mediante un
continuo pasar del color rojo al naranja sin haber podido ubicar una frontera
categórica inequívoca. En la percepción del habla este hecho cambia, ya que la
percepción de los fonemas se rige por un fenómeno denominado percepción
categórica.

Ejemplo
El fenómeno de la percepción categórica se refiere a la imposibilidad
de discriminar sonidos del habla mejor que identificarlos: resultará más Por ejemplo, diferenciar entre
dos sonidos de la consonan-
difícil, o incluso imposible, diferenciar sonidos que se hayan identifica- te /p/ nos resultará muy difícil,
mientras que identificar estos
do como pertenecientes a una misma categoría, aunque sean acústica- sonidos como /p/ será muy fá-
mente diferentes. En cambio, la identificación de estos sonidos como cil.

pertenecientes a una determinada categoría será una tarea muy sencilla.

La percepción categórica ha sido un fenómeno ampliamente estudiado en el


campo de la percepción del habla, ya que refleja la naturaleza de los sonidos
del habla y la forma específica en que los trata nuestro sistema perceptivo.

La habilidad para categorizar los sonidos del habla es un requisito esencial


para que el oyente pueda comprender el discurso. Para poder comprender el
lenguaje oral es necesario imponer una percepción categórica a la señal y no
simplemente una determinación relativa de varias características físicas de és-
te. La noción de percepción categórica surgió por primera vez en experimen-
tos diseñados al determinar cómo los hablantes clasificaban las consonantes
oclusivas (Liberman, 1957). A partir de estos resultados iniciales se empezó a
explorar más a fondo este fenómeno.

Para estudiar experimentalmente el fenómeno de la percepción categórica se crea un (1)


En inglès, voice onset time (VOT).
continuo de sonidos usando el habla sintetizada y variando gradualmente un determi-
nado parámetro. Por ejemplo, en un continuo /ba-pa/ se manipula el tiempo de inicio
de la vocalización (TIV)1. Este parámetro, definido como la relación entre el momento
de la expulsión del aire y la vibración de las cuerdas vocales, puede oscilar desde un va-
lor negativo (-150 ms aprox.) hasta un valor positivo (+150ms aprox.). Aunque el TIV
varía de manera continua, la percepción lo hace de manera abrupta. Existe un límite
invariable para cada lengua a partir del cual se modifica la percepción de un fonema en
concreto (deja de ser /ba/ y se percibe como /pa/) y muy raramente se percibe un sonido
intermedio entre dos fonemas. Así, si se pide a un oyente que categorice los sonidos de
© FUOC • PID_00262989 14 Percepción del habla

un continuo /ba-pa/, clasificará los sonidos con TIV negativo o positivo corto (< +10 ms)
como /ba/, mientras que los sonidos con un TIV positivo largo (> +10 ms) los clasificará
como /pa/. El punto del continuo donde cambia la identificación de un fonema por otro
se denomina límite o frontera categorial.

Figura 2

Resultados (hipotéticos) de una prueba de identificación que muestran la clasificación de los estímulos en
dos categorías. La frontera categorial se situaría entre el estímulo 4 y 5

Además de la tarea de identificación (categorización) de los estímulos, existe


una segunda tarea en percepción categórica que consiste en una tarea de dis-
criminación (tarea ABX).

La tarea ABX consiste en presentar al oyente tres estímulos, los dos primeros diferentes
y uno tercero que puede ser igual al primero o igual al segundo. Los participantes tienen
que decir cuál de los dos primeros estímulos es igual al tercero. La tarea es muy sencilla
cuando los dos primeros estímulos pertenecen a dos categorías fonéticas diferentes, pero
cuando los dos primeros estímulos pertenecen a una misma categoría fonética la tarea se
complica y se obtienen mayoritariamente respuestas al azar (véase la figura 3).

Figura 3

Resultados (hipotéticos) de una prueba de discriminación fonética (ABX). La frontera categorial se situaría
en los estimulos 4 y 5
© FUOC • PID_00262989 15 Percepción del habla

Hemos observado gracias a toda la evidencia experimental de los últimos 30


años que los fonemas, especialmente las consonantes, están organizados cate-
góricamente y que se rigen por el fenómeno de la percepción categórica. Así
pues, sabiendo cómo están organizados los fonemas, todavía podríamos pre-
guntarnos: ¿cómo se forman estas categorías fonéticas? ¿El�fenómeno�de�la
percepción�categórica�está�presente�ya�desde�los�primeros�meses�de�vida�o
se�adquiere�más�tarde�con�la�experiencia�con�la�lengua�materna?

Para responder a esta pregunta, Eimas�y�colaboradores�(1971) estudiaron el


fenómeno de la percepción categórica en bebés de edades comprendidas entre
1 y 4 meses. En el estudio observaron la discriminación de una serie de estí-
mulos del continuo /ba/-/pa/ que se obtenían modificando el tiempo de inicio
de la vocalización (TIV). Como ya se ha explicado, los adultos no son capaces
de percibir las diferencias en los TIV entre dos estímulos a no ser que las dos
sílabas que se comparan pertenezcan a dos categorías fonéticas diferentes, es
decir, que una sea la sílaba /ba/ y la otra la sílaba /pa/. Así pues, si se observara
que los bebés tienen el mismo patrón de discriminación, se tendría evidencia
de que perciben el continuo en dos categorías de la misma forma que lo hacen
los adultos.

Para explorar la respuesta de los bebés a estos estímulos fonéticos se usó la


técnica�de�succión�de�alta�amplitud o no nutritiva, basada en la preferencia
que muestran los bebés por los estímulos nuevos.

El procedimiento consiste en situar al bebé en una pequeña hamaca colocada delante


de unos altavoces y darle un chupete para succionar. Este chupete está conectado a un
ordenador y permite medir el número de succiones por minuto y su fuerza o amplitud.
Se establece un periodo llamado de habituación en el cual el bebé escucha repetidamente
un mismo estímulo hasta que la tasa de succión disminuye o se estabiliza, mostrando así
un "desinterés" por el estímulo. Luego se presenta un estímulo nuevo y se observa la tasa
de succión. Si el bebé percibe el estímulo como diferente, la tasa de succión aumenta.

Eimas y colaboradores (1971) presentaron a los bebés una serie de estímulos del conti-
nuo /ba/ y /pa/ que diferían en TIV en 20 ms. Se pusieron a prueba dos tipos de pares
de estímulos, el par de estímulos "iguales" que consistían en estímulos que diferían en
TIV de 20 ms pero que pertenecían a la misma categoría /ba/ o /pa/ (segundos resulta-
dos obtenidos con adultos), y los pares "diferentes" (D) que consistían en dos estímulos
que diferían en TIV de 20 ms y que además pertenecían a dos categorías diferentes. Los
resultados indicaron que los bebés aumentaban su tasa de succión únicamente cuando
los estímulos a comparar pertenecían a categorías fonéticas diferentes.

El efecto de la percepción categórica de los fonemas se observa ya en los


inicios de la vida del ser humano.

3.2. Organización interna de las categorías vocálicas: El efecto


imán

Una de las teorías más influyentes sobre los mecanismos implicados en la re-
organización perceptiva de los sonidos del habla fue desarrollada por Patricia
Kuhl�(2000). La teoría�del�imán�de�la�lengua�nativa (TILN) aborda, entre
otros aspectos, el periodo temprano de la percepción del habla (antes de que
© FUOC • PID_00262989 16 Percepción del habla

los bebés adquieran el significado de las palabras y la fonología contrastiva),


así como los cambios en las habilidades en la percepción del habla producidas
por la experiencia con la lengua.

La TILN está basada en la hipótesis del prototipo, que predice que no


todos los miembros de una categoría son percibidos como equivalentes,
ya que algunos miembros se perciben como mejores ejemplares de la
categoría que otros.

Si las categorías vocálicas están estructuradas inicialmente, la tipicidad del


ejemplar usado como referente para la categoría vocálica, afectará a la percep-
ción de los demás miembros de la categoría. Más concretamente, si el proto-
tipo es más representativo de una categoría, entonces los demás miembros de
Figura�4
la misma categoría se percibirán como más similares a éstos en comparación Efecto imán perceptivo. Los ejemplares
más próximos al prototipo se confunden
con un estímulo no prototípico. Así, se observó que los prototipos fonéticos con éste, se perciben como el prototipo
mismo
actúan de manera especial en la percepción del habla, ya que actúan como
"imanes perceptivos" para los demás sonidos de su misma categoría fonética.
Cuando escuchamos el prototipo de una categoría fonética y lo comparamos
con sonidos que lo rodean en el espacio acústico, nos resulta una tarea difícil,
ya que éste actúa como un imán, haciendo más difícil la discriminación entre
él y otros ejemplares próximos. En cambio, cuando percibimos un sonido no
prototípico y lo tenemos que comparar con alguno de los sonidos que lo ro-
dean, la discriminación es mucho más fácil.

Así pues, uno de los fenómenos que sustenta la TILN es el efecto imán per-
ceptivo. Se sugiere que inicialmente el sistema de representación auditivo está
dividido de manera tal que los bebés son capaces de distinguir cualquier dife-
rencia fonética relevante de cualquier lengua. Esta habilidad queda ilustrada
en un hipotético espacio vocálico basado en coordenadas de los dos primeros
formantes que definen las vocales (F1 y F2). Las divisiones iniciales de este
espacio vocálico separarían de forma perceptiva un amplio número de vocales
(figura siguiente, parte 1).
© FUOC • PID_00262989 17 Percepción del habla

Esta capacidad para percibir los sonidos vocálicos divididos en múltiples ca-
tegorías separadas por límites naturales estaría presente desde el nacimiento.
Aun así, durante el primer año de vida, y debido a la exposición al habla, el
espacio fisicoacústico de la lengua se va modificando. Se forman los prototi-
pos de las categorías fonéticas y éstos van contrayendo el espacio perceptivo,
atrayendo a los miembros de la categoría hacia ellos. Este fenómeno se ha de-
finido como efecto�imán�perceptivo. En consecuencia, existirá una pérdida
de discriminabilidad cerca de estos valores prototipos de la propia lengua. Así,
por ejemplo, el espacio vocálico a los 6 meses de edad queda modificado de
manera sorprendente. En tres ambientes lingüísticos diferentes, como inglés,
sueco y japonés, podemos observar una distribución vocálica totalmente dife-
rente (figura anterior, parte 2). Los bebés dispondrán ya de las representacio-
nes mentales de los sonidos del habla y habrán formado los mapas perceptivos
específicos de su lengua materna (figura anterior, parte 3) (Kuhl y colaborado-
res, 1992).

3.3. Reorganización de las categorías consonánticas

La observación hecha por Kuhl y colaboradores sobre la organización de las


vocales de la lengua materna durante el primer año de vida no es exclusiva de
los sonidos vocálicos, ya que también se ha observado un patrón similar en
las consonantes. Werker�y�Tees�(1984) exploraron la percepción de los soni-
dos consonánticos durante el primer año de vida. Realizaron un estudio para
explorar el curso temporal en la pérdida en la habilidad de discriminar soni-
dos consonánticos que no pertenecen a la lengua materna. Por eso exploraron
las habilidades discriminativas de bebés nacidos en entornos de habla inglesa,
© FUOC • PID_00262989 18 Percepción del habla

de edades comprendidas entre los 6-8, 8-10 y 10-12 meses, usando contras-
tes consonánticos de la lengua hindi (/Tu-tu/) y de la lengua salish (/k'i-q'i/).
Usando el procedimiento�de�giro�de�cabeza (en inglés: conditioned head-turn
paradigm) analizaron la capacidad de discriminación de los bebés ante estos
pares de contrastes consonánticos de lenguas no maternas.

Los resultados mostraron que los bebés de menor edad (de 6 a 8 meses) podían
discriminar ambos contrastes fonéticos no maternos con facilidad, mientras
que los bebés más mayores (de 10 a 12 meses) prácticamente no presentaban
esta habilidad discriminativa, tan sólo unos cuantos bebés eran capaces de
discriminar estos contrastes no maternos.

Los resultados de este estudio apoyan la hipótesis de que los bebés ini-
cialmente pueden discriminar cualquier contraste fonético de una len-
gua natural y que existe un declive en esta habilidad como consecuen-
cia de la exposición a la lengua materna.

El declive para discriminar sonidos consonánticos que no pertenecen a la len-


gua materna parece ser evidente hacia el final del primer año de vida.

3.4. Las unidades de la percepción del habla

Hasta este momento, la unidad que hemos tratado ha sido el fonema. Como
hemos dicho, no sería erróneo afirmar que el fonema es la unidad a partir de
la cual se forma el habla. Aun así, los segmentos que forman el habla no nece-
sariamente tienen que ser estas unidades fonéticas. ¿Las unidades que extrae-
mos al escuchar el habla son los rasgos acusticofonéticos explicados anterior-
mente o quizás serían los fonemas? Otra posibilidad que todavía no hemos
contemplado sería la unidad de la sílaba. En este apartado examinaremos las
unidades a las que accedemos al percibir el habla.

La importancia relativa de los fonemas y las sílabas en el momento de acce-


der al habla ha sido tema de debate en las últimas décadas. A primera vista,
parecería obvio presuponer que el orden lógico es identificar primero los fo-
nemas y posteriormente agruparlos en sílabas. Sin embargo, con todo lo que
se ha explicado hasta el momento sobre los fonemas (p. ej., fenómenos como
invariabilidad, linealidad, etc.), podríamos plantearnos que el proceso puede
ser incluso al contrario.

Un primer estudio de Liberman�y�colaboradores�(1974) exploró la capacidad


de niños de diferentes edades para manipular fonemas y sílabas. Observaron
que no tenían ningún problema en segmentar las palabras por sílabas, pero
que la segmentación por fonemas se producía a partir de los 6 años. Para com-
probar si ello se debía al papel del aprendizaje lector, Morais y colaboradores
(1979) realizaron el mismo estudio con adultos analfabetos y alfabetizados.
© FUOC • PID_00262989 19 Percepción del habla

Sus resultados mostraron que los adultos analfabetos podían segmentar en sí-
labas pero no en fonemas. Así pues, parece que la adquisición del concepto de
fonema se debía a la adquisición de un sistema de lectura determinado y no
debido al desarrollo normal del sistema lingüístico.

En otra serie de experimentos, utilizando la técnica de detección de sonidos,


Mehler y colaboradores (1981) observaron que sus participantes franceses eran
más rápidos al detectar segmentos cuando éstos coincidían con la sílaba que
cuando no coincidían (por ejemplo, mostraron tiempos de reacción más ba-
jos, es decir, fueron más rápidos, al detectar la sílaba /pa/ en palabras como
palace (palacio) que en palabras como palmier (palmera), mientras que el tiem-
po de detección fue inferior al detectar /pal/ en palmier que en palace). Los
resultados se interpretaron como que los participantes segmentaban la señal
de habla en unidades que correspondían a la sílaba. No obstante, este resul-
tado no se pudo replicar con participantes ingleses (Cutler y colaboradores,
1983). Éstos últimos mostraban tiempos equivalentes al detectar el segmento,
independientemente de que perteneciera o no a una sílaba. Se plantea que
los sujetos usan una estrategia de silabificación únicamente cuando su propia
lengua es fácilmente segmentable en sílabas (y éste no es el caso del inglés).
© FUOC • PID_00262989 20 Percepción del habla

4. La percepción del habla desde una perspectiva


intermodal

Hasta ahora hemos descrito y explicado la percepción del habla desde una
vertiente acústica. Es evidente, sin embargo, que el habla no es única y exclu-
sivamente acústica, sino que también hay otras modalidades que intervienen
en ella, como puede ser la modalidad�visual. Por ello la percepción del habla
tiene que explorarse también desde una perspectiva intermodal. De hecho, ha
quedado demostrado que los procesos de integración multisensorial del habla
desempeñan una función muy importante en la percepción del habla cara a
cara. Evidentemente, como ya hemos comentado, la señal auditiva por sí mis-
ma es suficientemente precisa y detallada para una muy buena comprensión
del habla (como se demuestra cuando usamos el teléfono o escuchamos la
radio). Parece ser que por esta razón las propiedades acústicas del habla han
constituido y constituyen el núcleo más importante de la investigación en
percepción del habla. Sin embargo, el hecho de poder ver los gestos�visuales
o�articulatorios del habla aporta una ventaja a la hora de percibir e interpre-
tarla. Varios estudios así lo demuestran.

Por ejemplo, Sumby�y�Pollack�(1954) demostraron que cuando se pierde parte


de la inteligibilidad de un mensaje verbal acústico añadiéndole ruido, la pre-
sentación concurrente de las correspondientes pistas visuales del habla, me-
jora la comprensión del habla espectacularmente, a un nivel equivalente a lo
que sería un incremento acústico de 15-20 decibelios. La información visual
del habla no sólo da pistas redundantes para fortalecer el estímulo auditivo,
sino que también ayuda a desambiguar algunos sonidos del habla que difieren
en modo de articulación pero que suenan muy similares. De la misma manera
Reisberg� y� colaboradores� (1987) demostraron que al escuchar un mensaje
perfectamente audible de una persona con un acento extranjero muy fuerte
o un mensaje con contenido semántico complicado, la presentación de la in-
formación visual ayudaba a su comprensión. Incluso se ha observado que a
la hora de percibir los fonemas de otras lenguas que se están aprendiendo, la
información visual del habla puede facilitar la percepción (Navarra y Soto-Fa-
raco, 2007).

4.1. El efecto McGurk: una demostración clásica de la


integración audiovisual del habla

La teoría motora (que se explica al final de este módulo), postula que existe
un vínculo entre la percepción y la producción del lenguaje: la información
sobre los gestos articulatorios es la base de la percepción del habla. Así pues,
© FUOC • PID_00262989 21 Percepción del habla

la información visual sobre la articulación tendría que integrarse con la infor-


mación auditiva. El efecto�McGurk (McGurk y MacDonald, 1976) demuestra
este fenómeno.

Para poder observar el fenómeno se pide a los participantes que transcriban los sonidos
que perciben. Existen tres condiciones experimentales: visual, en la que los participan-
tes ven a una persona produciendo las sílabas sin escuchar nada; auditiva, en la que los
participantes escuchan sílabas, pero no ven la cara de la persona y finalmente el audio-
visual, en la cual se escuchan las sílabas y se ve a la persona pronunciarlas. En la ultima
condición, en algunos casos la información visual no se corresponde con la información
auditiva (por ejemplo, se escucha /ba/ pero la cara gesticula la sílaba /ga/). Al existir un
vínculo entre la producción y la percepción del habla, lo que sucede es que nuestra per-
cepción se basa en la mezcla de la información visual y de la auditiva. Así pues, cuando la
sílaba que se presenta de forma auditiva no concuerda con la que estamos viendo visual-
mente, nuestro sistema las une, creando la percepción de una nueva sílaba, por lo que si
un individuo escucha la sílaba /ba/, y al mismo tiempo ve a la persona pronunciando la
sílaba /ga/, es muy probable que su percepción final sea la sílaba /da/.

4.2. Los inicios de la integración audiovisual del habla

Hemos podido observar que en la percepción del habla integramos la informa-


ción visual y auditiva. Varios resultados con participantes adultos así lo han
demostrado. Aun así, todavía nos quedaría por resolver la cuestión de si los
bebés ya son capaces de integrar la información auditiva y visual del habla
desde etapas tempranas o si por el contrario quizás esta correspondencia en-
tre el gesto visual y el sonido se aprende mucho más tarde. Aunque no existe
evidencia directa de que los bebés de pocos meses de vida puedan integrar la
información audiovisual del habla, algunos estudios demuestran que tienen
nociones sobre la correspondencia entre los movimientos articulatorios que se
producen en la cara y la información sonora o señal auditiva correspondiente.
Por ejemplo, Kuhl�y�Meltzoff�(1984) exploraron la capacidad de bebés de 4 a
5 meses para ver la correspondencia auditiva y visual de dos vocales del inglés.

El procedimiento implicaba dos fases; en una primera fase no se presentaba ningún so-
nido y los bebés veían de forma repetida dos caras, una al lado de la otra, cada una de las
cuales articulaba una vocal diferente. En la segunda fase se presentaban las mismas caras
articulando las vocales y al mismo tiempo una de las dos vocales se presentaba acústica-
mente. Los resultados demostraron que los bebés atendían durante más tiempo a la cara
que correspondía al sonido de la vocal presentada acústicamente. Estos resultados indi-
can que los bebés tienen un conocimiento implícito de la relación entre la información
visual y auditiva del habla.

Patterson y Werker (2003) observaron que incluso bebés de dos meses de edad
percibían la correspondencia entre los sonidos vocálicos y su correspondiente
gesto articulatorio, con lo que demostraron que el fenómeno de la integración
audiovisual de los sonido del habla en bebés es un fenómeno consolidado.
© FUOC • PID_00262989 22 Percepción del habla

5. Modelos teóricos

5.1. La teoría motriz

La teoría�motriz�de�la�percepción�del�habla�fue postulada a finales de los


años�sesenta por Liberman�y�sus�colaboradores en los Laboratorios Haskins
de Estados Unidos. Propusieron que la percepción del habla no se realizaba
directamente a partir de la señal acústica, sino a partir de la producción (arti-
culación).

La percepción del habla es posible porque tenemos un mecanismo es-


pecial para ello totalmente diferente del mecanismo general de la per-
cepción auditiva.

Tres premisas o supuestos básicos sustentan esta teoría:

• La primera es que la percepción del habla está basada�en�la�producción


o�articulación. El ser capaces de producir el habla indica que conocemos
de forma implícita cómo se producen los sonidos y cómo, por ejemplo,
la coarticulación complica la correspondencia entre lo que un hablante
quiere decir y la forma final que adquiere. Así pues, hay un nexo insepa-
rable entre el sistema responsable de percibir el habla y el de producirlo.

• La segunda premisa es que se supone que la percepción del habla es especí-


fica�de�la�especie�humana. Este segundo supuesto se deriva directamente
del primero, ya que el ser humano es el único ser que habla y, por tanto,
el único que tiene conocimiento sobre cómo se habla. Por consiguiente,
si la percepción del habla se basa en el conocimiento de la articulación de
los fonemas, únicamente los humanos podrán percibir el habla de forma
estructurada.

• Finalmente, se defiende que la percepción�del�habla�es�innata. El sistema


especializado en la percepción y la producción del habla forma parte de
nuestro patrimonio genético. A nivel anatómico se realiza por áreas espe-
cíficas del cerebro (áreas del hemisferio izquierdo). Así pues, se supone que
este conocimiento del habla ya está operativo durante la primera infancia.

Se han observado varios fenómenos en percepción del habla a favor de la teoría


motora, entre ellos, los más importantes, y ya explicados anteriormente, son
el efecto McGurk y la percepción categórica del habla.
© FUOC • PID_00262989 23 Percepción del habla

5.2. Teorías auditivas

A diferencia de la teoría motriz, las teorías auditivas se basan en el papel cru-


cial de los mecanismos perceptivos, restando importancia a la producción o
articulación del habla.

El modelo�de�percepción�de�lógica�difusa (Fuzzy Logical Model of Perception)


de Massaro� y� colaboradores se basa en la extracción de indicios acústicos,
remarcando la importancia de las diferentes fuentes de información, concre-
tamente de la relación entre la visión y la descodificación auditiva. Su base
metodológica se centra en la percepción bimodal (como en el efecto McGurk
previamente explicado).

En este modelo se propone que las personas recuerdan los prototipos de


los fonemas (consistentes en los rasgos acústico-fonéticos que caracte-
rizan cada fonema) y, al percibir el habla, hacen una estimación o com-
paración del sonido que están escuchando con los prototipos almace-
nados en la memoria.

Para determinar el grado de adecuación de lo que están percibiendo con el


prototipo, las personas usan la combinación de los diferentes inputs (auditivos
y visuales). Si una de las fuentes de información fuera ambigua, la otra tomaría
un papel predominante sobre la decisión de la naturaleza del estímulo.

Por otra parte, el modelo�Lexical�Access�from�Spectra (LAFS), de Klatt propo-


ne que el individuo no segmenta la señal del habla en fonemas, sino que a
partir del flujo sonoro genera directamente un "candidato" a palabra.

El individuo tiene almacenado en memoria difonemas, combinaciones


de dos sonidos (secuencias de vocal y consonante o consonante y vocal),
que se comparan directamente con el estímulo lingüístico que llega en
forma de señal sonora.
© FUOC • PID_00262989 25 Percepción del habla

Bibliografía
Bibliografía básica

De Vega, M. y Cuetos, F. (1999). Psicolingüística del Español. Madrid: Trotta.

Coren, S., Ward, L. M., y Enns, J. T. (2001). Sensación y Percepción (5.ª ed.) (pp. 369-392).
México, D.F.: Mc Graw Hill.

Pisoni, D. B. y Remez, R. E. (2005). The handbook of speech perception. Blackwell Publishing


Ltd, Oxford, UK.

Goldinger, S. D., Pisoni, D. B., y Luce, P. (1996). Speech perception and spoken word recogni-
tion: Research and theory. En N. Lass (Ed.), Principles of Experimental Phonetics, (pp. 277-327).
Mosby St. Louis.

Referencias bibliográficas

Cutler, A., Mehler, J., Norris, D., y Segui, J. (1983). A language-specific comprehension stra-
tegy. Nature, 304, 159-160.

Eimas, P. D., Siqueland, E. D., Jusczyk, P. W., y Vigorito, J. (1971). Speech perception in in-
fants. Science, 171, 303-306.

Chomsky, N. y Miller, G. A. (1963). Introduction to the formal analysis of natural languages. En


Luce, R. D., Bush, R. R. y Galanter, E. (Eds.), Handbook of Mathematical Psychology, vol. 2.
Wiley, New York, (pp. 269-321).

Kuhl, P. K. (2000). Language, mind, and brain: Experience alters perception. En M. S. Gazza-
niga (Ed.), The new cognitive neurosciences (2.ª ed.) (pp. 99-115). Cambridge, MA: MIT Press.

Kuhl, P. K., Williams, K. A., Lacerda, F., Stevens, K. N., y Lindblom, B. (1992). Linguistic
experience alters phonetic perception in infants six months of age. Science, 255, 606-608.

Liberman, A. M. (1957). Some results of research on speech perception. Journal of the Acous-
tical Society of America, 29, 117-123.

Liberman, I. Y., Shankweiler, D., Fischer, F. W., y Carter, B. (1974). Reading and the awareness
of linguistic segments. Journal of Experimental Child Psychology, 18, 201-212.

McGurk, H. y MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.

Mehler, J., Dommergues, J. Y., Frauenfelder, U., y Segui, J. (1981). The syllable's role in speech
segmentation. Journal of Verbal Learning and Verbal Behavior, 20, 298-305.

Kuhl, P. K. y Meltzoff, A. N. (1984). The intermodal representation of speech in infants. Infant


Behavior and Development, 7, 361-381.

Morais, J., Bertelson, P., Cary, L., y Alegria, J. (1986). Literacy training and speech segmenta-
tion. Cognition, 7, 323-331.

Patterson, M. L. y Werker, J. F. (2003). Two-month old infants match phonetic information


in lips and voice. Developmental Science, 6, 193-198.

Reisberg, D., McLean, J., y Goldfield, A. (1987). Easy to hear but hard to understand: a lip-
reading advantage with intact auditory stimuli. En Dodd, B. y Campbell, R. (Eds.), Hearing
by eye: the psychology of lip-reading Hillsdale, NJ: Lawrence Erlbaum Associates.

Sumby, W. H. y Pollack, I. (1954). Visual contribution to speech intelligibility in noise. Journal


of the Acoustical Society of America, 26, 212-215.

Werker, J. F. y Tees, R. C. (1984). Cross-language speech perception: Evidence for perceptual


reorganization during the first year of life. Infant Behavior and Development, 7, 49-63.

También podría gustarte