Aprendizaje y Conducta en Domjan
Aprendizaje y Conducta en Domjan
TEMA 1 (pág.2-4).
1. Introducción
Los modelos conductuales del condicionamiento y el aprendizaje también son esenciales para la
comprensión de problemas clínicos recalcitrantes como los temores patológicos, las fobias y la
dependencia de las drogas.
Modelo animal y robótico: Los ingenieros en robótica consideran que la capacidad para recordar y
aprender de la experiencia es una característica importante de los sistemas inteligentes artificiales. A
menudo se utilizan mecanismos asociativos en los sistemas de inteligencia artificial para permitir
que la respuesta de dichos sistemas sea modificada por la experiencia.
3. La definición de aprendizaje
Cada vez que vemos evidencia de aprendizaje, vemos la aparición de un cambio en la conducta: el
desempeño de una nueva respuesta o la supresión de una respuesta que ocurría previamente. Los
cambios en la conducta son la única forma de saber si ha ocurrido o no el aprendizaje.
Varios mecanismos producen cambios conductuales que son efímeros (duran un cierto tiempo) para
considerarlos como casos de aprendizaje.
-Uno de esos procesos es la fatiga. El esfuerzo físico puede producir una disminución gradual en la
fuerza de una respuesta debido a que el individuo se cansa. Este cambio es producido por la
experiencia, pero no se considera un caso de aprendizaje porque el deterior de la respuesta
desaparece si se permite que el individuo descanse por un rato.
-La conducta también puede ser modificada temporalmente por un cambio en las condiciones del
estímulo. Ejemplo: Si las luces de un cine se encienden de repente, es probable que las conductas de
los asistentes cambien de manera notable. Aun así, esto no es un caso de aprendizaje porque es
probable que los espectadores regresen a ver la película en cuanto vuelvan a apagarse las luces.
-Otros cambios conductuales de corto plazo que no se consideran aprendizaje implican alteraciones
en el estado fisiológico o motivacional del organismo. (Ejemplos: hambre y la sed, las variaciones de
las hormonas sexuales, dogas psicoactivas…)
En algunos casos ocurren cambios persistentes en la conducta, pero sin la experiencia previa
necesaria como es el caso de la maduración. Ejemplo: El niño no tiene que ser entrenado para
alcanzar lugares altos a medida que se hace más alto. También puede producir la desaparición de
ciertas respuestas (algunos reflejos desaparecen). La distinción entre aprendizaje y maduración se
basa en la importancia de las experiencias especiales para producir el cambio conductual de interés.
La distinción es poco clara en los casos en que se requiere la estimulación del ambiente para el
desarrollo madurativo. Ejemplo: La aparición de la conducta sexual en la pubertad también depende
de la experiencia del desarrollo (la conducta sexual exitosa requiere que te tenga experiencia con
compañeros de juego antes de la pubertad).
Al ser humano le ha interesado siempre comprender la conducta, sea la propia o la ajena. Muchos
aspectos del comportamiento de los seres humanos y de los animales no humanos son resultado del
aprendizaje. El aprendizaje es uno de los procesos biológicos que facilitan la adaptación al ambiente.
La integridad de la vida depende de la realización exitosa de diversas funciones biológicas como la
respiración, la digestión y la resistencia contra la enfermedad. Los sistemas fisiológicos
evolucionaron para cumplir dichas tareas. Sin embargo, en muchas especies, los procesos
fisiológicos no abarcan todas las funciones adaptativas que se requieren, e incluso las que son
bastante eficientes son mejoradas por el aprendizaje. Por ejemplo, la reproducción, que es
fundamental para la supervivencia de una especie, es mejorada de manera considerable por el
aprendizaje. Los animales, incluyendo a las personas, tienen que aprender a encontrar nuevas fuentes
de comida cuando las anteriores se vuelven inaccesibles o cuando se mudan a un área nueva. El
aprendizaje de esos ajustes al ambiente es tan importante como los procesos fisiológicos de la
respiración y la digestión. Frecuentemente se piensa que el aprendizaje implica la adquisición de
nuevas conductas. Sin embargo, el aprendizaje también puede implicar la disminución o pérdida de
una respuesta que antes era común. Por ejemplo, un niño puede aprender a no cruzar la calle cuando
el semáforo está en rojo, a no tomar comida del plato de otra persona y a no gritar cuando alguien
trata de dormir la siesta. Aprender a no realizar ciertas respuestas es tan importante como aprender a
realizarlas. Esas formas de aprendizaje son estudiadas en los experimentos que abarcan diversos
procedimientos de condicionamiento o “entrenamiento”. Sin embargo, esas formas de aprendizaje se
presentan en la vida de animales humanos y no humanos sin instrucción explícita u organizada. No
obstante, los psicólogos sociales que han hecho un examen empírico de esos temas llegaron a la
conclusión de que muchos aspectos importantes de la conducta humana ocurren sin conciencia. Por
ejemplo “la mayor parte de la vida cotidiana de una persona no está determinada por sus propósitos
conscientes y sus elecciones deliberadas, sino por procesos mentales que son puestos en movimiento
por características del ambiente y que operan fuera de la supervisión y orientación de la conciencia ”
Los procesos conductuales básicos siguen siendo importantes en la vida de los organismos, incluso
al aprender más acerca de otros aspectos de la psicología. Los animales interactúan con su entorno
por medio de sus acciones. Por consiguiente, los fenómenos conductuales proporcionan la regla de
referencia para evaluar la importancia funcional de los mecanismos neurales. Los modelos
conductuales del condicionamiento y el aprendizaje también son esenciales para la comprensión de
problemas clínicos recalcitrantes como los temores patológicos y las fobias.
¿La conducta es totalmente flexible o está sujeta a restricciones impuestas por la historia genética del
organismo?
La conducta no es del todo flexible para moverla en cualquier dirección en que pueda empujarla un
entrenador. Los organismos nacen más bien con sistemas y tendencias conductuales preexistentes
que establecen límites a la forma en que ocurre el aprendizaje y el impacto que puede tener. La
posición innatista sobre el aprendizaje tiene más éxito si toma en consideración las estructuras
conductuales preexistentes del organismo.
La posición innatista sobre el aprendizaje fue descrita por Rachlin utilizando una analogía: comparó
el aprendizaje con esculpir una estatua de madera. El proceso tiene sus limitaciones ya que el
escultor debe tener en cuenta la dirección y densidad de las vetas y nudos de la madera. El
aprendizaje tiene más éxito si toma en consideración las estructuras conductuales preexistentes del
organismo.
Todos los animales, reaccionan a los acontecimientos de su entorno. Esos y otros ejemplos similares
ilustran que buena parte de la conducta ocurre en respuesta a estímulos, es decir, es provocada.
1.1 El concepto de reflejo: Un reflejo involucra dos eventos cercanamente relacionados: un estímulo
provocador y una respuesta correspondiente, los cuales están, además, conectados. La presentación
del estímulo es seguida por la respuesta y es raro que ésta ocurra en ausencia del estímulo . Por
ejemplo, el polvo en los conductos nasales provoca estornudos, que no ocurren en ausencia de la
irritación nasal. La especificidad de la relación entre un estímulo y su respuesta refleja acompañante
es una consecuencia de la organización del sistema nervioso. Los reflejos simples por lo general son
mediados por tres neuronas. El estímulo ambiental de un reflejo activa una neurona sensorial
(llamada también neurona aferente) que transmite el mensaje sensorial a la médula espinal. De aquí,
los impulsos neurales son transmitidos a la neurona motora (llamada también neurona eferente) que
activa los músculos involucrados en la respuesta refleja. Sin embargo, no es común que las neuronas
sensorial y motora se comuniquen de manera directa; más bien, los impulsos de una hacia la otra son
transmitidos al menos por una interneurona. Los circuitos neurales aseguran que determinadas
neuronas sensoriales se conecten con el conjunto correspondiente de neuronas motoras. Debido a
este “cableado” restringido, una respuesta refleja particular sólo es provocada por un conjunto
limitado de estímulos. La neurona aferente, la interneurona y la neurona eferente forman, en
conjunto, el arco reflejo.
1.2 Patrones de acción modal: Las secuencias de respuesta (como las involucradas en la
alimentación de las crías) que son típicas de una especie particular se conocen como patrones de
acción modal (PAM). Una característica importante de los patrones de acción modal es que varía el
umbral para provocar dichas actividades. El mismo estímulo puede tener efectos muy diferentes
dependiendo del estado fisiológico del animal y de sus acciones recientes. Se referían a los patrones
de acción específicos de la especie como patrones de acción fija para destacar el hecho de que las
actividades ocurrían de la misma forma en todos los miembros de la especie. Sin embargo,
observaciones detalladas posteriores indicaron que los patrones de acción no se realizan cada vez de
la misma forma exacta. No son estrictamente “fijos” y debido a esa variabilidad se prefiere ahora el
término patrón de acción modal.
Estímulos provocadores de los patrones de acción modal (PAM): En el caso del PAM resulta más
difícil aislar al estímulo responsable si la respuesta ocurre en el curso de interacciones sociales
complejas. Las características específicas que se encontraron y que eran necesarias para provocar la
conducta de picoteo se denominan, en conjunto, estímulo signo o estímulo liberador de dicha
conducta. Una vez que se ha identificado un estímulo signo, puede exagerarse para provocar una
respuesta especialmente vigorosa. A ese estímulo signo exagerado se le llama estímulo supranormal.
Por consiguiente, los eventos traumáticos han llegado a provocar mayores patrones de acción modal
defensiva. Los primeros componentes del patrón de acción defensiva incluyen el reflejo de parpadeo
y la respuesta de sobresalto. Los estímulos signo y los estímulos supranormales tienen una función
importante en la conducta social y sexual.
Toda conducta motivada, ya sea buscar comida, encontrar una pareja potencial, defender territorio o
alimentar crías, implica secuencias de acción organizadas de manera sistemática. Los primeros
componentes de la secuencia conductual se llamaron conducta apetitiva y conducta consumatoria a
los componentes finales (consumatorio = finalización secuencia de respuestas). Estas secuencias
permiten poner al organismo en contacto con los estímulos que liberaran la conducta consumatoria.
Las respuestas consumatorias son conductas típicas de la especie altamente estereotipadas que son
provocadas o liberadas por estímulos físicos. En cambio, las conductas apetitivas son menos
estereotipadas y pueden adoptar diferentes formas dependiendo de la situación (Ejemplo: Para llegar
a un nogal, una ardilla puede subir por un lado u otro o saltar desde un árbol vecino. Todas esas son
respuestas apetitivas posibles. Sin embargo, cuando la ardilla se va a comer la nuez, las respuestas de
masticación y deglución son bastante estereotipadas.)
Las respuestas consumatorias suelen ser patrones de acción modal típicos de la especie. En contraste,
las conductas apetitivas son más variables y más propensas a ser moldeadas por el aprendizaje.
Búsqueda general: Cuando el sujeto no sabe todavía dónde buscar la comida. Búsqueda
focalizada: Considerable especificidad espacial. Conduce a la manipulación e ingestión de la comida
(conducta consumatoria).
TEMA 3: (pág.40-56).
Según el mecanismo reflejo que propuso Descartes, cada presentación del estímulo provocador
producirá la misma reacción refleja porque la energía del estímulo se transfiere a la respuesta motora
por medio de una conexión física directa. La conducta provocada no es invariable (a causa de la
plasticidad). Por tanto varía. Ni siquiera las respuestas provocadas simples ocurren de la misma
manera en cada ocasión. Es común que ocurran alteraciones en su naturaleza como resultado de la
presentación repetida del estímulo provocador.
La atención visual provocada por un estímulo novedoso cambia a medida que los bebés se
familiarizan con dicho estímulo. Con estímulos más complejos ocurre una sensibilización pasajera
seguida de habituación. Por lo tanto, que se observe o no sensibilización depende de la complejidad
del estímulo. Al irse familiarizando con el estímulo disminuía el interés mostrado por los bebés.
Las personas son expertas en el reconocimiento y recuerdo de rostros, pero discriminan mejor entre
caras de su raza que entre las de individuos de una raza diferente. Efecto de la otra raza. El efecto de
raza ocurre en bebés de incluso 3 meses y medio de edad.
Ejemplo: ¿Cómo reaccionamos cuando alguien camina detrás de nosotros y nos toca el hombro? Si
estamos en un supermercado, nos sobresaltaremos poco. Pero si esto ocurre de noche en un callejón
oscuro, tendremos una reacción mucho más enérgica. Si ya estamos activados, el mismo estímulo
provocador disparará una reacción mucho más fuerte. Efecto de sensibilización. Las respuestas
reflejas se sensibilizan cuando el sujeto es activado por alguna razón. La activación intensifica
nuestras experiencias, sean agradables o desagradables. En términos generales, si ya estamos
activados, el mismo estímulo provocador disparará una reacción mucho más fuerte, lo cual se conoce
como efecto de sensibilización.
La teoría dominante de la habituación y la sensibilización sigue siendo la teoría del proceso dual de
Groves y Thompson (1970). La teoría del proceso dual supone que diferentes tipos de procesos
neurales subyacentes son responsables de los incrementos y las disminuciones en la respuesta a la
estimulación. Un proceso neural, llamado proceso habituación, produce disminuciones en la
respuesta; mientras que otro proceso, llamado proceso de sensibilización, produce incrementos en la
respuesta. Los procesos de habituación y sensibilización no sólo no son mutuamente excluyentes
sino que pueden ser activados al mismo tiempo. El resultado conductual de esos procesos
subyacentes depende de cuál sea más fuerte. Por consiguiente, los procesos de habituación y
sensibilización compiten por el control de la conducta. Los procesos subyacentes que suprimen o
facilitan la respuesta desafortunadamente son llamados habituación y sensibilización. Ambos efectos
(habituación y sensibilización) son la suma o resultado neto de ambos procesos de habituación y
sensibilización.
Los efectos se refieren a la conducta observable y los procesos se refieren a los mecanismos
subyacentes.
Se supone que los procesos de habituación ocurren en lo que se llama el sistema E-R. Este
sistema consiste en la vía neural más corta que conecta a los órganos sensoriales activados por el
estímulo provocador con los músculos involucrados en la realización de la respuesta provocada.
El sistema E-R puede ser visto como el arco reflejo. Cada presentación de un estímulo
provocador activa el sistema E-R y ocasiona la acumulación de la habituación.
Se supone que los procesos de sensibilización ocurren en lo que se denomina el sistema de
estado. Este sistema está conformado por otras partes del sistema nervioso que determinan el
nivel general de disposición a responder. El sistema de estado sólo es accionado por eventos
activadores; por ejemplo, este sistema permanece relativamente inactivo durante el sueño. Los
fármacos (como los estimulantes o los depresivos) pueden alterar el funcionamiento del sistema
de estado y por ende cambiar la tendencia a responder. El sistema de estado también es afectado
por las experiencias emociales y determina la disposición general del organismo a responder,
mientras que el sistema E-R permite al animal dar la respuesta específica que es provocada por
el estímulo de interés.
El nivel de respuesta que provoca un estímulo particular depende de las acciones combinadas de los
sistemas E-R y de estado.
Dado que la habituación está en el circuito E-R, la teoría del proceso dual predice que la habituación
será específica al estímulo. Si luego del entrenamiento de habituación se cambia el estímulo
provocador, el nuevo estímulo provocará una respuesta no habituada, pues activa un circuito E-R
diferente.
Otra característica común de las reacciones emocionales es que cambian con la experiencia. La
reacción primaria se vuelve más débil y la reacción posterior se vuelve más fuerte.
La habituación de la reacción primaria de una droga se conoce como tolerancia a la droga. Esta
tolerancia se refiere a una disminución en la efectividad de la droga con repetición de las
exposiciones. Solomon y Corbit advirtieron que con otros estímulos activadores de emoción ocurrían
patrones similares de reacción emocional (Ejemplo: El amor y el apego. Los recién casados suelen
sentir gran emoción el uno por el otro y se muestran muy afectuosos cuando están juntos. A medida
que pasan los años esta reacción emocional primaria se habitúa. Sin embargo, esta habituación es
acompañada por un fortalecimiento del posefecto afectivo. Las parejas que han estado juntas durante
muchos años sufren un dolor más intensos si son separadas por la muerte o la enfermedad).
La teoría del proceso oponente asume que los mecanismos neurofisiológicos involucrados en la
conducta emocional permiten mantener la estabilidad emocional, teoría homeostática.
La teoría supone que el estímulo activador de una emoción aleja de la neutralidad el estado
emocional de la persona. Este alejamiento de la neutralidad emocional desencadena un proceso
oponente que compensa el cambio.
La teoría del proceso oponente sugiere que la dependencia a las drogas es principalmente un intento
por reducir la aversión de la reacción afectiva posterior a las drogas, como las malas resacas, el
“bajón” de las anfetaminas y la irritabilidad que resulta y la irritabilidad que resulta de no fumar el
cigarrillo habitual.
TEMA 4 (pág.68-71)
-Snarskii extendió esas observaciones a sustancias artificiales. En un experimento, dio a sus perros
primero un líquido ácido (por ejemplo, jugo fuerte de limón) coloreado artificialmente de negro.
Luego de varios encuentros con el líquido ácido negro, los perros salivaban también ante el agua
simple negra o ante la visión de una botella que contenía un líquido negro.
Los estímulos que van a asociarse deben tratarse de manera independiente uno del otro, lo cual
resulta difícil cuando los dos estímulos son propiedades del mismo objeto. Pavlov empleó
procedimientos en que los estímulos a asociar provenían de diferentes fuentes.
El tono o la luz eran el estímulo condicional (EC), ya que su efectividad para provocar la salivación
dependía de que fuera emparejado varias veces con la presentación de la comida. En contraste,
Pavlov llamó estímulo incondicional (EI) a la comida o el sabor ácido porque su efectividad para
provocar la salivación no dependía de ningún entrenamiento previo. La salivación que a la larga
llegaba a ser provocada por el tono o la luz se llamó respuesta condicional (RC) y la que siempre era
provocada por la comida o el sabor ácido se denominó respuesta incondicional (RI).
Aunque la extinción produce efectos conductuales y emocionales importantes, no revierte los efectos
de la adquisición. La evidencia de que la extinción no borra lo que se aprendió, en principio ha sido
obtenida por medio de diversos procedimientos diferentes.
Descubierta en un principio por Pavlov. La extinción, por lo general, produce una disminución en la
conducta condicionada, pero este efecto se disipa con el tiempo. Si se introduce un periodo de
descanso después del entrenamiento de extinción, se observa la recuperación de la respuesta. Es
similar a la de la habituación, ya que también es producida por la introducción de un periodo de
descanso.
¿A qué se debe que la adquisición original se vea menos afectada (en caso de que lo sea) por un
cambio de contexto cuando el desempeño en extinción es altamente específico al contexto? Un
estímulo condicionado que ha sido sometido a condicionamiento excitatorio y luego a extinción
tiene un significado ambiguo, ya que podría significar que está a punto de ocurrir una descarga
(adquisición) o que no ocurrirá la descarga (extinción). Esta ambigüedad permite que el EC quede
más fácilmente bajo control de contexto. Después del entrenamiento de adquisición el EC no es
ambiguo, pues sólo significa una cosa (que la descarga va a ocurrir). Por lo tanto, el estímulo
condicionado no es susceptible al control contextual.
El papel del contexto es restar ambigüedad al significado de un estímulo que tiene una historia
mezclada de condicionamiento y extinción. El contexto tiene relativamente poco efecto sobre los
estímulos que no tiene una historia de extinción. El condicionamiento del contexto facilita el efecto
de restablecimiento.
4. Optimización de la extinción
¿Es posible incrementar el impacto de la extinción para que los procedimientos resulten más
eficaces? Existen algunas señales que sugieren formas en que podría mejorarse la terapia por
exposición.
La evidencia acumulada de que la extinción no borra gran parte de lo que se aprendió originalmente
es una mala noticia para distintas formas de terapia por exposición cuya meta es eliminar el temor
patológico, las fobias y los malos hábitos.
Otra forma de incrementar los efectos de la extinción es llevar a cabo los ensayos de extinción
cercanos en el tiempo (masivos) en lugar de hacerlo de manera extendida (espaciados). Parece claro
que los ensayos masivos producen un decremento más rápido de la respuesta dentro de una sesión.
Sin embargo, en ocasiones se trata sólo de un efecto temporal en el desempeño y hay una
recuperación considerable de la respuesta entre sesiones.
Otro método para incrementar el impacto de los procedimientos de extinción consiste en encontrar la
manera de reducir la recuperación espontánea. Una forma de reducirla considerablemente es repetir
los periodos de descanso y prueba, con la repetición de esos ciclos la recuperación es cada vez
menor.
Otro factor que influye en el grado de RE es el intervalo entre el entrenamiento inicial y la extinción.
En los experimentos realizados si la extinción se realizaba justo después de la adquisición, los
efectos de la extinción en el condicionamiento de temor eran permanentes. Es evidente que la
realización de la extinción en varios contextos diferentes ayuda a incrementar la generalización del
estímulo del desempeño en extinción, así como a reducir la renovación cuando los sujetos son
sacados del contexto de extinción, aun cuando no siempre se observa este resultado, por lo que ésta
es otra área que requerirá de investigación adicional para ser resuelta
Esta recuperación problemática de la respuesta extinguida puede ser atenuada realizando la extinción
en varios contextos diferentes. Ayuda a incrementar la generalización del estímulo del desempeño en
extinción y a reducir la renovación cuando los sujetos son sacados del contexto de extinción, aun
cuando no siempre se observa ese resultado.
1. Situaciones experimentales:
Watson y Rayner creían en un principio que la reactividad emocional de los infantes, era limitada,
por lo que suponían que habría algún método por el cual aumenta la diversidad de estímulos que
provocan esas emociones y sus componentes. Ese método fue el condicionamiento pavloviano. En el
experimento de “El pequeño Albert”, Watson y Rainet condicionaron una respuesta de miedo a un
bebé.
Procedimiento de la supresión del lengüeteo: las ratas son sometidas a una ligera privación de
líquido y, por tanto, están más dispuesta a lengüetear del bebedero. Si se presenta un EC temido
se suprime la conducta de lengüeteo y les lleva más tiempo dar un número específico de
lengüetazos. La latencia para completar cierto número de lengüetazos se utiliza como indicador
conductual del temor condicionado.
Procedimiento de respuesta emocional condicionada (REC): Las ratas son entrenadas para
presionar una palanca para obtener una recompensa alimenticia. A medida que éstas adquieren
el temor condicionado, llegar a suprimir la presión de la palanca durante EC. Para medir la
supresión de la presión de la palanca se calcula la razón de supresión. Esta razón compara el
número de presiones de la palanca que ocurren durante el EC con el número que ocurre antes de
presentar el EC. Fórmula: Razón supresión = Respuesta durante el EC / (Respuesta durante el
EC + Respuesta durante el periodo previo a EC). La razón de supresión tiene un valor de cero si
la rata suprime por completo la presión de palanca durante el EC (el numerador de la fórmula
seria 0). Si la rata no modifica en absoluto la tasa con que presiona la palanca cuando está
presente el EC, la razón tiene un valor de 0,5. Una vez que las ratas están presionando la palanca
a una tasa estable, se inicia el condicionamiento del miedo, el cual consiste en el
emparejamiento de un tono o una luz con una breve descarga. A medida que éstas adquieren el
temor condicionado, llegan a suprimir la presión de la palanca durante el EC. Para medir la
supresión de la presión de la palanca se calcula una razón de supresión. La razón compara el
número de presiones de la palanca que ocurren durante el EC con el número que ocurre durante
un periodo comparable de línea base antes de presentar el EC Si el EC no afecta la presión de la
palanca, el animal emitirá 30 respuestas en presencia del EC, por lo que el numerador de la
razón será 30. El denominador será 30 (respuestas durante el EC) + 30 (respuestas previas al
EC), o 60. Por consiguiente, la razón será 30/60 o 0.5. La disminución de los valores de la razón
de 0.5 a 0 indica mayor grado de supresión de la respuesta o temor condicionado.
La tasa de parpadeos de ambos grupos no arrojó diferencias estadísticas durante la primera sesión
experimental. Sin embargo, a partir de la segunda sesión el grupo emparejado respondió al EC con
una tasa significativamente más alta. Este experimento demuestra puntos importantes acerca de
aprendizaje. Primero, que el condicionamiento clásico requiere el emparejamiento de un EC y un EI.
En el grupo control no emparejado no se desarrolló la respuesta al EC. Segundo, el aprendizaje no
fue observable al principio. Los bebés de grupo emparejado no respondieron mucho en la primera
sesión, pero empezaron a aprender que el EC estaba relacionado con el EI.
Se aprende una aversión condicionada al sabor si el consumo de un sabor novedoso es seguido por
una consecuencia aversiva como indigestión o intoxicación.
Las aversiones condicionadas a la comida suelen contribuir a la supresión del consumo alimenticio o
anorexia que se observa en algunas situaciones clínicas.
-Es posible aprender aversiones fuertes al sabor con sólo un emparejamiento del sabor y enfermedad.
Ese aprendizaje tan rápido rara vez se observa en el condicionamiento palpebral, salival o el
seguimiento de señales.
Un sabor también puede hacerse desagradable emparejándolo con otro que ya resulte repugnante. De
manera similar, el emparejamiento de un sabor neutral con otro que ya resultó agradable hará
preferible al primero.
Uno de los factores principales que determinan el curso del condicionamiento clásico es la relación
temporal entre el EC y el EI.
Condicionamiento de demora larga: El EC empieza antes que el EI. En este caso el EI de demora
mucho más (de 5 a 10 minutos). Este procedimiento no incluye intervalo de huella: El EC se
mantiene hasta el inicio del EI
Pavlov y otros realizaron investigaciones sistemáticas para averiguar cómo influye la relación
temporal entre el EC y el Ei en el condicionamiento de EC. Para poder comparar todos los
procedimientos se emplea el ensayo de prueba, que consiste en la presentación del estímulo
condicionado sin el estímulo incondicionado. Las respuestas provocadas por el EC pueden
observarse sin la contaminación de las respuestas provocadas por EI.
Magnitud de la RC: Cantidad en que ocurre la respuesta. Ejemplo: Pavlov medía el número de
gotas de saliva provocadas por EC.
Estudios de habituación y sensibilización: Sólo nos interesan los efectos de la exposición previa a
un estímulo. El procedimiento de control es más bien simple: Consiste en la no exposición a un
estímulo previo.
Estudios de condicionamiento clásico: Nos interesa la forma en la que los estímulos condicionado
e incondicionado llegan a asociarse. Para concluir que se ha establecido una asociación se tiene que
asegurar de que el cambio observado en la conducta no puede haber sido producido por
presentaciones previas del EC o el EI por separado.
Los descubrimientos anteriores alentaron a concluir que el condicionamiento es más eficaz cuando el
EC es una buena señal del EI el valor como señal del EC es mejor en el procedimiento de demora
corta. En cambio, el EC se convierte en peor señal en los procedimientos simultáneos y de huella.
El condicionamiento clásico ocurre en una amplia variedad de situaciones fuera del laboratorio y es
más probable que tenga lugar cuando un suceso precede a otro de manera confiable en un
emparejamiento EC-EI de demora corta.
Se aprende a predecir la ausencia del EI. La capacidad para predecir las cosas negativas es muy útil
porque también nos permite predecir cuándo no ocurrirán éstas. Un inhibidor condicionado es una
señal de la ausencia del EI. Se describen dos procedimientos importantes usados para producir
inhibición condicionada y las pruebas especiales que se necesitan para detectarla y medirla:
¿Por qué debería alguien querer predecir la ausencia de algo? La capacidad para predecir las cosas
negativas es muy útil porque también nos permite predecir cuándo no ocurrirán éstas. Un inhibidor
condicionado es una señal de la ausencia del EI.
Procedimiento de Pavlov para la inhibición condicionada.
Contingencia o correlación negativa EC-EI.
El control inhibitorio de la conducta sólo ocurre si hay un contexto excitatorio para el EI en cuestión.
Implica dos estímulos condicionados y dos tipos de ensayo (uno para el condicionamiento
excitatorio, otro para el inhibitorio:
Ensayos B: El EC+ se presenta junto con el segundo estímulo, llamado EC – (Ejemplo: Luz) y no
se presenta el EI. Aunque el EC- se presenta en un contexto excitatorio proporcionado por EC+, el
EC- no se empareja con el EI, lo que lo convierte en un inhibidor condicionado.
Estos dos ensayos se alternan al azar. A medida que se van haciendo más ensayos el EC– adquiere
gradualmente propiedades inhibitorias. (Ejemplo: La luz roja del semáforo en un cruce con mucho
tráfico es una señal de peligro potencial, pues saltarse el semáforo en rojo podría provocar un
accidente. Pero si un policía nos indica que podemos pasar pese a la luz roja, es probable que no
ocurra ningún accidente. La luz roja es un EC+ y los gestos del policía el EC –. Esos gestos inhiben
o bloquean nuestras dudas de cruzar la calle por el semáforo rojo.) Un EC – actúa como señal de
seguridad en el contexto de peligro.
1.1.2: Contingencia o correlación negativa EC-EI: Otro procedimiento común para producir
inhibición condicionada no implica un EC+, sino más bien involucra a un EC– que se correlaciona
negativamente con el EI (indica que es menos probable que el EI ocurra después del EC que en otros
momentos). Por tanto, el EC señala una disminución de la probabilidad de que ocurre el EI. Cada
presentación del EC es seguida por la ausencia predecible de EI durante un rato. La inhibición
condicionada es observada de manera confiable en procedimientos en que el único EC explícito se
correlaciona negativamente con el EI. En un procedimiento de contingencia negativa EC-EI, el EI
aversivo puede presentarse poco después del EC en algunas ocasiones, pero es mucho más probable
que ocurra en ausencia del EC; eso es lo que define la contingencia negativa EC-EI. Sin embargo,
incluso en ausencia del EC, no puede predecirse con precisión el momento exacto en que se
presentará el EI justamente porque éste ocurrirá en varias ocasiones de manera probabilística. Esto
contrasta con el procedimiento de Pavlov para la inhibición condicionada, en el cual el EI siempre
ocurre al final del EC+ y no ocurre cuando se presenta el EC– junto con el EC+. Dado que el
procedimiento de Pavlov permite predecir el momento exacto de presentación del EI, también
permite predecir con precisión cuándo no ocurrirá el EI. El EI no se presentará al final del EC+ si
éste es acompañado por el EC–.
Se realizó un experimento con ratas empleando el procedimiento de supresión del lengüeteo. Fueron
sometidas a un condicionamiento inhibitorio en el que la presentación aislada de una luz destellante
terminaba siempre con una descarga breve (A+) mientras que la presentación de la luz junta con una
señal auditiva (X) terminaba sin la descarga (AX-). Se utilizó el procedimiento de inhibición
condicionada de Pavlov y se predijo que X se convertiría en inhibición del miedo. Los sujetos
también fueron entrenados en una cámara experimental distinta con otro estímulo auditivo (B) que
siempre terminaba en la descarga breve (B+).
La prueba del estímulo compuesto para la inhibición condicionada indica que la presentación de un
inhibidor condicionado, o señal de seguridad, puede reducir los efectos estresantes de una
experiencia desagradable (Ejemplo: Se pidió a personas con ataques de pánico que acudieran al
laboratorio con alguien con el que se sintieran seguros. Se les indujo pánico de manera experimental
(con solución de gas) y se les pidió que informaran de sus niveles de ansiedad y de ideación
catastrófica. A la mitad de los pacientes se les permitió que su persona (el inhibidor condicionado)
estuviera con ellos en la habitación durante el experimento, y a la otra mitad no. Resultados: La
presencia de un conocido, que les generaba seguridad, redujo la ansiedad y la ideación catastrofista).
Este ejemplo explica por qué los niños muestran menos temor durante un examen médico si están
acompañados por sus padres.
Se basa en que si un estímulo es un inhibidor activo de una determinada respuesta, entonces debería
ser especialmente difícil condicionarlo para provocar esa conducta. Es decir, la rapidez con que
ocurre el condicionamiento excitatorio debería ser menor si el EC es un inhibidor condicionado.
Después del mismo tipo de condicionamiento inhibitorio tomaron el estímulo X (condicionado como
inhibidor) y el estímulo Y (que no había sido empleado antes en un condicionamiento) y realizaron
una prueba de retardo de la adquisición emparejando en tres ocasiones cada estímulo con la
descarga. Cada estímulo fue probado para ver cuál provocaría mayor supresión de la ingestión.
-Resultados: El tiempo requerido para completar cinco segundos de ingestión fue mayor en
presencia del estímulo de control Y que en presencia del X, que antes había sido entrenado como
inhibidor condicionado El entrenamiento inhibitorio inicial de X retardo su adquisición de
propiedades excitatorias de temor condicionado.La inhibición del miedo condicionado estaba
limitada al estímulo (X) que recibió entrenamiento de inhibición condicionada.
Después del mismo tipo de condicionamiento inhibitorio que produjo los resultados resumidos en la
figura 3.12, Cole y sus colaboradores tomaron el estímulo X (que había sido condicionado como
inhibidor) y el estímulo Y (que no había sido empleado antes en un procedimiento de
condicionamiento) y realizaron una prueba de retardo de la adquisición emparejando en tres
ocasiones cada estímulo con la descarga. (Tres ensayos de adquisición eran suficientes ya que el
temor condicionado se aprende más rápido que la inhibición del miedo.) En seguida de los tres
ensayos de adquisición, cada estímulo fue probado para ver cuál provocaría mayor supresión de la
ingestión. Los resultados son mostrados en la figura 3.13. El tiempo requerido para completar cinco
segundos de ingestión fue mayor en presencia del estímulo control Y que en presencia del estímulo
X, que antes había sido entrenado como inhibidor condicionado. Por consiguiente, el entrenamiento
inhibitorio inicial de X retardó su adquisición de propiedades excitatorias del temor condicionado.
Puede ser difícil distinguir la inhibición condicionada de otros procesos conductuales. Por lo tanto, la
mejor estrategia es utilizar más de una prueba para asegurarse que todos los resultados apuntan a la
misma conclusión.
1.1.1: Inhibición latente o preexposición al EC: Si un estímulo es altamente familiar no será tan fácil
asociarlo con un Ei como en el caso de un estímulo novedoso. Los experimentos sobre este efecto
tienen dos fases:
Fase I (Fase de preexposición): Se expone a los sujetos a presentaciones repetidas del EC por sí
solo. La preexposición al EC lo vuelve muy familiar y carente de relevancia particular ya que, hasta
este punto, se ha presentado solo y sin consecuencia.
El resultado común es que los sujetos se muestran lentos para adquirir la respuesta debido a la
preexposición al EC. Por consiguiente, la preexposición al EC inhibe o entorpece el aprendizaje. La
inhibición latente es similar a la habituación, pues permiten limitar el procesamiento y la atención
dirigida a los estímulos que se presentan solos y que por ende son intrascendentes. La habituación
permite sesgar la conducta provocada a favor de los estímulos novedosos; la inhibición latente sesga
el aprendizaje a favor de los estímulos novedosos. Debido a que en la inhibición latente participan
mecanismos de atención, se le ha relacionado con enfermedades como la esquizofrenia, que incluye
déficit en la atención. La inhibición latente disminuye en pacientes con esquizofrenia aguda al poco
tiempo de iniciar la medicación y también es atenuada en individuos normales con una elevada
puntuación en la escala de personalidad esquizotípica. Dada la participación de la dopamina (un
neurotransmisor) en la esquizofrenia, no sorprende que la inhibición latente sea reducida por los
agonistas del receptor de la dopamina y ampliada por los antagonistas del receptor de la dopamina.
Resultados: Los sujetos familiarizados con un EI antes de que se emparejen con un EC muestras un
desarrollo más lento de la respuesta condicionada al EC. Efecto de preexposición al EI.
Otra variable que rige la tasa de CC es la medida en que el EC es relevante para o pertinente para el
EI. Los investigadores llevaron a cabo un estudio con ratas de laboratorios en el que compararon el
aprendizaje sobre el dolor periférico (descarga en una pata) y el aprendizaje sobre la enfermedad
(por irradiación o inyección de fármaco). En las palomas resulta más sencillo asociar la comida con
señales visuales que son señales auditivas. En contraste, si la situación de condicionamiento
involucra una descarga, las señales auditivas son más eficaces como EC que las visuales.
Los efectos de la relevancia del estímulo también sobresalen en la adquisición del temor en los
primates. En experimentos realizados con monos Rhesus y con seres humanos han demostrado que
el condicionamiento del temor procede con mayor rapidez con señales relevantes para el miedo
(visión serpiente) que con señales irrelevantes para el temor (visión de flor o hongo). El
condicionamiento del temor ocurre con mayor facilidad en las situaciones que presentan amenazas
recurrentes para la supervivencia.
García y Koelling (1966) fueron los primeros en demostrar la importancia de la relevancia del
estímulo en un experimento ya clásico. Los investigadores llevaron a cabo un estudio con ratas de
laboratorio en el cual compararon el aprendizaje sobre el dolor periférico (inducido por una descarga
en la pata) y el aprendizaje sobre la enfermedad (inducida por la irradiación o la inyección de un
fármaco). En su ambiente natural, es probable que las ratas enfermen después de consumir un
alimento envenenado. En contraste, es posible que experimenten dolor periférico cuando son cazadas
y mordidas por un depredador al que pueden escuchar y ver. Para representar las señales
relacionadas con la comida, García y Koelling usaron como EC una solución de agua con un sabor
distintivo; para representar las señales relacionadas con el depredador, usaron un EC audiovisual. El
experimento, diagramado en la figura 4.2, implicó hacer que las ratas lengüetearan un bebedero
antes de la presentación de uno de los estímulos incondicionados. El bebedero suministraba agua
dulce o salada, y cada lengüeteo del tubo activaba un breve estímulo audiovisual (un clic y un
destello de luz). De esta forma, las ratas encontraban al mismo tiempo los estímulos gustativo y
audiovisual. Posterior a la exposición a esos estímulos condicionados, los animales recibían una
breve descarga a través de la rejilla del piso o se les hacía enfermar. A partir de que los estímulos
incondicionados utilizados eran aversivos, se esperaba que las ratas aprendieran algún tipo de
aversión. Después del condicionamiento, los investigadores midieron la respuesta de los animales a
los EC gustativo y audiovisual presentados de manera individual. En las pruebas con el EC
gustativo, el agua tenía el mismo sabor que antes, pero ahora los lengüeteosno activaban la señal
audiovisual. Durante las pruebas con el EC audiovisual, el agua era insabora, pero la señal
audiovisual se activaba brevemente cada vez que el animal lamía el tubo. El grado de aversión
condicionada al EC gustativo o al EC audiovisual se dedujo a partir de la supresión de la ingestión.
Los resultados del experimento se resumen en la figura 4.3. Los animales condicionados con la
descarga mostraron después una reducción mucho mayor de su ingestión de agua cuando se les
probó con el estímulo audiovisual que cuando se les probó con el EC gustativo. Se descubrió el
resultado opuesto con los animales condicionados con la enfermedad. Esas ratas disminuyeron
mucho más su consumo de agua cuando se presentaba el EC gustativo que cuando la ingestión
producía la presentación del estímulo audiovisual. El experimento de García y Koelling muestra el
principio de relevancia o pertinencia entre EC y EI. El aprendizaje dependía de la relevancia del EC
para el EI empleado. El sabor se asociaba fácilmente con la enfermedad mientras que las señales
audiovisuales se asociaban asimismo con el dolor periférico.
Cuando se usaba comida como EI, las palomas picaban la tecla iluminada como si estuvieran
comiendo: picoteos rápidos y con el pico abierto al momento del contacto. Si el EI era agua, los
movimientos de picoteo eran más lentos, con el pico cerrado y a menudo eran acompañados por
movimientos de deglución.
Los procedimientos con intervalos EC-EI más largos provocan menos respuesta. La perspectiva que
actualmente tiene mayor aceptación es la idea de que en un procedimiento pavloviano, los
participantes no sólo aprenden que un EC se empareja con un EI, sino cuándo ocurrirá ese EI. Esta
idea se llama codificación temporal. La hipótesis de la codificación temporal plantea que los
participantes aprenden cuándo ocurre el EI en relación con el EC y que utilizan esta información en
el bloqueo, el condicionamiento de segundo orden y en otros paradigmas en que lo que se aprende en
una fase del entrenamiento influye en lo que se aprende en una fase posterior.
Otra variable temporal importante es el intervalo entre ensayos sucesivos, donde generalmente se
observa más respuesta condicionada en los procedimientos en que los ensayos están más espaciados.
El intervalo entre ensayos junto con el intervalo entre estímulos y la duración del EC actúan a veces
en combinación para determinar la respuesta.
Se han ofrecido varias interpretaciones de por qué influye tanto la razón IEE/DE en la
determinación de la respuesta condicionada. La hipótesis del tiempo relativo de espera supone que
un EC sólo comparte información respecto a la presentación del EI si el participante ha pasado
menos tiempo esperando el Ei cuando está presente el EC que cuando se encuentra en la situación
experimental sin la presencia del EC:
Con una razón IEE/DE baja, el tiempo de espera en presencia del EC es similar al tiempo de
espera del contexto (el EC proporciona poca información nueva acerca del momento en que ocurrirá
el EI y no se desarrollará mucha RC). Con una razón IEE/DE alta, el tiempo de espera en
presencia del EC es mucho menor que el tiempo de espera del contexto (el EC es altamente
informativo acerca de cuándo ocurrirá el EI y la respuesta condicionada será más fuerte).
La teoría de la estimación de la tasa es una teoría que se desarrolla sin basarse en la idea de que se
establece una asociación entre un EC y un EI. Según esta teoría, la respuesta condicionada refleja las
estimaciones que hacen los participantes de la rasa con que se presenta el Ei durante el EC y la tasa
de sus presentaciones en ausencia del EC. Ignora todos los datos neurofisiológicos sobre el
aprendizaje asociativo e impone a los animales una carga racional poco realista. Esta teoría resulta
incongruente.
El CC también puede tener lugar en situaciones en las que no está presente un EI. Existen dos
formas distintas de condicionamiento clásico sin un EI: el condicionamiento de orden superior i el
precondicionamiento sensorial
Fase I: Una señal (EC1) se empareja con un Ei con la frecuencia suficiente para condicionar una
respuesta fuerte al EC1.
Fase II: El emparejamiento de un EC1 con un nuevo estímulo, EC2 (las señales de la sala de cine)
pudo condicionar al EC2, de modo que éste también provocara la RC. El condicionamiento de EC2
ocurre en la ausencia de EI.
EC1 se emparejó con una lesión (EI) y esto es un condicionamiento de primer orden. Los
emparejamientos del EC2 (sala de cine) con el EC1 (multitud) es un condicionamiento de segundo
orden. Si luego asociáramos EC2 a un estímulo EC3, esto seria condicionamiento de tercer orden.
Un estímulo condicionado (EC1 o el EC+) se empareja con el EI (EC1 EI o EC+ EI) y un segundo
estímulo (EC2 o EC–) se empareja con el primero pero sin el estímulo incondicionado (EC1/EC2 no
EI o EC+/EC– no EI). ¿A qué se debe que dicho procedimiento produzca inhibición condicionada
en algunos casos y en otras circunstancias produzca condicionamiento excitatorio de segundo orden?
Un factor importante parece ser el número de ensayos en que no está presente el EI. Si los ensayos
no reforzados son pocos tiene lugar el condicionamiento excitatorio de segundo orden, pero si se
prolonga el entrenamiento se desarrolla la inhibición condicionada. Otra variable importante es si los
estímulos de primer y segundo orden se presentan al mismo tiempo o en sucesión. Los compuestos
simultáneos favorecen el desarrollo de la inhibición condicionada. Gracias al condicionamiento de
orden superior, el condicionamiento clásico puede ocurrir sin un EI primario. El único requisito es
que se disponga de un estímulo previamente condicionado. En la experiencia humana, muchos casos
de condicionamiento involucran al condicionamiento de orden superior. Por ejemplo, el dinero es un
poderoso estímulo condicionado (EC1) para la conducta humana por su asociación con dulces,
juguetes, películas y muchas otras cosas que pueden comprarse con él. Un niño puede llegar a
encariñarse con su tío (EC2) si éste le regala un poco de dinero en cada visita. La respuesta
emocional positiva que se condiciona hacia el tío se desarrolla porque el niño llega a asociarlo con el
dinero, lo que constituye un caso de condicionamiento de segundo orden.
Es posible aprender asociaciones entre dos estímulos, cada uno de los cuales sólo provoca una ligera
respuesta de orientación antes del condicionamiento. Ejemplo: Dos sabores (vainilla y canela) que es
común encontrar juntos en postres sin efectos nocivos. Los dos sabores quedan asociados entre sí. Si
adquirimos una aversión hacia la canela es posible que también rechacemos las cosas con sabor a
vainilla por la asociación previa de ésta con la canela). Implica un proceso en dos etapas:
Fase I: Asociación de los dos sabores (EC1 i EC2) sin que esté presente EI (enfermedad). No se
manifiesta ninguna respuesta conductual.
Fase II: El sabor de canela (EC1) se empareja con enfermedad (EI) y se desarrolla una aversión
condicionada (RC) a EC1. Se prueba a los sujetos con EC2, y ahora muestran por primera vez
aversión a EC2, aunque este estímulo nunca se emparejó directamente con el EI.
Estos dos procedimientos del condicionamiento de segundo orden nos ayudan a dar sentido a las
cosas que nos agradan o desagradan sin razón aparente esos estímulos no se asociaron
directamente con un EI positivo o aversivo La preferencia o aversión condicionada se habrá
desarrollado a través de precondicionamiento sensorial o de condicionamiento de orden superior.
Ejemplo: Cada domingo por la tarde visitamos a nuestra abuela, que siempre nos ofrece pudín de
pan que nos sienta mal. Pero por no molestarla, nos lo comemos, y en consecuencia adquirimos una
aversión hacia el pudín de pan. Un día nuestra abuela pone una salsa especial en el pudín. Nos lo
comemos y sigue sentándonos mal. Pero probablemente no desarrollaremos una aversión a la salsa,
porque atribuiremos el mal de estómago al pudín porque ya sabemos que nos sienta mal, y por tanto
la salsa no nos desagradará.
Fase I: El grupo experimental es sometido a emparejamientos repetidos entre uno de los estímulos
(A) con el EI. Esta fase continúa hasta que se desarrolla una RC fuerte al estímulo A.
Fase II: Se presenta el estímulo B junto con el estímulo A y ambos se emparejan con el EI.
Después de varios ensayos el estímulo B se presenta sólo en un ensayo de prueba para ver si provoca
la RC.
Resultado: Ocurre muy poca respuesta ante el estímulo B aunque éste se emparejó repetidamente
con el EI durante la fase II.
¿A qué se debe que la presencia del estímulo A, previamente condicionada, bloquee la adquisición
de la respuesta a la señal agregada b? Kamin, quien fue el primero en observarlo, propuso que un Ei
tiene que ser sorprendente para que se produzca aprendizaje. Si el EI es señalado por un estímulo (A)
previamente condicionado, no será sorprendente. Kamin dedujo que si el EI no es sorprendente, no
sobresaltará al animal ni estimulará el esfuerzo mental necesario para formar la asociación. Los
eventos inesperados activan procesos que dan lugar al nuevo aprendizaje. Para ser eficaz, el EI tiene
que ser inesperado o sorprendente.
Conducta instrumental: Estímulos que encuentra un organismo son resultado directo de su conducta
(Ejemplo: buena nota en un examen si has estudiado mucho). La conducta ocurre ya que en el
pasado acciones similares produjeron el mismo tipo de resultado. Ocurre porque antes fue decisiva
para producir ciertas consecuencias, es la conducta instrumental.
El principio formal del CI fue trabajo de Thorndike, que en un principio quería estudiar la
inteligencia animal. Construyó una serie de cajas problema y el experimento consistía en poner al
animal hambriento en la caja y algo de comida fuera. La tarea del animal era aprender a salir de la
caja y obtener la comida. Su interpretación fue que los resultados de sus estudios reflejaban una
asociación E-R (algunas de las respuestas que daba el animal lograba abrir la puerta, y estos éxitos
conducían al aprendizaje de una asociación). Cuanto más se fortalecía la relación, más rápido era el
escape.
Thorndike formuló la ley del efecto: si una respuesta dada en presencia de un estímulo es seguida de
un evento satisfactorio, la asociación entre el estímulo (E) y la respuesta (R) es fortalecida. Si la
respuesta es seguida de un evento molesto, la asociación E-R se debilita. La consecuencia de la
respuesta no es uno de los elementos de asociación, sólo sirve para fortalecer o debilitar la
asociación E-R.
El entrenamiento exitoso de una respuesta instrumental suele requerir mucha práctica. Existen pasos
preliminares en el establecimiento de la respuesta de presionar la palanca por una rata.
2. Moldeamiento: La rata recibe comida si hace cualquier cosa remotamente relacionada con la
presión de la palanca (ej: cada vez que se para sobre sus patas traseras). Después sólo recibirá la
pella si realiza una respuesta sobre la palanca, y después si presiona la palanca. El moldeamiento
implica 3 componentes:
a. Definirse con claridad la respuesta final que se desea que realice el sujeto.
Los procedimientos de moldeamiento se usan frecuentemente para generar nuevas conductas, pero al
entrenar a la rata para presionar la palanca no le estamos enseñando una nueva respuesta, sino más
bien le enseñamos a combinar respuestas familiares en una nueva actividad.
El CI también se usa para producir respuestas diferentes a cualquier cosa que el sujeto haya hecho
antes. Ejemplo: Lanzamiento de un balón a 54,4m. Se necesita algo más que combinar respuestas
familiares para conseguirlo (fuerza, velocidad, coordinación, diferentes a cualquier cosa que pueda
hacer un sujeto no entrenado). Respuesta nueva, se crea por medio del moldeamiento.
Los métodos de operante libre permiten la observación continua de la conducta durante periodos
prolongados (es el organismo quien determina la frecuencia de la RI, más que el investigador).
Skinner propuso el uso de la tasa de ocurrencia de la conducta operante (frecuencia de la respuesta
por minuto) como medida de probabilidad de la respuesta. Respuestas muy probables = tasa alta.
Respuestas poco probables = tasa baja.
3.2: Castigo:
Tanto Thondike como Skinner hicieron énfasis en que el reforzamiento incrementa la posibilidad de
que la conducta instrumental se repita en el futuro. Esto no quiere decir que el CI produzca siempre
uniformidad y estereotipia en la conducta, sino que puede utilizarse también para producir respuestas
variables.
Los criterios del reforzamiento pueden definirse en términos de dimensiones más abstractas de la
conducta, como la novedad (algo diferente a lo que el participante hizo en otros ensayos la base del
CI es la variabilidad de la respuesta). Experimento: Las palomas tenían que picotear dos teclas (izq-
der) ochos veces para obtener comida. Al principio la secuencia era indiferente, pero en un
determinado ensayo la secuencia de picoteos izquierda-derecha tenía que ser diferente a los patrones
presentados en los 50 ensayos anteriores. Resultados: La variabilidad se incrementó hasta un 75% en
los últimos 5 días del entrenamiento, ya que se requería para el CI. También se vio que si la
variabilidad no se refuerza específicamente, la respuesta se vuelve más estereotipada. Thorndike y
Skinner estaban en lo cierto al decir que la respuesta se vuelve más estereotipada con el CI continuo.
Al fracaso para entrenar los rasguños y bostezos lo llamó pertinencia: ciertas respuestas son
naturalmente pertinentes para el reforzador debido a la historia evolutiva del animal.
La RI ocurre en el contexto de estímulos ambientales específicos (ejemplo: girar la llave del coche
ocurre cuando estamos sentador en el asiento y sostenemos la llave). En el análisis del aprendizaje
instrumental existen 3 eventos a considerar: el contexto estímulo (E), la respuesta instrumental (R) y
la consecuencia de la respuesta o reforzador (C) (Skinner lo describió como una contingencia de tres
términos que involucra E, R y C).
Thorndike planteó la asociación E-R (estímulo de contexto y respuesta instrumental), clave para el
CI y para la Ley del efecto. Según esta ley, el CI implica el establecimiento de una asociación E-R
entre la respuesta instrumental y los estímulos contextuales que están presentes cuando la respuesta
es reforzada; por tanto, la motivación para la conducta instrumental era la activación de la asociación
E-R exponiendo al sujeto a los estímulos del contexto (E) que estuvieron presenten cuando se
reforzó previamente la respuesta.
Alrededor de un 45% del comportamiento humano son hábitos, que son una reacción automática al
contexto de estímulo en el que se obtuvo previamente la meta (similar a la asociación E-R de
Thorndike). La asociación E-R puede ser uno de los mecanismos que pueden explicar la naturaleza
de la dependencia a las drogas como hábito: con el uso repetido el consumo se vuelve un hábito
(llega a ser una reacción automática a las señales del contesto que provocan la conducta de búsqueda
de la droga, sin pensar las consecuencias). Puede aplicarse también a la alimentación, la infidelidad y
las apuestas compulsivas.
TEMA 10:
1.1: Procedimientos de ensayo discreto: Cada ensayo termina con la salida del animal del aparato y
en que la respuesta instrumental sólo se realiza una vez por ensayo. En la investigación
contemporánea se suelen usar laberintos, como el corredor o el laberinto en T. La conducta en el
laberinto se cuantifica con la velocidad de carrera (tiempo que tarda en animal desde la caja de inicio
a la caja meta, que normalmente se acorta cuantos más ensayos se hagan) y la latencia (tiempo que le
lleva al animal salir de la caja de inicio y empezar a desplazarse por el corredor, también disminuye
con más ensayos). En el laberinto T también se puede medir el porcentaje de elecciones correctas.
1.2: Procedimientos de operante libre: Permiten al animal repetir, sin restricciones, la conducta
instrumental. Fue inventado por Skinner, que intentaba analizar una conducta más representativa de
la conducta natural para ello sabía que necesitaba una unidad conductual mensurable y propuso el
concepto de operante como forma de dividir toda la conducta en unidades mesurables significativas.
La respuesta operante (apretar palanca) se define en términos del efecto que tiene sobre el ambiente.
La clave no son los músculos que intervienen en la respuesta, sino la forma en que esta opera en el
ambiente. Ejemplo: La rata puede presionar la palanca de la forma que quiera (respuestas musculares
distintas) pero si lo hace con la fuerza suficiente obtendrá comida en todos los casos (misma
respuesta operante, todas tienen el mismo efecto en el ambiente). Ejemplo 2: Da igual si abrimos una
puerta con la mano derecha o la izquierda, se abrirá igual. En otras conductas como el patinaje
artístico la forma en que se realiza la conducta es tan importante como su impacto en el ambiente.
Varios aspectos del reforzador determinan sus efectos sobre el aprendizaje y el desempeño de la
conducta instrumental. Tenemos efectos directos (cantidad y calidad) y los indirectos.
2.1.1: Cantidad y calidad del reforzador: Si un reforzador es muy pequeño y de mala calidad, no
incrementará la respuesta instrumental. En el condicionamiento operante libre los resultados son más
complicados: si cuando la rata presiona la palanca recibe la comida de una semana entera es poco
probable que vuelva a darle a la palanca porque es un reforzador muy grande. Experimento: Chad,
niño de 5 años. La atención social era un reforzador para él. La RI consistía en presionar un botón el
tiempo necesario para escuchar un “clic” audible. La magnitud del reforzador fue de 10, 105 o 120
segundos. Una prueba preliminar estableció que Chad prefería reforzadores de 120s a los de 10s. Se
utilizó un programa de razón progresiva (el niño cada vez tiene que emitir más cantidad de
respuestas para obtener el reforzador). Incrementar el número de presiones requeridas hacía que se
obtuviera menos reforzadores. Resultados: Al aumentar requisito de 1 a 20 respuestas:
Reforzador 105 segs: Caída mucho menos evidente. Más eficaz para mantener la RI.
La magnitud del reforzador también contribuye en los programas de vales (canjeables por dinero) en
el tratamiento de consumo de drogas. Si se daba más dinero por cada vale, se contribuía más a la
abstinencia. También era importante dar el reforzador poco después de la evidencia de abstinencia
(más eficaz importancia del reforzamiento inmediato).
-Contraste negativo: Disminución respuesta por una recompensa pequeña debido a experiencia
previa con un resultado más atractivo (la recompensa pequeña parece especialmente mala para los
que antes experimentaron una recompensa mejor).
Experimento: Las ratas que reciben cocaína en un sitio de la jaula elegirán ese sitio a cualquier otro
(sugiere que la cocaína es reforzante). Pero cuando las ratas beben sacarosa antes de la cocaína,
llegan a suprimir el consumo de sacarina (cocaína provoca aversión al sabor). La aversión a la
sacarina condicionada por la cocaína refleja un efecto anticipatorio de contraste. Como la cocaína es
muy reforzante y ocurre después de la sacarina, el sabor de la sacarina pierde su valor hedónico en
anticipación al valor hedónico de la cocaína que es mucho mayor (explicación de por qué los
cocainómanos no sienten satisfacción por una buena comida, por ejemplo).
2.2: La relación entre respuesta y reforzador: En algunos casos hay una fuerte relación entre lo que
hace una persona y las consecuencias que le siguen, pero en otros no existe esta relación. Existen dos
tipos de relaciones entre una respuesta y un reforzador:
-Relación temporal (tiempo entre la respuesta y el reforzador). Caso especial: contigüidad temporal
(entrega del reforzador inmediatamente después de la respuesta).
Los factores temporales y causales son independientes. Ejemplo: Relación causal fuerte entre
entregar una solicitud de admisión a la universidad y ser aceptado, pero la relación temporal es débil
porque desde que la hechas hasta saber si has sido aceptado o no puede pasar tiempo.
2.2.4: Contigüidad y contingencia: comentarios finales: Los organismos son sensibles tanto a la
contigüidad como a la contingencia entre respuesta y reforzador (actúan conjuntamente). La
contingencia asegura que el reforzador sólo se entregue después de la respuesta instrumental
concreta. La contigüidad garantiza que otras actividades no interfieran entre la respuesta
especificada y el reforzador para interferir con el condicionamiento de la respuesta objetivo.
3. Elección compleja
3.1: Estudios sobre el “autocontrol”: Frecuentemente el autocontrol es una cuestión para elegir una
recompensa grande demorada sobre otra inmediata y pequeña. Experimento: Respuesta era
compensada por una pequeña cantidad de grano (A) o por una cantidad mayor de grano que se
demoraba 4 segundos (B). Podían elegir picoteando la tecla A o la B. Pusieron a prueba la elección
en dos condicionamientos diferentes: procedimiento de elección directa (ambas recompensas estaban
disponibles en cuanto picoteaban la tecla). Las aves carecían de autocontrol y elegían la recompensa
pequeña e inmediata; y el procedimiento encadenado concurrente (la comida se demoraba después
de que las palomas hicieran su elección, mostraban autocontrol, elegían principalmente la
recompensa grande.) Conclusión: Se prefiere la recompensa demorada grande a medida que se exige
que los participantes esperen más tiempo para recibir cualquiera de las recompensas después de
hacer su elección. Si las respuestas son entregadas sin esperar,
prefieren la pequeña e inmediata.
Tema 12: El reforzamiento positivo II: programas de presentación del reforzamiento y extinción
Un programa de reforzamiento es la regla que determina qué ocurrencia de una respuesta será
seguida por el reforzador. Ejemplo: Que alguien trabaje mucho (elevada tasa de respuestas) o que
sea perezoso (baja tasa de respuestas) depende mucho del programa de reforzamiento que use, más
que de su personalidad.
1. Programas simples de reforzamiento intermitente: Hay distintos programas de reforzamiento. En
los simples, solo un factor determina qué instancia de la respuesta instrumental es reforzada.
El reforzamiento sólo depende del número de respuestas realizadas por el organismo. Se entrega la
recompensa cada vez que se cumple el número exigido (si el número que se pide es 1, cada respuesta
resulta en la entrega del reforzador reforzamiento continuo (RFC)). No es común fuera del
laboratorio. Las situaciones en que la respuesta sólo es reforzada algunas veces implican
reforzamiento parcial o intermitente (ejemplo: Morder una fresa suele ser reforzado por un buen
sabor, pero no si la fresa está podrida).
1.1.1: Programa de razón fija: Existe una razón fija entre el número de respuestas emitidas por la rata
y el número de reforzadores que recibe (10 respuestas por reforzador; RF 10). Ejemplo: El repartidor
de periódicos trabaja en un programa de razón fija porque su ruta tiene un número concreto de casas.
Una vez que se inicia la conducta, la tasa de respuestas es alta y estable, pero puede haber una pausa
antes de iniciar el número requerido de respuestas (esto se hace evidente en el registro acumulativo,
que muestra el número total de respuestas que han sucedido hasta un punto particular en el tiempo.
Representación visual de cuándo responde el sujeto y con qué frecuencia).
Pausa posreforzamiento: Tasa cero de respuestas que ocurre justo después de cada reforzamiento.
Carrera de razón: Tasa elevada y estable de respuestas que completa cada requisito de razón. Si se
incrementa mucho los requisitos de razón (de RF 120 a RF 500) es posible que el animal haga
pausas periódicas antes de completar la razón exigida (este efecto es el de tensión de la razón, a
veces esta tensión es tan grande que el animal deja de responder a todo. Se ha demostrado que la
duración de la pausa es controlada por la siguiente razón requerida (ejemplo: Si antes de empezar a
lavar el coche decidimos dejarlo para otro momento no es porque estemos cansados de la vez
anterior que lo lavamos, sino porque no estamos listos para hacer el trabajo en ese momento).
1.1.2: Programa de razón variable: Se requiere un número predecible de respuestas o de esfuerzo por
cada reforzador. La predictibilidad puede eliminarse modificando el número de respuestas que se
pide por reforzamiento de una ocasión a la siguiente. Ejemplo: Se piden 10 respuestas para el primer
reforzador, 13 para el segundo, 7 para el tercero…la razón es el número promedio, es decir RF 10.
Ejemplo 2: Máquina tragaperras. Nunca se sabe cuántos juegos hacen falta para dar con la
combinación.
En los programas de razón fija la tasa total de respuestas tiende a distribuirse en un patrón de pausa-
carrera, y en los programas de razón variable se observa un patrón más estable.
Las respuestas únicamente se refuerzan si ocurren después de que ha transcurrido cierto tiempo.
La respuesta sólo se refuerza si ocurre después de que haya pasado una cantidad de tiempo
establecida después de un punto de referencia, la última entrega del reforzador o el inicio del ensayo.
La cantidad de tiempo que tiene que pasar antes de que la respuesta sea reforzada es constante de un
ensayo al otro. Estos intervalos se encuentran en situaciones donde se necesita una cantidad fija de
tiempo para preparar el reforzador (ejemplo: lavadora).
Festón de intervalo fijo: Patrón de respuestas que se desarrolla en los programas de intervalo fijo. El
animal aprende a esperar para responder únicamente al final del periodo de IF, y la respuesta
aumenta a medida que llega este final. El desempeño en un programa de IF refleja la precisión del
sujeto para discriminar el tiempo. Esta capacidad podría mejorarse teniendo un reloj de algún tipo.
Experimento: Palomas. El “reloj” consistía en un punto de luz que iba creciendo a medida que
transcurría el intervalo. La introducción de este estímulo aumentó la duración de la pausa
posreforzamiento y ocasionó que la respuesta se acercara al final del ciclo del IF. Ejemplo: La tasa
de estudio aumenta a medida que se acerca el examen.
El intervalo sólo determina cuándo estará disponible el reforzador, no cuando será entregado (el
sujeto tendrá que realizar la respuesta instrumental para ello).
Las respuestas sólo se refuerzan si ocurren después que haya transcurrido un lapso variable desde el
inicio del ensayo o ciclo del programa. Situaciones en las que se necesita que pase una cantidad
impredecible de tiempo para preparar el reforzador (ejemplo: El mecánico no puede decir cuánto
tiempo exactamente tardará en arreglar el coche). Ejemplo: Programa de IV en que la primera pella
esté disponible en un minuto desde el inicio, la segunda lo esté en 3 minutos y la tercera cuando
hayan pasado 2. El intervalo promedio es 2 minutos, así que: IV dos minutos.
En los programas de intervalo fuera del laboratorio es común que los reforzadores sólo estén
disponibles en periodos limitados (no indefinidamente como en el laboratorio). Ejemplo: Las
comidas en restaurante sólo están disponibles en horas limitadas, y una vez que la comida está
disponible hay una cantidad limitada de tiempo para obtenerla, esta restricción se conoce como
disponibilidad limitada.
Hay pausa posreforzamiento. Los programas RF y IF producen tasas altas de respuesta justo antes de
la entrega del siguiente reforzador, mientras que los de RV y IV mantienen tasas constantes de
respuesta, sin pausas predecibles.
Los modelos son muy diferentes y se demostró con un experimento: Comparación tasa de picoteo de
una tecla con palomas reforzadas con programas de RV y IV. Se entrenó a dos palomas: una con RV
y la otra IV. La frecuencia de reforzamiento era prácticamente idéntica (se hizo un arreglo para ello).
Resultados: La paloma reforzada con el programa de RV respondió a una tasa mucho más alta que la
que fue reforzada con el programa IV. En otro experimento con estudiantes universitarios y un
videojuego se dieron los mismos resultados (los individuos de cada pareja reforzador con RV
mostraron tasas de respuesta más altas). ¿A qué se debe?
La primera explicación de por qué RV produce tasas de respuestas más altas se enfoca en el tiempo
entre respuestas (intervalo entre una respuesta y la siguiente). Si el sujeto es reforzado por una
respuesta que ocurre poco después de la precedente, entonces se refuerza un TER corto y los TER
cortos se hacen más probables en el futuro (lo mismo pasa con los TER largos). Un sujeto con TER
cortos responde a una tasa elevada. Un programa de razón favorece que los TER sean cortos porque
se obtendrá más reforzador y en menos tiempo.
1.3.2: Funciones de reforzamiento
La segunda explicación se concentra en la relación entre las tasas de respuestas y las tasas de
reforzamiento calculadas para una sesión experimental completa o periodo prolongado, se llama
función de retroalimentación (el reforzamiento es la retroalimentación de la respuesta).
La tasa de respuestas tiene una relación directa con las tasas de reforzamiento. Cuanto mayor sea la
tasa de respuestas, más reforzadores recibirá el sujeto por hora y mayor será su tasa de reforzamiento
(además no hay límite). La función de retroalimentación para un programa de razón es una función
lineal creciente y no tiene límite. En cambio, los programas de intervalo establecen un límite
superior al número de reforzadores (ejemplo: en un programa IV dos minutos se pueden obtener
máximo 30 reforzadores por hora).
4.1: Efectos paradójicos de la recompensa: La extinción es más rápida después del entrenamiento, el
cual establece mayores expectativas de recompensa. Esto ha dado lugar a efectos paradójicos:
Efecto del sobreentrenamiento en extinción: Más entrenamiento con reforzamiento, mayor será la
expectativa de recompensa, más fuerte será la frustración que ocurra cuando se introduzca una
extinción. A su vez debería provocar una extinción más rápida.
Efecto de la magnitud del reforzamiento en extinción: La respuesta disminuye con más rapidez en
extinción posterior al reforzamiento con un reforzador más grande. Este fenómeno puede explicarse
por la frustración, el no reforzamiento puede ser más frustrante si el individuo ha llegado a esperar
una recompensa grande que si espera una recompensa pequeña. Ejemplo: En una situación nos dan
100 euros y en otra 20. La falta de ese dinero será más aversiva en caso de que nos den 100, generará
más frustración.
Efecto del reforzamiento parcial en la extinción (ERPE): la extinción es mucho más lenta e
involucra menos frustración si antes de extinguir estaba en efecto un programa de reforzamiento
parcial en vez de uno continuo. Experimento: Crías de ratas se les permitía correr por un pasillo para
succionar y obtener leche. Algunas fueron reforzadas siempre (reforzamiento continuo) y otras sólo
algunas veces (reforzamiento parcial). Después del entrenamiento, se hizo la extinción. En las del
reforzamiento parcial la extinción fue más lenta. La persistencia de la respuesta creada por el
reforzamiento intermitente puede ser importante y puede tener consecuencias indeseables en la
crianza.
Se basa en lo que aprenden los sujetos acerca de los efectos emocionales de la falta de recompensa
durante el entrenamiento con reforzamiento parcial. Dice que la persistencia en extinción es
resultado de aprender algo paradójico, a saber seguir respondiendo cuando uno espera ser frustrado o
no recibir reforzamiento. El reforzamiento intermitente da lugar al aprendizaje de dos expectativas:
expectativa de recompensa (estimula a los sujetos a responder) y expectativa de no recompensa
(desalienta la respuesta) el conflicto se resuelve a favor de la respuesta. Con el entrenamiento
suficiente, el reforzamiento intermitente tiene como resultado aprender a dar la respuesta
instrumental cuando el sujeto espera no recibir recompensa. En el reforzamiento continuo nada hay
aliente a los sujetos a responder cuando no esperan recompensa.
Se basa en lo que los sujetos aprenden acerca de la memoria de la no recompensa. Supone que los
sujetos pueden recordar si en el pasado reciente fueron reforzados o no por realizar la respuesta
instrumental, y que recuerdan los ensayos recientes recompensados y no recompensados. Durante el
entrenamiento con reforzamiento intermitente, el recuerdo de la no recompensa se convierte en una
señal para realizar la respuesta instrumental. Ejemplo: Secuencia RNNRRNR (R = ensayos
recompensados, N = no recompensados). En el cuarto ensayo se refuerza al sujeto. El recuerdo de
los dos ensayos sin recompensa anteriores se convierte en una señal para responder. El sujeto
aprende a responder cada vez que recuerda no haber sido reforzado en los ensayos precedentes
(generando persistencia de la respuesta instrumental en extinción).
Ninguna de las dos perspectivas se sostiene por sí sola. Se busca encontrar el punto de equilibrio
entre ambas.
1.1: Antecedentes de la regulación conductual: Al principio se pensaba que los reforzadores eran
tipos especiales de estímulos (Thorndike lo describía como un estímulo que produce un estado
satisfactorio de cosas).
La teoría supuso que las respuestas consumatorias (masticar y tragar) son fundamentalmente
distintas de diversas respuestas instrumentales potenciales como correr, saltar o presionar una
palanca. Premack se opuso a ello y sugirió que las respuestas reforzantes son especiales, sólo porque
tienen más probabilidad de ocurrir que las RI que les siguen.
Experimento: Dos pacientes con esquizofrenia rechazaban todos los reforzadores tangibles que se les
ofrecían y pasaban sentados la mayor parte del tiempo. Sentarse se usó como reforzados: sólo les
daban la oportunidad de sentarse si hacían un poco de una tarea. Si realizaban las respuestas
requeridas se les permitía sentarse unos 90 segundos y se volvía a empezar. Tuvo un enorme éxito.
2. Castigo
2.1.1: El castigo y la ley negativa del efecto: Se cree que existe una versión negativa de la ley del
efecto que es opuesta a la versión positiva. Según Premack, una actividad poco valorada ocurre de
manera contingente al desempeño de una conducta altamente valorada (ejemplo: La probabilidad de
que uno se exponga a una descarga es mucho menor que la probabilidad de presionar una palanca
para recibir comida, la descarga puede castigar la presión de la palanca).
Estaban interesados en averiguar si un estímulo punitivo y un reforzador tienen efectos iguales pero
opuestos. Experimento: Se utilizaron ganancias y pérdidas monetarias. Los estudiantes tenían que
hacer clic en blancos en movimiento sobre la pantalla de un ordenador. Había dos objetivos y cada
uno era reforzado con un programa diferente (el reforzador era ganas 4 centavos y el estímulo
aversivo era perder 4 centavos). Resultados: Imponer un procedimiento de castigo en un
componente del programa generó un sesgo importante a favor de la respuesta alternativo no
castigada. El castigo fue tres veces más eficaz que el reforzamiento (“la pérdida de un centavo es tres
veces más aversiva que lo reforzante que puede ser la obtención del mismo centavo”).
1.1.1: Explicación de la periodicidad de las respuestas interinas y terminales: La idea básica es que la
entrega periódica de comida activa el sistema de alimentación (y sus respuestas preorganizadas y
específicas de la especie de forrajeo y alimentación). Dependiendo del momento en que la comida se
entregó la última vez y del momento en que vaya a entregarse de nuevo, ocurren diferentes
conductas:
Búsqueda general: A mitad del intervalo entre entregas de alimentos (es menos probable que
reciba comida). Aleja al sujeto del comedero.
1.1.2: Efectos de la controlabilidad de los reforzadores: Una contingencia fuerte entre una RI y un
reforzador significa que la respuesta controla al reforzador (la presentación del reforzador depende
de que haya ocurrido la respuesta instrumental). Seligman, Overmier y Maier descubrieron que la
exposición a una descarga incontrolada impedía el aprendizaje posterior efecto de desamparo
aprendido.
1.1.3: El diseño triádico: Se utiliza para los experimentos sobre el desamparo aprendido. Implica dos
fases: una de exposición y otra de condicionamiento. En la primera un grupo de ratas (E) es expuesto
a descargas de las que pueden escaparse, y cada sujeto del segundo grupo (A) se acopla a uno del
grupo E con el objetivo de recibir la descarga el mismo tiempo que el otro sujeto pero los del grupo
A no podrán hacer nada para escapar o terminar la descarga. Durante la segunda fase
(condicionamiento) los grupos reciben un entrenamiento de escape-evitación (aparato de vaivén con
dos compartimentos). Resultados: El grupo A tiene un grave impedimento para el aprendizaje de
escape-evitación. Conclusiones: Existe contingencia entre respuesta y reforzador para el E y no para
el A. Por tanto, los animales son sensibles a esta contingencia.
1.1.4: La hipótesis del desamparo aprendido: durante la exposición a descargas de las que no pueden
escapar los animales aprenden que éstas son independientes de su conducta, y llegan a esperar que
en el futuro los reforzadores sigan siendo independientes de su conducta. Disminuye su capacidad
para aprender una nueva respuesta instrumental. El déficit de aprendizaje ocurre por dos razones:
La expectativa de falta de control reduce la motivación de los sujetos para realizar una respuesta
instrumental.
1.1.5: Déficits de actividad: Se encontró que la exposición a descargas de las que no se podía escapar
dificultaba el aprendizaje del escape en las ratas en una caja de vaivén pero facilitaba el
condicionamiento palpebral, por tanto se vio que no es que los animales aprendan a permanecer
inactivos ante la descarga, simplemente que es más probable observar los efectos del desamparo en
tareas que requieren movimiento.
2. Control aversivo: evitación y castigo: En el estudio del control aversivo se han investigado dos
procedimientos: evitación y castigo. Evitación: Individuo realiza una respuesta específica para
impedir la presentación de un estímulo aversivo (contingencia negativa respuesta-estímulo aversivo,
incrementa la respuesta). Castigo: Contingencia positiva (la respuesta objetivo produce el resultado
aversivo, disminuye la respuesta). En ambos procedimientos el resultado es menor contacto con el
estímulo aversivo: en un caso es con evitación activa (se logra haciendo algo, evitación) y en otro
con evitación pasiva (dejar de hacer algo, castigo)
3. Conducta de evitación:
Primeros experimentos por Bechterev. Experimento: Colocar un dedo sobre una bandeja de metal, se
presentaba estímulo de advertencia (EC) seguido por descarga (EI). Aprendieron a levantar el dedo
ante el EC. Primero se consideró incorrectamente como un CC, pero en los experimentos de CC la
realización o no de una respuesta no hace que se presente o no el EI, porque siempre se presentará.
Experimento: Dos grupos de cobayas en una rueda de actividad. EC (tono) y EI (descarga). La
descarga hacía que las cobayas hiciesen girar la rueda. Para le grupo de CC la descarga se presentaba
siempre dos segundos después del inicio del tono. Para el de condicionamiento de evitación, la
descarga seguía al tono cuando los animales no emitían la respuesta condicionada (correr en la
rueda). Resultados: El grupo de evitación aprendió muy pronto a dar la respuesta condicionada, y el
de CC nunca llegó a alcanzar este elevado nivel de desempeño.
Este procedimiento utiliza ensayos discretos (iniciado por EC o estímulo de advertencia). Ensayo de
evitación exitoso: El sujeto emite la respuesta antes de que se aplique la descarga, EC termina y EI
no se presenta. Ensayo de escape: El sujeto no emite la respuesta durante el intervalo EC-EI, se
presenta la descarga y se mantiene hasta que ocurre la respuesta, momento en el que terminan EC y
EI. A medida que avanza el entrenamiento, predominan los ensayos de evitación. Los
experimentos suelen llevarse a cabo en una caja de vaivén (por eso a veces se llama evitación de
vaivén). Existen dos tipos de evitación de vaivén:
Evitación en un sentido: Empieza cada ensayo en el mismo lado del aparato y siempre se mueve
en la misma dirección.
1.1.1: La teoría de dos procesos: Supone que existen dos tipos de aprendizaje: condicionamiento
pavloviano e instrumental, y están relacionados de una forma especial. Durante el CI, los estímulos
en cuya presencia se refuerza la respuesta instrumental se asocian con la consecuencia de la
respuesta (C) por medio del CC, y esto resulta en una asociación E-C. Rescorla y Solomon pensaban
que esta asociación activaba un estado emocional positivo o negativo, dependiendo de si el
reforzador era un estímulo apetitivo o aversivo.
Un estímulo condicionado clásicamente puede influir en la conducta instrumental por medio de las
respuestas manifiestas que provoca. (ejemplo: estímulo CC provoca seguimiento de señales que
lleva al sujeto al lado izquierdo de la cámara, aun cuando la respuesta instrumental consiste en
apretar una palanca que está a la derecha la presentación del EC disminuirá la respuesta
instrumental). Si el estímulo condicionado clásicamente provocó respuestas manifiestas similares a
las de la conducta instrumental, la presentación del EC incrementará la respuesta.
La teoría de los dos procesos asume que el CC media en la conducta instrumental por el
condicionamiento de emociones positivas o negativas, pero los animales no adquieren sólo
emociones categóricas, positivas o negativas, sino también expectativas específicas de recompensa.
A veces los individuos adquieren expectativas de reforzadores específicos más que las emociones
generales. El aprendizaje de expectativas de reforzadores específicos es una alternativa que desafía
la teoría de los dos procesos.
2. Conducta de evitación:
No hay placer particular que se derive de la evitación, sólo se logra no salir lastimado. La razón por
la que se realiza la conducta es la ausencia del estímulo aversivo. ¿Cómo puede la ausencia de algo
reforzar la conducta instrumental? Teoría de los dos procesos de la evitación (Mowrer y
perfeccionada por Miller).
Supone que en el aprendizaje de evitación participan dos mecanismos: condicionamiento clásico del
miedo al EC (trata al miedo como fuente de motivación para la evitación terminación de un
evento aversivo proporciona reforzamiento negativo a la conducta instrumental) y el reforzamiento
instrumental de la respuesta de evitación por medio de la reducción del miedo. Por tanto, la RI es
reforzada por la reducción del miedo, no por la mera ausencia de algo.
2.2: Análisis experimental de la conducta de evitación
Se denomina “pulsión adquirida” porque la motivación para realizar la respuesta instrumental (que
es el miedo) no es innata, sino que se aprende por CC. También se conoce como paradigma de
escape del miedo (PEM).
Los experimentos realizados confirman las predicciones de la teoría de los dos procesos: la
terminación de un estímulo aversivo condicionado es un reforzador eficaz de la conducta
instrumental.
La respuesta de evitación puede persistir por mucho tiempo. ¿Cómo podría extinguirse?
Inundación o prevención de la respuesta: presentación del EC en una situación de evitación sin el EI
en la que el participante no puede emitir la respuesta de evitación (el sujeto es “inundado” por el EC
porque no puede terminarlo). Los procedimientos de inundación tienen dos componentes
importantes:
La teoría de los dos procesos supone que la disminución del miedo es lo que refuerza la respuesta de
evitación (reforzamiento negativo). Otras teorías hablan de reforzamiento positivo y otras dicen que
el reforzamiento en general no es importante.
2.3.1: Reforzamiento positivo a través de la inhibición condicionada del miedo o de las señales
condicionadas de seguridad:
1. Castigo: Puede ser una técnica muy eficaz para modificar la conducta.
1.1.1: Características del estímulo aversivo y del método con que se introduce:
Tiempo fuera: Eliminación de la oportunidad para obtener el reforzamiento positivo (ejemplo: hacer
que un niño se siente en la “silla de pensar”), suprime la conducta. Sobrecorrección: Pedir a la
persona no sólo que corrija lo que hizo mal, sino que sobrecorrija el error (ejemplo: un niño se lleva
algo a la boca y se le pide que se lo quite y que se lave la boca). Experimento: Estímulo aversivo era
perder puntos. Se apretaba una palanca para obtener puntos. Se utilizaron dos estímulos (líneas de
distintas longitudes). En la primera fase sólo se utilizó ED, y se reforzó con puntos. En la fase dos
ED se alternó con EDC, que tenía un efecto de contingencia de castigo (con cada respuesta se
restaban puntos del total). Resultado: La respuesta se mantuvo para ED, pero se suprimió durante el
EDC.
La supresión de la respuesta producida por el castigo depende en parte de las características del
estímulo aversivo:
Intensidad: Alta intensidad es más eficaz. Si es de baja intensidad genera resistencia e inmuniza.
Demora: Demora del castigo: Intervalo entre la respuesta objetivo y el estímulo aversivo.
Aumentar la demora produce menos supresión de la conducta.
Si la respuesta castigada es la única actividad de que dispone el sujeto para obtener reforzamiento, el
castigo será mucho menos eficaz que si además de castigar al sujeto se le proporciona una fuente
alternativa de reforzamiento. Experimento: Fumadores. Se sentaron frente a dos palancas. La presión
de cualquiera de las dos era reforzada con un cigarrillo. Después, una de las palancas era castigada
con un ruido detestable. En una condición experimental sólo se disponía de una palanca durante la
fase de castigo, en la otra condición se disponía de ambas (sólo una castigaba). Resultados: Cuando
la respuesta castigada era la única forma de obtener cigarrillos, el castigo producía una leve
supresión de la conducta. Cuando se disponía de la palanca alternativa, cesaba toda respuesta a la
palanca castigada.
A veces la gente parece buscar el castigo. Esto puede pasar si sólo se dispone de reforzamiento
positivo cuando la respuesta instrumental también es castigada (el castigo puede convertirse en señal
de disponibilidad del reforzamiento positivo) el castigo incrementará la respuesta.
Experimento: Primero se entrenó a palomas para picotear una tecla para obtener comida. Cada
respuesta se castigó posteriormente con una descarga suficiente fuerte como para reducir la tasa de
respuesta en un 50%. En la siguiente fase se alternaron periodos donde estaba el efecto de castigo y
otros que no (y la respuesta de picoteo sólo era reforzada durante los periodos de castigo). Las
palomas sólo podían saber si el reforzamiento estaba disponible si eran castigadas por picotear.
Resultados: Ocurrieron tasas más altas de picoteo durante los periodos de castigo que durante los
seguros. El castigo se convirtió en estímulo discriminativo del reforzamiento alimenticio.
Existen serias restricciones éticas y puede tener efectos secundarios problemáticos. Por lo general no
se aplica eficazmente (intensidades bajas, mucha demora, intermitentemente, no acompañado de
fuentes alternativas de reforzamiento, conducta sólo puede ser monitoreada en ciertos momentos, y a
veces se convierte en estímulo discriminativo para el reforzamiento positivo). Castigar a alguien en
un acto de enfado y frustración no es una forma de entrenamiento sistemático sino de abuso.
Se ha visto que hay una fuerte relación entre el castigo y la obediencia inmediata de un niño, pero el
castigo corporal se asocia con consecuencias no planeadas como agresión, problemas de salud
mental y dificultades en la relación paterno-filial.
Sin embargo, el uso del castigo puede estar justificado e incluso ser imperativo si la conducta puede
ser perjudicial y debe suprimirse de inmediato. Experimento: Castigo para suprimir vómitos
recurrentes en bebé de nueve meses. El niño estaba en riesgo de morir si no se hacía nada. Estímulo
aversivo: descargar breves. El castigo suprimió el vómito casi por completo en 3 días. La supresión
se mantuvo indefinidamente.