TEMA 4 - Condicionamiento Instrumental (CI).
Introducción y origen del condicionamiento instrumental
El condicionamiento instrumental u operante se define como una forma de aprendizaje
asociativo (simple) en la que la conducta está controlada por sus consecuencias. Es un
tipo de aprendizaje donde el sujeto realiza una conducta para conseguir algo que le interesa
o para suprimir y evitar algo que le molesta. También puede suprimir una conducta para no
ser castigado. Es decir, la conducta del sujeto tiene un objetivo; está dirigida a una meta.
La principal diferencia entre el condicionamiento clásico (CC) y el condicionamiento
instrumental (CI) radica en el control sobre el estímulo reforzador. En el CC, la respuesta
del sujeto no tiene control sobre el estímulo incondicionado (EI) o reforzador. En cambio, en
el CI, la ejecución de la respuesta controla la aparición del reforzador. Los estímulos
incondicionados (EI) del CC y los estímulos reforzadores (Er) que siguen a la respuesta del
CI son equivalentes en el sentido de que ambos son estímulos biológicamente relevantes
(como comida, descarga eléctrica, la pareja, etc.).
Ejemplos cotidianos de condicionamiento instrumental incluyen estudiar para conseguir un
título, ir al trabajo por un sueldo, sonreír a un cliente para vender un producto, o pagar
impuestos para evitar multas. De manera similar, la educación de los niños a menudo utiliza
un sistema de recompensas para promover conductas deseadas y castigos para suprimir
conductas no deseadas.
Abarcando el origen del CI, como antecedente histórico se menciona una anécdota sobre
Tales de Mileto y una mula que aprendió a sumergirse en un río para aligerar su carga de sal,
y posteriormente dejó de hacerlo cuando la carga fue cambiada por esponjas que absorbían
agua, aumentando el peso. También, como antecedentes filosóficos se incluyen a Spencer
(Psicología Social) y a Darwin (CI).
Thorndike fue fundamental en el origen del CI con su Ley del Efecto. Esta ley postula que
las conductas seguidas de consecuencias satisfactorias tenderán a asociarse con la
situación en la que ocurrieron, haciéndose más probables cuando la situación se repita.
Cuantas más repeticiones (ley del ejercicio) y más intensa la satisfacción, más fuerte será la
asociación. Thorndike estudió la inteligencia animal utilizando jaulas-problema con gatos
hambrientos. Observó que los gatos escapaban y obtenían comida mediante un proceso de
ensayo y error. El refuerzo (la comida) fijaba progresivamente la asociación entre las claves
de la caja y la conducta de escape (accionar un pestillo o tirar de una cuerda). Esto hacía que
la conducta correcta se volviera cada vez más probable y que los gatos salieran antes de la
caja en ensayos sucesivos. Corredores y laberintos también fueron útiles para investigar el
aprendizaje instrumental. Sin embargo, estos instrumentos tenían una limitación: no
permitían medir la tasa conductual (número de respuestas por unidad de tiempo), una
variable que Skinner consideraría importante.
Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias, a
diferencia del enfoque de Thorndike en asociaciones de naturaleza interna. En su obra The
Behavior of Organisms (1938), Skinner distinguió entre el condicionamiento de los reflejos
de Pavlov (condicionamiento respondiente) y el tipo de aprendizaje propuesto por Thorndike,
lo que lo llevó a formular que la conducta se regula tanto por el condicionamiento
respondiente como por el operante. Su enfoque metodológico se centró en situaciones de
"operante libre", donde los animales podían ejecutar la respuesta instrumental tantas veces
como quisieran, permitiendo estudiar la frecuencia de la conducta en función de las
consecuencias. Para ello, desarrolló la Caja de Skinner, un dispositivo con una palanca
(respuesta operante) y un dispensador de alimento (refuerzo), que incluía un sistema de
registro acumulativo para estudiar la evolución de la tasa de respuesta.
Elementos del condicionamiento instrumental
• La respuesta instrumental (R): Se refiere a la respuesta motora voluntaria
controlada por sus consecuencias. Es una acción que controla el estímulo
reforzador. Ejemplos incluyen mover los brazos, hablar o andar. Las respuestas
involuntarias controladas por el sistema nervioso autónomo generalmente no se
consideran instrumentales, a menos que se utilice retroalimentación sensorial.
• El estímulo discriminativo (Ed): Es el contexto o estímulo que señala la ocasión
para recibir el refuerzo. Solo si el sujeto emite la respuesta en presencia del Ed
recibirá el refuerzo. Por ejemplo, en una Caja de Skinner, una luz encendida puede ser
el Ed que indica que la presión de la palanca resultará en refuerzo. Otros ejemplos son
la sirena de una ambulancia que señala cuándo reducir la velocidad o un cartel de
obras en la carretera.
• El estímulo reforzador (Er): Es cualquier estímulo que sigue a la respuesta y
aumenta su fuerza (frecuencia, probabilidad, etc.). Si no aumenta la fuerza de la
respuesta, no es un reforzador. Es aquello que "interesa" al sujeto. Ejemplos incluyen
comida para una rata hambrienta, un sueldo para un trabajador, o aprobar una
asignatura para un estudiante. Experimentalmente, se usan a menudo estímulos
relacionados con necesidades biológicas básicas.
o El Refuerzo positivo (Er+) ocurre cuando la relación de contingencia es
positiva (R → Er), es decir, la emisión de la respuesta produce la
presentación de un refuerzo positivo. El sujeto realiza la respuesta para que
aparezca algo que le agrada. Por ejemplo, la rata presiona la palanca y
obtiene comida.
o El Refuerzo negativo (Er-) ocurre cuando la contingencia es negativa (R →
ausencia de Er), es decir, la emisión de la respuesta produce la retirada o
evitación de un estímulo aversivo. El sujeto realiza la respuesta para que
desaparezca algo aversivo (escape) o para que no ocurra (evitación). Por
ejemplo, la rata presiona la palanca para escapar de una descarga o para
evitarla. El efecto del refuerzo, sea positivo o negativo, es siempre el
aumento de la fuerza de la respuesta que le precede.
Refuerzo negativo vs. castigo: Difieren en la relación de contingencia R-Er y en el efecto
sobre la conducta. En el refuerzo negativo, la contingencia es negativa (R → ausencia de Er)
y, si el sujeto emite la respuesta, no se presenta el estímulo aversivo, lo que aumenta la
fuerza de la respuesta. En el castigo, la contingencia es positiva (R → Er aversivo) y, si el
sujeto emite la respuesta, se presenta el estímulo aversivo, lo que disminuye la fuerza de la
respuesta.
• Los refuerzos primarios tienen una capacidad reforzante innata y son
biológicamente relevantes (comida, agua, descarga, estimulación sexual). Se usan
comúnmente en estudios con animales.
• Los refuerzos secundarios o condicionados adquieren su valor reforzante a través de
la experiencia por asociación con un refuerzo primario mediante
condicionamiento clásico (dinero, aplauso, alabanzas). La mayoría de los refuerzos
humanos son secundarios. Un ejemplo experimental sería un timbre asociado a la
comida, que luego puede actuar como refuerzo secundario.
• Refuerzos extrínsecos y reforzadores intrínsecos: Los extrínsecos son exteriores al
organismo (comida, sueldo), mientras que los intrínsecos son interiores (autoestima,
motivación de logro, creatividad).
Principios básicos del condicionamiento instrumental
❖ Adquisición: La emisión de una respuesta seguida de un estímulo reforzador conduce
a la adquisición de una respuesta nueva o poco frecuente. El reforzamiento
produce una asociación entre la respuesta y el reforzador, aumentando la
probabilidad de que la respuesta se repita. Cuantos más emparejamientos R-Er,
mayor será la fuerza de la asociación y de la respuesta. Por ejemplo, una rata
aprende a presionar la palanca si se refuerza cada vez.
▫ El moldeamiento es una técnica para conseguir gradualmente una respuesta
final reforzando aproximaciones sucesivas a la conducta meta y dejando de
reforzar las respuestas iniciales. Implica establecer una jerarquía de
respuestas y reforzar primero las más distales y luego las más proximales a la
respuesta final.
❖ Extinción: Consiste en la retirada del refuerzo. Como consecuencia, se interrumpe
la relación previa R-Er y se produce una disminución progresiva de la fuerza de la
respuesta. Es el fenómeno contrario a la adquisición. La respuesta puede desaparecer
temporalmente pero reaparecer espontáneamente (recuperación espontánea). La
extinción es lenta y la respuesta puede reaparecer fácilmente. Para que sea eficaz, se
sugiere reforzar respuestas incompatibles con la que se quiere suprimir.
❖ Discriminación: En el entrenamiento de discriminación, se presentan varios
estímulos (Ed y EΔ), pero solo uno (el Ed) señaliza la disponibilidad del
reforzador. La conducta instrumental se pone bajo el control del Ed.
Por ejemplo, una paloma picoteará más un disco verde (Ed) asociado a comida que un
disco rojo (EΔ) donde no hay comida. Ejemplos humanos incluyen detener un taxi
solo si tiene la luz verde encendida o reducir la velocidad ante un cartel de obras.
❖ Generalización: Es el fenómeno contrario a la discriminación. Una vez establecida
una respuesta instrumental ante un Ed, otros estímulos semejantes también
adquieren la capacidad de señalizar la disponibilidad del Er o de controlar la
respuesta.
*La diferencia entre un Estímulo discriminativo (Ed) y un Estímulo delta (EΔ o E-) es que el Ed indica que una
conducta sí será reforzada, mientras que el EΔ señala que la misma conducta no será reforzada.
Tipos de condicionamiento instrumental
Según la contingencia entre la respuesta y la consecuencia y el efecto sobre la conducta, se
distinguen cuatro tipos principales:
• Reforzamiento positivo (o recompensa): Hay una contingencia positiva (R →
Er+). La respuesta produce la presentación de un refuerzo positivo, lo que resulta
en un aumento de la frecuencia de la respuesta.
• Omisión (o castigo negativo): Implica una contingencia negativa (R → ausencia de
Er apetitivo). La emisión de la respuesta produce la omisión de una consecuencia
apetitiva, lo que resulta en una disminución de la frecuencia de la respuesta. Es la
retirada de algo que interesa al sujeto. Es un buen sustituto del castigo para suprimir
conductas.
• Castigo (o castigo positivo): Hay una contingencia positiva (R → Er aversivo).
Cuando el sujeto emite la respuesta, recibe un estímulo punitivo, lo que resulta en
una disminución de la frecuencia de la respuesta.
• Reforzamiento negativo (escape y evitación): Hay una contingencia negativa (R →
ausencia de Er aversivo). La ejecución de la respuesta interrumpe o impide la
presentación del estímulo aversivo. El estímulo aversivo actúa como reforzador
negativo que aumenta la frecuencia de las respuestas que le preceden.
Variables que influyen en el condicionamiento instrumental
• Aleatoriedad: La conducta supersticiosa: Una conducta puede ser reforzada
accidentalmente si ocurre justo antes de la presentación de un reforzador, incluso si
no hay una relación causal real. El experimento de superstición de Skinner con
palomas demostró que los animales actúan como si su comportamiento estuviera
relacionado con la entrega del reforzador, incluso cuando este se dispensa
independientemente de la conducta. Esto se explica por el reforzamiento accidental
o adventicio. En humanos, las conductas supersticiosas son frecuentes en situaciones
de falta de control sobre las consecuencias, como juegos de azar o deportes.
Herrstein distinguió entre supersticiones idiosincráticas (basadas en experiencia
propia) y sociales típicas (residuos de contingencias pasadas).
• La pertinencia y la deriva instintiva: El CI no permite condicionar cualquier
respuesta de la misma forma. Algunas respuestas son más difíciles de condicionar
con ciertos reforzadores. La pertinencia explica que algunas respuestas se relacionan
naturalmente con el reforzador debido a la historia evolutiva del animal, facilitando su
condicionamiento. Breland y Breland observaron que en el entrenamiento de animales
surgían conductas típicas de la especie que interferían con las respuestas
operantes, como frotar monedas en mapaches. Llamaron a esto deriva instintiva,
que son respuestas naturales relacionadas con la comida que compiten con las
requeridas por el entrenador.
• Cambios en la cantidad de la recompensa: La efectividad de un reforzador puede
ser modificada por la experiencia previa con el mismo reforzador pero de
magnitud o calidad diferente. Esto genera fenómenos de contraste. El experimento
de Mellgren (1972) con ratas demostró que la velocidad de carrera dependía de si
habían recibido una recompensa grande o pequeña en una fase previa. En humanos,
los fenómenos de contraste pueden depender del estado afectivo.
• Controlabilidad: indefensión aprendida: La controlabilidad de las consecuencias
aversivas tiene un efecto en la conducta. Seligman y colaboradores (1975)
encontraron que la exposición a situaciones incontrolables lleva al desarrollo de un
comportamiento pasivo, similar a la depresión humana, denominado indefensión
aprendida. La hipótesis de la indefensión aprendida sugiere que los animales
aprenden que su conducta no tiene efecto sobre las consecuencias aversivas
incontrolables. Este fenómeno es robusto y generalizable a diferentes especies. La
indefensión aprendida puede prevenirse mediante la inmunización, que es una
primera experiencia con descargas controlables que bloquea el desarrollo de la
indefensión aprendida ante descargas incontrolables posteriores.
• Demora del reforzador: Ocurre cuando hay un periodo de tiempo entre la
respuesta y la entrega del reforzador. Los efectos de la demora deben analizarse
considerando distintas variables, ya que puede disminuir, aumentar o no modificar la
conducta.
• Devaluación del reforzador: Procedimiento que asocia el reforzador con un
estímulo de naturaleza contraria (por ejemplo, comida con una sustancia aversiva).
Esto tiene aplicaciones en el estudio de hábitos y adicciones en humanos.
• Magnitud del reforzador: Cuanto mayor es la cantidad y calidad del refuerzo,
mayor es la motivación del incentivo. Adaptativamente, los organismos buscan el
máximo refuerzo. También hay una relación directa entre la intensidad del castigo y
la supresión de la respuesta; un castigo más intenso es más eficaz.
• Motivación interna: Cuanto mayor es el nivel de motivación interna, más rápida
es la adquisición y mayor la tasa de respuestas. Experimentalmente, se aumenta
privando al animal de una necesidad básica. El nivel de motivación interna interactúa
con la motivación del incentivo. El estado de motivación interna puede limitar el tipo
de actividades que realiza el animal.
Programas de reforzamiento
Los programas de reforzamiento (PR) son reglas que determinan la forma y el momento
en que se reforzará una respuesta. Son clave para el mantenimiento y la ejecución de una
respuesta ya aprendida y actúan como sistemas de motivación. Su estudio ha permitido
entender por qué algunas conductas persisten. Tienen gran interés práctico en diversos
ámbitos.
Consideraciones para establecer un programa de reforzamiento incluyen definir la conducta
objetivo (inicial, meta, intermedias), seleccionar y ajustar el reforzador, determinar quién
reforzará, cuándo (cercanía temporal), dónde (en todas las situaciones relevantes o no) y
cómo (refuerzo específico más social).
Los programas simples de reforzamiento se basan en la frecuencia del reforzamiento y
pueden ser continuos o intermitentes:
Programas de reforzamiento continuo (RFC): Se refuerzan todas las respuestas
que realiza el sujeto. Esto lleva a una adquisición rápida y una tasa de respuestas
moderada y constante. La extinción es rápida al retirar el refuerzo. No es frecuente fuera
del laboratorio.
Programas de reforzamiento intermitente: El reforzamiento no ocurre después de
cada respuesta. Se dividen en programas de razón y de intervalo.
• Programas de razón: El refuerzo se administra después de un determinado número
de respuestas. Hay una relación entre el número de respuestas y los refuerzos
obtenidos.
o Razón fija (RF): Se requiere un número fijo de respuestas para el refuerzo
(Ej: RF 5 = refuerzo cada 5 respuestas). Genera una tasa de respuestas alta
mientras dura la razón. Pasar de una razón baja a una alta puede causar una
disminución de respuestas (tensión de razón). La extinción es rápida, aunque
no tanto como en el RFC. Ejemplo: trabajo a destajo.
o Razón variable (RV): El número de respuestas requerido cambia de una
ocasión a otra alrededor de un promedio (Ej: RV 5 = promedio de 5
respuestas). Genera una tasa de respuestas alta y estable. Una característica
importante es que la extinción es lenta. Ejemplo: juegos de azar.
• Programas de intervalo: El reforzamiento depende de un intervalo de tiempo. El
refuerzo está disponible una vez que se cumple el intervalo, y la primera respuesta
posterior al cumplimiento del intervalo es reforzada.
o Intervalo fijo (IF): El intervalo de tiempo es fijo (Ej: IF 30 s = refuerzo
disponible 30 s después del último refuerzo). Genera una tasa de respuestas
baja. La mayoría de las respuestas ocurren al final del intervalo, cuando el
refuerzo está próximo, mostrando una pauta de festoneado. Los sujetos usan
el paso del tiempo como Ed. La extinción es rápida. Ejemplos: ciclo de
lavado, exámenes universitarios.
o Intervalo variable (IV): El intervalo de tiempo es impredecible, oscilando
alrededor de un promedio (Ej: IV 30 s = promedio de 30 s). Genera una tasa
de respuestas moderada y estable. La extinción es lenta. Ejemplo: esperar
un taxi.
Los registros acumulativos son gráficos que muestran el número total de respuestas a
lo largo del tiempo, ilustrando los patrones característicos de cada programa de
reforzamiento.
Aplicaciones
Economía conductual: Área de la psicología que aplica los principios de la economía
para entender el reforzamiento. Considera que los organismos tienen necesidades y demandas
de productos que tienen un beneficio pero también un coste. En el laboratorio, se puede
estudiar la relación precio-consumo, aumentando el precio mediante la cantidad de trabajo
requerida (ej: aumentar la razón en un programa de RF).
La curva de demanda relaciona el consumo de un producto con su coste. Es elástica si el
consumo depende mucho del precio, e inelástica si no depende mucho.
Factores que determinan la elasticidad incluyen la disponibilidad de sustitutos (el más
influyente), el rango de precios (aumentos afectan menos a precios bajos) y el nivel de
ingresos (alto nivel de ingresos disminuye el efecto de la subida de precios). En estudios con
animales, la economía abierta (comida suplementaria) resulta en mayor elasticidad que la
economía cerrada (solo comida obtenida en la sesión). Más tiempo para responder o más
respuestas disminuye la influencia del aumento del coste.
Estudios sobre el autocontrol: El autocontrol implica a menudo elegir una
recompensa grande demorada sobre una inmediata y pequeña. Las preferencias suelen
cambiar a favor de la recompensa demorada grande a medida que aumenta el tiempo de
espera para ambas recompensas. Si las recompensas se entregan poco después de la elección,
se prefiere la pequeña e inmediata. Este cambio en la preferencia se observa tanto en personas
como en animales.
El valor de un reforzador se reduce con el tiempo de espera para recibirlo. La función de
descuento del valor (V = M/(1+KD)) describe esta disminución, donde V es el valor, M la
magnitud, D la demora y K el parámetro de la tasa de descuento. Si no hay demora (D=0), el
valor es directamente la magnitud. Cuanto mayor es la demora, menor es el valor.
Las diferencias individuales se reflejan en el parámetro K: un K mayor indica una
disminución más rápida del valor con la demora, lo que se asocia con menor autocontrol y
mayor impulsividad. Se han encontrado funciones de descuento más pronunciadas en
personas con dependencia a sustancias, niños pequeños y estudiantes universitarios con
conductas de riesgo.