0 calificaciones0% encontró este documento útil (0 votos) 44 vistas37 páginasCAPÍTULO 4 Aprendizaje
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido,
reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
Reforzamiento
y aprendizaje
Algunos conceptos y principios basicos
La idea de que los organismos buscan lo bueno y evitan lo malo es tan vieja co-
mo la antigiedad (y los argumentos filoséficos acerca de lo”bueno” y lo“malo”
son igual de vetustos). No obstante, en psicologia, lo evidente es que las contin-
gencias de reforzamiento asociadas con un comportamiento tienen una relacién
directa con el hecho de que el organismo sf ejecute dicho comportamiento.
Una pregunta antigua es: zcudl es la relacién entre aprendizaje y reforza-
miento? Thorndike (véase el capitulo 1) propuso una relacién particularmente
intima en su ley del efecto: el aprendizaje slo ocurriria si habia reforzamiento.
Esta idea fue sostenida por muchos de los conductistas y result6 ser una cues-
tin que a Hull y Tolman. Con el tiempo, ha sido claro en numerosos ca~
sos, que el aprendizaje tiene lugar sin ningtin reforzamiento, lo cual ha dejado
sin sustento a la ley del efecto. Sin embargo, todavia continiia la discusién acer-
ca de la relacién del reforzamiento con el aprendizaje. La respuesta fue delinea-
da de un modo general en el capitulo 1: el aprendizaje proporciona el conocimiento,
y los reforzadores las metas que guian alos organismos a actuar con base en ese
conocimiento. Este capitulo trata acerca de la forma en que los reforzadores pro-
porcionan esas metas,
La tesis basica de este capitulo consiste en que los organismos tienden a com-
portarse en forma racional. Usan las contingencias aprendidas en el ambiente y
seleccionan el comportamiento que posibilita el mejor estado de cosas para ellos.
Suponga que un organismo puede elegir entre cuatro posibles respuestas: RI, la
cual inerementa la cantidad de comida disponible; R2, que aumenta el nimero
de veces en que el organismo recibe choques eléctricos; R3, disminuye el niime-
ro de veces en que consigue alimentos; y R4, disminuye el nimero de veces en
que recibe choques. E] organismo no seleccionaria R2 0 R3, porque nada de ellas
le beneficia; elegird entre RI y R4 en funcién de cuén importante sea para él ob-
tener comida con relacién a evitar el choque eléctrico. Este es un comportamien-
to racional. En este capitulo se define con mas detalle dicho comportamiento y
se presentan evidencias relevantes para evaluar qué tan racionales son los orga-
nismos. En el principio de este capitulo se hace una aclaracién repetida en otras
127128
Cartruio 4 Reforzamiento y aprendizaje
i riencia racional [Link] no impli,
del libro: el comportamiento en apai
eee “Mfberacion consciente de parte del organismo. Mecans.
mente una Laing, Mi
a ova den producira menudo un comportamient© Ms adap,
‘mos asociativos simples pue
tat
0.
Por lo regular los organismos tienden a hacer lo correct; no obstant, ml
este capitulo se revisan algunos de sus comportamientos que al tse
i ‘un vaso medi -
Gptimos. Esta situacién puede verse como un
Tesde el punto de vista histico, la psicologia ha optado por TS PotPecta
medio vacia y ha destacac leeviaciones de lo dptimo. Sin embargo, en aij
i I ‘iones 4
f tacado las d : .
di los psicélogos han sido sorpren com
Seti do pues ia, casos no Optimos pueden en,
) i frecuenci
si Optimo de organismos simples. Con ;
fenderse como tendencis conductuales, por lo general adaptativas, QWs erro,
fl camino hacia situaciones por las cuales no evolucionaron. For ejemplo, la in.
clinacién humana por los alimentos dulces refleja una tendencia a seleccionar
Comida de alto valor nutritivo en algtin momento de nuestra historia evolutvg
Sin embargo, en la sociedad moderna, con su capacidad para crear cas abit
Famente productos comesibles, esta tendencia se nulifica cuando selecciong
mos las menos nutritivas de las opciones en alimentos.
El aprendizaje proporciona un conocimiento de las contingencias
de reforzamiento de las acciones, y los organismos por lo general
seleccionan Ia accién mais benéfica dado su conocimiento.
Comportamiento racional
{Qué significa comportamiento racional? Considere una situacién que podria en
Contrar una rata en un experimento de laboratorio. Suponga que dispone de tes
‘acciones significativas: puede presionar una palanca, jugar en una rueda girato-
ria o no hacer nada (0, al menos, ninguna de las dos primeras actividades). Sx
ponga que hay cuatro consecuencias posibles de sus acciones: recibir comida,
recibird un choque eléctrico, hard ejercicio, 0 no sucederd nada.
El experimentador ha dispuesto contingencias entre cada actividad y cadt
resultado, como se muestra en el cuadro 4.1. Si la rata presiona la palanca, exs
te 67% de probabilidad de recibir comida y 33% de probabilidad de recibir w
choque eléctrico. Si entra en la rueda giratoria, hay una certeza de ejercicio;
no hace cosa alguna, hay 90% de probabilidad de que no suceda nada y 10% de
que consiga comida, La rata ha aprendido estas contingencias conductuales @
explorar la situacién experimental. Los resultados en el cuadro 4.1 reflejan el pro
ducto de su aprendizaje
El simple hecho de conocer las contingencias conductuales del cuadro 4!
1no nos dice cual es el comportamiento dptimo para la rata; también necesitam:
saber el valor que le da a los diversos resultados. Supongamos que el resultad?
de nada tiene un valor de 0, la comida tiene un valor positivo grande de 10,¢
choque eléetrico tiene un valor negativo grande de ~25 y el ejercicio tiene unAlgunos conceptos y principios bisicos 129
Cuanro 4. ili
1 Probabilidades de resultados dados los comportamientos
Resultados
Comportamientos
Presionar Ejercicio en la
la patanca | rueda giratoria Noda
Alimento
7 oo 10
Choque eléctrico 3 00 00
Bjercicio
is oo 10 0
Nada
0 00 90
——————
lor positivo moderado de 1. Ahora es posible predecir lo que haré la rata si se
comporta en forma racional, La teoria racional plantea que la rata deberia selec-
cionar el comportamiento con el més alto valor esperado. El valor esperado de
tuna accién se calcula al multiplicar la probabilidad de cada resultado posible por
su valor y efectuar la suma de esos productos. Este resultado refleja el valor pro-
medio que puede esperarse de tal accién. En el caso de presionar la palanca, hay
dos resultados posibles: comida y choque eléctrico. Realizar el célculo para esas
dos variables produce
Probabilidad (comida) x Valor(comida) + Probabilidad(choque eléctrico)
x Valor(choque eléctrico)
= 67 X 10.0 + .33 x -25.0= -1.55
En el caso de entrar a la rueda giratoria, sélo hay un resultado posible. Su valor
se calcula como:
Probabilidad ejercicio) x Valor(ejercicio) = 1x 1.0 = 1.00
Por tiltimo, en el caso de hacer nada, hay dos resultados posibles:
Probabilidad(nada) x Valor(nada) + Probabilidad(comida) x Valor(comida)
= 90x 0.0 + .10 x 10.0 = 1.00
Por tanto, el ejercicio en la rueda y hacer nada tienen igual valor, por lo que se
puede predecir que la rata alternara entre ambas. Sila rata queda saciada en for~
ma tal que la comida pierda su valor, entonces se puede predecir que la rata se-
leccionaré exclusivamente el ejercicio en la rueda giratoria. Sila rata tuviera mas
hambre y la comida aumentara su valor, la rata seleccionaria no hacer nada; si
tuviera suficiente hambre (y la comida se aproximara a un valor de 15 0 més), la
rata seleccionaria presionar la palanca a pesar de los choques.
Si se manipulara el hambre de la rata, es probable que alternaria entre la
rueda giratoria, hacer nada y presionar la palanca, como lo plantea este anélisis
racional. Este comportamiento no significaria que el animal estaba representan-
do en forma explicita probabilidades, valores y calculando valores esperados, lo130 Cartruro 4 Reforzamiento y aprendizaje
rata, Mas bie
cual es extremadamente poco plausible en el case = bo mie pa — & bo
able que la rata estuviera haciendo algo mucho ma Ste eotaine com,
ae ae aaj eatuviera enfrascada en célculs raciondies TT TPE expen,
PoraTe cmos mecanismos simples para seleccionar él comps nto apre
piado.
‘acional implica la combinacién de las
Itados de las acciones con sus valores
‘on el valor mds alto esperado.
El comportamiento
probabilidades de los rest
y la selecci6n de la acci6n ci
© Efectos del reforzamiento sobre el aprendizaje
nel andl dro 4.1 esté implicito que aprender las contingencias o pro
seidteae Gis wpe Pro no depende del reforzamiento. Por ot
babilidades que aparecen en el mismo fe
create actia el animal dado el conocimient,
parte, el reforzamiento determina com ui
Fe esas probabilidades. Entonces, la afirmacién de que el aprendizaje no depen.
de del meforzamiento es bastante notable. Ciertas cosas son més utiles para un
organismo, y por tanto es ventajoso para éste aprender esas cosas en lugar de
otras. La evidente ventaja adaptativa de hacer que el aprendizaje sea contingen.
te con la recompensa fue parte de la intuicién de los primeros tedricos del apren.
dlizaje, quienes infirieron la conexién entre reforzamiento y aprendizaje. Sin
embargo, parece que tal conexién no existe. En el capitulo 1 revisamos la inves.
tigacién de Tolman sobre el aprendizaje latente en la rata, pero algunas de las
mejores investigaciones sobre la funcién del reforzamiento en el aprendizaje se
han realizado en sujetos humanos. Estas investigaciones no sélo indican que el
aprendizaje no depende de la recompensa, ademas muestran cémo, no obstan-
te, las contingencias de reforzamiento pueden influir en lo que se aprende.
En el caso de numerosos experimentos, se dice a los sujetos que obtendrin
mas recompensa por aprender algunos elementos que otros. Tales experimentos
consisten en hacer que los sujetos aprendan listas de palabras u otros estimulos
verbales. Entonces, los sujetos responden aprendiendo més rapido los elemen-
tos de mayor valor. Por otro lado, si la manipulacidn entre sujetos se hace de
modo que a algunos se les dice que todos los elementos son mas valiosos de lo
que se les dijo a otros sujetos, la recompensa no tiene efecto (por ejemplo, Har-
ley, 1965). Por tanto, una linea de investigacién (cuando la recompensa es ma-
nipulada intrasujetos) parece indicar que el aprendizaje depende del reforzamiento,
mientras que otra linea de investigacién (cuando la recompensa es manipulada
entre sujetos) parece indicar que no es asi.
La explicacién de estos resultados aparentemente contradictorios proviene
de estudios relativos a la forma en que los sujetos asignan su tiempo como und
funcién del reforzamiento. Un experimento tipico es el de G.R. Loftus (1972). £1
presenté a sus sujetos pares de pinturas naturalistas para que las estudiaran dk
rante tres segundos, Al elemento de la izquierda de un par se le asignaban 1,5
09 puntos, y-al elemento de la derecha del otro par se le asignaban 1, 5.0.9 pun-
tos. Mas tarde, estas imagenes se mezclaron con otras que no se habian presenAlgunos conceptos y principios baésicos 131
Voor de oa pinura
teins
2 5 puntos on
tL tome aol rae tain
£10
: swum
i i)
; so 5 pnts
jo $50
i
i 240
1 20)
9 r 3 9
Valor de pinta (nts)
a »
FIGURA 41 4) Probabilidad de reconocimiento yb) mimero iedio de fijaciones pa-
[Link] que valen 1, 5 y 9 puntos, Se trazan curvas separadas para cada uno de
los tres valores de la pintura con la que formaba par. (Tomado de G.R. Loftus, 1972.)
5
oor de a pinta (puntes)
tado, antes ¥.se pedia a los sujetos que identificaran_las pinturas que habjan es-
tudiado. Los sujetos recibieron puntos adicionales en proporcién al valor de las
Pinturas que pudieron reconocer. La figura 4.1n muestra la probabilidad de re-
conocer la pintura objetivo como una funcién de su valor y el valor de la pintu-
ra con la que formaba un par. Los sujetos mostraron mejor memoria de
4s puntos se le hubieran asignado a 6
reconocimiento para una pintura entre
fa y menos puntos se Je hubicran asignado.a la otra pintura del par. Dicho ex
Perimento es similar a Jos estudios mencionados antes, que muestran los efectos
de la recompensa cuando ésta varia dentro de un conjunto de elementos
Loftus también observ cudn a menudo se fijaban los sujetos en cada pi
tura durante los tes segundos de exposicidn. Ess datos se presentan en leh
gura 4.1b. Los sujetos se fijaban mas en la pintura si era de mas valor que la otra
Este resultado plantea la cuestién de si el desempefio de la memoria es una fun
cidn del valor de la pintura 0 del ntimero de fijaciones. Loftus hizo el andlisis re-
levante de la figura 4.2, donde el desempeio de la memoria se traza como una
funcién del niimero de fijaciones para pinturas de diferentes valores. Como pue-
de verse, el desempeiio de la memoria fue una funcidn de cusn a menudo fija-
ron la vista los [Link] pintura [Link] [Link] su valor. Como ilustra la
figura 4.1, los sujetos tendieron a mirar mas las pinturas de mayor valor y, por
tanto, muestran una mejor memoria para esas pinturas. Sin embargo, como con
firma la figura 4.2, cuando Loftus control6 el mimero de fiaciones recibidas por
una pintura, el valor no tuvo efecto. Estos resultados reflejan la comprension ge=
neral de la influencia de la recompensa sobre la memoria, La gente (y presumi~
blemente otros animales) tiende a dedicar més tiempo a poner atencién en el132 Cartruro 4. Reforzamiento y aprendizaje
FIGURA 42 Probabilidad de
e-tpats —_miento como una funcin del ng
Timm folder ijaciones. Se az una ct
cosine paraa para is pinta que vai
BPS puntos Fuente: CR. Lotta
fixations and recognition memory (t
fate, Cgnie Polo, ae
Bena), Retmpreso con auorass
del autor 5
03}
pen or 1
mero de tyciones
material que vale més para ella, pero la recompensa no afecta lo bien que apre,
et al material .
cbr neetee Cuando diferentes elementos de una lista tienen més Vator, ass
jetos tienden a asignaries mds tiempo a ells y a recordarlos mejor. Si todos y
Jets eae una lista tuviran el mismo valor, ls sujetos ro podran asi,
Tee repo en forma difeencial como una funcin dela recompensa, En esieg
ee efor asignado a los elementos no tendria efecto sobre el aprendizae
material asociado con
Los organismos ponen més atencién al
Ia Ia atencién, no hay
una recompensa mayor, pero si se control
efecto de la cantidad de recompensa en el aprendizaje.
Recompensa y castigo
Los resultados o estimulos que se hacen contingentes con el comportamieni
pueden ser deseables o aversivos. Cuando son deseables es normal refers
Ios estimulos como recompensas, y cuando son aversivos es mas convenienter
ferirse a ellos como castigos. Cuando los organismos producen la respuesta «
cuestién, la contingencia puede ser tal que el estimulo sea dado o no sea dais
El cuadro 4.2 ilustra las cuatro posibilidades ldgicas obtenidas al cruzar los ®
timulos deseables o aversivos con diferentes contingencias entre el estimuloy!
respuesta. En el primer caso, la recompensa se hace contingente con un «o®
portamiento. Por ejemplo, a un nifio puede darsele una suma de dinero porAlgunos concepts y principios bisicos 138
CuapRo 4.2 “
; lo y contingencia sobre la respuesta
sjecuta Estima eliminado si se ejecula
No el comportamiento
ne Reforzamiento positive i
(entrenamiento de fcompons) Ercan
Estimulo oe oman
Castigo Reforzamiento negativo
Eee
dar el césped, situacis
To deseable se hace corp amiem Eel segundo caso, la prdida de un estimu-
dle muchos padies oan nget® eon el comportamiento. Eta a respuesta favorita
noce como entre arena Comportamiento:”;No vasa salir!” SituaciOn que se co-
imiento, La tercere pesgit® POF omision y que debera disminuir el comport
pitti lao ide hacer contingente un estimulo aversivo con la
otra wan ate tna fespuesta, Este es el castigo clésico, como una nalgada, que
deberia disminuir el comportamiento. La posibilidad final es que la de-
saparicion de un estimulo aversivo sea contingente con el comportamiento, si-
tuacion que se conoce como reforzamiento negativo, y que deberfa hacer més
probable el comportamiento. Cuando el comportamiento evita que ocurra el es~
timulo aversivo se llama evitacién, y cuando elimina el estimulo aversivo se lla-
ma escape.
El supuesto fundamental es que estas contingencias controlan de cerca el
comportamiento. Durante un largo tiempo, los tedricos del aprendizaje fueron
renuentes a aceptar semejante proposicién porque parecia implicar que algo en
cl futuro (el reforzamiento) causaba la respuesta. Las causas solo funcionan ha
cia adelante en el tiempo, y asi el reforzamiento futuro no puede causar el com-
portamiento presente. Como se revisé en el capitulo 1, Tolman fue criticado por
su propuesta de que los animales ejecutaban ciertos comportamientos debido a
que esperaban que éstos conducirian a ciertos resultados deseables. En el capi-
tulo 1 también se revisé la contribucién importante de los modelos de simula-
cidn, como el SGP (Solucionador general de problemas) de Newell y Simon, los
cuales mostraron cémo el conocimiento de las contingencias, aprendido de la
experiencia, podria dar como resultado el comportamiento dirigido a una meta.
Es el conocimiento o expectativa de reforzamiento, basado en la experiencia pa-
sada, lo que causa que el animal se comporte como si sus acciones estuvieran
determinadas por el futuro. No todos los organismos que exhiben aprendizaje
instrumental se comportan como SGP, pero el SGP demuestra que hay formas
‘mecénicas en las cuales el conocimiento de las contingencias puede controlar el
comportamiento. Se han propuesto muchos otros mecanismos desde entonces,
algunos de los cuales pueden ser més plausibles para los organismos inferiores.
En muchos casos, el conocimiento de las contingencias no es explicito o cons-
ciente; més bien, es conocimiento implicito en el procesamiento de! organismo.134 CAPETULO 4 Reforzamiento y aprendizaje
Un chimpancé entrenado para intercambjg,
fichas por alimento,
1 en los experimentos de condiciona-
rma que obtienen estimulos deseables
Los organismos se comportai
miento instrumental de tal fo
xy evitan estimulos aversivos.
norm} ejesibiratye ob eiptiis! Sonn a TN
Control aversivo del comportamiento
Los cuadros 4.1 4.2 sefialan que los estimulos aversivos, como un choque elée
trico, son efectivos para controlar el comportamiento y sus efectos son simétr
cos con los efectos de estimulos deseables, como la comida. Como se sefialé en
el capitulo 1, respecto a las actitudes de Thorndike acerca del castigo, ha habi-
do una larga tradiciGn en la psicologia popular en creer que el castigo no es efec-
tivo. En resumen, estas creencias son desacertadas. Esta seccién revisa la evidencia
de que los estimulos aversivos son bastante efectivos, y expone cémo maximi-
zar su eficacia. Los estimulos aversivos pueden usarse en el castigo para dismi-
nuir la tasa de alguna respuesta o en el reforzamiento negativo para incrementat
Ja tasa [Link] respuesta que sitve para eliminar el estimulo aversivo (véase
el cuadro 4.2).
Castigo
En ocasiones el castigo puede ser tan efectivo que una sola experiencia de apren-
dizaje elimina un comportamiento. Es poco probable que si un nifio toca una esControl aversivo del comportamiento 135
3
8
FIGURA 43. Porcent,
uestas como una fun
Porcentsie medio de respuestas
aje medio de res-
cidn de las sesiones
Po control de choque no contingente. (To. a
mado de Camp y cols., 1967.) erates Demora del castigo, segundos
; {ufa caliente lo vuelva a hacer. En un paradigma experimental (Jarvik y Essman,
1960), una rata es colocada sobre-una plataforma si s0-de raja
Cuando pisa fuera de la plataforma recibe un choque eléctrico doloroso. Des-
pués de una Sola experiencia,ta-rata-no [Link] otra vez, Aprendi6 a supri-
mir por completo [Link] natural [Link] solo ensayo.
Varios factores influyen en la efectividad del castigo. Uno de los més impor-
tantes es la der ‘ste entre la respuesta y el castigo (del mismo modo
eit que Tz demora dal telatzamienle postive aescon heehee) Eo
perimento que ilustra los efectos de la demora, Camp, Raymond y Church (1967)
contrastaron varios grupos de ratas. Primero cada grupo era entrenado para pre-
sionar una palanca en respuesta a un chasquido, luego de lo cual las ratas eran
reforzadas con comida. Después de este entrenamiento, la mitad de las ocasio-
nes que presionaban Ia palanca resultaba en un choque con demoras variables.
Para un grupo, el chogue eléctrico venia inmediatamente después de presionar
la palanea, y para otros grupos venia 7.5 0 30 segundos después. Un grupo con-
trol de ratas recibié igual nimero de choques eléctricos, pero los choques no se
relacionaban con el momento en que presionaban la palanca. La figura 4.3 mues-
tra el porcentaje de chasquidos ante los cuales las ratas presionaron la palanca.
Notese que el grupo en el que operd una demora de 30 segundos muestra sélo
un poco mas de supresién de la presidn de la palanca, que el grupo control pa-
ra el que no habia contingencia. (Es decir, los choques se presentaban segiin un
programa que no se relacionaba en absoluto con el momento en que era presio-
nada la palanca,) Ocurrié mucha mds supresién de la presidn de la palanca en
las ratas que recibfan el choque inmediato.
Es facil extrapolar este resultado obtenido con ratas y llegar a la conclusién
de que el castigo debe ser inmediato con los humanos, en particular con los ni-
a136 Captruro 4 Reforzamient y aprendizale
o8
06
*
i
Hoa
s
i 4 Mediana de la prop
( AA le a proporcisn,
Z ucian como una fancion dea inj
Supra chogue eléctico No contingeny
es valors nfrioes refean un
fen la supresion de las res
FL? Sere a irae fo de Chih, 1969)
Intensad del choge, mA
¢ les puede informar la contingencia gx
ios 5 it
dos mine castige, es probable que la inmediater dy
ios, Sin embargo, como a
to y el ca
existe entre el comportamient
castigo no sea tan importante.
se aes a del eatigo también puede tener una fuerte influencia en la,
resign de la respuesta. La figura 44 muestra datos de Church (1965) sobre
pantidad de supresi6n (véase la exposicién de la supres Oo de respuesta en |g
fexpuesta emocionalcondiionada [REC] con respecto 2 Figura 2.9) en la pe.
‘ion dela palanca para diferentes niveles de severidad del choque (incluyends
siieeneia de choque) Selo hubo una pequefa supresién con 15 mA (iliamp
ves) de descarga, una buena cantidad mas con .50 mA, y todavia més con 2)
mA. Extrapolar este resultado a los seres humanos plantea algunas de ls cus
tiones étices en el uso del castigo, ya que ciertos grados de castigo simplemen
te son excesivos para ser usados.
Para que el castigo sea efectvo, deberia ser aplicado en forma consists
con un nivel tan severo como sea aceptable. N.E, Miller (1960) encontré ques
se introdujeran castigos moderados y enseguida se incrementara su severidad,¢
organismo se volveria menos sensible al castigo y aun en su nivel més severo
serfa tan efectivo como habria sido si fuese introducido de inmediato (un ejer-
plo de la habituacién descrta en el capitulo 2). Azrin, Holz y Hake (1963) en
contraron que la efectividad del castigo se reducia si solamente algunas respuests
eran seguidas por el castigo.
Church (1969) examind el efecto del castigo no contingente sobre el casi:
contingente posterior. A las ratas se les entrené durante diez sesiones de 30
rnutos, en las que aprendieron a presionar una palanca a cambio de comida.
las sesiones 11 a 15, un grupo experimental recibié al azar descargas eléctrcs
de 105 voltios, independientes de las respuestas, mientras un grupo contro
tinué recibiendo sélo reforzamiento durante esas sesiones. Ambos grupos fitControl aversivo del comportamiento 137
a
Cipocim ] Reever [Ss
| mone?
T
FIGURA 4.5 Mediana de la tasa de res-
Puesta ante un castigo de 145 voltios co
mo una funci6n de Ta exposicién previa
a un chogue elgetrice no\contingente de
105 voltios. (Tomado de Church, 1969,) Sesion
8
T
Tata 6 respuesta come porcentaje del nes base
8
T
ron entrenados de nuevo pero sin choques durante las sesiones 16 a 20, Por uil-
timo, durante las sesiones 21 a 25, ambos grupos recibieron choques de 145 vol-
tios contingentes con la presién de la palanca. La figura 4.5 muestra los resultados
en funcidn de tasas de respuesta relativas a las tasas durante las diez sesiones
iniciales. Durante la descarga no contingente inicial, las ratas del grupo experi-
mental presionaron un poco menos, mostrando una REC (véanse los capitulos 1
¥ 2), Se recuperaron durante el reentrenamiento y continuaron con un nivel al-
to de respuesta durante la fase final, cuando la descarga se hizo contingente a
la respuesta. En contraste, las ratas del grupo control mostraron una supresion
casi completa en la fase final, cuando la descarga se hizo contingente con su res
puesta. Las implicaciones de este experimento son claras: si el castigo ha de ser
efectivo, debe ser contingente tinicamente con la respuesta que se intenta supri-
mir. stige eden hacer ineficaz su uso po
El castigo es mucho mas efectivo si al organismo se le ofrecen respuestas al
ternativas. Con frecuencia, el comportamiento que deseamos eliminar ocurre por-
que ef organismo de alguna manera lo encuentra reforzante: si se ponen a
disposicién del organism6 otras respuestas que proporcionen estos reforzadores,
serd mas facil eliminar el comportamiento indeseable. Por ejemplo, si las perso-
nas son capaces de trabajar para ganar dinero, de modo que no tengan que ro-
bar, los castigos por robar (por ejemplo, el encarcelamiento) seran mas efectivos
para disuadir el comportamiento.
Un experimento realizado por Azrin y Holz (1966) muestra la importancia
de ofrecer un comportamiento alternativo a fin de que sea efectivo el castigo.
Primero se entrenaron palomas para picotear en una tecla y recibir alimento. Lue-
go recibieron una descarga eléctrica por picotear en la tecla. Habia dos condi-
ciones: en una habia una tecla més que podian picotear y en la otra sélo habia
una tecla. La figura 4.6 muestra la respuesta a Ja tecla con la que recibian des-
carga eléctrica como una funcién de la intensidad del choque eléctrico, hasta al-138 Cartruro 4 Reforzamiento y aprendizaje
ena
‘sponte
\
1 sinrespueste
1 staratia
‘sponse
i
\
\
cor
ah ton
ol Intensidad de! castigo, voitios
i 1a funcién de la inte
plication, Honig (ed.). Derechos reservados © 1966, P 405. Reimpreso con autorizag,
fe Prentice-Hall, Englewood Cliffs, Nueva Jersey:
| rededor de 40 voltios, Sin embargo, la intensidad de la descarga no era lo
tante severa para afecar la respuesta a la tecla. No obstante, a 50 voltios tao
suficiente intensidad para producir un cese completo de la respuesta y un cay
4 la tecla alternativa, en la condicién en que habia otra tecla. En la cond
cién sin la tecla opcional, las palomas persistieron en picotear cuando la descag
era mucho més intensa.
Testa revision del castigo no debe entenderse como tina exhortacin aus
Jo como un mecanismo importante para controlar el comportamiento de es
ios o de otros. El castigo puede tener diversos efectos secundarios negatives seis
‘Aarin'y Hole (1966) afitmaron que el castigo puede conducir a una supresinge
neral de todos los comportamientos, buenos y malos; puede conducir tanto
enojo en la persona castigada como motivar el engaito para evitar el castigo. Le
nifios algunas veces mienten a sus padres como respuesta a castigos pasads)
asi evitan los castigos futuros. Ademés, existe evidencia de que el castigo cr
duce a comportamientos més agresivos en la persona castigada (Ulich y Az
1962). Por iiltimo, los niios pueden usar el castigo en forma inapropiada en s*
interacciones con sus compafieros, copiando el comportamiento de sus pas
hacia ellos. (Eron, Walder, Toigo y Lefkowitz, 1963).
El castigo es efectivo cuando se administra de inmediato, con
| | severidad y en forma consistente y en la medida en que se
ofrecen al organismo comportamientos alternativos.Control aversivo del comportamiento 139
Reforzamiento negativo
Frerisime modo en que el comportamiento puede mantenerse porque lograes-
* leseables, también logra mantenerse en cuanto evita estimulos aversi-
vos. Solomon y Wynne (1953) colocaron un perro en un compartimiento con un
Piso enrejado de acero. Al principio de un ensayo, la luz se apagaba; 10 segun-
dos después se enviaba una severa descarga eléctrica por la eeilla, esto causaba
que el perro coztiera por todos lados tratando de eseapar: para hacerlo podia sal-
tar sobre una barrera y asi evitar el choque eléctrico, y con el tiempo brincaba la
barrera para caer dentro de otro compartimiento libre de corriente eléctrica, En
lunos cuantos ensayos aprendié a saltar la barrea al presentarse la sefal y de es
te modo evitaba por completo el choque eléctrico.
Una caracteristica curiosa de dicho comportamiento de evitacién es que pue-
"er mucho mas dificil de extinguir que el comportamiento mantenido por re-
‘amiento positivo. Si ya no recibe comida por algtin comportamiento, como
brincar por encima de una barrera en respuesta a un estimilo, un perro cesa pron-
to su comportamiento. Por otto lado, si se elimina el choque eléctrico, el perro
continuard respondiendo sin ninguna sefial de extincién durante 200 ensayos,
escapando incluso més rapido (Solomon, Kamin y Wynne, 1953). El comporta-
miento de evitacién del perro le niega la oportunidad de aprender que la con-
tingencia del tono y el chogue ya no est en funcionamiento. Hay dos maneras
de extinguir un comportamiento de evitacién. Si el choque es administrado aun-
que ocurra el comportamiento (Davenport y Olson, 1968), el animal aprende que
no hay contingencia entre el comportamiento y la evitacién del choque eléctri-
co. El comportamiento de evitacién también puede extinguirse impidiendo que
el animal lo ejecute. Baum (1969), en un estudio de evitacidn en ratas, introdu-
jo una barrera del piso al techo que impedia que escaparan las ratas. Después
de aproximadamente cinco minutos de exposicién forzada a la situacisn aversi-
‘va anterior, las ratas parecian aprender que ya no habia una contingencia entre
el tono y el choque
La prevencién del comportamiento de evitacién puede usarse en la terapia
para ayudar a los pacientes a deshacerse de sus fobias. For ejemplo, un nifio de
11 afos al que aterraban los ruidos estrepitosos fue persuadido a pinchar una
serie de globos (Yule, Sacks y Hersov, 1974). Después de unas cuantas sesiones
de pinchar globos, el nifio perdié la fobia y pudo disfrutar reventando los glo-
bos como lo hace la mayoria de los nifios. Esta terapia funcioné porque se logrs
que el nifio se percatara de que no pasaba nada terrible tan sélo porque habia
un ruido fuerte.
La teoria clasica del aprendizaje de evitacidn es la teoria de los dos proce-
s0s, propuesta por Mowrer (1947) y ampliada por Miler (1951). De acuerdo con
Ia teoria de los dos pracesos, hay dos pasos en el aprendizaje de evitacién. Pri-
mero, existe una fase de candicionamiento clisico producida por la presentacién
conjunta del EC (por ejemplo, el tono) con el El (por ejemplo, el choque eléctri-
co). De acuerdo con la teoria de los dos procesos, el EC llega a producir el mie-
do como una respuesta condicionada. El segundo paso implica el condicionamiento
instrumental de la respuesta de escape porque eliminé el EC que habia adquiri
do propiedades aversivas.
de s
forz:140 Cartruio 4 Reforzamiento y aprendizaje
izaje de evitacion en UP omponetiside condicion
te de condicionamiento ins al sigue i
gee teora de 18 dos PFOCOS €5 SU Cong
recionariento instrumental. Lag pe?
nto csico y del instrumental parce
1 la respuesta condicionada de teng,
Ja que se aprende como Et ios en el epiiog sobre COndicig
1a ue oe area, ands bien es el Bl el que $© cOndlCOns Ce ee
Ee decir, el animal llega a esperar que el FS A acd con frecue de eg,
tacién se da en anticipacién del EL ‘Aunque el EC prove STE yan Cia mie
Ulovelonimal dard la respuesta de evtacio incluso CHP YT 38 90 prov
swe. Por ejemplo, Kamin, Brimet y Black (1962) moet) gut os anima
continuaron evitando la respuesta incluso después de ae dl : ‘bia perdide
su capacidad de provocar una respuesta emocional condicionada (supresién 4
Ja presién de la palanca; véanse Jos capitulos ly 2). ara
Segundo, al parecer la eliminacion del EC no es neces ra ra aprender jy
respuesta de evitacidn. Kamin (1956) mostro que los animales aprendian up,
respuesta de evitacién incluso cuando el EC permancci® después de la respuey.
te or tanto, los animales aprendieron aun cuando no estuvicran climinang,
tT EC Otra demostracin de que la eliminacién del EC no es necesaria par
aprendizaje es proporcionada por el procedimiento de posposicin del chose
eléctrico de Sidman (Sidman, 1966) en el cual no hay un EC evidente. Este pro.
cedimiento implica presentar un estimulo aversivo, como un choque eléctrcy,
Sin advertencia cada cierto tiempo. Sin embargo, el animal puede evitar el
timulo si ejecuta alguna respuesta. Por ejemplo, al presionar una palanca,e
animal podria posponer el choque por 30 segundos. Si presiona la palanca ey
ese periodo de 30 segundos, consigue una suspensidn temporal de otros 30se-
gundos desde el instante de esa nueva presién. Si el animal presiona la pala
ca al menos una vez cada 30 segundos, evita el choque en forma permanente
LLos perros dominan bien esta tarea, responden sélo unas cuantas veces per
minuto y evitan casi todos los choques. El contexto experimental sirve como!
EC para este comportamiento, pero la respuesta no se libra de este EC, sil
del El.
En el capitulo 3 expusimos la evidencia de que en el reforzamiento posi
el organismo ha aprendido una asociacién entre el EC, la respuesta y dicho
forzamiento. El anélisis correspondiente en el caso del reforzamiento negative
(por ejemplo, Seligman y Johnson, 1973) es que los animales han aprendido us
asociacién entre el EC, la respuesta y la evitacién del estimulo aversivo. Del mis
mo modo en que los organismos aplican su aprendizaje para seleccionar el co™
portamiento en el caso del reforzamiento positivo, también usan el conocimien®
de esta asociacién en el caso del reforzamiento negativo.
Esta division del aprendi
miento clésico y un component
aceptada. Lo que es problematico of
‘cin del condicionamiento clasico y 4°
pectivas mas modesnas del condicionsi™!
A 2
mas apropiadas. Primero, no parece (Ue S
:C. Como sefialam«
Pueden mantenerse patrones estables de comporta
éstos evitan consecuencias aversivas,La naturateza del reforzamiento 141
pa GN
La naturaleza del teforzamiento
qeoria de la reduccién de la pulsién
¢Qué hace reforzante a
reforzadores po
‘vos son malos,
tivos de sobre
descendientes. El problema co
qué es bueno para él en térmi
Puesto varias pulsiones: cons
dolor, las cuales,
perfecta,
un reforzado
Vos son buenos
los coneeptos”b
encia del oy
? Una idea obvia de la biologfa es que los
Para el organismo y los reforzadores negati-
"ueno” y"malo” son definidos en términos evolu-
rganismo y de maximizacién del mimero de
n esta perspectiva es que un organismo no sabe
iNos tan abstractos. Por consiguiente, se han pro-
tumir alimentos, beber agua, copular y escapar del
conte oe estan correlacionadas, aunque de manera im-
reducen osatistacen cons tas 2 més largo plazo. Los comportamientos que
Pectiva se conoce con Pulsiones son reforzantes para el organismo. Esta pers-
mmiento, y ha teniden eng (Cor ae la reduccién de las pulsiones del reforza-
” ¥ ha tenido una larga historia en la psicologia,
Una pulsion se entiende como un estimulo aversivo que puede volverse més
extremo a medida que el organismo bajo privacin. Para cittas pulsiones, como
el hambre y la sed, esta proposicisn es intuitiva. Casi todos nosotros hemos sen
tido hambre, encontréndolo aversivo, y mas atin si continta la privacion.!
El mayor problema con la teoria de la reduccién de la pulsidn del reforza-
imiento e5 que los organismos pueden ser reforzados por acontecimientos que
no tienen valor biol6gico obvio y para los cuales es extrafio proponer un estimu-
lo de pulsién cada vez més aversivo, Por ejemplo, Butler (1953) encontrd que los
monos aprenden a ejecutar un comportamiento tan sélo por la oportunidad de
echar una mirada al laboratorio por unos cuantos instantes. Las ratas aprenden
comportamientos por la oportunidad de correr en una rueda giratoria. Se po-
drian postular pulsiones de cutiosidad y pulsiones de ejercicio (quiz con el abu-
trimiento el estado aversivo) y especular acerca de su valor biol6gico potencial
(por ejemplo, los valores del aprendizaje acerca del ambiente y mantenerse en
forma), pero a mucha gente le parece que equivale a crear una teoria bastante
hueca. Cualquier comportamiento pudiera explicarse al postular una pulsién pa-
ra él y proponer alguna funcién biolégica caprichosa. Ademés, tales pulsiones
hipotéticas no encajan bien con las experiencias de privacién de necesidades bio-
légicas mas basicas. Mucha gente pasa toda su vida sin un fuerte deseo de ejer-
citarse, similar al deseo que tienen de comer después de un dia sin-alimento.>
Un problema todavia mas serio para la teoria es que el comportamiento puede
ser reforzado por cosas que no reducen las pulsiones o que incluso las incremen
tan. Por ejemplo, ratas macho recorrieron un laberinto por la oportunidad de copu-
Jar con una rata hembra, aun cuando no se les permitio eyacular (Sheffield, Wulff y
7 Sin embargo, con frecuencia parece haber un limite a incremento de la avesividad si contnda el
period de pivacién.
2 Algunos atletas y otras personas, sin embargo, reportan tales deseos,142° Cariru to y aprendizaje
10.4. Reforzamiento y 4?! ij
‘s las por un co;
pan siendo reforzadi
tas macho esta . : "hn
Backer, 1951). Las 1 estat Se
a pulsion aume™ a de miembros atractivos det gen!
yba con une i
que las deja te la compa jembros aati dl
manos encuentran reforz: ren simple compan a eel omens
mane pons a8 SP gi pln bales My
’ que la :
puede ser reforzante, més
i ie as pulsiones propuso que el
pie ccién de varias pulsiones
i dt
La teoria de la ree all
reforzamiento consist
bioldgicas.
Teoria del reforzamiento de Premack ;
Estas dificultades condujeron a ona cone a infuido en muchas
rack (1959, 1965). La propuesta de Prenne Fon los que refuerzay ®
subsecuentes, es que las respuestas N91 TT mento, som reforzantes pe*
tsi esque los reforzamintos tics, 2m? ee rn
que implican comportamientos muy val0rad0s, ore cue un ee
tos tienen valor para el organism ¥ que Un cop,
que todos los comportamiento: ortamiento de menos valor
portamento més valorado refuerza aun comportaminve ©” LI vier.
tanto, comer refuerza el hecho de correr en una rueda gieton Pata una ry
hambrienta, debido @ que comer es mis valioso que cores FI Valor relatvog
las dos actividades puede determinarse de varias maneras. Un metodo es obs,
var la frecuencia de cada actividad cuando el organismo tiene la oportunidad ¢,
efectuar ambas. Una rata hambrienta pasa més tiempo comiendo que corrieng,
en una rueda giratoria, Otro método es ensefar al animal un modo de conse,
guir cualquiera de los dos reforzamientos; por ejemplo, presionar una palancs
produce comida y presionar otra permite el acceso a la rueda gitatoria; el resu)
tado escogido mas a menudo es el preferido.
Las predicciones basicas de la teoria de Premack han recibido mucho apo.
yo. Por ejemplo, una rata sedienta puede mostrar que prefiere beber en vez de
correr en una rueda giratoria, y se incrementard su tasa de correr en la rueda g}
ratoria si ese comportamiento le da acceso al agua. Por otra parte, una rata que
no esté sedienta puede mostrar que prefiere correr en la rueda giratoria en lu.
gar de beber, e incrementaré su comportamiento de beber si eso le da acceso a
una rueda giratoria (Premack, 1962). Premack (1959) encontré resultados simi:
Jares con nifios, Algunos nifios prefirieron comer dulces en vez de jugar en una
maquina de billar automatico. Si el acceso a los dulces se hacia contingente con
jugar en la méquina, su tasa de jugar en la maquina aumentaba. Sin embargo,
si jugar en la maquina se hacia contingente con comer dulees, su tasarde come
dulces no cambiaba o disminuia. Se observaron las relaciones inversas en los
nifios que preferian jugar en la maquina que comer dulces. De acuerdo con Pre
mack, el castigo ocurre cuando un organismo es forzado a realizar un compor
tamiento menos valorado con la consecuencia de realizar un comportamiento de
més valor. Por tanto, forzar a los nios que prefiieron los dulces a jugar en la
maquina para poder comer dulces reducirfa su tasa de comer dulces
alternativa desarrollada popLa naturateza del reforzamiento 143
400
ae
}
4 coh one
FIGURA 4.7, Comparacién de las tasas =
base de correr y lamer para ratas pri
vadas de agen ral Gaya
Privadas de agua. Finda sebik
Premack (1971) describié un experimento de Weisman y Premack (1966) que
ilustra la relatividad en los conceptos de reforzamiento y castigo. Compararon
Tatas que fueron privadas de agua y otras que no lo fueron. Cuando les ofrecie-
Ton accesos simulténeos a una rueda giratoria y a un bebedero, las ratas sin agua
pasaron mds tiempo lamiendo el bebedero que corriendo, mientras que las ra-
tas no privadas pasaron mas tiempo corriendo. La figura 4.7 muestra la cantidad
de tiempo invertido en las dos actividades en las dos condiciones, cuando las ra-
tas podian elegir realizar cualquiera de las dos. Premack us6 esta informacién de
leccién libre para establecer el valor relativo de las dos actividades. Para las ra-
tas privadas de agua era més valioso beber, mientras que para las otras correr en
la rueda giratoria era més valioso.
Luego Weisman y Premack introdujeron una contingencia tal que si una ra
ta lamia 15 veces el bebedero tenia que correr por cinco segundos y no podia
correr mas de cinco segundos. ¢Qué haria esta contingencia a su comportamien-
to de lamer? Para las ratas no privadas, la rueda giratoria era més valiosa, y es-
ta contingencia reforzaria el comportamiento de lamer. Para las ratas privadas,
la rueda era menos valiosa, y por tanto tener que correr en ella deberia castigar
el comportamiento de lamer. La figura 4.8 compara las tasas de lamer antes y
después de la introduccién de la contingencia. Como predijeron, la contingen-
cia reforz6 el comportamiento de lamer para las ratas no privadas y aumenté su
tasa de lamidas. Por otra parte, castigé el comportamiento de lamer para las ra~
tas privadas y disminuy6 su tasa de respuesta.
Premack propuso que hacer contingente un comportamiento A
con un comportamiento B reforzaria B si A era més valioso y
castigaria B si A era menos valioso,miento Y aprendizaje
144 Cartruto 4 Reforzat
ats prada a8
tas pads
FIGURA48 Impacto de ung
cine lamer y corer eng,
midas para rata privadas cod
ae ee ‘que no estaban privadas, yi
catingenca
Bases nerviosas del reforzamiento
Los conocimientos sobre el reforzamiento (y las ile a : a de},
reduccién de la pulsién y la teoria de Premack) pueden obter ; a los esty.
dios de los mecanismos cerebrales implcados en el reforzamiento. Mucha 4
estas investigacones indican que una estructura paticularmente importante
¥2 el reforeamiento es el hipotlamo, una estructura subcortical del cerebro (ee
se la figura 1.15), Desde el punto de ita flogentico, el hipotélamo es una par,
‘muy vila del cerebro. Sis expan diferentes partes del hipotlamo, los ay
imales commen con exceso, dejan de comer o bebe, o muestran pérdida del con
Epulmento sexual. La estimulacin elétca de dieentsregiones puede acting
‘t apetito y ol comportamiento sexual (para una resin, vase Stein, 1998)
rae, Milne (0954) encontraron que la esimulacén elética del dress
Petalica del cerebro de las ratas también pod servi como un reforsede,
agettas aprendieron a presionarpalancas o realizar ote atvidades @ de
blemas neurol6gicos severos, como la epilepsia, ry
{08 asociados con la autoestimulacién, incluyendo sensne
excitacién sexual (por ejemplo, Heath, 1963)
Stein (1978) alizmé que los neurotransmisores especies en estas regiones
del cerebro son distintos de otros neurotransmisores dese g Punto de vista bio-
uimico, Hay evidencia de que los efectos de farmacos con® los opisceos y la
sera enn lugar en alguna de ts des nero aaa SY 2
de transmisién sinaptica La administracién de farmacos que Atenian los efec- |
tos de los opliceos y la cocaina tambien atenan los efectos den Stinuiscios
cerebral (véase Vaccearino, Schill y Glickman, 1989, pasa ung Tevisién).La naturaleza del reforzamiento 145
La estimulacién eléctrica di
gel lel cerebro y los farmacos son categorias intere-
s de reforzadores porque no tienen una funcidn biolégica obvia, no redu-
cen ninguna pulsién natural y no implican comportamientos en ningiin sentido
Significativo, Por tanto, contradicen muchas teorias del reforzamiento, incluyen-
do la teoria de la reduccién de la pulsidn (no reducen pulsiones) y la teoria del
comportamiento de Premack (no implican comportamientos).
EI hipotélamo parece estar intimamente asociado con el
reforzamiento, y los animales encuentran placentera tanto la
estimulacion eléctrica como la farmacolégica del hipotélamo.
Teoria del equilibrio y puntos preferidos de satisfaccién
Aunque la teoria de Premack fue un avance conceptual importante, tenia ciertas,
ificultades. Primera, concebir el reforzamiento sélo en funcién de comportamien-
tos es demasiado restrictivo para algunos castigos y reforzamientos. Por ejem-
plo, Staddon y Ettinger (1989) sefialaron que el choque eléctrico es un castigo y
la estimulaci6n eléctrica cerebral es una recompensa, y ninguna puede concebir~
se en realidad como un comportamiento. Los animales pueden ser reforzados
Por muchas cosas, incluyendo estimulos reductores de pulsiones (el alimento),
Por comportamientos (correr en una rueda giratoria) y por cosas que no son nin-
guna de las dos (la estimulacién cerebral)
Una dificultad mayor es que nada es absoluto en su capacidad para reforzar
otra cosa. Allison y Timberlake (1974) encontraron que las ratas, ante la opcisn
entre dos soluciones con sacarina, pasaron mas tiempo en la mas dulce de las,
dos cuando bebian con libertad. Premack habria predicho que beber la solucién
‘menos dulce castigaria el beber la solucién mas dulce. Por ejemplo, suponga que
las ratas debian lamer la solucién menos dulce una vez después de cada ocasién
que lamieran la solucién més dulce (una proporcién de respuesta de uno a uno)
Las ratas deberian disminuir su tasa de lamidas de la solucién dulce debido a
que segufa una solucién menos deseable. Es probable que esto es lo que hubie-
ran encontrado Allison y Timberlake con una proporcidn de uno a uno, pero en
su estudio la rata tenia que lamer la solucién mas dulce 10 veces para tener ac-
ceso a la solucién menos dulce, En vista de que una proporcién de 10 a 1 era
mayor que la distribucién natural entre las soluciones, si las ratas lamian la so-
lucidn més dulce tanto como lo hacian en la situacién en que bebjan con liber-
tad, obtendrian menos de la solucién menos dulce que en la situacién libre. En
este experimento, las ratas incrementaron su tasa de respuesta de beber la solu
cidn mas dulce a fin de obtener més acceso a la solucién menos dulce, La opor-
tunidad para beber la solucién menos preferida habia adquirido la propiedad de
reforzar el beber de la solucién més preferida
Para dar cuenta de estos resultados, Allison (1983) y Timberlake (1980) pro-
pusieron una reformulacién importante de la teoria de Premack. Afirmaron que
los organismos tienen una tasa de linea base deseada para toda clase de acon-
tecimientos; es decir, los organismos tienen una cierta frecuencia deseada paraCartruto 4 Reforzamiento
y aprendizaje
unt rele
ests
<0
:
as EI comportamient
RA 4.9 amiento B
I HOURA $9 comportamients§ yh,
é wine ean el
a ontfomportamientos La flecha apuny, ss
dre tugar en f corva més cencano 9
fot preted de satiscci6n. (Tomagt®
Karonipa ame ‘Allison, 1989.) ae
‘omgertariente 8
slamada punto preferido de satisfaccisy
tran como recompernss2 cUalquier cosy 4”
fi igo cualquier cosa quett
rece base y como cas! ui an
wueve en direccion de esta linea f ‘ :
Tos mueve en eta Esa toi ame feo 2 ult nei
perimento descito, el programa de efit a6 Bs las & moving
i isfaccién para distri s dos
vunto preferido de satisfaccién para dis eber en é
an cv que incrementar su ingesti6n ef i glucans a Por a4
‘ 's dulee
fy reducir su ingestion de a
ima de vel de. rn ext par a uN COPOMISO Que
el Y api
debajo de 1 ne posible de su punto peteride de satistaccion ideal dado g
programa de reforzamiento. 7 eco 0980) dea pc
‘La figura 4.9 ilustra la demostracior Be
cién de les puntos peferdos de satisfacin. Representa las diversas cantidade
se nctvidad que son posible para los comportamientos A y B. Ademés, muy
tra el punto prefrido de satisfaccon del animal para la combinacién Optima de
tstos Hos comportamients, El animal podria desear pasar 150 min/ala en lac,
tivided A (quizd comer) y 50 min/da en la actividad B (quiza correr en una rue
{da pratoi). Se Introduce un programa en el que el animal debe pasar un
ninuto en la actividad A por cada minuto en la actividad B. La linea recta dia-
{onal relleja este programa. El animal encuentra el punto en este programa qu
etd mas cerca de su punto preferido de satisfaccin; en este caso el punto en el
{ue pasa 100 minutos en cada actividad. Enel ejemplo en el que la actividad A
es comer y la actividad B es corte, el alimento podria verse como reforzador del
correr en la rueda debido a que incrementa la accién de correr. (De manera a:
ternativa, correr en la rueda podria verse como un castigo para comer, debido
que disminuye la ingestion de alimento.) Suponga que se crea un programa en
el cual el animal debe pasar 10 minutos en la actividad A por cada minuto en la
actividad B. Entonces e] animal incrementaria la actividad A para obtener més
B, En el ejemplo de la comida y el ejerccio, corre reforzaria al comer.
Konarski (1979) y Konarski, Johnson, Crowell y Whitman (1980), ambos re-
sefiados en Timberlake (1980), proporcionan una demostracién interesante de a
bpeber, comer, copula, corer ete 1AM
ra ese evento, Los organismos encEstudios del comportamiento de eleccién 147
aplicacién de la teori:
Se que la mayorig de [ee librioen la educacién de los nifos. Puede lograr:
ce contingente con ésta git°® PEQUEROS practiquen més mateméticas si se ha-
esto sucede debido a ees rottunidad para colorear. De acuerdo con Timberlake,
Ta que desean para cot ios normalmente tienen menos oportunidad de
Jas matemiticas. Sy ree Y ™As oportunidad de la que desean para practicar
matematicas, puede arate. Si se les priva de la oportunidad de practicar las
cima de lo normal ee 1° M08 incrementen la cantidad de colorear por en-
mal si esta activida
dad de practicar matensgieee ad 2 como resultado el acceso ala oportun:
La teorfa d
Li lel equilibrio «
mistas ven a los hat librio considera a todas las criaturas igual que los econo-
a umanos: como deseosos de alj zcl l de bienes
en lu a lguna mezcla general
Te as creer lo ms posible a ese punto preferido de satsfaccién
crito son demostranon’s dl ambiente. Aunque ls experimentos como el des-
libro, a tears eaten mPresionantes del poder predkctivo de ateoria del equ-
determing 1 ouaM® est incompleta pues no expica en forma plena cm se
ne gute caractert ints Prefers de saisfaccién, La teora del equiibrio propo-
de i conids 05 COMO el estado de privacidn de un organism y la calidad
satisfac srl comedero se combinan para determinar el punto preferido de
‘Ta on distibuctén dptima de respuestas como comer y hacer ejerci-
Joe resalta fee onoeido este punto preferido de satisfactin, es posible predecir
resultados de restringir estos comportamientos y hacer un comportamiento
contingente con el otro. La teorfa no proporciona un anélisis de la forma en que
se establece este Punto preferido de satisfaccién en primer lugar; a final de cuen-
{as, se necesitan explicaciones biolégicas para el establecimiento de estos pun-
tos preferidos de satisfaccién.
Los organismos eligen su comportamiento de modo que los
acerque lo mas posible a algiin punto preferido de satisfaccién
general de los comportamientos y experiencias.
Estudios del comportamiento de eleccién
Segtin la concepcién actual del reforzamiento, un organismo equilibra necesida-
des 0 metas competidoras a fin de lograr la combinacién més cercana a su pun-
to preferido de satisfaccién. La investigacién sobre el reforzamiento busca determinar
la forma en que los organismos hacen elecciones, dada su experiencia con las res-
tricciones de su ambiente. Investigaciones recientes se han centrado en el com-
portamento de eleccidn de los animales. Antes de comentar estas investigaciones,
es importante revisar algunos de los efectos basicos de diferentes programas de
reforzamiento, en vista de que muchos de estos estudios recientes ofrecen a los,
animales elecciones entre programas de reforzamiento. Resulta que la compren-
sién del comportamiento, aun bajo un solo programa, también requiere concebir
al organismo como elector entre comportamientos alternativos.148 Cartmuro 4 Reforzamiento y aprenztlt
Programas de reforzamiento ner, sheds of Reinforcement en
skin i
La publicacién de la obra de Ps ite el programa con st gue Se alican nf
ii 6 é relacior an estudiado ¢
reforzamientos y el cot variaciones tama
J yy muchas vari cierta cantidad de reer’. de
ai hay .
gramas basics, aunque tt :
Fee rp RD se da un en reform aS
ta como un programa RF 4 qo
(F = Por ejemplo,
tas que emite el oan Pore =
fore,
después de cada cuatro se (RV) ef nimero de respuestas para un y
Programa de razin variablt OT dedor de algin valor. Por ejemplo, un
lento Vara, PEO Se Pro en rforzamiento después de cage
rama en el que un organ como un programa RV 10. En un progeay!
respuestas en promedio se den ibe un ceforzamiento después de quent
de intervalo fijo (IF) el organi emplo, en uN programa IF ys
transcurnido una ead fh deHempo. "puesta después qe
éT organism reibe un foramen Po een scours
han pasado 15 segundos; el organismo esp a5 an.
P 8 vjuzea un reforzamiento y asi en forma.
tes de que su siguiente respuesta pro Tawariable UV) varia crn
cesiva, Por tltimo, en un programa de intervalo v2 liaise alredenee”
ue debe transcurris entre reforzamientos. pero debe promediarse. alrededor gy
sign valor Foe np, en an programa lV 30 sel exganismo vere que
perar un promedio de 30 segundos antes de que una respuesta produzca tun re
for nt i
Es importante apreciar una sutileza en los programas de intervalo En un pro.
sgrama IF 15, por ejemplo, la demora entre seforzamientos no es de 15 segundos:
‘es mayor. Deben pasar 15 segundos antes de que una respuesta del organism
produzca la recompensa; el tiempo total entre recompensas es de 15 segundos,
més lo que el organismo espere luego para responder.
Cada programa de reforzamiento produce su propio comportamiento carac-
teristico. El comportamiento se mide con registros acumulativos de respuestas,
‘como se expuso en el capitulo T (véase la figura 1.9), los cuales son graficas que
sefialan cémo se incrementa el nero total de respuestas con el paso del tiem
po. La figura 4.10 muestra los registros dé respuesta-tipicos mantenidos err fos
diferentes programas. Los programas variables producen tasas relativamente fi
jas-de-respuestas, mientras que los fijos producen tasas variables. En el progr
‘ma de intervalo fijo, el organismo parece estar cerca de saber cul es el intervalo
y responde cerca del final de ese intervalo, En el programa de razon fija, el of
ganismo hace Pausa después de cada reforzamiento, como si tomara un des
canso antes de comenzar la siguiente serie de respuestas.
Por fo general las tasas de respuesta son mas altas en los programas de 1
26n que en [Link] de intervalo, un comportamiento adaptativo, en vist
[Link] Ia tasa de recompensa en tales programas se relaciona en forma directa
con la tasa de respuesta. Los animales fesponderan con cantidades extremas, ta"
forzamiento; sin embargo, tienen que S*
con cantidades mucho menores y aumer™
esta se relaciona poco con la tasa de refot
altas como 1 000 respuestas por un re
moldeados para hacerlo, empezando
tando poco a poco, La tasa de respui
ee
También podría gustarte
APRENDIZAJE
Aún no hay calificaciones
APRENDIZAJE
102 páginas
Capitulo 1
Aún no hay calificaciones
Capitulo 1
100 páginas
Apuntes
Aún no hay calificaciones
Apuntes
7 páginas
Aprendizaje
Aún no hay calificaciones
Aprendizaje
28 páginas
Cruz 1989
Aún no hay calificaciones
Cruz 1989
24 páginas
Aprendizaje
Aún no hay calificaciones
Aprendizaje
7 páginas
Wa0006.
Aún no hay calificaciones
Wa0006.
48 páginas