INTRODUCCION
Edward L. Thorndike fue profesor de psicología durante más de treinta años en el
Teachers College de Columbia, Estados Unidos. Lo que más atrajo su interés fue
la teoría del aprendizaje, y se cuenta entre los importantes precursores
del conductismo. Watson se fundó en gran parte en la obra de Thorndike y en la
de Pavlov. El interés de Thorndike por la psicología apareció después de un curso
en la Universidad de Harvard donde tuvo de profesor a William James. Los
primeros experimentos de Thorndike sobre el aprendizaje, en que los sujetos
experimentales eran pollitos, fueron realizados justamente en el sótano de la casa
de James, para deleite de los hijos de éste.
Las numerosas fábulas y relatos tradicionales que cuentan maravillas de
la inteligencia de los animales no impresionaban a Thorndike, quien por el
contrario sostenía que nadie se había ocupado de describir la estupidez animal.
Por cada perro que encuentra el camino de regreso al hogar -decía-, hay quizás
un centenar que se pierden. Sostenía Thorndike que los animales no razonan ni
avanzan en la resolución de problemasmediante súbitos estallidos de introvisión,
sino que aprenden de una manera más o menos mecánica, partiendo de
un método de ensayo y error. Las conductas que les resultan fructíferas y
gratificantes se "imprimen" en el sistema nervioso.
Según Thorndike, el aprendizaje se componía de una serie de conexiones entre
un estímulo y una respuesta, que se fortalecían cada vez que generaban
un estado de cosas satisfactorio para el organismo. Esta teoría suministró las
bases sobre las que luego Skinner construyó todo su edificio acerca del
condicionamiento operante.
Más adelanto, Thorndike aplicó sus métodos para el adiestramiento de animales
a niños y jóvenes, con éxito sustancial, y llegó a tener gran predicamento dentro
del campo de la psicología educativa. Su obra Educational Psychology (Psicología
educacional) fue publicada en 1903, y al año siguiente se le concedió el grado de
profesor titular. Otro de sus influyentes libros fue Introduction to the Theory of
Mental and Social Measurements (Introducción a la teoría de las mediciones
mentales y sociales) de 1904. En la actualidad se reconoce a Thorndike como una
figura señera en los comienzos del desarrollo de los tests psicológicos.
TEORIA
Edward Thorndike realizó su investigación, también observando la conducta de
animales pero después realizó experimentos con personas. Thorndike implantó el
uso de "métodos usados en las ciencias exactas" para los problemas
en educación al hacer énfasis en el "tratamiento cuantitativo exacto de
la información". "Cualquier cosa que exista, debe existir en determinada cantidad y
por lo tanto pude medirse" (Johcich, citado en Rizo, 1991). Su teoría,
conexionismo, establece que aprender es el establecimiento de conexiones entren
estímulos y respuestas.
La "ley de efecto" dice que cuando una conexión entre un estímulo y respuesta
es recompensado (retroalimentación positiva) la conexión se refuerza y cuando es
castigado (retroalimentación negativa) la conexión se debilita. Posteriormente
Thorndike revisó esta ley cuando descubrió que la recompensa negativa (el
castigo) no necesariamente debilitaba la unión y que en alguna medida parecía
tener consecuencias de placer en lugar de motivar el comportamiento.
La "ley de ejercicio" sostiene que mientras más se practique una unión estimulo-
respuesta mayor será la unión. Como en la ley de efecto, la ley de ejercicio
también tuvo que ser actualizada cuando Thorndike encontró que en la práctica
sin retroalimentación no necesariamente refuerza el rendimiento.
La "ley de sin lectura": Debido a la estructura del sistema nervioso, ciertas
unidades de conducción, en condiciones determinadas, están más dispuestas a
conducir que otras.
Las leyes de Thorndike se basan en la hipótesis estímulo respuesta. El creía que
se establecía un vínculo neural entre el estímulo y la respuesta cuando la
respuesta era positiva. El aprendizaje se daba cuando el vínculo se establecía
dentro de un patrón observable de conducta.
Estimación Del Punto De Vista De Thorndike
Antes resumiremos las soluciones de Thorndike a los problemas más
característicos del aprendizaje, en los siguientes puntos:
1) La capacidad de aprendizaje depende del número de conexiones y su
disponibilidad.
2) La repetición de situaciones (práctica) no modifica por sí sola las conexiones, a
menos que dichas conexiones se recompensen.
3) Motivación: la recompensa influye directamente en las conexiones vecinas
reforzándolas, pero el castigo carece del efecto debilitador directo
correspondiente. Sin embargo, el castigo puede influír indirectamente al llevar al
sujeto a elegir otra cosa que tal vez le traiga recompensa. Las conexiones pueden
fortalecerse directamente, sin necesidad de tener conciencia o idea de ellas.
4) Comprensión: depende de hábitos anteriores. Cuando las situaciones se
comprenden de inmediato, es que se produjo transferencia o asimilación.
5) Transferencia: la reacción a las situaciones nuevas se beneficia, en parte,
porque son parecidas a antiguas situaciones, y también por un principio de
analogía descripto como asimilación.
6) Olvido: siguió sosteniéndose a grandes rasgos la ley del desuso, según la cual
el olvido sobreviene con la falta de práctica.
El carácter más general de la teoría de Thorndike es el de fortalecimiento
automático de conexiones específicas, directamente, sin la intervención de ideas o
de influencias concientes.
La doctrina de la especificidad es fuente tanto de fuerza como de debilidad.
La fuerza de la doctrina de Thorndike de la especificidad radica en que, en el
ámbito educativo, muestra al maestro qué tiene que hacer específicamente para
enseñar, una actividad muy compleja pero que puede simplificarse. Por ejemplo
para enseñar lectura basta con detenerse en las palabras, ser bien específico, y
desatender otros factores como semántica, filología, etc. Pero en esto también
radica su debilidad, porque el lenguaje no es sólo palabras.
Los experimentos de Thorndike: Hay dos tipos de aprendizaje:
1) El condicionamiento clásico, oavloviano o respondiente, que consiste en
aprender la relación entre sí de varios sucesos del entorno; y 2) El
condicionamiento instrumental, que consiste en aprender la relación entre
varios eventos contextuales y el comportamiento.
2)
El condicionamiento clásico implica aprender la relación entre ver el pan y
su olor, y condicionamiento instrumental es aprender la relación entre la
conducta de comer el pan y el gusto del pan. En este capítulo el autor
distinguirá estos dos tipos de aprendizaje.
La ley de efecto fue enunciado por Thorndike en 1898, y dice que un efecto de
un comportamiento positivo es incrementar la probabilidad de que vuelva a
suceder en condiciones similares.
Trabajó con gatos, perros y gallinas encerrándolos en jaulas, donde los
animales debían hacer algo para poder salir o recibir comida. Es decir, trabajó
con un condicionamiento instrumental (relación entre el comportamiento y
sucesos contextuales significativos, como premios y castigos). Encontró que a
más intentos que hacía el animal, menor tiempo usaba para escapar.
La ley del efecto es simplemente la selección natural en la historia de un
organismo singular (cuanto más salta el gato para salir equivale, en la
selección natural de las especie, a cuanto más debe alargar la jirafa el cuello
para comer). Obviamente, la conducta deseada debe ser premiada una vez
que ocurre, para que luego el animal vuelva a repetirla. Esto se llama
‘modelamiento’.
Thorndike y Pavlov: Ambos fueron psicólogos moleculares, es decir, concebían
que en la base del comportamiento había conexiones simples E-R, las que
pueden ordenarse jerárquicamente según la probabilidad de su ocurrencia. Un
premio o un castigo puede modificar esta jerarquía, haciendo más probable o
menos probable una respuesta.
Respecto a sus diferencias, para Pavlov una conexión (un reflejo condicionado)
aumenta su fuerza si el estímulo condicionado es contiguo al estímulo
incondicionado (esto se llama refuerzo del reflejo condicionado). Para
Thorndike, una conexión (hábito) aumenta su fuerza si la respuesta es contigua
con un refuerzo al animal del tipo premio o castigo (esto se llama refuerzo del
hábito).
Estas explicaciones del aprendizaje en términos de conexiones pueden
también hacerse desde en punto de vista molar, en términos de contingencias
y correlaciones (entre el EI y el EC, o entre R y el premio).
Thorndike y Skinner: Para Thorndike el premio refuerza la conexión E-R,
mientras que para Skinner (1938) el premio refuerza la respuesta operante, no
la conexión con el estímulo previo. Cabe aclarar que respuesta para Skinner es
un acto destinado a producir un efecto en el entorno, a ser operante. O sea, no
importa como la rata presione la barra, sino que lo haga, y por ello recibirá el
premio.
Clases de condicionamiento instrumental
En el condicionamiento instrumental hay cuatro principios básicos: premio, castigo,
huída y omisión. En los cuatro casos ha de tenerse presente que primero se
produce la respuesta y luego recién se premia, o se castiga, etc.
Premio: Un premio después de la respuesta aumenta la probabilidad que ocurra.
El premio se llama refuerzo positivo, y esto fue enunciado en la ley del efecto de
Thorndike.
Castigo: Un castigo después de la R disminuye la probabilidad que vuelva a
ocurrir. Es lo inverso a lo anterior (castigo positivo).
Huída: Si una respuesta es para escapar de un castigo, aumenta la probabilidad
que vuelva a ocurrir. Esto se llama refuerzo negativo.
Omisión: Si el presente está presente pero no se da, la respuesta que lleva a esta
frustración decrece su probabilidad de ocurrencia (castigo negativo).
Métodos de medición
Medir en el condicionamiento clásico significa descubrir la respuesta a un
estímulo, pero más interesa aquí medir en el condicionamiento instrumental,
donde significa detectar con algún aparato los cambios producidos en la conducta
por el aprendizaje.
Se citan dos medidas para medir la variable dependiente ‘respuesta’: latencia y
tasa de respuesta.
Latencia: es el tiempo transcurrido entre una señal y la ocurrencia de la respuesta.
Cuando la madre llama al hijo a comer, éste vendrá más rápido (latencia menor) si
le gusta la comida, etc.
Tasa de respuesta: es la cantidad de respuestas por unidad de tiempo. Luego de
ser llamado a comer (señal) el niño dará más -o menos- mordiscos por unidad de
tiempo.
La extinción en el condicionamiento instrumental
En el condicionamiento clásico, extinción significa desaparición de la conexión EC-
EI. En el instrumental, significa desaparición de la conexión respuesta-premio (o
castigo).
La extinción se define entonces a partir de una correlación cero entre la respuesta
y el refuerzo, o sea la R sigue ocurriendo aunque haya tantos premios como
antes, más premios, menos premios o ningún premio. Lo esperable es que el
organismo pare, entonces, de responder, que es lo que pasa normalmente, salvo
en tres excepciones. En efecto, la respuesta sigue ocurriendo cuando hay falta
de discriminación, superstición o psuedocondicionamiento.
a. Falta de discriminación.- El estudiante sigue dando la misma respuesta (por ej
sigue estudiando bien) a pesar de que el maestro sigue poniendo mecánicamente
la misma nota (mismo premio). Sólo tiende a desaparecer la respuesta cuando ve
que el maestro pierde las hojas de exámenes, está distraído, etc.
b. Superstición.- Este fenómeno se da cuando en un tiempo dado, la relación entre
dos sucesos no puede deberse al azar. Aunque podamos programar una serie de
premios en forma totalmente independiente de la respuesta, se quiera o no los
premios establecerán cierta relación con las respuestas. Habrá correlaciones
accidentales, aunque tales correlaciones no hayan sido programadas. Un jugador
le va mal un día, pero al otro día donde usa otro bate de béisbol, por azar le va
bien, entonces decide usar este bate en forma superticiosa.
c. Pseudocondicionamiento.- Ocurre por ejemplo cuando una rata mueve la
palanca para salir y en ese momento le damos adrenalina, que aumenta su
actividad. La conexión se establece entre la inyección de adrenalina y mover la
palanca, lo cual es un pseudocondicionamiento porque el condicionamiento
instrumental "verdadero" sería conectar el mover la palanca con el premio (salir de
la jaula).
Vemos que en los tres casos se producen respuestas que no mantienen relación
con el premio, o sea, no está marcada una relación instrumental (respondo "para"
obtener un premio). En el primer caso la falta de discriminación se debe a que la
falta de una relación instrumental no puede discriminarse de alguna condición
anterior, cuando aquélla existía. En el caso de la superstición es debido a una
relación instrumental accidental y temporaria. En el tercer caso la relación no tiene
nada que ver con la respuesta, pero el premio por sí mísmo puede causar la
respuesta. Todas estas conclusiones valen también para los castigos.
Aprendizaje retardado
Es aquel aprendizaje donde la extinción se presenta "antes" que el
condicionamiento, lo que trae como consecuencia que el condicionamiento tarde
más en formarse (aprendizaje retardado). Si primero castigamos a un niño, haga
lo que haga (extinción de la respuesta, no hará nada), y luego cambiamos la
situación y castigamos sólo las conductas malas, entonces tardará mucho más
tiempo en superar la primera etapa donde no respondía con ninguna conducta.
Programas de refuerzo o castigo
Un día a Skinner se le acabaron las bolas de alimento que daba a las ratas, y
entonces hizo un aparato que les daba bolas de alimento automáticamente,
siempre que la rata tocase la palanca un minuto. No sólo las ratas comenzaron a
presionar la palanca durante ese lapso sino que también aumentó su tasa de
respuestas (cantidad de respuestas por unidad de tiempo), lo cual iba en contra de
la idea que a menor premio o refuerzo, menor cantidad de respuestas. Skinner
pensó que este ‘programa’ de dar bolas automáticamente podía servir como eficaz
método para controlar el comportamiento.
Hay varios tipos de programas:
a) De intervalo fijo: es el ejemplo anterior. El intervalo fijo era un minuto, o sea
cada minuto la rata recibía el alimento.
b) De razón fija: aquí se premia a la rata cuando realiza un cierto número de
respuestas. Por ejemplo cada cuatro respuestas.
c) Programas combinados: una combinación de los dos anteriores.
d) Programas variables: es cuando los programas de intervalo o de razón son
variables en vez de fijos.
e) Programas de refuerzo diferencial: pueden ser de refuerzo diferencial bajo
(RDB) o alto (RDA). En el primer caso se premia al sujeto siempre que haya
pasado por ejemplo 3 segundos desde la última respuesta. Si responde antes
de los 3 segundos no hay premio (o sea una respuesta cada 2,5 segundos no
tendrá refuerzo o premio). Esto da tasas de respuesta muy lentas. No es eficaz
para el aprendizaje humano. En el caso del RDA, hay premio si la respuesta
ocurre antes de un tiempo especificado, con lo cual la tasa de respuestas
aumenta mucho.
f) Extinción después de un refuerzo parcial: cuando una respuesta ha sido
premiada constantemente, la extinción ocurre más rápidamente que si aquélla
fue premiada solo una vez.
g) Programas de castigo, refuerzo negativo y omisión: las pautas de respuesta
con castigo de IF son generalmente una aceleración inmediatamente después
del castigo y luego una supresión de la respuesta inmediatamente antes del
mismo. Un programa de refuerzo negativo (huída) puede consistir en dar
descargas eléctricas a la rata hasta que cumpla cierto requerimiento, como una
razón fija de 10 respuestas. Por último, un programa de omisión sería
proporcionar premio continuamente y luego retirarlo cuando se cumple el
requerimiento serial.