TEMA 4: Conducta de elección y toma de decisiones
1. Introducción
5 fases en la toma de decisiones:
1. Representación: contexto en el que debemos tomar la decisión. Una buena representación
de la situación nos lleva a una mejor elección. Ej. ante una oferta de empleo, obtener
información de la empresa que la ofrece.
2. Evaluación: una buena evaluación tanto de las alternativas como de sus posibles
consecuencias debería conducir a una mejor elección.
● E. de las “alternativas”, depende de: a) factores externos (ej. requisitos exigidos), y b)
factores internos (ej. nuestras preferencias de trabajo).
● E. de las “posibles consecuencias” y la probabilidad de reforzamiento y/o valor
asociado a cada alternativa (ej. evaluar la prob. de que nos lo concedan, siendo un
empleo muy demandado).
3. Acción: momento de tomar la decisión y elegir una de las alternativas valoradas previamente
(ej. solicitamos el empleo): modelos normativos (ej. “ley de la utilidad esperada”), de
razonamiento lógico (ej. estadísticos), heurísticos (ej. “intuiciones”, creencias y hábitos), etc.
4. Resultado: tras la decisión, ocurren consecuencias que constituirán el “feedback ” o
“reforzamiento” asociado a la elección. Crucial para el aprendizaje:
● Positivo: ocurre lo que esperábamos (ej. buen empleo). Ayuda a tomar la decisión de
forma más automática en circunstancias similares futuras (ej. en una oferta de
empleo similar las solicitaremos con mayor rapidez).
● Negativo: no cumple las expectativas (ej. el empleo es aburrido, o el sueldo no
compensa el esfuerzo). Modificaremos la decisión en cuanto podamos (ej.
exigiremos más sueldo o rechazaremos el trabajo).
5. Aprendizaje: integración de todos los procesos previos (proc. controlado), que nos guía en
la siguiente toma de decisión. Cuantas más toma de decisiones similares, más prob. es que
pasemos a la acción directamente sin evaluar alternativas ni consecuencias (proc.
automático). Ej. Si la experiencia en ese empleo fue muy negativa, desecharemos
rápidamente una nueva oferta que provenga de la misma empresa.
Juicio y toma de decisiones
● Tomar decisiones sensatas requiere predecir qué pasará si se hacen distintas elecciones
(depende de la calidad del juicio).
● Calidad del juicio: se basa en 2 criterios independientes entre sí:
- Precisión o correspondencia con la que la persona entiende la situación o mundo
que le rodea. Se estudia a través de: 1) cuánto conoce la persona, 2) cómo de bien
calibra sus juicios, y 3) cuánto es conocido el resultado del juicio por la
multitud/sociedad (pooling).
- Consistencia o coherencia con la que, bajo circunstancias similares, la persona
predice los mismos resultados.
Como ya hemos visto, los contextos predictivos en situaciones de aprendizaje asociativo
(condicionamiento Pavloviano) requieren de:
● Juicios de probabilidad/frecuencia: Se basan en el cómputo de frecuencias de distintos tipos
de ensayos/eventos. Requieren de precisión.
- Probabilidad simple: ocurrencia de un solo evento [ej. p(A ) o prob. de lluvia].
- Probabilidad condicional (Teorema de Bayes): ocurrencia de un evento en función
de otro, ej. p(H|E) (prob. de la hipótesis inicial dada la evidencia) o p(E|C) (prob. del
efecto dada la causa potencial).
● Juicios de contingencia: relación de contingencia entre dos eventos.
- Regla Delta p: Δ p = (E|C) p( E|noC ).
- Modelo de Rescorla-Wagner: juicios de la fuerza asociativa: Vt+1 = Vt + ΔVt
Los contextos predictivos en situaciones de aprendizaje instrumental van a implicar una conducta y
una o varias consecuencias:
● Juicios de contingencia conducta-consecuencia: prob. de ocurrencia de un evento
contingente a nuestra conducta como una recompensa, un castigo, una omisión o una
evitación/escape. Se calcula utilizando la regla Delta p.
Δp = p(Consecuencia|Conducta) – p(Consecuencia|Noconducta)
Tipos de conductas instrumentales
- Conducta en respuesta a claves: hábitos; conductas de compulsión; craving (hace uso del
proc . Tipo 1).
- Conducta en función de las consecuencias: acciones dirigidas a metas (proc. Tipo 2). Se
basan en un doble criterio:
➔ Creencia: relación de contingencia C-C.
➔ Deseo: valor de incentivo de la consecuencia.
Marco general para el estudio de la toma de decisiones (utilitarias vs. no utilitarias)
Las no utilitarias NO tienen en cuenta las consecuencias mientras que las utilitarias SÍ. A la hora de
elegir entre 2 opciones, se utiliza la utilidad subjetiva.
2. Conducta de elección
2.1. Acciones de hábitos y dirigidas a metas
Los hábitos y las metas pueden explicarse por la teoría del procesamiento dual:
- Tipo 1 o de hábitos (E-R) activa respuestas automáticamente y, por tanto, puede dar lugar a
resultados no satisfactorios.
- Tipo 2 o dirigido a objetivos o metas (E–O–R) facilita un desempeño exitoso ya que anticipa y
evalúa los resultados.
Hábitos
● Asociaciones directas E→R: las acciones se activan con un mínimo esfuerzo, liberando así
recursos cognitivos.
● Permite una rápida selección de respuestas apropiadas en contextos estables y, por lo
tanto, juega un papel crucial en gran parte de nuestra toma de decisiones cotidiana.
● Se basa en la relación de contigüidad E-R.
Acciones dirigidas a meta
● Asociaciones Respuesta → Consecuencia (R-C): una acción está dirigida a una meta o
resultado si su ejecución está mediada por:
1) La contingencia entre la acción y la meta, y
2) El valor del resultado como una meta para el agente (valor de incentivo de la
consecuencia).
¿Cómo distinguir si es hábito o está dirigida a meta?
A diferencia del hábito, la acción dirigida a meta es sensible a los cambios en el valor de la
consecuencia (en animales y humanos).
Por tanto, la devaluación del reforzador o consecuencia:
● No tiene efecto en los hábitos: la consecuencia no está representada en memoria (E-R), solo
sirve para fortalecer la asociación. La elección entre una respuesta con consecuencia
devaluada (R1) y una con consecuencia no devaluada (R2) es la misma (R1 = R2).
● Sí tiene efecto en acciones dirigidas a meta: la representación de la
consecuencia forma parte del contenido codificado en memoria (R-C),
y por tanto la devaluación causa una disminución de la respuesta. La
elección entre R1 y R2 sería diferente (R1 < R2).
Técnica de devaluación de la consecuencia (Balleine)
¿Qué factores facilitan que una conducta dirigida a meta se vuelva
insensible al cambio en el valor de la consecuencia, esto es, que se
vuelva un hábito?
*Es decir, de procesamiento Tipo 2 (Explícito)→ Tipo 1 (Implícito)*
● Sobrepráctica (Temas 1 y 5).
● Estrés.
● Rasgos de personalidad: ej. impulsividad.
● Trastorno obsesivo compulsivo.
● Alta reactividad al valor de incentivo del reforzador (ej. obesidad,
claves asociadas a alimentos altos en calorías y con sabor
palatable).
● Adicciones.
2.2. Programas concurrentes de reforzamiento
El feedback o reforzamiento son las consecuencias asociadas a la toma de decisión, después de
llevar a cabo la conducta de elección.
● Reforzamiento positivo: nos lleva a mantener nuestra decisión en futuras circunstancias
similares, y efectuamos la elección sin buscar (ej. comprar un producto habitual en un
supermercado) y sin pensar en otras alternativas (ej. cuando estamos satisfechos en una
relación no solemos evaluar otras posibles parejas).
● Reforzamiento negativo: nos lleva a alterar y modificar nuestra decisión en cuanto sea
posible buscando nuevas alternativas.
Programas de reforzamiento
Un programa básico de reforzamiento es una regla que determina cómo y cuándo la ocurrencia de
una conducta o acción irá seguida de un reforzador.
Se dividen en dos grandes categorías:
- Programas continuos: se refuerza cada instancia de la conducta deseada.
- Programas parciales (intermitentes): solo se refuerza la conducta deseada
ocasionalmente. Pueden ser de intervalo o de razón, y fijo o variable.
Reforzamiento parcial
Los programas concurrentes son programas de reforzamiento complejos donde existen varias
opciones de respuesta disponibles simultáneamente, y cada respuesta está sometida a un programa
de reforzamiento básico distinto, que es independiente.
Interés: determinar cómo se distribuye el tiempo/esfuerzo entre las opciones, en función de las
características de cada uno de los programas de reforzamiento.
Ley de igualación
Normalmente se utilizan programas de ref. de intervalo variable (IV). Cuando las dos respuestas
están sometidas a un programa de IV, la tasa relativa de respuestas (RA/RB) tiende a igualarse con la
tasa relativa de reforzamiento (rA/rB).
Útil cuando queremos comparar respuestas no fácilmente medibles (ej. elegir entre estudiar, leer,
salir o cocinar). Los tiempos relativos dedicados a cada opción también se igualan a las tasas de
reforzamiento.
Ley de igualación generalizada
RA/RB = b(rA/rB)s
Sensibilidad al reforzamiento (s): sensibilidad de la
conducta de elección a las tasas relativas de
reforzamiento (ej. problemas para discriminar entre
opciones, o cuando el cambio de alternativa es
costoso):
● Igualación o matching (s = 1)
● Supraigualación o overmatching (s > 1):
hipersensibilidad al reforzamiento.
● Infraigualación o undermatching (s < 1):
insensibilidad al reforzamiento.
Sesgo de respuesta (b): ante situaciones de elección asimétricas (ej. preferencia por una alternativa
de respuesta frente a otra, o ante reforzadores con
diferente valor de incentivo), las alternativas y/o
reforzadores no son valorados de la misma forma.
● Sin sesgo o no bias (b = 0): no hay sesgo de
respuesta.
● Sesgo por B1 (b > 0): mayor preferencia por la
opción B1 frente a B2.
● Sesgo por B2 (b < 0): mayor preferencia por la
opción B2 frente a B1.
2.3. Toma de decisiones y autocontrol
Uno de los factores más estudiados en relación al valor
subjetivo del reforzador es la demora. La demora entre la
respuesta y la consecuencia influye en la velocidad del
aprendizaje.
En situaciones de compromiso previo (cuando la recompensa de ambas alternativas está demorada),
tanto los humanos como los animales elegimos más fácilmente la recompensa mayor más demorada,
lo que define el comportamiento autocontrolado. Sin embargo, si pasa el tiempo y se acerca el
momento del reforzamiento, cuando se vuelve a dar la posibilidad de elegir, se prefiere una
recompensa menor pero inmediata. Esto define el comportamiento impulsivo; la inmediatez de la
recompensa se convierte en un nuevo reforzador (“más
vale pájaro en mano...”).
Relación entre el valor de la recompensa y el tiempo de
espera para una recompensa pequeña (con demora corta)
y otra grande (con mayor demora). Autocontrol: inhibir
una conducta que lleva a una recompensa pequeña
inmediata para conseguir una recompensa grande más
tarde (T2). Impulsividad: fallo en autocontrol (T1).
La relación entre el valor de la recompensa y la demora
obedece a una función hiperbólica, donde:
V = valor subjetivo del reforzador (o utilidad), M =
magnitud del reforzador (valor con
demora 0), y k = parámetro de descuento
(cuanto mayor sea, más rápidamente disminuye
el valor del reforzador con la demora, d) →
Relacionado con conducta impulsiva.
A diferencia de una curva exponencial, una curva de descuento
hiperbólica tiene una tasa mayor de descuento en el futuro
inmediato y menor en el futuro distante.
Buenos propósitos y conducta de adicciones
Con el Año Nuevo, casi todos nos mostramos autocontrolados y nos comprometemos a “asumir” las
dificultades del reforzamiento demorado, con buenos propósitos para el año (perder peso, comer de
manera saludable, dejar de fumar, hacer más deporte, leer más, y un largo etc.). Sin embargo,
cuando nos encontramos en el momento y situación concreta donde se debe tomar la decisión (ej.
¿fumo o no fumo al tomar café con un/a amigo/a?; ¿escojo la ensalada o patatas fritas?), el
reforzamiento inmediato (ej. tabaco o patatas fritas) es tan claro y potente, que nos obnubila la mente
frecuentemente e impide el autocontrol.
3. Toma de decisiones
La teoría de la utilidad nace de la teoría económica, para explicar el comportamiento de compradores
y vendedores en los mercados. Economía conductual (von Neumann y Morganstern, 1947).
La teoría de la utilidad esperada se ocupa de decisiones que pueden analizarse como “apuestas”. El
problema de las apuestas es que no conocemos los resultados, por lo que debemos basar nuestras
decisiones en probabilidades.
3.1. Valor esperado
Cuando una apuesta implica dinero, el valor
esperado de la apuesta se puede calcular
multiplicando la probabilidad de ganar por el valor
monetario del pago. En el caso del ejemplo, si
jugáramos a este juego muchas veces (barajando las
cartas cada vez), ganaríamos, en promedio, 1€ por
jugada.
En el segundo ejemplo tendríamos una fórmula, la
Toma de decisión normativa:
Donde:
EV = valor esperado (expected value).
pi = probabilidad de ocurrencia del resultado
(siempre hay un cierto grado de incertidumbre o
riesgo).
vi = valor monetario asignado al resultado i.
¿Realmente somos tan racionales en nuestras decisiones económicas ?
Economía conductual: Juegos económicos donde las consecuencias siempre llevan asociadas riesgo
(probabilidad de ocurrencia, no es seguro).
¿Qué prefieres, 80€ en mano o jugártela de forma que tienes 80% de posibilidades de ganar 100€ y un 20% de
ganar 10€?
Opción segura: EV = (1 x 80) = 80€
Opción “arriesgada”: EV = 0,80 x 100 + 0.20 x 10 = 82€
Solemos elegir la opción segura frente a la arriesgada porque no valoramos el riesgo de acuerdo al
valor monetario esperado, sino en función del valor psicológico (teoría de la utilidad esperada).
Demuestra que tenemos aversión al riesgo: damos por buena la pérdida de 2€ por asegurarnos una
ganancia.
3.2. Utilidad esperada
Cuando en vez del valor monetario queremos computar la utilidad…
EV = utilidad esperada (expected utility).
pi = probabilidad de ocurrencia del resultado (siempre hay un cierto grado
de incertidumbre o riesgo).
ui = utilidad asignada al resultado i.
La función de utilidad no es lineal, sino logarítmica: la respuesta
psicológica a un cambio en la ganancia es inversamente proporcional a la
ganancia inicial.
Disminución en la sensibilidad: para producir el mismo incremento en la
utilidad, debemos incrementar la
ganancia mucho más si ya
partimos de una cierta cantidad;
el mismo incremento en capital
tiene menos utilidad cuanto más
ingresos tengamos.
3.3. Prospect theory
Ayer Pedro tenía 1 millón de euros y Luis tenía 9 millones. Hoy, Pedro y Luis tienen 5 millones cada
uno. ¿Están igual de felices Pedro y Luis? (¿Disfrutan de la misma utilidad?).
Según la teoría de la utilidad esperada deberían ser igual de felices, puesto que su riqueza actual
(hoy) es la misma (5 M.€).
1. ¿Cuál de los dos tiene más razones para estar satisfecho con situación financiera?
2. ¿Cuál de los dos está más contento en este momento?
La teoría de la utilidad esperada: solo puede contestar a 1 (Jesús tiene más razones para estar
satisfecho), pero no contesta 2 (Carlos está más contento porque ha incrementado su capital).
- No estudia la diferencia entre ganancias y pérdidas (ni los aspectos emocionales asociados a
éstas), sólo compara utilidades de cambios patrimoniales.
- No tiene en cuenta el punto de referencia ( +0,1 M.€ vs. 1 M.€).
Ganancias y/o pérdidas
Pongamos una primera situación en la que hay que elegir entre ganar 900€ o tener un 90% de
probabilidades de ganar 1000€. La mayoría suele elegir la primera opción.
Aversión al riesgo: El valor subjetivo de una ganancia (900€) es mayor que el de una posible
pérdida (90% ganar 1000€). Declinamos jugar.
Ahora, hay que elegir entre perder 900€ o tener un 90% de probabilidades de perder 1000€. La
mayoría suele elegir la segunda opción.
Búsqueda del riesgo: La aversión a la pérdida segura (900 €) es mayor que a la posible pérdida
(90% de perder 1000€). Preferimos jugar.
Ganancias
Aversión al riesgo en el marco de las ganancias
El valor esperado es el mismo, pero preferimos una ganancia segura (opción segura; 250€) a correr
el riesgo de no ganar nada (opción arriesgada; 75% no ganancia), por lo que evitamos el riesgo
(aversión). ¿Preferimos entonces siempre la opción segura (no jugar) a la arriesgada?
Pérdidas
Búsqueda del riesgo en el marco de las pérdidas
El valor esperado es el mismo, pero la mayoría preferimos el riesgo a perder(opción arriesgada) que
una pérdida segura (opción segura), por lo que nos centramos en la perspectiva más probable de
evitar una pérdida.
El valor esperado (teoría normativa; procesamiento Tipo 2) es el mismo y la elección sería
indiferente. Sin embargo, la formulación de las pérdidas (teoría descriptiva) produce un mayor
impacto psicológico de tipo afectivo.
● El procesamiento Tipo 1 elige una formulación en términos de “ganancias” o no pérdida (75%
no pérdida) a una pérdida segura (perder 50€ → Aversión).
● No tomamos decisiones basadas en valores racionales (valor o utilidad esperada).
Principios de la teoría (procesamiento Tipo 1)
1. Evaluación relativa a un punto de referencia (ej. status
quo, expectativa, etc.). Los mejores resultados son las
ganancias y los peores las pérdidas.
2. Disminución de la sensibilidad (función logarítmica).
Por ej. la diferencia subjetiva entre 900€ y 1000€ es
menor que entre 100€ y 200€.
3. Aversión a la pérdida. Aspecto emocional.
● Las pérdidas pesan más que las ganancias.
● Valor adaptativo: responder más rápidamente y con mayor intensidad a las
amenazas que a las oportunidades.
Efecto marco (framing)
Imagina que EEUU se está preparando para el brote de una rara enfermedad asiática que se espera
que acabe con la vida de 600 personas. Se han propuesto dos programas alternativos para combatir
dicha enfermedad. Supón que las estimaciones científicas más exactas de las consecuencias de los
programas son las siguientes, ¿cuál adoptarías?:
Teoría de la inconsistencia del tiempo
Aunque los escenarios son idénticos (solo cambian de 3 meses) las personas toman decisiones
diferentes: en el Escenario 2, hoy se toma una decisión de la cual nos arrepentiríamos en 3 meses
(Escenario 1). Este comportamiento es inconsistente en el tiempo.
Descuento exponencial
En una curva de descuento exponencial, 1€ retrasado 6
meses siempre vale la misma fracción fija de 1€. Es decir,
la tasa de descuento es constante. Si preferimos 50€
ahora a 100€ en 6 meses, también deberíamos preferir
50€ en 3 meses frente a 100€ en 9 meses.
Donde el valor de recibir algo en el tiempo futuro (t) es
una fracción fija s(t) de su valor
presente, y donde λ es la tasa de
descuento constante.
Descuento hiperbólico
Una curva de descuento hiperbólica tiene una tasa de
descuento más alta en el futuro cercano y una tasa de
descuento más baja en el futuro lejano.
- La demora de 0 a 6 meses tiene más valor que la
demora de 3 a 9 meses.
- Las personas y otros animales no humanos (ej.
ratas, palomas y monos) muestran descuentos
hiperbólicos.
Donde τ es el tiempo relativo.
Tasas de descuento sobre la base del patrón de elección entre recompensas inmediatas más
pequeñas ($11–80) y recompensas más grandes demoradas ($25–85), con demoras desde 1
semana a 6 meses.