Métodos Bayesianos en Marketing
Métodos Bayesianos en Marketing
Peter E. Rossi
Graduate School of Business
University of Chicago
1101 E. 58th Street
Chicago, IL 60637
[email protected] fax:
7737022857
Greg M. Allenby
Fisher Facultad de Negocios
Universidad Estatal de Ohio
julio de 2002
Agradecimientos Rossi
agradece al centro James M. Kilts por el apoyo de esta investigación. Agradecemos a Rob McCulloch
por sus comentarios. Los autores se inspiraron en los escritos y enseñanzas de Arnold Zellner y Dennis
Lindley a lo largo de nuestras carreras.
Machine Translated by Google
Abstracto
1
Machine Translated by Google
Introducción
En los últimos diez años se ha visto un aumento dramático en el uso de métodos bayesianos en
marketing. Se han realizado análisis bayesianos sobre una amplia gama de problemas de marketing.
desde la introducción de nuevos productos hasta la fijación de precios y con una amplia variedad de fuentes de datos diferentes.
Los métodos bayesianos son particularmente apropiados para la orientación de decisiones de marketing.
problemas. El marketing es un campo normativo que intenta informar mejores decisiones. Mientras
El atractivo conceptual de los métodos bayesianos ha sido reconocido desde hace mucho tiempo, la reciente popularidad
proviene de avances computacionales y de modelado que han hecho que los métodos bayesianos
atractivo para muchos problemas de marketing. En esta revisión, describiremos las ventajas básicas.
del enfoque bayesiano, explique cómo los modelos jerárquicos de Bayes son ideales para muchos
En todo momento, enfatizaremos la importancia de una orientación de decisión que creemos es una
Antes de la infusión de los métodos bayesianos, dominaban los métodos econométricos clásicos.
al ver los datos como aleatorios y generados a partir de algunos datos que generan un modelo probabilístico.
Excepto en el caso de una clase muy pequeña de modelos, las distribuciones muestrales no pueden derivarse en sistemas cerrados.
forma de modo que los métodos clásicos se basan casi exclusivamente en muestras asintóticas o grandes.
En el caso de datos no continuos, las aproximaciones asintóticas pueden ser muy inexactas. El Neyman
El enfoque de Pearson para la prueba de hipótesis no proporciona una evaluación del peso de
evidencia a favor o en contra de una hipótesis dada, sino simplemente una declaración de aceptación/rechazo. El uso de
2
Machine Translated by Google
Los valores p como medida de la solidez de la evidencia en contra o a favor de una hipótesis han sido ampliamente
criticado por carecer de fundamento probabilístico adecuado y por varios defectos como la
Los desarrollos recientes en econometría clásica han enfatizado los métodos no paramétricos o
suposiciones. Estos enfoques a menudo se centran en la estimación de parámetros, mientras que en marketing
También estamos interesados en la predicción para su uso en la toma de decisiones. Clásico no paramétrico
Los enfoques no proporcionan una base para la predicción de cantidades observables o requieren
Modelos altamente parametrizados que pueden predecir mal debido al sobreajuste y al error de estimación.
Por el contrario, los enfoques bayesianos se centran en hacer declaraciones de probabilidad con respecto a
combina una distribución previa y la probabilidad de producir una distribución posterior para todos los no observables.
inobservables. En teoría, los métodos bayesianos ofrecen inferencias sin recurrir a métodos asintóticos.
aproximaciones. Esto es particularmente importante para los problemas de marketing, ya que a menudo tenemos una
pequeña cantidad de información por unidad de observación y a menudo nos encontramos con datos discretos
lo que requiere grandes conjuntos de datos para un uso preciso de los asintóticos. En un enfoque bayesiano,
la inferencia y la toma de decisiones son parte de un enfoque unificado en el que una función de pérdida
Se especifica y se calculan las reglas de decisión de Bayes óptimas. Nuevamente, esto es particularmente
importante en marketing ya que el énfasis está en decisiones óptimas que tengan en cuenta todos
Sin embargo, hasta mediados de la década de 1980, los métodos bayesianos parecían poco prácticos ya que
la clase de modelos para los cuales se podía calcular el posterior no era mayor que la clase
3
Machine Translated by Google
de modelos para los cuales se disponía de resultados de muestreo exactos. Además, el enfoque de Bayes
Requiere una evaluación previa, lo que algunos consideran un coste adicional. métodos de simulación,
en particular los métodos Markov Chain Monte Carlo (MCMC), nos han liberado de
restricciones computacionales para una clase muy amplia de modelos. Los métodos MCMC son ideales
Adecuado para modelos construidos a partir de una secuencia de distribuciones condicionales, a menudo llamadas jerárquicas.
modelos. Los modelos jerárquicos bayesianos ofrecen una enorme flexibilidad y modularidad y son
Si tenemos una gran cantidad de datos, los datos se obtienen observando un gran número de decisiones.
unidades. Por diversas razones, es poco probable que alguna vez tengamos una gran cantidad de
información sobre cualquier unidad de decisión. En esta situación, es útil tener un modelo que
agrupa información entre las unidades. Un modelo de efectos aleatorios flexible, combinado con
Los métodos de inferencia bayesianos pueden producir estimaciones precisas tanto a nivel agregado como
Si bien los métodos bayesianos han adquirido importancia en muchos campos, esta revisión
enfatizar una perspectiva sobre el uso de métodos Bayes que surge de un marketing básico
paradigma. Fundamental para esta perspectiva es la noción de que los clientes son diferentes en sus
preferencias por productos y que las empresas deben tener esto en cuenta explícitamente al determinar
acciones de marketing óptimas. Por lo tanto, es útil considerar el análisis estadístico como compuesto de
tres componentes:
3. acción (la solución a un problema de decisión que involucra una función de pérdida)
4
Machine Translated by Google
componentes.
Seguiremos estos tres pasos como esquema del artículo y concluiremos el artículo.
con una bibliografía comentada de artículos publicados en los últimos diez años que abordan
Problemas de marketing utilizando métodos bayesianos. Las anotaciones proporcionan una breve descripción de
Todo análisis bayesiano comienza con la especificación del mecanismo de generación de datos.
como función de los parámetros, esta distribución a veces se denomina función de verosimilitud,
parámetros. Además, una distribución de probabilidad que representa creencias previas sobre θ es
requerido, p(θ ) . El teorema de Bayes proporciona el mecanismo de actualización de cómo se actualizan las creencias anteriores.
( yo) yo
tubo ()
py(θ = ) yo
(
tubo ) ( i)
py( )
py (θ ) se llama distribución posterior y refleja tanto las creencias anteriores como las
que condiciona los datos. Esto proporciona un marcado contraste con la visión teórica del muestreo.
en el que consideramos los datos aleatorios e investigamos el comportamiento de las estadísticas de prueba o
5
Machine Translated by Google
distribución como irrelevante para el problema de inferencia porque considera eventos (y) que
Dado que la distribución posterior puede ser un objeto de dimensiones bastante altas, los investigadores
Para aquellos educados en la tradición clásica, un estimador puntual de Bayes y la noción de precisión
estas cantidades son las integrales de funciones específicas del vector de parámetros,E ih y ( ) yo .
del vector θ , ii. Probabilidades posteriores de intervalos o regiones del espacio de parámetros (como
como la probabilidad posterior de que un coeficiente de precio sea negativo), y iii. profético
distribución. Los métodos para calcular estas integrales son el núcleo de la reciente revolución.
Se refiere a hacer declaraciones a posteriori sobre todos los no observables, incluidos ambos parámetros.
principio y se lleva a cabo utilizando reglas formales de la teoría de la probabilidad. Esto significa que, bajo
En condiciones suaves, los estimadores de Bayes son consistentes, asintóticamente eficientes y admisibles. Como
6
Machine Translated by Google
ofrece inferencias de muestras finitas y exactas. Esto es particularmente importante en modelos no lineales.
y modelos con datos discretos. La intuición desarrollada en modelos de regresión para el tamaño.
Las muestras necesarias para que la teoría del muestreo asintótico sea precisa no se trasladan bien a
muchos de los modelos utilizados con datos de marketing. En particular, los modelos de elección requieren
muestras extremadamente grandes (hasta 1000 observaciones por parámetro) para asegurar la
El enfoque bayesiano se basa en la probabilidad y requiere un análisis previo. Hasta la reciente popularidad de
métodos bayesianos, era común escuchar a los investigadores expresar su renuencia a utilizar los
Enfoque bayesiano debido al uso de un prior. La ciencia “objetiva”, dirían, frunce el ceño
sobre el uso de información previa subjetiva. Hay una curiosa asimetría en este tipo de
declaraciones. Mientras que, por un lado, los investigadores clásicos se sienten cómodos especificando una
modelo (por ejemplo, probabilidad), que es crítico y evita el uso de antecedentes. La base de
La información previa también puede ser “objetiva” o basada en datos. Todos los supuestos del modelado.
son una forma de información previa y deben indicarse explícitamente. Adhesión a los principios de
La investigación científica no siempre significa no utilizar información subjetiva sino, más bien,
En el ámbito práctico del marketing, se requieren métodos que hagan pleno uso de la información previa.
para inferencias confiables ya que es difícil obtener información sobre cantidades desconocidas. Previo
u otros conjuntos de datos (Lenk y Rao 1990; Putler, Kalyanam y Hodges 1996; Kamakura y
Wedel 1997; Wedela y Pieters 2000; Ansari, Essegaier y Kohli 2000; Ter Hofstede, Kim,
y Wedel 2002) es importante para los problemas de marketing. Los procedimientos de inferencia clásicos son
No dice nada sobre cómo incorporar información de fuentes distintas a los datos.
7
Machine Translated by Google
anteriores. Un previo de referencia es un previo “estándar” que la mayoría coincide en que es útil para inferir en un
amplia variedad de contextos. En la mayoría de los casos, la referencia previa se elige para reflejar sólo una
cantidad de información moderada o incluso pequeña. Algunos también han propuesto varias difusas
Es importante tener en cuenta que todos los antecedentes son informativos y será necesario reflexionar un poco antes.
parámetros del modelo. Para los demás parámetros, nos contentamos con utilizar antecedentes relativamente difusos.
Esto significa que será necesario realizar algún tipo de análisis de sensibilidad previo para realizar una evaluación exhaustiva.
análisis. Esto implicará cambiar la configuración anterior para reflejar imágenes más y menos difusas.
información y volver a calcular el posterior para cada una de las configuraciones anteriores.
computacionalmente exigente. Hay un uso creciente del método de los momentos (cf.
Berry (1994)) para casos en los que la probabilidad es difícil de evaluar. Es bien sabido que
El método de momentos puede ser ineficiente en relación con los métodos de probabilidad. Además, hay un
formas paramétricas particulares para la función de verosimilitud. Por ejemplo, algunos tienen
enfatizó la estimación no paramétrica de un modelo de elección binaria. Estos métodos sólo hacen
Tiene sentido en situaciones donde el interés se centra sólo en determinados valores de parámetros. En marketing, el
El objetivo de la inferencia suele ser hacer predicciones de variables de resultado; en estas situaciones, hay
8
Machine Translated by Google
integrales de funciones contra la distribución posterior. Dado que estas integrales se pueden escribir
Como la expectativa posterior de una función de los parámetros, los métodos de simulación parecen
candidatos naturales para la aproximación de estas integrales. Por ejemplo, si pudiéramos hacer iid
se basa en la parte posterior, simplemente podríamos aproximar las integrales por la media muestral
es=decir
i
h y ()θ
= ) yo yo )
∫ ( hpyd
(yo
ˆ
1 R
h (i )r
R ∑ r1
I =
=
Si los extraídos de la parte posterior están disponibles con un costo computacional perdido, simplemente podríamos usar un
muestra muy grande para aproximar I a cualquier grado de precisión deseado. Sin embargo, los generales
En lugar de utilizar sorteos iid, otro enfoque podría ser construir una cadena de Markov.
con la parte posterior como su distribución estacionaria o de equilibrio (ver Gelfand y Smith 1990).
En la práctica, esto significa especificar una densidad de transición que produzca una secuencia de θ sorteos.
θr es un sorteo de p(θr r i −1
) dado i 0 . Si py (θ ) es la distribución estacionaria de esta
Cadena de Markov, entonces podemos simplemente iterar la cadena el tiempo suficiente para disipar los efectos de
la condición inicial y luego guardar estos dibujos para evaluar Iˆ . Si bien estos sorteos no son
iid más largo (exhibirán alguna forma de autocorrelación en la mayoría de los casos), leyes de gran
los números todavía se aplican y podemos aproximar I a cualquier grado de precisión deseado. El uso
de una cadena de Markov para desarrollar una estimación de I basada en simulación se ha denominado cadena de Markov.
Método Chain Monte Carlo (MCMC). La utilidad de la idea MCMC depende de tres
criterios:
9
Machine Translated by Google
construcción de cadenas de Markov. Tierney (1994) muestra que en condiciones muy suaves (principalmente
que la distribución posterior es positiva en todas partes del espacio de parámetros), el Metropolis
Los métodos del estilo Hastings convergerán a una velocidad geométrica hacia el equilibrio único.
'
en K subvectores, θθθ =, ( K ) 1
'
,K,
'
y considere las distribuciones condicionales
pag
k (θ kθ − ,k ).ySi es posible extraer fácilmente de estas distribuciones condicionales, entonces la
La cadena de Markov que se puede construir recorriendo estas distribuciones condicionales tiene
la posterior ya que su distribución es invariante. Es decir, para dibujar θ θr r −1 , recorremos cada uno de
los condicionales K
pag
1 r − 1,2 ,
θ rθ θ ,1 r − 1,3 , k ,i rK− 1, , y)
pag
2(( r r ,
θ θ θ ,2 ,1 r − 1,3 , k ,i rK− 1, ,y)
METRO
pag (yo yo yo
K r K r ,1,, r ,2 , k ,i rK, − 1 ,y)
10
Machine Translated by Google
parámetro,
se obtiene simplemente descartando los sorteos de parámetros que no son de interés. Por ejemplo, el
La media posterior de p(θi|y) se puede estimar a partir de la media muestral de los sorteos de θi .
Muchos modelos se pueden expresar de tal manera que estos diversos condicionales sean
Por ejemplo, las regresiones lineales simples y de grupos entran en esta clase. Además, datos
Hoy en día la mayor parte del trabajo se realiza con modelos que ya no tienen un simple Gibbs.
dechado. Sin embargo, la configuración modular o condicional del muestreador de Gibbs es frecuentemente
explotado. En particular, cuando k=dim(θ), cada una de las distribuciones condicionales es univariante
distribución. Gilks (1992) y otros han explotado varios métodos de muestreo de rechazo adaptativo.
métodos para construir un algoritmo MCMC de propósito general que muestrea "uno por uno" cada
elemento del vector de parámetros. En general, tal procedimiento puede producir una cadena que
converge lentamente y tiene una alta autocorrelación pero, en teoría, esto funcionará para casi cualquier
modelo. Gilks y sus compañeros de trabajo han creado un entorno de modelado bayesiano, BUGS, para
implementar esta idea. Dado que generalmente podemos monitorear la salida de MCMC para determinar el alcance de
autocorrelación en los sorteos, podemos usar un procedimiento estilo Gilks para cualquier modelo, incluido
modelos con probabilidades y antecedentes muy no estándar. Si la cadena resultante es altamente automática
correlacionados, podemos intentar agrupar o agrupar los elementos del vector de parámetros en
11
Machine Translated by Google
En resumen, los métodos MCMC ahora están disponibles para manejar la inferencia en una amplia clase.
de modelos. Los métodos MCMC son particularmente adecuados para modelos que se construyen a partir de una
modelos de coeficientes que se analizan a continuación. Quizás lo más importante sea la modularidad del
Los enfoques de modelado jerárquico que encajan tan bien con los métodos MCMC se han ampliado.
consumidores individuales. En última instancia, las decisiones se toman a nivel desagregado, aunque para
Para algunos tipos de decisiones (por ejemplo, fijar precios en las tiendas), es aceptable un análisis a nivel agregado.
sobre la distribución de la heterogeneidad. Por lo tanto, nuestra discusión se centra en datos y modelos.
Los datos de marketing son escasos a nivel de unidad individual. En paneles de escáner de hogar.
compras, por ejemplo, es raro tener más de 20 observaciones por hogar en la mayoría
comprado de una oferta particular. El valor de respuesta más frecuente es cero, lo que indica que no
compra de la oferta, y la segunda respuesta más frecuente es uno, lo que indica que uno
se compra la unidad del bien. Las respuestas también toman valores enteros en las encuestas donde
Se pide a los encuestados que elijan entre alternativas discretas para clasificar los objetos en orden.
12
Machine Translated by Google
Los datos suelen ser muy desiguales y no están bien modelados con métodos distributivos estándar.
Los modelos de variables latentes se utilizan a menudo para explicar los datos de marketing. Una variable latente
El modelo normalmente supone que existe una variable continua no observada y una variable de censura.
entre sustitutos casi perfectos, por ejemplo, se supone que los consumidores seleccionan la oferta
con mayor valor, medido como la relación entre la utilidad marginal y el precio. En el análisis de
datos de respuestas a encuestas, a veces es conveniente suponer que las respuestas en un punto fijo
(p. ej., 5 y 7 puntos) son una realización censurada de una variable continua latente. Finalmente,
en el análisis de datos de respuesta múltiple (es decir, elegir cualquiera/J datos), cada elemento del vector de
Se puede considerar que las respuestas binomiales multivariadas son iguales a uno si una variable latente
supera un umbral e igual a cero si la variable latente es menor que el valor umbral.
proporciona un enfoque flexible para especificar la función de probabilidad que sea consistente con la
Los datos observados son irregulares (Rossi, Gilula y Allenby 2001; Marshall y Bradlow 2002). Modelos
porque la utilidad latente puede ser continua incluso aunque el rango de la utilidad dependiente observada
la variable es discreta. Se pueden construir muchos modelos útiles a partir de una base subyacente.
z = XN uve +~ (0, ) S
se censura mediante alguna función que no es función de los parámetros del modelo, (β,Σ) .
Ejemplos incluyen:
13
Machine Translated by Google
MNP: = =yjz
máx(, ,..., de
1
Con
)
j metro
Probit multivariado: = 1,
y j > 0; sideno
=0
j j
Estos cuatro ejemplos ilustran la flexibilidad del marco latente. El modelo Tobit
produce una distribución discretacontinua para y dado x que tiene un conjunto de probabilidad en
cero (la opción de no compra, por ejemplo). El probit ordenado se puede aplicar a las calificaciones.
datos en los que el encuestado proporciona calificaciones en una escala de calificación. El modelo probit MNP es
Un modelo general muy flexible que se adapta a situaciones en las que se toman decisiones.
como la elección j de J alternativas o donde la elección binaria se realiza en diferentes períodos de tiempo
o categorías de productos.
A los modelos de variables latentes a menudo se les puede dar una interpretación económica como una variable aleatoria.
modelo de utilidad. Consideremos, por ejemplo, el modelo MNP. Si los consumidores tienen utilidad lineal y
sólo puede elegir una alternativa, la elección que maximiza la utilidad puede es la elección para la cual
y = j; si U j =
/ pj max/ {U p i i}
Ui es la utilidad marginal de la elección i. En el modelo de utilidad aleatorio, las utilidades marginales no son
plenamente observable. Sólo observamos varios atributos de la elección que están representados en el
−
y = j; si v j − ln( pj) + mi j = maxi {V i ) + ln( yo mi i }
pag
14
Machine Translated by Google
Este es un caso especial del modelo MNP. Los términos de error tienen la interpretación como
factores no observables que influyen en la utilidad marginal. El enfoque de utilidad aleatoria puede ser
aplicado a cualquier modelo de demanda (ver Blattberg y George 1991; Arora, Allenby y Ginter
1998; Manchanda, Ansari y Gupta 1999; Bradlow y Rao 2000; Leichty, Ramaswamy y
Cohen 2001). Si especificamos una función de utilidad, el componente aleatorio de la utilidad marginal será
inducir una distribución de la cantidad demandada a través de las condiciones de primer orden para la utilidad
maximización. Esto creará una probabilidad para los datos. Si las curvas de indiferencia de la
función de utilidad especificada intersecta los ejes de la ortante positiva con pendiente distinta de cero, entonces
Existe el potencial para soluciones de esquina en las que algunos de los componentes de la demanda
el vector será cero. Estas esquinas crearán una distribución mixta discretacontinua de
Los modelos probit) tienen una función de probabilidad y su evaluación puede ser un desafío computacional.
Por ejemplo, considere el modelo MNP. Si se elige la alternativa j entre m alternativas, esto
revela que estamos en una determinada región del espacio de error (en realidad, un cono). Por lo tanto, la
Las probabilidades multinomiales requeridas para la evaluación de la probabilidad de MNP implican integrales.
,β
) izΣ
Pr(Xdy =∫ φ ( µ β = Σ)
,
R
Las probabilidades de elección implican integrales de una densidad normal multivariada sobre conos y
Se han centrado en métodos para aproximar estas integrales. El estado del arte en esta área.
muestreo para aproximar estas probabilidades. La práctica clásica actual implica el uso
15
Machine Translated by Google
métodos de simulación para aproximar la probabilidad (Huber y Train 2001) y luego utiliza
procedimientos estándar de máxima verosimilitud, ignorando el error de simulación (esto a menudo se llama
Aumento de datos
enfoque si los parámetros se aumentan con un vector de variables latentes, z (ver Tanner y
Wang 1987). Para un bayeisiano, todas las cantidades no observables pueden considerarse objeto de
el número de variables latentes puede ser el mismo que el número de observaciones, por lo que es grande
La inferencia de muestras basada en asintóticas estándar no se aplica. La parte posterior que ahora
lo que se requiere es la distribución conjunta del vector latente no observable (z), y el parámetro
vector (θ), dados los datos (y). Para reducir la carga notacional, sólo consideraremos el caso de
dz y) = ∫ p(,|) z p( | θ θ y
Resulta que podemos explotar la estructura latente del modelo para construir un modelo “al estilo Gibbs”.
Cadena de Markov que puede tomar muestras de la articulación posterior de las latentes y los parámetros.
Entonces podemos simplemente marginar los datos descartando los sorteos de z. Es decir, dibujamos
p(|,) zy θ y p(θ |z y, )
dieciséis
Machine Translated by Google
cono. Dado el vector latente z, la inferencia procede como lo haría el análisis bayesiano estándar de
modelo, se encuentran disponibles resultados analíticos exactos para la parte posterior de (β ,Σ) . Se basa en el
La normal multivariada truncada se puede lograr fácilmente mediante extracciones uno por uno de una serie.
de distribuciones normales truncadas univariadas (ver McCulloch y Rossi 1994, Allenby, Arora
y Ginter 1995). Esto equivale a definir una subcadena para dibujar la normal truncada.
vector. Lo que es importante tener en cuenta es que al aumentar con la variable latente, tenemos
El costo de la simplificación computacional es una ampliación del espacio de estados para Markov.
Cadena. En general, esto hará que el método MCMC con datos aumentados converja más
lentamente y exhibe una autocorrelación más alta que el muestreador sin datos aumentados. En el caso
del modelo MNP, Nobile (1998) ha indicado que bajo ciertas condiciones el estándar
El muestreador de Gibbs aumentado puede exhibir una autocorrelación muy alta y propone una mejora.
cadena.
Por lo tanto, el aumento de datos proporciona una forma inteligente de evitar la evaluación de varios
Método MCMC. Nuestra experiencia, sin embargo, ha demostrado que el muestreador básico MNP Gibbs
funciona bien y puede manejar problemas para los cuales el método de máximo simulado
la probabilidad se detiene.
Identificación
problema de identificación en estos modelos. Los problemas de identificación surgen del hecho de que
Varias transformaciones de las variables latentes dejan la variable de resultado censurada observada.
17
Machine Translated by Google
sin alterar. Por ejemplo, recuerde que en el modelo MNP la elección se hace con el
valor latente más alto. Hay dos tipos de transformación que dejan el índice del
máximo sin cambios. El primero simplemente implica agregar una variable aleatoria escalar a la
vector de latentes
z' = z + ν
2
E[z'|X] = Xβ + µ; V(z'|X) = Σ + σ En el
2
Los parámetros β ' = + (b0 1 m, bb ,..., )k y Σ=Σ+ ′ Soy observacional
pag
utilidades latentes con respecto a una alternativa de elección de base y crear una dimensión latente m1
modelo.
; ~N(0,
d = z−1 − z1 = Wβ + uu Ω )
Sin embargo, incluso el modelo diferenciado sigue estando sujeto a problemas de identificación. si escalamos
Al multiplicar el sistema diferenciado por una constante positiva, todavía quedan opciones.
sin alterar.
( ),b Ωcc(b),
2
Ω
Dado que tanto β como Ω no tienen restricciones, estos dos conjuntos de parámetros están en el espacio de parámetros
Un enfoque para este problema de escala es arreglar uno de los elementos de Ω (típicamente el (1,1)
utilice priores conjugados estándar como el prior Wishart. McCulloch, Polson y Rossi
Sin embargo, los bayesianos no se limitan a restricciones exactas como forma de resolver varios problemas.
problemas de identificación. El uso de una distribución previa adecuada garantiza que la parte posterior esté
18
Machine Translated by Google
cambio de identificación de una dicotomía identificadono identificado a una cuestión del grado de
Por ejemplo, podemos usar un previo adecuado pero difuso en el espacio de parámetros no identificado, y
simplemente marginar o proyectar hacia abajo en el espacio de parámetros identificados. En el caso del
(βr /o / Ωr Vaya
r ,11 , r,11 ) . El único costo adicional de este procedimiento es asegurarse de que el
inducido previamente sobre las cantidades identificadas es lo suficientemente difuso para ser utilizable en aquellos
situaciones en las que queremos que nuestras inferencias estén impulsadas principalmente por los datos. Esto significa que nosotros
El espacio no identificado se puede encontrar en el modelo Probit multivariado. Aquí los identificados
Los parámetros consisten únicamente en la matriz de correlación de las variables latentes ya que la escala separada
Se pueden utilizar constantes para cada elemento. Hasta hace poco (ver Barnard, McCulloch y Meng
2000) no se encuentran disponibles antecedentes convenientes para matrices de correlación. MCMC estándar
matrices de correlación válidas (Manchanda, Ansari y Gupta 1999). En otras palabras, es difícil
dibujar matrices de correlación candidatas. Como ilustran Edwards y Allenby (2002), todo esto puede
matrices de correlación (ver también DeSarbo, Kim y Fong 1999). Estos algoritmos son rápidos y
confiable.
19
Machine Translated by Google
Hemos visto que los datos de marketing desglosados suelen ser desiguales y contienen datos discretos.
puntos de probabilidad de masa. Un marco natural para construir modelos con aspectos discretos es
utilizar una variable latente continua subyacente junto con algún tipo de censura
mecanismo. Las variables latentes no sólo son útiles para generar modelos, sino que el nuevo MCMC
Los métodos de inferencia bayesianos explotan muy bien la estructura latente. Finalmente, identificación
Los problemas que son comunes en los modelos de variables latentes se pueden manejar con gran flexibilidad en
El enfoque bayesiano.
La explosión en los datos de demanda disponibles para los especialistas en marketing proviene del aumento
disponibilidad de datos desglosados. Los datos de escaneo a nivel de tienda y hogar ahora son
vulgar. En la industria farmacéutica, los datos de prescripción a nivel médico ahora son
vulgar. Esto plantea tanto desafíos de modelado como importantes oportunidades para
Estos nuevos datos vienen en una estructura de panel en la que N, el número de unidades es grande en relación con
Por ejemplo, prácticamente todos los fabricantes de productos envasados reciben ahora una “cuenta clave”.
datos de nivel. Una cuenta clave es una combinación de cadena y mercado como Safeway/Denver. Los datos
tener una estructura de panel con unas 100300 cuentas o unidades clave, observadas durante un máximo de 23
años de datos semanales. Los fabricantes están interesados en personalizar la actividad de comercialización a un
nivel de agregación más bajo posible. El modelo estadístico y el método de inferencia deben
personalización. En muchos casos, la distribución de las respuestas es tan importante como alguna medida.
de tendencia central.
20
Machine Translated by Google
Heterogeneidad y antecedentes
Una estructura general útil para datos desagregados es una estructura de panel en la que las unidades
se consideran independientes y condicionados a los parámetros a nivel de unidad. Dado un previo conjunto sobre el
colección de parámetros a nivel de unidad, la distribución posterior se puede escribir de la siguiente manera:
pag
(i norteθ,...,
norte yy 1 1 ,..., (θ) )
en py yo
∏i ×
pag (θθτ
1
,..., )
norte
El término entre paréntesis es la probabilidad condicional y el término más a la derecha es la probabilidad conjunta anterior.
El hiperparámetro para el anterior puede ser importante para determinar las inferencias realizadas para cualquier
una unidad. Un buen ejemplo de esto se puede encontrar en los conjuntos de datos de elección en los que los consumidores son
observó eligiendo entre un conjunto de productos. Muchos consumidores (“unidades”) no eligen todos
las alternativas disponibles durante el curso de la observación. En esta situación, la mayoría de los estándares
Los modelos de elección no tienen una estimación de máxima verosimilitud acotada (la probabilidad
asíntota en una determinada dirección en el espacio de parámetros). En esta situación, el prior es, en
Evaluación de la junta previa para (θ θ 1 ,..., N )es difícil debido a la alta dimensión de
el espacio de parámetros y, por lo tanto, algún tipo de simplificación de la forma del prior es
21
Machine Translated by Google
Esto significa que la inferencia para cada unidad se puede realizar independientemente de todas las demás unidades.
condicional a τ . Éste es el análogo bayesiano de los enfoques de efectos fijos en la teoría clásica.
Estadísticas.
La especificación del prior condicionalmente independiente puede ser muy importante debido
a la escasez de datos para muchas de las unidades. Tanto la forma del prior como los valores de
Los hiperparámetros son importantes y pueden tener efectos pronunciados a nivel de unidad.
atenuado para probabilidades centradas lejos del anterior. Es decir, las finas colas de los
La especificación de una forma normal para el anterior, cualesquiera que sean los valores de los hiperparámetros, es
La evaluación de los hiperparámetros anteriores también puede ser un desafío en cualquier aplicación.
situación. Para el caso del prior normal, algún prior relativamente difuso puede ser una opción razonable.
elección predeterminada. Allenby y Rossi (1993) utilizan un análisis previo basado en una versión escalada del conjunto
matriz de información del modelo. La covarianza anterior se reduce para representar la covarianza esperada.
información en una observación para asegurar un previo relativamente difuso. Uso de este tipo de normal
significa) {θ i
θ =y i ,
datos
i previos
} se agrupará más estrechamente con la media anterior que la
estimaciones de máxima verosimilitud a nivel de unidad {θ i} ˆ . Para configuraciones previas difusas, la forma normal
del anterior será responsable de los efectos de la contracción. En particular, los valores atípicos serán
"se redujo" dramáticamente hacia la media anterior. Para muchas aplicaciones, esto es muy deseable.
22
Machine Translated by Google
característica de la forma normal anterior. "Reduciremos" los valores atípicos hacia el resto del
Modelos Jerárquicos
En general, sin embargo, puede ser deseable tener la cantidad de contracción inducida por
los antecedentes impulsados por la información de los datos. Es decir, debemos “adaptar” el nivel de
contracción de la información de los datos sobre la dispersión en {θi}. Si, por ejemplo,
observamos que los {θi} están estrechamente distribuidos en algún lugar o que hay muy poca
información en cada nivel de probabilidad de unidad, entonces podríamos querer aumentar la rigidez de la
anterior para que los efectos de la contracción sean mayores. Esta característica de la “contracción adaptativa” fue la
Motivación original para el trabajo de Efron y Morris (1975) y otros sobre el Bayes empírico.
enfoques en los que se estimaron parámetros previos. Estos enfoques empíricos de Bayes son
una aproximación a un enfoque de Bayes completo en el que especificamos una segunda etapa previa en el
Modelo jerárquico de Bayes y consta de probabilidad de nivel unitario y dos etapas previas.
Probabilidad: py ( en θ i)
pag
(i 1
, k él
, metro, y 1, k
, , metro ) i ∏i ( θ ) i (θ
τ ) yh i tubo × (t ) ph
23
Machine Translated by Google
previo independiente. Los parámetros a nivel de unidad son condicionalmente, pero no incondicionalmente, un
p(θ1 ,, h)
Kθm= _∫∏i p (θ τττ ) p(
i h d)
Si, por ejemplo, el prior de segunda etapa en τ es muy difuso, el prior marginal en la unidad
Los parámetros de nivel serán altamente dependientes ya que cada parámetro tiene un gran valor común.
componente.
hacer inferencias sobre el parámetro común, τ . Por ejemplo, en condiciones anteriores normales,
distribución de θi . Por tanto, la parte posterior del θi reflejará un nivel de contracción inferido
de los datos en el sentido de que Vθ estará determinado por los datos. Para algunos conjuntos de datos, el
La parte posterior de Vθ se centrará sobre valores pequeños, lo que implica un alto nivel de contracción. Es
Es importante recordar, sin embargo, que la forma funcional normal inducirá una gran cantidad de
contracción para unidades periféricas incluso si la parte posterior de Vθ está centrada en valores grandes.
Los modelos jerárquicos para estructuras de datos de panel son ideales para los métodos MCMC.
En particular, a menudo se puede construir una cadena de Markov estilo “Gibbs” considerando la
1. yoyo , yo y
24
Machine Translated by Google
2. τ θ { i}
El primer conjunto de condicionales explota el hecho de que los θi son condicionalmente independientes. El
El segundo conjunto explota el hecho de que {θi} es suficiente para τ . Es decir, una vez dibujados los {θi}
de 1), estos sirven como “datos” para las inferencias sobre τ . Si, por ejemplo, la primera etapa
prior es normal, entonces se pueden usar priores conjugados naturales estándar y se pueden realizar todos los sorteos
uno por uno y en bloques lógicos. Este modelo anterior normal es también la piedra angular de
i i ~ NVi ( ,yo )
i ~ ESO
i( , ) −1
−1
En ~
i
(tu , )
VIRGINIA OCCIDENTAL
En el modelo normal, los {θi} extraídos de 1) se tratan como una muestra normal multivariada
y se utilizan priores condicionalmente conjugados estándar. Vale la pena señalar que en muchos
1
aplicaciones, los prioritarios de la segunda etapa serán muy difusos ( − A = I 100 o más) y el
Wishart está configurado para tener expectativa I con grados de libertad muy pequeños, como tenue 3 (yo ) + .
Como a menudo tenemos un mayor número de unidades en el análisis, los datos parecen abrumar a estos
En los enfoques clásicos de estos modelos, la primera etapa previa se llama aleatoria.
modelo de efectos y se considera parte de la probabilidad. El modelo de efectos aleatorios se utiliza para
promediar la probabilidad condicional para producir una probabilidad incondicional que es una función
l ( ) τ = ∏i ∫ p( yi θi ) pd τ
(θiθ ) i
25
Machine Translated by Google
modelos de coeficientes y modelos de efectos fijos. Los modelos de efectos fijos se consideran “no
paramétrico” en el sentido de que no existe una distribución específica para los parámetros θi .
Los modelos de coeficientes aleatorios a menudo se consideran más eficientes, pero están sujetos a especificaciones.
que la distinción entre estos dos enfoques está en la formulación del prior conjunto sobre
{i 1 , , K∙ im} .
Distribuciones de heterogeneidad
Gran parte del trabajo tanto en marketing como en la literatura estadística general ha utilizado
el previo normal para la primera etapa del modelo jerárquico. El prior normal ofrece una gran
literatura. El modelo normal estándar puede manejar fácilmente el análisis de muchas unidades (Steenburgh,
heterogeneidad (ver Allenby y Ginter 1995; Rossi et al 1996; Ralukdar, Sudhir y Ainslie
2002). Esto se puede hacer introduciendo una regresión multivariada en los observables en el
función media
θ = +Bz tu
una
~ 0,V ( )i
Aquí z es un vector de variables explicativas que pretenden explicar las diferencias entre unidades.
explicar las diferencias en las intersecciones (preferencia de marca) o pendientes (sensibilidades de la mezcla de marketing).
En los modelos lineales, esta especificación previa normal equivale a especificar un conjunto de interacciones.
26
Machine Translated by Google
entre las variables explicativas en el modelo que explica y (ver McCulloch y Rossi 1994
aplicaciones. Como se analizó anteriormente, las colas delgadas del modelo normal tienden a encogerse
unidades enormemente hacia el centro de los datos. Si bien esto puede ser deseable en muchas aplicaciones,
es un inconveniente a la hora de descubrir nuevas estructuras en los datos. Por ejemplo, si la distribución de
los parámetros a nivel de unidad son bimodales (algo que se espera en modelos con marca
intersecciones) entonces la primera etapa normal anterior puede reducir las estimaciones del nivel de unidad a tal grado
para enmascarar la multimodalidad (ver más abajo para más discusiones sobre diagnóstico).
Afortunadamente, el modelo normal proporciona un componente básico para una combinación de extensiones normales.
p(θ θ1 ,,,, K θK VV
EN , EN
1 kilo , K ) = r1 (θ θ1 1 , ) + + r K
k
(θ θK K )
Es bien sabido que el modelo de mezcla de normales proporciona una gran flexibilidad y
que con suficientes componentes, se puede aproximar prácticamente cualquier densidad multivariada. En
En particular, son posibles múltiples modos. También se pueden utilizar colas más gordas de lo normal.
El modelo de mezcla de normales puede verse como una generalización del popular modelo finito.
modelo de mezcla. El modelo de mezcla finita ve el prior como una distribución discreta con un conjunto
de puntos de masa. Este enfoque ha sido muy popular en marketing debido a la interpretación
método como en Heckman y Singer (1982). Los críticos del enfoque de mezcla finita han
así como el hecho de que el enfoque de mezcla finita no permite unidades extremas cuyas
27
Machine Translated by Google
Los parámetros se encuentran fuera del casco convexo de los puntos de apoyo. La mezcla de normales
enfoque evita los inconvenientes del modelo de mezcla finita al tiempo que incorpora muchos de los
componente del espacio de estados. Condicionado a las variables indicadoras, los sorteos del
Los parámetros de los componentes normales son sorteos conjugados estándar dada la clasificación del
observaciones en uno de los componentes K. Las variables indicadoras, condicionadas a todas las demás
unidades asignadas al componente y la probabilidad de que los parámetros de la unidad sean del
distribución de componentes.
conocido como problema de cambio de etiqueta. Un modelo con una secuencia dada de componentes.
Por lo tanto, las etiquetas de los componentes requieren la identificación de restricciones para que se produzca la inferencia. Uno
La solución a este problema es poner antecedentes informativos en los parámetros del modelo (por ejemplo,
θ>
1 θ > 2> θ K ... ), que funciona bien cuando los datos están de acuerdo con la restricción.
Sin embargo, si los datos no concuerdan (por ejemplo, los componentes difieren principalmente en V, no
θ ), entonces lo anterior puede conducir a una cadena que tarda en converger (Otter y Fruthwirth
Schnatter (1999)). Cabe señalar, sin embargo, que la presencia de cambio de etiqueta no
no afecta la inferencia sobre los parámetros de una unidad particular, θi . Si el componente normal
La distribución de la mezcla se considera un dispositivo flexible para aproximarse a algunas variables desconocidas.
28
Machine Translated by Google
hecho directamente con el conjunto de parámetros unitarios, { θi } , sin intentar identificar o estimar
En muchas situaciones, tenemos información previa sobre los signos de varios coeficientes en
el modelo básico. Por ejemplo, los parámetros de precios son negativos y los efectos publicitarios son
positivo. En un enfoque bayesiano, este tipo de información previa puede incluirse mediante
modificando la primera etapa previa. Reemplazamos la distribución normal con una distribución con
soporte restringido, correspondiente a las restricciones de señalización correspondientes. Por ejemplo, podemos
utilice una distribución lognormal para un parámetro que se restringe mediante signo mediante el
'
reparametrización, θ = En( )i . Este cambio en la forma del anterior puede destruir parte de
Sin embargo, si se utilizan métodos estilo Metropolis para generar sorteos en la cadena de Markov, es una
Es una cuestión sencilla reparar directamente los parámetros de la función de probabilidad, sustituyendo exp(θ') por
más importante es preguntar si el registro previo normal es apropiado. La cola izquierda del
distribución lognormal disminuye a cero, asegurando una moda para la distribución lognormal en un
valor estrictamente positivo. Para situaciones en las que queremos admitir cero como valor posible para
el parámetro, este previo puede no ser apropiado. Boatwright et al (1999) exploran el uso de
Los antecedentes normales truncados son mucho más flexibles y permiten que la masa se acumule en cero.
especificación de probabilidad para una unidad de análisis. La probabilidad se especifica como una mezcla de
probabilidades:
|
11 esoθ ( |{ })i1 () |...
py θél= rpyI θ + + rpy ( )
KK I
,
29
Machine Translated by Google
espacio de Estados. Condicional a las variables indicadoras, el dato, yit, se asigna a uno de K
probabilidades. Las variables del indicador, condicionadas a todos los demás parámetros, tienen un carácter multinomial.
debido a cambios ambientales (Yang y Allenby 2000) y fatiga (Otter, et.al. 2002).
Finalmente, recientemente se han utilizado métodos bayesianos para relajar la postura comúnmente formulada.
El supuesto de que los parámetros unitarios, θi , son iid se basa en la distribución de heterogeneidad.
donde Si denota unidades que son espacialmente adyacentes a la unidad i. Desde la estimación de MCMC
El algoritmo emplea distribuciones condicionales completas de los parámetros del modelo, el sorteo de θi
Implica utilizar un promedio local para la media de la distribución mixta. Yang y Allenby
(2002b) emplean una especificación simultánea de los parámetros unitarios para reflejar los posibles
th =
r th ¿W? +
2
tu ~ni0, ( pag )
donde W es una matriz que especifica la red, ρ es un coeficiente que mide la influencia
30
Machine Translated by Google
i ~ Nevada
i , i )
i , V(i )
( pag
Para la segunda etapa se utilizan priores muy difusos. Así, es la primera etapa previa la que se
importante y siempre lo seguirá siendo mientras haya sólo unas pocas observaciones
disponible por hogar. Dado que los parámetros de la primera etapa previa se infieren de la
(por ejemplo, distribuciones normales) a menudo son criticadas debido a que su especificación errónea
conduce a estimaciones inconsistentes de los parámetros comunes del modelo (cf. Heckman y Singer
(mil novecientos ochenta y dos). Por ejemplo, si la verdadera distribución de los parámetros del hogar estuviera sesgada o
bimodal, nuestras inferencias basadas en el prior normal simétrico y unimodal podrían ser
medias de los hogares y comparar esto con la distribución normal implícita evaluada en el método Bayes
obligado a seguir la distribución normal ya que la distribución normal es sólo una parte de la
El anterior y el posterior están influenciados por los datos a nivel de unidad. Este sencillo enfoque está en el
espíritu correcto, pero podría ser engañoso ya que no tomamos en cuenta adecuadamente la incertidumbre en el
31
Machine Translated by Google
Allenby y Rossi (1999) proporcionan una verificación diagnóstica del supuesto de normalidad.
en la primera etapa de la distribución previa que tiene en cuenta adecuadamente la incertidumbre de los parámetros.
distribución, calculamos la distribución predictiva de θi' para la unidad i' seleccionada al azar de
, | Vθ datos ) di dV )
θi'|datos = ∫ φ θ( |θ ,Vθ ) p(θ i
i ,V ,i junto con extracciones de la normal anterior para construir una estimación de este
Los últimos diez años de trabajo sobre la heterogeneidad en el marketing han dado lugar a varios
hallazgos importantes. Los investigadores han explorado un conjunto bastante grande de modelos de primera etapa con
una distribución normal de heterogeneidad entre unidades. En particular, los investigadores han
considera una regresión lineal normal de primera etapa (Blattberg y George 1991), una primera etapa
modelo logit (Allenby y Lenk 1994, 1995), un probit de primera etapa (McCulloch y Rossi 1994),
una primera etapa Poisson (Neelamegham y Chintagunta 1999), y una primera etapa generalizada
modelo de distribución gamma (Allenby, Leone y Jen 1999). La principal conclusión es que
Existe un grado sustancial de heterogeneidad entre unidades en diversos conjuntos de datos de marketing.
preferencias, tanto en términos de importancia sustantiva como práctica (Ansari, Jedidi y Jagpal
32
Machine Translated by Google
2000). Puede haber un sesgo de heterogeneidad sustancial en los modelos que no tienen en cuenta adecuadamente
personalizar las decisiones de marketing al nivel unitario (ver Rossi, McCulloch y Allenby 1996).
conduce a cambios en la preferencia de una unidad por una oferta de producto (ver también Arora y Allenby
1999). Las condiciones motivadoras son un dominio interesante para la investigación ya que preexisten al
mercado, ofreciendo una medida de la demanda que es independiente de las ofertas del mercado.
Otras investigaciones han documentado evidencia de que el proceso de decisión empleado por una unidad no es
necesariamente constante durante la compra de una unidad (Yang y Allenby 2000) y la respuesta
(Otter 2002) historia. Esta evidencia indica que la unidad de análisis apropiada para
El marketing está en un nivel que es menos agregado que el de una persona o encuestado, aunque hay
evidencia de que la sensibilidad de los hogares a las variables de marketing (Ainslie y Rossi 1998) y el estado
modelos alternativos como la mezcla de normales para sacar conclusiones definitivas (ver
Allenby, Arora y Ginter 1998). Con los paneles relativamente cortos que normalmente se encuentran en
aplicaciones de marketing, puede resultar difícil identificar una estructura mucho más detallada más allá
la que ofrece el modelo normal. Además, los paneles relativamente cortos pueden producir una
confusión del hallazgo de heterogeneidad con varias especificaciones erróneas del modelo en el
primera etapa. Si sólo hay una observación disponible para cada unidad, entonces el modelo de probabilidad para
el nivel unitario es la mezcla del modelo de primera etapa con el de segunda etapa anterior:
p( yτ ) = ∫ p( y θ )pd (θ τ θ )
33
Machine Translated by Google
Esta combinación puede proporcionar un modelo de probabilidad más flexible. En la situación de una observación,
Modelo jerárquico bayesiano para ajustar bien los datos. Obviamente, con más de una observación
por unidad, esto cambia y es posible diagnosticar por separado los problemas del modelo de primera etapa y
deficiencias en la supuesta distribución de heterogeneidad. Sin embargo, con paneles cortos hay
Es poco probable que haya una separación clara entre estos problemas y puede darse el caso de que algunos de ellos
La heterogeneidad detectada en los datos de marketing se debe en realidad a la falta de flexibilidad en la base.
modelo.
conceptualmente inapropiado para ver cualquier población de unidades se ha compuesto sólo de una pequeña
(1996) muestran algunas de las deficiencias del modelo de mezcla finita y proporcionan algunas
evidencia de que el modelo de mezcla finita no recupera un parámetro de nivel unitario razonable
estimados. Por el contrario, Andrews, Ansari y Currim (2002) utilizan datos simulados para sugerir
esa recuperación a nivel unitario es comparable entre los enfoques de mezcla normal y finita.
capacidad de producir estimaciones a nivel unitario, ha habido un mayor interés por parte de
profesionales en análisis a nivel de unidad. Los investigadores conjuntos siempre han tenido interés en
valores parciales a nivel de encuestado y tenía varios esquemas ad hoc para producir estas estimaciones.
popular software conjunto Sawtooth. Experiencia con este software y estudios de simulación.
34
Machine Translated by Google
han llevado a Rich Johnson, fundador del software Sawtooth, a concluir que los métodos bayesianos
Los minoristas están acumulando volúmenes de datos de escáneres a nivel de tienda. Normalmente no está disponible para
investigadores académicos, estos datos a nivel de tienda son potencialmente útiles para informar al minorista básico
La fijación de precios y la promoción se han visto frustradas por la incapacidad de producir promociones confiables.
y parámetros de respuesta del precio. Por lo tanto, la promesa de fijar precios a nivel de tienda se ha desvanecido.
no realizado. Recientemente, varias empresas, entre ellas el líder DemandTec, han aparecido en
este espacio, ofreciendo servicios de promoción y precios basados en datos a clientes minoristas. En el
datos obtenidos directamente del cliente Retail. Los métodos de contracción bayesianos permiten
DemandTec para producir estimaciones de parámetros razonables y relativamente estables a nivel de tienda.
V. Teoría de la decisión
La inferencia bayesiana es sólo un caso especial de la teoría de decisión bayesiana más general.
acercarse. La teoría de la decisión bayesiana tiene dos componentes críticos y separados: 1. una pérdida
función y 2. la distribución posterior. La función de pérdida asocia una pérdida con un estado.
El tomador de decisiones óptimo elige la acción de modo que se minimice la pérdida esperada donde
mín.a yo
(a ) = ∫ yo(ap ,θ ) (θ θ Datos d)
35
Machine Translated by Google
a menudo se considera cuadrático. En este caso, la “acción” óptima es un estimador que se considera
Selección de modelo
incertidumbre condicionada a un modelo para los datos, pero también a alguna medida de incertidumbre del modelo.
se elige el modelo y es igual para todos los casos en los que se elige el modelo incorrecto, entonces el
El tomador de decisiones bayesiano óptimo elige el modelo con la mayor probabilidad posterior.
( ( p kMD p=DM p M k ) ( ) k )
p (DM
( pkDM
) ) =p
∫ i , kk
d
( ) yo yo
Cabe señalar que no requerimos que los espacios de parámetros correspondientes a cada
el modelo esté relacionado de alguna manera, como en los modelos anidados. En el enfoque bayesiano, la
La probabilidad posterior solo requiere la especificación de la clase de modelos y los anteriores. Allá
modelo o grupo de modelos frente a algún conjunto de alternativas no especificadas y posiblemente desconocidas.
modelos.
relación de probabilidades del modelo posterior. Esta relación se puede expresar como la relación del promedio
36
Machine Translated by Google
probabilidades multiplicadas por el odds ratio anterior. La razón de probabilidad promedio a veces se llama
PMD
( ) 1( ) (i ) 1 ( yo
∫ pág.111
=
yo ) yo
re
1 ( pm 1 )
×
∫ 2(i ) (yo )yo
p MDpágina 2 222 yo d 2 ( pm 2 )
difusión previa. A medida que el prior se vuelve cada vez más extendido en relación con el fijo
probabilidad, el valor promedio de la probabilidad disminuye. Por lo tanto, si el prior para el modelo 1 es un
mucho más extendido que el anterior para el modelo 2, esto puede resultar en factores de Bayes que
favorecer el modelo 2 (esto es ciertamente cierto en un sentido limitante). En particular, difusa e inadecuada.
Los antecedentes pueden dar como resultado factores de Bayes indefinidos. Recomendamos prestar mucha atención
sobre la evaluación previa y que se realice un análisis de sensibilidad previo siempre que se calcule
probabilidad. El método más utilizado se debe a Schwarz (1978), quien calculó una
aproximación asintótica que depende únicamente de la dimensión del modelo. Esta idea es
detrás del conocido criterio de información de Schwarz o Bayeisan (BIC) para la elección del modelo.
Excepto en el caso de formas muy especiales de antecedentes, el método de Schwarz es extremadamente inexacto y
Newton y Raftery (1994) ofrecen un método conveniente para aproximar un factor de Bayes
utilizando sorteos de simulación MCMC para estimar la probabilidad promedio como la media armónica de
las probabilidades de una muestra de la distribución posterior. Este estimador es consistente, pero
37
Machine Translated by Google
puede ser inestable debido a sorteos de los parámetros que están asociados con una pequeña probabilidad
valores.
en el que se debe tomar una decisión dada la incertidumbre sustancial de un parámetro o modelo. En
En estas situaciones, la incertidumbre debe tenerse en cuenta en la decisión misma. La decisión de marketing
El fabricante toma una acción estableciendo el valor de varias variables diseñadas para cuantificar la
entorno de marketing al que se enfrenta el consumidor (como el precio o los niveles de publicidad). Estos
Las decisiones deben verse atenuadas por el nivel de incertidumbre que enfrenta el especialista en marketing. para hacer esto
concreto, comience con un modelo de probabilidad que especifique cómo la variable de resultado es impulsada por
px ( y ,θ )
' '
Quien toma las decisiones tiene cierto control sobre un subconjunto del vector x, = X ' . xdd
xx , d aquellos
representa las variables bajo el control de quien toma las decisiones y xcov son las covariables. El
El objetivo de quien toma las decisiones es elegir xd para maximizar el valor esperado de las ganancias.
(π). En un tratamiento totalmente teórico de la decisión bayesiana, esta expectativa se toma con respecto
p( cov , d yxx )
Pi
*
( xx d = EE) Pi ( yx )
aquellos i y i d
=
Ei ∫ Pi ( yxpyxx
)( d d , aquellos
,i tú
)
Y=
i Pi ( xxd aquellos
,i )
38
Machine Translated by Google
*
quien toma las decisiones elige xd para maximizar las ganancias π .
La función de beneficio con respecto a la distribución posterior de θ se reemplaza por una evaluación de
la función como la media posterior de los parámetros (a menudo la estimación de Bayes). Este
Pi* ( )= ˆ= i[ ])
d i πθπ
≠) (xE (θ
xd
_
xd
_
Y
En aplicaciones de teoría de decisiones para desagregar datos, es muy probable que la incertidumbre en
θ es muy grande. Junto con un π no lineal ( ), esto implica que los errores por el uso de
La incertidumbre de los parámetros exagerará las oportunidades potenciales de ganancias. Esta es una especie de
“exceso de confianza” que resultará en una sobreestimación del valor de la información (ver también
39
Machine Translated by Google
Incorporar una variedad de diferentes fuentes de información. Todos los métodos de contracción adaptativa
utilizar la similitud entre unidades transversales para mejorar la inferencia a nivel de unidad.
A esto se le suele denominar “fuerza de endeudamiento”. El monto del “préstamo” está determinado por
la dependencia en el modelo de coeficientes aleatorios o previo de la primera etapa. Dado que esto es típicamente
determinados por los datos, los aspectos de "contracción" de las estimaciones bayesianas se adaptan a los datos. Un
Las similitudes entre países se utilizan para predecir los patrones de ventas después de la introducción.
de nuevos productos.
Por ejemplo, considere dos conjuntos de información A y B junto con los posteriores correspondientes,
pag A
(i ), pag B
(i ) . Valoramos estos conjuntos de información resolviendo el problema de decisión usando
)=
*
pag = mi x
yo xd
_
Pi (xx d
yo aquellos
máximo
xd
_ ∫ Pi ( xx d aquellos
, yo ) PD
( ) yo yo
yo
=
AB ,
Rossi, McCulloch y Allenby (1996) enfatizan el uso de problemas de decisión bayesiana para
valorar diversos conjuntos de información disponibles sobre hogares individuales. Un cupón de orientación
El problema que anticipó los ahora populares productos de Catalina Marketing Inc. se utilizó para
valorar una secuencia de conjuntos de información en expansión a nivel individual. Pasamos ahora a la
40
Machine Translated by Google
Una vez que se ha establecido un enfoque totalmente teórico de decisiones, podemos utilizar el beneficio
Métrica para valorar la información en datos desagregados. Es decir, debemos comparar las ganancias que
se puede obtener a través de nuestras inferencias desagregadas sobre {θi} con ganancias que podrían ser
obtenidos utilizando únicamente información agregada. Las oportunidades de ganancias que ofrece
Los datos desagregados dependerán tanto del grado de heterogeneidad entre las unidades del
datos de panel así como el nivel de información a nivel desagregado. Por ejemplo, si hay
Es una cantidad muy pequeña de información a nivel de panelistas, las soluciones óptimas a la
Los problemas de decisión bayesiana variarán poco de un panelista a otro y se aproximarán a los
Para hacer explícitas estas nociones, presentaremos los conceptos desagregados y agregados.
problemas de decisión. Para hacerlo, debemos corregir alguna notación para los datos desagregados. Lo haremos
p ( yp iθi ) (θi τ )
Aquí p (θ τi ) es el efecto aleatorio o primera etapa previa. Como se enfatiza en la sección 3, el método bayesiano
Los métodos son ideales para la inferencia sobre parámetros individuales o desagregados como
Pii* ( xx chicos,
dii ) = ∫π ( xx chicos,
dii , yo
i
) p(yo
Datos
i d i) i
, ,
41
Machine Translated by Google
Es decir, debemos maximizar las ganancias esperadas cuando la expectativa se toma con respecto a
la distribución posterior de θi . Los beneficios totales de los datos desagregados son simplemente la suma
*
Π = ∑π (i %
xx d, i i
cov,
desagregar
) dónde %x es la elección óptima de
yo ,
X
yo ,
π
adj. (x dmi) = i ∑
Pi (xx d i
∫ ) i∑
,
=
aquellos,
Pi ( xx di , _ yo)yo
( )yo
PD
π ag
=π( X) %
ag d
primera etapa previa con respecto a la distribución posterior de los parámetros del modelo.
pag
∫
( ) θ = (θ τ ) (τ τ ) p Datos d
pag
La comparación de Πagg con Πdisagg proporciona una métrica para el valor alcanzable de la
información desagregada.
VI. Conclusion
Los investigadores han notado durante mucho tiempo el atractivo conceptual del marco bayesiano para
inferencia y toma de decisiones. Sin embargo, el potencial del enfoque bayesiano no fue
Los investigadores se limitaron a una breve lista de probabilidades y antecedentes conjugados asociados. El
Los avances de los últimos 15 años nos han liberado de las limitaciones de cálculo, lo que nos ha permitido
el análisis de prácticamente cualquier modelo. Ahora podemos considerar modelos que alguna vez se consideraron
42
Machine Translated by Google
imposible de calcular y podemos utilizar antecedentes de prácticamente cualquier forma. La única limitación ahora
es la capacidad de los datos para identificar los parámetros del modelo en lugar de la capacidad del analista para
Realizar inferencias para este modelo. Sin embargo, los acontecimientos recientes tienen un impacto aún más
impacto más profundo que simplemente liberarnos de las limitaciones computacionales. La naturaleza del
Los métodos MCMC enfatizan la modularidad en la construcción de modelos, que generalmente se logra
relaciones más complicadas. Así, el investigador puede crear un modelo más complejo.
Se ha dedicado atención a ajustar la distribución condicional de ventas (y) dado el precio (x).
Sin embargo, el proceso de decisión real ciertamente no está bien representado por una condición
Narasimhan 1999) en el que un producto debe incluirse primero en la consideración establecida antes
influenciado por otra variable z (por ejemplo, publicidad). Al final, el modelo jerárquico
especifica una forma especial para la distribución condicional de y | x, z que permite la exploración de
Los modelos condicionales son consistentes con los modelos de proceso de comportamiento del consumidor (por ejemplo, McFadden
2001).
Así, los métodos de modelado jerárquico logran no sólo una gran flexibilidad como
enfatizados en la literatura sobre estadística bayesiana, pero también se adaptan bien a la elaboración
de varias visiones de procesos latentes en la toma de decisiones del consumidor. Esperamos que la investigación en
43
Machine Translated by Google
marketing para centrarse en una mejor comprensión del proceso mediante el cual el consumidor hace
decisiones de compra con la esperanza de crear modelos de compra más realistas, pero todavía parsimoniosos.
comportamiento.
Un desafío importante al que se enfrentan los profesionales del marketing es la fusión de información.
adquiridos a través de una variedad de conjuntos de datos diferentes. Por ejemplo, una empresa puede tener acceso a
información de compra del consumidor, información de encuestas sobre una submuestra de consumidores, y
información de ventas agregada sindicada. Los datos del mercado y de la encuesta no se pueden combinar
sin alguna visión de los procesos mediante los cuales los consumidores toman decisiones de compra y
responder a los instrumentos de la encuesta. Los métodos bayesianos facilitarán la integración de estos datos
procesos mediante los cuales estos se traducen en respuestas a encuestas o en decisiones de compra.
Es probable que la información sobre cualquier consumidor siga siendo limitada. La personalización de
acciones de marketing a niveles cada vez más finos de agregación requiere la capacidad de hacer
estas inferencias. Por lo tanto, esperamos que los métodos bayesianos desempeñen un papel fundamental en la realización de la
Finalmente, hay una serie de problemas importantes en marketing que son esencialmente
El problema se define como para predecir la respuesta a una configuración dada del sistema de marketing.
44
Machine Translated by Google
posibles variables y formas funcionales para encontrar la mejor regla de predicción posible. En el
problema y creemos que estos métodos son muy prometedores para su aplicación en marketing.
problemas.
objetivo de predicción a través de una especificación del proceso de decisión. Esto orienta en la selección de
variables y en la estructura de relaciones entre variables. Sin embargo, las teorías estructurales
Por lo general, no dicen nada sobre la forma paramétrica exacta de las relaciones o distribuciones funcionales.
enfoque estructural también (Kalyanam y Shively 1998; Shively, Allenby y Kohn 1999).
En resumen, los métodos estadísticos bayesianos ofrecen un atractivo conjunto de herramientas para
toma de decisiones que es aplicable tanto al análisis teórico como al aplicado. Además, el
La estructura de modelado jerárquico que se explota en los métodos de estimación MCMC es congruente.
con teorías del comportamiento y ofrece un medio para integrar información a través de múltiples datos
fuentes. Finalmente, las ventajas computacionales de los métodos bayesianos permiten el estudio de
45
Machine Translated by Google
Referencias técnicas
Barnard, John, Robert E. McCulloch y XiaoLi Meng (2000), "Modelado de matrices de covarianza en términos de
desviaciones y correlaciones estándar, con aplicación a la contracción", Statistica Sinica, 10, 4.
Efron, Brad y Carl Morris (1975), "Análisis de datos utilizando el estimador de Stein y su
Generalizaciones”, Revista de la Asociación Estadounidense de Estadística70, 311319.
Heckman, James y Bernard Singer (1982) "Un método para minimizar el impacto de los supuestos distributivos en
modelos econométricos para datos de duración",
E conométrica, 52, 271320.
Keane, Michael (1993), “Métodos de estimación de simulación para modelos de variables dependientes limitadas”,
en Handbook of Statistics, vol 11, GS Maddala, CR Rao y HD Vinod (eds), Ámsterdam: Holanda
Septentrional.
Lindley, Dennis V. (2000) "La filosofía de la estadística", The Statistician, 49, 3, 292337.
McFadden, Daniel (2001), “Economic Choices”, American Economic Review 91, 351370.
Newton, Michael y Adrian E. Raftery (1994). Inferencia bayesiana aproximada mediante el bootstrap de probabilidad
ponderada (con discusión). Revista de la Royal Statistical Society, serie B, 56: 348.
Nobile, Augustino (1998), “Una cadena de Markov híbrida para el análisis bayesiano de la
Modelo probit multinomial”, Estadística e Informática, 8, 229 – 242.
46
Machine Translated by Google
Metric Conjoint Analysis”, documento de trabajo, Universidad de Economía y Administración de Empresas de Viena.
Sawtooth Software (2001), "Documento técnico de análisis de Bayes jerárquico de CBC", Serie de artículos técnicos de
Sawtooth Software, www.sawtoothsoftware.com.
Tanner, Martin A. y Wing H. Wong (1987) "El cálculo de distribuciones posteriores mediante aumento de datos", Revista de la
Asociación Estadounidense de Estadística, 82, 528550.
Tierney, Luke (1994) "Cadenas de Markov para explorar distribuciones posteriores", Anales de
Estadísticas, 23(4), 17011728
47
Machine Translated by Google
Se propone un modelo de elección de múltiples categorías en el que se supone que los coeficientes de
respuesta de los hogares dependen de cada categoría. La distribución estimada de la heterogeneidad revela
que el precio, la exhibición y la sensibilidad de las características no están determinados de manera única para
cada categoría, sino que pueden estar relacionados con factores específicos del hogar.
Allenby, Greg M., Robert P. Leone y Lichung Jen (1999), “Un modelo dinámico de
Momento de compra con aplicación al marketing directo”, Journal of the American
Asociación de Estadística, 94, 365374.
Tiempos de compra entre clientes modelados con una distribución gamma generalizada heterogénea, donde la
distribución de la heterogeneidad es una mezcla finita de componentes gamma generalizados inversos. El
modelo permite la heterogeneidad estructural.
donde los clientes pueden volverse inactivos.
Allenby, Greg M., Neeraj Arora y James L. Ginter (1998), “Sobre la heterogeneidad de la demanda”, Journal of Mark eting
Research, 35, 384389.
Un modelo de mezcla de componentes normal se compara con un modelo de mezcla finita utilizando datos
conjuntos y datos del panel del escáner. Los resultados predictivos proporcionan evidencia de que la distribución
de la heterogeneidad es continua, no discreta.
Allenby, Greg M., Lichung Jen y Robert P. Leone (1996), “Tendencias económicas y estar a la moda: la influencia de la
confianza del consumidor en las ventas minoristas de moda”, Journal of Business & E conomic Statistics, 14,
103111.
Se utiliza un modelo de regresión con errores autorregresivos para estimar la influencia de la confianza del
consumidor en las ventas minoristas. Los datos se combinan entre las divisiones de un minorista de moda para
estimar un modelo en el que la influencia tiene un impacto diferencial en las ventas de pretemporada frente a
las de temporada.
Allenby, Greg M. y Peter J. Lenk (1995), "Reevaluación de la lealtad a la marca, la sensibilidad al precio y los efectos de
la comercialización en la elección de la marca del consumidor", Journal of Business &
Estadísticas económicas, 13, 281289.
El modelo de regresión logística normal de Allenby y Lenk (1994) se utiliza para explorar el orden del proceso
de elección de marca y para estimar la magnitud del precio, la visualización y los efectos publicitarios en cuatro
conjuntos de datos de paneles de escáner. La evidencia indica que la elección de marca no es de orden cero y
los efectos de la comercialización son mucho mayores de lo que se pensaba anteriormente.
Allenby, Greg M. y James L. Ginter (1995), “Using Extremes to Design Products and Segment Markets”, Journal of Mark
eting Research, 32, 392403.
48
Machine Translated by Google
Se utiliza un modelo heterogéneo de elección binaria de efectos aleatorios para estimar los valores parciales
conjuntos utilizando datos de una encuesta telefónica. Los coeficientes de nivel individual disponibles en
los modelos jerárquicos de Bayes se utilizan para explorar los extremos de la
Distribución de heterogeneidad, donde los encuestados tienen mayor y menor probabilidad de responder a las
ofertas de productos.
Allenby, Greg M. y Peter J. Lenk (1994), “Modelado del comportamiento de compra de los hogares con regresión
logística normal”, Journal of American Statistical Association, 89, 12181231.
Allenby, Greg M. (1990) "Prueba de hipótesis con datos de escáner: la ventaja del método bayesiano
Métodos", Revista de investigación de mercados, 27, 379389.
Allenby, Greg M. (1990), "Validación cruzada, teorema de Bayes y sesgo de muestras pequeñas",
Revista de estadísticas económicas y empresariales, 8, 171178.
Andrés, Rick , Asim Ansari e Imran Currim (2002) “Bayes jerárquico versus modelos de análisis conjunto de
mezcla finita: una comparación de ajuste, predicción y recuperación de valor parcial”, Journal of Mark eting
Research, 8798
49
Machine Translated by Google
Las especificaciones de efectos aleatorios para los encuestados y los estímulos se proponen dentro
de la misma especificación del modelo lineal. El modelo se utiliza para agrupar información de múltiples
fuentes de datos.
Ansari, A., Kamel Jedidi y Sharan Jagpal (2000), “Una metodología bayesiana jerárquica para tratar la
heterogeneidad en modelos de ecuaciones estructurales”, Mark eting Science, 19, 328
347.
Arora, N. y Greg M. Allenby (1999) “Medición de la influencia de las estructuras de preferencias individuales en
la toma de decisiones grupales”, Journal of Mark eting Research, 36, 476487.
Las preferencias del grupo difieren de las preferencias de los individuos del grupo. La influencia del
grupo en la distribución de la heterogeneidad se examina utilizando
datos conjuntos sobre compras de bienes duraderos por parte del marido, de la mujer y de sus
evaluación.
Arora, N. y Greg M. Allenby y James L. Ginter (1998), “Un modelo jerárquico de Bayes de demanda primaria y
secundaria”, Mark eting Science, 17, 2944.
Se utiliza una especificación de demanda económica discreta/continua para modelar datos conjuntos
volumétricos. La función de verosimilitud es estructural y refleja una maximización de utilidad restringida.
Los datos de ventas semanales de varios minoristas de una cadena se modelan utilizando un modelo
lineal con heterogeneidad. Se ha demostrado que las estimaciones de elasticidad de precio y
promoción han mejorado el rendimiento predictivo.
Boatwright, Peter, Robert McCulloch y Peter E. Rossi (1999), "Modelado a nivel de cuenta para la promoción
del comercio: una aplicación de un modelo jerárquico de parámetros restringidos", Revista de
la Asociación Estadounidense de Estadística , 94, 10631073.
Un problema común en el análisis de datos de ventas es que los coeficientes de precios a menudo se
estiman con signos algebraicos que son incompatibles con la teoría económica. Las restricciones
ordinales se introducen a través de prior para abordar este problema, lo que lleva a una distribución
truncada de la heterogeneidad.
Bradlow, Eric T. y David Schmittlein (1999), “Los pequeños motores que podrían: modelar el rendimiento de los
motores de búsqueda en la World Wide Web”, Mark eting Science 19, 4362.
50
Machine Translated by Google
Se desarrolla un modelo de proximidad para el análisis del desempeño de los motores de búsqueda de
Internet. La función de probabilidad refleja la distancia entre el motor y
URL específicas, con la ubicación media de las URL parametrizada con un modelo lineal.
Bradlow, Eric T. y Peter S. Fader (2001), “Un modelo bayesiano de por vida para los “Hot 100”
Billboard Songs”, Revista de la Asociación Estadounidense de Estadística, 96, 368381.
Se desarrolla un modelo de series de tiempo para datos clasificados utilizando un modelo de variable latente.
La porción determinista de la variable latente sigue un patrón temporal descrito por una distribución gamma
generalizada, y la porción estocástica es un valor extremo.
Bradlow, Eric T. y Vithala R. Rao (2000), “Un modelo jerárquico de Bayes para la elección de surtido”, Journal of Mark
eting Research, 37, 259268.
Se incorpora una medida estadística del surtido de atributos en un modelo de utilidad aleatoria para medir la
preferencia del consumidor por el surtido más allá de los efectos de los propios niveles de atributos. El
modelo se aplica a la elección entre paquetes
ofrendas.
Chaing, Jeongwen, Siddartha Chib y Chakrvarthi Narasimhan (1999), “Markov Chain Monte Carol and Models of
Consideration Set and Parameter Heterogeneity”, Journal of E conometrics 89, 223248.
Chang, K., S. Siddarth y Charles B. Weinberg (1999), "El impacto de la heterogeneidad en el momento de las compras
y la capacidad de respuesta de los precios en las estimaciones de los efectos del impacto en las etiquetas",
Marketing Science, 18, 178192.
DeSarbo, Wayne, Youngchan Kim y Duncan Fong (1999), “Un procedimiento de escalamiento multidimensional
bayesiano para el análisis espacial de datos de elección revelada”, Journal of E conometrics 89, 79108.
La parte determinista de un modelo de variable latente se especifica como un producto escalar de las
coordenadas del consumidor y la marca para producir una representación espacial de los datos de elección
revelados. El modelo proporciona una representación gráfica de la estructura del mercado de ofertas de
productos.
51
Machine Translated by Google
Los datos Pick any/J se modelan con un modelo probit multivariado, lo que permite
Técnicas multivariadas que se aplicarán al parámetro de la normal latente.
distribución. Las restricciones de identificación para el modelo se imponen mediante el posprocesamiento de los
sorteos de la cadena de Markov.
Huber, J. y Kenneth Train (2001), “Sobre la similitud de las estimaciones clásicas y bayesianas de los valores parciales
medios individuales”, Mark eting Letters, 12, 259269.
Se ha descubierto que los métodos de estimación clásicos y bayesianos producen estimaciones similares a nivel
individual. Los métodos clásicos condicionan los hiperparámetros estimados, mientras que los métodos bayesianos
tienen en cuenta su incertidumbre.
Kalyanam, K. y Thomas S. Shiveley (1998), “Estimación de los efectos de los precios irregulares: un enfoque de regresión
spline estocástica”, Journal of Mark eting Research, 35, 1629.
Los splines estocásticos se utilizan para modelar la relación entre precio y ventas,
lo que resulta en una especificación más flexible de la función de probabilidad.
Kalyanam, K. (1996), “Decisión de fijación de precios bajo incertidumbre de la demanda: una mezcla bayesiana
Enfoque modelo”, Mark eting Science, 15, 207221.
La incertidumbre del modelo se captura en las predicciones del modelo tomando un promedio ponderado donde
las ponderaciones corresponden a la probabilidad posterior del modelo. Se ha demostrado que las decisiones de
fijación de precios son más sólidas.
Kamakura, Wagner A. y Michel Wedel (1997), “Statistical Data Fusion for CrossTabulation”, Journal of Mark eting Research,
34, 485498.
Se proponen métodos de imputación para analizar datos tabulados cruzados con celdas vacías. La imputación
se realiza de manera iterativa para explorar la distribución de las respuestas faltantes.
Kim, Jaehwan, Greg M. Allenby y Peter E. Rossi (2002), "Modelado de la demanda del consumidor
for Variety", Marketing Science, de próxima publicación.
Un modelo de elección con soluciones interiores y de esquina se deriva de una función de utilidad con utilidad
marginal decreciente. Las condiciones de KuhnTucker se utilizan para relacionar los datos observados con la
maximización de la utilidad en la especificación de probabilidad.
Leichty, John, Venkatram Ramaswamy y Steven H. Cohen (2001), “Menús de elección para la personalización masiva”,
Journal of Mark eting Research 38, 183196.
Se utiliza un modelo probit multivariado para modelar datos conjuntos donde los encuestados pueden seleccionar
varios elementos de un menú. Los datos binomiales observados se modelan con una distribución normal
multivariada latente.
Lenk, Peter y Ambar Rao (1990), “Nuevos modelos a partir de los antiguos: previsión de la adopción de productos mediante
procedimientos jerárquicos de Bayes”, Mark eting Science 9, 4253.
52
Machine Translated by Google
La función de probabilidad no lineal del modelo de Bass se combina con una especificación de efectos
aleatorios en la introducción de nuevos productos. Se ha demostrado que la distribución resultante de la
heterogeneidad mejora las predicciones tempranas de la introducción de nuevos productos.
Lenk, Peter J., Wayne S. DeSarbo, Paul E. Green y Martin R. Young, (1996), “Análisis conjunto jerárquico de Bayes:
recuperación de la heterogeneidad de Partworth a partir de una reducción
Diseños experimentales”, Mark eting Science, 15, 173191.
Manchanda, P., Asim Ansari y Sunil Gupta (1999), “La “cesta de compras”: un modelo para decisiones de incidencia
de compras multicategorías”, Mark eting Science, 18, 95114.
Los datos de demanda de múltiples categorías se modelan con un modelo probit multivariado.
La identificación de restricciones en la matriz de covarianza del error latente requiere el uso de un algoritmo
de MetropolisHastings modificado.
Marshall, P. y Eric T. Bradlow (2002), “Un enfoque unificado para el análisis conjunto
Models”, Revista de la Asociación Estadounidense de Estadística, de próxima publicación.
Se proponen varios mecanismos de censura para relacionar datos de intervalo observado, ordinales y
nominales con un modelo conjunto lineal latente.
McCulloch, Robert E. y Peter E. Rossi (1994) "An Exact Likelihood Analysis of the Multinomial Probit Model", Journal
of E conometrics, 64, 217228
Montgomery, Alan L. y Eric T. Bradlow (1999), “Por qué el exceso de confianza de los analistas en la forma funcional
de los modelos de demanda puede conducir a sobreprecios”, Mark eting Science, 18, 569583.
Montgomery, Alan L. y Peter E. Rossi (1999), “Estimating Price Elasticities with TheoryBased Priors”, Journal of
Mark eting Research, 36, 413423.
La distribución previa se utiliza para imponer estocásticamente restricciones a los parámetros de elasticidad
de los precios que sean consistentes con la teoría económica. Este enfoque propuesto se compara con
estimadores de contracción estándar que emplean la distribución de
heterogeneidad.
53
Machine Translated by Google
Neelamegham, R. y Pradeep Chintagunta (1999), “Un modelo bayesiano para pronosticar el desempeño de nuevos
productos en los mercados nacionales e internacionales”, Mark eting Science, 18, 115136.
Putler, Daniel S. Kirthi Kalyanam y James S. Hodges (1996), "Un enfoque bayesiano para estimar el potencial del
mercado objetivo con información geodemográfica limitada",
Journal of Mark eting Research, 33, 134149.
La información previa sobre la correlación entre variables se combina con datos sobre la distribución
marginal para producir una distribución posterior conjunta.
Rossi, Peter E., Zvi Gilula, Greg M. Allenby (2001), “Superando el uso de escala
Heterogeneidad: un enfoque jerárquico bayesiano”, Revista de la Asociación Estadounidense de
Estadística, 96, 2031.
Se supone que los datos de respuesta de los consumidores en una escala de calificación de puntos fijos
son resultados censurados de una distribución normal latente. La variación en los límites de censura entre
los encuestados permite una heterogeneidad en el uso de la escala.
Rossi, Peter E., Robert E. McColloch y Greg M. Allenby (1996), “El valor de los datos del historial de compras en el
marketing objetivo”, Mark eting Science, 15, 321340.
El contenido de información de fuentes de datos alternativas se evalúa utilizando una función de pérdida
económica de rentabilidad del cupón. Se ha demostrado que el valor del historial de compras de un hogar
es grande en relación con la información demográfica y otros conjuntos de información.
Rossi, Peter E. y Greg M. Allenby (1993), "Un enfoque bayesiano para estimar
Parámetros del hogar”, Journal of the Mark eting Research, 30, 171182.
Los parámetros a nivel individual se obtienen con el uso de una distribución previa informativa, pero
relativamente difusa. Se proponen métodos para evaluar y especificar la cantidad de información previa.
Sandor, Zsolt y Michel Wedel (2001), “Diseño de experimentos de elección conjunta utilizando las creencias previas
de los gerentes”, Journal of Mark eting Research 28, 430444.
54
Machine Translated by Google
La información de un experimento que involucra modelos de elección discreta depende del diseño
experimental y de los valores de los parámetros del modelo. Los diseños óptimos se determinan con una
medida de información que depende de la evaluación previa.
distribución.
Se utilizan múltiples conjuntos de datos de paneles de escáner para estimar un modelo de elección de marca
con dependencia del estado. Las estimaciones a nivel individual de los efectos de la dependencia del Estado son
examinados entre categorías.
Shively, Thomas A., Greg M. Allenby y Robert Kohn (2000), "Un análisis no paramétrico
Enfoque para identificar relaciones latentes en modelos jerárquicos”, Mark eting Science, 19, 149162.
Steenburgh, Thomas J., Andrew Ainslie y Peder H. Engebretson (2002), “Massively Categorical Variables: Revealing
the Information in Zipcodes”, Mark eting Science, de próxima publicación.
Los efectos asociados con variables masivamente categóricas, como los códigos postales, se modelan en
una especificación de efectos aleatorios. Se examinan funciones de pérdida alternativas para evaluar el valor
de las estimaciones de contracción resultantes.
El modelo de difusión de Bass se combina con una especificación de efectos aleatorios para los coeficientes
de innovación, imitación y potencial de mercado. Los efectos aleatorios
El modelo incluye covariables macroeconómicas que tienen un gran poder explicativo.
en relación con la heterogeneidad no observada.
Ter Hofstede, Frenkel, Michel Wedel y JanBenedict EM Steenkamp (2002), "Identificación de segmentos espaciales en
mercados internacionales", Marketing Science, 21, 160177.
Ter Hofstede, Frenkel, Youingchan Kim y Michel Wedel (2002), "Predicción bayesiana en
Análisis conjunto híbrido", Journal of Marketing Research, 34, 253261.
55
Machine Translated by Google
Las evaluaciones de perfil e importancia a nivel de atributo del autoestado se modelan como conjuntos
resultados de un conjunto común de valores parciales. Las probabilidades del conjunto de datos difieren e
incluyen otros parámetros incidentales que facilitan la integración de información para producir estimaciones
mejoradas.
Se utiliza un modelo multinivel de respuesta de atención y memoria para investigar el efecto de los
atributos de marca, gráficos y de texto de los anuncios impresos. La información de los datos se integra a
través de una especificación de probabilidad de múltiples capas.
Yang, S. y Greg M. Allenby (2000), “Un modelo de observación, heterogeneidad estructural y doméstica en datos de
panel”, Marketing L etters, 11, 137149.
La heterogeneidad estructural se especifica como una mezcla finita de probabilidades no anidadas, y las
covariables se asocian con las masas puntuales de la mezcla.
Yang, Sha, Greg M. Allenby y Geraldine Fennell (2002a), “Modelado de la variación en la preferencia de marca: las
funciones del entorno objetivo y las condiciones motivadoras”,
Mercadotecnia Ciencia 21, 1431.
56