0% encontró este documento útil (0 votos)
166 vistas57 páginas

Métodos Bayesianos en Marketing

Este documento presenta una introducción a los métodos bayesianos en estadística y marketing. Explica que los métodos bayesianos son particularmente útiles para problemas de toma de decisiones en marketing debido a su enfoque de combinar información previa con datos para realizar inferencias y predicciones. Además, destaca que los modelos jerárquicos bayesianos ofrecen gran flexibilidad y modularidad para problemas de marketing que involucran grandes conjuntos de datos heterogéneos con información limitada por unidad. Finalmente, enfatiza que los métodos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
166 vistas57 páginas

Métodos Bayesianos en Marketing

Este documento presenta una introducción a los métodos bayesianos en estadística y marketing. Explica que los métodos bayesianos son particularmente útiles para problemas de toma de decisiones en marketing debido a su enfoque de combinar información previa con datos para realizar inferencias y predicciones. Además, destaca que los modelos jerárquicos bayesianos ofrecen gran flexibilidad y modularidad para problemas de marketing que involucran grandes conjuntos de datos heterogéneos con información limitada por unidad. Finalmente, enfatiza que los métodos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Machine Translated by Google

Estadística y marketing bayesianos

Peter E. Rossi
Graduate School of Business
University of Chicago
1101 E. 58th Street
Chicago, IL 60637
[email protected] fax:
773­702­2857

Greg M. Allenby
Fisher Facultad de Negocios
Universidad Estatal de Ohio

julio de 2002

Rossi es el autor correspondiente.

Agradecimientos Rossi
agradece al centro James M. Kilts por el apoyo de esta investigación. Agradecemos a Rob McCulloch
por sus comentarios. Los autores se inspiraron en los escritos y enseñanzas de Arnold Zellner y Dennis
Lindley a lo largo de nuestras carreras.
Machine Translated by Google

Estadística y marketing bayesianos

Abstracto

Los métodos bayesianos se han generalizado en la literatura de marketing. Revisamos la esencia


del enfoque bayesiano y explicamos por qué es particularmente útil para problemas de marketing.
Si bien los investigadores han observado desde hace mucho tiempo el atractivo del enfoque
bayesiano, los avances recientes en los métodos computacionales y la mayor disponibilidad de datos detallados
Los datos del mercado han impulsado el crecimiento bayesiano en el marketing. Destacamos el
Modularidad y flexibilidad de los enfoques bayesianos modernos. Finalmente, la utilidad de
Métodos bayesianos en situaciones en las que hay información limitada sobre una gran cantidad de
unidades o donde la información proviene de diferentes fuentes.

Palabras clave: Estadística Bayesiana, teoría de la decisión, modelos de marketing.

1
Machine Translated by Google

Estadística y marketing bayesianos

Introducción

En los últimos diez años se ha visto un aumento dramático en el uso de métodos bayesianos en

marketing. Se han realizado análisis bayesianos sobre una amplia gama de problemas de marketing.

desde la introducción de nuevos productos hasta la fijación de precios y con una amplia variedad de fuentes de datos diferentes.

Los métodos bayesianos son particularmente apropiados para la orientación de decisiones de marketing.

problemas. El marketing es un campo normativo que intenta informar mejores decisiones. Mientras

El atractivo conceptual de los métodos bayesianos ha sido reconocido desde hace mucho tiempo, la reciente popularidad

proviene de avances computacionales y de modelado que han hecho que los métodos bayesianos

atractivo para muchos problemas de marketing. En esta revisión, describiremos las ventajas básicas.

del enfoque bayesiano, explique cómo los modelos jerárquicos de Bayes son ideales para muchos

conjuntos de datos y decisiones de marketing, y describir la naturaleza de la revolución computacional.

En todo momento, enfatizaremos la importancia de una orientación de decisión que creemos es una

aspecto importante del marketing como campo.

Antes de la infusión de los métodos bayesianos, dominaban los métodos econométricos clásicos.

la literatura de marketing. En los enfoques clásicos, el énfasis está en la estimación de parámetros.

y prueba de hipótesis. Se construyen distribuciones muestrales de estimadores o estadísticas de prueba.

al ver los datos como aleatorios y generados a partir de algunos datos que generan un modelo probabilístico.

Excepto en el caso de una clase muy pequeña de modelos, las distribuciones muestrales no pueden derivarse en sistemas cerrados.

forma de modo que los métodos clásicos se basan casi exclusivamente en muestras asintóticas o grandes.

métodos. En situaciones con información muestral limitada o imperfecta y particularmente con

En el caso de datos no continuos, las aproximaciones asintóticas pueden ser muy inexactas. El Neyman­

El enfoque de Pearson para la prueba de hipótesis no proporciona una evaluación del peso de

evidencia a favor o en contra de una hipótesis dada, sino simplemente una declaración de aceptación/rechazo. El uso de

2
Machine Translated by Google

Los valores p como medida de la solidez de la evidencia en contra o a favor de una hipótesis han sido ampliamente

criticado por carecer de fundamento probabilístico adecuado y por varios defectos como la

la conocida paradoja de Lindley (Lindley (2001)).

Los desarrollos recientes en econometría clásica han enfatizado los métodos no paramétricos o

Métodos semiparamétricos que intentan liberar al investigador de parámetros paramétricos específicos.

suposiciones. Estos enfoques a menudo se centran en la estimación de parámetros, mientras que en marketing

También estamos interesados en la predicción para su uso en la toma de decisiones. Clásico no paramétrico

Los enfoques no proporcionan una base para la predicción de cantidades observables o requieren

Modelos altamente parametrizados que pueden predecir mal debido al sobreajuste y al error de estimación.

Por el contrario, los enfoques bayesianos se centran en hacer declaraciones de probabilidad con respecto a

parámetros y cantidades predichas condicionadas a la muestra. Un análisis bayesiano

combina una distribución previa y la probabilidad de producir una distribución posterior para todos los no observables.

cantidades que incluyen los parámetros y predicciones. La distribución posterior

Resume el peso de la evidencia de la muestra y la información previa sobre el

inobservables. En teoría, los métodos bayesianos ofrecen inferencias sin recurrir a métodos asintóticos.

aproximaciones. Esto es particularmente importante para los problemas de marketing, ya que a menudo tenemos una

pequeña cantidad de información por unidad de observación y a menudo nos encontramos con datos discretos

lo que requiere grandes conjuntos de datos para un uso preciso de los asintóticos. En un enfoque bayesiano,

la inferencia y la toma de decisiones son parte de un enfoque unificado en el que una función de pérdida

Se especifica y se calculan las reglas de decisión de Bayes óptimas. Nuevamente, esto es particularmente

importante en marketing ya que el énfasis está en decisiones óptimas que tengan en cuenta todos

Fuentes de error predictivo.

Sin embargo, hasta mediados de la década de 1980, los métodos bayesianos parecían poco prácticos ya que

la clase de modelos para los cuales se podía calcular el posterior no era mayor que la clase

3
Machine Translated by Google

de modelos para los cuales se disponía de resultados de muestreo exactos. Además, el enfoque de Bayes

Requiere una evaluación previa, lo que algunos consideran un coste adicional. métodos de simulación,

en particular los métodos Markov Chain Monte Carlo (MCMC), nos han liberado de

restricciones computacionales para una clase muy amplia de modelos. Los métodos MCMC son ideales

Adecuado para modelos construidos a partir de una secuencia de distribuciones condicionales, a menudo llamadas jerárquicas.

modelos. Los modelos jerárquicos bayesianos ofrecen una enorme flexibilidad y modularidad y son

particularmente útil para problemas de marketing como se analiza a continuación.

En contextos de marketing, existen muchas unidades de decisión heterogéneas. Si bien podemos

Si tenemos una gran cantidad de datos, los datos se obtienen observando un gran número de decisiones.

unidades. Por diversas razones, es poco probable que alguna vez tengamos una gran cantidad de

información sobre cualquier unidad de decisión. En esta situación, es útil tener un modelo que

agrupa información entre las unidades. Un modelo de efectos aleatorios flexible, combinado con

Los métodos de inferencia bayesianos pueden producir estimaciones precisas tanto a nivel agregado como

nivel de unidad de decisión individual.

Si bien los métodos bayesianos han adquirido importancia en muchos campos, esta revisión

enfatizar una perspectiva sobre el uso de métodos Bayes que surge de un marketing básico

paradigma. Fundamental para esta perspectiva es la noción de que los clientes son diferentes en sus

preferencias por productos y que las empresas deben tener esto en cuenta explícitamente al determinar

acciones de marketing óptimas. Por lo tanto, es útil considerar el análisis estadístico como compuesto de

tres componentes:

1. comportamiento dentro de la unidad (la probabilidad condicional)

2. Comportamiento entre unidades (la distribución de la heterogeneidad)

3. acción (la solución a un problema de decisión que involucra una función de pérdida)

4
Machine Translated by Google

Veremos cómo el enfoque bayesiano proporciona un tratamiento unificado de los tres.

componentes.

Seguiremos estos tres pasos como esquema del artículo y concluiremos el artículo.

con una bibliografía comentada de artículos publicados en los últimos diez años que abordan

Problemas de marketing utilizando métodos bayesianos. Las anotaciones proporcionan una breve descripción de

el documento y cómo se relaciona con los temas discutidos en esta revisión.

II. Elementos esenciales bayesianos

Todo análisis bayesiano comienza con la especificación del mecanismo de generación de datos.

o la distribución de los datos y dados los parámetros no observables (θ ), py ( θ ) . Visto

como función de los parámetros, esta distribución a veces se denomina función de verosimilitud,

( l (θ) = py i ) . El bayesiano, por lo tanto, suscribe el principio de probabilidad que establece

que la función de verosimilitud contiene toda la información relevante sobre el modelo

parámetros. Además, una distribución de probabilidad que representa creencias previas sobre θ es

requerido, p(θ ) . El teorema de Bayes proporciona el mecanismo de actualización de cómo se actualizan las creencias anteriores.

traducido en creencias posteriores (o posteriores a los datos).

( yo) yo
tubo ()
py(θ = ) yo
(
tubo ) ( i)
py( )

py (θ ) se llama distribución posterior y refleja tanto las creencias anteriores como las

información de muestra. Notamos inmediatamente que la posterior es una distribución condicional.

que condiciona los datos. Esto proporciona un marcado contraste con la visión teórica del muestreo.

en el que consideramos los datos aleatorios e investigamos el comportamiento de las estadísticas de prueba o

estimadores sobre muestras imaginarias de py ( θ ) . El bayesiano consideraría el muestreo

5
Machine Translated by Google

distribución como irrelevante para el problema de inferencia porque considera eventos (y) que

no han ocurrido. La inferencia es el problema de hacer afirmaciones sobre lo inobservable.

condicional a los datos.

Dado que la distribución posterior puede ser un objeto de dimensiones bastante altas, los investigadores

normalmente resumen lo posterior en términos de algunas estadísticas de resumen de dimensiones inferiores.

Para aquellos educados en la tradición clásica, un estimador puntual de Bayes y la noción de precisión

es un requisito mínimo. Normalmente, la media posterior [ ] θθθ = ( )


Y
∫ py se utiliza como un

estimador y la desviación estándar posterior se utiliza como medida de precisión. Ambos

estas cantidades son las integrales de funciones específicas del vector de parámetros,E ih y ( ) yo .

Otros ejemplos importantes incluyen i. Aspectos de la distribución marginal de uno o un subconjunto

del vector θ , ii. Probabilidades posteriores de intervalos o regiones del espacio de parámetros (como

como la probabilidad posterior de que un coeficiente de precio sea negativo), y iii. profético

distribuciones de los datos, ( pregunta


f ) = ∫( θpy)f (θ θ )Así,
pyd el
. investigador bayesiano

se enfrenta al problema de calcular una integral multidimensional de la parte posterior

distribución. Los métodos para calcular estas integrales son el núcleo de la reciente revolución.

en informática para estadística bayesiana.

El marco bayesiano es convincente en el sentido de que proporciona una solución unificada.

aproximación al modelado, incorporación de información previa e inferencia. Inferencia aquí

Se refiere a hacer declaraciones a posteriori sobre todos los no observables, incluidos ambos parámetros.

y, aún sin concretar, datos (predicción). La inferencia bayesiana se adhiere a la probabilidad.

principio y se lleva a cabo utilizando reglas formales de la teoría de la probabilidad. Esto significa que, bajo

En condiciones suaves, los estimadores de Bayes son consistentes, asintóticamente eficientes y admisibles. Como

En la práctica, la inferencia bayesiana está libre del uso de aproximaciones asintóticas y

6
Machine Translated by Google

ofrece inferencias de muestras finitas y exactas. Esto es particularmente importante en modelos no lineales.

y modelos con datos discretos. La intuición desarrollada en modelos de regresión para el tamaño.

Las muestras necesarias para que la teoría del muestreo asintótico sea precisa no se trasladan bien a

muchos de los modelos utilizados con datos de marketing. En particular, los modelos de elección requieren

muestras extremadamente grandes (hasta 1000 observaciones por parámetro) para asegurar la

adecuación de las aproximaciones asintóticas (cf. McCulloch y Rossi (1994)).

Sin embargo, las ventajas de la inferencia bayesiana no se obtienen sin un coste. El

El enfoque bayesiano se basa en la probabilidad y requiere un análisis previo. Hasta la reciente popularidad de

métodos bayesianos, era común escuchar a los investigadores expresar su renuencia a utilizar los

Enfoque bayesiano debido al uso de un prior. La ciencia “objetiva”, dirían, frunce el ceño

sobre el uso de información previa subjetiva. Hay una curiosa asimetría en este tipo de

declaraciones. Mientras que, por un lado, los investigadores clásicos se sienten cómodos especificando una

modelo (por ejemplo, probabilidad), que es crítico y evita el uso de antecedentes. La base de

La información previa también puede ser “objetiva” o basada en datos. Todos los supuestos del modelado.

son una forma de información previa y deben indicarse explícitamente. Adhesión a los principios de

La investigación científica no siempre significa no utilizar información subjetiva sino, más bien,

la especificación de procedimientos explícitos y replicables. Cabe señalar que en el

En el ámbito práctico del marketing, se requieren métodos que hagan pleno uso de la información previa.

para inferencias confiables ya que es difícil obtener información sobre cantidades desconocidas. Previo

información de expertos (Sandor y Wedel 2001), teorías (Montgomery y Rossi 1999),

u otros conjuntos de datos (Lenk y Rao 1990; Putler, Kalyanam y Hodges 1996; Kamakura y

Wedel 1997; Wedela y Pieters 2000; Ansari, Essegaier y Kohli 2000; Ter Hofstede, Kim,

y Wedel 2002) es importante para los problemas de marketing. Los procedimientos de inferencia clásicos son

No dice nada sobre cómo incorporar información de fuentes distintas a los datos.

7
Machine Translated by Google

La evitación de la obtención previa ha generado un interés en el “incumplimiento” o referencia

anteriores. Un previo de referencia es un previo “estándar” que la mayoría coincide en que es útil para inferir en un

amplia variedad de contextos. En la mayoría de los casos, la referencia previa se elige para reflejar sólo una

cantidad de información moderada o incluso pequeña. Algunos también han propuesto varias difusas

o, quizás, incluso antecedentes inadecuados (uniformes en partes del espacio de parámetros). Es

Es importante tener en cuenta que todos los antecedentes son informativos y será necesario reflexionar un poco antes.

evaluación. En muchas situaciones, tendremos información previa sólida sobre un subconjunto de

parámetros del modelo. Para los demás parámetros, nos contentamos con utilizar antecedentes relativamente difusos.

Esto significa que será necesario realizar algún tipo de análisis de sensibilidad previo para realizar una evaluación exhaustiva.

análisis. Esto implicará cambiar la configuración anterior para reflejar imágenes más y menos difusas.

información y volver a calcular el posterior para cada una de las configuraciones anteriores.

Algunos sostienen que la especificación de la función de probabilidad es otro inconveniente de

El enfoque bayesiano. Para algunos modelos, la evaluación de la probabilidad puede ser

computacionalmente exigente. Hay un uso creciente del método de los momentos (cf.

Berry (1994)) para casos en los que la probabilidad es difícil de evaluar. Es bien sabido que

El método de momentos puede ser ineficiente en relación con los métodos de probabilidad. Además, hay un

creciente escuela de pensamiento en econometría que quisiera liberar al investigador de

formas paramétricas particulares para la función de verosimilitud. Por ejemplo, algunos tienen

enfatizó la estimación no paramétrica de un modelo de elección binaria. Estos métodos sólo hacen

Tiene sentido en situaciones donde el interés se centra sólo en determinados valores de parámetros. En marketing, el

El objetivo de la inferencia suele ser hacer predicciones de variables de resultado; en estas situaciones, hay

No hay escapatoria a la formulación de un modelo de probabilidad total para los datos.

8
Machine Translated by Google

Métodos de simulación MCMC

El problema computacional general que enfrentan los bayesianos es el cálculo de varios

integrales de funciones contra la distribución posterior. Dado que estas integrales se pueden escribir

Como la expectativa posterior de una función de los parámetros, los métodos de simulación parecen

candidatos naturales para la aproximación de estas integrales. Por ejemplo, si pudiéramos hacer iid

se basa en la parte posterior, simplemente podríamos aproximar las integrales por la media muestral

es=decir
i
h y ()θ
= ) yo yo )
∫ ( hpyd
(yo
ˆ
1 R
h (i )r
R ∑ r1
I =
=

Si los extraídos de la parte posterior están disponibles con un costo computacional perdido, simplemente podríamos usar un

muestra muy grande para aproximar I a cualquier grado de precisión deseado. Sin embargo, los generales

El problema de extraer de una distribución multivariada arbitraria es extremadamente difícil sin

método general computacionalmente factible.

En lugar de utilizar sorteos iid, otro enfoque podría ser construir una cadena de Markov.

con la parte posterior como su distribución estacionaria o de equilibrio (ver Gelfand y Smith 1990).

En la práctica, esto significa especificar una densidad de transición que produzca una secuencia de θ sorteos.

θr es un sorteo de p(θr r i −1
) dado i 0 . Si py (θ ) es la distribución estacionaria de esta

Cadena de Markov, entonces podemos simplemente iterar la cadena el tiempo suficiente para disipar los efectos de

la condición inicial y luego guardar estos dibujos para evaluar Iˆ . Si bien estos sorteos no son

iid más largo (exhibirán alguna forma de autocorrelación en la mayoría de los casos), leyes de gran

los números todavía se aplican y podemos aproximar I a cualquier grado de precisión deseado. El uso

de una cadena de Markov para desarrollar una estimación de I basada en simulación se ha denominado cadena de Markov.

Método Chain Monte Carlo (MCMC). La utilidad de la idea MCMC depende de tres

criterios:

9
Machine Translated by Google

i. la capacidad de construir cadenas para una distribución posterior arbitraria

ii. la capacidad de la cadena para converger rápidamente a la distribución de equilibrio

y no exhibir un comportamiento altamente autocorrelacionado o casi no estacionario

III. facilidad de extracción de la densidad de transición de la cadena.

La clase de algoritmos de Metropolis­Hastings proporciona un conjunto de métodos para

construcción de cadenas de Markov. Tierney (1994) muestra que en condiciones muy suaves (principalmente

que la distribución posterior es positiva en todas partes del espacio de parámetros), el Metropolis­

Los métodos del estilo Hastings convergerán a una velocidad geométrica hacia el equilibrio único.

distribución que será la posterior. Un miembro particularmente útil de Metropolis:

La clase Hastings es el llamado muestreador de Gibbs. El muestreador de Gibbs depende de la capacidad

extraer de varias distribuciones condicionales en la articulación posterior. Dividir el vector θ

'
en K subvectores, θθθ =, ( K ) 1
'
,K,
'
y considere las distribuciones condicionales

pag
k (θ kθ − ,k ).ySi es posible extraer fácilmente de estas distribuciones condicionales, entonces la

La cadena de Markov que se puede construir recorriendo estas distribuciones condicionales tiene

la posterior ya que su distribución es invariante. Es decir, para dibujar θ θr r −1 , recorremos cada uno de

los condicionales K

pag
1 r − 1,2 ,
θ rθ θ ,1 r − 1,3 , k ,i rK− 1, , y)

pag
2(( r r ,
θ θ θ ,2 ,1 r − 1,3 , k ,i rK− 1, ,y)

METRO

pag (yo yo yo
K r K r ,1,, r ,2 , k ,i rK, − 1 ,y)

10
Machine Translated by Google

La secuencia de sorteos converge en distribución a la distribución posterior conjunta del modelo.

parámetros, p(θ1 , …,θK|y). Además, se basa en la distribución posterior para cualquiera

parámetro,

p(θ i| y) = ∫ d p(θ1 ,...,θ


k | y) θ −yo

se obtiene simplemente descartando los sorteos de parámetros que no son de interés. Por ejemplo, el

La media posterior de p(θi|y) se puede estimar a partir de la media muestral de los sorteos de θi .

Muchos modelos se pueden expresar de tal manera que estos diversos condicionales sean

disponible en forma cerrada y a partir de distribuciones conocidas y fáciles de muestrear. Para

Por ejemplo, las regresiones lineales simples y de grupos entran en esta clase. Además, datos

El aumento permite muestrear modelos probit estándar utilizando el muestreador de Gibbs.

Hoy en día la mayor parte del trabajo se realiza con modelos que ya no tienen un simple Gibbs.

dechado. Sin embargo, la configuración modular o condicional del muestreador de Gibbs es frecuentemente

explotado. En particular, cuando k=dim(θ), cada una de las distribuciones condicionales es univariante

distribución. Gilks (1992) y otros han explotado varios métodos de muestreo de rechazo adaptativo.

métodos para construir un algoritmo MCMC de propósito general que muestrea "uno por uno" cada

elemento del vector de parámetros. En general, tal procedimiento puede producir una cadena que

converge lentamente y tiene una alta autocorrelación pero, en teoría, esto funcionará para casi cualquier

modelo. Gilks y sus compañeros de trabajo han creado un entorno de modelado bayesiano, BUGS, para

implementar esta idea. Dado que generalmente podemos monitorear la salida de MCMC para determinar el alcance de

autocorrelación en los sorteos, podemos usar un procedimiento estilo Gilks para cualquier modelo, incluido

modelos con probabilidades y antecedentes muy no estándar. Si la cadena resultante es altamente automática

correlacionados, podemos intentar agrupar o agrupar los elementos del vector de parámetros en

11
Machine Translated by Google

"bloques" y proceder con un Metropolis programado personalizado o un Gibbs­Metropolis híbrido

algoritmo (Tierney 1994).

En resumen, los métodos MCMC ahora están disponibles para manejar la inferencia en una amplia clase.

de modelos. Los métodos MCMC son particularmente adecuados para modelos que se construyen a partir de una

jerarquía de distribuciones condicionales. Un ejemplo muy importante de esto es el azar.

modelos de coeficientes que se analizan a continuación. Quizás lo más importante sea la modularidad del

Los enfoques de modelado jerárquico que encajan tan bien con los métodos MCMC se han ampliado.

la clase de antecedentes y probabilidades disponibles para su uso en aplicaciones de marketing.

III. Análisis dentro de la unidad

El marketing se ocupa de comprender y reaccionar ante el comportamiento de

consumidores individuales. En última instancia, las decisiones se toman a nivel desagregado, aunque para

Para algunos tipos de decisiones (por ejemplo, fijar precios en las tiendas), es aceptable un análisis a nivel agregado.

Observamos que siempre es posible derivar predicciones agregadas de acciones integrando

sobre la distribución de la heterogeneidad. Por lo tanto, nuestra discusión se centra en datos y modelos.

suponiendo que la unidad de análisis es un encuestado individual, un consumidor o un hogar (cf.

Bradlow y Schmittlein 1999).

Los datos de marketing son escasos a nivel de unidad individual. En paneles de escáner de hogar.

compras, por ejemplo, es raro tener más de 20 observaciones por hogar en la mayoría

Categorías de Producto. Cada observación es una respuesta vectorial correspondiente a la cantidad

comprado de una oferta particular. El valor de respuesta más frecuente es cero, lo que indica que no

compra de la oferta, y la segunda respuesta más frecuente es uno, lo que indica que uno

se compra la unidad del bien. Las respuestas también toman valores enteros en las encuestas donde

Se pide a los encuestados que elijan entre alternativas discretas para clasificar los objetos en orden.

12
Machine Translated by Google

(Bradlow y Fader 2001) y proporcionar respuestas en escalas de 5 y 7 puntos. Marketing

Los datos suelen ser muy desiguales y no están bien modelados con métodos distributivos estándar.

suposiciones (p. ej., normal, gamma, poisson).

Los modelos de variables latentes se utilizan a menudo para explicar los datos de marketing. Una variable latente

El modelo normalmente supone que existe una variable continua no observada y una variable de censura.

mecanismo que da lugar al resultado discreto. En un modelo económico de elección

entre sustitutos casi perfectos, por ejemplo, se supone que los consumidores seleccionan la oferta

con mayor valor, medido como la relación entre la utilidad marginal y el precio. En el análisis de

datos de respuestas a encuestas, a veces es conveniente suponer que las respuestas en un punto fijo

(p. ej., 5 y 7 puntos) son una realización censurada de una variable continua latente. Finalmente,

en el análisis de datos de respuesta múltiple (es decir, elegir cualquiera/J datos), cada elemento del vector de

Se puede considerar que las respuestas binomiales multivariadas son iguales a uno si una variable latente

supera un umbral e igual a cero si la variable latente es menor que el valor umbral.

La ventaja de un enfoque de variables latentes para modelar datos de marketing es que

proporciona un enfoque flexible para especificar la función de probabilidad que sea consistente con la

Los datos observados son irregulares (Rossi, Gilula y Allenby 2001; Marshall y Bradlow 2002). Modelos

porque la utilidad latente puede ser continua incluso aunque el rango de la utilidad dependiente observada

la variable es discreta. Se pueden construir muchos modelos útiles a partir de una base subyacente.

modelo de regresión normal multivariado

z = XN uve +~ (0, ) S

Aquí z es un vector amx 1 que es normal multivariado condicional a x. El vector latente, z,

se censura mediante alguna función que no es función de los parámetros del modelo, (β,Σ) .

Ejemplos incluyen:

13
Machine Translated by Google

Modelo Tobit: m=1, y=0, z <0, y=z, z>=0

Probit ordenado: m=1, y = r, cr−1 ≤ zc < r. , r = 1,...,R, c


0
c = −∞, =R∞

MNP: = =yjz
máx(, ,..., de
1
Con
)
j metro

Probit multivariado: = 1,
y j > 0; sideno
=0
j j

Estos cuatro ejemplos ilustran la flexibilidad del marco latente. El modelo Tobit

produce una distribución discreta­continua para y dado x que tiene un conjunto de probabilidad en

cero (la opción de no compra, por ejemplo). El probit ordenado se puede aplicar a las calificaciones.

datos en los que el encuestado proporciona calificaciones en una escala de calificación. El modelo probit MNP es

Un modelo general muy flexible que se adapta a situaciones en las que se toman decisiones.

de un conjunto de m alternativas. Finalmente, el modelo probit multivariado se puede utilizar en situaciones

como la elección j de J alternativas o donde la elección binaria se realiza en diferentes períodos de tiempo

o categorías de productos.

A los modelos de variables latentes a menudo se les puede dar una interpretación económica como una variable aleatoria.

modelo de utilidad. Consideremos, por ejemplo, el modelo MNP. Si los consumidores tienen utilidad lineal y

sólo puede elegir una alternativa, la elección que maximiza la utilidad puede es la elección para la cual

La relación entre utilidad marginal y precio es la más alta.

y = j; si U j =
/ pj max/ {U p i i}

Ui es la utilidad marginal de la elección i. En el modelo de utilidad aleatorio, las utilidades marginales no son

plenamente observable. Sólo observamos varios atributos de la elección que están representados en el

vector x. Si ln( ) = + eii


ultravioleta i y ε ~ (0,S)
i
norte , entonces el modelo se convierte


y = j; si v j − ln( pj) + mi j = maxi {V i ) + ln( yo mi i }
pag

14
Machine Translated by Google

Este es un caso especial del modelo MNP. Los términos de error tienen la interpretación como

factores no observables que influyen en la utilidad marginal. El enfoque de utilidad aleatoria puede ser

aplicado a cualquier modelo de demanda (ver Blattberg y George 1991; Arora, Allenby y Ginter

1998; Manchanda, Ansari y Gupta 1999; Bradlow y Rao 2000; Leichty, Ramaswamy y

Cohen 2001). Si especificamos una función de utilidad, el componente aleatorio de la utilidad marginal será

inducir una distribución de la cantidad demandada a través de las condiciones de primer orden para la utilidad

maximización. Esto creará una probabilidad para los datos. Si las curvas de indiferencia de la

función de utilidad especificada intersecta los ejes de la ortante positiva con pendiente distinta de cero, entonces

Existe el potencial para soluciones de esquina en las que algunos de los componentes de la demanda

el vector será cero. Estas esquinas crearán una distribución mixta discreta­continua de

demanda (Kim, Allenby y Rossi 2002).

Modelos que involucran variables latentes multivariadas (como MNP y Multivariate

Los modelos probit) tienen una función de probabilidad y su evaluación puede ser un desafío computacional.

Por ejemplo, considere el modelo MNP. Si se elige la alternativa j entre m alternativas, esto

revela que estamos en una determinada región del espacio de error (en realidad, un cono). Por lo tanto, la

Las probabilidades multinomiales requeridas para la evaluación de la probabilidad de MNP implican integrales.

sobre una región del espacio de error


) izΣ
Pr(Xdy =∫ φ ( µ β = Σ)
,
R

Las probabilidades de elección implican integrales de una densidad normal multivariada sobre conos y

Estas integrales plantean un problema computacional potencialmente grave. Econometristas clásicos

Se han centrado en métodos para aproximar estas integrales. El estado del arte en esta área.

es el llamado algoritmo GHK (Keane 1993). El algoritmo GHK utiliza la importancia.

muestreo para aproximar estas probabilidades. La práctica clásica actual implica el uso

15
Machine Translated by Google

métodos de simulación para aproximar la probabilidad (Huber y Train 2001) y luego utiliza

procedimientos estándar de máxima verosimilitud, ignorando el error de simulación (esto a menudo se llama

el enfoque de Máxima Verosimilitud Simulada).

Aumento de datos

La evaluación directa de la probabilidad normal censurada se puede evitar en un método bayesiano.

enfoque si los parámetros se aumentan con un vector de variables latentes, z (ver Tanner y

Wang 1987). Para un bayeisiano, todas las cantidades no observables pueden considerarse objeto de

inferencia independientemente de si se llaman parámetros o variables latentes. Técnicamente,

el número de variables latentes puede ser el mismo que el número de observaciones, por lo que es grande

La inferencia de muestras basada en asintóticas estándar no se aplica. La parte posterior que ahora

lo que se requiere es la distribución conjunta del vector latente no observable (z), y el parámetro

vector (θ), dados los datos (y). Para reducir la carga notacional, sólo consideraremos el caso de

una observación. La articulación posterior de z y θ es ahora el objeto de inferencia. El

La parte posterior de θ es un marginal de esta articulación posterior.

dz y) = ∫ p(,|) z p( | θ θ y

Resulta que podemos explotar la estructura latente del modelo para construir un modelo “al estilo Gibbs”.

Cadena de Markov que puede tomar muestras de la articulación posterior de las latentes y los parámetros.

Entonces podemos simplemente marginar los datos descartando los sorteos de z. Es decir, dibujamos

iterativamente a partir de las dos distribuciones condicionales:

p(|,) zy θ y p(θ |z y, )

El sorteo de la z latente dada y es un sorteo de una distribución normal truncada donde

el truncamiento depende del modelo. En el caso de MNP, z se trunca a una dimensión m

dieciséis
Machine Translated by Google

cono. Dado el vector latente z, la inferencia procede como lo haría el análisis bayesiano estándar de

el modelo de regresión multivariante latente subyacente. Para la regresión lineal multivariada

modelo, se encuentran disponibles resultados analíticos exactos para la parte posterior de (β ,Σ) . Se basa en el

La normal multivariada truncada se puede lograr fácilmente mediante extracciones uno por uno de una serie.

de distribuciones normales truncadas univariadas (ver McCulloch y Rossi 1994, Allenby, Arora

y Ginter 1995). Esto equivale a definir una subcadena para dibujar la normal truncada.

vector. Lo que es importante tener en cuenta es que al aumentar con la variable latente, tenemos

evitó la evaluación de cualquier probabilidad de elección u otras integrales de la normal multivariada.

El costo de la simplificación computacional es una ampliación del espacio de estados para Markov.

Cadena. En general, esto hará que el método MCMC con datos aumentados converja más

lentamente y exhibe una autocorrelación más alta que el muestreador sin datos aumentados. En el caso

del modelo MNP, Nobile (1998) ha indicado que bajo ciertas condiciones el estándar

El muestreador de Gibbs aumentado puede exhibir una autocorrelación muy alta y propone una mejora.

cadena.

Por lo tanto, el aumento de datos proporciona una forma inteligente de evitar la evaluación de varios

integrales multivariadas a expensas de introducir una alta autocorrelación en el

Método MCMC. Nuestra experiencia, sin embargo, ha demostrado que el muestreador básico MNP Gibbs

funciona bien y puede manejar problemas para los cuales el método de máximo simulado

la probabilidad se detiene.

Identificación

La formulación de variable latente proporciona un mecanismo natural para comprender la

problema de identificación en estos modelos. Los problemas de identificación surgen del hecho de que

Varias transformaciones de las variables latentes dejan la variable de resultado censurada observada.

17
Machine Translated by Google

sin alterar. Por ejemplo, recuerde que en el modelo MNP la elección se hace con el

valor latente más alto. Hay dos tipos de transformación que dejan el índice del

máximo sin cambios. El primero simplemente implica agregar una variable aleatoria escalar a la

vector de latentes

z' = z + ν

2
E[z'|X] = Xβ + µ; V(z'|X) = Σ + σ En el

2
Los parámetros β ' = + (b0 1 m, bb ,..., )k y Σ=Σ+ ′ Soy observacional
pag

equivalente al conjunto original de parámetros. Por esta razón diferenciamos el sistema de

utilidades latentes con respecto a una alternativa de elección de base y crear una dimensión latente m­1

modelo.

; ~N(0,
d = z−1 − z1 = Wβ + uu Ω )

Sin embargo, incluso el modelo diferenciado sigue estando sujeto a problemas de identificación. si escalamos

Al multiplicar el sistema diferenciado por una constante positiva, todavía quedan opciones.

sin alterar.

( ),b Ωcc(b),
2
Ω

Dado que tanto β como Ω no tienen restricciones, estos dos conjuntos de parámetros están en el espacio de parámetros

y dar lugar al mismo conjunto de opciones. En muchos enfoques clásicos y bayesianos, la

Un enfoque para este problema de escala es arreglar uno de los elementos de Ω (típicamente el (1,1)

elemento ) a uno. Para los métodos bayesianos, la restricción de la matriz Ω dificulta

utilice priores conjugados estándar como el prior Wishart. McCulloch, Polson y Rossi

(2000) muestran cómo construir antecedentes prácticos en el espacio apropiado de matrices.

Sin embargo, los bayesianos no se limitan a restricciones exactas como forma de resolver varios problemas.

problemas de identificación. El uso de una distribución previa adecuada garantiza que la parte posterior esté

18
Machine Translated by Google

adecuada, incluso si no se identifica la probabilidad. En un análisis bayesiano, la cuestión de la estadística

cambio de identificación de una dicotomía identificado­no identificado a una cuestión del grado de

identificación y a subespacios de la distribución posterior que están bien identificados. Para

Por ejemplo, podemos usar un previo adecuado pero difuso en el espacio de parámetros no identificado, y

simplemente marginar o proyectar hacia abajo en el espacio de parámetros identificados. En el caso del

modelo MNP, simplemente dibujamos (βr r ,Ω ) y normalizar a las cantidades identificadas

(βr /o / Ωr Vaya
r ,11 , r,11 ) . El único costo adicional de este procedimiento es asegurarse de que el

inducido previamente sobre las cantidades identificadas es lo suficientemente difuso para ser utilizable en aquellos

situaciones en las que queremos que nuestras inferencias estén impulsadas principalmente por los datos. Esto significa que nosotros

tenemos que investigar la distribución previa implícita en las cantidades (β ω / 11 , Oh Este


) / .11

Se puede hacer fácilmente simulando a partir del anterior.

Un ejemplo aún más sorprendente de la utilidad de esta idea de navegar al máximo,

El espacio no identificado se puede encontrar en el modelo Probit multivariado. Aquí los identificados

Los parámetros consisten únicamente en la matriz de correlación de las variables latentes ya que la escala separada

Se pueden utilizar constantes para cada elemento. Hasta hace poco (ver Barnard, McCulloch y Meng

2000) no se encuentran disponibles antecedentes convenientes para matrices de correlación. MCMC estándar

métodos como Metropolis­Hastings son difíciles de adaptar al espacio altamente restringido de

matrices de correlación válidas (Manchanda, Ansari y Gupta 1999). En otras palabras, es difícil

dibujar matrices de correlación candidatas. Como ilustran Edwards y Allenby (2002), todo esto puede

evitarse navegando en el espacio no identificado y proyectándose hacia el espacio de

matrices de correlación (ver también DeSarbo, Kim y Fong 1999). Estos algoritmos son rápidos y

confiable.

19
Machine Translated by Google

Hemos visto que los datos de marketing desglosados suelen ser desiguales y contienen datos discretos.

puntos de probabilidad de masa. Un marco natural para construir modelos con aspectos discretos es

utilizar una variable latente continua subyacente junto con algún tipo de censura

mecanismo. Las variables latentes no sólo son útiles para generar modelos, sino que el nuevo MCMC

Los métodos de inferencia bayesianos explotan muy bien la estructura latente. Finalmente, identificación

Los problemas que son comunes en los modelos de variables latentes se pueden manejar con gran flexibilidad en

El enfoque bayesiano.

IV. Análisis entre unidades

La explosión en los datos de demanda disponibles para los especialistas en marketing proviene del aumento

disponibilidad de datos desglosados. Los datos de escaneo a nivel de tienda y hogar ahora son

vulgar. En la industria farmacéutica, los datos de prescripción a nivel médico ahora son

vulgar. Esto plantea tanto desafíos de modelado como importantes oportunidades para

rentabilidad mejorada a través de decisiones de marketing descentralizadas que explotan la heterogeneidad.

Estos nuevos datos vienen en una estructura de panel en la que N, el número de unidades es grande en relación con

T, la longitud del panel.

Por ejemplo, prácticamente todos los fabricantes de productos envasados reciben ahora una “cuenta clave”.

datos de nivel. Una cuenta clave es una combinación de cadena y mercado como Safeway/Denver. Los datos

tener una estructura de panel con unas 100­300 cuentas o unidades clave, observadas durante un máximo de 2­3

años de datos semanales. Los fabricantes están interesados en personalizar la actividad de comercialización a un

nivel de agregación más bajo posible. El modelo estadístico y el método de inferencia deben

acomodar la heterogeneidad entre unidades y proporcionar inferencias desagregadas necesarias para

personalización. En muchos casos, la distribución de las respuestas es tan importante como alguna medida.

de tendencia central.

20
Machine Translated by Google

Heterogeneidad y antecedentes

Una estructura general útil para datos desagregados es una estructura de panel en la que las unidades

se consideran independientes y condicionados a los parámetros a nivel de unidad. Dado un previo conjunto sobre el

colección de parámetros a nivel de unidad, la distribución posterior se puede escribir de la siguiente manera:

pag
(i norteθ,...,
norte yy 1 1 ,..., (θ) )
en py yo
∏i ×
pag (θθτ
1
,..., )
norte

El término entre paréntesis es la probabilidad condicional y el término más a la derecha es la probabilidad conjunta anterior.

con hiperparámetro, τ . En muchos casos, la cantidad de información disponible para muchos

de las unidades es pequeño. Esto significa que la especificación de la forma funcional y

El hiperparámetro para el anterior puede ser importante para determinar las inferencias realizadas para cualquier

una unidad. Un buen ejemplo de esto se puede encontrar en los conjuntos de datos de elección en los que los consumidores son

observó eligiendo entre un conjunto de productos. Muchos consumidores (“unidades”) no eligen todos

las alternativas disponibles durante el curso de la observación. En esta situación, la mayoría de los estándares

Los modelos de elección no tienen una estimación de máxima verosimilitud acotada (la probabilidad

asíntota en una determinada dirección en el espacio de parámetros). En esta situación, el prior es, en

en gran medida, determinando las inferencias hechas para estos consumidores.

Evaluación de la junta previa para (θ θ 1 ,..., N )es difícil debido a la alta dimensión de

el espacio de parámetros y, por lo tanto, algún tipo de simplificación de la forma del prior es

requerido. Una simplificación frecuentemente empleada es suponer que, condicionado a la

hiperparámetro, (θ 1 ,..., N ) sonia priori independientes.

p(θ1 1 ,...,θN y ,..., yN ) ∏i p( yp i θi ) (θi τ )

21
Machine Translated by Google

Esto significa que la inferencia para cada unidad se puede realizar independientemente de todas las demás unidades.

condicional a τ . Éste es el análogo bayesiano de los enfoques de efectos fijos en la teoría clásica.

Estadísticas.

La especificación del prior condicionalmente independiente puede ser muy importante debido

a la escasez de datos para muchas de las unidades. Tanto la forma del prior como los valores de

Los hiperparámetros son importantes y pueden tener efectos pronunciados a nivel de unidad.

inferencias. Por ejemplo, es común especificar un previo normal, θ i


~ NVi ,( θ ) . El
La forma normal de este a priori significa que la influencia de la probabilidad de cada unidad puede ser

atenuado para probabilidades centradas lejos del anterior. Es decir, las finas colas de los

La distribución normal disminuye la influencia de las observaciones periféricas. En este sentido, el

La especificación de una forma normal para el anterior, cualesquiera que sean los valores de los hiperparámetros, es

lejos de ser inofensivo.

La evaluación de los hiperparámetros anteriores también puede ser un desafío en cualquier aplicación.

situación. Para el caso del prior normal, algún prior relativamente difuso puede ser una opción razonable.

elección predeterminada. Allenby y Rossi (1993) utilizan un análisis previo basado en una versión escalada del conjunto

matriz de información del modelo. La covarianza anterior se reduce para representar la covarianza esperada.

información en una observación para asegurar un previo relativamente difuso. Uso de este tipo de normal

anterior inducirá un fenómeno de "contracción" en el que las estimaciones de Bayes (posterior

significa) {θ i
θ =y i ,
datos
i previos
} se agrupará más estrechamente con la media anterior que la

estimaciones de máxima verosimilitud a nivel de unidad {θ i} ˆ . Para configuraciones previas difusas, la forma normal

del anterior será responsable de los efectos de la contracción. En particular, los valores atípicos serán

"se redujo" dramáticamente hacia la media anterior. Para muchas aplicaciones, esto es muy deseable.

22
Machine Translated by Google

característica de la forma normal anterior. "Reduciremos" los valores atípicos hacia el resto del

estimaciones de parámetros y dejar el resto prácticamente en paz.

Modelos Jerárquicos

En general, sin embargo, puede ser deseable tener la cantidad de contracción inducida por

los antecedentes impulsados por la información de los datos. Es decir, debemos “adaptar” el nivel de

contracción de la información de los datos sobre la dispersión en {θi}. Si, por ejemplo,

observamos que los {θi} están estrechamente distribuidos en algún lugar o que hay muy poca

información en cada nivel de probabilidad de unidad, entonces podríamos querer aumentar la rigidez de la

anterior para que los efectos de la contracción sean mayores. Esta característica de la “contracción adaptativa” fue la

Motivación original para el trabajo de Efron y Morris (1975) y otros sobre el Bayes empírico.

enfoques en los que se estimaron parámetros previos. Estos enfoques empíricos de Bayes son

una aproximación a un enfoque de Bayes completo en el que especificamos una segunda etapa previa en el

hiperparámetros del previo independiente condicional. Esta especificación se llama

Modelo jerárquico de Bayes y consta de probabilidad de nivel unitario y dos etapas previas.

Probabilidad: py ( en θ i)

Primera etapa previa: p( θτi )

Segunda etapa previa: ph (t )

La articulación posterior para el modelo jerárquico viene dada por

pag
(i 1
, k él
, metro, y 1, k
, , metro ) i ∏i ( θ ) i (θ
τ ) yh i tubo × (t ) ph

23
Machine Translated by Google

En el modelo jerárquico, el prior inducido en los parámetros a nivel de unidad no es un

previo independiente. Los parámetros a nivel de unidad son condicionalmente, pero no incondicionalmente, un

independiente del anterior

p(θ1 ,, h)
Kθm= _∫∏i p (θ τττ ) p(
i h d)

Si, por ejemplo, el prior de segunda etapa en τ es muy difuso, el prior marginal en la unidad­

Los parámetros de nivel serán altamente dependientes ya que cada parámetro tiene un gran valor común.

componente.

El modelo jerárquico especifica que se utilizará información previa y de muestra.

hacer inferencias sobre el parámetro común, τ . Por ejemplo, en condiciones anteriores normales,

i i ~ NVi ( ,θ ) , los parámetros comunes proporcionan la ubicación y la propagación del

distribución de θi . Por tanto, la parte posterior del θi reflejará un nivel de contracción inferido

de los datos en el sentido de que Vθ estará determinado por los datos. Para algunos conjuntos de datos, el

La parte posterior de Vθ se centrará sobre valores pequeños, lo que implica un alto nivel de contracción. Es

Es importante recordar, sin embargo, que la forma funcional normal inducirá una gran cantidad de

contracción para unidades periféricas incluso si la parte posterior de Vθ está centrada en valores grandes.

Inferencia para modelos jerárquicos

Los modelos jerárquicos para estructuras de datos de panel son ideales para los métodos MCMC.

En particular, a menudo se puede construir una cadena de Markov estilo “Gibbs” considerando la

Dos conjuntos básicos de condicionales:

1. yoyo , yo y

24
Machine Translated by Google

2. τ θ { i}

El primer conjunto de condicionales explota el hecho de que los θi son condicionalmente independientes. El

El segundo conjunto explota el hecho de que {θi} es suficiente para τ . Es decir, una vez dibujados los {θi}

de 1), estos sirven como “datos” para las inferencias sobre τ . Si, por ejemplo, la primera etapa

prior es normal, entonces se pueden usar priores conjugados naturales estándar y se pueden realizar todos los sorteos

uno por uno y en bloques lógicos. Este modelo anterior normal es también la piedra angular de

otros antecedentes más complicados. El modelo normal viene dado por

i i ~ NVi ( ,yo )

i ~ ESO
i( , ) −1

−1
En ~
i
(tu , )
VIRGINIA OCCIDENTAL

En el modelo normal, los {θi} extraídos de 1) se tratan como una muestra normal multivariada

y se utilizan priores condicionalmente conjugados estándar. Vale la pena señalar que en muchos

1
aplicaciones, los prioritarios de la segunda etapa serán muy difusos ( − A = I 100 o más) y el

Wishart está configurado para tener expectativa I con grados de libertad muy pequeños, como tenue 3 (yo ) + .

Como a menudo tenemos un mayor número de unidades en el análisis, los datos parecen abrumar a estos

anteriores y aprendemos mucho sobre τ , o en el caso del prior normal, (θ ,Vθ ).

En los enfoques clásicos de estos modelos, la primera etapa previa se llama aleatoria.

modelo de efectos y se considera parte de la probabilidad. El modelo de efectos aleatorios se utiliza para

promediar la probabilidad condicional para producir una probabilidad incondicional que es una función

de los parámetros comunes únicamente.

l ( ) τ = ∏i ∫ p( yi θi ) pd τ
(θiθ ) i

25
Machine Translated by Google

En la literatura econométrica clásica se habla mucho de la distinción entre

modelos de coeficientes y modelos de efectos fijos. Los modelos de efectos fijos se consideran “no

paramétrico” en el sentido de que no existe una distribución específica para los parámetros θi .

Los modelos de coeficientes aleatorios a menudo se consideran más eficientes, pero están sujetos a especificaciones.

error en la distribución de efectos aleatorios supuesta, p(θ τi ) . En un tratamiento bayesiano, vemos

que la distinción entre estos dos enfoques está en la formulación del prior conjunto sobre

{i 1 , , K∙ im} .

Distribuciones de heterogeneidad

Gran parte del trabajo tanto en marketing como en la literatura estadística general ha utilizado

el previo normal para la primera etapa del modelo jerárquico. El prior normal ofrece una gran

mucha flexibilidad y se adapta convenientemente a una gran regresión bayesiana/análisis multivariado

literatura. El modelo normal estándar puede manejar fácilmente el análisis de muchas unidades (Steenburgh,

Ainslie y Engebretson 2002), y puede ampliarse para incluir determinantes observables de

heterogeneidad (ver Allenby y Ginter 1995; Rossi et al 1996; Ralukdar, Sudhir y Ainslie

2002). Esto se puede hacer introduciendo una regresión multivariada en los observables en el

función media

θ = +Bz tu
una
~ 0,V ( )i

Aquí z es un vector de variables explicativas que pretenden explicar las diferencias entre unidades.

Normalmente, podríamos postular que varias características demográficas o de mercado podrían

explicar las diferencias en las intersecciones (preferencia de marca) o pendientes (sensibilidades de la mezcla de marketing).

En los modelos lineales, esta especificación previa normal equivale a especificar un conjunto de interacciones.

26
Machine Translated by Google

entre las variables explicativas en el modelo que explica y (ver McCulloch y Rossi 1994

para una mayor discusión sobre este punto).

Si bien el modelo normal es flexible, existen varios inconvenientes para el marketing.

aplicaciones. Como se analizó anteriormente, las colas delgadas del modelo normal tienden a encogerse

unidades enormemente hacia el centro de los datos. Si bien esto puede ser deseable en muchas aplicaciones,

es un inconveniente a la hora de descubrir nuevas estructuras en los datos. Por ejemplo, si la distribución de

los parámetros a nivel de unidad son bimodales (algo que se espera en modelos con marca

intersecciones) entonces la primera etapa normal anterior puede reducir las estimaciones del nivel de unidad a tal grado

para enmascarar la multimodalidad (ver más abajo para más discusiones sobre diagnóstico).

Afortunadamente, el modelo normal proporciona un componente básico para una combinación de extensiones normales.

de la primera etapa previa. El modelo de mezcla de normales se puede escribir

p(θ θ1 ,,,, K θK VV
EN , EN
1 kilo , K ) = r1 (θ θ1 1 , ) + + r K
k

(θ θK K )

Es bien sabido que el modelo de mezcla de normales proporciona una gran flexibilidad y

que con suficientes componentes, se puede aproximar prácticamente cualquier densidad multivariada. En

En particular, son posibles múltiples modos. También se pueden utilizar colas más gordas de lo normal.

acomodado mezclando componentes normales con gran variación.

El modelo de mezcla de normales puede verse como una generalización del popular modelo finito.

modelo de mezcla. El modelo de mezcla finita ve el prior como una distribución discreta con un conjunto

de puntos de masa. Este enfoque ha sido muy popular en marketing debido a la interpretación

de cada punto de mezcla como representativo de un “segmento” y para facilitar la estimación. En

Además, al enfoque de mezcla finita se le puede dar la interpretación de un método no paramétrico.

método como en Heckman y Singer (1982). Los críticos del enfoque de mezcla finita han

señaló la inverosimilitud de la existencia de un pequeño número de segmentos homogéneos

así como el hecho de que el enfoque de mezcla finita no permite unidades extremas cuyas

27
Machine Translated by Google

Los parámetros se encuentran fuera del casco convexo de los puntos de apoyo. La mezcla de normales

enfoque evita los inconvenientes del modelo de mezcla finita al tiempo que incorpora muchos de los

características más deseables.

El algoritmo MCMC para el modelo de heterogeneidad normal se puede extender fácilmente a

manejar la mezcla de modelos normales agregando variables indicadoras para la mezcla

componente del espacio de estados. Condicionado a las variables indicadoras, los sorteos del

Los parámetros de los componentes normales son sorteos conjugados estándar dada la clasificación del

observaciones en uno de los componentes K. Las variables indicadoras, condicionadas a todas las demás

parámetros, tienen una distribución multinomial con probabilidades proporcionales al número de

unidades asignadas al componente y la probabilidad de que los parámetros de la unidad sean del

distribución de componentes.

En los modelos de mezcla de componentes, generalmente existe un problema de identificación genérica.

conocido como problema de cambio de etiqueta. Un modelo con una secuencia dada de componentes.

parámetros es observacionalmente equivalente a cualquier permutación de esta secuencia de parámetros.

Por lo tanto, las etiquetas de los componentes requieren la identificación de restricciones para que se produzca la inferencia. Uno

La solución a este problema es poner antecedentes informativos en los parámetros del modelo (por ejemplo,

θ>
1 θ > 2> θ K ... ), que funciona bien cuando los datos están de acuerdo con la restricción.

Sin embargo, si los datos no concuerdan (por ejemplo, los componentes difieren principalmente en V, no

θ ), entonces lo anterior puede conducir a una cadena que tarda en converger (Otter y Fruthwirth­

Schnatter (1999)). Cabe señalar, sin embargo, que la presencia de cambio de etiqueta no

no afecta la inferencia sobre los parámetros de una unidad particular, θi . Si el componente normal

La distribución de la mezcla se considera un dispositivo flexible para aproximarse a algunas variables desconocidas.

distribución de heterogeneidad, entonces la inferencia sobre la distribución de heterogeneidad puede ser

28
Machine Translated by Google

hecho directamente con el conjunto de parámetros unitarios, { θi } , sin intentar identificar o estimar

los parámetros del componente.

En muchas situaciones, tenemos información previa sobre los signos de varios coeficientes en

el modelo básico. Por ejemplo, los parámetros de precios son negativos y los efectos publicitarios son

positivo. En un enfoque bayesiano, este tipo de información previa puede incluirse mediante

modificando la primera etapa previa. Reemplazamos la distribución normal con una distribución con

soporte restringido, correspondiente a las restricciones de señalización correspondientes. Por ejemplo, podemos

utilice una distribución log­normal para un parámetro que se restringe mediante signo mediante el

'
reparametrización, θ = En( )i . Este cambio en la forma del anterior puede destruir parte de

las relaciones conjugadas que se explotan en la implementación MCMC de Gibbs­sampler.

Sin embargo, si se utilizan métodos estilo Metropolis para generar sorteos en la cadena de Markov, es una

Es una cuestión sencilla reparar directamente los parámetros de la función de probabilidad, sustituyendo exp(θ') por

θ, en lugar de depender de la distribución de heterogeneidad para imponer la restricción de rango. Qué es

más importante es preguntar si el registro previo normal es apropiado. La cola izquierda del

distribución log­normal disminuye a cero, asegurando una moda para la distribución log­normal en un

valor estrictamente positivo. Para situaciones en las que queremos admitir cero como valor posible para

el parámetro, este previo puede no ser apropiado. Boatwright et al (1999) exploran el uso de

Priores normales truncados como una alternativa al enfoque de reparametrización log­normal.

Los antecedentes normales truncados son mucho más flexibles y permiten que la masa se acumule en cero.

Los modelos bayesianos también pueden adaptarse a la heterogeneidad estructural o cambios en la

especificación de probabilidad para una unidad de análisis. La probabilidad se especifica como una mezcla de

probabilidades:

|
11 esoθ ( |{ })i1 () |...
py θél= rpyI θ + + rpy ( )
KK I
,

29
Machine Translated by Google

y la estimación procede añadiendo variables indicadoras para el componente de la mezcla a la

espacio de Estados. Condicional a las variables indicadoras, el dato, yit, se asigna a uno de K

probabilidades. Las variables del indicador, condicionadas a todos los demás parámetros, tienen un carácter multinomial.

distribución con probabilidades proporcionales al número de observaciones asignadas al

componente y la probabilidad de que el dato surja de la probabilidad. Modelos de estructura

La heterogeneidad se ha utilizado para investigar el cambio intraindividual en el proceso de decisión.

debido a cambios ambientales (Yang y Allenby 2000) y fatiga (Otter, et.al. 2002).

Finalmente, recientemente se han utilizado métodos bayesianos para relajar la postura comúnmente formulada.

El supuesto de que los parámetros unitarios, θi , son iid se basa en la distribución de heterogeneidad.

Ter Hofstede, Wedel y Steenkamp (2002) emplean un campo guassiano condicional

especificación para estudiar patrones espaciales en coeficientes de respuesta:

= (p| i)|{( θp θθij τ : }, j Si Vi )

donde Si denota unidades que son espacialmente adyacentes a la unidad i. Desde la estimación de MCMC

El algoritmo emplea distribuciones condicionales completas de los parámetros del modelo, el sorteo de θi

Implica utilizar un promedio local para la media de la distribución mixta. Yang y Allenby

(2002b) emplean una especificación simultánea de los parámetros unitarios para reflejar los posibles

presencia de efectos interdependientes debido a la presencia de redes sociales y de información.

th =
r th ¿W? +
2
tu ~ni0, ( pag )

donde W es una matriz que especifica la red, ρ es un coeficiente que mide la influencia

de la red, y u es una innovación.

30
Machine Translated by Google

Comprobaciones Diagnósticas de la Primera Etapa Previa

En el modelo jerárquico, el prior se especifica en un proceso de dos etapas:

i ~ Nevada
i , i )
i , V(i )
( pag

En la literatura clásica, la distribución normal de θ se llamaría efectos aleatorios.

El modelo se consideraría parte de la probabilidad y no parte del anterior. Típicamente,

Para la segunda etapa se utilizan priores muy difusos. Así, es la primera etapa previa la que se

importante y siempre lo seguirá siendo mientras haya sólo unas pocas observaciones

disponible por hogar. Dado que los parámetros de la primera etapa previa se infieren de la

datos, el principal foco de preocupación debería ser la forma de esta distribución.

En la literatura econométrica, el uso de distribuciones paramétricas de heterogeneidad

(por ejemplo, distribuciones normales) a menudo son criticadas debido a que su especificación errónea

conduce a estimaciones inconsistentes de los parámetros comunes del modelo (cf. Heckman y Singer

(mil novecientos ochenta y dos). Por ejemplo, si la verdadera distribución de los parámetros del hogar estuviera sesgada o

bimodal, nuestras inferencias basadas en el prior normal simétrico y unimodal podrían ser

engañoso. Un enfoque simple sería trazar la distribución de la parte posterior

medias de los hogares y comparar esto con la distribución normal implícita evaluada en el método Bayes

estimaciones de los hiperparámetros, datosi NE , EV . Las


[ ] imedias
) posteriores no son
(

obligado a seguir la distribución normal ya que la distribución normal es sólo una parte de la

El anterior y el posterior están influenciados por los datos a nivel de unidad. Este sencillo enfoque está en el

espíritu correcto, pero podría ser engañoso ya que no tomamos en cuenta adecuadamente la incertidumbre en el

estimaciones de parámetros a nivel unitario.

31
Machine Translated by Google

Allenby y Rossi (1999) proporcionan una verificación diagnóstica del supuesto de normalidad.

en la primera etapa de la distribución previa que tiene en cuenta adecuadamente la incertidumbre de los parámetros.

Manejar la incertidumbre en nuestro conocimiento de los parámetros comunes de la normalidad.

distribución, calculamos la distribución predictiva de θi' para la unidad i' seleccionada al azar de

la población de hogares con la distribución de efectos aleatorios. Usando nuestros datos y

modelo, podemos definir la distribución predictiva de θi' de la siguiente manera:

, | Vθ datos ) di dV )
θi'|datos = ∫ φ θ( |θ ,Vθ ) p(θ i

Aquí φ (θi '| ,Vθ


θ ) es la distribución previa normal. Podemos utilizar nuestros sorteos de MCMC de

i ,V ,i junto con extracciones de la normal anterior para construir una estimación de este

distribución. La verificación de diagnóstico se construye comparando la distribución de la unidad­

medias de nivel posterior a la distribución predictiva basada en el modelo, dado anteriormente.

Hallazgos e influencia en la práctica de marketing

Los últimos diez años de trabajo sobre la heterogeneidad en el marketing han dado lugar a varios

hallazgos importantes. Los investigadores han explorado un conjunto bastante grande de modelos de primera etapa con

una distribución normal de heterogeneidad entre unidades. En particular, los investigadores han

considera una regresión lineal normal de primera etapa (Blattberg y George 1991), una primera etapa

modelo logit (Allenby y Lenk 1994, 1995), un probit de primera etapa (McCulloch y Rossi 1994),

una primera etapa Poisson (Neelamegham y Chintagunta 1999), y una primera etapa generalizada

modelo de distribución gamma (Allenby, Leone y Jen 1999). La principal conclusión es que

Existe un grado sustancial de heterogeneidad entre unidades en diversos conjuntos de datos de marketing.

Este hallazgo de un alto grado de heterogeneidad es muy prometedor para el estudio de

preferencias, tanto en términos de importancia sustantiva como práctica (Ansari, Jedidi y Jagpal

32
Machine Translated by Google

2000). Puede haber un sesgo de heterogeneidad sustancial en los modelos que no tienen en cuenta adecuadamente

para la heterogeneidad (Chang, Siddarth y Weinberg 1999), y hay un gran valor en

personalizar las decisiones de marketing al nivel unitario (ver Rossi, McCulloch y Allenby 1996).

Yang, Allenby y Fennell (2002) investigan el origen de la preferencia de marca y

encontrar evidencia de que la variación en el entorno de consumo y las motivaciones resultantes,

conduce a cambios en la preferencia de una unidad por una oferta de producto (ver también Arora y Allenby

1999). Las condiciones motivadoras son un dominio interesante para la investigación ya que preexisten al

mercado, ofreciendo una medida de la demanda que es independiente de las ofertas del mercado.

Otras investigaciones han documentado evidencia de que el proceso de decisión empleado por una unidad no es

necesariamente constante durante la compra de una unidad (Yang y Allenby 2000) y la respuesta

(Otter 2002) historia. Esta evidencia indica que la unidad de análisis apropiada para

El marketing está en un nivel que es menos agregado que el de una persona o encuestado, aunque hay

evidencia de que la sensibilidad de los hogares a las variables de marketing (Ainslie y Rossi 1998) y el estado

la dependencia (Seetharaman, Ainslie y Chintagunta 1999) es constante en todas las categorías.

El modelo continuo normal de heterogeneidad parece funcionar razonablemente bien en

caracterizar esta heterogeneidad, pero aún no ha habido suficiente experimentación con

modelos alternativos como la mezcla de normales para sacar conclusiones definitivas (ver

Allenby, Arora y Ginter 1998). Con los paneles relativamente cortos que normalmente se encuentran en

aplicaciones de marketing, puede resultar difícil identificar una estructura mucho más detallada más allá

la que ofrece el modelo normal. Además, los paneles relativamente cortos pueden producir una

confusión del hallazgo de heterogeneidad con varias especificaciones erróneas del modelo en el

primera etapa. Si sólo hay una observación disponible para cada unidad, entonces el modelo de probabilidad para

el nivel unitario es la mezcla del modelo de primera etapa con el de segunda etapa anterior:

p( yτ ) = ∫ p( y θ )pd (θ τ θ )

33
Machine Translated by Google

Esta combinación puede proporcionar un modelo de probabilidad más flexible. En la situación de una observación,

Nunca podremos determinar si es la “heterogeneidad” o la falta de flexibilidad lo que causa la

Modelo jerárquico bayesiano para ajustar bien los datos. Obviamente, con más de una observación

por unidad, esto cambia y es posible diagnosticar por separado los problemas del modelo de primera etapa y

deficiencias en la supuesta distribución de heterogeneidad. Sin embargo, con paneles cortos hay

Es poco probable que haya una separación clara entre estos problemas y puede darse el caso de que algunos de ellos

La heterogeneidad detectada en los datos de marketing se debe en realidad a la falta de flexibilidad en la base.

modelo.

Ha habido algunas comparaciones del modelo continuo normal con el

Enfoque de aproximación discreta de un modelo de mezcla finita. Nuestra opinión es que es

conceptualmente inapropiado para ver cualquier población de unidades se ha compuesto sólo de una pequeña

número de grupos homogéneos y, por tanto, la interpretación adecuada del finito

El enfoque mixto es un método de aproximación. Allenby y Rossi (1999) y Lenk et al.

(1996) muestran algunas de las deficiencias del modelo de mezcla finita y proporcionan algunas

evidencia de que el modelo de mezcla finita no recupera un parámetro de nivel unitario razonable

estimados. Por el contrario, Andrews, Ansari y Currim (2002) utilizan datos simulados para sugerir

esa recuperación a nivel unitario es comparable entre los enfoques de mezcla normal y finita.

Al mismo tiempo que el trabajo bayesiano en la literatura académica ha mostrado la

capacidad de producir estimaciones a nivel unitario, ha habido un mayor interés por parte de

profesionales en análisis a nivel de unidad. Los investigadores conjuntos siempre han tenido interés en

valores parciales a nivel de encuestado y tenía varios esquemas ad hoc para producir estas estimaciones.

Recientemente, el enfoque jerárquico bayesiano del modelo logit se ha implementado en el

popular software conjunto Sawtooth. Experiencia con este software y estudios de simulación.

34
Machine Translated by Google

han llevado a Rich Johnson, fundador del software Sawtooth, a concluir que los métodos bayesianos

son superiores a otros considerados en la literatura conjunta (Sawtooth Software, 2001).

Los minoristas están acumulando volúmenes de datos de escáneres a nivel de tienda. Normalmente no está disponible para

investigadores académicos, estos datos a nivel de tienda son potencialmente útiles para informar al minorista básico

decisiones como precios y comercialización. Intenta desarrollar modelos confiables para

La fijación de precios y la promoción se han visto frustradas por la incapacidad de producir promociones confiables.

y parámetros de respuesta del precio. Por lo tanto, la promesa de fijar precios a nivel de tienda se ha desvanecido.

no realizado. Recientemente, varias empresas, entre ellas el líder DemandTec, han aparecido en

este espacio, ofreciendo servicios de promoción y precios basados en datos a clientes minoristas. En el

El corazón del enfoque de DemandTec es un modelo de contracción bayesiano aplicado a store­sku­week.

datos obtenidos directamente del cliente Retail. Los métodos de contracción bayesianos permiten

DemandTec para producir estimaciones de parámetros razonables y relativamente estables a nivel de tienda.

V. Teoría de la decisión

La gran mayoría de la literatura bayesiana reciente en marketing enfatiza el valor

del enfoque bayesiano de inferencia, particularmente en situaciones con información limitada.

La inferencia bayesiana es sólo un caso especial de la teoría de decisión bayesiana más general.

acercarse. La teoría de la decisión bayesiana tiene dos componentes críticos y separados: 1. una pérdida

función y 2. la distribución posterior. La función de pérdida asocia una pérdida con un estado.

de la naturaleza y una acción, l (a,θ ) donde a es la acción y θ es el estado de naturaleza (parámetro).

El tomador de decisiones óptimo elige la acción de modo que se minimice la pérdida esperada donde

Se toma la expectativa con respecto a la distribución posterior.

mín.a yo
(a ) = ∫ yo(ap ,θ ) (θ θ Datos d)

35
Machine Translated by Google

La inferencia de parámetros es un caso simple de la teoría general de la decisión en la que la pérdida es

a menudo se considera cuadrático. En este caso, la “acción” óptima es un estimador que se considera

la media posterior de los parámetros.

Selección de modelo

Contabilizar adecuadamente la incertidumbre requiere no sólo una medida de parámetro

incertidumbre condicionada a un modelo para los datos, pero también a alguna medida de incertidumbre del modelo.

En el enfoque bayesiano, es posible definir un conjunto de modelos MM y calcular un


1,,kk

Medida de la probabilidad posterior de un modelo. Si la función de pérdida es cero si el correcto

se elige el modelo y es igual para todos los casos en los que se elige el modelo incorrecto, entonces el

El tomador de decisiones bayesiano óptimo elige el modelo con la mayor probabilidad posterior.

En un entorno paramétrico, la probabilidad posterior de un modelo se puede calcular de la siguiente manera:

( ( p kMD p=DM p M k ) ( ) k )
p (DM
( pkDM
) ) =p
∫ i , kk
d
( ) yo yo

Cabe señalar que no requerimos que los espacios de parámetros correspondientes a cada

el modelo esté relacionado de alguna manera, como en los modelos anidados. En el enfoque bayesiano, la

La probabilidad posterior solo requiere la especificación de la clase de modelos y los anteriores. Allá

No hay distinción entre modelos anidados y no anidados como en la prueba de hipótesis.

La literatura en la literatura clásica. Sin embargo, sí requerimos la especificación de la clase de

modelos considerados; No existe una medida general de la plausibilidad de un determinado

modelo o grupo de modelos frente a algún conjunto de alternativas no especificadas y posiblemente desconocidas.

modelos.

En situaciones en las que se comparan dos modelos, es común calcular la

relación de probabilidades del modelo posterior. Esta relación se puede expresar como la relación del promedio

36
Machine Translated by Google

probabilidades multiplicadas por el odds ratio anterior. La razón de probabilidad promedio a veces se llama

el factor de Bayes para un modelo.

PMD
( ) 1( ) (i ) 1 ( yo
∫ pág.111
=
yo ) yo
re
1 ( pm 1 )
×
∫ 2(i ) (yo )yo
p MDpágina 2 222 yo d 2 ( pm 2 )

El factor Bayes puede ser bastante sensible a la especificación anterior y, en particular, a la

difusión previa. A medida que el prior se vuelve cada vez más extendido en relación con el fijo

probabilidad, el valor promedio de la probabilidad disminuye. Por lo tanto, si el prior para el modelo 1 es un

mucho más extendido que el anterior para el modelo 2, esto puede resultar en factores de Bayes que

favorecer el modelo 2 (esto es ciertamente cierto en un sentido limitante). En particular, difusa e inadecuada.

Los antecedentes pueden dar como resultado factores de Bayes indefinidos. Recomendamos prestar mucha atención

sobre la evaluación previa y que se realice un análisis de sensibilidad previo siempre que se calcule

probabilidades del modelo posterior.

Se ha propuesto una amplia variedad de métodos para aproximar el modelo posterior.

probabilidad. El método más utilizado se debe a Schwarz (1978), quien calculó una

aproximación asintótica que depende únicamente de la dimensión del modelo. Esta idea es

detrás del conocido criterio de información de Schwarz o Bayeisan (BIC) para la elección del modelo.

Excepto en el caso de formas muy especiales de antecedentes, el método de Schwarz es extremadamente inexacto y

no se debe confiar en él para calcular la probabilidad del modelo posterior. Varios

Métodos numéricos que se basan en la aproximación de Laplace o en el muestreo de importancia.

Los métodos de integración numérica son el método preferido de aproximación. En particular,

Newton y Raftery (1994) ofrecen un método conveniente para aproximar un factor de Bayes

utilizando sorteos de simulación MCMC para estimar la probabilidad promedio como la media armónica de

las probabilidades de una muestra de la distribución posterior. Este estimador es consistente, pero

37
Machine Translated by Google

puede ser inestable debido a sorteos de los parámetros que están asociados con una pequeña probabilidad

valores.

Decisiones de marketing y teoría de la decisión bayesiana

La teoría de la decisión bayesiana es ideal para su aplicación a muchos problemas de marketing.

en el que se debe tomar una decisión dada la incertidumbre sustancial de un parámetro o modelo. En

En estas situaciones, la incertidumbre debe tenerse en cuenta en la decisión misma. La decisión de marketing

El fabricante toma una acción estableciendo el valor de varias variables diseñadas para cuantificar la

entorno de marketing al que se enfrenta el consumidor (como el precio o los niveles de publicidad). Estos

Las decisiones deben verse atenuadas por el nivel de incertidumbre que enfrenta el especialista en marketing. para hacer esto

concreto, comience con un modelo de probabilidad que especifique cómo la variable de resultado es impulsada por

las entradas y covariables, condicionadas al parámetro θ.

px ( y ,θ )

' '
Quien toma las decisiones tiene cierto control sobre un subconjunto del vector x, = X ' . xdd
xx , d aquellos

representa las variables bajo el control de quien toma las decisiones y xcov son las covariables. El

El objetivo de quien toma las decisiones es elegir xd para maximizar el valor esperado de las ganancias.

(π). En un tratamiento totalmente teórico de la decisión bayesiana, esta expectativa se toma con respecto

a la distribución posterior relevante así como a la distribución condicional predictiva

p( cov , d yxx )

Pi
*

( xx d = EE) Pi ( yx )
aquellos i y i d

=
Ei ∫ Pi ( yxpyxx
)( d d , aquellos
,i tú
)

Y=
i Pi ( xxd aquellos
,i )

38
Machine Translated by Google

La expectativa = [ ] Eθ se toma con respecto a la distribución posterior de θ y la

*
quien toma las decisiones elige xd para maximizar las ganancias π .

Enchufe V s. Enfoques completos de Bayes

El uso de ganancias esperadas cuando la expectativa se toma con respecto a la

La distribución posterior de los parámetros es una contribución importante de la teoría bayeisiana.

acercarse. En un enfoque de Bayes aproximado o condicional, la integración total de la

La función de beneficio con respecto a la distribución posterior de θ se reemplaza por una evaluación de

la función como la media posterior de los parámetros (a menudo la estimación de Bayes). Este

El enfoque aproximado a menudo se denomina enfoque “plug­in” o, según Morris (1983),

Bayes Bayes empírico.

Pi* ( )= ˆ= i[ ])
d i πθπ
≠) (xE (θ
xd
_
xd
_
Y

En aplicaciones de teoría de decisiones para desagregar datos, es muy probable que la incertidumbre en

θ es muy grande. Junto con un π no lineal ( ), esto implica que los errores por el uso de

El enfoque de “complemento” podría ser muy sustancial. En general, no contabilizar adecuadamente

La incertidumbre de los parámetros exagerará las oportunidades potenciales de ganancias. Esta es una especie de

“exceso de confianza” que resultará en una sobreestimación del valor de la información (ver también

Allenby 1990b, Kalyanam 1996, Montgomery y Bradlow 1999).

Uso de conjuntos de información alternativos

39
Machine Translated by Google

Uno de los aspectos más atractivos del enfoque bayesiano es la capacidad de

Incorporar una variedad de diferentes fuentes de información. Todos los métodos de contracción adaptativa

utilizar la similitud entre unidades transversales para mejorar la inferencia a nivel de unidad.

A esto se le suele denominar “fuerza de endeudamiento”. El monto del “préstamo” está determinado por

la dependencia en el modelo de coeficientes aleatorios o previo de la primera etapa. Dado que esto es típicamente

determinados por los datos, los aspectos de "contracción" de las estimaciones bayesianas se adaptan a los datos. Un

La aplicación de este concepto es el artículo de Neelemagan y Chintagunta (1999) donde

Las similitudes entre países se utilizan para predecir los patrones de ventas después de la introducción.

de nuevos productos.

En general, la función de un conjunto de información dado es especificar la parte posterior de θ . Para

Por ejemplo, considere dos conjuntos de información A y B junto con los posteriores correspondientes,

pag A
(i ), pag B
(i ) . Valoramos estos conjuntos de información resolviendo el problema de decisión usando

estas dos distribuciones posteriores.

)=
*
pag = mi x
yo xd
_
Pi (xx d
yo aquellos
máximo
xd
_ ∫ Pi ( xx d aquellos
, yo ) PD
( ) yo yo
yo

=
AB ,

Rossi, McCulloch y Allenby (1996) enfatizan el uso de problemas de decisión bayesiana para

valorar diversos conjuntos de información disponibles sobre hogares individuales. Un cupón de orientación

El problema que anticipó los ahora populares productos de Catalina Marketing Inc. se utilizó para

valorar una secuencia de conjuntos de información en expansión a nivel individual. Pasamos ahora a la

problema de valorar la información desagregada.

40
Machine Translated by Google

Valoración de la Información Desagregada

Una vez que se ha establecido un enfoque totalmente teórico de decisiones, podemos utilizar el beneficio

Métrica para valorar la información en datos desagregados. Es decir, debemos comparar las ganancias que

se puede obtener a través de nuestras inferencias desagregadas sobre {θi} con ganancias que podrían ser

obtenidos utilizando únicamente información agregada. Las oportunidades de ganancias que ofrece

Los datos desagregados dependerán tanto del grado de heterogeneidad entre las unidades del

datos de panel así como el nivel de información a nivel desagregado. Por ejemplo, si hay

Es una cantidad muy pequeña de información a nivel de panelistas, las soluciones óptimas a la

Los problemas de decisión bayesiana variarán poco de un panelista a otro y se aproximarán a los

decisión uniforme que se obtendría utilizando sólo datos agregados.

Para hacer explícitas estas nociones, presentaremos los conceptos desagregados y agregados.

problemas de decisión. Para hacerlo, debemos corregir alguna notación para los datos desagregados. Lo haremos

utilice una estructura de panel general de la forma:

p ( yp iθi ) (θi τ )

Aquí p (θ τi ) es el efecto aleatorio o primera etapa previa. Como se enfatiza en la sección 3, el método bayesiano

Los métodos son ideales para la inferencia sobre parámetros individuales o desagregados como

así como los parámetros comunes.

Recuerde la función de ganancias para el problema de decisión desagregada.

Pii* ( xx chicos,
dii ) = ∫π ( xx chicos,
dii , yo
i
) p(yo
Datos
i d i) i
, ,

41
Machine Translated by Google

Es decir, debemos maximizar las ganancias esperadas cuando la expectativa se toma con respecto a

la distribución posterior de θi . Los beneficios totales de los datos desagregados son simplemente la suma

de los valores maximizados de la función de beneficio anterior.

*
Π = ∑π (i %
xx d, i i
cov,
desagregar
) dónde %x es la elección óptima de
yo ,
X
yo ,

Los beneficios agregados se pueden calcular maximizando la expectativa de la suma de los

funciones de beneficio desagregadas con respecto a la distribución predictiva de θi

π
adj. (x dmi) = i ∑
Pi (xx d i
∫ ) i∑
,
=
aquellos,
Pi ( xx di , _ yo)yo
( )yo
PD

π ag
=π( X) %
ag d

La distribución predictiva apropiada de θ se forma a partir ,del


p (θmarginal
), de la

primera etapa previa con respecto a la distribución posterior de los parámetros del modelo.

pag

( ) θ = (θ τ ) (τ τ ) p Datos d
pag

La comparación de Πagg con Πdisagg proporciona una métrica para el valor alcanzable de la

información desagregada.

VI. Conclusion

Los investigadores han notado durante mucho tiempo el atractivo conceptual del marco bayesiano para

inferencia y toma de decisiones. Sin embargo, el potencial del enfoque bayesiano no fue

realizado debido a restricciones computacionales. Sin métodos modernos basados en simulación,

Los investigadores se limitaron a una breve lista de probabilidades y antecedentes conjugados asociados. El

Los avances de los últimos 15 años nos han liberado de las limitaciones de cálculo, lo que nos ha permitido

el análisis de prácticamente cualquier modelo. Ahora podemos considerar modelos que alguna vez se consideraron

42
Machine Translated by Google

imposible de calcular y podemos utilizar antecedentes de prácticamente cualquier forma. La única limitación ahora

es la capacidad de los datos para identificar los parámetros del modelo en lugar de la capacidad del analista para

Realizar inferencias para este modelo. Sin embargo, los acontecimientos recientes tienen un impacto aún más

impacto más profundo que simplemente liberarnos de las limitaciones computacionales. La naturaleza del

Los métodos MCMC enfatizan la modularidad en la construcción de modelos, que generalmente se logra

mediante una combinación de distribuciones condicionales. Estas distribuciones condicionales especifican

la naturaleza de las relaciones entre las variables observadas y permiten la construcción de

relaciones más complicadas. Así, el investigador puede crear un modelo más complejo.

simplemente agregando capas a la jerarquía.

Consideremos, como ejemplo sencillo, la relación entre ventas y precio. Mucho

Se ha dedicado atención a ajustar la distribución condicional de ventas (y) dado el precio (x).

Sin embargo, el proceso de decisión real ciertamente no está bien representado por una condición

distribución. Muchos respaldan el concepto de un conjunto de consideraciones latentes (Chiang, Chib y

Narasimhan 1999) en el que un producto debe incluirse primero en la consideración establecida antes

un consumidor evalúa el impacto del precio. Si w representa el conjunto de consideraciones, entonces el

modelo se ha ampliado a las dos capas y | w, x y w | z donde el conjunto de consideraciones es

influenciado por otra variable z (por ejemplo, publicidad). Al final, el modelo jerárquico

especifica una forma especial para la distribución condicional de y | x, z que permite la exploración de

las relaciones condicionales intermedias. Además, la especificación de jerarquía

Los modelos condicionales son consistentes con los modelos de proceso de comportamiento del consumidor (por ejemplo, McFadden

2001).

Así, los métodos de modelado jerárquico logran no sólo una gran flexibilidad como

enfatizados en la literatura sobre estadística bayesiana, pero también se adaptan bien a la elaboración

de varias visiones de procesos latentes en la toma de decisiones del consumidor. Esperamos que la investigación en

43
Machine Translated by Google

marketing para centrarse en una mejor comprensión del proceso mediante el cual el consumidor hace

decisiones de compra con la esperanza de crear modelos de compra más realistas, pero todavía parsimoniosos.

comportamiento.

Un desafío importante al que se enfrentan los profesionales del marketing es la fusión de información.

adquiridos a través de una variedad de conjuntos de datos diferentes. Por ejemplo, una empresa puede tener acceso a

información de compra del consumidor, información de encuestas sobre una submuestra de consumidores, y

información de ventas agregada sindicada. Los datos del mercado y de la encuesta no se pueden combinar

sin alguna visión de los procesos mediante los cuales los consumidores toman decisiones de compra y

responder a los instrumentos de la encuesta. Los métodos bayesianos facilitarán la integración de estos datos

fuentes a través de la especificación de un conjunto común de parámetros de comportamiento y la

procesos mediante los cuales estos se traducen en respuestas a encuestas o en decisiones de compra.

Hemos enfatizado el valor de los métodos bayesianos en situaciones con limitaciones.

información. Si bien la cantidad total de datos disponibles se ha disparado, la cantidad de

Es probable que la información sobre cualquier consumidor siga siendo limitada. La personalización de

acciones de marketing a niveles cada vez más finos de agregación requiere la capacidad de hacer

inferencias en condiciones de información limitada y para caracterizar el nivel de incertidumbre en

estas inferencias. Por lo tanto, esperamos que los métodos bayesianos desempeñen un papel fundamental en la realización de la

potencial del micromarketing y cualquier análisis realizado a nivel micro.

Finalmente, hay una serie de problemas importantes en marketing que son esencialmente

Problemas puros de predicción. Dado un conjunto de información sobre un consumidor, la predicción

El problema se define como para predecir la respuesta a una configuración dada del sistema de marketing.

ambiente. La información disponible sobre el consumidor se puede resumir en un enorme conjunto

de variables potenciales. El propio entorno de marketing también se puede resumir en muchos

formas posibles. Un problema aplicado importante es el de pasar por un gran número de

44
Machine Translated by Google

posibles variables y formas funcionales para encontrar la mejor regla de predicción posible. En el

En la literatura de estadística bayesiana se han producido avances sustanciales en la “selección de variables”

problema y creemos que estos métodos son muy prometedores para su aplicación en marketing.

problemas.

Los enfoques de modelado estructurales o orientados a procesos enfatizan lograr los

objetivo de predicción a través de una especificación del proceso de decisión. Esto orienta en la selección de

variables y en la estructura de relaciones entre variables. Sin embargo, las teorías estructurales

Por lo general, no dicen nada sobre la forma paramétrica exacta de las relaciones o distribuciones funcionales.

Nuevamente, existe una oportunidad para la aplicación de métodos no paramétricos bayesianos a la

enfoque estructural también (Kalyanam y Shively 1998; Shively, Allenby y Kohn 1999).

En resumen, los métodos estadísticos bayesianos ofrecen un atractivo conjunto de herramientas para

investigadores en marketing. El enfoque bayesiano ofrece una visión integrada de la inferencia y

toma de decisiones que es aplicable tanto al análisis teórico como al aplicado. Además, el

La estructura de modelado jerárquico que se explota en los métodos de estimación MCMC es congruente.

con teorías del comportamiento y ofrece un medio para integrar información a través de múltiples datos

fuentes. Finalmente, las ventajas computacionales de los métodos bayesianos permiten el estudio de

datos dimensionales y relaciones complejas que son comunes en marketing. Alentamos

nuestros colegas y estudiantes para experimentar y aplicar métodos bayesianos.

45
Machine Translated by Google

Referencias técnicas

Barnard, John, Robert E. McCulloch y Xiao­Li Meng (2000), "Modelado de matrices de covarianza en términos de
desviaciones y correlaciones estándar, con aplicación a la contracción", Statistica Sinica, 10, 4.

Berry, Steven T. (1994), “Estimación de modelos de diferenciación de productos de elección discreta”,


Rand Journal of Economics 25, 242­262.

Efron, Brad y Carl Morris (1975), "Análisis de datos utilizando el estimador de Stein y su
Generalizaciones”, Revista de la Asociación Estadounidense de Estadística70, 311­319.

Gelfand, Alan E. y Adrian FM Smith (1990), “Enfoques basados en muestreo para


Calculating Marginal Densities”, Revista de la Asociación Estadounidense de Estadística, 87 (junio),
523­532.

Gilks, WR y P. Wild (1992), “Muestreo de rechazo adaptativo para muestreo de Gibbs”,


Estadística Aplicada 41, 337­348.

Heckman, James y Bernard Singer (1982) "Un método para minimizar el impacto de los supuestos distributivos en
modelos econométricos para datos de duración",
E conométrica, 52, 271­320.

Keane, Michael (1993), “Métodos de estimación de simulación para modelos de variables dependientes limitadas”,
en Handbook of Statistics, vol 11, GS Maddala, CR Rao y HD Vinod (eds), Ámsterdam: Holanda
Septentrional.

Lindley, Dennis V. (2000) "La filosofía de la estadística", The Statistician, 49, 3, 292­337.

McFadden, Daniel (2001), “Economic Choices”, American Economic Review 91, 351­370.

McCulloch, Robert, Nicholas Polson y Peter Rossi (2000), “Análisis bayesiano de la


Modelo probit multinomial con parámetros totalmente identificados", Journal of E conometrics 99, 173­193

Morris, Carl (1983), "Inferencia empírica paramétrica de Bayes: teoría y aplicaciones",


Revista de la Asociación Estadounidense de Estadística 78, 47­65.

Newton, Michael y Adrian E. Raftery (1994). Inferencia bayesiana aproximada mediante el bootstrap de probabilidad
ponderada (con discusión). Revista de la Royal Statistical Society, serie B, 56: 3­48.

Nobile, Augustino (1998), “Una cadena de Markov híbrida para el análisis bayesiano de la
Modelo probit multinomial”, Estadística e Informática, 8, 229 – 242.

Otter, Thomas y Syliva Fruthwirth­Schnatter (1999), “Estimación de modelos de clases latentes:


El problema del cambio de etiquetas, el muestreo MCMC de permutación y sus aplicaciones

46
Machine Translated by Google

Metric Conjoint Analysis”, documento de trabajo, Universidad de Economía y Administración de Empresas de Viena.

Sawtooth Software (2001), "Documento técnico de análisis de Bayes jerárquico de CBC", Serie de artículos técnicos de
Sawtooth Software, www.sawtoothsoftware.com.

Schwarz, Gideon (1978), “Estimación de la dimensión de un modelo”, The Annals of Statistics, 6,


461­464.

Tanner, Martin A. y Wing H. Wong (1987) "El cálculo de distribuciones posteriores mediante aumento de datos", Revista de la
Asociación Estadounidense de Estadística, 82, 528­550.

Tierney, Luke (1994) "Cadenas de Markov para explorar distribuciones posteriores", Anales de
Estadísticas, 23(4), 1701­1728

Yang, Sha y Greg M. Allenby (2002b), "Modelado de preferencias de consumidores interdependientes",


Universidad Estatal de Ohio, documento de trabajo.

47
Machine Translated by Google

Referencias comentadas de aplicaciones bayesianas en marketing

Ainslie, A. y Peter Rossi (1998), “Similitudes en el comportamiento de elección entre productos


Categorías”, Mark eting Science, 17, 91­106.

Se propone un modelo de elección de múltiples categorías en el que se supone que los coeficientes de
respuesta de los hogares dependen de cada categoría. La distribución estimada de la heterogeneidad revela
que el precio, la exhibición y la sensibilidad de las características no están determinados de manera única para
cada categoría, sino que pueden estar relacionados con factores específicos del hogar.

Allenby, Greg M., Robert P. Leone y Lichung Jen (1999), “Un modelo dinámico de
Momento de compra con aplicación al marketing directo”, Journal of the American
Asociación de Estadística, 94, 365­374.

Tiempos de compra entre clientes modelados con una distribución gamma generalizada heterogénea, donde la
distribución de la heterogeneidad es una mezcla finita de componentes gamma generalizados inversos. El
modelo permite la heterogeneidad estructural.
donde los clientes pueden volverse inactivos.

Allenby, Greg M., Neeraj Arora y James L. Ginter (1998), “Sobre la heterogeneidad de la demanda”, Journal of Mark eting
Research, 35, 384­389.

Un modelo de mezcla de componentes normal se compara con un modelo de mezcla finita utilizando datos
conjuntos y datos del panel del escáner. Los resultados predictivos proporcionan evidencia de que la distribución
de la heterogeneidad es continua, no discreta.

Allenby, Greg M., Lichung Jen y Robert P. Leone (1996), “Tendencias económicas y estar a la moda: la influencia de la
confianza del consumidor en las ventas minoristas de moda”, Journal of Business & E conomic Statistics, 14,
103­111.

Se utiliza un modelo de regresión con errores autorregresivos para estimar la influencia de la confianza del
consumidor en las ventas minoristas. Los datos se combinan entre las divisiones de un minorista de moda para
estimar un modelo en el que la influencia tiene un impacto diferencial en las ventas de pretemporada frente a
las de temporada.

Allenby, Greg M. y Peter J. Lenk (1995), "Reevaluación de la lealtad a la marca, la sensibilidad al precio y los efectos de
la comercialización en la elección de la marca del consumidor", Journal of Business &
Estadísticas económicas, 13, 281­289.

El modelo de regresión logística normal de Allenby y Lenk (1994) se utiliza para explorar el orden del proceso
de elección de marca y para estimar la magnitud del precio, la visualización y los efectos publicitarios en cuatro
conjuntos de datos de paneles de escáner. La evidencia indica que la elección de marca no es de orden cero y
los efectos de la comercialización son mucho mayores de lo que se pensaba anteriormente.

Allenby, Greg M. y James L. Ginter (1995), “Using Extremes to Design Products and Segment Markets”, Journal of Mark
eting Research, 32, 392­403.

48
Machine Translated by Google

Se utiliza un modelo heterogéneo de elección binaria de efectos aleatorios para estimar los valores parciales
conjuntos utilizando datos de una encuesta telefónica. Los coeficientes de nivel individual disponibles en
los modelos jerárquicos de Bayes se utilizan para explorar los extremos de la
Distribución de heterogeneidad, donde los encuestados tienen mayor y menor probabilidad de responder a las
ofertas de productos.

Allenby, Greg M., Neeraj Arora y James L. Ginter (1995), “Incorporación de


Conocimiento en el análisis de estudios conjuntos”, Journal of Mark eting Research, 32, 152­162.

La información previa original se incorpora a un análisis conjunto utilizando un algoritmo de muestreo de


rechazo. Las estimaciones del valor parcial resultantes tienen signos algebraicos sensibles que son
necesarios para derivar configuraciones óptimas del producto.

Allenby, Greg M. y Peter J. Lenk (1994), “Modelado del comportamiento de compra de los hogares con regresión
logística normal”, Journal of American Statistical Association, 89, 1218­1231.

Se desarrolla y aplica un modelo de elección discreta con errores autocorrelacionados y heterogeneidad


del consumidor al conjunto de datos del panel del escáner de compras de ketchup. Los resultados indican
una heterogeneidad sustancial no observada y una autocorrelación en las compras.
comportamiento.

Allenby, Greg M. (1990) "Prueba de hipótesis con datos de escáner: la ventaja del método bayesiano
Métodos", Revista de investigación de mercados, 27, 379­389.

Se desarrollan pruebas bayesianas para restricciones lineales en un modelo de regresión multivariante y se


comparan con los métodos clásicos.

Allenby, Greg M. (1990), "Validación cruzada, teorema de Bayes y sesgo de muestras pequeñas",
Revista de estadísticas económicas y empresariales, 8, 171­178.

Los métodos de validación cruzada que emplean aproximaciones de puntos de complemento a la


probabilidad promedio se comparan con los métodos bayesianos formales. Se ha demostrado que la
aproximación complementaria sobreestima la cantidad de evidencia estadística.

Andrés, Rick , Asim Ansari e Imran Currim (2002) “Bayes jerárquico versus modelos de análisis conjunto de
mezcla finita: una comparación de ajuste, predicción y recuperación de valor parcial”, Journal of Mark eting
Research, 87­98

Se utiliza un estudio de simulación para investigar el desempeño de distribuciones continuas y discretas de


heterogeneidad en un modelo de regresión. Los resultados indican que
Los métodos bayesianos son robustos a la verdadera distribución subyacente de la heterogeneidad, y los
modelos de heterogeneidad de mezcla finita funcionan bien para recuperar los parámetros verdaderos.
estimados.

Ansari, A., Skander Essegaier y Rajeev Kohli (2000), “Recomendación de Internet


Systems”, Journal of Mark eting Research, 37, 363­375.

49
Machine Translated by Google

Las especificaciones de efectos aleatorios para los encuestados y los estímulos se proponen dentro
de la misma especificación del modelo lineal. El modelo se utiliza para agrupar información de múltiples
fuentes de datos.

Ansari, A., Kamel Jedidi y Sharan Jagpal (2000), “Una metodología bayesiana jerárquica para tratar la
heterogeneidad en modelos de ecuaciones estructurales”, Mark eting Science, 19, 328­
347.

La heterogeneidad de la matriz de covarianza se introduce en un modelo de ecuación estructural, a


diferencia de los modelos estándar de marketing donde la heterogeneidad se introduce en la estructura
media de un modelo. Están documentados los efectos de sesgo de no tener en cuenta la
heterogeneidad de la covarianza.

Arora, N. y Greg M. Allenby (1999) “Medición de la influencia de las estructuras de preferencias individuales en
la toma de decisiones grupales”, Journal of Mark eting Research, 36, 476­487.

Las preferencias del grupo difieren de las preferencias de los individuos del grupo. La influencia del
grupo en la distribución de la heterogeneidad se examina utilizando
datos conjuntos sobre compras de bienes duraderos por parte del marido, de la mujer y de sus
evaluación.

Arora, N. y Greg M. Allenby y James L. Ginter (1998), “Un modelo jerárquico de Bayes de demanda primaria y
secundaria”, Mark eting Science, 17, 29­44.

Se utiliza una especificación de demanda económica discreta/continua para modelar datos conjuntos
volumétricos. La función de verosimilitud es estructural y refleja una maximización de utilidad restringida.

Blattberg, Robert C. y Edward I. George (1991), “Estimación de contracción de elasticidades de precio y


promoción: ecuaciones aparentemente no relacionadas”, Journal of the American
Asociación Estadística, 86, 304­315.

Los datos de ventas semanales de varios minoristas de una cadena se modelan utilizando un modelo
lineal con heterogeneidad. Se ha demostrado que las estimaciones de elasticidad de precio y
promoción han mejorado el rendimiento predictivo.

Boatwright, Peter, Robert McCulloch y Peter E. Rossi (1999), "Modelado a nivel de cuenta para la promoción
del comercio: una aplicación de un modelo jerárquico de parámetros restringidos", Revista de
la Asociación Estadounidense de Estadística , 94, 1063­1073.

Un problema común en el análisis de datos de ventas es que los coeficientes de precios a menudo se
estiman con signos algebraicos que son incompatibles con la teoría económica. Las restricciones
ordinales se introducen a través de prior para abordar este problema, lo que lleva a una distribución
truncada de la heterogeneidad.

Bradlow, Eric T. y David Schmittlein (1999), “Los pequeños motores que podrían: modelar el rendimiento de los
motores de búsqueda en la World Wide Web”, Mark eting Science 19, 43­62.

50
Machine Translated by Google

Se desarrolla un modelo de proximidad para el análisis del desempeño de los motores de búsqueda de
Internet. La función de probabilidad refleja la distancia entre el motor y
URL específicas, con la ubicación media de las URL parametrizada con un modelo lineal.

Bradlow, Eric T. y Peter S. Fader (2001), “Un modelo bayesiano de por vida para los “Hot 100”
Billboard Songs”, Revista de la Asociación Estadounidense de Estadística, 96, 368­381.

Se desarrolla un modelo de series de tiempo para datos clasificados utilizando un modelo de variable latente.
La porción determinista de la variable latente sigue un patrón temporal descrito por una distribución gamma
generalizada, y la porción estocástica es un valor extremo.

Bradlow, Eric T. y Vithala R. Rao (2000), “Un modelo jerárquico de Bayes para la elección de surtido”, Journal of Mark
eting Research, 37, 259­268.

Se incorpora una medida estadística del surtido de atributos en un modelo de utilidad aleatoria para medir la
preferencia del consumidor por el surtido más allá de los efectos de los propios niveles de atributos. El
modelo se aplica a la elección entre paquetes
ofrendas.

Chaing, Jeongwen, Siddartha Chib y Chakrvarthi Narasimhan (1999), “Markov Chain Monte Carol and Models of
Consideration Set and Parameter Heterogeneity”, Journal of E conometrics 89, 223­248.

Los conjuntos de consideración se enumeran y modelan con un a priori de Dirichlet en un modelo de


elección. Se introduce una variable de estado latente para indicar el conjunto de consideración,
resultando en un modelo de heterogeneidad estructural.

Chang, K., S. Siddarth y Charles B. Weinberg (1999), "El impacto de la heterogeneidad en el momento de las compras
y la capacidad de respuesta de los precios en las estimaciones de los efectos del impacto en las etiquetas",
Marketing Science, 18, 178­192.

Se examina un modelo de utilidad aleatorio con precios de referencia con y sin


asignación por heterogeneidad del hogar. Cuando hay heterogeneidad en el modelo, se estima que el
coeficiente del precio de referencia es cercano a cero.

DeSarbo, Wayne, Youngchan Kim y Duncan Fong (1999), “Un procedimiento de escalamiento multidimensional
bayesiano para el análisis espacial de datos de elección revelada”, Journal of E conometrics 89, 79­108.

La parte determinista de un modelo de variable latente se especifica como un producto escalar de las
coordenadas del consumidor y la marca para producir una representación espacial de los datos de elección
revelados. El modelo proporciona una representación gráfica de la estructura del mercado de ofertas de
productos.

Edwards, Yancy y Greg M. Allenby (2002) "Análisis multivariado de respuestas múltiples


Data", Journal of Mark eting Research, en revisión.

51
Machine Translated by Google

Los datos Pick any/J se modelan con un modelo probit multivariado, lo que permite
Técnicas multivariadas que se aplicarán al parámetro de la normal latente.
distribución. Las restricciones de identificación para el modelo se imponen mediante el posprocesamiento de los
sorteos de la cadena de Markov.

Huber, J. y Kenneth Train (2001), “Sobre la similitud de las estimaciones clásicas y bayesianas de los valores parciales
medios individuales”, Mark eting Letters, 12, 259­269.

Se ha descubierto que los métodos de estimación clásicos y bayesianos producen estimaciones similares a nivel
individual. Los métodos clásicos condicionan los hiperparámetros estimados, mientras que los métodos bayesianos
tienen en cuenta su incertidumbre.

Kalyanam, K. y Thomas S. Shiveley (1998), “Estimación de los efectos de los precios irregulares: un enfoque de regresión
spline estocástica”, Journal of Mark eting Research, 35, 16­29.

Los splines estocásticos se utilizan para modelar la relación entre precio y ventas,
lo que resulta en una especificación más flexible de la función de probabilidad.

Kalyanam, K. (1996), “Decisión de fijación de precios bajo incertidumbre de la demanda: una mezcla bayesiana
Enfoque modelo”, Mark eting Science, 15, 207­221.

La incertidumbre del modelo se captura en las predicciones del modelo tomando un promedio ponderado donde
las ponderaciones corresponden a la probabilidad posterior del modelo. Se ha demostrado que las decisiones de
fijación de precios son más sólidas.

Kamakura, Wagner A. y Michel Wedel (1997), “Statistical Data Fusion for Cross­Tabulation”, Journal of Mark eting Research,
34, 485­498.

Se proponen métodos de imputación para analizar datos tabulados cruzados con celdas vacías. La imputación
se realiza de manera iterativa para explorar la distribución de las respuestas faltantes.

Kim, Jaehwan, Greg M. Allenby y Peter E. Rossi (2002), "Modelado de la demanda del consumidor
for Variety", Marketing Science, de próxima publicación.

Un modelo de elección con soluciones interiores y de esquina se deriva de una función de utilidad con utilidad
marginal decreciente. Las condiciones de Kuhn­Tucker se utilizan para relacionar los datos observados con la
maximización de la utilidad en la especificación de probabilidad.

Leichty, John, Venkatram Ramaswamy y Steven H. Cohen (2001), “Menús de elección para la personalización masiva”,
Journal of Mark eting Research 38, 183­196.

Se utiliza un modelo probit multivariado para modelar datos conjuntos donde los encuestados pueden seleccionar
varios elementos de un menú. Los datos binomiales observados se modelan con una distribución normal
multivariada latente.

Lenk, Peter y Ambar Rao (1990), “Nuevos modelos a partir de los antiguos: previsión de la adopción de productos mediante
procedimientos jerárquicos de Bayes”, Mark eting Science 9, 42­53.

52
Machine Translated by Google

La función de probabilidad no lineal del modelo de Bass se combina con una especificación de efectos
aleatorios en la introducción de nuevos productos. Se ha demostrado que la distribución resultante de la
heterogeneidad mejora las predicciones tempranas de la introducción de nuevos productos.

Lenk, Peter J., Wayne S. DeSarbo, Paul E. Green y Martin R. Young, (1996), “Análisis conjunto jerárquico de Bayes:
recuperación de la heterogeneidad de Partworth a partir de una reducción
Diseños experimentales”, Mark eting Science, 15, 173­191.

Los diseños conjuntos fraccionados se utilizan para evaluar la capacidad de la distribución de


heterogeneidad para "unir" análisis conjuntos entre encuestados para imputar valores parciales a atributos
no examinados.

Manchanda, P., Asim Ansari y Sunil Gupta (1999), “La “cesta de compras”: un modelo para decisiones de incidencia
de compras multicategorías”, Mark eting Science, 18, 95­114.

Los datos de demanda de múltiples categorías se modelan con un modelo probit multivariado.
La identificación de restricciones en la matriz de covarianza del error latente requiere el uso de un algoritmo
de Metropolis­Hastings modificado.

Marshall, P. y Eric T. Bradlow (2002), “Un enfoque unificado para el análisis conjunto
Models”, Revista de la Asociación Estadounidense de Estadística, de próxima publicación.

Se proponen varios mecanismos de censura para relacionar datos de intervalo observado, ordinales y
nominales con un modelo conjunto lineal latente.

McCulloch, Robert E. y Peter E. Rossi (1994) "An Exact Likelihood Analysis of the Multinomial Probit Model", Journal
of E conometrics, 64, 217­228

El modelo probit multinomial se estima mediante métodos de aumento de datos.


Se discuten enfoques para manejar la identificación del modelo de identificación.

Montgomery, Alan L. y Eric T. Bradlow (1999), “Por qué el exceso de confianza de los analistas en la forma funcional
de los modelos de demanda puede conducir a sobreprecios”, Mark eting Science, 18, 569­583.

La especificación de una forma de función implica imponer restricciones exactas en una


análisis. Las restricciones estocásticas se introducen a través de una especificación del modelo más
flexible y una distribución previa, lo que resulta en implicaciones políticas menos agresivas.

Montgomery, Alan L. y Peter E. Rossi (1999), “Estimating Price Elasticities with Theory­Based Priors”, Journal of
Mark eting Research, 36, 413­423.

La distribución previa se utiliza para imponer estocásticamente restricciones a los parámetros de elasticidad
de los precios que sean consistentes con la teoría económica. Este enfoque propuesto se compara con
estimadores de contracción estándar que emplean la distribución de
heterogeneidad.

53
Machine Translated by Google

Neelamegham, R. y Pradeep Chintagunta (1999), “Un modelo bayesiano para pronosticar el desempeño de nuevos
productos en los mercados nacionales e internacionales”, Mark eting Science, 18, 115­136.

Se exploran conjuntos de información alternativos para hacer pronósticos de nuevos productos en


mercados nacionales e internacionales utilizando un modelo de Poisson para la asistencia con
heterogeneidad logarítmica normal.

Otter, Thomas, Sylvia Frühwirth­Schnatter y Regina Tüchler (2002) "No observado


Preference Changes in Conjoint Analysis", Universidad de Economía y Administración de Empresas de
Viena, documento de trabajo.

La heterogeneidad estructural se introduce en la función de probabilidad de un modelo conjunto que puede


reflejar la fatiga de los encuestados. Se supone que los datos de un encuestado son una mezcla de
probabilidades, siendo el punto de transición heterogéneo entre los encuestados.

Putler, Daniel S. Kirthi Kalyanam y James S. Hodges (1996), "Un enfoque bayesiano para estimar el potencial del
mercado objetivo con información geodemográfica limitada",
Journal of Mark eting Research, 33, 134­149.

La información previa sobre la correlación entre variables se combina con datos sobre la distribución
marginal para producir una distribución posterior conjunta.

Rossi, Peter E., Zvi Gilula, Greg M. Allenby (2001), “Superando el uso de escala
Heterogeneidad: un enfoque jerárquico bayesiano”, Revista de la Asociación Estadounidense de
Estadística, 96, 20­31.

Se supone que los datos de respuesta de los consumidores en una escala de calificación de puntos fijos
son resultados censurados de una distribución normal latente. La variación en los límites de censura entre
los encuestados permite una heterogeneidad en el uso de la escala.

Rossi, Peter E., Robert E. McColloch y Greg M. Allenby (1996), “El valor de los datos del historial de compras en el
marketing objetivo”, Mark eting Science, 15, 321­340.

El contenido de información de fuentes de datos alternativas se evalúa utilizando una función de pérdida
económica de rentabilidad del cupón. Se ha demostrado que el valor del historial de compras de un hogar
es grande en relación con la información demográfica y otros conjuntos de información.

Rossi, Peter E. y Greg M. Allenby (1993), "Un enfoque bayesiano para estimar
Parámetros del hogar”, Journal of the Mark eting Research, 30, 171­182.

Los parámetros a nivel individual se obtienen con el uso de una distribución previa informativa, pero
relativamente difusa. Se proponen métodos para evaluar y especificar la cantidad de información previa.

Sandor, Zsolt y Michel Wedel (2001), “Diseño de experimentos de elección conjunta utilizando las creencias previas
de los gerentes”, Journal of Mark eting Research 28, 430­444.

54
Machine Translated by Google

La información de un experimento que involucra modelos de elección discreta depende del diseño
experimental y de los valores de los parámetros del modelo. Los diseños óptimos se determinan con una
medida de información que depende de la evaluación previa.
distribución.

Seetharaman, PB, Andrew Ainslie y Pradeep Chintagunta (1999), “Investigando


Efectos de la dependencia del Estado en los hogares en todas las categorías”, Journal of Marketing
Investigación 36, 488­500.

Se utilizan múltiples conjuntos de datos de paneles de escáner para estimar un modelo de elección de marca
con dependencia del estado. Las estimaciones a nivel individual de los efectos de la dependencia del Estado son
examinados entre categorías.

Shively, Thomas A., Greg M. Allenby y Robert Kohn (2000), "Un análisis no paramétrico
Enfoque para identificar relaciones latentes en modelos jerárquicos”, Mark eting Science, 19, 149­162.

Los splines estocásticos se utilizan para explorar la especificación de covariables en la distribución de


heterogeneidad. Se proporciona evidencia de relaciones altamente no lineales.

Steenburgh, Thomas J., Andrew Ainslie y Peder H. Engebretson (2002), “Massively Categorical Variables: Revealing
the Information in Zipcodes”, Mark eting Science, de próxima publicación.

Los efectos asociados con variables masivamente categóricas, como los códigos postales, se modelan en
una especificación de efectos aleatorios. Se examinan funciones de pérdida alternativas para evaluar el valor
de las estimaciones de contracción resultantes.

Talukdar, Debobrata, K. Sudhir y Andrew Ainslie (2002), “Invertir nueva producción


Difusión entre productos y países”, Mark eting Science 21, 97­116.

El modelo de difusión de Bass se combina con una especificación de efectos aleatorios para los coeficientes
de innovación, imitación y potencial de mercado. Los efectos aleatorios
El modelo incluye covariables macroeconómicas que tienen un gran poder explicativo.
en relación con la heterogeneidad no observada.

Ter Hofstede, Frenkel, Michel Wedel y Jan­Benedict EM Steenkamp (2002), "Identificación de segmentos espaciales en
mercados internacionales", Marketing Science, 21, 160­177.

La distribución de la heterogeneidad en un modelo de regresión lineal se especifica como un campo


guassiano condicional para reflejar asociaciones espaciales. La heterogeneidad
La especificación evita la suposición de que los efectos aleatorios son globalmente
independiente.

Ter Hofstede, Frenkel, Youingchan Kim y Michel Wedel (2002), "Predicción bayesiana en
Análisis conjunto híbrido", Journal of Marketing Research, 34, 253­261.

55
Machine Translated by Google

Las evaluaciones de perfil e importancia a nivel de atributo del autoestado se modelan como conjuntos
resultados de un conjunto común de valores parciales. Las probabilidades del conjunto de datos difieren e
incluyen otros parámetros incidentales que facilitan la integración de información para producir estimaciones
mejoradas.

Wedel, M. y Rik Pieters (2000), “Fijaciones oculares en anuncios y memoria para


Marcas: un modelo y hallazgos”, Mark eting Science, 19, 297­312.

Se utiliza un modelo multinivel de respuesta de atención y memoria para investigar el efecto de los
atributos de marca, gráficos y de texto de los anuncios impresos. La información de los datos se integra a
través de una especificación de probabilidad de múltiples capas.

Yang, S. y Greg M. Allenby (2000), “Un modelo de observación, heterogeneidad estructural y doméstica en datos de
panel”, Marketing L etters, 11, 137­149.

La heterogeneidad estructural se especifica como una mezcla finita de probabilidades no anidadas, y las
covariables se asocian con las masas puntuales de la mezcla.

Yang, Sha, Greg M. Allenby y Geraldine Fennell (2002a), “Modelado de la variación en la preferencia de marca: las
funciones del entorno objetivo y las condiciones motivadoras”,
Mercadotecnia Ciencia 21, 14­31.

La variación intraindividual en la preferencia de marca está documentada y asociada con la variación en


el contexto de consumo y las motivaciones para utilizar la oferta. La unidad de análisis se muestra a nivel
de persona­ocasión, no de la persona.

56

También podría gustarte