0% encontró este documento útil (0 votos)
44 vistas16 páginas

Repaso de Estadística Aplicada en Decisiones

jjsj

Cargado por

Diana Paredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
44 vistas16 páginas

Repaso de Estadística Aplicada en Decisiones

jjsj

Cargado por

Diana Paredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Repaso final de módulo

I. Resumen de módulo

II. Caso práctico de repaso con solución

III. Enlaces de interés

IV. Lecturas recomendadas

V. Bibliografía
Lección 1 de 5

I. Resumen de módulo

Repasa los conocimientos adquiridos en este módulo

Para seguir siendo competitivas en el mercado, las empresas deben estar preparadas para la acertada
toma de decisiones, fundamentadas en investigaciones de mercado debidamente estructuradas y
analizadas.
La estadística aplicada constituye una herramienta de gran valor para los principales ejecutivos de una
empresa, pues pueden utilizarla como un recurso para la toma de decisiones en sus estrategias.

Las variables estadísticas recogen las características de los individuos del estudio que se esté
realizando. Las variables pueden clasificarse en función de su escala de medida en cuantitativas o
categóricas.

Para describir las variables categóricas, se utilizarán tablas de frecuencias y los diagramas de barras y
sectores.

Los estadísticos descriptivos utilizados para las variables cuantitativas dependerán de su distribución:
si la variable tiene una distribución simétrica, se calcularán la media y la desviación estándar, y si es
asimétrica, se utilizarán la mediana y el rango intercuartílico.

Para evaluar la simetría, se utilizarán diagramas de cajas e histogramas.

El uso de estos métodos de muestreo, como su propio nombre indica, ayuda a obtener información fiable
de la población a partir de una muestra de la que extraer inferencias estadísticas con un margen de error
medido en términos de probabilidades. En otras palabras, en una investigación por muestreo se podrá
estudiar el comportamiento y las opiniones de toda una población, analizando únicamente una parte de
esta y teniendo en cuenta que siempre existirá un margen de error a la hora de realizar dichos cálculos.
Una forma de definir la probabilidad es a través de la noción de frecuencia relativa que se presenta en la
unidad anterior.

Según la regla de Laplace, la probabilidad se define como el cociente entre el número de casos
favorables y el de todos los posibles resultados del experimento.

En este módulo también se ha aprendido la fórmula de la probabilidad total que sirve para calcular la
probabilidad de un suceso cuando solo se conocen las probabilidades de un determinado suceso en
cada una de las partes de un sistema completo.

También se ha aprendido el teorema de Bayes, que sirve para calcular la probabilidad de un evento
condicionado a la ocurrencia de otro.

La mayoría de los fenómenos de la naturaleza siguen exacta o aproximadamente una serie de


distribuciones de probabilidad teóricas bien definidas. La distribución más importante en la estadística
es la distribución normal o campana de Gauss. Está determinada por dos parámetros:

La media (μ).

La desviación estándar (σ).

Tiene forma de campana y es simétrica respecto a su media. Una vez caracterizada la distribución de
una variable, se pueden calcular probabilidades asociadas a la ocurrencia de la variable. La distribución
normal permitirá calcular intervalos de confianza y realizar contrastes de hipótesis sobre la proporción de
una población.
La distribución binomial emerge si el interés se centra en determinar el número (o proporción) de
individuos que verifican una cierta característica dicotómica. Es probable que cada individuo verifique la
característica igual para todos los individuos.

Y la distribución de Poisson es apropiada para describir el número de ocurrencias de un evento durante


un período de tiempo, siempre y cuando los eventos ocurran independientemente unos de otros y de
forma aleatoria.

El principal objetivo de la inferencia es utilizar la información de la muestra para sacar conclusiones


acerca de la población de estudio.

Hay dos herramientas que nos permiten obtener conclusiones sobre la población a estudio a partir de la
información proporcionada por los datos de la muestra: los intervalos de confianza y los contrastes de
hipótesis.

Intervalo de confianza: rango de valores entre los cuales se sabe con seguridad que se encuentra un
parámetro de la población con cierto nivel de confianza prefijado.

Contraste de hipótesis: procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un
parámetro de la población cierto nivel de confianza prefijado.

El test A/B básicamente es una metodología de comparación de múltiples versiones de una determinada
test / bás ca e te es u a etodo og a de co pa ac ó de ú t p es e s o es de u a dete ada
variable, una landing page, un determinado botón, etc., que muestre las diferentes versiones a los
clientes o posibles clientes y evalúe la calidad de la interacción mediante alguna métrica. Cada vez que
se quieran probar múltiples variaciones de un determinado output y realizar experimentos, el Test A/B es
una opción muy interesante.

La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para análisis más
complejos. Mediante dicha técnica, se trata de determinar relaciones de dependencia de tipo lineal entre
una variable dependiente cuantitativa respecto de una o varias variables explicativas/independientes que
pueden ser de tipo cuantitativo o categórico.

Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal
que existe entre dos variables. A la recta que minimiza la suma de los residuos al cuadrado (diferencia
entre el valor real y el predicho por la recta) se le denomina recta de regresión.

El modelo de regresión lineal simple se describe de acuerdo con la ecuación que muestra la imagen;
siendo α la constante o intercepto, β la pendiente y e el error aleatorio.
El diseño de experimentos consiste en modelos estadísticos clásicos, que sirve para diseñar las
condiciones ideales de un producto, proceso o servicio para que cumpla con las expectativas usando el
mínimo número de experimentos o pruebas. En otras palabras: el objetivo es averiguar si unos
determinados factores influyen en una variable de interés y, si existe influencia de algún factor,
cuantificar dicha influencia.
Lección 2 de 5

II. Caso práctico de repaso con solución

Aplica los conocimientos adquiridos en esta unidad

ENUNCIADO

Aplíquese lo aprendido en el módulo a un conjunto de datos del mundo real: big data en campañas de
email marketing para mejorar los resultados.
DATOS

El asunto en el email debe transmitir un mensaje que logre captar la atención de los usuarios y que no
vaya a spam, con el objetivo de mejorar las tasas de apertura. Al analizar el big data, el machine learning
se puede utilizar para determinar las características de las líneas de asunto que han resultado en tasas
de apertura más altas.

Se analiza la ubicación de keywords (palabras clave), el número de palabras y la longitud de ellas, así
como detalles sobre la eficacia del nombre del cliente dentro de la línea de asunto. Con esta táctica, se
pueden descubrir las características óptimas que deben llevar las líneas de asunto, lo que hará que los
suscriptores abran sus emails con la tasa más alta.

SE PIDE

El director de marketing de la empresa quiere realizar un mailing a los clientes, pero no quiere que llegue
al correo spam; por ello, pregunta qué características tienen los correos electrónicos que están
asociados con el spam y si es posible realizar un modelo de regresión que clasifique si es spam o no.

El dataset utilizado dispone de un registro que contiene cientos de emails con información de cada uno
de ellos. El objetivo de estudio es intentar crear un modelo que permita filtrar qué emails son spam y
cuáles no, en función de determinadas características. Es un ejemplo extraído del libro OpenIntro
Statistics.

El dataset viene precargado en la librería “library(openintro)” y se carga de la siguiente manera:


“data(email)”.
Video_tutorial_paquetes_automaticos_R.zip
4.7 KB

VER SOLUCIÓN

SOLUCIÓN

La solución de este caso práctico se encuentra en el archivo que puedes descargar a continuación.

Caso repaso modulo.zip


3.1 KB
Lección 3 de 5

III. Enlaces de interés

“Estadística de proveedores de so ware de gestión ERP”. Website de la compañía So Doit.

ABIR ENLACE

Molina, L. Data mining: torturando a los datos hasta que confiesen. Ed. History; 2002.

ABIR ENLACE

Klein, C. Tips for A/B testing with R.

ABIR ENLACE

Amat, J. Website apuntes estadística con R.

ABIR ENLACE

R-Bloggers

ABIR ENLACE
Analyticsvidhya

ABRIR ENLACE

Kdnuggets

ABRIR ENLACE
Lección 4 de 5

IV. Lecturas recomendadas

Casas, J. M. Ejercicios de inferencia estadística y muestreo para economía y administración de


empresas. Ediciones Pirámide; 2016.

Peña, D. Fundamentos de estadística. Alianza Editorial; 2014.


Lección 5 de 5

V. Bibliografía

Box, G. E.; Hunter, J. S.; Hunter, W. G. Estadística para investigadores. Diseño, innovación y
descubrimiento. Segunda edición. Ed. Reverté; 2008.

Cirillo A. R. Data mining. Implement data mining techniques through practical use cases and
real world datasets. Ed. Packt Publishing; 2017.

Freund, J. E.; Miller, I.; Miller, M. Probabilidad y estadística para ingenieros. Ed. Prentice-Hall;
1992.

Gutiérrez, H.; De la Vara, R. Análisis y diseño de experimentos. México: ed. McGraw-Hill; 2003.

Kleiber, C; Zeileis, A. Applied econometrics with R. Nueva York: ed. Springer; 2008.

Levin, R. I.; Rubin, D. S.; Balderas, M.; Del Valle, J. C.; Gómez, R. Estadística para administración
y economía. Ed. Perason Educación; 1998.

Little, R. J. A.; Rubin, D. Statistical analysis with missing data. New York: ed. Wiley;. 1987.

Molina, L. Data mining: torturando a los datos hasta que confiesen. Ed. History; 2002.

Otzen, T.; Manterola, O. “Técnicas de muestreo sobre una población a estudio”. International
journal of morphology. 35(1):227-232, 2017.

Peña, D. Regresión y diseño de experimentos. Ed. Alianza; 2002.

Peña, D.; Romo, J. Introducción a la estadística para las Ciencias Sociales. Ed. McGraw Hill;
2003.
Quintela del Río, A. Estadística básica edulcorada.

Ruiz, D. Manual de estadística. Eumed·net.

Sánchez, J. J. Manual de análisis de datos. Madrid: Alianza Universidad; 1995.

Gómez, K. A.; Gómez, A. A. Statistical Procedures for Agricultural Research. EE. UU.: John Wiley
& Sons; 1984; pp. 22-30.

SoftDoit. “Estadística de proveedores de software de gestión ERP”.

UCLA. How does R handle missing values? Institute for digital research and education; 2012.

Unión de estudiantes de Ciencias Económicas. Ejercicios resueltos de Estadística I; 2010.

Zimmermann, F. Estadística para investigadores. Ed. Escuela Colombiana de Ingeniería; 2004.

También podría gustarte