Business • Profesor: Gerzo Gallardo M.
• LinkedIn: https://www.linkedin.com/in/gerzogallardo/
Analytics • e-mail: [email protected]
[email protected]
linkedin.com/in/gerzogallardo/
Data Science Certificate MIT Profesor visitante para el Consultor Internacional para el Socio y Fundador del Data Science
Executive Máster in Business Fondo Monetario Institute, empresa que se dedica a la
Analytics en las cátedras de formación integral en Analytics y
Magister en Métodos Internacional, Banco Visualización. Vectux y Nala empresas
Predictive Analytics, Marketing Interamericano de Desarrollo
Estadísticos de la Pontifica, de Consultoria en Advance Analytics
Analytics y Customer Relationship
Universidad Católica de Chile. para los gobiernos de Panamá,
Management para INCAE.
Jamaica y Chile, desarrollando Mentor y consultor de advance
analytics & visualización efectiva en
Estudios de Doctorado en mediciones aplicadas a la
Profesor especializado en Start Up Chile, Cornershop, GroupOn y
Economía y Finanzas en la Analitycs y Visualización para el
contingencia económica de Miora
Universidad de la Rioja España. programa de Business Intelligence cada país.
para INCAE. Miembro de los equipos premiados en
Diplomado en Análisis aplicaciones de Analytics & Big Data
Financiero Avanzado y Gestión Ex-Subdirector Técnico del en Latinoamérica por Microsoft.
Financiera de la Pontifica, Instituto Nacional de
Universidad Católica de Chile. Estadística de Chile
.
Ingeniero Comercial con Coordinador de modelamiento
especialización en Marketing, avanzado y regional manager Analytics & Big Data
Partner of the Year
de la Universidad Central de en MetricArts. Latam y Caribe
Chile.
Financial Services
SIN ANALYTICS
USD$ 29
USD$ 16
USD$ 22
USD$ 100
¿Sin Analytics o Desconectados con los usuarios?
CON ANALYTICS
Como entregaran créditos las entidades financieras
Gobierno Chino – APP COVID con Analytics
Danairat Thanabodithammachari, SAP Digital Transformation
Business Analytics
Business Analytics, es el uso sistemático de datos, tecnología de
información, análisis estadístico, métodos cuantitativos, visualización
efectiva y modelos matemáticos, que nos ayudan a tener una mayor
perspectiva del quehacer, y tomar decisiones basadas en hechos.
¿Qué responde?
Business Intelligence Business Analytics
• ¿Qué ha pasado? • ¿Por qué ocurrió?
• ¿Sucederá de nuevo?
• ¿Cuándo?
• ¿Qué pasaría si cambiamos un factor?
• ¿Quién?
• ¿Qué más dicen los datos sobre aspectos
• ¿Cuántos? sobre los cuales no se nos ocurrió
preguntar?
¿Qué incluyen?
Business Intelligence Business Analytics
• Data Warehousing • Análisis estadístico y
• Queris Ad-Hoc
cuantitativo
• OLAP
• Data Mining
• Reporting (KPIs, métricas)
• Dashboards y Scorecards • Modelamiento predictivo
La evolución de los temas analíticos
¿Cómo podemos hacer
Para que estos suceda?
Prescriptive
Analytics
¿Qué pasará?
Predictive
¿Por qué sucedió? Analytics
Diagnostic
¿Qué Pasó? Analytics
Valor
Descriptive
Analytics
Fuente: Gartner Business Intelligence & Analytics Summit 2013 Dificultad
Exploratory Data Analysis (EDA)
Es la técnica que consiste en el estudio de los
hechos y el uso de sus expresiones en cifras para
lograr información valida y confiable.
Analytics es un lenguaje, una forma de
expresarnos con datos, por lo tanto, debemos
cuidar la forma en como nos expresamos.
Clasificación de las Variables
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
Continua Discreta Nominal Ordinal
Toma valores enteros Característica o cualidad cuyas
Toma cualquier valor dentro de un Ejempl Número de Hi , Característica o cualidad cuyas preestablecido.
categorías tienen un orden
intervalo Número deos: empleados de una
jos categorías no tienen un orden Ejempl : Calificación (S, N, A);
Ejempl Peso;
os: Estatura; empre Número de preestablecido.
sa, os: to os
Temperatura, etc. asignaturas aprobadas enre
un Ejempl Sexo, Deporte Favori ,
semest , etc. etc. Grado de Interés por un tema, etc.
Medidas de Tendencia Central
Medidas de
Tendencia Central
y Posición
Las Medidas de
La Medidas de Tendencia Central
Tendencia Central o Posición
La Media La Mediana La Moda Cuartiles
La Media Deciles
Aritmética
La Media
Aritmética Percentiles
Ponderada
La Media
Geométrica
La Media
Armónica
Media, Mediana y Moda
Ejemplo, si registramos la siguientes lista de números:
3,5,5,6,8,10,12
Media Mediana Moda
• El promedio de los
• El número que • El número que
números
divide a la lista de aparece con mayor
• Suma los números
dos partes iguales frecuencia
• Divide entre la
cantidad de números (50/50) • Halla el número que
en el conjunto • Coloca los números se repite más en el
• 3+5+5+6+8+10+12 en orden de valor y conjunto de datos
encuentra el número (pueden haber más
• 49/7 = 7 medio que un solo número)
• Si hay dos números • Hay dos 5s y uno de
en el medio, la cada otro número
median es la media
de los números 5,5,6,8,10,12
• 3,
6,8,10,12
• 3,5,5,
La Media
• La media aritmética es la suma de todos los datos dividida entre el
número total de datos
𝑛
σ𝑖=0 𝑥𝑖
𝑥ҧ =
𝑛
• La media aritmética (a partir de ahora, simplemente el promedio) es la
medida de tendencia central más utilizada. Y una medida de tendencia
central es aquella que nos informa sobre cuál es el centro de la
• distribución.
El promedio registra un sesgo hacia los valores extremos de la distribución.
La Mediana
• En el ámbito de la estadística, la mediana (del latín mediānus 'del
medio') representa el valor de la variable de posición central en un
conjunto de datos ordenados
La Moda
• La moda es el dato más repetido de la encuesta, el valor de la variable
con mayor frecuencia absoluta.
Cuartiles, Deciles y Percentiles
Sea la variable estadística “nº de hijos”. Los
datos de 30 familias son los siguientes:
1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4
Datos ordenados:
0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5 8 10
Q1 Q2 Q3 Q4
0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5 8 10
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5 8 10
P3 P6 P50 P100
𝑘∗𝑁 𝑘∗𝑁 𝑘∗𝑁
𝑄𝑘 = 𝐷𝑘 = 𝑃𝑘 =
4 10 100
Medidas de Dispersión
Medidas de Dispersión
(Variación con
respecto al promedio)
Rango o Recorridp Varianza
Diferencia entre: Desviación de datos
Desviación Estándar
Limite S – Limite Inf. respecto a la media
Coeficiente de
Variación
Promedio
1 2 3 4 5 6
1+2+6
Promedio = = 3
3
Pared
Varianza
1 0 1
12 + 02 + 12 2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 0.667
3 3
5 0 5
52 + 02 + 52 50
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 16.667
3 3
Varianza
La varianza intenta describir la dispersión de los datos. Se define como
la esperanza del cuadrado de la desviación de dicha variable respecto a
su media. Una varianza pequeña indica que los puntos de datos
tienden a estar muy cerca de la media y por lo tanto el uno al otro,
mientras que una varianza alta indica que los puntos de datos están
muy distribuidos alrededor de la media y la una de la otra.
Desviación Estándar
El desvío estándar o desviación típica es una medida que se utiliza para
cuantificar la cantidad de variación o dispersión de un conjunto de
valores de datos. Un desvío estándar cerca de 0 indica que los puntos
de datos tienden a estar muy cerca de la media del conjunto, mientras
que un alto desvío estándar indica que los puntos de datos se
extienden a lo largo de un rango amplio de valores.
Desviación Estándar
1 0 1
12 + 02 + 12 2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 0.667 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟 = 0.667 = 0.817
3 3
5 0 5
52 + 02 + 52 50 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟 = 16.667 = 4.082
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 16.667
3 3
Coeficiente de Variación
El coeficiente de variación, también denominado como coeficiente de
variación de Spearman, es una medida estadística que nos informa
acerca de la dispersión relativa de un conjunto de datos. Su cálculo se
obtiene de dividir la desviación típica entre el valor absoluto de la
media del conjunto y por lo general se expresa en porcentaje para su
mejor comprensión.
• Mientras mas cercano a cero (0%), el Promedio tendrá mayor grado de
Representatividad en dicha muestra.
• Mientras mas cercano a uno (100%), el Promedio tendrá menor
representatividad.
Bandas de confianza – Regla Empírica
Cuando los datos tienen una distribución en normal:
• Cerca del 68% de los valores de los datos se encontrarán a no más de una desviación estándar desde la media.
• Aproximadamente 95% de los valores de los datos se encontrarán a no más de dos desviaciones estándar desde la
media.
• Casi todos los valores de los datos estarán a no mas de tres desviaciones estándar de la media.
Cuartiles – Diagrama de Caja
Explicación Diagrama de Cajas
Sea la variable estadística “nº de hijos”. Los
mín = 0 datos de 30 familias son los siguientes:
máx = 10 1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4
Q1 = 1
Q3 = 3
Me = 2 Datos ordenados:
f1 = -2 00000011111111222223333444458 10
f2 = 6
F1 = -5
F2 = 9
Vai = 0
Vas = 5 5
0 1 2 3 4 6 7 8 9 10
Valores anómalos = 8, 10
* o
Missing Value (Datos Faltantes)
• Una parte importante en la limpieza y procesamiento de los datos
que usaremos para hacer nuestros análisis, consiste en detectar si hay
datos faltantes y si éstos faltan al azar o siguen un patrón
determinado.
Outlier
Para el caso de los Ingresos de nuestro Data. Set, existe algunos clientes con ingresos fuera de rango.
Business Case – Banco de Inversión
Un banco de inversiones tiene la intención de realizar un
análisis de la cartera de clientes con la que cuenta,
conocer la tenencia de productos de sus clientes, el rango
de saldos y márgenes que les esta dejando sus clientes.
Para lo anterior nos a dado acceso a su modelo de datos
bancario con la información de sus clientes y productos.
EDA con Power BI
https://app.powerbi.com/view?r=eyJrIjoiMTkyNDYwNGYtZjdiYS00M2JhLWExZTItYzM1NTdiODc1ODcxIiwidCI6IjNmMTNmM2FmLThlN2EtNDE3Yi05ZTdkLWY4YjlhMjBiYzFkMiIsImMiOjJ9
Box Plot
Diagrama de Dispersión
Business Case - Campaña de Marketing Directo
El objetivo es realizar un análisis de los clientes y
la efectividad de las acciones de Marketing
Directo que esta realizando el Banco de Portugal.
# bank client data:
1 - age (numeric)
2 - job : type of job (categorical: "admin.","unknown","unemployed","management","housemaid","entrepreneur","student", "blue-collar","self-
employed","retired","technician","services")
3 - marital : marital status (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed)
4 - education (categorical: "unknown","secondary","primary","tertiary")
5 - default: has credit in default? (binary: "yes","no")
6 - balance: average yearly balance, in euros (numeric)
7 - housing: has housing loan? (binary: "yes","no")
8 - loan: has personal loan? (binary: "yes","no")
# related with the last contact of the current campaign:
9 - contact: contact communication type (categorical: "unknown","telephone","cellular")
10 - day: last contact day of the month (numeric)
11 - month: last contact month of year (categorical: "jan", "feb", "mar", ..., "nov", "dec")
12 - duration: last contact duration, in seconds (numeric)
# other attributes:
13 - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
14 - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric, -1 means client was not previously
contacted)
15 - previous: number of contacts performed before this campaign and for this client (numeric)
16 - poutcome: outcome of the previous marketing campaign (categorical: "unknown","other","failure","success")
Output variable (desired target):
17 - y - has the client subscribed a term deposit? (binary: "yes","no")
www.dsilatam.com
[email protected] @dsilatam Data Science Institute Latam