INTRODUCCION AL BIG DATA
INCENTIVOS
VIDEO R
[Link]
MATERIAL DE R
Nombre
Carrera
Cargo
Experiencia con Data
Big Data?
• Big Data ya no es una promesa ni una
tendencia. Big Data está aquí y está
provocando cambios profundos en
diversas industrias. Desde el punto de
vista tecnológico ya existen sectores
empresariales que han adoptado de
forma masiva proyectos y productos: Y
el sector financiero es uno de ellos.
• El análisis de todos los datos
disponibles está convirtiéndose en un
elemento de disrupción.
• Diferente data en el mundo
smart
1990 2000 2010 2020
• Así como internet es un factor de
desintermediación que está afectando a
muchas cadenas de valor, el análisis de
información en grandes volúmenes, de
diversas fuentes, a gran velocidad y con
una flexibilidad sin precedentes puede
suponer un factor diferencial para
aquellos que decidan adoptarlo.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
• El uso cada vez más intensivo de las TI en la vida cotidiana y en el desarrollo de negocios (y principalmente en la industria
financiera) ha llevado a la generación de industrias hibridas para acomodarse a las nuevas tendencias mundiales.
• Las FinTech son el resultado de esta adaptación sisttémica.
• Por ejemplo, no es sorprendente que
el mecanismo de pago para el sector
retail se este modificando. Estamos en
la era de los: Mobile Wallets, P2P
Mobile Payments, Real-time payment
y de los Digital Currency Solutions.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
EL BIG DATA en el MUNDO
• Las regiones con mayor uso , y generación, de la masificación de
datos son América del Norte y Europa (ambos suman el 60%).
Mientras que las regiones menos integradas con este fenómeno son
Oriente Medio y Afríca seguidos por América Latina.
• Si abrimos esta vista por sector economico que utiliza la información
y datos masivos. Vemós que, por su naturaleza, las referidas a las TI’s
son los principales usuarios, seguidos por la Dirección Ejecutiva. Y
rezagados el sector de gestión financiera (el cual se encuentra en
tendencia creciente en los últimos años).
Fuente: Big Data @ Work Survey, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales
procedentes de 95 países y 26 sectores
¿QUÉ ES EL BIG DATA?
“Big Data are high‐volume, high-velocity, and/or
high-variety information assets that require new
forms of processing to enable enhanced decision
making, insight discovery and process optimization”
(Gartner 2012)c
Clientes
Clientes= 10
Compra=5
Efectividad= 50%
Modelo de propensión de compra 97% 67% 17% 77% 25% 68% 22% 12% 55% 72%
Clientes
Clientes= 10
Compra=5
Efectividad= 50%
Modelo de propensión de compra 97% 67% 77% 68% 55% 72%
Clientes= 6
Compra=4
Efectividad= 67%
Data Management Solutions for ANALYTICS?
Quien hace Data Ware House?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
DIMENSIONES del Big Data
Volumen
• Enormes volumenes de datos
• Storaged
• Mover data
• Transformar data
Estructurar imagenes
DIMENSIONES del Big Data
Variedad
• Tipos de datos
• Estructurados
• No estructurados
DIMENSIONES del Big Data
Velocidad
• Ritmo en que los datos de entrada fluyen desde las diversas fuentes como
procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles,
etc.
• Flujo de datos masivo y continuo
• Real time
DIMENSIONES del Big Data
Veracidad
• sesgo, el ruido y la alteración de datos.
• los datos que se almacenan y extraen son directamente relacionados y
significativos al problema que se trata de analiza
DIMENSIONES del Big Data
Validez
• Los datos tienen validez
• Son robustos
• Data cleaning
DIMENSIONES del Big Data
Valor
• El valor del negocio
• Genera rentabilidad
• Mueve KPI’S
DIMENSIONES del Big Data
V’ig
• Volumen
• Variedad
• Velocidad
• Veracidad
• Validez
Data
• Valor
FUENTES del Big Data
LAS PRIMERAS INICIATIVAS
DE BIG DATA SE CENTRAN EN
OBTENER CONOCIMIENTOS
DE FUENTES DE DATOS
INTERNAS NUEVAS O YA
EXISTENTES.
La mayor parte de los esfuerzos de big data están dirigidos a
extraer y analizar datos internos. Según nuestra encuesta, más
de la mitad de los encuestados afirmaron que la fuente
principal de big data en sus empresas eran los datos internos.
Esto sugiere que las empresas están siendo pragmáticas al
adoptar big data y también que existe un tremendo valor
por descubrir escondido en esos sistemas internos
TIPOS DE DATOS del Big Data
La visión clásica de la
tipificación de los datos; nos
dice que existen los datos
estructurados (modelo de datos
definido) y no estructurados (no
tienen modelo de datos
definido)
No obstante, la gran
cantidad y aumento de
información, ha hecho
que se hable de los
datos
semiestructurados.
Presentan una
caracteristica entidad –
relación semi definida.
Tal y como cabía esperar, los
datos internos son los datos más
desarrollados y mejor entendidos
de las empresas.
Estos se han recabado, integrado,
estructurado y normalizado a lo
largo de años de planificación de
recursos empresariales, gestión
de datos maestros, business
intelligence y otras
actividades relacionadas.
No obstante, big data no crea valor
hasta que se utiliza para superar
importantes retos empresariales.
Esto requiere un acceso a más tipos
de datos diferentes entre sí, así
como sólidas funcionalidades
analíticas que incluyen tanto
herramientas de software como las
habilidades necesarias para
utilizarlas.
FUNCIONALIDADES del Big Data
• Un análisis de aquellas empresas inmersas en
actividades de big data revela que comienzan con un
sólido núcleo de funcionalidades analíticas diseñadas
para abordar datos estructurados.
• A continuación, añaden capacidades para aprovechar
la enorme cantidad de datos que llegan a la empresa,
tanto datos semiestructurados (datos que se pueden
convertir a formatos de datos estándar) y no
estructurados (datos en formatos no estándar).
La necesidad de funciones de visualización de datos más
avanzadas aumenta con la introducción de big data. A
menudo los conjuntos de datos son demasiado grandes
para que las empresas o los analistas de datos puedan
visualizarlos y analizarlos con las herramientas
tradicionales de generación de informes y extracción de
datos.
SECTORES ECONOMICOS y Big Data
ARQUITECTURA en Big Data
ARQUITECTURA en Big Data
ANALYTICS y el Big Data
LAS SOLUCIONES ANALÍTICAS CONTRIBUYEN A UNA MAYOR CONFIANZA EN LA TOMA DE
DECISIONES, A TRAVÉS DE LA IMPLEMENTACIÓN DE MODELOS DE ANÁLISIS QUE DIFUNDEN BUENAS
PRÁCTICAS Y AUMENTAN LOS ESTÁNDARES DE GESTIÓN.
• La multiplicidad de datos que las organizaciones acumulan en diversos sistemas de información y tecnologías
sobre las diferentes áreas operacionales puede ser, a primera vista, un punto crítico para el negocio. Sin
embargo, toda esta masa de información se presenta como una importante ventaja competitiva para las
empresas que adopten soluciones de Business Intelligence, es decir, sistemas de información analíticos que
recopilan, estructuran y correlacionan datos procedentes de diferentes fuentes, transformándolos en
información de gran valor añadido para la toma de decisiones.
ANALYTICS y el Big Data
BIG DATA DATA SCIENCE
Big data es una gran colección de datos
La ciencia de datos o Data Science, es un
procedentes de distintas fuentes y, por lo
campo especializado que combina áreas
regular, no está disponible en formatos de
múltiples como estadísticas, matemáticas,
bases de datos estándar de los que
técnicas de captura de datos, limpieza de datos,
generalmente somos conscientes.
minería y programación para preparar y alinear
grandes datos para un inteligente análisis para
Los datos grandes abarcan todos los tipos de
obtener información.
datos, a saber, información estructurada,
semiestructurada y no estructurada.
Disponibiliza Analiza
DATA MINING & BUSINESS INTELIGENCE del Big Data
DATA MINING & BUSINESS INTELIGENCE del Big Data
CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING –
CRISP -DM
SE TRATA DE UN MODELO DE PROCESO DE MINERÍA DE DATOS QUE
DESCRIBE LOS ENFOQUES COMUNES QUE UTILIZAN LOS EXPERTOS
EN MINERÍA DE DATOS.
Comprensión del negocio
Esta fase inicial se centra en la comprensión de los objetivos y
requisitos del proyecto desde una perspectiva empresarial.
Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos
con actividades con el objetivo de familiarizarse con los datos.
Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de
datos.
Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y
se calibran los parámetros para obtener óptimos resultados.
Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos)
que parece tener gran calidad, desde una perspectiva de análisis
de datos.
Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple
como la generación de un reporte o compleja como la
implementación de un proceso de explotación de información que
atraviese a toda la organización.
DATA MINING & BUSINESS INTELIGENCE del Big Data
Determinar os Objetivos del Proyecto
Conocer los antededentes del negocio y objetivos del proyecto.
Evaluar la Situación
Determinar las condiciones iniciales con la que
elproyecta empieza.
Determinar los Objetivos de la Minería de Datos
Conocer el problema en especifico al cual aplicar las técnicas de modelamiento.
Desarrollar el Plan del Proyecto
Conocer el time-to-market del modelo y las especificaciones iniciales para su
desarrollo.
DATA MINING & BUSINESS INTELIGENCE del Big Data
Recolección de Fuentes
Conocer las tablas de las cuales se dispone y el posible uso que pueden tener dentro
del desarrollo del proyecto.
Descripción de los Datos
Conocer la definición FUNCIONAL de los datos, su definición teórica y util.
Exploración de Datos
Generación del Reporte de Exploración: Contienen los descriptivos
de las tablas
Verificación de la Calidad de los Datos
Reporte de Calidad de Datos
DATA MINING & BUSINESS INTELIGENCE del Big Data
Generación de la TABLA UNICA
El proceso anterior del entendimiento de datos permite generar la TU de Datos.
Selección de Datos
Definir reglas para selección de variables. Proceso descriptivo y univariado de datos.
Limpieza de Datos
Imputacion de Missings, outliers, valores atipicos, cotas de datos, etc.
Construcción de Datos
Generación de nuevas variables por concepto de negocio.
Itegración de Datos
Combinación de bases y/o variables (variables convulucionadas)
DATA MINING & BUSINESS INTELIGENCE del Big Data
Seleccionando Técnica Metodologica
Evaluar el método estadístico más adecuado a la naturaleza del problema.
Generación del Diseño de Prueba
Diseñar el proceso de desarrollo del modelo
Construcción del Modelo
Desarrollo del Modelo, Estimación de parámetros, descripción del
modelo.
Desempeño del Modelo
Desempeño del Modelo, revisión de los parametros obtenidos, etc.
DATA MINING & BUSINESS INTELIGENCE del Big Data
Evaluación de Resultados
Evaluación del performance del modelo en una base ajena a a de esarrollo
Revisión del Proceso
Evaluación de los supuestos y metodología utilizada
Determinar los proximos pasos
Evaluación post-validación
DATA MINING & BUSINESS INTELIGENCE del Big Data
Desplieue de Desarrollo
Establecer las reglas de su implementación, usos y limitaciones.
Monitoreo
Evaluación continua del modelo, según necesidad y uso, para determinar posibles
descalibrados, deficiencias o problemas con su desempeño.
Documentación y Reporte Final
DATA MINING & BUSINESS INTELIGENCE del Big Data
Tipos de analytics (Banking)
• Scoring
• De Originacion
• De Comportamiento
• De Cobranzas
• Venta de productos
• X-Sell, Up-sell
• Seguros
• Manejo de portafolios en cada uno de los canales
• Migración de canales
Tipos de analytics (Telcos)
• Scoring Analysis
• Modelos de Churn
• Modelos de Recovery
• Venta de productos
• X-Sell, Up-Sell
• Pricing
• Loyalty
• Segmentación de productos
• Afinidad de tiendas*
Tipos de analytics (Retail)
• Forescasting
• Canasta de Mercado
• Evaluación de productos y categorías
• Pricing
• Conjoin Analysis
• PSM
• Segmentación de clientes
• Afinidad de productos
• Faltantes en Góndola
Mejorar las Capacidades Analíticas
Entender la capacidad analíticas de la tecnología y combinarlas con las capacidades tecnologías a fin de encontrar la mejor respuesta al
analitycs
Model-Driven Discovery-Driven
• Top-down approach; • Bottom-up Approach
• start from hypothesis; • start with a question and/or dataset;
• evaluated based on statistical evidence. • discover patterns and relationships and
generalise to a hypothesis.
Typically as deductive reasoning Typically as inductive reasoning
Provide hypothesis to
Theory validate and model
Speed is of the essence to
sort the wheat from the
Theory chaff
Lots of qualified new
hypothesis from
discovery
Hypothesis
Hypothesis Apply cutting-edge
techniques to detect truly
new patterns
Ability to turn into
validated and
consumable models, Observation
with the appropriate
rigor Pattern
From lots of new,
Confirmation unqualified and
Operationalized unknown data
Translate into actions models lead to new Observation
to achieve outcome observations
PROOF FOCUSED
INNOVATION FOCUSED
ANALYTICS en Big Data
Preguntas Ad-hoc
Modelación
Fases del Proyecto
Design Analyse Model Test
A. Business E. Perform data I. Create M. Create
Requirement assessment affinity pricing for PoC
workshops analysis products
B. Design success F. Perform product J. Create N. Assess
criteria analyses demand business
models impact
C. Design PoC test G. Select K. Validate the O. Review
Categories, affinities results Report of
Products Product
results
List
assessment
D. Review design H. Prepare data for L. Validate the P. Store test
with Business modelling demand
models Pilot Presentation
Design
Models Of pilot
Document
project
3
2 results
1
DATA MINING & BUSINESS INTELIGENCE Caso Práctico
MODELO RIESGO CREDITO: DATOS ESTRUCTURDOS Y NO ESTRUCTURADOS
• Mediante un caso de estudio, utilizaremos la metodologia CRISP-DM para evaluar un problema de riesgo de
crédito (determinar si un cliente es bueno o malo); bajo dos enfoques:
1. Mediante técnicas clásicas de Mineria de Datos: Utilizaremos una
regresión logística y un árbol de clasificación. Seguiremos los pasos
genericos para un proyecto de datos: Exploración de los datos,
limpieza y reduccion; modelamiento y puesta enproducción. Los
datos del ejercicio se detallan en el cuadro de a lado.
• Codigo Exploracion: Credit_Scoring_Pre_Procesing.R
• Modelo Logístico: Logistic_Reg_Credit_Scoring.R
• Arbol de Clasificacion: Decision_Tree_Credit_Scoring.R
• Base de Datos: [Link]
2. ADICIONAL, realizaremos un modelo de datos utilizando información
no estructurada. Utilizaremos los principios del text mining; para
analizar el sentimiento de las personas mediante sus publicaciones
en Twitter o Facebook.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for BI
and Analytics
• Tareas tradicionales en base al
Analytics y visualización de datos,
siguen siendo liderados por softwares
como Tableau, Qlik y Microsoft (Excel
principalmente).
• Por otro lado, su baja complitud de
vision y la habilidad para su uso hace
que softwares como Pyramid
Analytics, Datawatch sean los menos
rankeados para estas actividades.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for
Advanced Analytics
• El cuadrante anterior, nos mostraba la
proyección de los software en
Analytics para tareas recurentes
(comunes) usadas en el analytics y el
BI.
• Si tomamos como vista y
consideramos a aquellos programas
utiles para analitica avanzada. SAS es
indiscutiblemente la herramienta de
preferencia por las empresas que
utilizan el analytics y big data como
factor diferenciante.
• SAS ofrece una alta gama de
soluciones especializadas para cada
tipo de problema encontrado en la
realización de proyectos de analytics.
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Ofrece productos código abierto para comunidades
• Ofrece un opción de servidor y permite conectarse a
distintas fuentes de datos.
• Ventajas
• Solida
• Funciones innovadores
• Integración con Hadoop para mejorar el ambiente de Big Data
• Alto reconocimiento de fácil uso
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Gran cantidad de productos
• Mas amplia en cuanto funcionalidad analica
• Avances en visual analytics y visual statistics
• Sas Factory Miner
• Ventajas
• Buen manejo de aplicaciones atravez de todos sus productos
• Aprendizaje automático a gran escala
• Las grandes empresas confían en el soporte y análisis de datos
por parte de SAS
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Spss y Spss Modeler
• Ventajas
• Alto reconocimiento
• Watson Analytics
• SPSS fácil manejo (gran base de clientes)
• Se complementa con lenguaje R Phyton y SPARK
• SPSS Modeler fácil uso de aplicación de modelos
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Plataforma Open Source
• Local o nube
• Conexión a base de datos
• Ventajas
• Flexibilidad para integrar con otras herramientas
• Código abierto
• Comunidad de personas
Visualización
• Que es la visualización
• Características
• Métodos
• Herramientas
Herramientas para la visualización de
datos
Herramientas de la modelación de datos
• Conexión a base de datos
• Ventajas
• Flexibilidad de usuarios
• Manejo analítico
• Conexión con Google Maps
Pasos en el Análisis
• Descripción
• Que es
• Variables
• Medidas
• Cuantificar
• Calcular
• Agregar
Pasos en el Análisis
• Correlación
• Que tipo de relación
• Correlaciones
• Tipos de variables
Pasos en el Análisis
• Correlación
• Variables Continuas (Pearson)
• Variables discretas (Chi Cuadrado)
• Variables Mixtas (Anova)
Pasos en el Análisis
• Recodificar
• Partes iguales
• Por negocio
• Por Algoritmo
Pasos en el Análisis
• Impacto de las variabes
• Information Value
• WOE
Pasos en el Análisis
• Impacto de las variables
Pasos en el Análisis
• Selección variables
• Calcular variables
• Seleccionar variables
• Impacto de las variables
• Recodificar variables
Pasos en el Análisis
• Modelo las variables
• Aplicación del modelo
• Que algoritmo
• Performance del modelo
PLATAFORMAS TECNOLOGICAS del Big Data
KDnuggets Analytics / Data • Muchas veces, el precio, la dificultad
de programación, el soporto; o
Science 2016. Software Pool simplemente la comodidad. Ha hecho
(Top 10 Tools) que las herramientas “sofisticadas”
para analitica avanzada; no sean las
preferidas por los DSc. De “a pie”.
• Websites, como Kdnuggets, muestran
preferencias de software (principalmente de
licencias libre) preferidas para el analytics.
• Vemos que esta lista está, en resumen, liderada
por los ya clásicos y conocidos lenguajes de
progamación: R y Python.
• Ambos programas ampliamente difundidos y
desarrollados son una opción a los softwares
más costosos.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.
Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de big
data.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.
Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de big
data.
3. Interactuar: En la fase de la interactuación las empresas comienzan a comprobar el valor de negocio de big
data, así como a llevar a cabo una valoración de sus tecnologías y habilidades.
4. Ejecutar: En la fase de ejecución, el nivel de operatividad e implementación de las funciones analíticas y de big
data es mayor dentro de la empresa
DESAFIOS del Big Data
DESAFIOS del Big Data
DESAFIOS del Big Data: GOBIERNO Y ESTRATEGIA
DESAFIOS del Big Data: PERSONAS
• Muchas veces, el precio, la dificultad de programación, el soporto; o simplemente la comodidad. Ha hecho que las
herramientas “sofisticadas” para analitica avanzada; no sean las preferidas por los DSc. De “a pie”.
SUPPLY AND DEMAND OF DATA SCIENTIST IN THE UNITED STATES (THOUSANDS)
DESAFIOS del Big Data: DATOS
DESAFIOS del
Big Data: DATOS
• Nuevamente, el
aumento de datos no
estructurados;
representa un reto para
todo proyecto en
analytics.
• Pero tambien, quizas
sea de las fuentes de
información más ricas
para su explotación.
• Este uso (de datos
estructurados y no
estructurados) es
diferenciable por tipo
de sector y fines por los
que se utiliza.
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
• Most statistical learning problems fall into
one of two categories: supervised or
unsupervised.
UNSUPERVISED LEARNING: unsupervised
learning describes the somewhat more
challenging situation in which for every
observation i = 1, . . . , n , we observe
a vector of measurements xi but no
associated response yi .
SUPERVISED LEARNING: For each
observation of the predictor
measurement(s) xi , i = 1, . . . , n
there is an associated response
measurement yi .
MACHINE LEARNING y el Big Data: APRENDIZAJE SUPERVISADO
SIMPLE LINEAR REGRESSION lives up to its name: it is a
very straightforward simple linear approach for
predicting a quantitative response Y on the basis of a
single regression predictor variable X.
It assumes that there is approximately a linear
relationship between X and Y . Mathematically, we can
write this linear relationship as
Where:
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
WHAT’S A
CLUSTER?
It is a class of techniques used to
classify cases into groups that are
RELATIVELY HOMOGENEOUS
WITHIN THEMSELVES AND
HETEROGENEOUS BETWEEN
EACH OTHER
HOMOGENEITY (SIMILARITY)
AND HETEROGENEITY
(DISSIMILARITY) ARE
MEASURED ON THE BASIS OF A
DEFINED SET OF VARIABLES
These groups are called clusters
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
• In a HIERARCHICAL classification
the data are not partitioned into a
particular number of classes or
clusters at a single step. Instead the
classification consists of a series of
partitions, which may run from a
single cluster containing all
individuals, to n clusters each
containing a single individual.
• The NON-HIERARCHICAL
CLUSTERING that we consider
here is a class of clustering
techniques which produce a
partition of the individuals into
a specified number of groups,
by either minimizing or
maximizing some numerical
criterion.
CLUSTER & SEGMENTATION: AN INTRODUCTION
WORKING WITH R: Iris Data Example
• The IRIS DATASET contains data about sepal
length, sepal width, petal length, and petal
width of flowers of different species. Let us see
what it looks like:
Iris_Data_Example.R
EN RESUMEN…
BIBLIOGRAFIA(*):
① Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications.
Hoboken, NJ: Wiley.
② James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An introduction to statistical learning: With
applications in R (1st ed.). New York: Springer.
③ Liebowitz, J. (2013). Big data and business analytics. Boca Raton, FL: CRC Press.
④ Marr, B. (2016). Big data in practice: How 45 successful companies used big data analytics to deliver
extraordinary. Chischester (GB, NY: Wiley.
⑤ Mayer-Schönberger, V., & Cukier, K. (2014). Big data: A revolution that will transform how we live, work,
and think. Boston [u.a., NY: Mariner Books.
⑥ Siegel, E. (2016). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and
Updated.
(*) El contenido de esta presentación esta basado enteramente en la bibliografía mencionada. Y el contenido del mismo, es propiedad
intelectual de los autores.
ANEXO I
COMPLEJIDAD de un Modelo
No lo suficientemente
complejo
Over-Fitting: Es lo opuesto al under-
fitting, y consiste en ajustar demasiado
a los datos. Su problema radica en que
pierde capacidad predictiva cuando es
aplicado sobre otra base de datos.
Demasiado
Complejo
Under-Fitting: Una de las desventajas del uso de
modelos simples es que muchas veces no ajustan bien
a los datos. No confundir con el concepto de
“parsimonia”.
ANEXO II
ARBOLES DE CLASIFICACION Principios
Training Data
1.0
0.9
0.8
0.7
0.6
x2 0.5
0.4
EJEMPLO: Buscamos predecir cada punto de color
para cada X1 y X2. 0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
interior node 0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Predict:
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
interior node 0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Decision =
Predict:
Estimate = 0.70
1.0
x2
<0.63 ≥0.63 0.9
0.8
0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO III
Regresión
Regresión
• Modelo
• Variable Independiente
• Variables dependiente
• Correlación
• Predicción
ANEXO III
Regresión
ANEXO III
Regresión
ANEXO IV
Redes Neuronales
• Entrada
• Entrenamiento
ANEXO IV
SVM
• Algoritmo
• Clasificación
ANEXO V
Naive Bayes
• Probabilidad apriori
• Probabilidad posteriori
GRACIAS