100% encontró este documento útil (1 voto)

142 vistas118 páginas

Introducción al Big Data y su Impacto

Cargado por

Yita Barreto

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

142 vistas118 páginas

Introducción al Big Data y su Impacto

Cargado por

Yita Barreto

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

INTRODUCCION AL BIG DATA

INCENTIVOS

VIDEO R
[Link]

MATERIAL DE R
Nombre
Carrera
Cargo
Experiencia con Data
Big Data?
• Big Data ya no es una promesa ni una
tendencia. Big Data está aquí y está
provocando cambios profundos en
diversas industrias. Desde el punto de
vista tecnológico ya existen sectores
empresariales que han adoptado de
forma masiva proyectos y productos: Y
el sector financiero es uno de ellos.

• El análisis de todos los datos

disponibles está convirtiéndose en un
elemento de disrupción.
• Diferente data en el mundo

smart

1990 2000 2010 2020

• Así como internet es un factor de
desintermediación que está afectando a
muchas cadenas de valor, el análisis de
información en grandes volúmenes, de
diversas fuentes, a gran velocidad y con
una flexibilidad sin precedentes puede
suponer un factor diferencial para
aquellos que decidan adoptarlo.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
• El uso cada vez más intensivo de las TI en la vida cotidiana y en el desarrollo de negocios (y principalmente en la industria
financiera) ha llevado a la generación de industrias hibridas para acomodarse a las nuevas tendencias mundiales.
• Las FinTech son el resultado de esta adaptación sisttémica.

• Por ejemplo, no es sorprendente que

el mecanismo de pago para el sector
retail se este modificando. Estamos en
la era de los: Mobile Wallets, P2P
Mobile Payments, Real-time payment
y de los Digital Currency Solutions.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
EL BIG DATA en el MUNDO
• Las regiones con mayor uso , y generación, de la masificación de
datos son América del Norte y Europa (ambos suman el 60%).
Mientras que las regiones menos integradas con este fenómeno son
Oriente Medio y Afríca seguidos por América Latina.

• Si abrimos esta vista por sector economico que utiliza la información

y datos masivos. Vemós que, por su naturaleza, las referidas a las TI’s
son los principales usuarios, seguidos por la Dirección Ejecutiva. Y
rezagados el sector de gestión financiera (el cual se encuentra en
tendencia creciente en los últimos años).

Fuente: Big Data @ Work Survey, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales
procedentes de 95 países y 26 sectores
¿QUÉ ES EL BIG DATA?

“Big Data are high‐volume, high-velocity, and/or

high-variety information assets that require new
forms of processing to enable enhanced decision
making, insight discovery and process optimization”
(Gartner 2012)c
Clientes

Clientes= 10
Compra=5
Efectividad= 50%

Modelo de propensión de compra 97% 67% 17% 77% 25% 68% 22% 12% 55% 72%
Clientes

Clientes= 10
Compra=5
Efectividad= 50%

Modelo de propensión de compra 97% 67% 77% 68% 55% 72%

Clientes= 6
Compra=4
Efectividad= 67%
Data Management Solutions for ANALYTICS?
Quien hace Data Ware House?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
DIMENSIONES del Big Data

Volumen
• Enormes volumenes de datos
• Storaged
• Mover data
• Transformar data
Estructurar imagenes
DIMENSIONES del Big Data

Variedad
• Tipos de datos
• Estructurados
• No estructurados
DIMENSIONES del Big Data

Velocidad
• Ritmo en que los datos de entrada fluyen desde las diversas fuentes como
procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles,
etc.
• Flujo de datos masivo y continuo
• Real time
DIMENSIONES del Big Data

Veracidad
• sesgo, el ruido y la alteración de datos.
• los datos que se almacenan y extraen son directamente relacionados y
significativos al problema que se trata de analiza
DIMENSIONES del Big Data

Validez
• Los datos tienen validez
• Son robustos
• Data cleaning
DIMENSIONES del Big Data

Valor
• El valor del negocio
• Genera rentabilidad
• Mueve KPI’S
DIMENSIONES del Big Data

V’ig
• Volumen
• Variedad
• Velocidad
• Veracidad
• Validez

Data
• Valor
FUENTES del Big Data

LAS PRIMERAS INICIATIVAS

DE BIG DATA SE CENTRAN EN
OBTENER CONOCIMIENTOS
DE FUENTES DE DATOS
INTERNAS NUEVAS O YA
EXISTENTES.

La mayor parte de los esfuerzos de big data están dirigidos a

extraer y analizar datos internos. Según nuestra encuesta, más
de la mitad de los encuestados afirmaron que la fuente
principal de big data en sus empresas eran los datos internos.

Esto sugiere que las empresas están siendo pragmáticas al

adoptar big data y también que existe un tremendo valor
por descubrir escondido en esos sistemas internos
TIPOS DE DATOS del Big Data
La visión clásica de la
tipificación de los datos; nos
dice que existen los datos
estructurados (modelo de datos
definido) y no estructurados (no
tienen modelo de datos
definido)

No obstante, la gran
cantidad y aumento de
información, ha hecho
que se hable de los
datos
semiestructurados.
Presentan una
caracteristica entidad –
relación semi definida.
Tal y como cabía esperar, los
datos internos son los datos más
desarrollados y mejor entendidos
de las empresas.
Estos se han recabado, integrado,
estructurado y normalizado a lo
largo de años de planificación de
recursos empresariales, gestión
de datos maestros, business
intelligence y otras
actividades relacionadas.

No obstante, big data no crea valor

hasta que se utiliza para superar
importantes retos empresariales.
Esto requiere un acceso a más tipos
de datos diferentes entre sí, así
como sólidas funcionalidades
analíticas que incluyen tanto
herramientas de software como las
habilidades necesarias para
utilizarlas.
FUNCIONALIDADES del Big Data
• Un análisis de aquellas empresas inmersas en
actividades de big data revela que comienzan con un
sólido núcleo de funcionalidades analíticas diseñadas
para abordar datos estructurados.

• A continuación, añaden capacidades para aprovechar

la enorme cantidad de datos que llegan a la empresa,
tanto datos semiestructurados (datos que se pueden
convertir a formatos de datos estándar) y no
estructurados (datos en formatos no estándar).

La necesidad de funciones de visualización de datos más

avanzadas aumenta con la introducción de big data. A
menudo los conjuntos de datos son demasiado grandes
para que las empresas o los analistas de datos puedan
visualizarlos y analizarlos con las herramientas
tradicionales de generación de informes y extracción de
datos.
SECTORES ECONOMICOS y Big Data
ARQUITECTURA en Big Data
ARQUITECTURA en Big Data
ANALYTICS y el Big Data

LAS SOLUCIONES ANALÍTICAS CONTRIBUYEN A UNA MAYOR CONFIANZA EN LA TOMA DE

DECISIONES, A TRAVÉS DE LA IMPLEMENTACIÓN DE MODELOS DE ANÁLISIS QUE DIFUNDEN BUENAS
PRÁCTICAS Y AUMENTAN LOS ESTÁNDARES DE GESTIÓN.

• La multiplicidad de datos que las organizaciones acumulan en diversos sistemas de información y tecnologías
sobre las diferentes áreas operacionales puede ser, a primera vista, un punto crítico para el negocio. Sin
embargo, toda esta masa de información se presenta como una importante ventaja competitiva para las
empresas que adopten soluciones de Business Intelligence, es decir, sistemas de información analíticos que
recopilan, estructuran y correlacionan datos procedentes de diferentes fuentes, transformándolos en
información de gran valor añadido para la toma de decisiones.
ANALYTICS y el Big Data

BIG DATA DATA SCIENCE

Big data es una gran colección de datos

La ciencia de datos o Data Science, es un
procedentes de distintas fuentes y, por lo
campo especializado que combina áreas
regular, no está disponible en formatos de
múltiples como estadísticas, matemáticas,
bases de datos estándar de los que
técnicas de captura de datos, limpieza de datos,
generalmente somos conscientes.
minería y programación para preparar y alinear
grandes datos para un inteligente análisis para
Los datos grandes abarcan todos los tipos de
obtener información.
datos, a saber, información estructurada,
semiestructurada y no estructurada.

Disponibiliza Analiza
DATA MINING & BUSINESS INTELIGENCE del Big Data
DATA MINING & BUSINESS INTELIGENCE del Big Data
CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING –
CRISP -DM
SE TRATA DE UN MODELO DE PROCESO DE MINERÍA DE DATOS QUE
DESCRIBE LOS ENFOQUES COMUNES QUE UTILIZAN LOS EXPERTOS
EN MINERÍA DE DATOS.

Comprensión del negocio

Esta fase inicial se centra en la comprensión de los objetivos y
requisitos del proyecto desde una perspectiva empresarial.
Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos
con actividades con el objetivo de familiarizarse con los datos.
Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de
datos.
Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y
se calibran los parámetros para obtener óptimos resultados.
Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos)
que parece tener gran calidad, desde una perspectiva de análisis
de datos.
Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple
como la generación de un reporte o compleja como la
implementación de un proceso de explotación de información que
atraviese a toda la organización.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Determinar os Objetivos del Proyecto

Conocer los antededentes del negocio y objetivos del proyecto.

Evaluar la Situación
Determinar las condiciones iniciales con la que
elproyecta empieza.

Determinar los Objetivos de la Minería de Datos

Conocer el problema en especifico al cual aplicar las técnicas de modelamiento.

Desarrollar el Plan del Proyecto

Conocer el time-to-market del modelo y las especificaciones iniciales para su
desarrollo.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Recolección de Fuentes
Conocer las tablas de las cuales se dispone y el posible uso que pueden tener dentro
del desarrollo del proyecto.

Descripción de los Datos

Conocer la definición FUNCIONAL de los datos, su definición teórica y util.

Exploración de Datos
Generación del Reporte de Exploración: Contienen los descriptivos
de las tablas

Verificación de la Calidad de los Datos

Reporte de Calidad de Datos
DATA MINING & BUSINESS INTELIGENCE del Big Data

Generación de la TABLA UNICA

El proceso anterior del entendimiento de datos permite generar la TU de Datos.

Selección de Datos
Definir reglas para selección de variables. Proceso descriptivo y univariado de datos.

Limpieza de Datos
Imputacion de Missings, outliers, valores atipicos, cotas de datos, etc.

Construcción de Datos
Generación de nuevas variables por concepto de negocio.

Itegración de Datos
Combinación de bases y/o variables (variables convulucionadas)
DATA MINING & BUSINESS INTELIGENCE del Big Data

Seleccionando Técnica Metodologica

Evaluar el método estadístico más adecuado a la naturaleza del problema.

Generación del Diseño de Prueba

Diseñar el proceso de desarrollo del modelo

Construcción del Modelo

Desarrollo del Modelo, Estimación de parámetros, descripción del
modelo.

Desempeño del Modelo

Desempeño del Modelo, revisión de los parametros obtenidos, etc.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Evaluación de Resultados
Evaluación del performance del modelo en una base ajena a a de esarrollo

Revisión del Proceso

Evaluación de los supuestos y metodología utilizada

Determinar los proximos pasos

Evaluación post-validación
DATA MINING & BUSINESS INTELIGENCE del Big Data

Desplieue de Desarrollo
Establecer las reglas de su implementación, usos y limitaciones.

Monitoreo
Evaluación continua del modelo, según necesidad y uso, para determinar posibles
descalibrados, deficiencias o problemas con su desempeño.

Documentación y Reporte Final

DATA MINING & BUSINESS INTELIGENCE del Big Data
Tipos de analytics (Banking)
• Scoring
• De Originacion
• De Comportamiento
• De Cobranzas
• Venta de productos
• X-Sell, Up-sell
• Seguros
• Manejo de portafolios en cada uno de los canales
• Migración de canales
Tipos de analytics (Telcos)
• Scoring Analysis
• Modelos de Churn
• Modelos de Recovery
• Venta de productos
• X-Sell, Up-Sell
• Pricing
• Loyalty
• Segmentación de productos
• Afinidad de tiendas*
Tipos de analytics (Retail)
• Forescasting
• Canasta de Mercado
• Evaluación de productos y categorías
• Pricing
• Conjoin Analysis
• PSM
• Segmentación de clientes
• Afinidad de productos
• Faltantes en Góndola
Mejorar las Capacidades Analíticas
Entender la capacidad analíticas de la tecnología y combinarlas con las capacidades tecnologías a fin de encontrar la mejor respuesta al
analitycs

Model-Driven Discovery-Driven
• Top-down approach; • Bottom-up Approach
• start from hypothesis; • start with a question and/or dataset;
• evaluated based on statistical evidence. • discover patterns and relationships and
generalise to a hypothesis.

Typically as deductive reasoning Typically as inductive reasoning

Provide hypothesis to
Theory validate and model
Speed is of the essence to
sort the wheat from the
Theory chaff
Lots of qualified new
hypothesis from
discovery

Hypothesis
Hypothesis Apply cutting-edge
techniques to detect truly
new patterns
Ability to turn into
validated and
consumable models, Observation
with the appropriate
rigor Pattern

From lots of new,

Confirmation unqualified and
Operationalized unknown data

Translate into actions models lead to new Observation

to achieve outcome observations

PROOF FOCUSED
INNOVATION FOCUSED
ANALYTICS en Big Data

Preguntas Ad-hoc

Modelación
Fases del Proyecto

Design Analyse Model Test

A. Business E. Perform data I. Create M. Create
Requirement assessment affinity pricing for PoC
workshops analysis products

B. Design success F. Perform product J. Create N. Assess

criteria analyses demand business
models impact

C. Design PoC test G. Select K. Validate the O. Review

Categories, affinities results Report of
Products Product
results
List
assessment
D. Review design H. Prepare data for L. Validate the P. Store test
with Business modelling demand
models Pilot Presentation
Design
Models Of pilot
Document
project
3
2 results
1
DATA MINING & BUSINESS INTELIGENCE Caso Práctico
MODELO RIESGO CREDITO: DATOS ESTRUCTURDOS Y NO ESTRUCTURADOS
• Mediante un caso de estudio, utilizaremos la metodologia CRISP-DM para evaluar un problema de riesgo de
crédito (determinar si un cliente es bueno o malo); bajo dos enfoques:

1. Mediante técnicas clásicas de Mineria de Datos: Utilizaremos una

regresión logística y un árbol de clasificación. Seguiremos los pasos
genericos para un proyecto de datos: Exploración de los datos,
limpieza y reduccion; modelamiento y puesta enproducción. Los
datos del ejercicio se detallan en el cuadro de a lado.

• Codigo Exploracion: Credit_Scoring_Pre_Procesing.R

• Modelo Logístico: Logistic_Reg_Credit_Scoring.R
• Arbol de Clasificacion: Decision_Tree_Credit_Scoring.R
• Base de Datos: [Link]

2. ADICIONAL, realizaremos un modelo de datos utilizando información

no estructurada. Utilizaremos los principios del text mining; para
analizar el sentimiento de las personas mediante sus publicaciones
en Twitter o Facebook.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for BI
and Analytics

• Tareas tradicionales en base al

Analytics y visualización de datos,
siguen siendo liderados por softwares
como Tableau, Qlik y Microsoft (Excel
principalmente).

• Por otro lado, su baja complitud de

vision y la habilidad para su uso hace
que softwares como Pyramid
Analytics, Datawatch sean los menos
rankeados para estas actividades.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for
Advanced Analytics

• El cuadrante anterior, nos mostraba la

proyección de los software en
Analytics para tareas recurentes
(comunes) usadas en el analytics y el
BI.

• Si tomamos como vista y

consideramos a aquellos programas
utiles para analitica avanzada. SAS es
indiscutiblemente la herramienta de
preferencia por las empresas que
utilizan el analytics y big data como
factor diferenciante.

• SAS ofrece una alta gama de

soluciones especializadas para cada
tipo de problema encontrado en la
realización de proyectos de analytics.
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Ofrece productos código abierto para comunidades

• Ofrece un opción de servidor y permite conectarse a
distintas fuentes de datos.

• Ventajas
• Solida
• Funciones innovadores
• Integración con Hadoop para mejorar el ambiente de Big Data
• Alto reconocimiento de fácil uso
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Gran cantidad de productos

• Mas amplia en cuanto funcionalidad analica
• Avances en visual analytics y visual statistics
• Sas Factory Miner

• Ventajas
• Buen manejo de aplicaciones atravez de todos sus productos
• Aprendizaje automático a gran escala
• Las grandes empresas confían en el soporte y análisis de datos
por parte de SAS
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Spss y Spss Modeler

• Ventajas
• Alto reconocimiento
• Watson Analytics
• SPSS fácil manejo (gran base de clientes)
• Se complementa con lenguaje R Phyton y SPARK
• SPSS Modeler fácil uso de aplicación de modelos
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Plataforma Open Source

• Local o nube
• Conexión a base de datos

• Ventajas
• Flexibilidad para integrar con otras herramientas
• Código abierto
• Comunidad de personas
Visualización

• Que es la visualización

• Características
• Métodos
• Herramientas
Herramientas para la visualización de
datos
Herramientas de la modelación de datos

• Conexión a base de datos

• Ventajas
• Flexibilidad de usuarios
• Manejo analítico
• Conexión con Google Maps
Pasos en el Análisis

• Descripción

• Que es
• Variables
• Medidas
• Cuantificar
• Calcular
• Agregar
Pasos en el Análisis

• Correlación

• Que tipo de relación

• Correlaciones
• Tipos de variables
Pasos en el Análisis

• Correlación

• Variables Continuas (Pearson)

• Variables discretas (Chi Cuadrado)
• Variables Mixtas (Anova)
Pasos en el Análisis

• Recodificar

• Partes iguales
• Por negocio
• Por Algoritmo
Pasos en el Análisis

• Impacto de las variabes

• Information Value

• WOE
Pasos en el Análisis

• Impacto de las variables

Pasos en el Análisis

• Selección variables

• Calcular variables
• Seleccionar variables
• Impacto de las variables
• Recodificar variables
Pasos en el Análisis

• Modelo las variables

• Aplicación del modelo

• Que algoritmo
• Performance del modelo
PLATAFORMAS TECNOLOGICAS del Big Data

KDnuggets Analytics / Data • Muchas veces, el precio, la dificultad

de programación, el soporto; o
Science 2016. Software Pool simplemente la comodidad. Ha hecho
(Top 10 Tools) que las herramientas “sofisticadas”
para analitica avanzada; no sean las
preferidas por los DSc. De “a pie”.

• Websites, como Kdnuggets, muestran

preferencias de software (principalmente de
licencias libre) preferidas para el analytics.

• Vemos que esta lista está, en resumen, liderada

por los ya clásicos y conocidos lenguajes de
progamación: R y Python.

• Ambos programas ampliamente difundidos y

desarrollados son una opción a los softwares
más costosos.
FASES DE ADOPTCION del Big Data

1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.

Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de big
data.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.
Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de big
data.
3. Interactuar: En la fase de la interactuación las empresas comienzan a comprobar el valor de negocio de big
data, así como a llevar a cabo una valoración de sus tecnologías y habilidades.
4. Ejecutar: En la fase de ejecución, el nivel de operatividad e implementación de las funciones analíticas y de big
data es mayor dentro de la empresa
DESAFIOS del Big Data
DESAFIOS del Big Data
DESAFIOS del Big Data: GOBIERNO Y ESTRATEGIA
DESAFIOS del Big Data: PERSONAS
• Muchas veces, el precio, la dificultad de programación, el soporto; o simplemente la comodidad. Ha hecho que las
herramientas “sofisticadas” para analitica avanzada; no sean las preferidas por los DSc. De “a pie”.

SUPPLY AND DEMAND OF DATA SCIENTIST IN THE UNITED STATES (THOUSANDS)

DESAFIOS del Big Data: DATOS
DESAFIOS del
Big Data: DATOS

• Nuevamente, el
aumento de datos no
estructurados;
representa un reto para
todo proyecto en
analytics.

• Pero tambien, quizas

sea de las fuentes de
información más ricas
para su explotación.

• Este uso (de datos

estructurados y no
estructurados) es
diferenciable por tipo
de sector y fines por los
que se utiliza.
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
• Most statistical learning problems fall into
one of two categories: supervised or
unsupervised.

UNSUPERVISED LEARNING: unsupervised

learning describes the somewhat more
challenging situation in which for every
observation i = 1, . . . , n , we observe
a vector of measurements xi but no
associated response yi .

SUPERVISED LEARNING: For each

observation of the predictor
measurement(s) xi , i = 1, . . . , n
there is an associated response
measurement yi .
MACHINE LEARNING y el Big Data: APRENDIZAJE SUPERVISADO
SIMPLE LINEAR REGRESSION lives up to its name: it is a
very straightforward simple linear approach for
predicting a quantitative response Y on the basis of a
single regression predictor variable X.

It assumes that there is approximately a linear

relationship between X and Y . Mathematically, we can
write this linear relationship as

Where:
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO

WHAT’S A
CLUSTER?
 It is a class of techniques used to
classify cases into groups that are
 RELATIVELY HOMOGENEOUS
WITHIN THEMSELVES AND
HETEROGENEOUS BETWEEN
EACH OTHER
 HOMOGENEITY (SIMILARITY)
AND HETEROGENEITY
(DISSIMILARITY) ARE
MEASURED ON THE BASIS OF A
DEFINED SET OF VARIABLES
 These groups are called clusters
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
• In a HIERARCHICAL classification
the data are not partitioned into a
particular number of classes or
clusters at a single step. Instead the
classification consists of a series of
partitions, which may run from a
single cluster containing all
individuals, to n clusters each
containing a single individual.

• The NON-HIERARCHICAL
CLUSTERING that we consider
here is a class of clustering
techniques which produce a
partition of the individuals into
a specified number of groups,
by either minimizing or
maximizing some numerical
criterion.
CLUSTER & SEGMENTATION: AN INTRODUCTION
WORKING WITH R: Iris Data Example
• The IRIS DATASET contains data about sepal
length, sepal width, petal length, and petal
width of flowers of different species. Let us see
what it looks like:

Iris_Data_Example.R
EN RESUMEN…
BIBLIOGRAFIA(*):
① Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications.
Hoboken, NJ: Wiley.
② James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An introduction to statistical learning: With
applications in R (1st ed.). New York: Springer.
③ Liebowitz, J. (2013). Big data and business analytics. Boca Raton, FL: CRC Press.
④ Marr, B. (2016). Big data in practice: How 45 successful companies used big data analytics to deliver
extraordinary. Chischester (GB, NY: Wiley.
⑤ Mayer-Schönberger, V., & Cukier, K. (2014). Big data: A revolution that will transform how we live, work,
and think. Boston [u.a., NY: Mariner Books.
⑥ Siegel, E. (2016). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and
Updated.

(*) El contenido de esta presentación esta basado enteramente en la bibliografía mencionada. Y el contenido del mismo, es propiedad
intelectual de los autores.
ANEXO I
COMPLEJIDAD de un Modelo
No lo suficientemente
complejo
Over-Fitting: Es lo opuesto al under-
fitting, y consiste en ajustar demasiado
a los datos. Su problema radica en que
pierde capacidad predictiva cuando es
aplicado sobre otra base de datos.

Demasiado
Complejo

Under-Fitting: Una de las desventajas del uso de

modelos simples es que muchas veces no ajustan bien
a los datos. No confundir con el concepto de
“parsimonia”.
ANEXO II
ARBOLES DE CLASIFICACION Principios

Training Data
1.0
0.9
0.8
0.7
0.6
x2 0.5
0.4
EJEMPLO: Buscamos predecir cada punto de color
para cada X1 y X2. 0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios

root node
1.0
x2
<0.63 ≥0.63 0.9
0.8

interior node 0.7

x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Predict:
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8

interior node 0.7

x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Decision =
Predict:
Estimate = 0.70
1.0
x2
<0.63 ≥0.63 0.9
0.8
0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO III
Regresión
Regresión

• Modelo
• Variable Independiente
• Variables dependiente
• Correlación
• Predicción
ANEXO III
Regresión
ANEXO III
Regresión
ANEXO IV
Redes Neuronales

• Entrada
• Entrenamiento
ANEXO IV
SVM

• Algoritmo
• Clasificación
ANEXO V
Naive Bayes

• Probabilidad apriori
• Probabilidad posteriori
GRACIAS

También podría gustarte

Infraestructura y Fuentes de Big Data
Aún no hay calificaciones
Infraestructura y Fuentes de Big Data
30 páginas
Analítica de Datos
0% (1)
Analítica de Datos
7 páginas
Analitica de Datos 1.2 1.3
Aún no hay calificaciones
Analitica de Datos 1.2 1.3
35 páginas
Desafios Beneficios de La Practica Arquitectura Empresarial 1
0% (1)
Desafios Beneficios de La Practica Arquitectura Empresarial 1
22 páginas
Que Es La Analítica Predictiva
Aún no hay calificaciones
Que Es La Analítica Predictiva
2 páginas
Business Intelligence: Clave en Decisiones Empresariales
Aún no hay calificaciones
Business Intelligence: Clave en Decisiones Empresariales
86 páginas
Big Data y Analytics - Tema 07 - Visualización
Aún no hay calificaciones
Big Data y Analytics - Tema 07 - Visualización
30 páginas
Introducción a la Inteligencia Artificial
Aún no hay calificaciones
Introducción a la Inteligencia Artificial
27 páginas
Estudio de Tendencia Big Data
Aún no hay calificaciones
Estudio de Tendencia Big Data
26 páginas
Business Intelligence
Aún no hay calificaciones
Business Intelligence
51 páginas
Introducción a Batch Processing
Aún no hay calificaciones
Introducción a Batch Processing
457 páginas
Material para Trainer SMPC® (V012022A) SP
Aún no hay calificaciones
Material para Trainer SMPC® (V012022A) SP
183 páginas
Sistema de Gestión de Cuentas Financieras
Aún no hay calificaciones
Sistema de Gestión de Cuentas Financieras
54 páginas
Guía Completa de Power BI y ETL
Aún no hay calificaciones
Guía Completa de Power BI y ETL
51 páginas
Emprendimiento en Enfermería: Liderazgo y Oportunidades
Aún no hay calificaciones
Emprendimiento en Enfermería: Liderazgo y Oportunidades
7 páginas
Diplomado en Análisis de Datos BI
Aún no hay calificaciones
Diplomado en Análisis de Datos BI
6 páginas
Guia 1 - IBARRA, GARCIA Y CASTELLANOS
Aún no hay calificaciones
Guia 1 - IBARRA, GARCIA Y CASTELLANOS
16 páginas
Semana 7.2 GESTION DE PROYECTOS. METODOLOGIA DEL PMI
100% (1)
Semana 7.2 GESTION DE PROYECTOS. METODOLOGIA DEL PMI
42 páginas
Curso SM Professional
Aún no hay calificaciones
Curso SM Professional
198 páginas
Colaborar en Qlik Sense
Aún no hay calificaciones
Colaborar en Qlik Sense
65 páginas
Ciclo de Vida del Análisis de Big Data
Aún no hay calificaciones
Ciclo de Vida del Análisis de Big Data
18 páginas
Orion Context Broker (OCB) - Aprende FIWARE en Español
Aún no hay calificaciones
Orion Context Broker (OCB) - Aprende FIWARE en Español
9 páginas
Propuesta BI
Aún no hay calificaciones
Propuesta BI
59 páginas
Módulo 4 - Big Data y Business Intelligence en La Era Digital
Aún no hay calificaciones
Módulo 4 - Big Data y Business Intelligence en La Era Digital
32 páginas
Data Mining Mineria Datos MONOGRAFIA UNH+
Aún no hay calificaciones
Data Mining Mineria Datos MONOGRAFIA UNH+
31 páginas
Informe Escrito: Tic, Pedagogía y Red para La Incorporación en La Práctica Educativa
100% (2)
Informe Escrito: Tic, Pedagogía y Red para La Incorporación en La Práctica Educativa
16 páginas
ECDI & DAMA - Analítica y Gobierno de Datos para Ejecutivos - Módulo 13 - Mapa de Ruta de Gobierno y Gestión de Datos
Aún no hay calificaciones
ECDI & DAMA - Analítica y Gobierno de Datos para Ejecutivos - Módulo 13 - Mapa de Ruta de Gobierno y Gestión de Datos
34 páginas
Guía de Diseño de Bodegas de Datos
Aún no hay calificaciones
Guía de Diseño de Bodegas de Datos
8 páginas
Análisis de Negocios - BA4206 - Material de Estudio - 1
Aún no hay calificaciones
Análisis de Negocios - BA4206 - Material de Estudio - 1
126 páginas
Oltp y Olap
Aún no hay calificaciones
Oltp y Olap
11 páginas
EA - Arquitectura Empresarial
Aún no hay calificaciones
EA - Arquitectura Empresarial
27 páginas
1 Interfaces IHC 2020
Aún no hay calificaciones
1 Interfaces IHC 2020
99 páginas
Inteligencia Artificial en La Dirección de Proyectos
Aún no hay calificaciones
Inteligencia Artificial en La Dirección de Proyectos
21 páginas
Computacion en La Nube
Aún no hay calificaciones
Computacion en La Nube
36 páginas
Interoperabilidad Reporte
Aún no hay calificaciones
Interoperabilidad Reporte
8 páginas
Instituto Tecnologico de Villahermosa: Autores
Aún no hay calificaciones
Instituto Tecnologico de Villahermosa: Autores
11 páginas
BussinessIntelligence Teoria Parte 1 PDF
Aún no hay calificaciones
BussinessIntelligence Teoria Parte 1 PDF
42 páginas
Lectura 2 Pensemoslo Nuevamente
Aún no hay calificaciones
Lectura 2 Pensemoslo Nuevamente
20 páginas
DAMA DMBOK2 Gestion y Etica de Datos
Aún no hay calificaciones
DAMA DMBOK2 Gestion y Etica de Datos
27 páginas
Ciclo de Vida del Big Data
Aún no hay calificaciones
Ciclo de Vida del Big Data
66 páginas
Clubes de Ciencia para Niños
Aún no hay calificaciones
Clubes de Ciencia para Niños
90 páginas
Monitoreo de SQL Server: Guía Esencial
Aún no hay calificaciones
Monitoreo de SQL Server: Guía Esencial
3 páginas
Claves para la Transformación Digital
Aún no hay calificaciones
Claves para la Transformación Digital
8 páginas
Presentación SEMANA 2.1
Aún no hay calificaciones
Presentación SEMANA 2.1
29 páginas
CMMI y Gestión de Requisitos en Software
Aún no hay calificaciones
CMMI y Gestión de Requisitos en Software
9 páginas
ETL
Aún no hay calificaciones
ETL
33 páginas
Introducción a MBSE y SysML
Aún no hay calificaciones
Introducción a MBSE y SysML
90 páginas
Ciclo de Vida Metodologia Kimball
100% (3)
Ciclo de Vida Metodologia Kimball
59 páginas
Requisite Pro
Aún no hay calificaciones
Requisite Pro
21 páginas
Sistemas de Información Empresarial
Aún no hay calificaciones
Sistemas de Información Empresarial
119 páginas
HBR Airbnb
Aún no hay calificaciones
HBR Airbnb
1 página
Integración de Datos Con Azure
100% (1)
Integración de Datos Con Azure
22 páginas
Arquitectura de Soluciones BI
Aún no hay calificaciones
Arquitectura de Soluciones BI
37 páginas
Innovación y Transformación Digital Empresarial
Aún no hay calificaciones
Innovación y Transformación Digital Empresarial
38 páginas
UNESCO - Transformación Digital de La Enseñanza y El Aprendizaje en La Educación Superior
Aún no hay calificaciones
UNESCO - Transformación Digital de La Enseñanza y El Aprendizaje en La Educación Superior
74 páginas
El Poder de los Datos en AWS
Aún no hay calificaciones
El Poder de los Datos en AWS
37 páginas
Semana 1
Aún no hay calificaciones
Semana 1
18 páginas
Bigdata Analytics
Aún no hay calificaciones
Bigdata Analytics
28 páginas
Clase 01 - Conceptos Básicos
Aún no hay calificaciones
Clase 01 - Conceptos Básicos
25 páginas
Big Data en Marketing Empresarial
Aún no hay calificaciones
Big Data en Marketing Empresarial
7 páginas
Modulo - Visualizacion de La Informacion - Ejercicio 5
Aún no hay calificaciones
Modulo - Visualizacion de La Informacion - Ejercicio 5
7 páginas
04 Los Retos Eticos Del BD Por Capilla
Aún no hay calificaciones
04 Los Retos Eticos Del BD Por Capilla
3 páginas
Modulo - Visualizacion de La Informacion - Ejercicio 3
Aún no hay calificaciones
Modulo - Visualizacion de La Informacion - Ejercicio 3
2 páginas
Modulo - Visualizacion de La Informacion - Ejercicio 2
Aún no hay calificaciones
Modulo - Visualizacion de La Informacion - Ejercicio 2
2 páginas
Modulo - Visualizacion de La Informacion - Ejercicio 1
Aún no hay calificaciones
Modulo - Visualizacion de La Informacion - Ejercicio 1
3 páginas
Estrategias de Pricing Dinámico
Aún no hay calificaciones
Estrategias de Pricing Dinámico
30 páginas
Modelos de Analítica-F
Aún no hay calificaciones
Modelos de Analítica-F
68 páginas
Optimización de Precios y Modelos de Demanda
Aún no hay calificaciones
Optimización de Precios y Modelos de Demanda
19 páginas
Reglas de Asociación
Aún no hay calificaciones
Reglas de Asociación
18 páginas
Text Analitycs
Aún no hay calificaciones
Text Analitycs
6 páginas
Tarea 3,4 Intervenciones en Crisis
0% (3)
Tarea 3,4 Intervenciones en Crisis
3 páginas
Presentacion Excavadora 320c Tecmape
Aún no hay calificaciones
Presentacion Excavadora 320c Tecmape
129 páginas
BBB MES 42 Instrucciones FINAL
Aún no hay calificaciones
BBB MES 42 Instrucciones FINAL
16 páginas
Ficha Técnica de Imperite 70
Aún no hay calificaciones
Ficha Técnica de Imperite 70
5 páginas
Organismo Legislativo
0% (1)
Organismo Legislativo
4 páginas
Estudio de Mercado para Asesoria Contable Ramirez
Aún no hay calificaciones
Estudio de Mercado para Asesoria Contable Ramirez
32 páginas
Santo Rosario para Niños
100% (1)
Santo Rosario para Niños
5 páginas
Contenidos Trompa
Aún no hay calificaciones
Contenidos Trompa
9 páginas
Actividad 3 Css 1
Aún no hay calificaciones
Actividad 3 Css 1
2 páginas
Historia Clínica SEMIOLOGIA
Aún no hay calificaciones
Historia Clínica SEMIOLOGIA
8 páginas
Teoría de Los Estatutos
100% (1)
Teoría de Los Estatutos
4 páginas
Eliminación de Registros o Comprobantes Duplicados en El PLE
Aún no hay calificaciones
Eliminación de Registros o Comprobantes Duplicados en El PLE
4 páginas
Formato Acta N°2 Escrutinio
Aún no hay calificaciones
Formato Acta N°2 Escrutinio
5 páginas
Diferencias entre arte, diseño y artesanía
Aún no hay calificaciones
Diferencias entre arte, diseño y artesanía
6 páginas
Manual Viva Asegurado
Aún no hay calificaciones
Manual Viva Asegurado
8 páginas
Clasificación de bienes gravados en Colombia
Aún no hay calificaciones
Clasificación de bienes gravados en Colombia
2 páginas
Especialidad Nuestra Herencia
Aún no hay calificaciones
Especialidad Nuestra Herencia
53 páginas
Continuidad y Discontinuidad Funcional
Aún no hay calificaciones
Continuidad y Discontinuidad Funcional
8 páginas
SDS Novofiller Plus
Aún no hay calificaciones
SDS Novofiller Plus
15 páginas
Contaminación Acústica y Legislación
Aún no hay calificaciones
Contaminación Acústica y Legislación
100 páginas
Relaciones Volumétricas y Gravimétricas
Aún no hay calificaciones
Relaciones Volumétricas y Gravimétricas
28 páginas
Resultado Concurso 103 Plazas Peón
Aún no hay calificaciones
Resultado Concurso 103 Plazas Peón
29 páginas
Estudio de Mercado de La Vivienda Social en La Ciudad de Trujillo
Aún no hay calificaciones
Estudio de Mercado de La Vivienda Social en La Ciudad de Trujillo
77 páginas
Activacion de Expediente Digital
Aún no hay calificaciones
Activacion de Expediente Digital
1 página
7 Pasos para Hacer El Mínimo Producto Viable
Aún no hay calificaciones
7 Pasos para Hacer El Mínimo Producto Viable
10 páginas
Fundamentos de Pruebas Proyectivas
100% (5)
Fundamentos de Pruebas Proyectivas
4 páginas
Apelacion M-03 Tiene Licencia
Aún no hay calificaciones
Apelacion M-03 Tiene Licencia
2 páginas
Fenomenología del Arte Abstracto
Aún no hay calificaciones
Fenomenología del Arte Abstracto
12 páginas
4° Sesión de Aprendizaje Sesión 10-Sem.5-Exp.3-Ccss
Aún no hay calificaciones
4° Sesión de Aprendizaje Sesión 10-Sem.5-Exp.3-Ccss
6 páginas
PASTORIZA, LA CONQUISTA DE LAS VACACIONES Resumen
Aún no hay calificaciones
PASTORIZA, LA CONQUISTA DE LAS VACACIONES Resumen
3 páginas